NWI-IBC036
Big Data
Course infoSchedule
Course moduleNWI-IBC036
Credits (ECTS)6
CategoryBA (Bachelor)
Language of instructionEnglish
Offered byRadboud University; Faculty of Science; Informatica en Informatiekunde;
Lecturer(s)
Coordinator
prof. dr. ir. A.P. de Vries
Other course modules lecturer
Lecturer
prof. dr. ir. A.P. de Vries
Other course modules lecturer
Contactperson for the course
prof. dr. ir. A.P. de Vries
Other course modules lecturer
Academic year2017
Period
KW3-KW4  (05/02/2018 to 02/09/2018)
Starting block
KW3
Course mode
full-time
Remarks-
Registration using OSIRISYes
Course open to students from other facultiesYes
Pre-registrationNo
Waiting listNo
Placement procedure-
Aims

Na het volgen van deze cursus kunnen de studenten

  • uitleggen hoe een data centrum is opgezet, en de uitdagingen van het programmeren op de schaal van een data centrum benoemen;
  • de architectuur van map-reduce en moderne varianten zoals Spark beschrijven en analyseren;
  • deze architectuur inzetten voor het oplossen van big data problematiek;
  • veelgebruikte algorithmen, data-structuren en implementatietechnieken analyseren en gebruiken.
Content

Hoe programmeer je een data centrum in plaats van een enkele computer? Wil je weten hoe internetbedrijven als Amazon, Facebook, Google, Twitter en Yahoo hun oplossingen bouwen? In deze cursus maak je kennis met technieken om grote hoeveelheden data efficiënt te bewerken. We behandelen de motivatie voor big data, de redenen om big data problemen met grootschalige compute infrastructuur op te lossen, de benodigde algorithmiek, en de daarvoor ontwikkelde grootschalige software platforms.

Literature
Background literature is provided via Blackboard.

Teaching formats
• 32 uur begeleid individueel project werk
• 32 uur hoorcollege
• 104 uur zelfstudie

Toelichting werkvormen: De cursus is gericht op het versterken van praktische vaardigheden, waaronder het gebruik van Spark, github en Docker. Opdrachten bereiden de studenten voor op een eindproject waarin wordt gewerkt met een grote webcrawl (~150 TB) op het nationale Hadoop cluster van SurfSara.

Topics
Big data, large scale data engineering, access patterns, latency vs. throughput, distributed file systems, mapreduce / Hadoop, Spark, NOSQL, locality sensitive hashing, inverted files, sharding, streaming, replication, fault-tolerance.

Test information
Via een schriftelijk tentamen (examinering in twee toetsen), praktische opdrachten, en een afsluitend project.

Prerequisites
Basiskennis programmeren (niveau van de propedeuse informatica).

Required materials
To be announced
Literature is to be announced via Blackboard

Instructional modes
Course
Attendance MandatoryYes

Lecture
Attendance MandatoryYes

Project
Attendance MandatoryYes

Zelfstudie

General
De cursus is gericht op het versterken van praktische vaardigheden, waaronder het gebruik van Spark, github en Docker. Opdrachten bereiden de studenten voor op een eindproject waarin wordt gewerkt met een grote webcrawl (~150 TB) op het nationale Hadoop cluster van SurfSara.

Tests
Tentamen
Test weight1
OpportunitiesBlock KW4, Block KW4