Kursplan

Avsnitt 1: Introduktion till Hadoop

 • Hadoop Historia, Begrepp
 • Ekosystem
 • Distributioner
 • Arkitektur på hög nivå
 • Hadoop myter
 • Hadoop utmaningar
 • Hårdvara / Mjukvara
 • Lab: Första titt på Hadoop

Avsnitt 2: HDFS

 • Design och arkitektur
 • Begrepp (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
 • Daemoner: Namnnod, Sekundär namnnod,  Datanod
 • Kommunikation / Hjärtslag
 • Dataintegritet
 • Läs-/skrivsökväg
 • Namnnod med hög tillgänglighet (HA), federation
 • labs : Interagera med HDFS

Avsnitt 3: Kartreducering

 • Koncept och arkitektur
 • daemons (MRV1): jobtracker / tasktracker
 • faser: drivrutin, mappare, blanda/sortera, reducera
 • Mappa reducera version 1 och version 2 (YARN)
 • Internt i kartreducering
 • Introduktion till Java Map Reduce-programmet
 • labs : Köra ett exempel på MapReduce-program

Avsnitt 4 : Gris

 • gris vs java karta minska
 • Flöde för grisjobb
 • gris latin språk
 • ETL med gris
 • Transformationer och kopplingar
 • Användardefinierade funktioner (UDF)
 • labs : skriva Pig-skript för att analysera data

Avsnitt 5: Hive

 • Arkitektur och design
 • Datatyper
 • SQL Stöd i Hive
 • Skapa Hive tabeller och frågor
 • Partitioner
 • Går
 • textbehandling
 • Labs : olika labb om bearbetning av data med Hive

Avsnitt 6: HBase

 • Koncept och arkitektur
 • hbase vs RDBMS vs cassandra
 • HBase Java API
 • Tidsseriedata för HBase
 • Utformning av schema
 • labs : Interagera med HBase med hjälp av skal;   programmering i HBase Java API ; Övning av schemadesign

Krav

 • bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i java)
 • bekväm i Linux miljö (kunna navigera Linux kommandoraden, redigera filer med vi / nano)

Labbmiljö

Nollinstallation : Det finns inget behov av att installera hadoop-programvara på elevernas maskiner! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.

Eleverna kommer att behöva följande

 • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows Putty rekommenderas)
 • en webbläsare för att komma åt klustret. Vi rekommenderar webbläsaren Firefox
 28 timmar

Antal deltagarePrice per participant

Relaterade Kategorier