Kursplan

Avsnitt 1: Data Management i HDFS

 • Olika dataformat (JSON / Avro / Parquet)
 • Komprimeringsscheman
 • Maskering av data
 • Labs : Analysera olika dataformat;  Aktivera komprimering

Avsnitt 2: Avancerad gris

 • Användardefinierade funktioner
 • Introduktion till grisbibliotek (ElephantBird / Data-Fu)
 • Läsa in komplexa strukturerade data med Pig
 • Gris Tuning
 • Labs : avancerad pig scripting, parsning av komplexa datatyper

Avsnitt 3: Avancerat Hive

 • Användardefinierade funktioner
 • Komprimerade tabeller
 • Hive Inställning av prestanda
 • Labs : skapa komprimerade tabeller, utvärdera tabellformat och konfiguration

Avsnitt 4: Avancerad HBase

 • Avancerad schemamodellering
 • Komprimering
 • Massinmatning av data
 • Jämförelse mellan bredbords- och högbordsbord
 • HBase och gris
 • HBase och Hive
 • Justering av HBase-prestanda
 • Labs : tuning HBase; åtkomst till HBase-data från Pig & Hive; Använda Phoenix för datamodellering

Krav

 • bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i java)
 • bekväm i Linux miljö (kunna navigera Linux kommandoraden, redigera filer med vi / nano)
 • en praktisk kunskap om Hadoop.

Labbmiljö

Nollinstallation: Det finns inget behov av att installera hadoop-programvara på elevernas maskiner! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.

Eleverna kommer att behöva följande

 • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows Putty rekommenderas)
 • en webbläsare för att komma åt klustret. Vi rekommenderar webbläsaren Firefox
 21 timmar

Antal deltagarePrice per participant

Vittnesmål (3)

Relaterade Kurser

Relaterade Kategorier