Kursplan

Avsnitt 1: Data Management i HDFS

  • Olika dataformat (JSON / Avro / Parquet)
  • Komprimeringsscheman
  • Maskering av data
  • Labb : Analysera olika dataformat;  Aktivera komprimering

Avsnitt 2: Avancerad gris

  • Användardefinierade funktioner
  • Introduktion till grisbibliotek (ElephantBird / Data-Fu)
  • Ladda komplexa strukturerade data med Pig
  • gris stämning
  • Labs : avancerad pig scripting, parsning av komplexa datatyper

Avsnitt 3 : Avancerat Hive

  • Användardefinierade funktioner
  • Komprimerade tabeller
  • Hive Inställning av prestanda
  • Labs : skapa komprimerade tabeller, utvärdera tabellformat och konfiguration

Avsnitt 4: Avancerad HBase

  • Avancerad schemamodellering
  • Komprimering
  • Massinmatning av data
  • Jämförelse mellan bredbord och högt bord
  • HBase och gris
  • HBase och Hive
  • HBase prestanda trimning
  • Labs : tuning HBase; åtkomst till HBase-data från Pig & Hive; Använda Phoenix för datamodellering

Krav

  • Bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i Java)
  • bekväm i Linux miljö (kunna navigera Linux kommandoraden, redigera filer med vi / nano)
  • En praktisk  kunskap om Hadoop.

Labbmiljö

Noll installation: Det finns inget behov av att installera hadoop-programvara på elevernas datorer! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.

Studenter kommer att behöva följande

 21 timmar

Antal deltagare


Price per participant

Vittnesmål (5)

Upcoming Courses