Kursplan

Avsnitt 1: Datahantering i HDFS

  • Flera dataformat (JSON / Avro / Parquet)
  • Komprimeringsmetoder
  • Data maskering
  • Laborationer : Analys av olika dataformat; aktivering av kompression

Avsnitt 2: Avancerad Pig

  • Användardefinierade funktioner
  • Introduktion till Pig-bibliotek (ElephantBird / Data-Fu)
  • Läsa in komplexa strukturerade data med Pig
  • Pig-tuning
  • Laborationer : avancerad Pig-skriptning, tolkning av komplexa datatyper

Avsnitt 3: Avancerad Hive

  • Användardefinierade funktioner
  • Komprimerade tabeller
  • Hive-prestandatuning
  • Laborationer : skapa komprimerade tabeller, utvärdera tabelformater och konfiguration

Avsnitt 4: Avancerad HBase

  • Avancerat schemamodellering
  • Komprimering
  • Massedatainsättning
  • Jämförelse av breda- och långatabeller
  • HBase och Pig
  • HBase och Hive
  • HBase-prestandatuning
  • Laborationer : tuning HBase; åtkomst till HBase-data från Pig & Hive; Användning av Phoenix för datamodellering

Krav

  • komfortabel med Java-programmeringsspråket (flesta programmeringsövningar är på java)
  • komfortabel i Linux-miljö (ska kunna navigera i Linux-kommandoraden, redigera filer med hjälp av vi / nano)
  • praktisk kunskap om Hadoop.

Labbmiljö

Inga installationer: Det finns ingen behov att installera Hadoop-programvara på studerandes datorer! En fungerande Hadoop-kluster kommer att tillhandahållas för studerande.

Studerande behöver följande

 21 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (5)

Kommande Kurser

Relaterade Kategorier