Kursplan

Avsnitt 1: Data Management i HDFS

  • Olika dataformat (JSON / Avro / Parquet)
  • Komprimeringsscheman
  • Datamaskering
  • Labb: Analys av olika dataformat; aktivering av komprimering

Avsnitt 2: Avancerad Pig

  • Användardefinierade funktioner
  • Introduktion till Pig-bibliotek (ElephantBird / Data-Fu)
  • Inläsning av komplext strukturerad data med Pig
  • Optimering av Pig
  • Labb: avancerad Pig-skriptning, tolknings av komplexa datatyper

Avsnitt 3: Avancerad Hive

  • Användardefinierade funktioner
  • Komprimerade tabeller
  • Hive prestandatuning
  • Labb: skapande av komprimerade tabeller, utvärdering av tabellformat och konfiguration

Avsnitt 4: Avancerad HBase

  • Avancerad schemamodellering
  • Komprimering
  • Massinläsning av data
  • Jämförelse mellan bred-tabell och hög-tabell
  • HBase och Pig
  • HBase och Hive
  • Prestandatuning av HBase
  • Labb: tuning av HBase; åtkomst till HBase-data från Pig och Hive; Användning av Phoenix för datamodellering

Krav

  • bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i java)
  • bekväm i Linux miljö (kunna navigera i Linux kommandorad, redigera filer med vi / nano)
  • grundläggande kunskaper i Hadoop.

Labbmiljö

Nollinstallation: Det finns ingen anledning att installera Hadoop-software på studenternas datorer! Ett fungerande Hadoop-kluster kommer att tillhandahållas för studenterna.

Studenter behöver följande

 21 timmar

Antal deltagare


Price per participant

Vittnesmål (5)

Upcoming Courses

Relaterade Kategorier