Kursplan

Avsnitt 1: Data Management i HDFS

  • Olika dataformat (JSON / Avro / Parquet)
  • Komprimeringsscheman
  • Maskering av data
  • Labs : Analysera olika dataformat;  Aktivera komprimering

Avsnitt 2: Avancerad gris

  • Användardefinierade funktioner
  • Introduktion till grisbibliotek (ElephantBird / Data-Fu)
  • Läsa in komplexa strukturerade data med Pig
  • Gris Tuning
  • Labs : avancerad pig scripting, parsning av komplexa datatyper

Avsnitt 3: Avancerat Hive

  • Användardefinierade funktioner
  • Komprimerade tabeller
  • Hive Inställning av prestanda
  • Labs : skapa komprimerade tabeller, utvärdera tabellformat och konfiguration

Avsnitt 4: Avancerad HBase

  • Avancerad schemamodellering
  • Komprimering
  • Massinmatning av data
  • Jämförelse mellan bredbords- och högbordsbord
  • HBase och gris
  • HBase och Hive
  • Justering av HBase-prestanda
  • Labs : tuning HBase; åtkomst till HBase-data från Pig & Hive; Använda Phoenix för datamodellering

Krav

  • bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i java)
  • bekväm i Linux miljö (kunna navigera Linux kommandoraden, redigera filer med vi / nano)
  • en praktisk kunskap om Hadoop.

Labbmiljö

Nollinstallation: Det finns inget behov av att installera hadoop-programvara på elevernas maskiner! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.

Eleverna kommer att behöva följande

  • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows Putty rekommenderas)
  • en webbläsare för att komma åt klustret. Vi rekommenderar webbläsaren Firefox
  21 timmar
 

Antal deltagare


Starts

Ends


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Vittnesmål (3)

Relaterade Kurser

Relaterade Kategorier