Kursplan

Avsnitt 1: Introduktion till Hadoop

  • Hadoop Historia, Begrepp
  • Ekosystem
  • Distributioner
  • Arkitektur på hög nivå
  • Hadoop myter
  • Hadoop utmaningar
  • Hårdvara / Mjukvara
  • Lab: Första titt på Hadoop

Avsnitt 2: HDFS

  • Design och arkitektur
  • Begrepp (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
  • Daemoner: Namnnod, Sekundär namnnod,  Datanod
  • Kommunikation / Hjärtslag
  • Dataintegritet
  • Läs-/skrivsökväg
  • Namnnod med hög tillgänglighet (HA), federation
  • labs : Interagera med HDFS

Avsnitt 3: Kartreducering

  • Koncept och arkitektur
  • daemons (MRV1): jobtracker / tasktracker
  • faser: drivrutin, mappare, blanda/sortera, reducera
  • Mappa reducera version 1 och version 2 (YARN)
  • Internt i kartreducering
  • Introduktion till Java Map Reduce-programmet
  • labs : Köra ett exempel på MapReduce-program

Avsnitt 4 : Gris

  • gris vs java karta minska
  • Flöde för grisjobb
  • gris latin språk
  • ETL med gris
  • Transformationer och kopplingar
  • Användardefinierade funktioner (UDF)
  • labs : skriva Pig-skript för att analysera data

Avsnitt 5: Hive

  • Arkitektur och design
  • Datatyper
  • SQL Stöd i Hive
  • Skapa Hive tabeller och frågor
  • Partitioner
  • Går
  • textbehandling
  • Labs : olika labb om bearbetning av data med Hive

Avsnitt 6: HBase

  • Koncept och arkitektur
  • hbase vs RDBMS vs cassandra
  • HBase Java API
  • Tidsseriedata för HBase
  • Utformning av schema
  • labs : Interagera med HBase med hjälp av skal;   programmering i HBase Java API ; Övning av schemadesign

Krav

  • bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i java)
  • bekväm i Linux miljö (kunna navigera Linux kommandoraden, redigera filer med vi / nano)

Labbmiljö

Nollinstallation : Det finns inget behov av att installera hadoop-programvara på elevernas maskiner! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.

Eleverna kommer att behöva följande

  • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows Putty rekommenderas)
  • en webbläsare för att komma åt klustret. Vi rekommenderar webbläsaren Firefox
 28 timmar

Antal deltagare



Price per participant

Relaterade Kategorier