Kursplan

Avsnitt 1: Introduktion till Hadoop

  • Hadoop-historia, koncept
  • ekosystem
  • distributioner
  • övergripande arkitektur
  • Hadoop-myter
  • Hadoop-utmaningar
  • hårdvara/programvara
  • labb : första inblicken i Hadoop

Avsnitt 2: HDFS

  • design och arkitektur
  • koncept (horisontell skalning, replikering, data-placering, rack-awareness)
  • dämoner : Namenode, Secondary namenode, Data node
  • kommunikation/heartbeat
  • dataintegritet
  • läs-/skrivsökväg
  • Namenode High Availability (HA), Federation
  • labb : interagera med HDFS

Avsnitt 3: Map Reduce

  • koncept och arkitektur
  • dämoner (MRV1) : jobtracker / tasktracker
  • faser : drivrutin, mapper, shuffle/sort, reducer
  • Map Reduce Version 1 och Version 2 (YARN)
  • internationella aspekter av Map Reduce
  • Introduktion till Java Map Reduce-program
  • labb : köra ett exempel på MapReduce-program

Avsnitt 4: Pig

  • pig vs java map reduce
  • Pig-jobbflöde
  • Pig Latin-språk
  • ETL med Pig
  • transformeringar och joinar
  • Användardefinierade funktioner (UDF)
  • labb : skriva Pig-skript för att analysera data

Avsnitt 5: Hive

  • arkitektur och design
  • datatyper
  • SQL-stöd i Hive
  • Skapa Hive-tabeller och fråga
  • partitioner
  • joinar
  • textbehandling
  • labb : olika labbar för att bearbeta data med Hive

Avsnitt 6: HBase

  • koncept och arkitektur
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Tidsrad-data i HBase
  • schemadesign
  • labb : interagera med HBase via gränssnittet; programmering med HBase Java API; övning i schemadesign

Krav

  • behaglig med Java-programmeringsspråket (flesta programmeringsövningar är i Java)
  • behaglig i Linux-miljön (ska kunna navigera i Linux-kommandoraden, redigera filer med vi/nano)

Labbmiljö

Ingående installation : Det behövs ingen installation av Hadoop-programvara på studenternas maskiner! En fungerande Hadoop-kluster kommer att tillhandahållas för studenter.

Studenter kommer att behöva följande

  • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows rekommenderas Putty)
  • en webbläsare för att komma åt klustret, Firefox rekommenderas
 28 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (5)

Kommande Kurser

Relaterade Kategorier