Kursplan

Avsnitt 1: Introduktion till Hadoop

  • Hadoop-historia, koncept
  • ökosystem
  • distributioner
  • översiktlig arkitektur
  • Hadoop-myter
  • Hadoop-utmaningar
  • hårdvara / programvara
  • lab: första titt på Hadoop

Avsnitt 2: HDFS

  • Design och arkitektur
  • koncept (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
  • daemoner : Namenode, Secondary namenode, Data node
  • kommunikation / hjerthälsningar
  • datatillförlitlighet
  • läs-/skrivväg
  • Namenode High Availability (HA), Federation
  • lab: interaktion med HDFS

Avsnitt 3 : Karta Minska

  • Koncept och arkitektur
  • demoner (MRV1) : jobtracker / tasktracker
  • faser : drivrutin, mappare, blanda / sortera, reducera
  • Mappa minskning version 1 och version 2 (YARN)
  • Internt i Map Reduce
  • Introduktion till Java Map Reduce-programmet
  • labs : Köra ett exempel på ett MapReduce-program

Avsnitt 4 : Gris

  • gris vs java karta minska
  • Flöde för grisjobb
  • gris latin språk
  • ETL med gris
  • Omvandlingar och kopplingar
  • Användardefinierade funktioner (UDF)
  • labs : skriva Pig-skript för att analysera data

Avsnitt 5: Hive

  • Arkitektur och design
  • Datatyper
  • SQL Stöd i Hive
  • Skapa Hive tabeller och frågor
  • Partitioner
  • Går
  • textbehandling
  • Labs : olika labb om bearbetning av data med Hive

Avsnitt 6: HBase

  • Koncept och arkitektur
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Tidsserie data i HBase
  • schema design
  • Laborationer: interaktion med HBase via shell; programmering i HBase Java API ; schema design övning

Krav

  • Bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i Java)
  • Bekväm i Linux miljö (kunna navigera Linux kommandorad, redigera filer med vi / nano)

Labbmiljö

Zero Install : Det finns ingen nödvändighet att installera Hadoop programvara på studenternas datorer! En fungerande Hadoop kluster kommer att tillhandahållas för studenter.

Studenter kommer att behöva följande

  • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows rekommenderas Putty)
  • en webbläsare för att komma åt klustret, Firefox rekommenderas
 28 timmar

Antal deltagare


Price per participant

Vittnesmål (5)

Upcoming Courses

Relaterade Kategorier