Kursplan

  • Införandet
    • Hadoop Historia, begrepp
    • Ekosystem
    • Distributioner
    • Arkitektur på hög nivå
    • Hadoop Myter
    • Hadoop Utmaningar (hårdvara/mjukvara)
    • Labb: diskutera dina Big Data projekt och problem
  • Planering och installation
    • Välja programvara, Hadoop distributioner
    • Dimensionering av klustret, planering för tillväxt
    • Välja maskinvara och nätverk
    • Rack-topologi
    • Installation
    • Flera innehavare
    • Katalogstruktur, loggar
    • Riktmärkning
    • Labb: klusterinstallation, köra prestandamått
  • HDFS-åtgärder
    • Begrepp (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
    • Noder och daemoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Övervakning av hälso- och sjukvården
    • Kommandorads- och webbläsarbaserad administration
    • Lägga till lagring, byta ut defekta enheter
    • Labb: bekanta dig med HDFS-kommandorader
  • Inmatning av data
    • Flume för loggar och annan datainmatning i HDFS
    • Sqoop för import från SQL databaser till HDFS, samt export tillbaka till SQL
    • Hadoop Datalagring med Hive
    • Kopiera data mellan kluster (distcp)
    • Använda S3 som komplement till HDFS
    • Metodtips och arkitekturer för datainmatning
    • Labs: installera och använda Flume, samma för Sqoop
  • MapReduce drift och administration
    • Parallell databehandling före mapreduce: jämför HPC med Hadoop administration
    • MapReduce klusterbelastningar
    • Noder och daemoner (JobTracker, TaskTracker)
    • Genomgång av användargränssnittet för MapReduce
    • Mapreduce-konfiguration
    • Konfiguration av jobb
    • Optimera MapReduce
    • Idiotsäker MR: vad du ska berätta för dina programmerare
    • Labb: köra MapReduce-exempel
  • YARN: ny arkitektur och nya funktioner
    • YARN designmål och implementeringsarkitektur
    • Nya aktörer: ResourceManager, NodeManager, Application Master
    • Installera YARN
    • Finplanering under YARN
    • Labb: undersöka schemaläggning av jobb
  • Avancerade ämnen
    • Övervakning av hårdvara
    • Övervakning av kluster
    • Lägga till och ta bort servrar, uppgradera Hadoop
    • Säkerhetskopiering, återställning och planering av affärskontinuitet
    • Arbetsflöden för Oozie-jobb
    • Hadoop hög tillgänglighet (HA)
    • Hadoop Federationen
    • Skydda klustret med Kerberos
    • Labb: konfigurera övervakning
  • Valfria spår
    • Cloudera Manager för klusteradministration, övervakning och rutinuppgifter; installation, användning. I det här spåret utförs alla övningar och laborationer inom Cloudera-distributionsmiljön (CDH5)
    • Ambari för klusteradministration, övervakning och rutinuppgifter; installation, användning. I det här spåret utförs alla övningar och laborationer inom Ambari cluster manager och Hortonworks Data Platform (HDP 2.0)

Krav

  • Bekväm med grundläggande Linux systemadministration
  • Grundläggande skriptkunskaper

Kunskaper i Hadoop och distribuerade beräkningar är inte obligatoriska, men kommer att introduceras och förklaras i kursen.

Labbmiljö

Noll installation : Det finns inget behov av att installera hadoop-programvara på elevernas datorer! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.

Studenter kommer att behöva följande

 21 timmar

Antal deltagare


Price per participant

Vittnesmål (5)

Upcoming Courses