Kursplan

  • Införandet
    • Hadoop Historia, begrepp
    • Ekosystem
    • Distributioner
    • Arkitektur på hög nivå
    • Hadoop Myter
    • Hadoop Utmaningar (hårdvara/mjukvara)
    • Labs: diskutera dina Big Data projekt och problem
  • Planering och installation
    • Välja programvara, Hadoop distributioner
    • Dimensionera klustret, planera för tillväxt
    • Välja maskinvara och nätverk
    • Rack-topologi
    • Installation
    • Flera innehavare
    • Katalogstruktur, loggar
    • Riktmärkning
    • Labb: klusterinstallation, köra prestandamått
  • HDFS-åtgärder
    • Begrepp (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
    • Noder och daemoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Hälsoövervakning
    • Kommandorads- och webbläsarbaserad administration
    • Lägga till lagring, byta ut defekta enheter
    • Labs: bekanta dig med HDFS-kommandorader
  • Inmatning av data
    • Flume för loggar och annan datainmatning i HDFS
    • Sqoop för import från SQL databaser till HDFS, samt export tillbaka till SQL
    • Hadoop Datalagring med Hive
    • Kopiera data mellan kluster (distcp)
    • Använda S3 som komplement till HDFS
    • Metodtips och arkitekturer för datainmatning
    • Labs: ställa in och använda Flume, samma för Sqoop
  • MapReduce åtgärder och administration
    • Parallell databehandling före mapreduce: jämför HPC med Hadoop administration
    • MapReduce klusterbelastningar
    • Noder och daemoner (JobTracker, TaskTracker)
    • Genomgång av användargränssnittet för MapReduce
    • Mapreduce-konfiguration
    • Konfiguration av jobb
    • Optimera MapReduce
    • Idiotsäker MR: vad du ska säga till dina programmerare
    • Labs: köra MapReduce-exempel
  • YARN: ny arkitektur och nya funktioner
    • YARN-designmål och implementeringsarkitektur
    • Nya aktörer: ResourceManager, NodeManager, Application Master
    • Installera YARN
    • Finplanering under YARN
    • Labb: undersöka schemaläggning av jobb
  • Avancerade ämnen
    • Övervakning av hårdvara
    • Övervakning av kluster
    • Lägga till och ta bort servrar, uppgradera Hadoop
    • Säkerhetskopiering, återställning och kontinuitetsplanering
    • Arbetsflöden för Oozie-jobb
    • Hadoop hög tillgänglighet (HA)
    • Hadoop Federationen
    • Skydda klustret med Kerberos
    • Labb: konfigurera övervakning
  • Valfria spår
    • Cloudera Manager för klusteradministration, övervakning och rutinuppgifter; installation, användning. I detta spår utförs alla övningar och laborationer inom Cloudera-distributionsmiljön (CDH5)
    • Ambari för klusteradministration, övervakning och rutinuppgifter; installation, användning. I det här spåret utförs alla övningar och laborationer inom Ambari cluster manager och Hortonworks Data Platform (HDP 2.0)

Krav

  • bekväm med grundläggande Linux systemadministration
  • grundläggande skriptfärdigheter

Kunskaper i Hadoop och Distributed Computing krävs inte, men kommer att introduceras och förklaras i kursen.

Labbmiljö

Nollinstallation : Det finns inget behov av att installera hadoop-programvara på elevernas maskiner! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.

Eleverna kommer att behöva följande

  • en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows Putty rekommenderas)
  • en webbläsare för att komma åt klustret. Vi rekommenderar webbläsaren Firefox med FoxyProxy-tillägget installerat
 21 timmar

Antal deltagare



Price per participant

Vittnesmål (3)

Relaterade Kurser

Relaterade Kategorier