Kursplan

1: HDFS (17%)

  • Beskriv funktionen hos HDFS Daemons
  • Beskriv den normala drift av en Apache Hadoop kluster, både när det gäller datalagring och datahantering.
  • Identifiera nuvarande egenskaper hos datorsystem som motiverar ett system som Apache Hadoop.
  • Klassificera de viktigaste målen för HDFS Design
  • Med ett scenario, identifiera lämpligt användningsfall för HDFS Federation
  • Identifiera komponenter och daemon i en HDFS HA-Quorum kluster
  • Analysera rollen för HDFS säkerhet (Kerberos)
  • Bestäm det bästa valet för data-serialisering för ett givet scenario
  • Beskriv fil-läs- och skrivvägar
  • Identifiera kommandona för att hantera filer i Hadoop Fil System Shell

2: YARN och MapReduce version 2 (MRv2) (17%)

  • Förstå hur en uppgradering av en kluster från Hadoop 1 till Hadoop 2 påverkar klusterinställningar
  • Förstå hur man distribuerar MapReduce v2 (MRv2 / YARN), inklusive alla YARN daemons
  • Förstå den grundläggande designstrategin för MapReduce v2 (MRv2)
  • Bestäm hur YARN hanterar resursallokeringar
  • Identifiera arbetets gång för en MapReduce-jobb som körs på YARN
  • Bestäm vilka filer du måste ändra och hur du ska migrera en kluster från MapReduce version 1 (MRv1) till MapReduce version 2 (MRv2) som körs på YARN.

3: Hadoop Klusterplanering (16%)

  • Huvudpunkter att överväga när du väljer hårdvara och operativsystem för att värda en Apache Hadoop kluster.
  • Analysera valet av OS
  • Förstå kärnanjustering och diskbyten
  • Med ett scenario och arbetsmönster, identifiera en hårdvarukonfiguration som passar scenariot
  • Med ett scenario, bestäm vilka ekosystemkomponenter din kluster behöver för att uppfylla SLA
  • Klusterstorlek: med ett scenario och utförande frekvens, identifiera detaljerna för arbetsbelastningen, inklusive CPU, minne, lagring, disk-I/O
  • Diskstorlek och konfiguration, inklusive JBOD mot RAID, SANs, virtualisering och diskstorlekskrav i en kluster
  • Nätverkstopologier: förstå nätverksanvändning i Hadoop (för både HDFS och MapReduce) och föreslå eller identifiera nyckelkomponenter i nätverksdesign för ett givet scenario

4: Hadoop Klusterinstallation och administration (25%)

  • Med ett scenario, identifiera hur klustret hanterar disk- och maskinfel
  • Analysera en loggkonfiguration och loggkonfigurationsfilformat
  • Förstå de grundläggande Hadoop mätvärdena och klusterhälsövervakningen
  • Identifiera funktionen och syftet med tillgängliga verktyg för klusterövervakning
  • Kunna installera alla ekosystemkomponenter i CDH 5, inklusive (men inte begränsat till): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive, och Pig
  • Identifiera funktionen och syftet med tillgängliga verktyg för hantering av Apache Hadoop filsystem

5: Resurs Management (10%)

  • Förstå de övergripande designmålen för varje Hadoop schemaläggare
  • Med ett scenario, bestäm hur FIFO-schemaläggaren allokerar klusterresurser
  • Med ett scenario, bestäm hur Fair Scheduler allokerar klusterresurser under YARN
  • Med ett scenario, bestäm hur Capacity Scheduler allokerar klusterresurser

6: Övervakning och loggning (15%)

  • Förstå funktionerna och egenskaperna hos Hadoop mätvärdena
  • Analysera NameNode och JobTracker Web UIs
  • Förstå hur du övervakar klusterdaemons
  • Identifiera och övervaka CPU-användningen på master-noder
  • Beskriv hur du övervakar swap och minnesallokering på alla noder
  • Identifiera hur du visar och hanterar Hadoop loggfiler
  • Tolka en loggfil

Krav

  • Grundläggande Linux administrationsfärdigheter
  • Grundläggande programmeringsfärdigheter
 35 timmar

Antal deltagare


Price per participant

Vittnesmål (3)

Upcoming Courses

Relaterade Kategorier