Kursplan

1: HDFS (17 %)

  • Beskriva funktionen hos HDFS-demoner
  • Beskriv den normala driften av ett Apache Hadoop-kluster, både vid datalagring och databehandling.
  • Identifiera aktuella egenskaper hos datorsystem som motiverar ett system som Apache Hadoop.
  • Klassificera viktiga mål för HDFS-design
  • I ett scenario identifierar du lämpligt användningsfall för HDFS-federation
  • Identifiera komponenter och daemon i ett HDFS HA-kvorumkluster
  • Analysera rollen för HDFS-säkerhet (Kerberos)
  • Fastställa det bästa valet för dataserialisering för ett visst scenario
  • Beskriv läs- och skrivsökvägar för filer
  • Identifiera kommandona för att manipulera filer i filsystemgränssnittet Hadoop

2: YARN och MapReduce version 2 (MRv2) (17 %)

  • Förstå hur uppgradering av ett kluster från Hadoop 1 till Hadoop 2 påverkar klusterinställningarna
  • Förstå hur du distribuerar MapReduce v2 (MRv2/YARN), inklusive alla YARN-daemoner
  • Förstå grundläggande designstrategi för MapReduce v2 (MRv2)
  • Avgöra hur YARN hanterar resursallokeringar
  • Identifiera arbetsflödet för MapReduce-jobb som körs på YARN
  • Bestäm vilka filer du måste ändra och hur för att migrera ett kluster från MapReduce version 1 (MRv1) till MapReduce version 2 (MRv2) som körs på YARN.

3: Hadoop Klusterplanering (16 %)

  • Viktiga punkter att tänka på när du väljer maskinvara och operativsystem som värd för ett Apache Hadoop-kluster.
  • Analysera alternativen för att välja ett operativsystem
  • Förstå kerneljustering och diskväxling
  • Med tanke på ett scenario och arbetsbelastningsmönster identifierar du en maskinvarukonfiguration som är lämplig för scenariot
  • I ett scenario fastställer du vilka ekosystemkomponenter klustret behöver köra för att uppfylla serviceavtalet
  • Klusterstorlek: Identifiera information om arbetsbelastningen utifrån ett scenario och en körningsfrekvens, inklusive processor, minne, lagring, disk-I/O
  • Diskstorlek och konfiguration, inklusive JBOD jämfört med RAID, SAN, virtualisering och krav på diskstorlek i ett kluster
  • Nätverkstopologier: förstå nätverksanvändning i Hadoop (för både HDFS och MapReduce) och föreslå eller identifiera viktiga nätverksdesignkomponenter för ett givet scenario

4: Hadoop Klusterinstallation och administration (25 %)

  • I ett scenario identifierar du hur klustret ska hantera disk- och datorfel
  • Analysera en loggningskonfiguration och ett filformat för loggningskonfiguration
  • Förstå grunderna i Hadoop mått och övervakning av klusterhälsa
  • Identifiera funktion och syfte med tillgängliga verktyg för klusterövervakning
  • Kunna installera alla ekosystemkomponenter i CDH 5, inklusive (men inte begränsat till): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive och Pig
  • Identifiera funktionen och syftet med tillgängliga verktyg för att hantera Apache Hadoop-filsystemet

5: Resurs Management (10 %)

  • Förstå de övergripande designmålen för var och en av Hadoop schemaläggare
  • I ett scenario avgör du hur FIFO Scheduler allokerar klusterresurser
  • I ett scenario avgör du hur Fair Scheduler allokerar klusterresurser under YARN
  • I ett scenario avgör du hur Capacity Scheduler allokerar klusterresurser

6: Övervakning och loggning (15 %)

  • Förstå funktionerna i Hadoop:s måttinsamlingsförmågor
  • Analysera webbgränssnitten NameNode och JobTracker
  • Förstå hur du övervakar klusterdaemoner
  • Identifiera och övervaka CPU-användning på huvudnoder
  • Beskriv hur du övervakar växling och minnesallokering på alla noder
  • Identifiera hur du visar och hanterar Hadoop:s loggfiler
  • Tolka en loggfil

Krav

  • Grundläggande Linux administrativa färdigheter
  • Grundläggande programmeringskunskaper
 35 timmar

Antal deltagare



Price per participant

Relaterade Kategorier