Kursplan

1: HDFS (17 %)

  • Beskriva funktionen hos HDFS-demoner
  • Beskriv den normala driften av ett Apache Hadoop-kluster, både vid datalagring och databehandling.
  • Identifiera aktuella funktioner i datorsystem som motiverar ett system som Apache Hadoop.
  • Klassificera viktiga mål för HDFS-design
  • I ett scenario identifierar du lämpligt användningsfall för HDFS-federation
  • Identifiera komponenter och daemon i ett HDFS HA-Quorum-kluster
  • Analysera rollen för HDFS-säkerhet (Kerberos)
  • Fastställa det bästa valet för dataserialisering för ett visst scenario
  • Beskriv läs- och skrivsökvägar för filer
  • Identifiera kommandona för att manipulera filer i filsystemgränssnittet Hadoop

2: YARN och MapReduce version 2 (MRv2) (17 %)

  • Förstå hur uppgradering av ett kluster från Hadoop 1 till Hadoop 2 påverkar klusterinställningarna
  • Förstå hur du distribuerar MapReduce v2 (MRv2/YARN), inklusive alla YARN-daemoner
  • Förstå grundläggande designstrategi för MapReduce v2 (MRv2)
  • Avgöra hur YARN hanterar resursallokeringar
  • Identifiera arbetsflödet för MapReduce-jobbet som körs på YARN
  • Bestäm vilka filer du måste ändra och hur för att migrera ett kluster från MapReduce version 1 (MRv1) till MapReduce version 2 (MRv2) som körs på YARN.

3: Hadoop Klusterplanering (16 %)

  • Viktiga punkter att tänka på när du väljer maskinvara och operativsystem som värd för ett Apache Hadoop-kluster.
  • Analysera valen när du väljer ett operativsystem
  • Förstå kerneljustering och diskväxling
  • Baserat på ett scenario och arbetsbelastningsmönster identifierar du en maskinvarukonfiguration som är lämplig för scenariot
  • I ett scenario bestämmer du vilka ekosystemkomponenter klustret behöver köras för att uppfylla serviceavtalet
  • Klusterstorlek: baserat på ett scenario och en körningsfrekvens identifierar du detaljerna för arbetsbelastningen, inklusive CPU, minne, lagring, disk-I/O
  • Diskstorlek och konfiguration, inklusive JBOD jämfört med RAID, SAN, virtualisering och krav på diskstorlek i ett kluster
  • Nätverkstopologier: förstå nätverksanvändning i Hadoop (för både HDFS och MapReduce) och föreslå eller identifiera viktiga nätverksdesignkomponenter för ett givet scenario

4: Hadoop Klusterinstallation och administration (25 %)

  • Om du utgår från ett scenario identifierar du hur klustret ska hantera disk- och datorfel
  • Analysera en loggningskonfiguration och filformat för loggningskonfiguration
  • Förstå grunderna i Hadoop mått och övervakning av klusterhälsa
  • Identifiera funktionen och syftet med tillgängliga verktyg för klusterövervakning
  • Kunna installera alla ekosystemkomponenter i CDH 5, inklusive (men inte begränsat till): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive och Pig
  • Identifiera funktionen och syftet med tillgängliga verktyg för att hantera filsystemet Apache Hadoop

5: Resurs Management (10 %)

  • Förstå de övergripande designmålen för var och en av Hadoop schemaläggare
  • I ett scenario avgör du hur FIFO Scheduler allokerar klusterresurser
  • I ett scenario avgör du hur Fair Scheduler allokerar klusterresurser under YARN
  • Om du utgår från ett scenario bestämmer du hur Capacity Scheduler allokerar klusterresurser

6: Övervakning och loggning (15 %)

  • Förstå funktionerna och egenskaperna hos Hadoop:s måttinsamlingsförmågor
  • Analysera webbgränssnitten NameNode och JobTracker
  • Förstå hur du övervakar klusterdaemoner
  • Identifiera och övervaka CPU-användning på huvudnoder
  • Beskriv hur du övervakar växling och minnesallokering på alla noder
  • Identifiera hur du visar och hanterar Hadoop:s loggfiler
  • Tolka en loggfil

Krav

  • Grundläggande Linux administrativa färdigheter
  • Grundläggande kunskaper i programmering
 35 timmar

Antal deltagare


Price per participant

Vittnesmål (3)

Upcoming Courses

Relaterade Kategorier