Kursplan

Modul 1. Introduktion till Hadoop

  • Det Hadoop distribuerade filsystemet (HDFS)
  • Lässökvägen och skrivsökvägen
  • Hantera metadata för filsystem
  • Namnnoden och datanoden
  • Namnnoden Hög tillgänglighet
  • Federationen för namnnod
  • Kommandoradsverktygen
  • Förstå REST-stöd

Modul 2. Introduktion till MapReduce

  • Analysera data med Hadoop
  • Karta och reducera mönster
  • Java MapReduce
  • Skala ut
  • Flöde
  • Utveckla kombinationsfunktioner
  • Köra ett distribuerat MapReduce-jobb

Modul 3. Planera ett Hadoop kluster

  • Välja en distribution och version av Hadoop
  • Versioner och funktioner
  • Val av hårdvara
  • Val av huvud- och arbetsmaskinvara
  • Storlek på kluster
  • Val och förberedelse av operativsystem
  • Layout för distribution
  • Ställa in användare, grupper och privilegier
  • Konfiguration av disk
  • Utformning av nätverk

Modul 4. Installation och konfiguration

  • Installera Hadoop
  • Konfiguration: En översikt
  • Konfigurationsfilerna Hadoop XML
  • Miljövariabler och skalskript
  • Konfiguration av loggning
  • Hantera HDFS
  • Optimering och trimning
  • Formatera namnnoden
  • Skapa en /tmp-katalog
  • Tänker Namenode Hög tillgänglighet
  • Alternativen för stängsel
  • Konfiguration av automatisk redundans
  • Formatera och Bootstrap namnnoderna
  • Federationen för namnnod

Modul 5. Förstå Hadoop I/O

  • Dataintegritet i HDFS  
  • Så här fungerar codecs
  • Komprimering och indatadelningar
  • Använda komprimering i MapReduce
  • Mekanismen för serialisering
  • Filbaserade datastrukturer
  • Formatet SequenceFile
  • Andra filformat och kolumnorienterade format

Modul 6. Utveckla ett MapReduce-program

  • API:et för konfiguration
  • Konfigurera utvecklingsmiljön
  • Hantera konfiguration
  • GenericOptionsParser, Tool och ToolRunner
  • Skriva ett enhetstest med MRUnit
  • Mapparen och reduceraren
  • Köra lokalt på testdata 
  • Testa drivrutinen
  • Körs i ett kluster
  • Paketera och starta ett jobb
  • Webbgränssnittet för MapReduce
  • Justera ett jobb

Modul 7. Identitet, autentisering och auktorisering

  • Hantera identitet
  • Kerberos och Hadoop
  • Förstå auktorisering

Modul 8. Resurs Management

  • Vad är resurs Management?
  • HDFS-kvoter
  • MapReduce-schemaläggare
  • Anatomi för en YARN-programkörning
  • Begäran om resurser
  • Applikationens livslängd
  • YARN Jämfört med MapReduce 1
  • Schemaläggning i YARN
  • Alternativ för schemaläggare
  • Konfiguration av kapacitetsschemaläggare
  • Konfiguration av rättvis schemaläggare
  • Fördröj schemaläggning
  • Dominerande resursrättvisa

Modul 9. MapReduce-typer och format

  • MapReduce-typer
  • Standardjobbet MapReduce
  • Definiera indataformat
  • Hantera indatadelningar och poster
  • Textinmatning och binär inmatning
  • Hantera flera indata
  • Database Ingång (och utgång)
  • Utdataformat
  • Textutmatning och binär utmatning
  • Hantera flera utdata
  • Utdata Database

Modul 10. Använda MapReduce-funktioner

  • Använda räknare
  • Läsa inbyggda räknare
  • Användardefinierade Java räknare
  • Förstå sortering
  • Använda den distribuerade cachen

Modul 11. Klusterunderhåll och felsökning

  • Hantera Hadoop processer
  • Starta och stoppa processer med Init-skript
  • Starta och stoppa processer manuellt
  • Underhållsuppgifter för HDFS
  • Lägga till en datanod
  • Inaktivera en Datanode
  • Kontrollera filsystemets integritet med fsck
  • Balansera HDFS-blockdata
  • Hantera en misslyckad disk
  • MapMinska underhållsuppgifter 
  • Avsluta ett MapReduce-jobb
  • Avsluta en MapReduce-uppgift
  • Hantera resursutmattning

Modul 12. Övervakning

  • De tillgängliga Hadoop mätvärdena
  • SNMP:s roll
  • Övervakning av hälsotillstånd
  • Kontroller på värdnivå
  • HDFS-kontroller
  • MapReduce-kontroller

Modul 13. Säkerhetskopiering och återställning

  • Säkerhetskopiering av data
  • Distribuerad kopia (distcp)
  • Parallell datainmatning
  • Metadata för namnnod
 21 timmar

Antal deltagare


Price per participant

Vittnesmål (1)

Upcoming Courses