Kursplan

Modul 1. Introduktion till Hadoop

  • Hadoop Distributed File System (HDFS)
  • Läsvägen och Skrivvägen
  • Hantera filsystemmetadata
  • Namnnoden och datanoden
  • Namenode hög tillgänglighet
  • Namenode Federation
  • Kommandoradsverktygen
  • Förstå REST Support

Modul 2. Introduktion till MapReduce

  • Analysera data med Hadoop
  • Kartlägga och minska mönster
  • Java MapReduce
  • Skala ut
  • Data flöde
  • Utveckla Combiner-funktioner
  • Köra ett distribuerat MapReduce-jobb

Modul 3. Planera ett Hadoop kluster

  • Välja en distribution och version av Hadoop
  • Versioner och funktioner
  • Val av hårdvara
  • Val av befälhavare och arbetare
  • Klusterstorlek
  • Val och förberedelse av operativsystem
  • Implementeringslayout
  • Ställa in användare, grupper och privilegier
  • Diskkonfiguration
  • Nätverksdesign

Modul 4. Installation och konfiguration

  • Installerar Hadoop
  • Konfiguration: En översikt
  • Konfigurationsfilerna Hadoop XML
  • Miljövariabler och skalskript
  • Loggningskonfiguration
  • Hantera HDFS
  • Optimering och inställning
  • Formatera Namenode
  • Skapa en /tmp-katalog
  • Tänker Namenode hög tillgänglighet
  • Stängselalternativen
  • Automatisk failover-konfiguration
  • Formatera och Bootstrap namnnoderna
  • Namenode Federation

Modul 5. Förstå Hadoop I/O

  • Dataintegritet i HDFS
  • Förstå codecs
  • Kompression och ingångsdelningar
  • Använda komprimering i MapReduce
  • Serialiseringsmekanismen
  • Filbaserade datastrukturer
  • SequenceFile-formatet
  • Andra filformat och kolumnorienterade format

Modul 6. Utveckla en MapReduce-applikation

  • Configuration API
  • Ställa in utvecklingsmiljön
  • Hantera konfiguration
  • GenericOptionsParser, Tool och ToolRunner
  • Att skriva ett enhetstest med MRUnit
  • Kartläggaren och reduceraren
  • Körs lokalt på testdata
  • Testa drivrutinen
  • Kör på ett kluster
  • Packa och lansera ett jobb
  • Webbgränssnittet för MapReduce
  • Trimma ett jobb

Modul 7. Identitet, autentisering och auktorisering

  • Hantera identitet
  • Kerberos och Hadoop
  • Förstå auktorisation

Modul 8. Resurs Management

  • Vad är resurs Management?
  • HDFS-kvoter
  • MapReduce Schedulers
  • Anatomi av en GARN-applikationskörning
  • Resursförfrågningar
  • Applikationslivslängd
  • GARN Jämfört med MapReduce 1
  • Schemaläggning i GARN
  • Schemaläggaralternativ
  • Capacity Scheduler Configuration
  • Fair Scheduler Configuration
  • Fördröjning av schemaläggning
  • Dominant resursrättvisa

Modul 9. MapReduce typer och format

  • MapReduce Types
  • Standardjobbet MapReduce
  • Definiera indataformat
  • Hantera indatadelningar och poster
  • Textinmatning och binär inmatning
  • Hantera flera ingångar
  • Database Ingång (och utgång)
  • Utdataformat
  • Textutdata och binär utdata
  • Hantera flera utgångar
  • Utgången Database

Modul 10. Använda MapReduce-funktioner

  • Använda räknare
  • Läser inbyggda räknare
  • Användardefinierade Java räknare
  • Förstå sortering
  • Använda den distribuerade cachen

Modul 11. Klusterunderhåll och felsökning

  • Hantera Hadoop processer
  • Starta och stoppa processer med Init-skript
  • Starta och stoppa processer manuellt
  • HDFS Underhållsuppgifter
  • Lägga till en Datanode
  • Avveckling av en Datanode
  • Kontrollerar filsystemets integritet med fsck
  • Balansering av HDFS-blockdata
  • Hantera en defekt disk
  • MapReduce Underhållsuppgifter
  • Att döda ett MapReduce-jobb
  • Att döda en MapReduce-uppgift
  • Hantera resursutmattning

Modul 12. Övervakning

  • Tillgängliga Hadoop mätvärden
  • SNMP:s roll
  • Hälsoövervakning
  • Kontroller på värdnivå
  • HDFS-kontroller
  • MapReduce Checks

Modul 13. Säkerhetskopiering och återställning

  • Säkerhetskopiering av data
  • Distribuerad kopia (distcp)
  • Parallell dataintag
  • Namenode Metadata
 21 timmar

Antal deltagare



Price per participant

Relaterade Kategorier