Kursplan
- Införandet
- Hadoop Historia, begrepp
- Ekosystem
- Distributioner
- Arkitektur på hög nivå
- Hadoop Myter
- Hadoop Utmaningar (hårdvara/mjukvara)
- Labs: diskutera dina Big Data projekt och problem
- Planering och installation
- Välja programvara, Hadoop distributioner
- Dimensionera klustret, planera för tillväxt
- Välja maskinvara och nätverk
- Rack-topologi
- Installation
- Flera innehavare
- Katalogstruktur, loggar
- Riktmärkning
- Labb: klusterinstallation, köra prestandamått
- HDFS-åtgärder
- Begrepp (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
- Noder och daemoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Hälsoövervakning
- Kommandorads- och webbläsarbaserad administration
- Lägga till lagring, byta ut defekta enheter
- Labs: bekanta dig med HDFS-kommandorader
- Inmatning av data
- Flume för loggar och annan datainmatning i HDFS
- Sqoop för import från SQL databaser till HDFS, samt export tillbaka till SQL
- Hadoop Datalagring med Hive
- Kopiera data mellan kluster (distcp)
- Använda S3 som komplement till HDFS
- Metodtips och arkitekturer för datainmatning
- Labs: ställa in och använda Flume, samma för Sqoop
- MapReduce åtgärder och administration
- Parallell databehandling före mapreduce: jämför HPC med Hadoop administration
- MapReduce klusterbelastningar
- Noder och daemoner (JobTracker, TaskTracker)
- Genomgång av användargränssnittet för MapReduce
- Mapreduce-konfiguration
- Konfiguration av jobb
- Optimera MapReduce
- Idiotsäker MR: vad du ska säga till dina programmerare
- Labs: köra MapReduce-exempel
- YARN: ny arkitektur och nya funktioner
- YARN-designmål och implementeringsarkitektur
- Nya aktörer: ResourceManager, NodeManager, Application Master
- Installera YARN
- Finplanering under YARN
- Labb: undersöka schemaläggning av jobb
- Avancerade ämnen
- Övervakning av hårdvara
- Övervakning av kluster
- Lägga till och ta bort servrar, uppgradera Hadoop
- Säkerhetskopiering, återställning och kontinuitetsplanering
- Arbetsflöden för Oozie-jobb
- Hadoop hög tillgänglighet (HA)
- Hadoop Federationen
- Skydda klustret med Kerberos
- Labb: konfigurera övervakning
- Valfria spår
- Cloudera Manager för klusteradministration, övervakning och rutinuppgifter; installation, användning. I detta spår utförs alla övningar och laborationer inom Cloudera-distributionsmiljön (CDH5)
- Ambari för klusteradministration, övervakning och rutinuppgifter; installation, användning. I det här spåret utförs alla övningar och laborationer inom Ambari cluster manager och Hortonworks Data Platform (HDP 2.0)
Krav
- bekväm med grundläggande Linux systemadministration
- grundläggande skriptfärdigheter
Kunskaper i Hadoop och Distributed Computing krävs inte, men kommer att introduceras och förklaras i kursen.
Labbmiljö
Nollinstallation : Det finns inget behov av att installera hadoop-programvara på elevernas maskiner! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.
Eleverna kommer att behöva följande
- en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows Putty rekommenderas)
- en webbläsare för att komma åt klustret. Vi rekommenderar webbläsaren Firefox med FoxyProxy-tillägget installerat
Vittnesmål (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Kurs - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Kurs - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay