Kursplan
- Införandet
- Hadoop Historia, begrepp
- Ekosystem
- Distributioner
- Arkitektur på hög nivå
- Hadoop Myter
- Hadoop Utmaningar (hårdvara/mjukvara)
- Labb: diskutera dina Big Data projekt och problem
- Planering och installation
- Välja programvara, Hadoop distributioner
- Dimensionering av klustret, planering för tillväxt
- Välja maskinvara och nätverk
- Rack-topologi
- Installation
- Flera innehavare
- Katalogstruktur, loggar
- Riktmärkning
- Labb: klusterinstallation, köra prestandamått
- HDFS-åtgärder
- Begrepp (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
- Noder och daemoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Övervakning av hälso- och sjukvården
- Kommandorads- och webbläsarbaserad administration
- Lägga till lagring, byta ut defekta enheter
- Labb: bekanta dig med HDFS-kommandorader
- Inmatning av data
- Flume för loggar och annan datainmatning i HDFS
- Sqoop för import från SQL databaser till HDFS, samt export tillbaka till SQL
- Hadoop Datalagring med Hive
- Kopiera data mellan kluster (distcp)
- Använda S3 som komplement till HDFS
- Metodtips och arkitekturer för datainmatning
- Labs: installera och använda Flume, samma för Sqoop
- MapReduce drift och administration
- Parallell databehandling före mapreduce: jämför HPC med Hadoop administration
- MapReduce klusterbelastningar
- Noder och daemoner (JobTracker, TaskTracker)
- Genomgång av användargränssnittet för MapReduce
- Mapreduce-konfiguration
- Konfiguration av jobb
- Optimera MapReduce
- Idiotsäker MR: vad du ska berätta för dina programmerare
- Labb: köra MapReduce-exempel
- YARN: ny arkitektur och nya funktioner
- YARN designmål och implementeringsarkitektur
- Nya aktörer: ResourceManager, NodeManager, Application Master
- Installera YARN
- Finplanering under YARN
- Labb: undersöka schemaläggning av jobb
- Avancerade ämnen
- Övervakning av hårdvara
- Övervakning av kluster
- Lägga till och ta bort servrar, uppgradera Hadoop
- Säkerhetskopiering, återställning och planering av affärskontinuitet
- Arbetsflöden för Oozie-jobb
- Hadoop hög tillgänglighet (HA)
- Hadoop Federationen
- Skydda klustret med Kerberos
- Labb: konfigurera övervakning
- Valfria spår
- Cloudera Manager för klusteradministration, övervakning och rutinuppgifter; installation, användning. I det här spåret utförs alla övningar och laborationer inom Cloudera-distributionsmiljön (CDH5)
- Ambari för klusteradministration, övervakning och rutinuppgifter; installation, användning. I det här spåret utförs alla övningar och laborationer inom Ambari cluster manager och Hortonworks Data Platform (HDP 2.0)
Krav
- Bekväm med grundläggande Linux systemadministration
- Grundläggande skriptkunskaper
Kunskaper i Hadoop och distribuerade beräkningar är inte obligatoriska, men kommer att introduceras och förklaras i kursen.
Labbmiljö
Noll installation : Det finns inget behov av att installera hadoop-programvara på elevernas datorer! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.
Studenter kommer att behöva följande
- en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows rekommenderas Putty )
- En webbläsare för att komma åt klustret. Vi rekommenderar att webbläsaren Firefox har FoxyProxy-tillägget installerat
Vittnesmål (5)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Kurs - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Kurs - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.