Kursplan
Avsnitt 1: Introduktion till Hadoop
- Hadoop historia, begrepp
- Ekosystem
- Distributioner
- Arkitektur på hög nivå
- Myter om Hadoop
- Hadoop-utmaningar
- Hårdvara / Mjukvara
- Lab : Första titt på Hadoop
Avsnitt 2: HDFS
- Design och arkitektur
- Begrepp (horisontell skalning, replikering, datalokalitet, rackmedvetenhet)
- Daemoner: Namnnod, Sekundär namnnod, Datanod
- Kommunikation / Hjärtslag
- Dataintegritet
- Läs-/skrivsökväg
- Namnnod med hög tillgänglighet (HA), federation
- labs : Interagera med HDFS
Avsnitt 3 : Karta Minska
- Koncept och arkitektur
- demoner (MRV1) : jobtracker / tasktracker
- faser : drivrutin, mappare, blanda / sortera, reducera
- Mappa minskning version 1 och version 2 (YARN)
- Internt i Map Reduce
- Introduktion till Java Map Reduce-programmet
- labs : Köra ett exempel på ett MapReduce-program
Avsnitt 4 : Gris
- gris vs java karta minska
- Flöde för grisjobb
- gris latin språk
- ETL med gris
- Omvandlingar och kopplingar
- Användardefinierade funktioner (UDF)
- labs : skriva Pig-skript för att analysera data
Avsnitt 5: Hive
- Arkitektur och design
- Datatyper
- SQL Stöd i Hive
- Skapa Hive tabeller och frågor
- Partitioner
- Går
- textbehandling
- Labs : olika labb om bearbetning av data med Hive
Avsnitt 6: HBase
- Koncept och arkitektur
- hbase vs RDBMS vs cassandra
- HBase Java API
- Tidsseriedata för HBase
- Utformning av schema
- labs : Interagera med HBase med hjälp av skal; programmering i HBase Java API ; Övning av schemadesign
Krav
- Bekväm med Java programmeringsspråk (de flesta programmeringsövningar är i Java)
- Bekväm i Linux miljö (kunna navigera Linux kommandorad, redigera filer med vi / nano)
Labbmiljö
Noll installation : Det finns inget behov av att installera hadoop-programvara på elevernas datorer! Ett fungerande hadoop-kluster kommer att tillhandahållas för studenter.
Studenter kommer att behöva följande
- en SSH-klient (Linux och Mac har redan ssh-klienter, för Windows rekommenderas Putty )
- En webbläsare för att komma åt klustret. Vi rekommenderar webbläsaren Firefox
Vittnesmål (5)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Kurs - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Kurs - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.