Kursplan
Införandet
Förstå Hadoop:s arkitektur och nyckelbegrepp
Förstå Hadoop Distributed File System (HDFS)
- Översikt över HDFS och dess arkitektoniska design
- Interagera med HDFS
- Utföra grundläggande filåtgärder på HDFS
- Översikt över HDFS-kommandoreferens
- Översikt över ormbett
- Installera Snakebite
- Använda klientbiblioteket för ormbett
- Använda CLI-klienten
Lär dig MapReduce-modellen Programming med Python
- Översikt över MapReduce-modellen Programming
- Förstå dataflöde i MapReduce-ramverket
- Karta
- Blanda och sortera
- Reducera
- Använda strömningsverktyget Hadoop
- Förstå hur strömningsverktyget Hadoop fungerar
- Demo: Implementera WordCount-programmet på Python
- Använda mrjob-biblioteket
- Översikt över mrjob
- Installera mrjob
- Demo: Implementera WordCount-algoritmen med hjälp av mrjob
- Förstå hur ett MapReduce-jobb skrivet med mrjob-biblioteket fungerar
- Köra ett MapReduce-program med mrjob
- Praktiskt: Beräkna topplöner med hjälp av mrjob
Lära sig gris med Python
- Översikt över Pig
- Demo: Implementera WordCount-algoritmen i Pig
- Konfigurera och köra pig-skript och pig-satser
- Använda Pig-körningslägena
- Använda det interaktiva läget Pig
- Använda Pic Batch-läget
- Förstå de grundläggande begreppen i det latinska språket gris
- Använda uttalanden
- Laddar data
- Transformera data
- Lagring av data
- Utöka Pigs funktioner med Python UDF:er
- Registrera en Python UDF-fil
- Demo: En enkel Python UDF
- Demo: Strängmanipulering med hjälp av Python UDF
- Praktiskt: Beräkna de 10 senaste filmerna med hjälp av Python UDF
Använda Spark och PySpark
- Översikt över Spark
- Demo: Implementera WordCount-algoritmen i PySpark
- Översikt över PySpark
- Använda ett interaktivt skal
- Implementera fristående program
- Arbeta med elastiska distribuerade datamängder (RDD)
- Skapa RDD:er från en Python samling
- Skapa RDD:er från filer
- Implementera RDD-omvandlingar
- Genomförande av RDD-åtgärder
- Praktiskt: Implementera ett textsökningsprogram för filmtitlar med PySpark
Hantera arbetsflöde med Python
- Översikt över Apache Oozie och Luigi
- Installera Luigi
- Förstå Luigi Workflow-koncept
- Uppgifter
- Mål
- Parametrar
- Demo: Undersöka ett arbetsflöde som implementerar WordCount-algoritmen
- Arbeta med Hadoop arbetsflöden som styr MapReduce- och Pig-jobb
- Använda Luigis konfigurationsfiler
- Arbeta med MapReduce i Luigi
- Att arbeta med gris i Luigi
Sammanfattning och slutsats
Krav
- Erfarenhet av Python programmering
- Grundläggande kunskaper om Hadoop
Vittnesmål (5)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Kurs - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Kurs - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.