Kursplan

Införandet

Förstå Hadoop:s arkitektur och nyckelbegrepp

Förstå Hadoop Distributed File System (HDFS)

  • Översikt över HDFS och dess arkitektoniska design
  • Interagera med HDFS
  • Utföra grundläggande filåtgärder på HDFS
  • Översikt över HDFS-kommandoreferens
  • Översikt över ormbett
  • Installera Snakebite
  • Använda klientbiblioteket för ormbett
  • Använda CLI-klienten

Lär dig MapReduce-modellen Programming med Python

  • Översikt över MapReduce-modellen Programming
  • Förstå dataflöde i MapReduce-ramverket
    • Karta
    • Blanda och sortera
    • Reducera
  • Använda strömningsverktyget Hadoop
    • Förstå hur strömningsverktyget Hadoop fungerar
    • Demo: Implementera WordCount-programmet på Python
  • Använda mrjob-biblioteket
    • Översikt över mrjob
    • Installera mrjob
    • Demo: Implementera WordCount-algoritmen med hjälp av mrjob
    • Förstå hur ett MapReduce-jobb skrivet med mrjob-biblioteket fungerar
    • Köra ett MapReduce-program med mrjob
    • Praktiskt: Beräkna topplöner med hjälp av mrjob

Lära sig gris med Python

  • Översikt över Pig
  • Demo: Implementera WordCount-algoritmen i Pig
  • Konfigurera och köra pig-skript och pig-satser
    • Använda Pig-körningslägena
    • Använda det interaktiva läget Pig
    • Använda Pic Batch-läget
  • Förstå de grundläggande begreppen i det latinska språket gris
    • Använda uttalanden
    • Laddar data
    • Transformera data
    • Lagring av data
  • Utöka Pigs funktioner med Python UDF:er
    • Registrera en Python UDF-fil
    • Demo: En enkel Python UDF
    • Demo: Strängmanipulering med hjälp av Python UDF
    • Praktiskt: Beräkna de 10 senaste filmerna med hjälp av Python UDF

Använda Spark och PySpark

  • Översikt över Spark
  • Demo: Implementera WordCount-algoritmen i PySpark
  • Översikt över PySpark
    • Använda ett interaktivt skal
    • Implementera fristående program
  • Arbeta med elastiska distribuerade datamängder (RDD)
    • Skapa RDD:er från en Python samling
    • Skapa RDD:er från filer
    • Implementera RDD-omvandlingar
    • Genomförande av RDD-åtgärder
  • Praktiskt: Implementera ett textsökningsprogram för filmtitlar med PySpark

Hantera arbetsflöde med Python

  • Översikt över Apache Oozie och Luigi
  • Installera Luigi
  • Förstå Luigi Workflow-koncept
    • Uppgifter
    • Mål
    • Parametrar
  • Demo: Undersöka ett arbetsflöde som implementerar WordCount-algoritmen
  • Arbeta med Hadoop arbetsflöden som styr MapReduce- och Pig-jobb
    • Använda Luigis konfigurationsfiler
    • Arbeta med MapReduce i Luigi
    • Att arbeta med gris i Luigi

Sammanfattning och slutsats

Krav

  • Erfarenhet av Python programmering
  • Grundläggande kunskaper om Hadoop
 28 timmar

Antal deltagare


Price per participant

Vittnesmål (5)

Upcoming Courses