Kursplan

Introduktion

Förstå Hadoops arkitektur och nyckelbegrepp

Förstå Hadoop Distributed File System (HDFS)

    Översikt över HDFS och dess arkitektoniska design som interagerar med HDFS Utföra grundläggande filoperationer på HDFS Översikt över HDFS Kommandoreferens Översikt över Snakebite Installera Snakebite med Snakebite-klientbiblioteket med CLI-klienten

Lär dig MapReduce-programmeringsmodellen med Python

    Översikt över MapReduce-modellen Programming Förstå dataflödet i MapReduce-ramen Map Shuffle and Sort Reduce
Använda Hadoop Streaming Utility Förstå hur Hadoop Streaming Utility fungerar
  • Demo: Implementering av applikationen WordCount på Python
  • Använda mrjob-biblioteket Översikt över mrjob
  • Installerar mrjob
  • Demo: Implementering av WordRäknealgoritmen med hjälp av mrjob
  • Förstå hur ett MapReduce-jobb som skrivits med mrjob-biblioteket fungerar
  • Exekvera en MapReduce-applikation med mrjob
  • Hands-on: Beräkna högsta löner med hjälp av mrjob
  • Lärande gris med Python
  • Översikt över Pig Demo: Implementering av WordRäknealgoritmen i Pig Konfigurera och köra Pig-skript och Pig-satser Använda Pig Execution Modes Använda Pig Interactive Mode Använda Pig Batch Mode
  • Förstå de grundläggande begreppen i det latinska grisspråket med hjälp av uttalanden

      Laddar data
    Transformera data
  • Lagra data
  • Utöka grisens funktionalitet med Python UDFs Registrering av en Python UDF-fil
  • Demo: En enkel Python UDF
  • Demo: Strängmanipulation med Python UDF
  • Hands-on: Beräknar de 10 senaste filmerna med Python UDF
  • Använda Spark och PySpark
  • Översikt av Spark Demo: Implementering av Wordräknealgoritmen i PySpark Översikt över PySpark med hjälp av ett interaktivt skal som implementerar självständiga applikationer
  • Arbeta med Resilient Distributed Dataset (RDD) Skapa RDD:er från en Python samling
  • Skapa RDD:er från filer
  • Implementera RDD-transformationer

      Genomförande av RDD-åtgärder
    Hands-on: Implementera ett textprogram Search för filmtitlar med PySpark
  • Hantera arbetsflöde med Python
  • Översikt över Apache Oozie och Luigi Installera Luigi Förstå Luigis arbetsflödeskoncept Uppgifter Mål Parametrar
  • Demo: Undersöker ett arbetsflöde som implementerar Wordräknealgoritmen
  • Arbeta med Hadoop arbetsflöden som styr MapReduce och Pig-jobb med hjälp av Luigis konfigurationsfiler
  • Arbeta med MapReduce i Luigi
  • Jobbar med Pig i Luigi
  • Sammanfattning och slutsats

    Krav

    • Erfarenhet av Python programmering
    • Grundläggande förtrogenhet med Hadoop
     28 timmar

    Antal deltagare



    Price per participant

    Relaterade Kategorier