Kursplan

Införandet

  • Apache Beam jämfört med MapReduce, Spark Streaming, Kafka Streaming, Storm och Flink

Installera och konfigurera Apache Beam

Översikt över Apache Beam funktioner och arkitektur

  • Beam Model, SDK:er, Beam Pipeline Runners
  • Serverdelar för distribuerad bearbetning

Förstå Apache Beam Programming-modellen

  • Så här körs en pipeline

Köra en exempelpipeline

  • Förbereda en WordCount pipeline
  • Köra pipelinen lokalt

Utforma en pipeline

  • Planera strukturen, välja transformeringar och bestämma indata- och utdatametoderna

Skapa pipelinen

  • Skriva drivrutinsprogrammet och definiera pipelinen
  • Använda Apache Beam klasser
  • Datauppsättningar, transformeringar, I/O, datakodning osv.

Köra pipelinen

  • Köra pipelinen lokalt, på fjärrdatorer och i ett offentligt moln
  • Att välja en löpare
  • Löparspecifika konfigurationer

Testning och felsökning Apache Beam

  • Använda texttips för att emulera statisk skrivning
  • Hantera Python pipelineberoenden

Bearbeta avgränsade och obundna datauppsättningar

  • Fönster och utlösare

Gör dina pipelines återanvändbara och underhållbara.

Skapa nya datakällor och mottagare

  • Apache Beam API för källa och mottagare

Integrera Apache Beam med andra Big Data system

  • Apache Hadoop, Apache Spark, Apache Kafka

Felsökning

Sammanfattning och slutsats

Krav

  • Erfarenhet av Python Programming.
  • Erfarenhet av kommandoraden Linux.

Publik

  • Utvecklare
 14 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier