Kursplan

 

Införandet:

  • Apache Spark i Hadoop Ekosystem
  • Kort introduktion för python, scala

Grunder (teori):

  • Arkitektur
  • RDD
  • Omvandling och åtgärder
  • Skede, uppgift, beroenden

Med hjälp av Databricks miljö förstå grunderna (praktisk workshop):

  • Övningar med RDD API
  • Grundläggande åtgärds- och omformningsfunktioner
  • PairRDD
  • Ansluta
  • Strategier för cachelagring
  • Övningar med DataFrame-API
  • GnistaSQL
  • DataFrame: välj, filtrera, gruppera, sortera
  • UDF (användardefinierad funktion)
  • Tittar på DataSet API
  • Direktuppspelning

Med hjälp av AWS-miljön förstår du distributionen (praktisk workshop):

  • Grunderna i AWS-lim
  • Förstå skillnader mellan AWS EMR och AWS Glue
  • Exempeljobb i båda miljöerna
  • Förstå för- och nackdelar

Extra:

  • Introduktion till Apache Airflow orkestrering

Krav

Programmeringskunskaper (helst python, scala)

SQL grunderna

  21 timmar
 

Antal deltagare


Starts

Ends


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Vittnesmål (3)

Relaterade Kurser

Relaterade Kategorier