Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.        
        
        
            Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.        
    Kursplan
Införandet:
- Apache Spark i Hadoop Ekosystem
- Kort introduktion för python, scala
Grunder (teori):
- Arkitektur
- RDD
- Omvandling och åtgärder
- Skede, uppgift, beroenden
Med hjälp av Databricks miljö förstå grunderna (praktisk workshop):
- Övningar med RDD API
- Grundläggande åtgärds- och omformningsfunktioner
- PairRDD
- Ansluta
- Strategier för cachelagring
- Övningar med DataFrame-API
- GnistaSQL
- DataFrame: välj, filtrera, gruppera, sortera
- UDF (användardefinierad funktion)
- Tittar på DataSet API
- Direktuppspelning
Med hjälp av AWS-miljön förstår du distributionen (praktisk workshop):
- Grunderna i AWS-lim
- Förstå skillnader mellan AWS EMR och AWS Glue
- Exempeljobb i båda miljöerna
- Förstå för- och nackdelar
Extra:
- Introduktion till Apache Airflow orkestrering
Krav
Programmeringskunskaper (helst python, scala)
SQL grunderna
             21 timmar
        
        
Vittnesmål (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift
