Kursplan
-
Scala-introduktion
- En snabb introduktion till Scala
- Laborationer: Lär känna Scala
-
Spark-grundläggande
- Bakgrund och historia
- Spark och Hadoop
- Spark-koncept och arkitektur
- Spark-ekosystem (kärna, Spark SQL, MLlib, strömning)
- Laborationer: Installera och köra Spark
-
Första inblick i Spark
- Köra Spark i lokal modus
- Spark webbgränssnitt
- Spark-shell
- Analysera dataset – del 1
- Titta på RDD:er (Resilient Distributed Datasets)
- Laborationer: Utforska Spark-shell
-
RDD:er (Resilient Distributed Datasets)
- Koncept för RDD:er
- Partitionering
- RDD-åtgärder / transformationer
- Typer av RDD:er
- Nyckel-värdepar RDD:er
- MapReduce på RDD:er
- Caching och persistence
- Laborationer: Skapa & titta på RDD:er; Caching av RDD:er
-
Spark API-programmering
- Introduktion till Spark API / RDD API
- Lägga in det första programmet i Spark
- Felsökning / loggning
- Konfigurationsegenskaper
- Laborationer: Programmering med Spark API, Lägg in jobb
-
Spark SQL
- SQL-stöd i Spark
- Dataframes
- Definiera tabeller och importera dataset
- Sök frågor med SQL på dataframes
- Lagringsformat: JSON / Parquet
- Laborationer: Skapa och sök dataframes; utvärdera datalagringssformat
-
MLlib
- Introduktion till MLlib
- MLlib-algoritmer
- Laborationer: Skriv MLib-applikationer
-
GraphX
- Översikt över GraphX-biblioteket
- GraphX API:er
- Laborationer: Bearbeta grafdata med Spark
-
Spark Strömning
- Översikt över strömning
- Utvärdera strömningsplattformar
- Strömåtgärder
- Rullande fönsteråtgärder
- Laborationer: Skriv Spark-strömningsapplikationer
-
Spark och Hadoop
- Hadoop-introduktion (HDFS / YARN)
- Hadoop + Spark-arkitektur
- Köra Spark på Hadoop YARN
- Bearbeta HDFS-filer med Spark
-
Spark-prestanda och justering
- Broadcast-variabler
- Akkumulatorer
- Hantering av minne & caching
-
Spark-operationer
- Distribuera Spark i produktionsmiljö
- Beslutande mal för distribution
- Konfigurationer
- Övervakning
- Felsökning
Krav
FÖRKUNSKAPER
familiaritet med antingen Java / Scala / Python (våra labbar i Scala och Python)
grundläggande förståelse av Linux-utvecklingsmiljö (kommandoradsnavigering / redigera filer med VI eller nano)
Vittnesmål (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Kurs - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kurs - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kurs - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kurs - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Kurs - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.