Kursplan

  1. Scala-introduktion

    • En snabb introduktion till Scala
    • Laborationer: Lär känna Scala
  2. Spark-grundläggande

    • Bakgrund och historia
    • Spark och Hadoop
    • Spark-koncept och arkitektur
    • Spark-ekosystem (kärna, Spark SQL, MLlib, strömning)
    • Laborationer: Installera och köra Spark
  3. Första inblick i Spark

    • Köra Spark i lokal modus
    • Spark webbgränssnitt
    • Spark-shell
    • Analysera dataset – del 1
    • Titta på RDD:er (Resilient Distributed Datasets)
    • Laborationer: Utforska Spark-shell
  4. RDD:er (Resilient Distributed Datasets)

    • Koncept för RDD:er
    • Partitionering
    • RDD-åtgärder / transformationer
    • Typer av RDD:er
    • Nyckel-värdepar RDD:er
    • MapReduce på RDD:er
    • Caching och persistence
    • Laborationer: Skapa & titta på RDD:er; Caching av RDD:er
  5. Spark API-programmering

    • Introduktion till Spark API / RDD API
    • Lägga in det första programmet i Spark
    • Felsökning / loggning
    • Konfigurationsegenskaper
    • Laborationer: Programmering med Spark API, Lägg in jobb
  6. Spark SQL

    • SQL-stöd i Spark
    • Dataframes
    • Definiera tabeller och importera dataset
    • Sök frågor med SQL på dataframes
    • Lagringsformat: JSON / Parquet
    • Laborationer: Skapa och sök dataframes; utvärdera datalagringssformat
  7. MLlib

    • Introduktion till MLlib
    • MLlib-algoritmer
    • Laborationer: Skriv MLib-applikationer
  8. GraphX

    • Översikt över GraphX-biblioteket
    • GraphX API:er
    • Laborationer: Bearbeta grafdata med Spark
  9. Spark Strömning

    • Översikt över strömning
    • Utvärdera strömningsplattformar
    • Strömåtgärder
    • Rullande fönsteråtgärder
    • Laborationer: Skriv Spark-strömningsapplikationer
  10. Spark och Hadoop

    • Hadoop-introduktion (HDFS / YARN)
    • Hadoop + Spark-arkitektur
    • Köra Spark på Hadoop YARN
    • Bearbeta HDFS-filer med Spark
  11. Spark-prestanda och justering

    • Broadcast-variabler
    • Akkumulatorer
    • Hantering av minne & caching
  12. Spark-operationer

    • Distribuera Spark i produktionsmiljö
    • Beslutande mal för distribution
    • Konfigurationer
    • Övervakning
    • Felsökning

Krav

FÖRKUNSKAPER

familiaritet med antingen Java / Scala / Python (våra labbar i Scala och Python)
grundläggande förståelse av Linux-utvecklingsmiljö (kommandoradsnavigering / redigera filer med VI eller nano)

 21 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (6)

Kommande Kurser

Relaterade Kategorier