Kom i kontakt

Kursplan

PySpark & Maskininlärning 

Modul 1: Big Data & Spark-grundläggande

  • Översikt över Big Data-miljön och Spark:s roll i moderna dataplattformar
  • Förståelse av Spark-arkitektur: driver, executors, cluster manager, lazy evaluation, DAG och exekveringsplanering
  • Skillnader mellan RDD- och DataFrame-API:er och när respektive metod bör användas
  • Skapa och konfigurera SparkSession samt förstå grundläggande principer för applikationskonfiguration

Modul 2: PySpark DataFrames

  • Läsning och skrivning av data från företagskällor och format (CSV, JSON, Parquet, Delta)
  • Arbeta med PySpark DataFrames: transformationer, åtgärder, kolumnuttryck, filtrering, joins och aggregeringar
  • Implementera avancerade operationer såsom fönsterfunktioner, hantering av tidsstämplar och arbete med inbäddad data
  • Tillämpa datakvalitetskontroller och skriva återanvändbar, underhållsvänlig PySpark-kod

Modul 3: Effektiv bearbetning av stora datamängder

  • Förståelse för prestandagrundläggande: partitioneringsstrategier, shuffle-beteende, caching och persistence
  • Använda optimeringstekniker inklusive broadcast joins och analys av exekveringsplaner
  • Effektiv bearbetning av stora datamängder och bästa praxis för skalbara datapipeliner
  • Förståelse för schemaevolution och moderna lagringsformat som används i företagsmiljöer

Modul 4: Feature Engineering i stor skala

  • Utföra feature engineering med Spark MLlib: hantera saknade värden, koda kategoriska variabler och skala features
  • Designa återanvändbara förbehandlingssteg och förbereda datamängder för maskininlärningspipeliner
  • Introduktion till feature selection och hantering av obalanserade datamängder

Modul 5: Maskininlärning med Spark MLlib

  • Förståelse av MLlib-arkitektur och Estimator/Transformer-mönstret
  • Träna regressions- och klassificeringsmodeller i stor skala (Linjär Regression, Logistik Regression, Beslutsträd, Random Forest)
  • Jämföra modeller och tolka resultat i distribuerade maskininlärningsflöden

Modul 6: End-to-End ML-pipeliner

  • Bygga end-to-end maskininlärningspipeliner som kombinerar förbehandling, feature engineering och modellering
  • Tillämpa strategier för uppdelning i tränings-/validerings-/testdata
  • Utföra cross-validation och hyperparameteranpassning med hjälp av grid search och random search
  • Strukturera reproducerbara maskininlärningsexperiment

Modul 7: Modellutvärdering & Praktiska ML-beslut

  • Tillämpa lämpliga utvärderingsmetriker för regressions- och klassificeringsproblem
  • Identifiera överanpassning och underanpassning och fatta praktiska beslut om modellval
  • Tolka feature importance och förstå modellbeteende

Modul 8: Produktion & Företagspraktiker

  • Lagra och ladda modeller i Spark
  • Implementera batch-inferensflöden på stora datamängder
  • Förstå maskininlärningslivscykeln i företagsmiljöer
  • Introduktion till versionering, koncept för experimentuppföljning och grundläggande teststrategier

 

Praktiskt resultat

  • Förmåga att arbeta självständigt med PySpark
  • Förmåga att effektivt bearbeta stora datamängder
  • Förmåga att utföra feature engineering i stor skala
  • Förmåga att bygga skalbara maskininlärningspipeliner

Krav

Deltagarna bör ha följande bakgrund:

Grundläggande kunskaper i Python-programmering, inklusive arbete med funktioner, datastrukturer och bibliotek
Grundläggande förståelse för begrepp inom dataanalys, såsom datamängder, transformationer och aggregeringar
Grundläggande kunskaper om SQL och relationella databasbegrepp
Introducerande förståelse för maskininlärningsbegrepp, såsom träningsdatamängder, features och utvärderingsmetriker
Erfarenhet av kommandoradsmiljöer och grundläggande mjukvaruutvecklingspraktiker rekommenderas

Erfarenhet av Pandas, NumPy eller liknande databehandlingsbibliotek är fördelaktigt men inte obligatoriskt.

 21 Timmar

Antal deltagare


Pris per deltagare

Vittnesmål (1)

Kommande Kurser

Relaterade Kategorier