Kursplan
PySpark & Maskininlärning
Modul 1: Big Data & Spark-grundläggande
- Översikt över Big Data-miljön och Spark:s roll i moderna dataplattformar
- Förståelse av Spark-arkitektur: driver, executors, cluster manager, lazy evaluation, DAG och exekveringsplanering
- Skillnader mellan RDD- och DataFrame-API:er och när respektive metod bör användas
- Skapa och konfigurera SparkSession samt förstå grundläggande principer för applikationskonfiguration
Modul 2: PySpark DataFrames
- Läsning och skrivning av data från företagskällor och format (CSV, JSON, Parquet, Delta)
- Arbeta med PySpark DataFrames: transformationer, åtgärder, kolumnuttryck, filtrering, joins och aggregeringar
- Implementera avancerade operationer såsom fönsterfunktioner, hantering av tidsstämplar och arbete med inbäddad data
- Tillämpa datakvalitetskontroller och skriva återanvändbar, underhållsvänlig PySpark-kod
Modul 3: Effektiv bearbetning av stora datamängder
- Förståelse för prestandagrundläggande: partitioneringsstrategier, shuffle-beteende, caching och persistence
- Använda optimeringstekniker inklusive broadcast joins och analys av exekveringsplaner
- Effektiv bearbetning av stora datamängder och bästa praxis för skalbara datapipeliner
- Förståelse för schemaevolution och moderna lagringsformat som används i företagsmiljöer
Modul 4: Feature Engineering i stor skala
- Utföra feature engineering med Spark MLlib: hantera saknade värden, koda kategoriska variabler och skala features
- Designa återanvändbara förbehandlingssteg och förbereda datamängder för maskininlärningspipeliner
- Introduktion till feature selection och hantering av obalanserade datamängder
Modul 5: Maskininlärning med Spark MLlib
- Förståelse av MLlib-arkitektur och Estimator/Transformer-mönstret
- Träna regressions- och klassificeringsmodeller i stor skala (Linjär Regression, Logistik Regression, Beslutsträd, Random Forest)
- Jämföra modeller och tolka resultat i distribuerade maskininlärningsflöden
Modul 6: End-to-End ML-pipeliner
- Bygga end-to-end maskininlärningspipeliner som kombinerar förbehandling, feature engineering och modellering
- Tillämpa strategier för uppdelning i tränings-/validerings-/testdata
- Utföra cross-validation och hyperparameteranpassning med hjälp av grid search och random search
- Strukturera reproducerbara maskininlärningsexperiment
Modul 7: Modellutvärdering & Praktiska ML-beslut
- Tillämpa lämpliga utvärderingsmetriker för regressions- och klassificeringsproblem
- Identifiera överanpassning och underanpassning och fatta praktiska beslut om modellval
- Tolka feature importance och förstå modellbeteende
Modul 8: Produktion & Företagspraktiker
- Lagra och ladda modeller i Spark
- Implementera batch-inferensflöden på stora datamängder
- Förstå maskininlärningslivscykeln i företagsmiljöer
- Introduktion till versionering, koncept för experimentuppföljning och grundläggande teststrategier
Praktiskt resultat
- Förmåga att arbeta självständigt med PySpark
- Förmåga att effektivt bearbeta stora datamängder
- Förmåga att utföra feature engineering i stor skala
- Förmåga att bygga skalbara maskininlärningspipeliner
Krav
Deltagarna bör ha följande bakgrund:
Grundläggande kunskaper i Python-programmering, inklusive arbete med funktioner, datastrukturer och bibliotek
Grundläggande förståelse för begrepp inom dataanalys, såsom datamängder, transformationer och aggregeringar
Grundläggande kunskaper om SQL och relationella databasbegrepp
Introducerande förståelse för maskininlärningsbegrepp, såsom träningsdatamängder, features och utvärderingsmetriker
Erfarenhet av kommandoradsmiljöer och grundläggande mjukvaruutvecklingspraktiker rekommenderas
Erfarenhet av Pandas, NumPy eller liknande databehandlingsbibliotek är fördelaktigt men inte obligatoriskt.
Vittnesmål (1)
Jag tyckte att det var praktiskt. Älskade att tillämpa den teoretiska kunskapen med praktiska exempel.
Aurelia-Adriana - Allianz Services Romania
Kurs - Python and Spark for Big Data (PySpark)
Maskintolkat