Kursplan
Introduktion, mål och migrationsstrategi
- Kursmål, deltagarprofilens anpassning och framgångskriterier
- Översikt över migrationsmetoder på hög nivå och risköverväganden
- Inställande av arbetsytor, lagringsplatser och labbdataset
Dag 1 — Migrationsgrundläggande och arkitektur
- Lakehouse-koncept, Delta Lake-översikt och Databricks-arkitektur
- SMP vs MPP skillnader och implikationer för migration
- Medaljong (Bronz→Silver→Guld) design och Unity Catalog-översikt
Dag 1 Laboration — Översättning av en lagrad procedur
- Praktisk migration av ett exempel på en lagrad procedur till en notebook
- Mappning av temporära tabeller och pekar till DataFrame-transformeringar
- Validering och jämförelse med ursprungliga utdata
Dag 2 — Avancerat Delta Lake & inkrementellt inläsning
- ACID-transaktioner, commitloggar, versionshantering och tidsresande
- Auto Loader, MERGE INTO-mönster, upserts och schemautveckling
- OPTIMIZE, VACUUM, Z-ORDER, partitionering och lagringstuning
Dag 2 Laboration — Inkrementellt inläsning & optimering
- Implementering av Auto Loader-inläsning och MERGE-arbetsflöden
- Tillämpning av OPTIMIZE, Z-ORDER och VACUUM; validering av resultat
- Mätning av förbättringar i läs- och skrivprestanda
Dag 3 — SQL i Databricks, prestanda & felsökning
- Analytiska SQL-funktioner: fönsterfunktioner, högnivåfunktioner, hantering av JSON/array
- Läsa Spark UI, DAGs, shuffles, steg, uppgifter och flaskehalsdiagnostik
- Frågetuningmönster: broadcast joins, hints, caching och minskning av spill
Dag 3 Laboration — SQL-omstrukturering & prestandatuning
- Omstrukturera en tung SQL-process till optimerad Spark SQL
- Använda Spark UI-tracer för att identifiera och åtgärda skew- och shuffle-problem
- Baseremarkning före/efter och dokumentation av tuningsteg
Dag 4 — Taktisk PySpark: Ersättande procedurlogik
- Spark-exekveringsmodell: drivrutin, exekutorer, lazy evaluation och partitioneringstrategier
- Transformera loopar och pekar till vektoriserade DataFrame-operationer
- Modularisering, UDFs/pandas UDFs, widgets och återanvändbara bibliotek
Dag 4 Laboration — Omstrukturering av procedurkod
- Omstrukturera en procedur-ETL-skript till modulära PySpark notebooks
- Introducera parametrisering, enhetsliknande tester och återanvändbara funktioner
- Kodgranskning och tillämpning av bästa praxis checklist
Dag 5 — Orchestrering, slut-till-slut pipeline & bästa praxis
- Databricks Workflows: jobbdesign, uppgiftberoenden, utlösare och felhantering
- Designa inkrementella Medaljong-pipelines med kvalitetsregler och schemasvalidering
- Integration med Git (GitHub/Azure DevOps), CI och teststrategier för PySpark-logik
Dag 5 Laboration — Bygga en fullständig slut-till-slut pipeline
- Sammansätt Bronz→Silver→Guld-pipeline orchestrerad med Workflows
- Implementera logging, auditning, försök och automatiserade valideringar
- Kör full pipeline, validera utdata och förbered distributionsanteckningar
Operationalisering, styrning och produktionsklarhet
- Unity Catalog-styrning, linjeage och åtkomstkontroll bästa praxis
- Kostnader, klustertilldelning, autoskalning och jobbkonkurrensmönster
- Distribueringschecklistor, återställningsstrategier och runbook-creations
Slutlig granskning, kunskapsöverföring och nästa steg
- Deltagarpresentationer av migrationsarbete och lärdomar
- Målanalys, rekommenderade följande aktiviteter och överlämning av utbildningsmaterial
- Referenser, ytterligare lärvägar och supportalternativ
Krav
- Förståelse av dataingenjörskonstkoncept
- Erfarenhet av SQL och lagrade procedurer (Synapse / SQL Server)
- Bekantskap med ETL-orchestrationkoncept (ADF eller liknande)
Målgrupp
- Teknikchefer med bakgrund i dataingenjörskonst
- Dataingenjörer som övergår från procedur-OLAP-logik till Lakehouse-mönster
- Plattformsingenjörer ansvariga för Databricks-introduktion