Kursplan
Introduktion, mål och migreringsstrategi
- Kursmål, deltagarprofilsamstämmighet och framgångskriterier
- Högleveläggande migreringsanslutningar och risköverväganden
- Upprättandet av arbetsytor, lagringsplatser och labbdatamängder
Dag 1 — Grundläggande migrering och arkitektur
- Lakehouse-koncept, Delta Lake-översikt och Databricks-arkitektur
- SMP vs MPP-skillnader och konsekvenser för migrering
- Medallion (Bronze→Silver→Gold) design och Unity Catalog-översikt
Dag 1 Labb — Översättning av en lagrad procedur
- Praktisk migrering av en exempellagrad procedur till en noteringsbok
- Mappning av temporära tabeller och markörer till DataFrame-transformationer
- Validering och jämförelse med ursprungligt utdata
Dag 2 — Avancerad Delta Lake & Inkrementell inläsning
- ACID-transaktioner, commitloggar, versionering och tidsresande
- Auto Loader, MERGE INTO-mönster, upserts och schemautveckling
- OPTIMIZE, VACUUM, Z-ORDER, partitionering och lagringstuning
Dag 2 Labb — Inkrementell inläsning & Optimering
- Implementering av Auto Loader-inläsning och MERGE-arbetsflöden
- Tillämpning av OPTIMIZE, Z-ORDER och VACUUM; validering av resultat
- Mätning av förbättringar i läs/skrivprestanda
Dag 3 — SQL i Databricks, prestanda & felsökning
- Analytiskt SQL: fönsterfunktioner, högreordningsfunktioner, JSON/arrayhantering
- Läsning av Spark UI, DAGs, shuffles, stage, uppgifter och bottlenecksdiagnostik
- Query-tuningmönster: broadcast joins, hints, caching och minskande av spill
Dag 3 Labb — SQL-refaktorering & prestandajustering
- Refaktorera ett tungt SQL-process till optimerat Spark SQL
- Använda Spark UI-tracer för att identifiera och åtgärda skevhet och shufflesproblem
- Mätning före/efter och dokumentation av justomningssteg
Dag 4 — Taktisk PySpark: Ersättning av proceduralt logik
- Spark-exekveringsmodell: driver, executorer, lazy-evaluation och partitioneringstrategier
- Transformering av loops och markörer till vektorsierade DataFrame-operationer
- Modularisering, UDFs/pandas UDFs, widgets och återanvändbara bibliotek
Dag 4 Labb — Refaktorering av procedurala skript
- Refaktorera ett proceduralt ETL-skript till modulära PySpark-noteringsböcker
- Introduce parametrisering, enhetsliknande tester och återanvändbara funktioner
- Kodgranskning och tillämpning av best-practice checklist
Dag 5 — Orkestrering, slut-som-slinga pipeline & bästa praxis
- Databricks Workflows: jobbdesign, uppgiftberoenden, utlösare och felhantering
- Design av inkrementella Medallion-pipelines med kvalitetsregler och schemavalidering
- Integration med Git (GitHub/Azure DevOps), CI och teststrategier för PySpark-logik
Dag 5 Labb — Bygg en komplett slut-som-slinga pipeline
- Sätt ihop Bronze→Silver→Gold-pipeline orchestrerad med Workflows
- Implementera loggning, granskning, försök och automatiserade valideringar
- Kör full pipeline, validera utdata och förbered distributionsanteckningar
Operationalisering, styrning och produktionsklarhet
- Unity Catalog-styrningspraxis, linjeage och åtkomstkontroll
- Kostnader, klusterskalning, automatisk skalning och jobbkonkurrensmönster
- Distribueringschecklistor, rollbackstrategier och runboksskapande
Slutlig granskning, kunskapsöverföring och nästa steg
- Deltagarpresentationer av migrationsarbete och lärdomar
- Läckanalys, rekommenderade följande aktiviteter och överlämnande av utbildningsmaterial
- Referenser, ytterligare lärvägar och supportalternativ
Krav
- Förståelse av datainformatikkoncept
- Erfarenhet av SQL och lagrade procedurer (Synapse / SQL Server)
- Bekantskap med ETL-orchestreringskoncept (ADF eller liknande)
Målgrupp
- Teknologiledare med bakgrund i datainformatik
- Dataingenjörer som övergår från proceduralt OLAP-logik till Lakehouse-mönster
- Plattformsingenjörer som ansvarar för Databricks-antagande