Kursplan

Introduktion, mål och migrationsstrategi

  • Kursmål, deltagarprofilens anpassning och framgångskriterier
  • Översikt över migrationsmetoder på hög nivå och risköverväganden
  • Inställande av arbetsytor, lagringsplatser och labbdataset

Dag 1 — Migrationsgrundläggande och arkitektur

  • Lakehouse-koncept, Delta Lake-översikt och Databricks-arkitektur
  • SMP vs MPP skillnader och implikationer för migration
  • Medaljong (Bronz→Silver→Guld) design och Unity Catalog-översikt

Dag 1 Laboration — Översättning av en lagrad procedur

  • Praktisk migration av ett exempel på en lagrad procedur till en notebook
  • Mappning av temporära tabeller och pekar till DataFrame-transformeringar
  • Validering och jämförelse med ursprungliga utdata

Dag 2 — Avancerat Delta Lake & inkrementellt inläsning

  • ACID-transaktioner, commitloggar, versionshantering och tidsresande
  • Auto Loader, MERGE INTO-mönster, upserts och schemautveckling
  • OPTIMIZE, VACUUM, Z-ORDER, partitionering och lagringstuning

Dag 2 Laboration — Inkrementellt inläsning & optimering

  • Implementering av Auto Loader-inläsning och MERGE-arbetsflöden
  • Tillämpning av OPTIMIZE, Z-ORDER och VACUUM; validering av resultat
  • Mätning av förbättringar i läs- och skrivprestanda

Dag 3 — SQL i Databricks, prestanda & felsökning

  • Analytiska SQL-funktioner: fönsterfunktioner, högnivåfunktioner, hantering av JSON/array
  • Läsa Spark UI, DAGs, shuffles, steg, uppgifter och flaskehalsdiagnostik
  • Frågetuningmönster: broadcast joins, hints, caching och minskning av spill

Dag 3 Laboration — SQL-omstrukturering & prestandatuning

  • Omstrukturera en tung SQL-process till optimerad Spark SQL
  • Använda Spark UI-tracer för att identifiera och åtgärda skew- och shuffle-problem
  • Baseremarkning före/efter och dokumentation av tuningsteg

Dag 4 — Taktisk PySpark: Ersättande procedurlogik

  • Spark-exekveringsmodell: drivrutin, exekutorer, lazy evaluation och partitioneringstrategier
  • Transformera loopar och pekar till vektoriserade DataFrame-operationer
  • Modularisering, UDFs/pandas UDFs, widgets och återanvändbara bibliotek

Dag 4 Laboration — Omstrukturering av procedurkod

  • Omstrukturera en procedur-ETL-skript till modulära PySpark notebooks
  • Introducera parametrisering, enhetsliknande tester och återanvändbara funktioner
  • Kodgranskning och tillämpning av bästa praxis checklist

Dag 5 — Orchestrering, slut-till-slut pipeline & bästa praxis

  • Databricks Workflows: jobbdesign, uppgiftberoenden, utlösare och felhantering
  • Designa inkrementella Medaljong-pipelines med kvalitetsregler och schemasvalidering
  • Integration med Git (GitHub/Azure DevOps), CI och teststrategier för PySpark-logik

Dag 5 Laboration — Bygga en fullständig slut-till-slut pipeline

  • Sammansätt Bronz→Silver→Guld-pipeline orchestrerad med Workflows
  • Implementera logging, auditning, försök och automatiserade valideringar
  • Kör full pipeline, validera utdata och förbered distributionsanteckningar

Operationalisering, styrning och produktionsklarhet

  • Unity Catalog-styrning, linjeage och åtkomstkontroll bästa praxis
  • Kostnader, klustertilldelning, autoskalning och jobbkonkurrensmönster
  • Distribueringschecklistor, återställningsstrategier och runbook-creations

Slutlig granskning, kunskapsöverföring och nästa steg

  • Deltagarpresentationer av migrationsarbete och lärdomar
  • Målanalys, rekommenderade följande aktiviteter och överlämning av utbildningsmaterial
  • Referenser, ytterligare lärvägar och supportalternativ

Krav

  • Förståelse av dataingenjörskonstkoncept
  • Erfarenhet av SQL och lagrade procedurer (Synapse / SQL Server)
  • Bekantskap med ETL-orchestrationkoncept (ADF eller liknande)

Målgrupp

  • Teknikchefer med bakgrund i dataingenjörskonst
  • Dataingenjörer som övergår från procedur-OLAP-logik till Lakehouse-mönster
  • Plattformsingenjörer ansvariga för Databricks-introduktion
 35 timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier