Kursplan

Introduktion, mål och migreringsstrategi

  • Kursmål, deltagarprofilsamstämmighet och framgångskriterier
  • Högleveläggande migreringsanslutningar och risköverväganden
  • Upprättandet av arbetsytor, lagringsplatser och labbdatamängder

Dag 1 — Grundläggande migrering och arkitektur

  • Lakehouse-koncept, Delta Lake-översikt och Databricks-arkitektur
  • SMP vs MPP-skillnader och konsekvenser för migrering
  • Medallion (Bronze→Silver→Gold) design och Unity Catalog-översikt

Dag 1 Labb — Översättning av en lagrad procedur

  • Praktisk migrering av en exempellagrad procedur till en noteringsbok
  • Mappning av temporära tabeller och markörer till DataFrame-transformationer
  • Validering och jämförelse med ursprungligt utdata

Dag 2 — Avancerad Delta Lake & Inkrementell inläsning

  • ACID-transaktioner, commitloggar, versionering och tidsresande
  • Auto Loader, MERGE INTO-mönster, upserts och schemautveckling
  • OPTIMIZE, VACUUM, Z-ORDER, partitionering och lagringstuning

Dag 2 Labb — Inkrementell inläsning & Optimering

  • Implementering av Auto Loader-inläsning och MERGE-arbetsflöden
  • Tillämpning av OPTIMIZE, Z-ORDER och VACUUM; validering av resultat
  • Mätning av förbättringar i läs/skrivprestanda

Dag 3 — SQL i Databricks, prestanda & felsökning

  • Analytiskt SQL: fönsterfunktioner, högreordningsfunktioner, JSON/arrayhantering
  • Läsning av Spark UI, DAGs, shuffles, stage, uppgifter och bottlenecksdiagnostik
  • Query-tuningmönster: broadcast joins, hints, caching och minskande av spill

Dag 3 Labb — SQL-refaktorering & prestandajustering

  • Refaktorera ett tungt SQL-process till optimerat Spark SQL
  • Använda Spark UI-tracer för att identifiera och åtgärda skevhet och shufflesproblem
  • Mätning före/efter och dokumentation av justomningssteg

Dag 4 — Taktisk PySpark: Ersättning av proceduralt logik

  • Spark-exekveringsmodell: driver, executorer, lazy-evaluation och partitioneringstrategier
  • Transformering av loops och markörer till vektorsierade DataFrame-operationer
  • Modularisering, UDFs/pandas UDFs, widgets och återanvändbara bibliotek

Dag 4 Labb — Refaktorering av procedurala skript

  • Refaktorera ett proceduralt ETL-skript till modulära PySpark-noteringsböcker
  • Introduce parametrisering, enhetsliknande tester och återanvändbara funktioner
  • Kodgranskning och tillämpning av best-practice checklist

Dag 5 — Orkestrering, slut-som-slinga pipeline & bästa praxis

  • Databricks Workflows: jobbdesign, uppgiftberoenden, utlösare och felhantering
  • Design av inkrementella Medallion-pipelines med kvalitetsregler och schemavalidering
  • Integration med Git (GitHub/Azure DevOps), CI och teststrategier för PySpark-logik

Dag 5 Labb — Bygg en komplett slut-som-slinga pipeline

  • Sätt ihop Bronze→Silver→Gold-pipeline orchestrerad med Workflows
  • Implementera loggning, granskning, försök och automatiserade valideringar
  • Kör full pipeline, validera utdata och förbered distributionsanteckningar

Operationalisering, styrning och produktionsklarhet

  • Unity Catalog-styrningspraxis, linjeage och åtkomstkontroll
  • Kostnader, klusterskalning, automatisk skalning och jobbkonkurrensmönster
  • Distribueringschecklistor, rollbackstrategier och runboksskapande

Slutlig granskning, kunskapsöverföring och nästa steg

  • Deltagarpresentationer av migrationsarbete och lärdomar
  • Läckanalys, rekommenderade följande aktiviteter och överlämnande av utbildningsmaterial
  • Referenser, ytterligare lärvägar och supportalternativ

Krav

  • Förståelse av datainformatikkoncept
  • Erfarenhet av SQL och lagrade procedurer (Synapse / SQL Server)
  • Bekantskap med ETL-orchestreringskoncept (ADF eller liknande)

Målgrupp

  • Teknologiledare med bakgrund i datainformatik
  • Dataingenjörer som övergår från proceduralt OLAP-logik till Lakehouse-mönster
  • Plattformsingenjörer som ansvarar för Databricks-antagande
 35 Timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier