Kursplan

Vecka 1 — Introduktion till data engineering

  • Grundläggande data engineering och moderna data stacks
  • Data inläggningsmönster och källor
  • Koncept och användningsfall för batch vs streaming
  • Pratiska laborationer: inläggning av provdata till molnlagring

Vecka 2 — Databricks Lakehouse Foundation Badge

  • Grundläggande plattformsfunktioner för Databricks och arbetsytenavigering
  • Delta Lake-koncept: ACID, tidsresa och schemamodellering
  • Arbetsytsäkerhet, åtkomstkontroller och grundläggande Unity Catalog
  • Pratiska laborationer: skapande och hantering av Delta-tabeller

Vecka 3 — Avancerad SQL på Databricks

  • Avancerade SQL-konstruktioner och fönsterfunktioner i stor skala
  • Frågeoptimering, förklaringsplaner och kostnadsmedvetna mönster
  • Materialiserade vyer, cachen och prestandajustering
  • Pratiska laborationer: optimering av analytiska frågor på stora datamängder

Vecka 4 — Databricks Certified Developer for Apache Spark (Förberedelse)

  • Djupdykning i Spark-arkitektur, RDDs, DataFrames och Datasets
  • Nyckeltransformeringar och åtgärder i Spark; prestandabegäranden
  • Grunderna i Spark-strömmar och mönster för strukturerade strömmar
  • Övningsprovövningar och praktiska testproblem

Vecka 5 — Introduktion till data modellering

  • Koncept: dimensionsmodellering, stjärna/schemadesign och normalisering
  • Lakehouse-modellering vs traditionella lagringslösningar
  • Designmönster för analytiska färdiga datamängder
  • Pratiska laborationer: byggande av konsumtionsklara tabeller och vyer

Vecka 6 — Introduktion till importverktyg & automatisering av data inläggning

  • Kopplingar och inläggningsverktyg för Databricks (AWS Glue, Data Factory, Kafka)
  • Inläggningsmönster för strömmar och mikrobatch-design
  • Data validering, kvalitetskontroller och schemamässig genomförande
  • Pratiska laborationer: byggande av robusta inläggningspipelines

Vecka 7 — Introduktion till Git Flow och CI/CD för data engineering

  • Git Flow-greningstrategier och repositoryorganisering
  • CI/CD-pipelines för notebooks, jobb och infrastruktur som kod
  • Testning, kodkontroll och automatisering av distribution för datakod
  • Pratiska laborationer: implementering av Git-baserade arbetsflöden och automatisk jobbdistribution

Vecka 8 — Databricks Certified Data Engineer Associate (Förberedelse) & Data Engineering Patterns

  • Översikt och praktiska övningar för certifiering
  • Arkitekturmunster: brons/silver/guld, CDC, långsamt förändrande dimensioner
  • Operativa mönster: övervakning, varning och linjering
  • Pratiska laborationer: slut-till-slut-pipeline som använder engineering-mönster

Vecka 9 — Introduktion till Airflow och Astronomer; Skriptning

  • Airflow-koncept: DAGs, uppgifter, operatörer och schemaläggning
  • Översikt över Astronomer-plattformen och bästa praxis för orkestration
  • Skriptning för automatisering: Python-skriptmönster för datauppgifter
  • Pratiska laborationer: orkestrera Databricks-jobb med Airflow-DAGs

Vecka 10 — Data visualisering, Tableau och anpassat avslutningsprojekt

  • Anslutning av Tableau till Databricks och bästa praxis för BI-lager
  • Designprinciper för dashboards och prestandamedvetna visualiseringar
  • Capstone: anpassat avslutningsprojekt, genomförande och presentation
  • Avslutande presentationer, kamratgranskning och instruktörsfeedback

Sammanfattning och nästa steg

Krav

  • En förståelse för grundläggande SQL och datakoncept
  • Erfarenhet av programmering i Python eller Scala
  • Kännedom om molntjänster och virtuella miljöer

Målgrupp

  • Aspirerande och praktiserande dataingenjörer
  • ETL/BI-utvecklare och analytiker
  • Dataplattform- och DevOps-team som stöder pipelines
 350 timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier