Kursplan

Introduktion till Apache Airflow

  • Vad är arbetsflödesorkestration
  • Nyckelfunktioner och fördelar med Apache Airflow
  • Förbättringar och översikt över ekosystemet i Airflow 2.x

Arkitektur och grundläggande begrepp

  • Schemaläggare, webbserver och arbetsprocesser
  • DAGs, uppgifter och operatörer
  • Exekutorer och bakände (Lokal, Celery, Kubernetes)

Installation och konfiguration

  • Installation av Airflow i lokal och molnmiljö
  • Konfigurering av Airflow med olika exekutorer
  • Konfiguration av metadata-databaser och anslutningar

Navigering i Airflow UI och CLI

  • Utforskning av Airflow-gränssnittet
  • Övervakning av DAG-körningar, uppgifter och loggar
  • Användning av Airflow CLI för administration

Skapande och hantering av DAGs

  • Skapande av DAGs med TaskFlow API
  • Användning av operatörer, sensorer och krok
  • Hantering av beroenden och schemaläggningsintervaller

Integrering av Airflow med data- och molntjänster

  • Anslutning till databaser, API:er och meddelandeköer
  • Körning av ETL-pipelines med Airflow
  • Molnintegreringar: AWS, GCP, Azure-operatörer

Övervakning och observerbarhet

  • Uppgiftloggar och realtidsövervakning
  • Mätvärden med Prometheus och Grafana
  • Varningar och notifikationer via e-post eller Slack

Säkering av Apache Airflow

  • Rollbaserad åtkomstkontroll (RBAC)
  • Autentisering med LDAP, OAuth och SSO
  • Hantering av hemligheter med Vault och molnhemlighetslager

Skalning av Apache Airflow

  • Paralellism, konkurrensekontroll och uppgiftsköer
  • Användning av CeleryExecutor och KubernetesExecutor
  • Distribuering av Airflow på Kubernetes med Helm

Bäst praxis för produktion

  • Versionskontroll och CI/CD för DAGs
  • Testning och felsökning av DAGs
  • Upprätthållande av tillförlitlighet och prestanda i stor skala

Felsökning och optimering

  • Felsökning av misslyckade DAGs och uppgifter
  • Optimering av DAG-prestanda
  • Vanliga fallgropar och hur man undviker dem

Sammanfattning och nästa steg

Krav

  • Erfarenhet av Python-programmering
  • Kännedom om data engineering eller DevOps-koncept
  • Förståelse för ETL eller arbetsflödesorkestration

Målgrupp

  • Data scientists
  • Data engineers
  • DevOps och infrastrukturengineers
  • Softwareutvecklare
 21 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (7)

Kommande Kurser

Relaterade Kategorier