Kom i kontakt

Kursplan

EXO Infrastructure as Code

  • Översikt över EXO distributionsmönster: single-node, multi-node, och RDMA-clusters
  • Automatisera installation av beroenden (Xcode, uv, Node.js, Rust) med konfigurationshantering
  • Användning av Nix flakes för reproducibla EXO-builds och utvecklarmiljöer
  • Skriv Ansible playbooks eller skript för oövervakad kluster provisionering

Reproducibla Byggen och CI-integration

  • Lås beroenden och bygg dashboarden i CI-pipelines
  • Kör EXO-smoke tests i GitHub Actions eller GitLab CI-runners
  • Skapa golden images och snapshot-baserade rollback-arbetssätt för macOS och Linux-VMs
  • Versionera anpassade modellkort tillsammans med applikationskod

Klusterupptäckt och nätverksautomation

  • Konfigurera mDNS och statiskt DNS för tillförlitlig libp2p-nodupptäckt
  • Automatisera skapande av nätverksprofiler och Thunderbolt-brygghantering på macOS
  • Använd egna namnrymder (EXO_LIBP2P_NAMESPACE) för att separera dev-, staging- och prod-clusters
  • Brandväggsregler och nätverkssegmentering för multitenant-miljöer

Lagring och modell-livscykelhantering

  • Utforma EXO_MODELS_DIRS och EXO_MODELS_READ_ONLY_DIRS-strategier
  • Koppla NFS- eller SAN-delar som skrivskyddade modellrepositorier för snabb provisionering
  • Garbage collection av gamla cachar och versionerade vikter-retentionspolicyer
  • Automatisera förnedladdning av modeller och hälsokontroller innan rullande uppdateringar

Övervakning och varning

  • Skicka EXO-loggar till centraliserad loggning (ELK, Loki eller Splunk)
  • Bygg Grafana-dashboarder från EXO_TRACING_ENABLED-utdata
  • Vara varna för klustermedlemskapsändringar, OOM-evenemang och inferenslatensspikes
  • Korrelatera macmon-hårdvarutelemetri med modellprestandaregressioner

Uppdatering, rollback och katastrofåterhämtning

  • Föranmälan av EXO-binäruppdateringar i en canary-nod innan fleet-wide utbreddning
  • Modellnivå rollback: växla mellan kvantiserade versioner utan nedladdning
  • Säkerhetskopiera och återställa klusterstatus, anpassade namnrymder och cachelagrade vikter
  • Dokumentera återhämtningsrunbooks för total klusteråterställningsscenarier

Säkerhetsförstärkning och efterlevnad

  • Tillämpa TLS vid reverse proxy-lagret (nginx, traefik) för dashboard och API
  • Implementera API-ratebegränsning och IP-vitlistning för EXO-slutpunkter
  • Isolera clusters med VLANs och zero-trust-nätverkspolicyer
  • Auditera åtkomst och bibehålla en inventering av installerade modeller och versioner

Krav

  • Erfarenhet av DevOps-praxis (CI/CD, IaC, behållarorkestrering)
  • Van vid administrering av macOS eller Linux system och pakethantering
  • Förståelse av nätverks-, DNS- och lagringskoncept

Målgrupp

  • DevOps-ingenjörer
  • Infrastrukturarkitekter
  • SRE:er ansvariga för on-premise AI-arbetsbelastningar
 21 Timmar

Antal deltagare


Pris per deltagare

Vittnesmål (2)

Kommande Kurser

Relaterade Kategorier