Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.
Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.
Kursplan
EXO Infrastructure as Code
- Översikt över EXO distributionsmönster: single-node, multi-node, och RDMA-clusters
- Automatisera installation av beroenden (Xcode, uv, Node.js, Rust) med konfigurationshantering
- Användning av Nix flakes för reproducibla EXO-builds och utvecklarmiljöer
- Skriv Ansible playbooks eller skript för oövervakad kluster provisionering
Reproducibla Byggen och CI-integration
- Lås beroenden och bygg dashboarden i CI-pipelines
- Kör EXO-smoke tests i GitHub Actions eller GitLab CI-runners
- Skapa golden images och snapshot-baserade rollback-arbetssätt för macOS och Linux-VMs
- Versionera anpassade modellkort tillsammans med applikationskod
Klusterupptäckt och nätverksautomation
- Konfigurera mDNS och statiskt DNS för tillförlitlig libp2p-nodupptäckt
- Automatisera skapande av nätverksprofiler och Thunderbolt-brygghantering på macOS
- Använd egna namnrymder (EXO_LIBP2P_NAMESPACE) för att separera dev-, staging- och prod-clusters
- Brandväggsregler och nätverkssegmentering för multitenant-miljöer
Lagring och modell-livscykelhantering
- Utforma EXO_MODELS_DIRS och EXO_MODELS_READ_ONLY_DIRS-strategier
- Koppla NFS- eller SAN-delar som skrivskyddade modellrepositorier för snabb provisionering
- Garbage collection av gamla cachar och versionerade vikter-retentionspolicyer
- Automatisera förnedladdning av modeller och hälsokontroller innan rullande uppdateringar
Övervakning och varning
- Skicka EXO-loggar till centraliserad loggning (ELK, Loki eller Splunk)
- Bygg Grafana-dashboarder från EXO_TRACING_ENABLED-utdata
- Vara varna för klustermedlemskapsändringar, OOM-evenemang och inferenslatensspikes
- Korrelatera macmon-hårdvarutelemetri med modellprestandaregressioner
Uppdatering, rollback och katastrofåterhämtning
- Föranmälan av EXO-binäruppdateringar i en canary-nod innan fleet-wide utbreddning
- Modellnivå rollback: växla mellan kvantiserade versioner utan nedladdning
- Säkerhetskopiera och återställa klusterstatus, anpassade namnrymder och cachelagrade vikter
- Dokumentera återhämtningsrunbooks för total klusteråterställningsscenarier
Säkerhetsförstärkning och efterlevnad
- Tillämpa TLS vid reverse proxy-lagret (nginx, traefik) för dashboard och API
- Implementera API-ratebegränsning och IP-vitlistning för EXO-slutpunkter
- Isolera clusters med VLANs och zero-trust-nätverkspolicyer
- Auditera åtkomst och bibehålla en inventering av installerade modeller och versioner
Krav
- Erfarenhet av DevOps-praxis (CI/CD, IaC, behållarorkestrering)
- Van vid administrering av macOS eller Linux system och pakethantering
- Förståelse av nätverks-, DNS- och lagringskoncept
Målgrupp
- DevOps-ingenjörer
- Infrastrukturarkitekter
- SRE:er ansvariga för on-premise AI-arbetsbelastningar
21 Timmar
Vittnesmål (2)
Craig var extremt engagerad i utbildningen och sorg alltid för att vi var uppmärksamma. Han anpassade exempelna efter våra dagliga aktiviteter och gav alltid ett svar när vi frågade, även om informationen inte fanns med i presentationen.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Kurs - DevOps Foundation®
Maskintolkat
Hög nivå av engagemang och kunskap hos instruktören
Jacek - Softsystem
Kurs - DevOps Engineering Foundation (DOEF)®
Maskintolkat