Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.
Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.
Kursplan
Introduktion till prediktiv AIOps
- Översikt över prediktiv analys i IT-operationer
- Datakällor för prediktion (loggar, mått, händelser)
- Nyckalkoncept inom tidssekvensprognosering och anomalimönster
Design av incidentprediktionsmodeller
- Märkning av historiska incidenter och systembeteende
- Val och träning av modeller (t.ex., LSTM, Random Forest, AutoML)
- Utvärdering av modellprestanda och hantering av falskapositiv
Datainsamling och funktionsutveckling
- Inmatning och anpassning av loggar och måttdata för modellindata
- Funktionsextraktion från strukturerade och ostrukturerade data
- Hantering av störningar och saknade data i driftsättningspipeliner
Automatisering av huvudorsaksanalys (RCA)
- Grafbaserad korrelation av tjänster och infrastruktur
- Användning av ML för att dra slutsatser om sannolika huvudorsaker från händelsekedjor
- Visualisering av RCA med topologi-baserade instrumentpaneler
Åtgärder och arbetsflödesautomatisering
- Integration med automatiseringsplattformar (t.ex., Ansible, Rundeck)
- Aktivering av återgång, omstart eller trafikomdirigering
- Gransknings- och dokumentation av automatiserade ingrepp
Skalning av intelligenta AIOps-pipeliner
- MLOps för observabilitet: omträning och modellversionering
- Körande prediktioner i realtid över distribuerade noder
- Bästa praxis för driftsättning av AIOps i produktionsmiljöer
Fallstudier och praktiska tillämpningar
- Analysering av riktig incidentdata med hjälp av prediktiva AIOps-modeller
- Driftsättning av RCA-pipeliner med syntetiska och produktionsdata
- Granskning av branschfallstudier: molntjänstutfall, mikrotjänsterinstabilitet, nätverksförvärringar
Sammanfattning och nästa steg
Krav
- Erfarenhet av övervakningsystem som Prometheus eller ELK
- Arbetskunskap om Python och grundläggande maskininlärning
- Kännedom om incidenthanteringsarbetsflöden
Målgrupp
- Senior site reliability engineers (SREs)
- IT-automatiseringsarkitekter
- DevOps- och observabilitetsplattformsledare
14 Timmar