Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduktion till Skalning av Ollama
- Ollamas arkitektur och skalningsöverväganden
- Vanliga flaskhalsar vid flera användares distribution
- Bästa praxis för infrastrukturberedskap
Resursallokering och GPU-optimering
- Effektiva strategier för CPU/GPU-utnyttjande
- Minne och bandbreddsöverväganden
- Resursbegränsningar på containernivå
Distribution med Containers och Kubernetes
- Containerisering av Ollama med Docker
- Körning av Ollama i Kubernetes-kluster
- Lastbalansering och tjänsteupptäckt
Autoskalning och Batching
- Utformning av autoskalningsprinciper för Ollama
- Batchinferensmetoder för genomslagsoptimering
- Avvägningar mellan latens och genomslag
Latensoptimering
- Profilering av inferensprestation
- Cachestrategier och modelluppvärmning
- Minskning av I/O och kommunikationsbelastning
Övervakning och Observabilitet
- Integration av Prometheus för mätvärden
- Byggande av dashboards med Grafana
- Varning och incidenthantering för Ollama-infrastruktur
Kostnadshantering och Skalningsstrategier
- Kostnadsmedveten GPU-allokering
- Överväganden mellan moln- och lokal distribution
- Strategier för hållbar skalning
Sammanfattning och Nästa Steg
Krav
- Erfarenhet av Linux-systemförvaltning
- Förståelse för containerisering och orkestrering
- Kännedom om deployment av maskininlärningsmodeller
Målgrupp
- DevOps-ingenjörer
- ML-infrastrukturteam
- Site reliability engineers
21 timmar