Kursplan

Introduktion till Skalning av Ollama

  • Ollamas arkitektur och skalningsöverväganden
  • Vanliga flaskhalsar vid flera användares distribution
  • Bästa praxis för infrastrukturberedskap

Resursallokering och GPU-optimering

  • Effektiva strategier för CPU/GPU-utnyttjande
  • Minne och bandbreddsöverväganden
  • Resursbegränsningar på containernivå

Distribution med Containers och Kubernetes

  • Containerisering av Ollama med Docker
  • Körning av Ollama i Kubernetes-kluster
  • Lastbalansering och tjänsteupptäckt

Autoskalning och Batching

  • Utformning av autoskalningsprinciper för Ollama
  • Batchinferensmetoder för genomslagsoptimering
  • Avvägningar mellan latens och genomslag

Latensoptimering

  • Profilering av inferensprestation
  • Cachestrategier och modelluppvärmning
  • Minskning av I/O och kommunikationsbelastning

Övervakning och Observabilitet

  • Integration av Prometheus för mätvärden
  • Byggande av dashboards med Grafana
  • Varning och incidenthantering för Ollama-infrastruktur

Kostnadshantering och Skalningsstrategier

  • Kostnadsmedveten GPU-allokering
  • Överväganden mellan moln- och lokal distribution
  • Strategier för hållbar skalning

Sammanfattning och Nästa Steg

Krav

  • Erfarenhet av Linux-systemförvaltning
  • Förståelse för containerisering och orkestrering
  • Kännedom om deployment av maskininlärningsmodeller

Målgrupp

  • DevOps-ingenjörer
  • ML-infrastrukturteam
  • Site reliability engineers
 21 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier