Kom i kontakt

Kursplan

Grundläggande för Tencent Hunyuan i produktion

  • Översikt över scenarier för distribuering av Tencent Hunyuan-modeller.
  • Produktionskarakteristik för stora och MoE-modeller.
  • Vanliga latens-, genombursträff- och kostnadsbottlenecker.
  • Definiera servicelevelsobjektiv för infärningsarbetsbelastningar.

Distribueringsarkitektur och driftsättningsschema

  • Kärnkomponenter i en produktionsinfärningsstack.
  • Välja mellan containrar, lokala och molnbaserade distribueringsmodeller.
  • Grundläggande modellladdning, begäranroutering och GPU-allokering.
  • Designa för pålitlighet och operationell enkelhet.

Latensoptimering i praktiken

  • Använda optimerade infärningsmotorer som TensorRT där det är lämpligt.
  • KV-cachekoncept och praktisk cachejustering.
  • Minska start-, uppvärmnings- och svarstidsöverhuvud.
  • Mätning av tid till första token och tokens genereringshastighet.

Genombursträff, batchning och GPU-effektivitet

  • Kontinuerlig batchning och begäranbatchningsstrategier.
  • Hantera konkurrenskraft och köbeteende.
  • Förbättra GPU-användningen utan att skada användarupplevelsen.
  • Hantera långkontext- och blandade arbetsbelastningsbegäranden.

Kvantifiering och kostnadskontroll

  • Varför kvantifiering är viktig för produktionsdrift.
  • Praktiska kompromisser med FP16, INT8 och andra vanliga noggrannhetsalternativ.
  • Balansera modellkvalitet, latens och infrastrukturkostnader.
  • Skapa en enkel kostnadsoptimeringschecklista.

Drift, övervakning och beredskapsgranskning

  • Automatisk skalning av utlösningsutlösare för infärningstjänster.
  • Övervakning av latens, genombursträffar, cachenutzning och GPU-hälsa.
  • Grundläggande loggning, avisering och incidenthantering.
  • Granska en referensdistribuering och skapa ett förbättringsplan.

Krav

  • Grundläggande kunskap om distribuering och infärningsarbetsflöden för stora språkmodeller.
  • Erfarenhet av containrar, moln- eller lokala infrastruktur, och API-baserade tjänster.
  • Arbetande kunskap om Python eller systemingenjörsuppgifter.

Målgrupp

  • ML-ingeniörer som distribuerar LLMs i produktion.
  • Plattformsingeniörer som ansvarar för GPU-baserade infärningstjänster.
  • Lösningssarkitekter som utformar skalbara AI-distribueringsplattformar.
 14 Timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier