Kursplan

Prestanda Begrepp och Mått

  • Latens, genomströmning, strömförbrukning, resursutnyttjande
  • System- vs modellnivåflaskhalsar
  • Profilering för inferens vs träningsdata

Profilering på Huawei Ascend

  • Användning av CANN Profiler och MindInsight
  • Kernel- och operatordiagnostik
  • Offloadmönster och minneskartläggning

Profilering på Biren GPU

  • Prestandamätningsegenskaper för Biren SDK
  • Kernelfusion, minnesutligning och körköer
  • Profilering med medvetenhet om effekt och temperatur

Profilering på Cambricon MLU

  • Prestandaverktyg för BANGPy och Neuware
  • Kernelnivåsynlighet och loggtolkning
  • Integration av MLU-profiler med distribueringsramverk

Optimering på graf- och modellnivå

  • Strategier för gallring och kvantisering av grafer
  • Operatorfusion och omstrukturering av beräkningsgrafer
  • Standardisering av inmatningsstorlek och batchjustering

Minne- och Kerneloptimering

  • Optimering av minneslayout och omvändning
  • Effektiv buffertadministration över chipset
  • Kernelnivåjusteringstekniker per plattform

Bästa Praktiker för Flera Plattformar

  • Prestandaportabilitet: abstraktionsstrategier
  • Byggande av gemensamma justeringspipelines för miljöer med flera chip
  • Exempel: justering av en objektdetektionsmodell över Ascend, Biren och MLU

Sammanfattning och Nästa Steg

Krav

  • Erfarenhet av arbete med AI-modelltränings- eller distributionspipelines
  • Förståelse för GPU/MLU-beräkningsprinciper och modelloptimering
  • Grundläggande bekantskap med prestandaprofileringverktyg och mätvärden

Målgrupp

  • Prestandaingenerjörer
  • Maskininlärningsinfrastukturteam
  • AI-systemarkitekter
 21 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier