Kursplan

Introduktion till multimodala modeller

  • Översikt över multimodal maskininlärning
  • Tillämpningar av multimodala modeller
  • Utmaningar med att hantera flera datatyper

Arkitekturer för multimodala modeller

  • Utforska modeller som CLIP, Flamingo och BLIP
  • Förstå tvärmodala uppmärksamhetsmekanismer
  • Arkitektoniska överväganden för skalbarhet och effektivitet

Förbereda multimodala datauppsättningar

  • Datainsamling och annoteringstekniker
  • Förbehandling av text-, bild- och videoindata
  • Balansera datauppsättningar för multimodala uppgifter

Finjusteringstekniker för multimodala modeller

  • Konfigurera träningspipelines för multimodala modeller
  • Hantera minnes- och beräkningsbegränsningar
  • Hantera anpassning mellan modaliteter

Tillämpningar av finjusterade multimodala modeller

  • Svar på visuella frågor
  • Bild- och videotextning
  • Innehållsgenerering med hjälp av multimodala indata

Prestandaoptimering och utvärdering

  • Utvärderingsmått för multimodala uppgifter
  • Optimera svarstid och dataflöde för produktion
  • Säkerställa robusthet och konsekvens mellan olika modaliteter

Använda multimodala modeller

  • Paketera modeller för distribution
  • ScalaBle Inference på molnplattformar
  • Realtidsapplikationer och integrationer

Fallstudier och praktiska laborationer

  • Finjustering av CLIP för innehållsbaserad bildhämtning
  • Träna en multimodal chatbot med text och video
  • Implementering av tvärmodala hämtningssystem

Sammanfattning och nästa steg

Krav

  • Kunskaper i Python programmering
  • Förståelse för begrepp inom djupinlärning
  • Erfarenhet av finjustering av förtränade modeller

Publik

  • AI-forskare
  • Datavetare
  • Utövare av maskininlärning
 28 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier