Kursplan

Introduktion till Vision-Language Modeller

  • Översikt över VLMs och deras roll inom multimodal AI
  • Populära arkitekturer: CLIP, Flamingo, BLIP, etc.
  • Användningsfall: sökmotorer, bildtextskapande, autonoma system, innehållsanalys

Förberedelse av Fintuningmiljö

  • Installering av OpenCLIP och andra VLM-bibliotek
  • Datasetformat för bild-textpar
  • Förbehandlingspipelines för vision och språkinput

Fintuning av CLIP och Liknande Modeller

  • Kontrastiv förlust och gemensamma embeddingsrymder
  • Hands-on: fintuning av CLIP på egna dataset
  • Hantering av domänspecifika och flerspråkiga data

Avancerade Fintuningstekniker

  • Användning av LoRA och adapterbaserade metoder för effektivitet
  • Prompt tuning och visuell prompt injektion
  • Jämförelse mellan zero-shot och fintuned evaluation

Utvärdering och Benchmarking

  • Mått för VLMs: hämtningsnoyaktighet, BLEU, CIDEr, recall
  • Diagnostik för visuell-textuell överensstämmelse
  • Visualisering av embeddingsrymder och missklassificeringar

Distribution och Användning i Reala Applikationer

  • Export av modeller för inferens (TorchScript, ONNX)
  • Integration av VLMs i pipelines eller API:er
  • Resursöverväganden och skalning av modeller

Fallstudier och Tillämpade Scenarier

  • Medieanalys och innehållsmoderering
  • Sökning och hämtning inom e-handel och digitala bibliotek
  • Multimodal interaktion inom robotik och autonoma system

Sammanfattning och Nästa Steg

Krav

  • En förståelse för djuplärning för vision och NLP
  • Erfarenhet av PyTorch och transformerbaserade modeller
  • Kännedom om multimodal modellarkitekturer

Målgrupp

  • Datorseendeingenjörer
  • AI-utvecklare
 14 timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier