Kursplan

Introduktion till Multimodal AI

  • Översikt över multimodal AI och tillämpningar i den verkliga världen
  • Utmaningar i att integrera text-, bild- och ljuddata
  • State-of-the-art forskning och framsteg

Databehandling och funktionsteknik

  • Hantera text-, bild- och ljuddatasetar
  • Förbearbetningsmetoder för multimodal inlärning
  • Strategier för funktionsutvinning och datafusion

Bygga multimodala modeller med PyTorch och Hugging Face

  • Introduktion till PyTorch för multimodal inlärning
  • Att använda Hugging Face Transformers för NLP- och visionuppgifter
  • Kombinera olika modaliteter i en enad AI-modell

Implementera fusion av tal, vision och text

  • Integrera OpenAI Whisper för taligenkänning
  • Applicera DeepSeek-Vision för bildbehandling
  • Fusionsmetoder för tvärmodal inlärning

Träna och optimera Multimodal AI modeller

  • Modellträningsstrategier för multimodal AI
  • Optimeringstekniker och justering av hyperparameterar
  • Ta itu med snedvridning och förbättra modellens generalisering

Distribuera Multimodal AI i verkliga tillämpningar

  • Exportera modeller för produktionsanvändning
  • Distribuera AI-modeller på molnplattformar
  • Prestandaövervakning och modellunderhåll

Avancerade ämnen och framtida trender

  • Zero-shot och few-shot learning i multimodal AI
  • Etiska överväganden och ansvarsfull AI-utveckling
  • Framväxande trender inom multimodal AI-forskning

Sammanfattning och nästa steg

Krav

  • God förståelse för koncept inom maskininlärning och djupinlärning
  • Erfarenhet av AI-ramverk som PyTorch eller TensorFlow
  • Bekantskap med bearbetning av text-, bild- och ljuddata

Målgrupp

  • AI-utvecklare
  • Maskininlärningsingenjörer
  • Forskare
 21 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier