Kursplan

Introduktion till Multimodal AI

  • Översikt över multimodal AI och dess praktiska tillämpningar
  • Utmaningar med att integrera text-, bild- och ljuddata
  • Aktuell forskning och framsteg

Datahantering och Funktionsteknik

  • Hantering av text-, bild- och ljuddatamängder
  • Förbehandlingstekniker för multimodal inlärning
  • Strategier för funktionsextraktion och datafusion

Byggande av Multimodala Modeller med PyTorch och Hugging Face

  • Introduktion till PyTorch för multimodal inlärning
  • Användning av Hugging Face Transformers för NLP- och synuppgifter
  • Kombinering av olika modaliteter i en enhetlig AI-modell

Implementering av Tal, Vision och Textfusion

  • Integration av OpenAI Whisper för taligenkänning
  • Tillämpning av DeepSeek-Vision för bildbehandling
  • Fusionstekniker för korsmodal inlärning

Träning och Optimering av Multimodala AI-modeller

  • Strategier för träning av multimodala AI-modeller
  • Optimeringstekniker och inställning av hyperparametrar
  • Hantering av fördomar och förbättring av modellens generalisering

Implementation av Multimodal AI i Praktiska Tillämpningar

  • Export av modeller för produktionsbruk
  • Implementation av AI-modeller på molnplattformar
  • Prestandamätning och modellunderhåll

Avancerade Ämnen och Framtida Trender

  • Zero-shot och few-shot inlärning i multimodal AI
  • Etiska överväganden och ansvarsfull AI-utveckling
  • Uppkommande trender inom forskning om multimodal AI

Sammanfattning och Nästa Steg

Krav

  • God förståelse för maskininlärnings- och djupinlärningskoncept
  • Erfarenhet av AI-ramverk som PyTorch eller TensorFlow
  • Kännedom om text-, bild- och ljuddatabehandling

Målgrupp

  • AI-utvecklare
  • Maskininlärningsingenjörer
  • Forskare
 21 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier