Kursplan

Introduktion till Multi-Modal AI

  • Vad är multi-modal AI?
  • Nyckelfrågor och tillämpningar
  • Översikt över ledande multi-modella modeller

Textbearbetning och naturligt språkförståelse

  • Använda LLMs för textbaserade AI-agenter
  • Förstå prompt-ingenjörskonst för multi-modella uppgifter
  • Anpassa textmodeller för domänspecifika tillämpningar

Bildigenkänning och generering

  • Bearbeta bilder med AI: klassificering, bildtexter och objektdetektion
  • Generera bilder med diffusionsmodeller (Stable Diffusion, DALLE)
  • Integrera bilddata med textbaserade modeller

Tal- och ljudbearbetning

  • Taligenkänning med Whisper ASR
  • Tekniker för text-till-tal (TTS) syntes
  • Förbättra användarinteraktion med talbaserad AI

Integrering av Multi-Modala Inputs

  • Bygga AI-pipelines för bearbetning av flera inmatningstyper
  • Fusionsmetoder för att kombinera text, bild och taldata
  • Reella tillämpningar av multi-modala AI-agenter

Distribuera Multi-Modala AI-Agenter

  • Bygga API-drivna multi-modala AI-lösningar
  • Optimera modeller för prestanda och skalbarhet
  • Bäst praxis för att distribuera multi-modal AI i produktion

Etiska överväganden och framtidstrender

  • Fördomar och rättvisa i multi-modal AI
  • Integritetskänsligheter med multi-modal data
  • Framtida utvecklingar inom multi-modal AI

Sammanfattning och nästa steg

Krav

  • Förståelse för grunderna i maskininlärning
  • Erfarenhet av Python-programmering
  • Bekantskap med djupinlärningsramverk (t.ex., TensorFlow, PyTorch)

Målgrupp

  • AI-utvecklare
  • Forskare
  • Multimediatekniker
 21 timmar

Antal deltagare


Price per participant

Vittnesmål (1)

Upcoming Courses

Relaterade Kategorier