Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduktion till Multi-Modal AI
- Vad är multi-modal AI?
- Nyckelutmaningar och tillämpningar
- Översikt över ledande multimodala modeller
Textbehandling och förståelse av naturligt språk
- Utnyttja LLM:er för textbaserade AI-agenter
- Förståelse av promptteknik för multimodala uppgifter
- Finjustering av textmodeller för domänspecifika tillämpningar
Bildrecognition och generering
- Bearbeta bilder med AI: klassificering, bildtextning och objektigenkänning
- Generera bilder med diffusionsmodeller (Stable Diffusion, DALLE)
- Integrera bilddata med textbaserade modeller
Tal- och ljudbearbetning
- Taligenkänning med Whisper ASR
- Text-till-tal (TTS) syntes tekniker
- Förbättra användarinteraktionen med röstbaserad AI
Integrera multimodala ingångar
- Bygga AI-pipelines för att bearbeta flera inmatningstyper
- Fusionstekniker för att kombinera text-, bild- och taldata
- Verkliga tillämpningar av multimodala AI-agenter
Distribuera Multi-Modal AI Agents
- Bygga API-drivna multimodala AI-lösningar
- Optimera modeller för prestanda och skalbarhet
- Bästa praxis för att distribuera multimodal AI i produktion
Etiska överväganden och framtida trender
- Bias och rättvisa i multi-modal AI
- Integritetsproblem med multimodal data
- Framtida utvecklingar inom multi-modal AI
Sammanfattning och nästa steg
Krav
- En förståelse för grunderna i maskininlärning
- Erfarenhet av programmering
- Familiaritet med djupinlärningsramverk (t.ex. , Py)
Publik
- AI-utvecklare
- Forskare
- Multimediaingenjörer
21 timmar
Vittnesmål (1)
Tränare som svarar på frågor på plats.
Adrian
Kurs - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
Machine Translated