Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduktion till Multi-Modal AI
- Vad är multi-modal AI?
- Nyckelfrågor och tillämpningar
- Översikt över ledande multi-modella modeller
Textbearbetning och naturligt språkförståelse
- Använda LLMs för textbaserade AI-agenter
- Förstå prompt-ingenjörskonst för multi-modella uppgifter
- Anpassa textmodeller för domänspecifika tillämpningar
Bildigenkänning och generering
- Bearbeta bilder med AI: klassificering, bildtexter och objektdetektion
- Generera bilder med diffusionsmodeller (Stable Diffusion, DALLE)
- Integrera bilddata med textbaserade modeller
Tal- och ljudbearbetning
- Taligenkänning med Whisper ASR
- Tekniker för text-till-tal (TTS) syntes
- Förbättra användarinteraktion med talbaserad AI
Integrering av Multi-Modala Inputs
- Bygga AI-pipelines för bearbetning av flera inmatningstyper
- Fusionsmetoder för att kombinera text, bild och taldata
- Reella tillämpningar av multi-modala AI-agenter
Distribuera Multi-Modala AI-Agenter
- Bygga API-drivna multi-modala AI-lösningar
- Optimera modeller för prestanda och skalbarhet
- Bäst praxis för att distribuera multi-modal AI i produktion
Etiska överväganden och framtidstrender
- Fördomar och rättvisa i multi-modal AI
- Integritetskänsligheter med multi-modal data
- Framtida utvecklingar inom multi-modal AI
Sammanfattning och nästa steg
Krav
- Förståelse för grunderna i maskininlärning
- Erfarenhet av Python-programmering
- Bekantskap med djupinlärningsramverk (t.ex., TensorFlow, PyTorch)
Målgrupp
- AI-utvecklare
- Forskare
- Multimediatekniker
21 timmar
Vittnesmål (1)
Tränare som svarar på frågor på plats.
Adrian
Kurs - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
Machine Translated