Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduktion till Multimodal AI
- Översikt över multimodal AI och tillämpningar i den verkliga världen
- Utmaningar i att integrera text-, bild- och ljuddata
- State-of-the-art forskning och framsteg
Databehandling och funktionsteknik
- Hantera text-, bild- och ljuddatasetar
- Förbearbetningsmetoder för multimodal inlärning
- Strategier för funktionsutvinning och datafusion
Bygga multimodala modeller med PyTorch och Hugging Face
- Introduktion till PyTorch för multimodal inlärning
- Att använda Hugging Face Transformers för NLP- och visionuppgifter
- Kombinera olika modaliteter i en enad AI-modell
Implementera fusion av tal, vision och text
- Integrera OpenAI Whisper för taligenkänning
- Applicera DeepSeek-Vision för bildbehandling
- Fusionsmetoder för tvärmodal inlärning
Träna och optimera Multimodal AI modeller
- Modellträningsstrategier för multimodal AI
- Optimeringstekniker och justering av hyperparameterar
- Ta itu med snedvridning och förbättra modellens generalisering
Distribuera Multimodal AI i verkliga tillämpningar
- Exportera modeller för produktionsanvändning
- Distribuera AI-modeller på molnplattformar
- Prestandaövervakning och modellunderhåll
Avancerade ämnen och framtida trender
- Zero-shot och few-shot learning i multimodal AI
- Etiska överväganden och ansvarsfull AI-utveckling
- Framväxande trender inom multimodal AI-forskning
Sammanfattning och nästa steg
Krav
- God förståelse för koncept inom maskininlärning och djupinlärning
- Erfarenhet av AI-ramverk som PyTorch eller TensorFlow
- Bekantskap med bearbetning av text-, bild- och ljuddata
Målgrupp
- AI-utvecklare
- Maskininlärningsingenjörer
- Forskare
21 timmar