Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduktion till Multimodal AI och Ollama
- Översikt över multimodal inlärning
- Nyckelutmaningar i integrering av syn och språk
- Förmågor och arkitektur hos Ollama
Att Konfigurera Ollama-Miljön
- Installera och konfigurera Ollama
- Arbeta med lokal modellimplementering
- Integrera Ollama med Python och Jupyter
Arbeta med Multimodal Inmatning
- Integrering av text och bild
- Inkorporering av ljud och strukturerade data
- Design av förbehandlingspipelines
Applikationer för Dokumentförståelse
- Extrahera strukturerad information från PDF:er och bilder
- Kombinera OCR med språkmodeller
- Bygga intelligenta dokumentanalysarbetsflöden
Visual Question Answering (VQA)
- Konfigurera VQA-datamängder och benchmarks
- Träna och utvärdera multimodala modeller
- Bygga interaktiva VQA-applikationer
Design av Multimodala Agenter
- Principer för agentdesign med multimodal resonemang
- Kombinera perception, språk och handling
- Implementera agenter för verkliga användningsfall
Avancerad Integration och Optimering
- Fintuning av multimodala modeller med Ollama
- Optimering av inferensprestanda
- Skalbarhet och överväganden vid implementering
Sammanfattning och Nästa Steg
Krav
- Djup förståelse för maskininlärningskoncept
- Erfarenhet av djupinlärningsramverk såsom PyTorch eller TensorFlow
- Kännedom om bearbetning av naturligt språk och datorseende
Målgrupp
- Maskininlärningsingenjörer
- AI-forskare
- Produktutvecklare som integrerar syn- och textarbetsflöden
21 timmar