Kursplan

Introduktion till Multimodal AI och Ollama

  • Översikt över multimodal inlärning
  • Nyckelutmaningar i integrering av syn och språk
  • Förmågor och arkitektur hos Ollama

Att Konfigurera Ollama-Miljön

  • Installera och konfigurera Ollama
  • Arbeta med lokal modellimplementering
  • Integrera Ollama med Python och Jupyter

Arbeta med Multimodal Inmatning

  • Integrering av text och bild
  • Inkorporering av ljud och strukturerade data
  • Design av förbehandlingspipelines

Applikationer för Dokumentförståelse

  • Extrahera strukturerad information från PDF:er och bilder
  • Kombinera OCR med språkmodeller
  • Bygga intelligenta dokumentanalysarbetsflöden

Visual Question Answering (VQA)

  • Konfigurera VQA-datamängder och benchmarks
  • Träna och utvärdera multimodala modeller
  • Bygga interaktiva VQA-applikationer

Design av Multimodala Agenter

  • Principer för agentdesign med multimodal resonemang
  • Kombinera perception, språk och handling
  • Implementera agenter för verkliga användningsfall

Avancerad Integration och Optimering

  • Fintuning av multimodala modeller med Ollama
  • Optimering av inferensprestanda
  • Skalbarhet och överväganden vid implementering

Sammanfattning och Nästa Steg

Krav

  • Djup förståelse för maskininlärningskoncept
  • Erfarenhet av djupinlärningsramverk såsom PyTorch eller TensorFlow
  • Kännedom om bearbetning av naturligt språk och datorseende

Målgrupp

  • Maskininlärningsingenjörer
  • AI-forskare
  • Produktutvecklare som integrerar syn- och textarbetsflöden
 21 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier