Kursplan

Introduktion till Mistral Multimodal Models

  • Översikt över Mistral Medium och multimodala förmågor
  • OCR/dokumentmodeller och användningsfall
  • Integration med öppen källkods-ökosystem

OCR och Vision Pipelines

  • Grunder i OCR med Mistral-modeller
  • Förbehandling av bilder och scannade dokument
  • Extrahering av strukturerad text från bilder

Förståelse av Dokument

  • Design av NLP-pipelines för dokument
  • Entitetsigenkänning, sammanfattning och klassificering
  • Korsmodal länkning av text- och visionsdata

Sök- och Kunskapsapplikationer

  • Vision-text-söksystem
  • Byggande av semantisk sökning med OCR-utdata
  • Företagsdokumentrepositorier

Assisterande och Interaktiva Applikationer

  • UI-design för multimodala assistenter
  • Tillgänglighetsapplikationer (t.ex., vision-till-text)
  • Verkliga produktivitetsverktyg

Prestanda och Optimering

  • Skalning av multimodala pipelines
  • Justering av inferensprestanda
  • Uvärdering av noggrannhets- och effektivitetsavvägningar

Fallstudier och Framtida Riktningar

  • Industrianvändningar av multimodal AI
  • Forskningstrender inom OCR och dokument-AI
  • Ansvariga AI-överväganden i vision-text-uppgifter

Sammanfattning och Nästa Steg

Krav

  • En förståelse av begrepp inom bearbetning av naturligt språk
  • Erfarenhet av Python och ML-ramverk
  • Kännedom om grunderna i datorseende

Målgrupp

  • Produktteam
  • ML-forskare
  • Tillämpade ML-ingenjörer
 14 timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier