Kursplan

Introduktion till Gemini 3 Multimodalitet

  • Kapaciteter över text, bilder, ljud och video
  • Modellval och slutpunktsoversikt
  • Nyckelkoncept i multimodellt resonemang

Arbeta med text och strukturerade inmatningar

  • Strategier för anvisningar vid textgenerering
  • Metadata, kontextfönster och embeddings
  • Textbaserad orchestration av multimodella uppgifter

Bildförståelse och visuella arbetsflöden

  • Bildanalys och tolkning med Gemini 3
  • Skapa verktyg för visuell sökning och etikettning
  • Bygga interaktioner mellan bilder och text

Bearbetning av ljudinmatningar

  • Taligenkänning och transkriberingar
  • Detektion och tolkning av ljudhändelser
  • Integrera ljud med text- och visuella inmatningar

Videointelligens och scenanalys

  • Ram för ram och kontinuerlig videoreasoning
  • Bygga verktyg för sammanfattning och highlight-extraktion
  • Video-baserad automation och innehållsarbetsflöden

Utforma multimodella applikationsarkitekturer

  • Kombinera flera inmatningstyper i ett enda pipeline
  • Latens, kostnader och beräkningsaspekter
  • Bästa praxis för skalbara multimodella system

Prototypa multimodella applikationer

  • Praktisk skapande av multimodella prototyper
  • Snabbiteration med prompt engineering
  • Testa och förfinna användarupplevelseflöden

Distribuera multimodella lösningar

  • Distribueringsstrategier och miljöinställningar
  • Övervaka realvärldens prestanda
  • Säkerhets- och kompliancöverväganden

Sammanfattning och nästa steg

Krav

  • Kunskap om moderna AI-koncept
  • Erfarenhet av Python eller JavaScript
  • Kännedom om REST-API:er

Målgrupp

  • Designers
  • Innehållsskapare
  • Tekniska produktteam
 14 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (1)

Kommande Kurser

Relaterade Kategorier