Kursplan

Översikt över taligenknings teknologier

  • Historia och utveckling av taligenkänning
  • Ljudmodeller, språkmodeller och dekodning
  • Moderna arkitekturer: RNNs, transformers, och Whisper

Ljudförbehandling och grundläggande transkription

  • Hantering av ljudformat och sampelfrekvenser
  • Rensning, beskärning och segmentering av ljud
  • Generering av text från ljud: realtid mot batch

Praktiskt arbete med Whisper och andra API:er

  • Installation och användning av OpenAI Whisper
  • Anropande av moln-API:er (Google, Azure) för transkription
  • Jämförelse av prestanda, latens och kostnad

Språk, dialekter och domänanpassning

  • Arbete med flera språk och dialekter
  • Anpassade ordlistor och störningstolerans
  • Hantering av juridisk, medicinsk eller teknisk terminologi

Formatering av utdata och integration

  • Lägg till tidsstämplar, interpunktion och talaretsikter
  • Exportering till text, SRT eller JSON-format
  • Integrering av transkriptioner i appar eller databaser

Implementeringslaborationer för användningsfall

  • Transkribering av möten, intervjuer eller podcasts
  • Röst-till-text-kommandosystem
  • Realistiska undertexter för videostreams eller audiostreams

Utvärdering, begränsningar och etik

  • Noggrannhetsmätningar och modellbenchmarking
  • Bias och rättvisa i talmodeller
  • Sekretess- och komplianceöverväganden

Sammanfattning och nästa steg

Krav

  • En förståelse för allmäna AI- och maskininlärningskoncept
  • Bekantskap med ljud- eller medi FILFORMAT och verktyg

Målgrupp

  • Data scientist och AI-ingenjörer som arbetar med röstdata
  • Programutvecklare som bygger transkriptionsbaserade program
  • Organisationer som utforskar taligenkänning för automatisering
 14 Timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier