Kursplan

Översikt över Speech Recognition Teknologier

  • Historien och utvecklingen av taligenkänning
  • Akustiska modeller, språkmodeller och dekodning
  • Moderna arkitekturer: RNN, transformers och Whisper

Ljudförbehandling och Transkriptionsbaser

  • Hantering av ljudformat och samplingshastigheter
  • Rensning, trimning och segmentering av ljud
  • Generering av text från ljud: realtid vs batch

Hands-on med Whisper och Andra API:er

  • Installering och användning av OpenAI Whisper
  • Anrop till moln-API:er (Google, Azure) för transkription
  • Jämförelse av prestanda, latens och kostnad

Språk, Accenter och Domänanpassning

  • Arbeta med flera språk och accenter
  • Anpassade ordförråd och bullertålighet
  • Hantering av juridiska, medicinska eller tekniska språk

Utdataformatering och Integration

  • Tillägg av tidsstämplar, skiljetecken och talarläppar
  • Exportera till text-, SRT- eller JSON-format
  • Integration av transkriptioner i appar eller databaser

Use Case Implementeringslaboratorier

  • Transkription av möten, intervjuer eller poddar
  • Röst-til-text kommandsystem
  • Realtidsundertexter för video/audiosändningar

Utvärdering, Begränsningar och Etik

  • Nogi- och modellbenchmarking
  • Fördomar och rättvisa i talmodeller
  • Överväganden om integritet och efterlevnad

Sammanfattning och Nästa Steg

Krav

  • Förståelse för allmänna AI- och maskininlärningskoncept
  • Kännedom om ljud- eller mediefilformat och verktyg

Målgrupp

  • Datavetenskapsmän och AI-ingenjörer som arbetar med taldata
  • Programutvecklare som bygger applikationer baserade på transkription
  • Organisationer som utforskar taligenkänning för automatisering
 14 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier