Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Översikt över Speech Recognition Teknologier
- Historien och utvecklingen av taligenkänning
- Akustiska modeller, språkmodeller och dekodning
- Moderna arkitekturer: RNN, transformers och Whisper
Ljudförbehandling och Transkriptionsbaser
- Hantering av ljudformat och samplingshastigheter
- Rensning, trimning och segmentering av ljud
- Generering av text från ljud: realtid vs batch
Hands-on med Whisper och Andra API:er
- Installering och användning av OpenAI Whisper
- Anrop till moln-API:er (Google, Azure) för transkription
- Jämförelse av prestanda, latens och kostnad
Språk, Accenter och Domänanpassning
- Arbeta med flera språk och accenter
- Anpassade ordförråd och bullertålighet
- Hantering av juridiska, medicinska eller tekniska språk
Utdataformatering och Integration
- Tillägg av tidsstämplar, skiljetecken och talarläppar
- Exportera till text-, SRT- eller JSON-format
- Integration av transkriptioner i appar eller databaser
Use Case Implementeringslaboratorier
- Transkription av möten, intervjuer eller poddar
- Röst-til-text kommandsystem
- Realtidsundertexter för video/audiosändningar
Utvärdering, Begränsningar och Etik
- Nogi- och modellbenchmarking
- Fördomar och rättvisa i talmodeller
- Överväganden om integritet och efterlevnad
Sammanfattning och Nästa Steg
Krav
- Förståelse för allmänna AI- och maskininlärningskoncept
- Kännedom om ljud- eller mediefilformat och verktyg
Målgrupp
- Datavetenskapsmän och AI-ingenjörer som arbetar med taldata
- Programutvecklare som bygger applikationer baserade på transkription
- Organisationer som utforskar taligenkänning för automatisering
14 timmar