Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.
Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.
Kursplan
Översikt över taligenknings teknologier
- Historia och utveckling av taligenkänning
- Ljudmodeller, språkmodeller och dekodning
- Moderna arkitekturer: RNNs, transformers, och Whisper
Ljudförbehandling och grundläggande transkription
- Hantering av ljudformat och sampelfrekvenser
- Rensning, beskärning och segmentering av ljud
- Generering av text från ljud: realtid mot batch
Praktiskt arbete med Whisper och andra API:er
- Installation och användning av OpenAI Whisper
- Anropande av moln-API:er (Google, Azure) för transkription
- Jämförelse av prestanda, latens och kostnad
Språk, dialekter och domänanpassning
- Arbete med flera språk och dialekter
- Anpassade ordlistor och störningstolerans
- Hantering av juridisk, medicinsk eller teknisk terminologi
Formatering av utdata och integration
- Lägg till tidsstämplar, interpunktion och talaretsikter
- Exportering till text, SRT eller JSON-format
- Integrering av transkriptioner i appar eller databaser
Implementeringslaborationer för användningsfall
- Transkribering av möten, intervjuer eller podcasts
- Röst-till-text-kommandosystem
- Realistiska undertexter för videostreams eller audiostreams
Utvärdering, begränsningar och etik
- Noggrannhetsmätningar och modellbenchmarking
- Bias och rättvisa i talmodeller
- Sekretess- och komplianceöverväganden
Sammanfattning och nästa steg
Krav
- En förståelse för allmäna AI- och maskininlärningskoncept
- Bekantskap med ljud- eller medi FILFORMAT och verktyg
Målgrupp
- Data scientist och AI-ingenjörer som arbetar med röstdata
- Programutvecklare som bygger transkriptionsbaserade program
- Organisationer som utforskar taligenkänning för automatisering
14 Timmar