Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduktion till talgenerering och röstkloning
- Översikt över text-till-tal (TTS) och neural röstgenerering
- Röstkloning vs talgenerering: användningsområden och gränser
- Nyckelmodeller: Tacotron, WaveNet, FastSpeech, VITS
Arbeta med kommersiella plattformar
- Användning av ElevenLabs och Resemble AI
- Skapande, kloning och redigering av röster
- API-åtkomst och text-till-tal-arbetsflöden
Bygga med öppen källkod
- Installera och konfigurera Coqui TTS
- Träna anpassade röster och hantera datamängder
- Generera tal med finkontroll (tonhöjd, hastighet, känsla)
Datapreparation och röstmängd
- Insamling och rengöring av röstexempel
- Segmentering, märkning och justering av transkriptioner
- Etisk insamling och röstgodkännande
Applikationsintegrering
- Inbäddning av TTS i webbplatser och applikationer
- Skapande av IVR-system och interaktiva bots
- Generering av syntetiskt dialog för video och spel
Utvärdering av kvalitet och realism
- MOS (Medelopinionspoäng) och förståbarhetstest
- Kontroll av uttrycksfullhet och prosodi
- Jämförelse av fördröjning, trohet och realism
Etiska, juridiska och styrningsfrågor
- Risker med deepfake och ansvarsfull användning
- Samtycke, attributions- och upphovsrättsliga implikationer
- Regleringar och organisationspolicyer
Sammanfattning och nästa steg
Krav
- Förståelse för grunderna i maskininlärning
- Kännedom om ljudfilformat och redigeringsverktyg
- Grundläggande Python programmeringsfärdigheter
Målgrupp
- AI-utvecklare och ingenjörer intresserade av talgenerering
- Innehållsskapare och medieteknologer som utforskar röstgenerering
- F&U-lag som bygger personliga eller dynamiska ljudsystem
14 timmar