Kursplan

Introduktion till talgenerering och röstkloning

  • Översikt över text-till-tal (TTS) och neural röstgenerering
  • Röstkloning vs talgenerering: användningsområden och gränser
  • Nyckelmodeller: Tacotron, WaveNet, FastSpeech, VITS

Arbeta med kommersiella plattformar

  • Användning av ElevenLabs och Resemble AI
  • Skapande, kloning och redigering av röster
  • API-åtkomst och text-till-tal-arbetsflöden

Bygga med öppen källkod

  • Installera och konfigurera Coqui TTS
  • Träna anpassade röster och hantera datamängder
  • Generera tal med finkontroll (tonhöjd, hastighet, känsla)

Datapreparation och röstmängd

  • Insamling och rengöring av röstexempel
  • Segmentering, märkning och justering av transkriptioner
  • Etisk insamling och röstgodkännande

Applikationsintegrering

  • Inbäddning av TTS i webbplatser och applikationer
  • Skapande av IVR-system och interaktiva bots
  • Generering av syntetiskt dialog för video och spel

Utvärdering av kvalitet och realism

  • MOS (Medelopinionspoäng) och förståbarhetstest
  • Kontroll av uttrycksfullhet och prosodi
  • Jämförelse av fördröjning, trohet och realism

Etiska, juridiska och styrningsfrågor

  • Risker med deepfake och ansvarsfull användning
  • Samtycke, attributions- och upphovsrättsliga implikationer
  • Regleringar och organisationspolicyer

Sammanfattning och nästa steg

Krav

  • Förståelse för grunderna i maskininlärning
  • Kännedom om ljudfilformat och redigeringsverktyg
  • Grundläggande Python programmeringsfärdigheter

Målgrupp

  • AI-utvecklare och ingenjörer intresserade av talgenerering
  • Innehållsskapare och medieteknologer som utforskar röstgenerering
  • F&U-lag som bygger personliga eller dynamiska ljudsystem
 14 timmar

Antal deltagare


Price per participant

Upcoming Courses

Relaterade Kategorier