Kursplan

Introduktion till talsyntes och röstkloning

  • Översikt över text-till-tal (TTS) och neuralt röstsnytt
  • Röstkloning vs talsgenerering: användningsområden och gränser
  • Nyckelmodeller: Tacotron, WaveNet, FastSpeech, VITS

Arbete med kommersiella plattformar

  • Användning av ElevenLabs och Resemble AI
  • Röstskapande, kloning och redigering
  • API-åtkomst och text-till-tal-flöden

Bygg med öppen källkodsverktyg

  • Installation och konfiguration av Coqui TTS
  • Träna anpassade röster och hantera dataset
  • Generera tal med细则控制(音高、速度、情感)

Dataförberedelse och röstdatasetshantering

  • Insamla och rensa rödstämplar
  • Segmentering, etikettering och transkriptsjustering
  • Etisk ursprung och röstgivning

Programintegrering

  • Infoga TTS i webbplatser och applikationer
  • Skapa IVR-system och interaktiva botar
  • Generera syntetisk dialog för video och spel

Utvärdering av kvalitet och realitetsgrad

  • MOS (Mean Opinion Score) och intelligibilitetstester
  • Kontroll av uttrycksstyrka och prosodi
  • Jämföra svarstid, trognad och realitetsgrad

Etiska, juridiska och styrningsaspekter

  • Risker med djupfalsifieringar och ansvarsfull användning
  • Samtycke, tillskrivning och upphovsrättens betydelse
  • Regler och organisationspolicyer

Sammanfattning och nästa steg

Krav

  • Grundläggande kunskap i maskininlärning
  • Förståelse för ljudfilformat och redigeringsverktyg
  • Grunden i Python-programmering

Målgrupp

  • AI-utvecklare och ingenjörer intresserade av talsyntes
  • Innehållsskapare och medieteknologer som utforskar röstgenerering
  • R&D-team som bygger personaliserade eller dynamiska ljudsystem
 14 Timmar

Antal deltagare


Pris per deltagare

Kommande Kurser

Relaterade Kategorier