Text-till-Talsyntes (TTS3)

Dagens lektion: Text-till-Talsyntes (TTS3) Rebecca Jonson TalTeknologikursen VT 2005 Talsyntes Forts. Konkateneringssyntes Återsyntes LPC, PSOLA, MBROLA Jämförelse syntesmetoder Artik, Formant, Konkat Jämförelse återsyntesmetoder Utvärdering av TTS-system Framtida utmaningar Litteratur TTS2 Konkateneringssyntes Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap 1.4.6, 1.7 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis fr. kap 2.2 Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System, kap 7 Jurafsky. Kap 7.8, 20-20.2 s. 791-792 Uppdelning av inspelat m änskligt tal i ljudsegment som lagras och sedan vid syntes väljs ut och konkateneras för att sedan återsyntetiseras Klipp å klistra -syntes Konkateneringskorpus En m änsklig röst spelas in Val av röst viktig Vilken typ av text är bäst? Textmassan bör hållas liten men samtidigt fånga upp de ljudsegmentsvarianter som behövs till databasen utan att för den skull innehålla alltför komplicerade ord och fraser som g ör det svårt för röstdonanten att artikulera Olika strategier används: nonsensord, ord, meningar, texter Inspelningen delas upp i ljudsegment Manuellt Automatisk segmentering Segmentdatabasen Segmenten lagras antingen som vågformer eller som parametrar i en taldatabas (speechbase) på ett effektiv sätt (t ex. hash tabell) Equalization= Segmenten behöver i vissa fall homogeniseras när det gäller amplitudskillnader. Exempel difoner med duration: _s #100 #50 si #30 #90 i_ #90 #200

Konkatenering Val av segment I run-time väljs sedan lämpliga segment ut som konkateneras (sammanfogas) till löpande ljudsekvenser Slutligen om så behövs krävs viss signalbehandling för att ändra F0 och durationer samt jämna ut sammanfogningarna (smoothing) så att bitarna passar b ättre ihop (samma tonhöjd, styrka etc.) Första steget i konkateneringssyntesen är att välja ut segmenten (t ex difonerna) som ska bygga upp yttrandet som matchar input till talsyntesen (fonetisk transkription + prosodiska parametrar) Exempel input: see _#120 s #70 i #150 _ #100 #nnn= med en duration på nnn ms För att välja segment behövs olika sökmetoder för att hitta dem i databasen och välja rätt segment Exempel output: _s #120 #44 si #26 #75 i_ #75 #100 Unit selection Target and concatenation cost Ett yttrande varierari styrka och tonar ofta av i slutet. Difoner tagna från början av ett yttranden l åter onaturligt att ha i slutet. Tidigare löste man detta genom att neutralisera difonerna (homogen amplitud, tonhöjd) men då tappar man också naturlighet Med unit selection försöker man samla flera varianter av varje enhet (difon)med olika spektrala och prosodiska skillnader i en större databas och sedan använder man olika algoritmer för att välja ut de som passar bäst. Bästa enhet är den som är fonetiskt, akustiskt och prosodiskt mest passande för kontexten. Target/Unit cost: prosodiska och spektrala likheten mellan ett segment och målsegmentet Concatenation/Transition cost: hur bra passar segmentet in I kontexten, d v s hur väl kan det sammanfogas med andra segment Viterbialgoritm används ofta för att hitta minsta kostnadsvägen (Leif kommer gå in mer på det här!) Forts Unit. Sel. Non-uniform unit selection Om enheten/segmentet är mer lik målenheten behöver signalbehandlingen göra ett mindre jobb (en del unit-selection-synteser struntar i DSP) Ger naturligare tal än vanlig Difonbaserad syntes Kräver avancerade sökmetoder (Viterbi) Festival (diphone conc) Festival (unit selection) En variant av unit selection är att segmenten inte bara är varianter av difoner utan även trifoner, foner eller stavelser lagring inte längre stort problem En del koartikulationsfenomen går inte att fånga med difoner (t ex konsonantkluster). För dessa väljer man istället att använda polyfoner. Ex: NonUniform A&T Ex: UnitSelection A&T

Domänspecifik konkateneringssyntes Konkateneringsmetoder Ibland är användningen av ett TTS-system inom en specifik domän där den output som ska ges är begränsad. Med domänspecifik TTS försöker man få domänens vanligaste yttranden att låta bäst. Inspelning görs med text från domänen som sedan segmenteras. Bland segmenten inkluderas ord och fraser. Som back-off har man en vanlig difondatabas. Ger ett hög kvalité på syntetisering av inom-domän yttranden En exempel dialog fr ån CMUs Darpa Communicator När lämpliga segment valts ut ska de sammanfogas och återsyntetiseras (sammanfogningar kanske måste jämnas ut smoothing). Pitch och duration hos segmenten måste anpassas till yttrandet som ska syntetiseras. (Difonerna har ju olika prosodi från inspelning) Signalbehandling med manipulering av pitch och duration påverkar dock kvaliteten hos talet (distortion) Byggt utifr ån 630 inom-domän-yttranden Återsyntes LPC Olika signalbehandlingstekniker används för att jämna ut skarvar i konkateneringen och för att anpassa difonernas prosodi till varann (duration/pitch). Ju sämre val av difonerman gör desto mer jobb här. Motivet med j ättedabaser med flera olika segment och varianter av segment är att inte behöva använda sig av signalbehandlning som inför viss distortion på den annars mänskliga talsignalen. LPC (Linear Predictive Coding) PSOLA (Pitch Synchronous Overlap-and-add) Återsyntes med Källa-Filter teori Digitalt filter uppskattas utifrån naturligt tal med algoritmer Segment sparas inte utan en representation av dessa (LP-koefficienter) Ljudkälla som en puls och filtret består av LPkoefficienter som modellerar glottis, ansatsröret och radiation karakteristika Manipulation av grundton, duration och formanter MBROLA (Multiband resynthesisoverlapadd) PSOLA Pitch Synchronous Overlap-and-add Teknikför att manipulera en sammanfogad vågform av förinspelade talsegment (difoner) Ser talet som en ström av korta signaler. Möjlighet till manipulation av grundton, duration hos segmenten på periodnivå För att ändra duration tar man bort eller dubblerar en signalbit. För att ändra grundton flyttar man signalbitarna så att de överlappar (högre) eller dras ifrån varandra (lägre) MBROLA Projekt: http://www.tcts.fpms.ac.be/synthesis/ Algoritm: multiband resynthesis overlap and add Syntes: Input: fonemtranskription + prosodisk information Output: talsekvens genom konkatenering av difoner från en manipulerad databas PSOLA-databas där alla segment (difoner) är omanalyserade och omsyntetiserade med konstant pitch Vid syntes sammanfogas dessa ur konkateneringssynpunkt förbättrade segment Minskar diskontinuitet i pitch mellan sammanfogade segment

Festival Jmf olika syntesmetoder TTS med avancerad textbehandling och konkateneringssyntes (Univ. Edinburgh) Verktygsl åda som låter dig bygga din egen röst eller en syntes för ett nytt språk. Testa Festival i Unix >festival festival>(saytext Hello ) >emacs & Meta X say -minor-mode Skriv i bufferten, välj SayBuffer Artikulatorisksyntes Sv årt att räkna ut de fysiska parametrarna Kan ge hög kvalitet /Konsonanter svårt Optimal kontroll Intuitiv i sin bästa form Låter inte så bra Formantsyntes Bra kvalitet men låter syntetiskt/onaturligt (brusighet, falsett, nasalt, överaktiv med intonationen) Sv årt att hitta bra parametrar, kunskapstung (trial and error) Bra f ör vokaler, sämre för konsonanter Konkateneringssyntes Låter mindre syntetiskt (bygger ju påmänskligt tal!) Hackig ibland. Ingen jämn niv å. Forts jmf Jmf återsyntesmetoder Artikulatorisk Dyrbart komputationellt Kräver mer kunskap om talproduktionen Intressant ur forskningssynpunkt men hittills ingen praktisk tillämpbarhet Formant Lång utvecklingstid Kräver lite resurser Flexibel (ex: Röstbyte relativt enkelt) Konkatenering Ej flexibel: Sv årt att byta röster, kräver inspelningar Vanligast kommersiellt, snabbast utveckling, enkel metod Lagring inget problem längre LPC Surrigt ljud Syntetiserar talet och tappar naturligheten PSOLA Hög kvalitet på talet / låg komputationell kostnad Diskontinuitet vid överlappen MBROLA Undviker diskontinuitetsproblemet genom att bitarna har samma pitch Lägre kvalitet på talet än PSOLA Utvärdering av TTS (labintro) Utvärderingsmetoder TTS-utvärdering sker i subjektiv form Två huvudfaktorer utvärderas: Naturlighet att rösten är trevlig att lyssna på (inte n ödv. människolikhet) Förståelighet We speak not only to be heard but to be understood MOS-score (mean opinion score) Skala (oftast 1-5) där f örsökspersoner f år ranka system efter naturlighet och förståelighet Parjämförelse av naturlighet A är bättre än B SUS test av förståelighet Semantiskt ov äntade meningar the table walked through the blue truth DRT (Förståelighet på fonemnivå) Minimala par: Får, sår, vår/ lår, mår, når/ kår, tår, går

Forts utvärdering Svensk talsyntes Textbehandling (Förståelighet) Siffror, förkortningar, sammansättningar Homografdisambiguering (Förståelighet) Prosodisk frasering (Naturlighet/Förståelighet) Intonation/Fokus (Naturlighet/Förståelighet) Tungvrickare Allmän åsikt om rösten: Naturlighet, trevlig att lyssna på, tydlig, jämn, lätt att lyssna på, monoton Infovox (difon) Annmarie Ingemar RealSpeak (L&H) Scansoft Mbrola (difon) Exempel 1 Exempel 2 Loquendo Telenor (Norsk) Acapela Infovox fast heter Emma Slutsatser TTS Problem på flera nivåer Dagens talsyntessystem talar rätt så bra och förståeligt. Låter bättre och bättre tack vara framgångar i NLP och DSP Det låter inte så naturligt alltid och de saknar känsla. De gör fortfarande många fel. Det största felet de gör är att de inte kan tolka och förstå texten de läser. Det kunde HAL Lingvistisk behandling Uttal Prosodisk frasering Pitch Mskor har mer pitchrörelse men för att minimisera felrisken minskar vi denna vilket gör att det låter mekaniskt. Överdefinierad = för känslosamt (sportkommentator) Underdefinierad = onaturligt, monotont och deprimerande Bättre med större talsegmenti taldatabasen, behåller mer naturlighet Unit Selection = hitta det bästa segmentet Talproduktion Modellering av duration Framtida utmaningar På gång Koartikulation Reduktion (dagens TTS överartikulerar ofta) Prosodi (intonation, fokus, frasering) Röster/Talstilar Känslor/Attityder Variabilitet Fler TTS som accepterar annoterad input Korpusbaserad syntes Nya sätt att bygga upp segmentdatabaser Snabbare utveckling av nya röster Domänspecifika röster Tekniker från taligenkänning (HMM-talsynteser) Hybridsystem (talsegment som kan manipuleras flexibelt som i formantsyntes) Förbättrade signalbehandlingsmetoder Nya användningsområden