Text-till-Talsyntes (TTS1)

Text-till-Talsyntes (TTS1) Jonas Lindh TalTeknologi HT 2007 Dagens lektion: Vad är TTS? Delarna i ett TTS-system Lingvistisk behandling Talsyntesmetoder Litteratur TTS1 Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap. 1.5, 1.6, 1.8, 1.9 Dutoit, T. A Short Introduction to Text-to-Speech Synthesis kap.1-2.2 Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System, kap. 6 & 7 http://www.cs.colorado.edu/%7emartin/slp/upd ates/8.pdf Jurafsky. Kap. 4.6, 4.7, 4.8 i gamla upplagan TTS labb1 Utvärdering av TTS Deadline 25e Nov? Frågor? Vad är text-till-talsyntes? Omvandling av text till syntetiskt tal Automatisk produktion av nya meningar till skillnad från Voice Response Systems som kombinerar redan inspelad bitar (ord eller fraser) och har en begränsning i antal möjliga kombinationer. Datorsystem som talar eller läser upp vilken given text som helst. automatic production of speech, through a grapheme-to-phoneme transcription of the sentences to utter Dutoit Vad är maskinellt tal? Inspelat mänskligt tal Canned speech Ord och fraser Fix vokabulär Template filling Systematiskt fragmenterat inspelat tal (Konkateneringssyntes) Parametrisk syntes (konstgjord artikulatorisk el. formant) Syntes med flera modaliteter 1

Hur ser ett TTS-system ut? Textbehandling Omvandling av godtycklig rå text till ord Bortfiltrering (smileys, htmlkod etc.) Tokenisering: Förkortningar, siffror Homografdisambiguering Lingvistisk behandling Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal, intonation, rytm, frasering Vågformsgenerering Omvandling av segment + prosodiska parametrar till en talsignal Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP Översikt Lingvistisk analys Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal Prosodisk frasering Duration (rytm) Satsintonation F0 Post-lexikala regler Uttal Finally, which rimes with enough, Though, through, plough, cough, hough, or tough? Hiccough has the sound of cup. My advice is give it up! G.N. Trenite Uttal För varje ord bestämma uttal, betoning, ordaccent Olika svårt i olika språk beroende på förhållandet mellan stavning och uttal Finska: hyvää Spanska: bastante Svenska: sisådär Engelska: remember the rhyme? Ghoti eller Fish? http://sv.wikipedia.org/wiki/ghoti Problem: Nya former/ord egennamn utländska ord tolkas som annan ordklass Hur bestämmer vi uttalet? Uttalslexikon som listar orden och deras uttal CMU/CELEX/PRONLEX Egennamn (många!!!) Många ord ej i lexikon Böjningsformer Sammansättningar Nybildningar Morfologisk analys Dela upp ordet och sök på delarna i lexikon Högt agglutinerade språk kräver detta (turkiska) Sammansatta ord Husbåtar hus båt ar Bildrulle bil drulle/ bild rulle? 2

Exempel Uttalslexikon Uttal för ordet armadillo i olika engelska uttalslexikon: CMU= AA2 R M A AH0 D IH 1 L OW0 Pronlex= +arm.xd ll.o CELEX= #-m@- di-l5 När uttalslexikon inte räcker till Part of speech tagging The invalid made an invalid comment Kontextberoende the cat, the ape Bokstav-till-ljud regler (LTS rules) Gissa uttalet utifrån regler baserade på fonologiska kunskaper /n/ uttalas /ng/ före /k/ Räcker för spanska ( + undantagslexikon) Regler skrivs manuellt eller tränas automatiskt. Exempel: Bokstav- till ljudregel 1(# [ c h ] C = k) 2(# [ c h ] = ch) # = början på ord C = konsonant Christmas k Choice ch Betoning inom ord Betoning Markerad i skrift i vissa språk (spanska: sábado) Ibland i svenska (idé, succé) Ledtrådar från stavning såsom dubbelteckning av konsonanter Betonad stavelse ska vara längre och segment i obetonad ska reduceras Ordaccent i svenska Anden, stegen, tomten Påverkar grundtonen Prosodisk frasering Bestämma prosodiska frasgränser Gruppera orden i prosodiska enheter Ökar förståelse och naturlighet Dela upp i realistiska enheter (inte för långa..systemet måste ju andas ). Beror på typ av text Uppläsning av text: längre enheter Vardagligt tal: fler brytpunkter Metoder för prosodisk frasering Metoder: Interpunktion innehållsord/funktionsord Regler Ordklasstaggning Parsning stokastiska metoder chinks n chunks algoritmen Fel i frasering kan få lyssnare att känna som om de inte andas, låta som systemet har bråttom eller förbrylla lyssnaren. Kognitiv belastning 3

Exempel Prosodisk Frasering Function/content words I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home Chinks/chunks I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home It isn t WHAT you said It s HOW you said it AT&T Acapela Prosodi Prosodiska parametrar i TTS Hörbar uttrycksform av prosodi: Tonhöjd Styrka Stavelselängd (duration) Information som prosodi ger: Fokus (given/ny information) Förhållande mellan ord/ordgrupper Finalitet, fortsättning Segmentering av ett yttrande i stavelsegrupper (rytm) Ger hjälp till tolkning av yttrandet (talarens intention, känsla, och fysiska tillstånd) känslosyntes Duration Duration tilldelas segmenten och tystnader. Betonade stavelser ska förlängas/obetonade reduceras Intonation Vilka ord i frasen ska ha fokus? I ate a hot dog eller I ate a hot dog Vita Huset vs vita huset Betoning Avslutande, kontinuitet F0 generering Satsintonation (Fråga, Påstående) Fler teorier än forskare Börjar högre och slutar lägre, accent på viktiga ord Post-lexikala regler Få TTS:en att låta mer naturlig och inte överartikulera Vokalreduktion Kontraheringar: it is it s Reduktioner: Det är jag Deeja Haplologi Rastställe raställe (västkustskt?) Fokus Du skulle ju gå till Strandgatan, inte Strandvägen! Resumé Lingvistisk behandling Översättning av ord till segment med durationer och F0 kurva Frasering (gruppering av ord) Uttalslexikon (ord till uttal) Letter-to-sound rules (när ordet inte finns i lexikon) Intonation (bestämma satsintonation, emfas, F0) Duration (längd på segmenten) Post-lexikala regler (koartikulation mellan ord) 4

Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP Litteratur Festival Kapitel 7 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis 2.2 Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap 1.5, 1.6, 1.7 Jurafsky Kap 7.8 i gamla upplagan Talsyntes Typer av talsynteser När texten analyserats, behandlats och delats upp i segment + tilldelats prosodiska parametrar ska en vågform genereras utifrån dessa, tal ska syntetiseras. Input: hierarkisk struktur av texten, med en sträng av fonem annoterade med betoning, duration, tonhöjd och intonation. Output: syntetiserat tal producerat med någon talsyntesmetod http://www.cs.indiana.edu/rhythmsp/asa/conte nts.html En tur bland historiens talsynteser Regelbaserad syntes (parametrisk syntes) Tal produceras med matematiska regler som beskriver fonem och hur de påverkar varandra Artikulatorisk syntes Modellering av människans talproduktion Formantsyntes/Parametrisk syntes Modellering av resulterande talsignal Signal till digitalt filter som är baserat på resonanser liknande formanter i talapparaten. Datadriven syntes Konkateneringssyntes Sätter ihop bitar av inspelat mänskligt tal till nya talproduktioner Ingen kunskap om mänsklig talproduktion Indelning talsyntesmetoder Systemmodellering (modellerar talorganet och dess processer) Artikulatorisk syntes Signalmodellering(modellerar talsignalen) Parametrisk syntes, formantsyntes Konkateneringssyntes 5

Artikulatorisk syntes Artikulatoriska Parametrar Produktion av tal genom att modellera den mänskliga talproduktionen. Fysiska modeller av talorganens rörelser Skapar virtuella talorgan: lungor, stämband, munhåla, tunga, tandvall, läppar och luftström mm Beräknar artikulatoriska parametrar med hjälp av tubmodeller, 2D eller 3D modeller för att kontrollera dessa Regelskrivning för fonem och motsvarande artikulationsposition Exempel på Artikulatoriska parametrar Läpprundning Käköppning Tungplacering Tungkropp Tungspets Velum Olika för olika modeller Forskning: Haskins lab, Engwall, KTH Univ Köln m,m TTS: Gnuspeech for psychophysical and linguistic experiments Exempel Artikulatorisk syntes http://en.wikipedia.org/wiki/a rticulatory_synthesis Haskins lab Casy Davo (1958) Formantsyntes Försök till imitation av talsignalen med källa-filter metod P(f) = S(f) * T(f)* R(f) Källa Filter Radiation Generar ljudkälla (ton el. brus) F0 (grundton),aspiration,frikation, amplitud Talapparatens filter motsvaras av ett flertal (>3) resonanser (liknande formanterna i naturligt tal) Formantfrekvenser (F1-F5), bandvidder,nasalitet,amplituder Input är foner och prosodiparametrar som ska matchas med regler ur en databas En mängd regler används för att bestämma vilka parametrar som behövs för syntetisera ett yttrande med formantsyntesen. Forts. formantsyntes De fördefinierade reglerna används för att bestämma en fonemsträngs motsvarande parametervärden för grundton, formantfrekvenser, bandvidd etc. Ex: regel för att bestämma vilken allofon som passar bäst i kontexten. Reglerna skrivs för hand utifrån taldata eller extraheras ur träningsdata automatiskt. Förutom det digitala filtret med resonanser så måste man ta hänsyn till den glottala vågformen och radiation med extra filter. OVE (från 1953) var en tidig formantsyntes formant.exe visar en digital OVE Exempel DecTalk (Klatt, 1983) Speak n Spell KTH:s svenska formantsyntes (TTS) Problem med regelbaserad talsyntes Förståeligamen onaturligaröster Kunskapstungt Svårt att beskriva alla allofoner i ett språk (too many!) /k/ i kille vs /k/ kalle vs /k/ i tak /k/ i tack Beskrivningarna är språkberoende Svårt att beskriva prosodi och intonation För lite kunskap om hur det fungerar Svårt att få det att låta naturligt Inga problem att syntetisera vad som helst om man vet hur det ska vara. Problemet är att bygga ett system som kan förutse hur det ska vara. Konkateneringssyntes Uppdelning av inspelat mänskligt tal i ljudsegment som lagras och sedan vid syntes väljs ut och konkateneras (sammanfogas). Klipp å klistra Segmenten kan delas upp i: Fraser, Ord, stavelser, difoner, polyfoner, foner Segmenten lagras i taldatabas (speech-base) Återanvändning av talsegmenten: Signalbehandling för att ändra F0 och durationer samt jämna ut sammanfogningarna (smoothing) så att bitarna passar bättre ihop Svensk difonsyntes Engelsk difonsyntes (L&H) 6

Dixon and Maxey tidig konkatenering Praat: Från lat producera tal med fonerna Från tak och val producera tal med difonerna Konkateneringskorpus En mänsklig röst spelas in Val av röst viktig Vilken typ av text är bäst? Textmassan bör hållas liten men samtidigt fånga upp de ljudsegmentsvarianter som behövs till databasen utan att för den skull innehålla alltför komplicerade ord och fraser som gör det svårt för röstdonatorn att artikulera Olika strategier används: nonsensord, ord, meningar, texter Inspelningen delas upp i ljudsegment Manuellt Automatisk segmentering Val av typ av segment Vi behöver ett segment som är stabilt i sina gränser så att segmenten kan sättas ihop utan större diskontinuiteter Segmenten bör inte vara för många Minnesutrymme/lagring Sökyta Segmenten ska fånga så mycket koartikulation som möjligt så att svåra transitioner ligger inne i segmenten Längre vs. kortare segment Längre behåller mer naturlighet (mer koartikulation bevarasbättre kvalitet), mindre skarvar Längre kan leda till orimligt många segment (t ex ord) System kan antingen bara använda en typ av segment eller blanda olika storlekar (non-uniform) Ord & Fraser Fungerar i tillämpningar med liten vokabulär Bärfras med luckor som fylls i med förinspelade bitar (eller syntes av den delen) Telefonnumret är Låter naturligt (i stort sett uppspelat inspelat tal) Behåller koartikulation inom ord men sammanfogning mellan lucka och bärfras kan ge hack. Fungerar inte för större tillämpningar (databas och inspelningsbegränsningar) och inte i som text-till-talsyntes (godtycklig text, nya ord) Ord påverkas av sin kontext och vart i meningen de står (skulle få spela in flera varianter av ord) Stavelser Naturlighet p g a koartikulationen inom enheten bibehålls men koartikulationen mellan enheterna också viktig och måste lösas 10,000 stavelser i engelska (krävande inspelning och lagring) Halv-stavelser (Demi-syllables) 1000 i Eng (möjlig inspelning och lagring) Behåller hög koartikulation och konsonantkluster Koartikulation mellan delar fortfarande problem Vanligt för talsyntes av asiatiska språk 7

Fonem Fonem segmenterar fonemens s k steady states, dvs del med minst variation Få delar att spela in och lagra Bad idea! Fonem påverkas av sin kontext /k/ i kille ej som /k/ i Kalle Koartikulationen (övergångarna) mellan talljud viktigare and steady states Konkateneringen sker på de minst stabila delarna (övergångarna) Difoner T A L _T TA AL L_ Difon = Talsegment som sträcker sig ung. från sista halvan av ett fonem ( steady state ) till första halvan av följande Segmenten sätts ihop i sina steady states vilket leder till mindre hack och naturligare övergångar. 600-2000 i ett språk (rimligt att spela in och lagra) Segmentering av difoner (manuellt eller med segmenteringsalgoritmer (eftercheckning krävs!)) Kan kombineras med vanliga konsonantkluster och trifoner Segmentering Oftast används difoner (trade-off mellan naturlighet och antal), men även trifoner (t ex konsonantkluster) Inspelning Ofta flera timmars lång inspelning! Hitta en bra röst! Tålmodig person ;) Bra inspelningstudio (mikrofonläge, tystnad etc) Läser upp nonsensord/riktiga ord som fångar alla difonerna. Om nonsensord = 1500 ord!! Segmentering av inspelningen i difoner/n-foner. Manuellt (tar lång tid, mänsklig felfaktor) Automatiskt (snabbare, tillförlitligt?) Lagring (som de är eller bara parametrar) Segmentdatabas Segmenten lagras antingen som vågformer eller som parametrar i en taldatabas (speech-base) på ett effektiv sätt (t ex. hash tabell) Equalization= Segmenten behöver i vissa fall homogeniseras när det gäller amplitudskillnader. Exempel difoner med duration: _s #100 #50 si #30 #90 i_ #90 #200 Välja segment ur databasen Första steget i konkateneringssyntesen är att välja ut segmenten (t ex difonerna) som ska bygga upp yttrandet som matchar input till talsyntesen (fonetisk transkription + prosodiska parametrar) För att välja segment behövs olika sökmetoder för att hitta dem i databasen och välja rätt segment (de kan t ex finnas flera varianter av samma difon som skiljer sig prosodiskt). Nästa steg är att återsyntetisera segmenten och anpassa dem till varann (samma styrka, pitch etc.). 8