Text-till-Talsyntes (TTS1) Rebecca Jonson TalTeknologikursen VT 2006 Dagens lektion: Vad är TTS? Delarna i ett TTS-system Textbehandling Lingvistisk behandling Litteratur TTS1 Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap. 1.5, 1.6, 1.8, 1.9 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis kap.1-2.2 Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System, kap. 5, 6 Jurafsky. Kap. 4.6, 4.7, 4.8 Vad är text-till-talsyntes? Omvandling av text till syntetiskt tal Automatisk produktion av nya meningar till skillnad från Voice Response Systems som kombinerar redan inspelad bitar (ord eller fraser) och har en begränsning i antal möjliga kombinationer. Datorsystem som talar eller läser upp vilken given text som helst. automatic production of speech, through a grapheme-to-phoneme transcription of the sentences to utter Dutoit Vad är maskinellt tal? Hur ser ett TTS-system ut? Inspelat mänskligt tal Canned speech Ord och fraser Fix vokabulär Template filling Systematiskt fragmenterat inspelat tal (Konkateneringssyntes) Parametrisk syntes Syntes med flera modaliteter Textbehandling Omvandling av godtycklig rå text till ord Bortfiltrering (smileys, htmlkod etc.) Tokenisering: Förkortningar, siffror Homografdisambiguering Lingvistisk behandling Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal, intonation, rytm, frasering Vågformsgenerering Omvandling av segment + prosodiska parametrar till en talsignal
Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP Förmågan att läsa Läsa kan de flesta innan skolåldern. Vi kan läsa och uttala korrekt en helt okänd mening. Läsa: lätt som en plätt? Text=ord utan intention/känslor? Kräver djup kunskap om läsregler och vårt modersmål. Kräver också en hel del annan kunskap eftersom vi tolkar det vi läser och lägger in den tolkningen i uppläsningen. Any given text Any given text On Wed, 12 Mar 2003, Rebecca wrote: > Jag skulle behöva en högtalare att koppla till min bärbara i min undervinsing (ska spela upp lite syntesxempel ;) ). Var kan man få tag på en sån? M åste den bokas? Petter har hand om A/V -utrustningen. Petter? /P - - - - - - - - - - - - - - Per Olofsson Systems Administrator, Dept of Linguistics, Göteborg University On Wed, 12 Mar 2003, Rebecca wrote: > Jag skulle behöva en högtalare att koppla till min bärbara i min undervins ing (ska spela upp lite syntesxempel ;) ). Var kan man få tag på en sån? M åste den bokas? Petter har hand om A/V-utrustningen. Petter? /P - - - - - - - - - - - - - - Per Olofsson Systems Administrator, Dept of Linguistics, Göteborg University Bell Labs Email-till-tal Textexempel Dr. Smith lives on Oak Dr., but St. John lives on 71st St. My catwho lives dangerously has nine lives. He stole $100 million from the bank. He stole 1996 cows on 25 Nov 1996. The 7% solution
Översikt Textbehandling Tar en rå text (en sträng av tecken) och delar upp den i ord bestående av endast alfabetiska tecken och uppdelad i rimligt stora fraser Normalisering av texten: tolka paragrafer, interpunktion Bortfiltrering: skiljetecken, htmlkod, smileys (Ev. Korrigering av stavfel) Skriva ut förkortningar ( Storg. Storgatan) Känna igen akronymer (GSLT) Mappa ord med icke-alfabetiska tecken till bokstavsord (29 tjugonio) Homografdisambiguering ( lives ) Identifiera utländska ord Typer av text Svårigheten beror på typen av text (email, nyhetstext, böcker, börsen, varningar, spel, leksaker, dialogsystem) I vissa system generar systemet själv texten (NLG) och har då dels mer information om texten samt i ett angenämt format. I realtidssystem kan man inte analysera hela texten utan måste analysera bitvis och skicka dessa till syntesen. Mappning till alfabetiska tecken Siffror (ouppräknelig mängd) Regler för hur de ska skrivas ut: 350111 tre hundra femtiotusen ett hundra elva Datum 16-7-1976, 16/7 1976, 760716 Telefonnummer 031-711234566 E-mail addresser, webadresser rj@ling.gu.se, www.cling.gu.se Gender/Agreement 3 kg tres kilogramas Homografer Ord som skrivs likadant men uttalas olika beroende på: Ordklass: min, men (Eng. record, object) Semantik: banan, kanon Ordaccent: anden, katten fy katten, tomten Siffror: Pentium II - Oscar II, år 1776 1776 kr År, dagar, antal, tel nr, pris etc. Symboler: -5 grader, 1-5 Punktering: meningsslut, förkortning, initialer, decimal Förkortningar: St. Saint, Street Frekvens? Beror på typ av text (POS i WSJ 7-8%, nummer i email (2-3%), semantiska relativt få men svårast att hantera Beror på typ av språk Disambiguering sker dels genom POS-taggning men även med regelskrivning. Tolka interpunktion Alla punkter betyder inte slutet på mening! Slut på mening eller förkortning eller både och? Enkel regel: Skiljetecken+ mellanslag + Stor bokstav (. B) Men St. John! (kräver algoritm som kollar bakåt och avgör om det är en förkortning) Frasskiljare ska tolkas (t ex punkt till tystnad, frågetecken till frågeintonation etc.). Alla texter har inte interpunktion (e-mail). Hur ska andra symboler tolkas? Smileys, parenteser, kolon etc. (tolkas eller inte?) Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP
Översikt Lingvistisk analys Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal Prosodisk frasering Duration (rytm) Satsintonation F0 Post-lexikala regler Uttal Finally, which rimes with enough, Though, through, plough, cough, hough, or tough? Hiccough has the sound of cup. My advice is give it up! G.N. Trenite Uttal För varje ord bestämma uttal, betoning, ordaccent Olika svårt i olika språk beroende på förhållandet mellan stavning och uttal Finska: hyvää Spanska: bastante Svenska: sisådär Engelska: remember the rhyme? Ghoti eller Fish? Problem: Nya former/ord egennamn utländska ord tolkas som annan ordklass Hur bestämmer vi uttalet? Uttalslexikon som listar orden och deras uttal CMU/CELEX/PRONLEX Egennamn (många!!!) Många ord ej i lexikon Böjningsformer Sammansättningar Nybildningar Morfologisk analys Dela upp ordet och sök på delarna i lexikon Högt agglutinerade språk kräver detta (turkiska) Sammansatta ord Husbåtar hus båt ar Bildrulle bil drulle/ bild rulle? Exempel Uttalslexikon Uttal för ordet armadillo i olika engelska uttalslexikon: CMU= AA2 R M A AH0 D IH 1 L OW0 Pronlex= +arm.xd ll.o CELEX= #-m@- di-l5 När uttalslexikon inte räcker till Part of speech tagging The invalid made an invalid comment Kontextberoende the cat, the ape Bokstav-till-ljud regler (LTS rules) Gissa uttalet utifrån regler baserade på fonologiska kunskaper /n/ uttalas /ng/ före /k/ Räcker för spanska ( + undantagslexikon) Regler skrivs manuellt eller tränas automatiskt.
Exempel: Bokstav- till ljudregel 1(# [ c h ] C = k) 2(# [ c h ] = ch) # = början på ord C = konsonant Christmas k Choice ch Betoning inom ord Betoning Markerad i skrift i vissa språk (spanska: sábado) Ibland i svenska (idé, succé) Ledtrådar från stavning såsom dubbelteckning av konsonanter Betonad stavelse ska vara längre och segment i obetonad ska reduceras Ordaccent i svenska Anden, stegen, tomten Påverkar grundtonen Prosodisk frasering Bestämma prosodiska frasgränser Gruppera orden i prosodiska enheter Ökar förståelse och naturlighet Dela upp i realistiska enheter (inte för långa..systemet måste ju andas ). Beror på typ av text Uppläsning av text: längre enheter Vardagligt tal: fler brytpunkter Pros. Frasering Metoder: Interpunktion innehållsord/funktionsord Regler Ordklasstaggning Parsning stokastiska metoder chinks n chunks algoritmen Fel i frasering kan få lyssnare att känna som om de inte andas, låta som systemet har bråttom eller förbrylla lyssnaren. Kognitiv belastning Exempel Prosodisk Frasering Function/content words I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home Chinks/chunks I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home It isn t WHAT you said It s HOW you said it AT&T Acapela
Prosodi Hörbar uttrycksform av prosodi: Tonhöjd Styrka Stavelselängd (duration) Information som prosodi ger: Fokus (given/ny information) Förhållande mellan ord/ordgrupper Finalitet, fortsättning Segmentering av ett yttrande i stavelsegrupper (rytm) Ger hjälp till tolkning av yttrandet (talarens intention, känsla, och fysiska tillstånd) Prosodiska parametrar i TTS Duration Duration tilldelas segmenten och tystnader. Betonade stavelser ska förlängas/obetonade reduceras Intonation Vilka ord i frasen ska ha fokus? I ate a hot dog eller I ate a hot dog Betoning Avslutande, kontinuitet F0 generering Satsintonation (Fråga, Påstående) Fler teorier än forskare Börjar högre och slutar lägre, accent på viktiga ord Post-lexikala regler Få TTS:en att låta mer naturlig och inte överartikulera Vokalreduktion Kontraheringar: it is it s Reduktioner: Det är jag Deeja Haplologi Rastställe raställe (västkustskt?) Fokus Du skulle ju gå till Strandgatan, inte Strandvägen! Resumé Lingvistisk behandling Översättning av ord till segment med durationer och F0 kurva Frasering (gruppering av ord) Uttalslexikon (ord till uttal) Letter-to-sound rules (när ordet inte finns i lexikon) Intonation (hitta satsintonation, emfas, F0) Duration (längd på segmenten) Post-lexikala regler (koartikulation mellan ord)