Text-till-Talsyntes (TTS1)

Relevanta dokument
Text-till-Talsyntes (TTS1)

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Text-till-Talsyntes (TTS2)

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog

Grundläggande textanalys, VT2013

Uttalskorrigering med hjälp av Fonetisk text

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Text-till-Talsyntes (TTS3)

Hör och härma. Röda boken lite lättare. Uttalsträning för nybörjare i svenska som andraspråk. Unni Brandeby

Språkpsykologi/psykolingvistik

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Kurslitteratur Taltranskription: Introduktion

Naturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem. Stina Ericsson, Talteknologi VT06.

BLOCK 1. 1A. Att komma igång

Grundläggande textanalys. Joakim Nivre

Prosodi. Talets rytm och melodi I. Prosodi. Stavelser. Prosodi. Stavelser. Stavelser

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Anpassa uttal i Infovox desktop Pro

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Listen to me, please!

CD-ORD. Ett komplett läs- och skrivverktyg. Elevdata

Vilka färdigheter ska vi sträva efter för att ge våra barn en god grund för åk 1?

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Lathund för SpellRight

tentaplugg.nu av studenter för studenter

LÄSLANDET - BOKSTÄVER OCH ORD

Engelska åk 5 höstterminen 2013

StoCKK Stockholm Center för Kommunikativt och Kognitivt stöd. Tips på appar för träning av tidig läs- och skrivförmåga

Writing with context. Att skriva med sammanhang

Manual TorTalk version 1.3

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Betyg i moderna språk nu redan i år 6. Mia Smith, förstelärare Vallhamra skola, Partille

Kognitiv Psykologi HT11 Språk, föreläsning 1

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Provlektion Just Stuff B Textbook Just Stuff B Workbook

StoCKK Stockholm Center för Kommunikativt och Kognitivt stöd. Tips på appar för träning av tidig läs- och skrivförmåga

Good Stuff 3 Textbook

Workplan Food. Spring term 2016 Year 7. Name:

Utvärdering av några text-till-talomvandlare

Fernando Álvarez Montalbán

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Word- sense disambiguation

ViTal. Talsyntes. Användarhandledning

fonetik repetition prosodi + skriftspråk

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Kursplan i svenska Skriva. Förskoleklass Skriva sitt namn Spåra och rita mönster Träna skrivriktning Träna pennfattning

KURS A Motsvarande i CEFR A1-/A1 (Gemensam europeisk referensram för språk)

Kursplan i svenska som andra språk på Alsalamskolan enligt kursplan 2011

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

Grammatik för språkteknologer

AEC 7 Ch av 10. Detta ska du kunna (= konkretisering)

VITAL ANVÄNDARHANDBOK

Röda tråden i svenska har vi delat in i fem större delmoment:

Så här fungerar Stava Rex

Lathund Claro Read Plus

BLOCK 2. Att lära sig ett nytt språk

Libers språklåda i engelska 7 9: Listening

RÖDA TRÅDEN ENGELSKA ÅK 2 ÅK

SVENSKA SOM ANDRASPRÅK

Mål som eleverna skall ha uppnått i slutet av femte skolåret Eleverna skall:

Utskrift av dialektinspelning från Björnlunda socken, Södermanland

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Gränssnitt för FakeGranska. Lars Mattsson

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

Lokal pedagogisk planering för årskurs 8 i ämnet moderna språk - spanska

fonetik fonotax + prosodi

DAB760: Språk och logik

Arbetsmiljö för doktorander

Grammar exercises in workbook (grammatikövningar i workbook): WB p 121 ex 1-3 WB p 122 ex 1 WB p 123 ex 2

Lyssna, Skriv och Läs!

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Tala, skriva och samtala

Prosodi Talets rytm och melodi II

- Kan skriva grundläggande information utifrån sig själv t.ex. personnummer, adress, telefonnummer etc.

Innehåll B-nivå B.1 Två olika konsonanter i rad; i slutet och i början av ord.

Preschool Kindergarten

Alternativa Verktyg Carina Forslund Stödenheten

Språkteknologi. Språkteknologi

Skrivguide. Så här skriver du på goteborg.se en skrivguide. Du-tilltal. Skriv kortfattat och aktivt. Dela in texten i stycken

Introduktion till språkteknologi

Words and Sentences Träna engelska!

Read, work and talk! - och Lgr 11

Vanliga frågor för VoiceXpress

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Lärverktyg Carina Forslund Slussen

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

LPP i Engelska ht. 2016

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Disposition. En definition av språk. Att bygga ett språk en stor uppgift för en liten människa. Disposition DEFINITION. Språkets olika delar

ÄLTA SKOLAS LOKALA KURSPLAN

Lathund för Gustavas ordböcker

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Fonetiklabb för FFG VT05

Tekniker för storskalig parsning

Transkript:

Text-till-Talsyntes (TTS1) Rebecca Jonson TalTeknologikursen VT 2006 Dagens lektion: Vad är TTS? Delarna i ett TTS-system Textbehandling Lingvistisk behandling Litteratur TTS1 Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap. 1.5, 1.6, 1.8, 1.9 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis kap.1-2.2 Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System, kap. 5, 6 Jurafsky. Kap. 4.6, 4.7, 4.8 Vad är text-till-talsyntes? Omvandling av text till syntetiskt tal Automatisk produktion av nya meningar till skillnad från Voice Response Systems som kombinerar redan inspelad bitar (ord eller fraser) och har en begränsning i antal möjliga kombinationer. Datorsystem som talar eller läser upp vilken given text som helst. automatic production of speech, through a grapheme-to-phoneme transcription of the sentences to utter Dutoit Vad är maskinellt tal? Hur ser ett TTS-system ut? Inspelat mänskligt tal Canned speech Ord och fraser Fix vokabulär Template filling Systematiskt fragmenterat inspelat tal (Konkateneringssyntes) Parametrisk syntes Syntes med flera modaliteter Textbehandling Omvandling av godtycklig rå text till ord Bortfiltrering (smileys, htmlkod etc.) Tokenisering: Förkortningar, siffror Homografdisambiguering Lingvistisk behandling Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal, intonation, rytm, frasering Vågformsgenerering Omvandling av segment + prosodiska parametrar till en talsignal

Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP Förmågan att läsa Läsa kan de flesta innan skolåldern. Vi kan läsa och uttala korrekt en helt okänd mening. Läsa: lätt som en plätt? Text=ord utan intention/känslor? Kräver djup kunskap om läsregler och vårt modersmål. Kräver också en hel del annan kunskap eftersom vi tolkar det vi läser och lägger in den tolkningen i uppläsningen. Any given text Any given text On Wed, 12 Mar 2003, Rebecca wrote: > Jag skulle behöva en högtalare att koppla till min bärbara i min undervinsing (ska spela upp lite syntesxempel ;) ). Var kan man få tag på en sån? M åste den bokas? Petter har hand om A/V -utrustningen. Petter? /P - - - - - - - - - - - - - - Per Olofsson Systems Administrator, Dept of Linguistics, Göteborg University On Wed, 12 Mar 2003, Rebecca wrote: > Jag skulle behöva en högtalare att koppla till min bärbara i min undervins ing (ska spela upp lite syntesxempel ;) ). Var kan man få tag på en sån? M åste den bokas? Petter har hand om A/V-utrustningen. Petter? /P - - - - - - - - - - - - - - Per Olofsson Systems Administrator, Dept of Linguistics, Göteborg University Bell Labs Email-till-tal Textexempel Dr. Smith lives on Oak Dr., but St. John lives on 71st St. My catwho lives dangerously has nine lives. He stole $100 million from the bank. He stole 1996 cows on 25 Nov 1996. The 7% solution

Översikt Textbehandling Tar en rå text (en sträng av tecken) och delar upp den i ord bestående av endast alfabetiska tecken och uppdelad i rimligt stora fraser Normalisering av texten: tolka paragrafer, interpunktion Bortfiltrering: skiljetecken, htmlkod, smileys (Ev. Korrigering av stavfel) Skriva ut förkortningar ( Storg. Storgatan) Känna igen akronymer (GSLT) Mappa ord med icke-alfabetiska tecken till bokstavsord (29 tjugonio) Homografdisambiguering ( lives ) Identifiera utländska ord Typer av text Svårigheten beror på typen av text (email, nyhetstext, böcker, börsen, varningar, spel, leksaker, dialogsystem) I vissa system generar systemet själv texten (NLG) och har då dels mer information om texten samt i ett angenämt format. I realtidssystem kan man inte analysera hela texten utan måste analysera bitvis och skicka dessa till syntesen. Mappning till alfabetiska tecken Siffror (ouppräknelig mängd) Regler för hur de ska skrivas ut: 350111 tre hundra femtiotusen ett hundra elva Datum 16-7-1976, 16/7 1976, 760716 Telefonnummer 031-711234566 E-mail addresser, webadresser rj@ling.gu.se, www.cling.gu.se Gender/Agreement 3 kg tres kilogramas Homografer Ord som skrivs likadant men uttalas olika beroende på: Ordklass: min, men (Eng. record, object) Semantik: banan, kanon Ordaccent: anden, katten fy katten, tomten Siffror: Pentium II - Oscar II, år 1776 1776 kr År, dagar, antal, tel nr, pris etc. Symboler: -5 grader, 1-5 Punktering: meningsslut, förkortning, initialer, decimal Förkortningar: St. Saint, Street Frekvens? Beror på typ av text (POS i WSJ 7-8%, nummer i email (2-3%), semantiska relativt få men svårast att hantera Beror på typ av språk Disambiguering sker dels genom POS-taggning men även med regelskrivning. Tolka interpunktion Alla punkter betyder inte slutet på mening! Slut på mening eller förkortning eller både och? Enkel regel: Skiljetecken+ mellanslag + Stor bokstav (. B) Men St. John! (kräver algoritm som kollar bakåt och avgör om det är en förkortning) Frasskiljare ska tolkas (t ex punkt till tystnad, frågetecken till frågeintonation etc.). Alla texter har inte interpunktion (e-mail). Hur ska andra symboler tolkas? Smileys, parenteser, kolon etc. (tolkas eller inte?) Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP

Översikt Lingvistisk analys Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal Prosodisk frasering Duration (rytm) Satsintonation F0 Post-lexikala regler Uttal Finally, which rimes with enough, Though, through, plough, cough, hough, or tough? Hiccough has the sound of cup. My advice is give it up! G.N. Trenite Uttal För varje ord bestämma uttal, betoning, ordaccent Olika svårt i olika språk beroende på förhållandet mellan stavning och uttal Finska: hyvää Spanska: bastante Svenska: sisådär Engelska: remember the rhyme? Ghoti eller Fish? Problem: Nya former/ord egennamn utländska ord tolkas som annan ordklass Hur bestämmer vi uttalet? Uttalslexikon som listar orden och deras uttal CMU/CELEX/PRONLEX Egennamn (många!!!) Många ord ej i lexikon Böjningsformer Sammansättningar Nybildningar Morfologisk analys Dela upp ordet och sök på delarna i lexikon Högt agglutinerade språk kräver detta (turkiska) Sammansatta ord Husbåtar hus båt ar Bildrulle bil drulle/ bild rulle? Exempel Uttalslexikon Uttal för ordet armadillo i olika engelska uttalslexikon: CMU= AA2 R M A AH0 D IH 1 L OW0 Pronlex= +arm.xd ll.o CELEX= #-m@- di-l5 När uttalslexikon inte räcker till Part of speech tagging The invalid made an invalid comment Kontextberoende the cat, the ape Bokstav-till-ljud regler (LTS rules) Gissa uttalet utifrån regler baserade på fonologiska kunskaper /n/ uttalas /ng/ före /k/ Räcker för spanska ( + undantagslexikon) Regler skrivs manuellt eller tränas automatiskt.

Exempel: Bokstav- till ljudregel 1(# [ c h ] C = k) 2(# [ c h ] = ch) # = början på ord C = konsonant Christmas k Choice ch Betoning inom ord Betoning Markerad i skrift i vissa språk (spanska: sábado) Ibland i svenska (idé, succé) Ledtrådar från stavning såsom dubbelteckning av konsonanter Betonad stavelse ska vara längre och segment i obetonad ska reduceras Ordaccent i svenska Anden, stegen, tomten Påverkar grundtonen Prosodisk frasering Bestämma prosodiska frasgränser Gruppera orden i prosodiska enheter Ökar förståelse och naturlighet Dela upp i realistiska enheter (inte för långa..systemet måste ju andas ). Beror på typ av text Uppläsning av text: längre enheter Vardagligt tal: fler brytpunkter Pros. Frasering Metoder: Interpunktion innehållsord/funktionsord Regler Ordklasstaggning Parsning stokastiska metoder chinks n chunks algoritmen Fel i frasering kan få lyssnare att känna som om de inte andas, låta som systemet har bråttom eller förbrylla lyssnaren. Kognitiv belastning Exempel Prosodisk Frasering Function/content words I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home Chinks/chunks I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home It isn t WHAT you said It s HOW you said it AT&T Acapela

Prosodi Hörbar uttrycksform av prosodi: Tonhöjd Styrka Stavelselängd (duration) Information som prosodi ger: Fokus (given/ny information) Förhållande mellan ord/ordgrupper Finalitet, fortsättning Segmentering av ett yttrande i stavelsegrupper (rytm) Ger hjälp till tolkning av yttrandet (talarens intention, känsla, och fysiska tillstånd) Prosodiska parametrar i TTS Duration Duration tilldelas segmenten och tystnader. Betonade stavelser ska förlängas/obetonade reduceras Intonation Vilka ord i frasen ska ha fokus? I ate a hot dog eller I ate a hot dog Betoning Avslutande, kontinuitet F0 generering Satsintonation (Fråga, Påstående) Fler teorier än forskare Börjar högre och slutar lägre, accent på viktiga ord Post-lexikala regler Få TTS:en att låta mer naturlig och inte överartikulera Vokalreduktion Kontraheringar: it is it s Reduktioner: Det är jag Deeja Haplologi Rastställe raställe (västkustskt?) Fokus Du skulle ju gå till Strandgatan, inte Strandvägen! Resumé Lingvistisk behandling Översättning av ord till segment med durationer och F0 kurva Frasering (gruppering av ord) Uttalslexikon (ord till uttal) Letter-to-sound rules (när ordet inte finns i lexikon) Intonation (hitta satsintonation, emfas, F0) Duration (längd på segmenten) Post-lexikala regler (koartikulation mellan ord)