Text-till-Talsyntes (TTS1)

Relevanta dokument
Text-till-Talsyntes (TTS2)

Text-till-Talsyntes (TTS1)

Text-till-Talsyntes (TTS3)

Handledning för digitala verktyg Talsyntes och rättstavningsprogram. Vital, StavaRex och SpellRight

Hjälp för digital röst. Mikro Værkstedet A/S

Snabbhjälp till. Kristian. elevdata.se

Tränarguide del 1. Mattelek.

DEMOKRATI 3 DEMOKRATINS VILLKOR

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Sammanfattning på lättläst svenska

Systematiskt kvalitetsarbete

Lathund till Annonsportalen

Enkätresultat för elever i år 2 i Nösnäsgymnasiet 2 i Stenungsund våren 2014

Enkätresultat för elever i år 2 i Praktiska Skövde i Praktiska Sverige AB hösten 2014

Enkätresultat för elever i år 2 i Mega Musik gymnasium hösten Antal elever: 47 Antal svarande: 46 Svarsfrekvens: 98% Klasser: MM13

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

Hur du laddar ner och installerar elevlicens

Systematiskt kvalitetsarbete

Att använda Stava Rex

Syftet med en personlig handlingsplan

Minoritetsspråk Åk 9

Lathund, procent med bråk, åk 8

Kursplan i svenska. Därför tränar vi följande färdigheter under elevens skoltid i ämnet svenska: Tala, lyssna och samtala. År 1

Kampanj kommer från det franska ordet campagne och innebär att man under en tidsbegränsad period bedriver en viss verksamhet.

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

ELEV- HANDLEDNING (Ansökan via webben)

DOP-matematik Copyright Tord Persson. Bråktal Läs av vilka tal på tallinjen, som pilarna pekar på. Uppgift nr

SOLCELLSBELYSNING. En praktisk guide. Råd & Tips SOLENERGI LADDA MED. Praktiska SÅ TAR DU BÄST HAND OM DIN SOLCELLSPRODUKT

Hur utvecklar man användbara system? Utvärdering. Användbarhet handlar om kvalitet. Utvärdering. Empiriska mätningar. Metoder

Projekt benböj på olika belastningar med olika lång vila

Planera och framföra ett högtidstal

Välkommen till Arbetsförmedlingen! Information till dig som är arbetssökande

Webb-bidrag. Sök bidrag på webben Gäller från

Tillståndsmaskiner. 1 Konvertering mellan Mealy och Moore. Ola Dahl och Mattias Krysander Linköpings tekniska högskola, ISY, Datorteknik

Individuellt Mjukvaruutvecklingsprojekt

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Utveckla arbetsmiljö och verksamhet genom samverkan

Cellgifter/Cytostatika Myter & Sanningar:

Anpassa uttal i Infovox

Riktlinjer - Rekryteringsprocesser inom Föreningen Ekonomerna skall vara genomtänkta och välplanerade i syfte att säkerhetsställa professionalism.

Hävarmen. Peter Kock

Läraren som moderator vid problemlösning i matematik

Vad är en webbläsare?

Enkät i förskoleklass

Frågor och svar för föreningar om nya ansökningsregler för aktivitetsbidrag från och med 1 januari 2017

Så kan du arbeta med medarbetarenkäten. Guide för chefer i Göteborgs Stad

912 Läsförståelse och matematik behöver man lära sig läsa matematik?

Rapport uppdrag. Advisory board

Scoot Boot - frågor & svar

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

Interventionsstudie i syfte att främja läsutvecklingen. Linda Fälth Linnéuniversitetet

Boll-lek om normer. Nyckelord: likabehandling, hbt, normer/stereotyper, skolmiljö. Innehåll

Stimulated recall En forskningsmetod

Logga in. Gå in på: Klicka på Logga in. Klicka på den region, kommun eller organisation där din verksamhet finns

UPPGIFT: SKRIV EN DEBATTARTIKEL

VÄRDERINGSÖVNINGAR. Vad är Svenskt?

Anna Kinberg Batra Inledningsanförande 15 oktober 2015

Hur skapar man formula r

Vakna-appar. Förslag på appar till ungdomar och vuxna med ADHD. Sleep as Android. Sleep Cycle alarm clock. Sleep Cycle alarm clock

Presentationsövningar

MOTIONER TILL REPRESENTANTSKAP 2015

Idag. Hur vet vi att vår databas är tillräckligt bra?

Bild Engelska Idrott

Snabbslumpade uppgifter från flera moment.

Kvalitetsrapport Så här går det

Distribuerade Informationssystem VT-04

Handbok Blinken. Danny Allen Översättare: Stefan Asserhäll

För unga vuxna Vuxenutbildning. Den svenska skolan för nyanlända

Denna lektion är från kapitlet Gammal kärlek rostar aldrig. Deltagarna tränar: att läsa att diskutera att skriva

Varför är det så viktigt hur vi bedömer?! Christian Lundahl!

Sektionen för Beteendemedicinsk smärtbehandling

Sveriges Trafikskolors Riksförbund Film om körkort för nysvenskar Speakertext - Svensk

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

Gruppenkät. Lycka till! Kommun: Stadsdel: (Gäller endast Göteborg)

Att koda en magnetremsa i plastkortskrivare med inbyggd magnetkodare.

ÄT RÄTT NÄR DU TRÄNAR

När jag har arbetat klart med det här området ska jag:

Webbföreläsning på kurser i Göteborg, Lund och Uppsala

Skriva B gammalt nationellt prov

Sammanfatta era aktiviteter och effekten av dem i rutorna under punkt 1 på arbetsbladet.

BÅGSKYTTEFÖRBUNDET MEMBER OF SVERIGES RIKSIDROTTSFÖRBUND AND FÉDERATION INTERNATIONALE DE TIR A L ARC

Föräldrabroschyr. Björkhagens skola - en skola med kunskap och hjärta. Vad ska barnen lära sig i skolan?

Strukturen i en naturvetenskaplig rapport

Hur du presenterar och marknadsför dig under själva intervjun är avgörande för att du ska bli en intressant kandidat.

Lilla självhjälpsguiden vid fibromyalgi

Sammanfattning av kursdag 2, i Stra ngna s och Eskilstuna

Spelregler. 2-4 deltagare från 10 år. Med hjälp av bokstavsbrickor och god uppfinningsrikedom

Mer än bara fotboll VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR LGRS 11 CENTRALT INNEHÅLL SOM TRÄNAS

Information till elever och föräldrar i skolår 5

Disclosure. SOMP-I skapades av Kristina Persson. SOMP-I ägs av Barnens rörelsebyrå Kristina Persson & Kine Johansen är delägare i företaget

fonetik intro + vokaler

Hur motiverad är patienten?

Nationella prov i årskurs 3 våren 2013

Vi skall skriva uppsats

Bilaga B Kartläggningsmaterial - Litteracitet Samtals- och dokumentationsunderlag avkodning, läsning, läsförståelse och skrivning

GRUNDERNA I SJÄLVLEDARSKAP

Samtals- och dokumentationsunderlag Språk och erfarenheter

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Tentamen. Makroekonomi NA0133. Juni 2016 Skrivtid 3 timmar.

Transkript:

Text-till-Talsyntes (TTS1) Jonas Lindh TalTeknologi HT 2007 Dagens lektion: Vad är TTS? Delarna i ett TTS-system Lingvistisk behandling Talsyntesmetoder Litteratur TTS1 Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap. 1.5, 1.6, 1.8, 1.9 Dutoit, T. A Short Introduction to Text-to-Speech Synthesis kap.1-2.2 Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System, kap. 6 & 7 http://www.cs.colorado.edu/%7emartin/slp/upd ates/8.pdf Jurafsky. Kap. 4.6, 4.7, 4.8 i gamla upplagan TTS labb1 Utvärdering av TTS Deadline 25e Nov? Frågor? Vad är text-till-talsyntes? Omvandling av text till syntetiskt tal Automatisk produktion av nya meningar till skillnad från Voice Response Systems som kombinerar redan inspelad bitar (ord eller fraser) och har en begränsning i antal möjliga kombinationer. Datorsystem som talar eller läser upp vilken given text som helst. automatic production of speech, through a grapheme-to-phoneme transcription of the sentences to utter Dutoit Vad är maskinellt tal? Inspelat mänskligt tal Canned speech Ord och fraser Fix vokabulär Template filling Systematiskt fragmenterat inspelat tal (Konkateneringssyntes) Parametrisk syntes (konstgjord artikulatorisk el. formant) Syntes med flera modaliteter 1

Hur ser ett TTS-system ut? Textbehandling Omvandling av godtycklig rå text till ord Bortfiltrering (smileys, htmlkod etc.) Tokenisering: Förkortningar, siffror Homografdisambiguering Lingvistisk behandling Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal, intonation, rytm, frasering Vågformsgenerering Omvandling av segment + prosodiska parametrar till en talsignal Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP Översikt Lingvistisk analys Omvandling av ord till segment + prosodiska parametrar (F0, duration) Uttal Prosodisk frasering Duration (rytm) Satsintonation F0 Post-lexikala regler Uttal Finally, which rimes with enough, Though, through, plough, cough, hough, or tough? Hiccough has the sound of cup. My advice is give it up! G.N. Trenite Uttal För varje ord bestämma uttal, betoning, ordaccent Olika svårt i olika språk beroende på förhållandet mellan stavning och uttal Finska: hyvää Spanska: bastante Svenska: sisådär Engelska: remember the rhyme? Ghoti eller Fish? http://sv.wikipedia.org/wiki/ghoti Problem: Nya former/ord egennamn utländska ord tolkas som annan ordklass Hur bestämmer vi uttalet? Uttalslexikon som listar orden och deras uttal CMU/CELEX/PRONLEX Egennamn (många!!!) Många ord ej i lexikon Böjningsformer Sammansättningar Nybildningar Morfologisk analys Dela upp ordet och sök på delarna i lexikon Högt agglutinerade språk kräver detta (turkiska) Sammansatta ord Husbåtar hus båt ar Bildrulle bil drulle/ bild rulle? 2

Exempel Uttalslexikon Uttal för ordet armadillo i olika engelska uttalslexikon: CMU= AA2 R M A AH0 D IH 1 L OW0 Pronlex= +arm.xd ll.o CELEX= #-m@- di-l5 När uttalslexikon inte räcker till Part of speech tagging The invalid made an invalid comment Kontextberoende the cat, the ape Bokstav-till-ljud regler (LTS rules) Gissa uttalet utifrån regler baserade på fonologiska kunskaper /n/ uttalas /ng/ före /k/ Räcker för spanska ( + undantagslexikon) Regler skrivs manuellt eller tränas automatiskt. Exempel: Bokstav- till ljudregel 1(# [ c h ] C = k) 2(# [ c h ] = ch) # = början på ord C = konsonant Christmas k Choice ch Betoning inom ord Betoning Markerad i skrift i vissa språk (spanska: sábado) Ibland i svenska (idé, succé) Ledtrådar från stavning såsom dubbelteckning av konsonanter Betonad stavelse ska vara längre och segment i obetonad ska reduceras Ordaccent i svenska Anden, stegen, tomten Påverkar grundtonen Prosodisk frasering Bestämma prosodiska frasgränser Gruppera orden i prosodiska enheter Ökar förståelse och naturlighet Dela upp i realistiska enheter (inte för långa..systemet måste ju andas ). Beror på typ av text Uppläsning av text: längre enheter Vardagligt tal: fler brytpunkter Metoder för prosodisk frasering Metoder: Interpunktion innehållsord/funktionsord Regler Ordklasstaggning Parsning stokastiska metoder chinks n chunks algoritmen Fel i frasering kan få lyssnare att känna som om de inte andas, låta som systemet har bråttom eller förbrylla lyssnaren. Kognitiv belastning 3

Exempel Prosodisk Frasering Function/content words I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home Chinks/chunks I asked them if they were going home to Idaho and they said yes and anticipated one more stop before getting home It isn t WHAT you said It s HOW you said it AT&T Acapela Prosodi Prosodiska parametrar i TTS Hörbar uttrycksform av prosodi: Tonhöjd Styrka Stavelselängd (duration) Information som prosodi ger: Fokus (given/ny information) Förhållande mellan ord/ordgrupper Finalitet, fortsättning Segmentering av ett yttrande i stavelsegrupper (rytm) Ger hjälp till tolkning av yttrandet (talarens intention, känsla, och fysiska tillstånd) känslosyntes Duration Duration tilldelas segmenten och tystnader. Betonade stavelser ska förlängas/obetonade reduceras Intonation Vilka ord i frasen ska ha fokus? I ate a hot dog eller I ate a hot dog Vita Huset vs vita huset Betoning Avslutande, kontinuitet F0 generering Satsintonation (Fråga, Påstående) Fler teorier än forskare Börjar högre och slutar lägre, accent på viktiga ord Post-lexikala regler Få TTS:en att låta mer naturlig och inte överartikulera Vokalreduktion Kontraheringar: it is it s Reduktioner: Det är jag Deeja Haplologi Rastställe raställe (västkustskt?) Fokus Du skulle ju gå till Strandgatan, inte Strandvägen! Resumé Lingvistisk behandling Översättning av ord till segment med durationer och F0 kurva Frasering (gruppering av ord) Uttalslexikon (ord till uttal) Letter-to-sound rules (när ordet inte finns i lexikon) Intonation (bestämma satsintonation, emfas, F0) Duration (längd på segmenten) Post-lexikala regler (koartikulation mellan ord) 4

Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP Litteratur Festival Kapitel 7 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis 2.2 Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap 1.5, 1.6, 1.7 Jurafsky Kap 7.8 i gamla upplagan Talsyntes Typer av talsynteser När texten analyserats, behandlats och delats upp i segment + tilldelats prosodiska parametrar ska en vågform genereras utifrån dessa, tal ska syntetiseras. Input: hierarkisk struktur av texten, med en sträng av fonem annoterade med betoning, duration, tonhöjd och intonation. Output: syntetiserat tal producerat med någon talsyntesmetod http://www.cs.indiana.edu/rhythmsp/asa/conte nts.html En tur bland historiens talsynteser Regelbaserad syntes (parametrisk syntes) Tal produceras med matematiska regler som beskriver fonem och hur de påverkar varandra Artikulatorisk syntes Modellering av människans talproduktion Formantsyntes/Parametrisk syntes Modellering av resulterande talsignal Signal till digitalt filter som är baserat på resonanser liknande formanter i talapparaten. Datadriven syntes Konkateneringssyntes Sätter ihop bitar av inspelat mänskligt tal till nya talproduktioner Ingen kunskap om mänsklig talproduktion Indelning talsyntesmetoder Systemmodellering (modellerar talorganet och dess processer) Artikulatorisk syntes Signalmodellering(modellerar talsignalen) Parametrisk syntes, formantsyntes Konkateneringssyntes 5

Artikulatorisk syntes Artikulatoriska Parametrar Produktion av tal genom att modellera den mänskliga talproduktionen. Fysiska modeller av talorganens rörelser Skapar virtuella talorgan: lungor, stämband, munhåla, tunga, tandvall, läppar och luftström mm Beräknar artikulatoriska parametrar med hjälp av tubmodeller, 2D eller 3D modeller för att kontrollera dessa Regelskrivning för fonem och motsvarande artikulationsposition Exempel på Artikulatoriska parametrar Läpprundning Käköppning Tungplacering Tungkropp Tungspets Velum Olika för olika modeller Forskning: Haskins lab, Engwall, KTH Univ Köln m,m TTS: Gnuspeech for psychophysical and linguistic experiments Exempel Artikulatorisk syntes http://en.wikipedia.org/wiki/a rticulatory_synthesis Haskins lab Casy Davo (1958) Formantsyntes Försök till imitation av talsignalen med källa-filter metod P(f) = S(f) * T(f)* R(f) Källa Filter Radiation Generar ljudkälla (ton el. brus) F0 (grundton),aspiration,frikation, amplitud Talapparatens filter motsvaras av ett flertal (>3) resonanser (liknande formanterna i naturligt tal) Formantfrekvenser (F1-F5), bandvidder,nasalitet,amplituder Input är foner och prosodiparametrar som ska matchas med regler ur en databas En mängd regler används för att bestämma vilka parametrar som behövs för syntetisera ett yttrande med formantsyntesen. Forts. formantsyntes De fördefinierade reglerna används för att bestämma en fonemsträngs motsvarande parametervärden för grundton, formantfrekvenser, bandvidd etc. Ex: regel för att bestämma vilken allofon som passar bäst i kontexten. Reglerna skrivs för hand utifrån taldata eller extraheras ur träningsdata automatiskt. Förutom det digitala filtret med resonanser så måste man ta hänsyn till den glottala vågformen och radiation med extra filter. OVE (från 1953) var en tidig formantsyntes formant.exe visar en digital OVE Exempel DecTalk (Klatt, 1983) Speak n Spell KTH:s svenska formantsyntes (TTS) Problem med regelbaserad talsyntes Förståeligamen onaturligaröster Kunskapstungt Svårt att beskriva alla allofoner i ett språk (too many!) /k/ i kille vs /k/ kalle vs /k/ i tak /k/ i tack Beskrivningarna är språkberoende Svårt att beskriva prosodi och intonation För lite kunskap om hur det fungerar Svårt att få det att låta naturligt Inga problem att syntetisera vad som helst om man vet hur det ska vara. Problemet är att bygga ett system som kan förutse hur det ska vara. Konkateneringssyntes Uppdelning av inspelat mänskligt tal i ljudsegment som lagras och sedan vid syntes väljs ut och konkateneras (sammanfogas). Klipp å klistra Segmenten kan delas upp i: Fraser, Ord, stavelser, difoner, polyfoner, foner Segmenten lagras i taldatabas (speech-base) Återanvändning av talsegmenten: Signalbehandling för att ändra F0 och durationer samt jämna ut sammanfogningarna (smoothing) så att bitarna passar bättre ihop Svensk difonsyntes Engelsk difonsyntes (L&H) 6

Dixon and Maxey tidig konkatenering Praat: Från lat producera tal med fonerna Från tak och val producera tal med difonerna Konkateneringskorpus En mänsklig röst spelas in Val av röst viktig Vilken typ av text är bäst? Textmassan bör hållas liten men samtidigt fånga upp de ljudsegmentsvarianter som behövs till databasen utan att för den skull innehålla alltför komplicerade ord och fraser som gör det svårt för röstdonatorn att artikulera Olika strategier används: nonsensord, ord, meningar, texter Inspelningen delas upp i ljudsegment Manuellt Automatisk segmentering Val av typ av segment Vi behöver ett segment som är stabilt i sina gränser så att segmenten kan sättas ihop utan större diskontinuiteter Segmenten bör inte vara för många Minnesutrymme/lagring Sökyta Segmenten ska fånga så mycket koartikulation som möjligt så att svåra transitioner ligger inne i segmenten Längre vs. kortare segment Längre behåller mer naturlighet (mer koartikulation bevarasbättre kvalitet), mindre skarvar Längre kan leda till orimligt många segment (t ex ord) System kan antingen bara använda en typ av segment eller blanda olika storlekar (non-uniform) Ord & Fraser Fungerar i tillämpningar med liten vokabulär Bärfras med luckor som fylls i med förinspelade bitar (eller syntes av den delen) Telefonnumret är Låter naturligt (i stort sett uppspelat inspelat tal) Behåller koartikulation inom ord men sammanfogning mellan lucka och bärfras kan ge hack. Fungerar inte för större tillämpningar (databas och inspelningsbegränsningar) och inte i som text-till-talsyntes (godtycklig text, nya ord) Ord påverkas av sin kontext och vart i meningen de står (skulle få spela in flera varianter av ord) Stavelser Naturlighet p g a koartikulationen inom enheten bibehålls men koartikulationen mellan enheterna också viktig och måste lösas 10,000 stavelser i engelska (krävande inspelning och lagring) Halv-stavelser (Demi-syllables) 1000 i Eng (möjlig inspelning och lagring) Behåller hög koartikulation och konsonantkluster Koartikulation mellan delar fortfarande problem Vanligt för talsyntes av asiatiska språk 7

Fonem Fonem segmenterar fonemens s k steady states, dvs del med minst variation Få delar att spela in och lagra Bad idea! Fonem påverkas av sin kontext /k/ i kille ej som /k/ i Kalle Koartikulationen (övergångarna) mellan talljud viktigare and steady states Konkateneringen sker på de minst stabila delarna (övergångarna) Difoner T A L _T TA AL L_ Difon = Talsegment som sträcker sig ung. från sista halvan av ett fonem ( steady state ) till första halvan av följande Segmenten sätts ihop i sina steady states vilket leder till mindre hack och naturligare övergångar. 600-2000 i ett språk (rimligt att spela in och lagra) Segmentering av difoner (manuellt eller med segmenteringsalgoritmer (eftercheckning krävs!)) Kan kombineras med vanliga konsonantkluster och trifoner Segmentering Oftast används difoner (trade-off mellan naturlighet och antal), men även trifoner (t ex konsonantkluster) Inspelning Ofta flera timmars lång inspelning! Hitta en bra röst! Tålmodig person ;) Bra inspelningstudio (mikrofonläge, tystnad etc) Läser upp nonsensord/riktiga ord som fångar alla difonerna. Om nonsensord = 1500 ord!! Segmentering av inspelningen i difoner/n-foner. Manuellt (tar lång tid, mänsklig felfaktor) Automatiskt (snabbare, tillförlitligt?) Lagring (som de är eller bara parametrar) Segmentdatabas Segmenten lagras antingen som vågformer eller som parametrar i en taldatabas (speech-base) på ett effektiv sätt (t ex. hash tabell) Equalization= Segmenten behöver i vissa fall homogeniseras när det gäller amplitudskillnader. Exempel difoner med duration: _s #100 #50 si #30 #90 i_ #90 #200 Välja segment ur databasen Första steget i konkateneringssyntesen är att välja ut segmenten (t ex difonerna) som ska bygga upp yttrandet som matchar input till talsyntesen (fonetisk transkription + prosodiska parametrar) För att välja segment behövs olika sökmetoder för att hitta dem i databasen och välja rätt segment (de kan t ex finnas flera varianter av samma difon som skiljer sig prosodiskt). Nästa steg är att återsyntetisera segmenten och anpassa dem till varann (samma styrka, pitch etc.). 8