Text-till-Talsyntes (TTS3)

Relevanta dokument
Text-till-Talsyntes (TTS2)

Text-till-Talsyntes (TTS1)

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Ofelia en ny syntesröst

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

Text-till-Talsyntes (TTS1)

Utvärdering av några text-till-talomvandlare

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

Analys/syntes-kodning

Webbföreläsning på kurser i Göteborg, Lund och Uppsala

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Datadriven formantsyntes

Talsyntes historia och metoder

Fonetiklabb för FFG VT05

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Formantextraktion för datadriven formantsyntes

Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

Prosodi. Talets rytm och melodi I. Prosodi. Stavelser. Prosodi. Stavelser. Stavelser

Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer

Tor Sigvardson. Handledare: Rolf Carlson. Godkänt den 11 december 2002

Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?

Naturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem. Stina Ericsson, Talteknologi VT06.

Digital signalbehandling Digitalt Ljud

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

SVT Talande textremsa. En användarutvärdering av två talsynteser i en ny tillämpning.

Skillnader vokaler - konsonanter. Konsonanters akustiska mönster. Vokaler. Konsonanter. Konsonantklasser. Sonoranter

Niklas Lindvall Artificiell intelligens II Ht

Formulering av algoritm för prosodimodellen FK-systemet

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

tal är en multimodal funktion.

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

Akustiska Elementa och Digital Signalbehandling

Artificial)Intelligence) Taligenkänning)

Rapport från Praktik på SVOX AG till

Språkpsykologi/psykolingvistik

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Talbaserade multimodala dialogsystem för medicinsk rådgivning

Hur gör vi då för att segmentera och kategorisera ljud i talspråk?

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

Talets akustik repetition

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Neurolingvistik - Fonologi

Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?

ViTal. Talsyntes. Användarhandledning

Att fånga den akustiska energin

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

tentaplugg.nu av studenter för studenter

Denna presentation. 1. Introduktion. Olika områden. Introduktion (1) Introduktion (2) Vad är språk? Vad är språkteknologi?

Signaler och system, IT3

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

Samtidig visning av alla storheter på 3-fas elnät

MÖSG ht 2005 Maskinöversättningssystemet MATS

Prosodi Talets rytm och melodi II

Kurslitteratur Taltranskription: Introduktion

Folke vs Henry. En jämförelse av förståelse mellan syntetisk och mänsklig uppläsning av sammanhängande texter

Introduktion. Koartikulation (1)

Tillämpad prosodi inom Artificiell Intelligens

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Modeller och simulering av språkprocessning

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Ljud och interaktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper

Rysk fonetik 5 hp föreläsning II. Institutionen för moderna språk Karine Åkerman Sarkisian Ryska A

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK

Analoga och Digitala Signaler. Analogt och Digitalt. Analogt. Digitalt. Analogt få komponenter låg effektförbrukning

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING,

Föreläsning 12. Modellbaserad ljudkodning. Modellbaserad bildkodning. Utblickar Mediakommunikation över Internet Multi-view video

/r/ i några svenska dialekter

Handbok till Oribi Speak for Chrome

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

Tala, skriva och samtala

Grundläggande Idéer Algoritmens komponenter Numerisk optimering Genetisk Programmering. Genetiska Algoritmer

Anpassa uttal i Infovox desktop Pro

Grundtonsstrategier vid tonlösa segment

foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8

När ReadHear är installerat på din dator, startar du det genom att klicka på programmets ikon.

VITAL ANVÄNDARHANDBOK

Engelska åk 5 höstterminen 2013

Uttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling

RÖDA TRÅDEN ENGELSKA ÅK 2 ÅK

Ljudteknik. Digital representation. Vad är ljud?

WEBB365.SE. Hur skriver man sökmotoroptimerade texter

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4

MEDIESIGNALER INTRODUKTION

Elektronisk ljudalstring. Synthesizers. Workstations, arbetsstationer & MIDI

Läroplan /\llmän del

Ljudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:

BARNS SPRÅKUTVECKLING

ClaroDictionary med tal. ClaroDictionary utan tal

Kod: Datum Kursansvarig Susanne Köbler. Tillåtna hjälpmedel. Miniräknare Linjal Språklexikon vid behov

Lägga ll text och tal ll bild:

Appendix 4. Ordförklaringar och korta beskrivningar av test och skalor

Lgr 11 - Centralt innehåll och förmågor som tränas:

Transkript:

Dagens lektion: Text-till-Talsyntes (TTS3) Rebecca Jonson TalTeknologikursen VT 2005 Talsyntes Forts. Konkateneringssyntes Återsyntes LPC, PSOLA, MBROLA Jämförelse syntesmetoder Artik, Formant, Konkat Jämförelse återsyntesmetoder Utvärdering av TTS-system Framtida utmaningar Litteratur TTS2 Konkateneringssyntes Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap 1.4.6, 1.7 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis fr. kap 2.2 Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System, kap 7 Jurafsky. Kap 7.8, 20-20.2 s. 791-792 Uppdelning av inspelat m änskligt tal i ljudsegment som lagras och sedan vid syntes väljs ut och konkateneras för att sedan återsyntetiseras Klipp å klistra -syntes Konkateneringskorpus En m änsklig röst spelas in Val av röst viktig Vilken typ av text är bäst? Textmassan bör hållas liten men samtidigt fånga upp de ljudsegmentsvarianter som behövs till databasen utan att för den skull innehålla alltför komplicerade ord och fraser som g ör det svårt för röstdonanten att artikulera Olika strategier används: nonsensord, ord, meningar, texter Inspelningen delas upp i ljudsegment Manuellt Automatisk segmentering Segmentdatabasen Segmenten lagras antingen som vågformer eller som parametrar i en taldatabas (speechbase) på ett effektiv sätt (t ex. hash tabell) Equalization= Segmenten behöver i vissa fall homogeniseras när det gäller amplitudskillnader. Exempel difoner med duration: _s #100 #50 si #30 #90 i_ #90 #200

Konkatenering Val av segment I run-time väljs sedan lämpliga segment ut som konkateneras (sammanfogas) till löpande ljudsekvenser Slutligen om så behövs krävs viss signalbehandling för att ändra F0 och durationer samt jämna ut sammanfogningarna (smoothing) så att bitarna passar b ättre ihop (samma tonhöjd, styrka etc.) Första steget i konkateneringssyntesen är att välja ut segmenten (t ex difonerna) som ska bygga upp yttrandet som matchar input till talsyntesen (fonetisk transkription + prosodiska parametrar) Exempel input: see _#120 s #70 i #150 _ #100 #nnn= med en duration på nnn ms För att välja segment behövs olika sökmetoder för att hitta dem i databasen och välja rätt segment Exempel output: _s #120 #44 si #26 #75 i_ #75 #100 Unit selection Target and concatenation cost Ett yttrande varierari styrka och tonar ofta av i slutet. Difoner tagna från början av ett yttranden l åter onaturligt att ha i slutet. Tidigare löste man detta genom att neutralisera difonerna (homogen amplitud, tonhöjd) men då tappar man också naturlighet Med unit selection försöker man samla flera varianter av varje enhet (difon)med olika spektrala och prosodiska skillnader i en större databas och sedan använder man olika algoritmer för att välja ut de som passar bäst. Bästa enhet är den som är fonetiskt, akustiskt och prosodiskt mest passande för kontexten. Target/Unit cost: prosodiska och spektrala likheten mellan ett segment och målsegmentet Concatenation/Transition cost: hur bra passar segmentet in I kontexten, d v s hur väl kan det sammanfogas med andra segment Viterbialgoritm används ofta för att hitta minsta kostnadsvägen (Leif kommer gå in mer på det här!) Forts Unit. Sel. Non-uniform unit selection Om enheten/segmentet är mer lik målenheten behöver signalbehandlingen göra ett mindre jobb (en del unit-selection-synteser struntar i DSP) Ger naturligare tal än vanlig Difonbaserad syntes Kräver avancerade sökmetoder (Viterbi) Festival (diphone conc) Festival (unit selection) En variant av unit selection är att segmenten inte bara är varianter av difoner utan även trifoner, foner eller stavelser lagring inte längre stort problem En del koartikulationsfenomen går inte att fånga med difoner (t ex konsonantkluster). För dessa väljer man istället att använda polyfoner. Ex: NonUniform A&T Ex: UnitSelection A&T

Domänspecifik konkateneringssyntes Konkateneringsmetoder Ibland är användningen av ett TTS-system inom en specifik domän där den output som ska ges är begränsad. Med domänspecifik TTS försöker man få domänens vanligaste yttranden att låta bäst. Inspelning görs med text från domänen som sedan segmenteras. Bland segmenten inkluderas ord och fraser. Som back-off har man en vanlig difondatabas. Ger ett hög kvalité på syntetisering av inom-domän yttranden En exempel dialog fr ån CMUs Darpa Communicator När lämpliga segment valts ut ska de sammanfogas och återsyntetiseras (sammanfogningar kanske måste jämnas ut smoothing). Pitch och duration hos segmenten måste anpassas till yttrandet som ska syntetiseras. (Difonerna har ju olika prosodi från inspelning) Signalbehandling med manipulering av pitch och duration påverkar dock kvaliteten hos talet (distortion) Byggt utifr ån 630 inom-domän-yttranden Återsyntes LPC Olika signalbehandlingstekniker används för att jämna ut skarvar i konkateneringen och för att anpassa difonernas prosodi till varann (duration/pitch). Ju sämre val av difonerman gör desto mer jobb här. Motivet med j ättedabaser med flera olika segment och varianter av segment är att inte behöva använda sig av signalbehandlning som inför viss distortion på den annars mänskliga talsignalen. LPC (Linear Predictive Coding) PSOLA (Pitch Synchronous Overlap-and-add) Återsyntes med Källa-Filter teori Digitalt filter uppskattas utifrån naturligt tal med algoritmer Segment sparas inte utan en representation av dessa (LP-koefficienter) Ljudkälla som en puls och filtret består av LPkoefficienter som modellerar glottis, ansatsröret och radiation karakteristika Manipulation av grundton, duration och formanter MBROLA (Multiband resynthesisoverlapadd) PSOLA Pitch Synchronous Overlap-and-add Teknikför att manipulera en sammanfogad vågform av förinspelade talsegment (difoner) Ser talet som en ström av korta signaler. Möjlighet till manipulation av grundton, duration hos segmenten på periodnivå För att ändra duration tar man bort eller dubblerar en signalbit. För att ändra grundton flyttar man signalbitarna så att de överlappar (högre) eller dras ifrån varandra (lägre) MBROLA Projekt: http://www.tcts.fpms.ac.be/synthesis/ Algoritm: multiband resynthesis overlap and add Syntes: Input: fonemtranskription + prosodisk information Output: talsekvens genom konkatenering av difoner från en manipulerad databas PSOLA-databas där alla segment (difoner) är omanalyserade och omsyntetiserade med konstant pitch Vid syntes sammanfogas dessa ur konkateneringssynpunkt förbättrade segment Minskar diskontinuitet i pitch mellan sammanfogade segment

Festival Jmf olika syntesmetoder TTS med avancerad textbehandling och konkateneringssyntes (Univ. Edinburgh) Verktygsl åda som låter dig bygga din egen röst eller en syntes för ett nytt språk. Testa Festival i Unix >festival festival>(saytext Hello ) >emacs & Meta X say -minor-mode Skriv i bufferten, välj SayBuffer Artikulatorisksyntes Sv årt att räkna ut de fysiska parametrarna Kan ge hög kvalitet /Konsonanter svårt Optimal kontroll Intuitiv i sin bästa form Låter inte så bra Formantsyntes Bra kvalitet men låter syntetiskt/onaturligt (brusighet, falsett, nasalt, överaktiv med intonationen) Sv årt att hitta bra parametrar, kunskapstung (trial and error) Bra f ör vokaler, sämre för konsonanter Konkateneringssyntes Låter mindre syntetiskt (bygger ju påmänskligt tal!) Hackig ibland. Ingen jämn niv å. Forts jmf Jmf återsyntesmetoder Artikulatorisk Dyrbart komputationellt Kräver mer kunskap om talproduktionen Intressant ur forskningssynpunkt men hittills ingen praktisk tillämpbarhet Formant Lång utvecklingstid Kräver lite resurser Flexibel (ex: Röstbyte relativt enkelt) Konkatenering Ej flexibel: Sv årt att byta röster, kräver inspelningar Vanligast kommersiellt, snabbast utveckling, enkel metod Lagring inget problem längre LPC Surrigt ljud Syntetiserar talet och tappar naturligheten PSOLA Hög kvalitet på talet / låg komputationell kostnad Diskontinuitet vid överlappen MBROLA Undviker diskontinuitetsproblemet genom att bitarna har samma pitch Lägre kvalitet på talet än PSOLA Utvärdering av TTS (labintro) Utvärderingsmetoder TTS-utvärdering sker i subjektiv form Två huvudfaktorer utvärderas: Naturlighet att rösten är trevlig att lyssna på (inte n ödv. människolikhet) Förståelighet We speak not only to be heard but to be understood MOS-score (mean opinion score) Skala (oftast 1-5) där f örsökspersoner f år ranka system efter naturlighet och förståelighet Parjämförelse av naturlighet A är bättre än B SUS test av förståelighet Semantiskt ov äntade meningar the table walked through the blue truth DRT (Förståelighet på fonemnivå) Minimala par: Får, sår, vår/ lår, mår, når/ kår, tår, går

Forts utvärdering Svensk talsyntes Textbehandling (Förståelighet) Siffror, förkortningar, sammansättningar Homografdisambiguering (Förståelighet) Prosodisk frasering (Naturlighet/Förståelighet) Intonation/Fokus (Naturlighet/Förståelighet) Tungvrickare Allmän åsikt om rösten: Naturlighet, trevlig att lyssna på, tydlig, jämn, lätt att lyssna på, monoton Infovox (difon) Annmarie Ingemar RealSpeak (L&H) Scansoft Mbrola (difon) Exempel 1 Exempel 2 Loquendo Telenor (Norsk) Acapela Infovox fast heter Emma Slutsatser TTS Problem på flera nivåer Dagens talsyntessystem talar rätt så bra och förståeligt. Låter bättre och bättre tack vara framgångar i NLP och DSP Det låter inte så naturligt alltid och de saknar känsla. De gör fortfarande många fel. Det största felet de gör är att de inte kan tolka och förstå texten de läser. Det kunde HAL Lingvistisk behandling Uttal Prosodisk frasering Pitch Mskor har mer pitchrörelse men för att minimisera felrisken minskar vi denna vilket gör att det låter mekaniskt. Överdefinierad = för känslosamt (sportkommentator) Underdefinierad = onaturligt, monotont och deprimerande Bättre med större talsegmenti taldatabasen, behåller mer naturlighet Unit Selection = hitta det bästa segmentet Talproduktion Modellering av duration Framtida utmaningar På gång Koartikulation Reduktion (dagens TTS överartikulerar ofta) Prosodi (intonation, fokus, frasering) Röster/Talstilar Känslor/Attityder Variabilitet Fler TTS som accepterar annoterad input Korpusbaserad syntes Nya sätt att bygga upp segmentdatabaser Snabbare utveckling av nya röster Domänspecifika röster Tekniker från taligenkänning (HMM-talsynteser) Hybridsystem (talsegment som kan manipuleras flexibelt som i formantsyntes) Förbättrade signalbehandlingsmetoder Nya användningsområden