Text-till-Talsyntes (TTS2)

Relevanta dokument
Text-till-Talsyntes (TTS1)

Text-till-Talsyntes (TTS3)

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

Ofelia en ny syntesröst

Text-till-Talsyntes (TTS1)

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Webbföreläsning på kurser i Göteborg, Lund och Uppsala

Datadriven formantsyntes

Analys/syntes-kodning

Talsyntes historia och metoder

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

Utvärdering av några text-till-talomvandlare

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Tor Sigvardson. Handledare: Rolf Carlson. Godkänt den 11 december 2002

Denna presentation. 1. Introduktion. Olika områden. Introduktion (1) Introduktion (2) Vad är språk? Vad är språkteknologi?

Prosodi. Talets rytm och melodi I. Prosodi. Stavelser. Prosodi. Stavelser. Stavelser

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Ljud och interaktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper

Formantextraktion för datadriven formantsyntes

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

Ljudinteraktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper

Naturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem. Stina Ericsson, Talteknologi VT06.

Digital signalbehandling Digitalt Ljud

I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?

Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

Fonembegreppet

Rysk fonetik 5 hp föreläsning II. Institutionen för moderna språk Karine Åkerman Sarkisian Ryska A

Kurslitteratur Taltranskription: Introduktion

Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer

Rapport från Praktik på SVOX AG till

Niklas Lindvall Artificiell intelligens II Ht

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

TPPA-B(2): Akustisk fonetik I. Praktisk info. Kurslitteratur

Formulering av algoritm för prosodimodellen FK-systemet

Talbaserade multimodala dialogsystem för medicinsk rådgivning

Praktisk info. T-PPA 2 Lektion 1: Akustiska elementa

MÖSG ht 2005 Maskinöversättningssystemet MATS

Akustisk fonetik. Akustiska elementa. Ljudvågor. Ljudvågor. Talkommunikationskedjan. Talkommunikationskedjan

BARNS SPRÅKUTVECKLING

Signaler och system, IT3

Lärverktyg Carina Forslund Slussen

Fonetik. Dolores Meden

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Introduktion. Koartikulation (1)

foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8

Rysk fonetik 7,5 hp föreläsning III. Institutionen för moderna språk Karine Åkerman Sarkisian Ryska A

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Jollerkoll - typisk jollerutveckling

Uttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling

Vad är fonetik? Vad är fonetik? Fonetikens tre huvudområden Produktion Akustik Perception. Men dessa kan appliceras på en mängd området som t.ex...

Anmälan till EY1B13 Kontrastiv engelska för lärare (Contrastive English for Teachers) 7,5 hp vårterminen 2011.

Akustiska Elementa och Digital Signalbehandling

B2C för Svensk Elitfotboll Urval

Alternativa Verktyg Carina Forslund Stödenheten

Kursplan för Moderna språk

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Spektrala transformer Laboration: Vokalsyntes

Ett enkelt OCR-system

VITAL ANVÄNDARHANDBOK

Windbag. Textbaserat kommunikationsprogram. Bruksanvisning

Tips på AKK-appar. Jag tycker om dig! Appar med symboler, text och ljud för personer som behöver AKK-stöd för uttryck och förståelse

Vad är fonetik? Talet Kommunikation med ljud. Fonetikens tre huvudområden. Fonetik i ett språkligt perspektiv. Fonetik i ett språkligt perspektiv

Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?

ViTal. Talsyntes. Användarhandledning

Folke vs Henry. En jämförelse av förståelse mellan syntetisk och mänsklig uppläsning av sammanhängande texter

Fonetiklabb för FFG VT05

tentaplugg.nu av studenter för studenter

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Bruksanvisning. BLISSKARTA för Rolltalk Designer Artikelnr:

En orientering i gränsområdet mellan lingvistik, antropologi och psykologi.

Tillämpad prosodi inom Artificiell Intelligens

Teoretisk lingvistik och datalingvistik. Robin Cooper

Att fånga den akustiska energin

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Medicinsk Informatik VT 2003

Alternativa Verktyg Carina Forslund Stödenheten

Traditionell undervisning med ny teknologi

Huvudrörelser och deras relation till grundtonskonturen vid fokal accent

Neurolingvistik - Fonologi

INSTALLATIONSHANDBOK

/r/ i några svenska dialekter

Hur gör vi då för att segmentera och kategorisera ljud i talspråk?

Mind Express 3.0. Kort beskrivning. Systemkrav. Styrsätt

Appar med symboler, text och talsyntes och/eller ljud som kan användas som stöd för personer som inte kan uttrycka sig via tal.

Digital dokumenthantering för ABM II:1

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Lathund för Gustavas ordböcker

Vokaler. Vokaler och Konsonanter. Vokaler och Konsonanter. Vokaler och Konsonanter. Skillnad: bildningssätt. Vokaler och Konsonanter

Datoranimerade talande ansikten

Bortom skärmen II. Haptik, ljud och projektstart

Transkript:

Text-till-Talsyntes (TTS2) Rebecca Jonson TalTeknologikursen VT 2005 Dagens lektion Lite mer om prosodisk frasering Svar på frågan om svenska sammansättningar Några exempel på system Talsyntes Formant syntes Användningsområden Ev. Talande huvuden Litteratur Festival Kapitel 7 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis 2.2 Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap 1.5, 1.6, 1.7 Jurafsky Kap 7.8 Kommersiella och forskningstalsyntessystem APPLE (testa till på fredag!) L&H Scansoft (Realspeak) Bell labs (Lucent?) Acapela (Elan + Babil) Infovox IBM AT&T Festival (toolkit) FreeTTS Rhetorical Microsoft TTS Whistler Se kurshemsidan TTS på olika språk Arabiska Acapela (Babil), Mbrola, SakhrSoftware m.m Polska Scansoft, Acapela Kinesiska (Mandarin) Scansoft, Bell Labs, Loquendo, CHATR Hebreiska Milango (dock ej type and talk), Mbrola Ryska Scansoft, Bell Labs, Proverbe m.m (mängder!) Thailändska Ingen demo på nätet. NecTec har byggt ett system som heter Vaja. Fler språk? Delar i ett TTS-system Textbehandling Lingvistisk behandling Talsyntes NLP DSP

Talsyntes När texten analyserats och behandlats och delats upp i segment + tilldelats prosodiska parametrar ska en vågform genereras utifrån dessa, tal ska syntetiseras. Input: hierarkisk struktur av texten, med en sträng av fonem annoterade med betoning, duration, tonhöjd och intonation. Output: syntetiserat tal De finns flera olika talsyntesmetoder http://www.cs.indiana.edu/rhythmsp/asa/conte nts.html En tur bland historiens talsynteser Typer av talsynteser Regelbaserad syntes (parametrisk syntes) Tal produceras med matematiska regler som beskriver fonem och hur de påverkar varandra Modellering av människans talproduktion Formantsyntes/Parametrisk syntes Modellering av resulterande talsignal Signal till digitalt filter som är baserat på resonanser liknande formanter i talapparaten. Datadriven syntes Sätter ihop bitar av inspelat mänskligt tal till nya talproduktioner Ingen kunskap om mänsklig talproduktion Indelning talsyntesmetoder Systemmodellering (modellerar talorganet och dess processer) Signalmodellering(modellerar talsignalen) Parametrisk syntes, formantsyntes Artikulatorisk syntes Produktion av tal genom att modellera den mänskliga talproduktionen. Fysiska modeller av talorganens rörelser Skapar virtuella talorgan: lungor, stämband, munhåla, tunga, tandvall, läppar och luftström mm Beräknar artikulatoriska parametrar med hjälp av tubmodeller, 2D eller 3D modeller för att kontrollera dessa Regelskrivning för fonem och motsvarande artikulationsposition Forts. Art Syntes Exempel på Artikulatoriska parametrar Läpprundning Käköppning Tungplacering Tungkropp Tungspets Velum Olika för olika modeller Forskning: Haskins lab, KTH Univ Köln m,m Exempel Artikulatorisk syntes Haskins lab Casy DAVO

Formantsyntes Försök till imitation av talsignalen med källa-filter metod P(f) = S(f) * T(f)* R(f) Källa Filter Radiation Generar ljudkälla (ton el. brus) F0 (grundton),aspiration,frikation, amplitud Talapparatens filter motsvaras av ett flertal (>3) resonanser (liknande formanterna i naturligt tal) Formantfrekvenser (F1-F5), bandvidder,nasalitet,amplituder Input är foner och prosodiparametrar som ska matchas med regler ur en databas En mängd regler används för att bestämma vilka parametrar som behövs för syntetisera ett yttrande med formantsyntesen. Forts. formantsyntes De fördefinierade reglerna används för att bestämma en fonemsträngs motsvarande parametervärden för grundton, formantfrekvenser, bandvidd etc. Ex: regel för att bestämma vilken allofon som passar bäst i kontexten. Reglerna skrivs för hand utifrån taldata eller extraheras ur träningsdata automatiskt. Förutom det digitala filtret med resonanser så måste man ta hänsyn till den glottala vågformen och radiation med extra filter. OVE var en formantsyntes formant.exe Exempel DecTalk (Klatt, 1983) Konkateneringssyntes Dixon and Maxey tidig konkatenering Uppdelning av inspelat mänskligt tal i ljudsegment som lagras och sedan vid syntes väljs ut och konkateneras (sammanfogas). Klipp å klistra Segmenten kan delas upp i: Fraser, Ord, stavelser, difoner, polyfoner, foner Segmenten lagras i taldatabas (speech-base) Återanvändning av talsegmenten: Signalbehandling för att ändra F0 och durationer samt jämna ut sammanfogningarna (smoothing) s å att bitarna passar bättre ihop Exempel (Bell labs) Wavesurfer Val av typ av segment Vi behöver ett segment som är stabilt i sina gränser så att segmenten kan sättas ihop utan större diskontinuiteter Segmenten bör inte vara för många Minnesutrymme/lagring Sökyta Segmenten ska fånga så mycket koartikulation som möjligt så att svåra transitioner ligger inne i segmenten Längre vs. kortare segment Längre behåller mer naturlighet (mer koartikulation bevaras bättre kvalitet), mindre skarvar Längre kan leda till orimligt många segment (t ex ord) System kan antingen bara använda en typ av segment eller blanda olika storlekar (non-uniform)

Ord & Fraser Fungerar i tillämpningar med liten vokabulär Bärfras med luckor som fylls i med förinspelade bitar (eller syntes av den delen) Telefonnumret är Låter naturligt (i stort sett uppspelat inspelat tal) Behåller koartikulation inom ord men sammanfogning mellan lucka och bärfras kan ge hack. Fungerar inte för större tillämpningar (databas och inspelningsbegränsningar) och inte i som text-till-talsyntes (godtycklig text, nya ord) Ord påverkas av sin kontext och vart i meningen de står (skulle få spela in flera varianter av ord) Stavelser Naturlighet p g a koartikulationen inom enheten bibehålls men koartikulationen mellan enheterna också viktig och måste lösas 10,000 stavelser i engelska (krävande inspelning och lagring) Halv-stavelser (Demi-syllables) 1000 i Eng (möjlig inspelning och lagring) Behåller hög koartikulation och konsonantkluster Koartikulation mellan delar fortfarande problem Vanligt för talsyntes av asiatiska språk Fonem Fonem segmenterar fonemens s k steady states, dvs del med minst variation Få delar att spela in och lagra Bad idea! Fonem påverkas av sin kontext /k/ i kille ej som /k/ i Kalle Koartikulationen (övergångarna) mellan talljud viktigare and steadystates Konkateneringen sker på de minst stabila delarna (övergångarna) Difoner T A L _T TA AL L_ Difon = Talsegment som sträcker sig ung. från sista halvan av ett fonem ( steady state ) till första halvan av följande Segmenten sätts ihop i sina steadystates vilket leder till mindre hack och naturligare övergångar. 600-2000 i ett språk (rimligt att spela in och lagra) Segmentering av difoner(manuellt eller med segmenteringsalgoritmer (eftercheckning krävs!)) Kan kombineras med vanliga konsonantkluster och trifoner Segmentdatabas Vanligast används difoner (trade-off mellan naturlighet och antal), men även trifoner (t ex konsonantkluster) Inspelning Ofta flera timmars lång inspelning! Hitta en bra röst! Tålmodig person ;) Bra inspelningstudio (mikrofonläge, tystnad etc) Läser upp nonsensord/riktiga ord som fångar alla difonerna. Om nonsensord = 1500 ord!! Segmentering av inspelningen i difoner/n-foner. Manuellt (tar lång tid, mänsklig felfaktor) Automatiskt (snabbare, tillförlitligt?) Lagring (som de är eller bara parametrar) Välja segment ur databasen Första steget i konkateneringssyntesen är att välja ut segmenten (t ex difonerna) som ska bygga upp yttrandet som matchar input till talsyntesen (fonetisk transkription + prosodiska parametrar) För att välja segment behövs olika sökmetoder för att hitta dem i databasen och välja rätt segment (de kan t ex finnas flera varianter av samma difon som skiljer sig prosodiskt). Nästa steg är att återsyntetisera segmenten och anpassa dem till varann (samma styrka, pitch etc.). Mer om detta på fredag

Användningsområden för TTS Handikapphjälpmedel Telefontjänster Uppläsning av information från databaser Email, fax, sms Multimedia Talande böcker och leksaker Interaktiva spel Språkinlärning Där talande meddelanden är mer effektiva än text olika kontrollsystem, PDA, i bil Människa-datorinteraktion (Dialogsystem) Talande lexikon/parlör Talande översättningssystem Forskning (lingvister och fonetiker) Upprepade experiment Studera tal i termer av akustiska regler Handikapphjälpmedel Speech/Sight impairment OCR (optical character recognition)+tts Läser av en text med scanner Läser sedan upp för blinda Talproteser Ett smart keyboard låter användaren skriva/trycka/välja det han vill få sagt Bliss TTS Egen röst för personlighet Teleface/Synface (KTH) Talande huvud som synkroniserar med röst för hörselskadade per telefon Talande huvuden Animerade agenter som artikulerar synkront med talsyntes/msk röst. Bättre förståelse av talsyntes Ickeverbal kommunikation Indikerar betoning, fokus, turtagning, ickeverbal feedback KTH August Strindberg Rutger Univ: RUTH Ananova: Virtuellt nyhetsankare www.ananova.com