Talsyntes historia och metoder

Relevanta dokument
Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

tentaplugg.nu av studenter för studenter

Webbreg öppen: 26/ /

Webbregistrering pa kurs och termin

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

Ofelia en ny syntesröst

Text-till-Talsyntes (TTS2)

Syntetiska talare ger nya möjligheter till kommunikation. Joakim Gustafson Professor i Talteknologi Institutionen för Tal, Musik och Hörsel

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

Wittgenstein for dummies Eller hur vi gör det obegripliga begripligt. Västerås 15 februari 2017

Equips people for better business

Libers språklåda i engelska 7 9: Listening

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Engelska åk 5 höstterminen 2013

Chapter 1 : Who do you think you are?

CD-ORD. Ett komplett läs- och skrivverktyg. Elevdata

English. Things to remember

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia


FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

Digitaliseringens påverkan på samhället MÄNNISKA MÖTER MASKIN EN SAMSYN KRING BEGREPPET DIGITAL KOMPETENS

Insamlingsforumbilden. Den nya givaren

GOOD STUFF GOLD 2. PROVLEKTION: A pink jellyfish

Listen to me, please!

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Kurslitteratur Taltranskription: Introduktion

Svenska språkets struktur: fonetik. kända svårigheter i svenska som andraspråk. Helen Winzell (rum 4315, Key-huset) helen.winzell@liu.

samhälle Susanna Öhman

Styrteknik: Binära tal, talsystem och koder D3:1

Utvärdering av några text-till-talomvandlare

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

Get Instant Access to ebook Om Ett Ord PDF at Our Huge Library OM ETT ORD PDF. ==> Download: OM ETT ORD PDF

ViTal. Talsyntes. Användarhandledning

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

c a OP b Digitalteknik och Datorarkitektur 5hp ALU Design Principle 1 - Simplicity favors regularity add $15, $8, $11

V 4. Veckan som gått. APT 9 Februari. Förskolan stänger Föräldrarådsmöte 24 Februari. Kl. 18:00. APT 10 Mars. Förskolan stänger kl16.

Fonembegreppet

University of Nottingham ett internationellt campus med många inriktningar

Par m 328 feet. Lång höger sväng. Korgen står placerad i en skogsglänta OB-linje på vänster sida.

Mentalträning GUSK PA, säsongen 2012

MÅL ATT UPPNÅ (FRÅN SKOLVERKET)

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

Tankar om Bliss symbolspråk i dagens värld

Beijer Electronics AB 2000, MA00336A,

HANTERING AV UPS CX

Hör och härma. Röda boken lite lättare. Uttalsträning för nybörjare i svenska som andraspråk. Unni Brandeby

Språkteknologi. Språkteknologi

Workplan Food. Spring term 2016 Year 7. Name:

BLOCK 1. 1A. Att komma igång

Uttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling

Förmåga att läsa och förstå: Elevsvar

Preschool Kindergarten

Tidig upptäckt Tidiga insatser Linköping 12 oktober 2016

EttLJUSFörVÄRLDEN. JULINITIATIVET november 25 december 2017

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

Cristina Eriksson oktober 2001

onsdag den 21 november 2012 PRONOMEN

Prosodi Talets rytm och melodi II

Join the Quest 3. Fortsätt glänsa i engelska. Be a Star Reader!

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Vanliga frågor om Duocom (för installatör eller reparatör) GB Frequently asked questions about Duocom (for installer or repairman)

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Support Manual HoistLocatel Electronic Locks

Focus on English 7. PROVLEKTION: the Present Continuous

VHDL testbänk. Mall-programmets funktion. Låset öppnas när tangenten 1 trycks ned och sedan släpps. William Sandqvist

Läs- och skrivinlärning Danderyd 15 augusti 2017

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

(Termen grammatiskt läsande och skrivande kommer från det antika Grekland - grammatisk kunskap: förmågan att hantera bokstäverna)

Matthew Thurley Industriell bildanalys (E0005E) Response rate = 65 %

Do you Think there is a problem with the car traffic to or from the inner city weekdays ?

Barn och ungdomskonferens Haninge 4-5 feb Orienteringsteknik. Offensiv orientering Vägval till glädje och framgång.

Skattejurist för en dag på Deloitte i Malmö! 26 april 2016

Bilaga 5 till rapport 1 (5)

PROFINET MELLAN EL6631 OCH EK9300

Modellering av Dynamiska system Bengt Carlsson Rum 2211

Namn:.. Personnr:. 1. (4 p) I vilket av följande ord kan man i central rikssvenska höra 6 språkljud?

Hur skandinaviska undertextare förmedlar. kulturella referenser

- den bredaste guiden om Mallorca på svenska!

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

Finns det ett korrekt uttal?

Folke vs Henry. En jämförelse av förståelse mellan syntetisk och mänsklig uppläsning av sammanhängande texter

Rapport från Praktik på SVOX AG till

Kom i gång med ipad - Tips på Appar

V 48. Nästa APT 18 december. 11 dec Lucia på Vargen och Delfinen kl. 15: dec Lucia på Fjärilen och Pingvinen kl.9:30.

Application Note SW

Några skillnader mellan svenska och engelska

Grammatiken är språkets grund & byggstenar!

Transkript:

Introduktion till språkteknologi oktober 2008 Talsyntes historia och metoder Mats Dahllöf (presentation efter Pétur Helgason) 1

Text-till-talsystem grundstenarna Alla text-till-talsystem är datorbaserade Text-till-talsystem har två huvudkomponenter Textbearbetning (text till representation av ljud) Syntesapparat (ljudrepresentation till ljud) Text-till-tal sker i 3 steg Steg 1 utvinna information ur texten Steg 2 översätta informationen till en representation som syntesapparaten kan arbeta utifrån Steg 3 syntesapparaten genererar ljud utifrån representationen 2

Ljudrepresentation FONEM: ljud som enheter i språk. FONER: mer konkreta ljud. T.ex. är vokalen ö ett fonem i svenskan, men den låter olika i höra och hög, om vi talar rikssvenska. Vi kan se detta som två olika foner, mer öppet ö framför r och mer slutet i andra kontexter. Annars låter det dialektalt eller fel.

Text-till-talsystem struktur Steg 1 Steg 2 Steg 3 TEXT Undantagslexikon Sifferregler Uttalsregler Syntes Grafemregler INPUT GRAFEM TILL FONER FONER TILL SYNTES- PARAMETRAR PARAMETRAR TILL LJUD OUTPUT 4

Två typer av syntes Formantsyntes ljudgeneratorsyntes Ljudgeneratorn kan alstra olika typer av ljud o Periodiskt ljud (röstkälla); Aspiration; Friktion Parametrar till formantsyntes o Vilken typ av ljud ska aktiveras vid en given tidpunkt o Vilken prosodi ska tillämpas (duration och tonhöjd) Kontatenativ syntes klippa-och-klistrasyntes Förinspelade talsnuttar sammanfogas Val som måste göras: o Vilka snuttar ska ingå i den aktuella talsekvensen? o Vilken prosodi ska tillämpas? (F 0 hos snuttarna kan modifieras.) 5

Maskinellt tal I historien Upplysningen de stora framstegen på 1700- talet Ökade kunskaper om varför talet låter som det gör o Rösten är ett periodiskt, harmoniskt ljud o Röstljudet formas av talröret Modellering av vokaler Christian Kratzenstein (dansk verksam i Ryssland) gjorde fysiska vokalmodeller (1779) 6

Den första talmodelleringen Wolfgang von Kempelens talande maskin Beskrivs 1791 i skriften Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine Wien, J. B. Degen. Styrmekanismer Lungorna simulerades med en blåsbälg Talet formades i en låda som dolde en rad mojänger 7

Den första talmodelleringen Stämbandston Ett elfenbensblad i lådans inledande del simulerade stämbandston I en version av maskinen går det att styra längden på bladet och således ändra tonhöjden 8

Den första talmodelleringen Styrmekanismer Vokaler kunde formas genom att manipulera maskinens mun Spakar öppnade kanaler med vilka olika sibilanter (t.ex s) skapades Två näsborrar fanns som fick täppas till om inte en nasal skulle göras 9

Den första talmodelleringen Styrmekanism er:en extra blåsbälg under boxen användes för att skapa extra tryck för klusilproduktio n Enkelt? Von Kempelen framhöll att efter endast tre veckors träning kunde man uppnå en hyfsad kompetens i att framställa tal 10

Den första talmodelleringen Hur lät von Kempelens tallåda? Vi får höra de tyska orden es war som först uttalas av en kvinna och sedan med Kempelens talmaskin. Sedan får vi höra den engelska meningen I go på samma sätt Slutligen får vi höra franskans je t aime Fanns det någon vits med detta? Von Kempelens försök ökade förståelsen för vilka faktorer i artikulationen styr det akustiska resultatet 11

1939 The Voder Den första moderna talsyntesapparaten Ljudet framställs på elektronisk väg Styrs med tangenter och en pedal Manuell styrning Ingen textinmatning, d.v.s. inte text-tilltal 12

Voder

1939 The Voder: hur lät den, då? Will you please make the Voder say for our eastern listeners: Good evening, radio audience. Good evening, radio audience. And now for our western listeners say: Good afternoon, radio audience. Good afternoon, radio audience. 14

1950-talet OVE (Orator Verbis Electris) OVE I Talsyntesapparat som utvecklades av Gunnar Fant på KTH Styrs med en styrstång på en tvådimensionell yta (demoprogram finns) Ingen textinmatning, d.v.s. inte text-tilltal Egentligen kunde How are you? I love you. 15

1961 Första talsyntesen på dator Bell Labs datorsyntes Kelly & Gerstman på Bell Labs skapade en datorbaserad talsyntesapparat Den kördes på dåtidens värstingdator, en IBM 704 Än så länge är det dock inte fråga om text-till-tal To be, or not to be, that is the question. Whether tis nobler in the mind to suffer The slings and arrows of outrageous fortune. 16

1968 Första text-till-talsystemet Text-till-tal av Noriko Umeda m fl Texten omvandlas först till foner Input till syntesapparaten är en fonisk text. Fonerna tolkas om till parametrar som matas in till syntesapparaten Syntesens kvalitet upplevs dock som mycket dålig Once upon a time there lived a king and queen who had no children. Not a day passed that the queen did not say: If only we had a child. One day, as the queen was walking beside the river, a little fish lifted its head out of the water. 17

Status år 1970 Formantsyntesen kan generera acceptabelt resultat Man kan analysera ett stycke inspelat tal och härleda formantsyntesparametrar direkt från inspelningen Matar man in de siffrorna till formantsyntesapparaten blir resultatet förbluffande likt originalet PAT 1962 OVE II 1962 Welcome to the Stockholm Speech Communication Seminar. OVE II 1961 I enjoy the simple life. He knows just what he wants. PFS 1973 I enjoy the simple life, as long as there s plenty of comfort. 18

Formantsyntesens utmaning Problemet Att automatiskt omvandla en textsträng till syntesparametrar är mycket svårare än att ställa in parametrarna direkt så att de härmar ett stycke tal 19

Text-till-tal system för svenska Tal, musik och hörsel (TMH) på KTH 1970 1995 Formantsyntes (GLOVE) Carlson och Granström Språkanpassbart text-till-talsystem o Ett lingvistanpassat programspråk (RULSYS) utvecklades o Bl.a. utvecklades text-till-talsystem för svenska, norska, danska, engelska, tyska, franska och isländska. Systemen vidareutvecklades senare kommersiellt Detta är en demonstration av flerspråkigt syntetiskt tal utvecklat av Telia Promotor. Produkten är en komplett text-tilltalomvandlare som accepterar en godtycklig text, utan restriktioner avseende ordval eller meningstyp. 20

Foner till formantsyntesparametrar Steg 1 Steg 2 Steg 3 TEXT Undantagslexikon Sifferregler Uttalsregler Syntes Grafemregler INPUT GRAFEM TILL FONER FONER TILL SYNTES- PARAMETRAR PARAMETRAR TILL LJUD OUTPUT 21

Foner till formantsyntesparametrar Varje fon har en ljudlig specifikation i systemet [e:] duration; ljudstyrka; ljudkälla; formanter; formantbandbredd; formanttransitioner, etc. [s] duration; ljudstyrka; ljudkälla; excitationsfrekvens, brusbandbredd, etc. Specifikationerna måste anpassas till kontexten I /epra:/-delen av sekvensen Kalle pratar måste fonerna [e], [p], [r] och [a:] smälta ihop på rätt sätt utifrån specifikationerna för de enskilda fonerna Detta är en mycket svår uppgift 22

Formantsyntesen passé? Konkatenativ syntes Att generera bättre formantsyntesparametrar från text har blivit allt mindre intressant p.g.a. ny syntesteknologi Konkatenativ syntes innebär att man spelar in en talare och gör snuttar av inspelningarna som sedan kan fogas ihop till sammanhängande tal Problemets lösning I stället för att härma tal genom syntes kopierar man naturligt tal och gör syntes av det Problemen med att modellera de finare detaljerna i språkets segmentella struktur kan därmed försvinna 23

Konkatenativ syntes Två typer Difonsyntes o Alla möjliga tvåfonemskombinationer är representerade i systemets databas Unit Selection syntes o Tvåfonemskombination er samt större talenheter (t.ex. många funktionsordssekvenser) är representerade i systemets databas Input: Alla som är i stan 1.#_a 2...a_l: 3...l:_a 4...a_s 5...s_o 6...o_m Etc. 1.#_a 2...al:a 3...a_s 4...som_är_i 5...i_s 6...s_t Etc. 24

Difonsyntes exempel Detta är en demonstration av Infovox manliga difonsyntes utvecklat av Telia Promotor. Produkten är en komplett text-till-talomvandlare som accepterar en godtycklig text, utan restriktioner avseende ordval eller meningstyp. Det flexibla syntessystemet gör det möjligt att använda talad information i en mängd situationer. 25

Grafem till foner Steg 1 Steg 2 Steg 3 TEXT Undantagslexikon Sifferregler Uttalsregler Syntes Grafemregler INPUT GRAFEM TILL FONER FONER TILL SYNTES- PARAMETRAR PARAMETRAR TILL LJUD OUTPUT 26

Grafem till foner Grafemregler Regelbundna förhållanden mellan stavning och fonetisk representation kan omsättas till regler o /r/ + /t,d,n,l,s/ sammansmälter till retroflexa konsonanter o /ö/ är öppnare före r än före andra konsonanter Undantagslexikon Rymmer alla undantag från reglerna o Urdu och Saturnus måste finnas med i undantagslexikonet eftersom retroflexregeln inte ska tillämpas För svenskans del är det mycket låneord i undantagslexikonet o Detta eftersom betoning inte är förutsägbar i svenska o Grafemreglerna sätter alltid trycket på första stavelsen i ett ord, men det blir fel för de flesta låneord 27

Konkatenativ syntes: svårigheter Kvarvarande problem Att lyckas bra med inspelningen av det ljudmaterial som ska ingå i syntesen är inte givet Eventuella problem i omvandlingen av grafem till foner kvarstår, t.ex. o Ordton: anden ~ anden o Sammansättningar: sjukanalsljudanläggning; koddatering Man behöver fortfarande en bra prosodisk modell o Tonhöjd, tryck och kvantitet kommer inte på köpet i konkatenativ syntes de måste modelleras o Om man märker att någonting är fel i syntesen är det i de flesta fall något problem med prosodin 28