Formantextraktion för datadriven formantsyntes

Transkript

1 Formantextraktion för datadriven formantsyntes David Öhlin Handledare: Rolf Carlson Godkänt: Examinator: Rolf Carlson Centrum för talteknologi (signatur) Examensarbete i Talteknologi Stockholm 19 januari 2004 Institutionen för Tal, Musik och Hörsel Kungliga Tekniska Högskolan S Stockholm

2

3 Master Degree Project in Speech Technology Formant extraction for data-driven formant synthesis David Öhlin Approved Examiner Rolf Carlson Supervisor Rolf Carlson

4

5 Sammanfattning En algoritm och ett program för automatisk formantextraktion ur inspelat tal har utvecklats och utvärderats. Programmet har använts för att bygga upp en databas av formantrörelser från difoner. Ett utvärderingsprogram har byggts, som har visat att den nya algoritmen ger betydligt färre stora fel jämfört med den som tidigare använts för detta ändamål. Formantextraktionsalgoritmen baseras på dynamisk programmering och linjär prediktion. Den utnyttjar att databasen är märkt och segmenterad i förväg, vilket ger den ett övertag gentemot andra, liknande algoritmer. De extraherade formanterna har använts vid datadriven formantsyntes och ett lyssningstest har bekräftat tidigare studier som visar att denna syntes ger ett mer naturligt tal än traditionell regelsyntes, givet att vissa distortioner och regelkonflikter kan undvikas. Abstract An algorithm and a program for automatic formant extraction from recorded speech has been developed and evaluated. The program has been used to build a database of formant trajectories from diphones. An evaluation program has been created, which has proved that the new algorithm gives a considerable lower rate of major errors compared to the one previously used for this purpose. The formant extraction algorithm is based upon dynamic programming and linear prediction. It makes use of the fact that the database has been marked and segmented before the extraction, giving it an advantage to other, similar algorithms. The extracted formants have been used in data-driven formant synthesis and a listening test has comfirmed the results of earlier studies, showing that this synthesis gives a more natural sounding speech than traditional rule-based systems, given that some distortions and rule conflicts can be avoided.

6

7 Förord Jag vill tacka följande personer, utan vilka detta arbete inte hade sett ut som det gör: först och främst min handledare, Rolf Carlson, vars idéer och stöd har fört arbetet framåt och inspirerat nya anfallsvinklar på problem; Björn Granström, som initerade kontakten mellan mig och Rolf Carlson; min opponent, Sanna Huhta, för värdefull hjälp med strukturen i rapporten, och för alla små och stora fel hon fann och rättade; samt min rumskollega Romain Vinet för återkoppling under arbetet och gott samarbete under lyssningstestet. Stort tack även till Kåre Sjölander, för hjälp med segmenteringen av databasen, och för att ha rättat småfel i Wavesurfer allt eftersom jag stötte på dem; till Håkan Melin för den tid han tog sig att förklara CVS och giveskoden; till Jonas Beskow för introduktionen till transkriptionsmodulen; samt till Giampiero Salvi för examensarbetesrapportmallen, och för introduktionen till IPA-tecken i L A TEX. Sist men inte minst vill jag tacka alla dem som ställde upp på lyssningstestet: medexjobbare, studenter och vänner, samt alla andra på TMH som har svarat på frågor och visat intresse för arbetet.

8

9 Innehåll 1 Bakgrund Examensarbetet Förutsättningar Mål Arbetsmetod Rapporten Introduktion Talets uppbyggnad Språket Rösten Röst- och talsyntes Historia Användningsområden Difoner Formanter Källa filter-modellen Moderna syntesmetoder Regelsyntes Konkateneringssyntes Regelsyntes kontra konkateneringssyntes Datadriven formantsyntes Naturlighet i syntetiserat tal Formantextraktion Waves Bakgrund Uppdelning av indata Formantkandidater Kandidatmappningar Uppbyggnad av en trellis Kostnadsfunktion Dynamisk programmering Fel vid extraktion En modifierad formantextraktionsalgoritm Bakgrund Formantkandidater och dynamisk programmering Kostnadsfunktion

10 3.2.4 Översampling Extraformanter Om automatisk märkning DOMIN-modellen Utvärdering av formantextraktion Manuella utvärderingsmetoder Jämförelse med regelgenererade formanter Genomförande Utvecklingsmiljö Hård- och mjukvara Difondatabas Utvärderingsverktyget Formantextraktorn Lyssningstest Bakgrund och mål Testmaterialet Försökspersonerna Försöket Kommentarer Resultat Utvärderingstest Lyssningstest Modeller och definitioner Behandling och gruppering av data Resultat för samtliga meningar Resultat för delmängder av meningarna Sammanfattning och diskussion Examensarbetets mål Lyssningstestet Resultat Modell Behanding av mätdata Problem med testet Formantextraktion Problem och brister Implementationsförbättringar Modellförbättringar Datadriven formantsyntes Problem Åtgärder och förbättringar Alternativ datadriven metod Litteraturförteckning 55 A IPA- och STA-tecken för rikssvenska 59 B Meningar 61

11 Figurer 2.1 IPA-transkription Talapparaten De fyra hörnvokalerna Vågform och spektrogram Difoner Formanter F 1 och F 2 för rikssvenska vokaler Blockschema för talsyntes Glove Schema över datadriven formantsyntes Datadriven formantsyntes Fönster Korttids- och LPC-spektrum LPC-spektrum och rötter Kandidatmappningar Formantkandidater Kandidatmappningar i en trellis Dynamisk programmering Formanthopp Översampling DOMIN Felen i F 1, F 2 och F Fel i F Grafisk jämförelse mellan Waves och Öhlin Fel vid syntes

12

13 Kapitel 1 Bakgrund Denna rapport beskriver ett examensarbete för civilingenjörsexamen i elektroteknik. Arbetet genomfördes vid Institutionen för Tal, Musik och Hörsel (TMH) vid Kungliga Tekniska Högskolan (KTH) under sommaren och hösten Examensarbetet Förutsättningar Under tidigare projekt vid TMH har ett nytt system för databasdriven talsyntes tagits fram [23]. Systemet bygger på en metod som kallas datadriven formantsyntes [7, 15], vilken utgår ifrån en databas med parametrar tagna från inspelat tal. Uppbyggnaden av en databas för test och användning av systemet har i viss mån skett manuellt, då metoderna för automatisk parameterextraktion inte varit pålitliga. Till följd av detta har en önskan om att kunna automatisera denna process uppstått Mål Detta examensarbetes mål är att ta fram och jämföra automatiska metoder för extraktion av parametrar, formanter, ur inspelat tal. Till målet hör även byggandet av en databas av formanter med hjälp av en väl fungerande, automatisk metod, samt en utvärdering av databasens kvalitet med hjälp av ett lyssningstest Arbetsmetod För att undersöka var det verktyg som tidigare använts för automatisk parameterextraktion hade sina svaga punkter utvecklades först det utvärderingsverktyg som beskrivs närmare i Avsnitt 3.4. Resultaten från denna undersöktes, och förslag på förbättringar av extraktionen lades fram. Dessa realiserades, och resultaten från eny ny utvärdering jämfördes med de tidigare. Arbetsmetoden och genomförandet beskrivs i detalj i Kapitel 4. 1

14 1.2 Rapporten En översikt över kapitlen i rapporten: 1 Bakgrund beskriver arbetets förutsättningar och mål, samt rapportens uppbyggnad. 2 Introduktion en introduktion till ämnet talsyntes, med en beskrivning av röstens uppbyggnad och hur den modelleras och syntetiseras. Kapitlet beskriver olika syntesmetoder, däribland datadriven formantsyntes, som detta arbete bygger kring. 3 Formantextraktion beskriver teorin bakom formantextraktion, både för de verktyg som tidigare använts vid TMH, och de förbättringar som har utvecklats inom detta arbete. 4 Genomförande beskriver arbetets utvecklingsförlopp och de utvecklade verktygen, samt genomförandet av lyssningstestet. 5 Resultat visar och förklarar resultaten från utvärderingen och lyssningstestet, samt beskriver den matematiska modell som använts vid databehandlingen. 6 Diskussion innehåller en diskussion kring resultaten och algoritmens tillkortakommanden, samt förslag på framtida förbättringar och utökningar. 2

15 Kapitel 2 Introduktion Här följer en introduktion till talsyntes, hur det går till och vad som ska syntetiseras. Grunderna till modern talsyntes, både regel- och konkateneringssyntes, beskrivs. Datadriven formantsyntes beskrivs i detalj i Avsnitt Talets uppbyggnad För att kunna syntetisera tal och röst i detalj måste man veta vad det består av. En modell av talet, med två nivåer, beskrivs här. På den högre nivån finns språket, det som bestämmer vad som kan sägas och hur det kan sägas, och på den lägre nivån den ljudgenererande processen (rösten), den som genomför det språket vill säga. Därtill finns mer abstrakta, så kallade extralingvistiska, element, såsom sociala och miljöberoende regler Språket När man vill säga något formulerar man det vanligen i en mening. Ordet mening betyder just det att den har en mening, ett syfte eller ett meddelande. Meningens byggstenar är orden, och sättet på vilket orden i en mening kombineras, ordnas och böjs kallas för språkets syntax. Orden i en mening har vart och ett för sig en viss betydelse, men det är först när de är satta i kontext som deras innebörd för meningen visar sig. Till exempel har ordet bil olika innebörd i meningarna Min bil är röd och Ska vi åka bil? först är bilen en metallklump med egenskapen färg, sedan är den ett sätt att ta sig fram på. Ord är i sin tur uppbyggda av morfem. Ett morfem är den minsta beståndsdel i språket som har en egen betydelse. Ordet bagare kan delas upp i morfemen bag och are, eftersom bag 1 är ett rotmorfem som återfinns i ord som baka, bageri och bakverk, och are är ett suffix som betyder att ordet är en person som gör något (i det här fallet: bakar). Den minsta betydelseskiljande beståndsdelen i språket är fonemet. Till skillnad från morfem saknar fonem en självständig betydelse. Orden dal och bal skiljer sig åt endast i det inledande fonemet, d respektive b, men d och b betyder själva ingenting när de står ensamma. I språk som svenska gäller oftast 1 eller bak det är samma morfem i olika sammansättningar. 3

16 [Ê 0 ff :kh0 ff :speùun A:l m Ist ENks ha: le:st ç0 ff :guf y:ra o:rinens ÊUï A:l] Figur 2.1: Ett exempel på ett (välartikulerat) uttalande av en mening på rikssvenska, transkriberat till IPA. Meningen lyder: Sjukhuspersonal misstänks ha läst 24-åringens journal. att en bokstav motsvarar ett fonem, men det finns många undantag, inte minst med tanke på stavningarna av tje- och sje-ljuden och på bokstaven x, som ju representerar två fonem. Fonematisk transkription görs mellan snedstreck, /, med en stavning där ett fonem alltid stavas likadant. Ett kolon indikerar att en vokal är lång. För svensk transkription står notationen /sj/ typiskt för sje-ljudet. Men ett fonem låter inte alltid likadant. Fonemet /ä:/ uttalas olika i häl och här, trots att det i båda orden är ett långt ä-ljud. Sådana varianter av samma fonem kallas allofoner och är inte betydelseskiljande men ändå viktiga för uttalet. Det finns en till betydelseskiljande del i språket: accenten. Språk som skiljer på ord genom accenten kallas tonspråk, och till dem hör svenskan. Ett exempel på ett ordpar som endast skiljer sig åt i ordaccenten är vaken, som antingen betyder hålet i isen (akut accent) eller icke-sovande, alert (grav accent). Om man vill skriva fonem, allofoner och accent explicit använder man fonetisk skrift mellan hakparenteser, [ ]. The International Phonetic Association, IPA, har skapat ett speciellt alfabet för det ändamålet, som förvirrande nog även det kallas för IPA, The International Phonetic Alphabet [17]. IPA utgår ifrån det latinska alfabetet med en mängd tillägg för fonem som inte har en egen bokstav eller som inte uttalas entydigt, samt en mängd diakriter för att indikera betoning, vokallängd, tonhöjd, med mera. Transkription kan göras olika noggrann, beroende på hur mycket information man vill få fram. I Figur 2.1 finns ett exempel på relativt enkel fonetisk skrift med IPA-tecken. De IPA-tecken som normalt används i rikssvenska återfinns i Bilaga A tillsammans med den teckenuppsättning för svenska som används av TMH:s RUL- SYS [3, 5] Rösten Med hjälp av rösten realiseras talet och blir en akustisk signal. Detta sker med hjälp av kroppens talapparat, vilket är samlingsnamnet på mun- och näshålorna samt strupen. Talapparaten drivs i de flesta fall av lungorna 2, som pressar ut luft genom strupen 3. Det finns två typer av språkljud: tonande och tonlösa. Alla vokaler och de flesta konsonanter är tonande. Tonen i tonande språkljud uppstår när luften från lungorna passerar stämläpparna, som genom att öppna och stänga luftvägen genererar en ton. Vid tonlösa ljud är stämläpparna i vila och luften kan passera fritt. Strupen bildar tillsammans med tungan, tänderna, gommen och läpparna ett rör som kallas för talapparaten. Talapparaten filtrerar ljudet och ger det dess karaktär. Vissa ljud är nasala, vilket betyder att det dessutom finns en 2 Ljud som inte drivs av lungorna, såsom klickljud, ingår inte i svenskan. 3 Det går förstås även att tala på inandning, men det är inte det normala fallet. 4

17 Figur 2.2: Ett huvud i genomskärning med talapparaten avbildad. öppning till näshålan. Den ingår därför också i talapparaten. Figur 2.2 visar hela talapparaten med dess delar namngivna. Sättet på vilket tunga, läppar och underkäke hålls är det som avgör ljudets klang, skillnaden mellan de olika vokalerna (jämför Avsnitt 2.2.5). Figur 2.3 visar en genomskärning av ett huvud som uttalar de så kallade hörnvokalerna, de vokaler som ligger längst ifrån varandra ur tungans synvinkel. När man studerar tal är det viktigt att tänka på att gränsen mellan ord bara är en gräns när vi skriver. I talet flyter orden samman till en nästan kontinuerlig ström av ljud. I Figur 2.4 visas vågform och spektrogram av yttrandet jag skulle vilja tala lite om ett fenomen. Några självklara ordgränser finns inte. 2.2 Röst- och talsyntes Historia Röstsyntesens historia började redan på 1700-talet, då Wolfgang von Kempelen byggde en maskin som imiterade hela talapparaten, inklusive lungorna, strupen och näs- och munhålorna [8]. Maskinen kunde generera ett antal olika språkljud men var givetvis begränsad och svårhanterlig. Det dröjde till och 1930-talen innan röst- och talsyntesen fick ett uppsving. Det var då man började experimentera med elektriska kretsar för att generera röstljud. Under 50- och 60-talen gjordes stora framsteg med resonanta kretsar och modeller av talapparaten (se Avsnitt 2.2.5). Gunnar Fants OVE (Orator Verbis Electris) och Walter Lawrences PAT (Parametric Artificial Talker) var de första formantsyntetiserarna (se Avsnitt 2.2.4) som kunde kontrolleras dynamiskt [18]. Med så kallad copy-syntes kunde man redan på 60-talet göra näst intill exakta kopior av äkta tal dök en talande leksak upp i de amerikanska butikerna. Det var Texas 5

18 Figur 2.3: De fyra hörnvokalerna och tungans position i munnen (efter [9]) Hz Figur 2.4: Analys av nonsensyttrandet jag skulle vilja tala lite om ett fenomen, [JA: sk 8l E v IlJ a t A:l a l Om Et fenum e:n]. Överst visas vågformen och underst spektrogrammet. 6

19 b bi: i:l l Figur 2.5: Ordet bil transkriberat som [bi:l] och uppdelat i difoner. Tecknet motsvarar här tystnad. Instruments Speak & Spell, en bokstavs- och stavningsinlärningsleksak. Den var knappast något tekniskt underverk, men den introducerade talsyntes för den bredare allmänheten. Med allt billigare datorkraft och lagringsutrymme för databaser har utvecklingen av konkateneringssyntes (ihopklippning av inspelat tal) blivit den mest populära syntesmetoden, och vi möter idag talsyntes på allt fler områden ibland kombinerat med taligenkänning, som i SJ:s biljettbokningssystem. Samtidigt har formantsyntes hamnat lite i skymundan, men utvecklingen har fortsatt Användningsområden För många kan talsyntes framstå som något passande en leksak, som tidigare nämnda Speak & Spell från Texas Instruments. I verkligheten har det dock betydligt vidare användningsområden (fritt från [8]): 1. Hjälp för talförhindrade och hörselskadade personer att uttrycka sig. Inte minst den brittiske fysikern Stephen Hawking, som är förlamad till följd av amyotrofisk lateralskleros, har bidragit till att sätta fokus på talsyntes som handikapphjälpmedel. 2. Hjälp för blinda och lässvaga att ta del av skriven text. Manuell högläsning och inspelning av dagstidningar är kostsamt men en viktig tjänst för dem som inte själva kan läsa tidningstext. 3. Språkinlärnings- och artikulationshjälp, till exempel för dem som lär sig ett språk som vuxen. 4. Informationsavlastning i situationer där (framför allt) synen redan är upptagen, som hos piloterna i en förarkabin. 5. Automatiska tjänster och informationssystem, även i kombination med taligenkänning, till exempel vid biljettbokning eller bankärenden. Därtill kommer drömmen om den talande datorn, populariserad i science-fictionverk som Stanley Kubriks filmatisering av 2001 En rymdodyssé och Gene Robbenberrys Star Trek Difoner Difoner är segment med två fonem och övergången mellan dem. I Figur 2.5 är ordet bil (omgivet av tystnad) uppdelat i difoner. Rent tekniskt räknas en difon som halva det förra fonemet och halva nästa. 7

20 Hz time Figur 2.6: Ett spektrogram av yttrandet väbid, [veb i:d] med formanterna markerade. Difoner spelar en stor roll för talsyntesen dels eftersom ett fonem kan låta mycket olika beroende på vilka fonem som kommer före och efter, så kallad koartikulation, dels eftersom övergången mellan två fonem kan vara avgörande för vad vi faktiskt uppfattar. Framför allt formanterna ändrar sig under övergången mellan två fonem, och utan den informationen förlorar syntesen i såväl naturlighet som tydlighet. Utöver difoner finns även intresse för större segment, i synnerhet för användning vid konkateneringssyntes (se Avsnitt 2.3.2), till exempel trifoner, som är segment om tre fonem Formanter Ordet formant används för att beskriva karakteristiska toppar i spektrumet för talljud. Formanterna kan ganska lätt urskiljas i ett spektrogram som de svärtade områdena, såsom illustreras i Figur 2.6. De sorteras i frekvensordning och numreras enligt: F 1, F 2, F 3,... (Notera att beteckningarna F 1, F 2, och så vidare, i denna rapport ibland, något oegentligt, refererar till respektive formants mittfrekvens.) Formanterna är troligen den viktigaste komponenten vid beskrivningen av talljudet, dels för att skilja på olika fonem och allofoner, dels för att karakterisera talaren. Redan de första dynamiska röstsyntetiserarna baserades på att just formanterna kunde ändras direkt det är ju själva förutsättningen för att kunna syntetisera tal. Därför kallas de för formantsyntetiserare, och syntetiseringsmetoden med en källa filter-modell (se Avsnitt 2.2.5) kallas än i dag ofta för formantsyntes, trots att det är mer än formanter som syntetiseras. Många vokaler kan beskrivas med endast F 1 och F 2. I Figur 2.7 är några svenska vokaler utritade i ett F 1 F 2-diagram. F 1:s och F 2:s värden är nära kopplade till tungans position i munhålan, vilket man kan se om man jämför Figur 2.7 med Figur 2.3. Vokalernas frekvensområden överlappar varandra till viss del. Det beror dels på att människor uttalar allofoner olika till följd av att de är olika byggda, dels på att F 3, som inte finns med i grafen, i vissa fall är avgörande, bland annat för att kunna skilja på [i:] och [y:]. F 1 F 3 är också de viktigaste formanterna vid syntetisering av tal. De högre formanterna behövs i allmänhet inte för att kunna skapa alla de vokaler som ingår i ett språk, men ju fler man tar med, desto mer höjer man naturligheten 8

21 F 2 y: i: 0 ff : e: ø: 8 o: u: E: œ fl : A: O æ: a F 1 Figur 2.7: F 1 och F 2 för rikssvenska vokaler, fritt efter [11]. Notera överlappen, särskilt hos de främre vokalerna, [i:], [y:] och [0 ff :]. i talet. I detta arbete har formanterna F 1 F 4 använts, och figurerna kommer i allmänhet ha dessa utritade. När en talare växlar mellan fonem, vilket förstås sker hela tiden i naturligt tal, så ändras formanternas respektive frekvenser. Detta förlopp är viktigt för såväl naturligheten som tydligheten i syntetiserat tal, och är ett av skälen till att difoner används i konkateneringssyntes (se vidare Avsnitt 2.3.2). Regelsyntes har oftast regler för övergångarna mellan fonem som söker efterlikna dessa förlopp (se vidare Avsnitt 2.3.1) Källa filter-modellen För att kunna syntetisera en röst måste man ha en modell av hur rösten genereras. En modell är alltid en förenkling av verkligheten, men den kan göras väldigt avancerad. Det forskas bland annat på tredimensionella modeller av munnen, näsan och strupen, och deras användning i talsyntes [10]. Källa filter-modellen å andra sidan är en relativt enkel modell, som utgår ifrån en ljudgenererande källa. I verkligheten genereras ljudet antingen när luft från lungorna pressas ut mellan de vibrerande stämläpparna, eller i en förträngning i munnen. Det förra ger ett ljud med ton, det senare ett brusljud. I modellen finns det därför två separata källor att välja mellan: ton och brus. De två kan kombineras, till exempel för att generera ett [v], som innehåller bägge ljuden. I talröret filtreras ljudet från stämläpparna och det uppstår resonanser. I källa filter-modellen motsvarar detta i en första approximation ett linjärt filter. De starkaste resonanserna kallas formanter (se Avsnitt 2.2.4) och det är framför 9

22 Yttrande Transkription Parametergenerering Röstsyntes Ljud Figur 2.8: Ett enkelt blockschema för talsyntes. allt de som ger ljudet dess karaktär, dess klang. Genom att röra på tungan, underkäken och läpparna kan klangen ändras, vilket motsvaras av att filtret i modellen ändras. En enkel formantsyntetiserare kan ses som en låda som tar en röstkälla som insignal och ger en filtrerad signal på utgången. Den tar även in parametrar för formanternas resonansfrekvenser (och kanske även deras respektive bandbredder). Realiseringen av filtret kan ske på två olika sätt, vilket föranledde diskussioner mellan röstsyntespionjärerna Gunnar Fant och Walter Lawrence [18]. Fant förespråkade att formanterna lades till en i taget i serie med varandra, medan Lawrence föredrog parallell filtrering och addition. Senare syntesmodeller har prövat att använda bägge realiseringarna, i olika grenar av syntetiseraren, bland annat för att öka kontrollen över konsonanter. 2.3 Moderna syntesmetoder Regelsyntes Syntes av tal med en källa filter-modell genomförs i allmänhet i ett antal delsteg, vilka beskrivs i Figur 2.8. Före syntetiseringen transkriberas meddelandet. Det innebär dels att bokstäverna byts ut mot fonem eller allofoner, dels att yttrandet får markörer för till exempel betoningar, pauser och satsmelodi. Detta är nödvändigt eftersom bokstäverna och orden själva inte innehåller tillräckligt med information för att deras uttal ska vara bestämda. Transkriptionen översätts sedan till styrparametrar för en röstsyntetiserare. Bland styrparametrarna som genereras finns typiskt grundtonens och formanternas värden, vilken röstkälla som används och volymen. Mer komplexa syntetiserare kan ha parametrar som styr röstkällans form, de inbördes volymerna för ett flertal grenar, med flera. Slutligen syntetiseras meddelandet med hjälp av parametrarna och ljud genereras av en röstsyntetiserare. I detta examensarbete har regelsystemet RULSYS [3, 5] använts för att skapa parametrar åt syntetiseraren Glove [6], vilken är en ättling till Gunnar Fants OVE. Gloves uppbyggnad är återgiven i Figur 2.9. I den tredje grenen ovanifrån 10

23 Figur 2.9: Röstsyntetiseraren Glove (efter [6]). syns formantfiltren F 1 F Konkateneringssyntes Den vanligaste typen av talsyntes i dag bygger på inspelade ljudsekvenser, som sedan sätts ihop, konkateneras, för att bilda ord och meningar. Metoden kallas konkateneringssyntes och rymmer konkatenering av alltifrån hela, färdiginspelade meningar till enstaka fonem. Ett exempel på konkateneringssyntes byggd på hela ord och fragment av meningar är den som används i tunnelbanan i Stockholm. Genom att spela in Tåget åker mot och namnet på samtliga ändstationer kan man enkelt syntetisera fraserna Tåget åker mot Mörby Centrum och Tåget åker mot Hässelby. Ett sådant system är förstås begränsat till just sitt gebit skulle det innefatta hela språket skulle det bli oändligt stort, eftersom alla möjliga ord i alla möjliga former måste inkluderas. Mer flexibelt är att bygga talet på difonnivå. Databasen byggs då upp av inspelade uttalanden av alla tänkbara difoner (se Avsnitt 2.2.3). Skälet till att man använder difoner är både att övergångarna mellan fonem ska fångas på ett korrekt sätt (se Avsnitt 2.2.3), men också för att man inte vill klippa ljudet då det ändras som mest, utan då det är stabilt, som i mitten av en vokal. Konkateneringsförfarandet blir betydligt mer komplicerat med den här metoden, och avancerade metoder för att manipulera difonerna för att få önskad längd och tonhöjd har utvecklats; TD-PSOLA [21] och MBROLA [8] är två populära sådana. Text-till-tal-syntes genomförs, liksom regelsyntes, i de steg som Figur 2.8 visar. De stora skillnaderna ligger i parametersyntesen och syntetiseringen. De parametrar som genereras för en konkateneringssyntetiserare styr valet av difon (eller annan konkateneringsenhet), dess längd och ton, och syntetiseraren 11

24 modifierar sedan ljudklippen efter behov och klistrar ihop dem Regelsyntes kontra konkateneringssyntes Regelsyntes och konkateneringssyntes har sina respektive för- och nackdelar. Konkateneringssyntesens fördelar är främst att den ger en hög naturlighet, eftersom den bygger på inspelade röster, och att den är enkel att implementera för begränsade användningsområden. Bland nackdelarna är oflexibiliteten en av de största. Ett komplett, obegränsat 4 text-till-tal-system byggd på konkateneringssyntes kräver en mycket stor databas av inspelade ljud, vilket ställer krav på lagringsutrymme och sökningseffektivitet. Regelsyntes å sin sida har få begränsningar. Den syntetiserade rösten kan förmås producera såväl möjliga som omöjliga ljud. Denna flexibilitet är regelsyntesens starkaste sida. Det som främst saknas är regler för att öka naturligheten; regelsyntetiserat tal låter i allmänhet betydligt stelare, robotaktigt, än äkta tal. Man kan dock argumentera för att detta är en brist i befintliga modeller och inte en brist i själva regelsyntesen. Det är snarast svårigheten i att skapa en komplett uppsättning regler som sätter gränsen för hur naturligt regelsyntetiserat tal kan bli Datadriven formantsyntes Datadriven formantsyntes är ett försök att kombinera regelsyntesens flexibilitet med konkateneringssyntesens naturlighet genom att ta en del parametrar, formanterna, från en databas byggd utifrån inspelat tal. Resultaten har varit övervägande positiva [15, 24] vad gäller att höja regelsyntesens naturlighet. Vid datadriven formantsyntes genereras styrparametrar för en röstsyntes på samma sätt som vid regelsyntes, med undantag för formanterna. De tas i stället från en databas av formanter tagna från difoner ur inspelat tal. Det modifierade talsyntessystemet är återgivet i Figur 2.10, och Figur 2.11 visar ungefär hur det fungerar i praktiken. Formantkurvorna i databasen tidsskalas för att passa de övriga (regelgenererade) parametrarna och interpoleras för att passa ihop med varandra. Sedan skickas parametrarna till syntetiseraren. Datadriven formantsyntes är egentligen en delmängd av den generella metoden datadriven parametersyntes. Således är man inte begränsad till ersättandet av just formanter det skulle kunna vara andra parametrar. Formanterna är dock tacksamma att utgå ifrån, dels eftersom deras påverkan på rösten är så tydlig, dels eftersom de är relativt enkla att ta fram ur inspelat tal och organisera i en databas Naturlighet i syntetiserat tal Notera att syftet med datadriven formantsyntes är att höja naturligheten i syntetiserat tal. Detta ska inte förväxlas med tydligheten, utan är en annan kvalitet hos det syntetiserade talet. Naturlighet i syntetiserat tal handlar om att härma den mänskliga rösten och att fånga nyanserna i den. Tanken är att det i slutändan inte ska gå att 4 Ett text-till-tal-system kan förstås alltid tillåtas begränsas till att producera talljud. 12

25 Figur 2.10: System för datadriven formantsyntes (efter [23]). skilja på syntetiserat och mänskligt tal. Tydlighet å andra sidan handlar om att maximera mängden uppfattad information som överförs via talet. De två begreppen är förstås inte motsatta varandra, men det är ändå viktigt att påpeka att skiljer sig från varandra. Det kan finnas invändningar mot målet att få syntetiserat tal att låta så övertygande att man inte hör att det är syntetiskt. Tanken är att en röst som låter människoproducerad gör att lyssnarens attityd ändras så att hon förväntar sig mänsklig interaktion. Detta är i så fall ett problem som redan existrerar i telefontjänster med inspelade meddelanden. 13

26 Hz Hz Hz (a) Det regelsyntetiserade ordet. (b) Samma ord från en databas med inspelade ord (c) Formanter från regelsyntesen (d) Formanter från den datadrivna formantsyntesen. (e) Samma ord syntetiserat genom att formanterna från regelsyntesen är utbytta mot dem från databasen. Figur 2.11: Datadriven formantsyntes av ordet väbid [veb i:d]. Observera att formanterna från databasen kommer från difoner från flera inspelningar, inte bara från en. 14

27 Kapitel 3 Formantextraktion Detta kapitel tar upp några metoder och verktyg för automatisk extraktion av formanter ur inspelat tal, samt ett verktyg för att utvärdera extraktionsalgoritmernas kvalitet. Särskilt intressant är algoritmen i Avsnitt 3.2, kring vilken detta arbete har koncentrerats. Då Waves-algoritmen ligger till grund för denna kommer även den att beskrivas i detalj. 3.1 Waves Bakgrund Vid tidigare arbete med uppbyggnad av en formantdatabas [23, 24] har programpaketen Snack och Wavesurfer [25] använts för att extrahera formanterna. Formantextraktionsalgoritmen (och koden) som används i dem är densamma som i Waves [28, 29]. Algoritmen (här kallad Waves-algoritmen) bygger på dynamisk programmering. Det är i grund och botten en variant av Viterbi-algoritmen [12] med mer avancerade kostnadsfunktioner Uppdelning av indata Den ljudsekvens ur vilken formanterna ska extraheras delas upp i ett antal tidpunkter med 10 millisekunders mellanrum. Dessa tidpunkter kallas även för sampelpunkter, eftersom formanterna samplas i dessa punkter, eller, mer exakt, ur korta segment av ljud kring dessa punkter. Segmenten kallas för fönster. Figur 3.1(a) visar en ljudvåg från tal med fönster och sampelpunkter markerade. Fönstren väljs så att de är så korta att formanterna kan antas vara konstanta under den tid fönstren spänner över. Inom statistik och signalbehandling ingår detta kriterium i vad som kallas för svag stationäritet för en stokastisk (slumpmässig) process. Samtidigt måste fönstren vara så långa som möjligt, så att de innehåller mycket information om signalen. Typiskt väljs de till mellan 10 och 49 millisekunder. Signalen i fönstret vid tidpunkten t kallas x[n]. Fönstret är L sampel lång. I Figur 3.1(b) visas en sådan signal, som har plockats ur ett längre ljud. Vid beräkningar med sådana signaler används oftast en fönsterfunktion, w[n]. Fönsterfunktionen ser till att x[n] får bra spektrala egenskaper. Den multipliceras 15

28 0.6 t = 0 t = 1 t = (a) Kring var och en av sampelpunkterna t tas en viss mängd data från ljudvågen, ur vilken formantkandidater extraheras. Området begränsas av fönstret (b) Signalen i fönstret vid t = (c) En fönsterfunktion av typen Hamming (d) Ljudsignalen efter att fönsterfunktionen har applicerats. Figur 3.1: Fönstring av en ljudsignal. 16

29 direkt på signalen: x w [n] = x[n]w[n]. (3.1) De vanligaste fönsterfunktionerna kallas för Hamming- respektive Hanning-fönster, och kan skrivas: ( π(x L 1 2 w[n] = (1 α) + α cos ) ), (3.2) L där Hamming-fönstret har α = 0,46 och Hanning-fönstret har α = 0,5. Figur 3.1(c) visar ett Hamming-fönster, och i Figur 3.1(d) har det applicerats på x[n] Formantkandidater Formanterna framträder, som nämnts i Avsnitt 2.2.4, som resonanser i talljudets spektrum. Att extrahera dessa resonanser ur inspelat ljud med hjälp av matematiska metoder är fullt möjligt, men samtidigt kommer andra resonanser att påträffas. Därför klassas alla de framtagna resonanserna som formantkandidater, det vill säga, de skulle alla med olika sannolikhet kunna vara de eftersökta formanterna. Sannolikheten styrs av en kostnadsfunktion (se Avsnitt 3.1.6). Formantkandidaterna beräknas med hjälp av linjär prediktion, närmare bestämt en autoregressiv modell av ljudet. Metoden kallas ofta för LPC, Linear Predictive Coding. Från modellen kan toppar (egentligen: resonansfrekvenser) i spektrogrammet beräknas, vilka sedan används som formantkandidater. Kalla signalen som ska modelleras för x [n], och anta att den har genererats av en svagt stationär stokastisk process. En linjär prediktor av x [n] kan då skrivas: K ˆx [n] = c k x [n k]. (3.3) k=1 Prediktionskoefficienterna c k väljs med hjälp av de så kallade Yule-Walkerekvationerna: R 0 R 1... R K 1 c 1 R 1 R 1 R 0... R K 2 c = R 2.., (3.4) R K 1 R K 2... R 0 där R k är autokorrelationsfunktionen för den process som skapat x. Eftersom autokorrelationen är okänd måste den estimeras ur signalen: R k ˆR k = 1 L L k 1 n=0 c K R K x w [n]x w [n + k], k = {0,..., K}. (3.5) Yule-Walker-ekvationerna löses sedan på ett effektivt sätt med hjälp av Levinson-Durbin-rekursion [14]. Spektrumet för LPC-modellen beräknas enligt X(f) = 1 K k=0 c. (3.6) j2πkf ke 17

30 30 Spektrum 20 P [db] f [Hz] 30 LPC spektrum 20 P [db] f [Hz] Figur 3.2: Korttidsspektrum (överst) och LPC-spektrum av 30:e ordningen (underst) av fonemet [i:] som i bil ([bi:l]). Figur 3.2 visar ett korttidsspektrum, beräknat med en traditionell fouriertransform, och motsvarande LPC-spektrum. I LPC-spektrumet framträder formanterna med högre upplösning, mer entydigt och med lägre varians än i det traditionella spektrumet. De två första formanterna kan skönjas kring 300 Hz respektive 1800 Hz. Kopplingen mellan prediktionskoefficienterna c k och resonanserna i signalen går via de komplexa rötterna till polynomet K K p(z) = c k z k = A (z r i ). (3.7) k=0 Rötterna r i kan uttryckas i resonansfrekvenser f i och respektive bandbredder b i som (efter [1]): i=1 r i = e (πbi+j2πfi)/fs = e πbi/fs 2πf i /f s (3.8) f i = f s arg (r i ) /2π (3.9) B i = f s log ( r i ) /π. (3.10) Eftersom insignalen (ljudsignalen) är reell är även prediktionskoefficienterna reella, vilket leder till att alla icke-reella rötter uppstår i komplexkonjugerade par. Den ena roten i varje par får då, enligt Ekvation 3.9, negativ frekvens och bortses därför ifrån. Bandbredden hos resonanserna bestämmer hur tydligt topparna framstår. Generellt kan man säga att ju tydligare topp, desto mindre bandbredd. I LPCspektrumet i Figur 3.3 är inversen av bandbredderna för rötterna plottade mot frekvenserna för desamma. (Ju större värde, desto mindre bandbredd.) Vid 1150 Hz syns en resonans med stor bandbredd, som inte är en formant. Formanterna har typiskt en liten bandbredd, vilket gör de resonanser med liten 18

31 30 LPC spektrum 20 P [db] f [Hz] 0.01 LPC rötter /B [s] f [Hz] Figur 3.3: LPC-spektrum av 30:e ordningen (överst) av fonemet [i:] som i bil ([bi:l]) och rötterna till motsvarande polynom (underst). Rötterna är plottade som inversen av bandbredden mot frekvensen. En liten bandbredd ger alltså ett stort värde i grafen. bandbredd till mer sannolika formantkandidater. Detta tas fasta på i kostnadsfunktionen (se Avsnitt 3.1.6) Kandidatmappningar Formantkandidaterna är förstås i allmänhet fler än formanterna som söks. Därför finns det flera sätt att kombinera dem på. Eftersom formanterna per definition numreras i frekvensordning, det vill säga F 1 < F 2 < F 3 <..., är den inbördes ordningen i vilken N F formanter väljs ut från de N C kandidaterna oväsentlig de kan ju bara numreras på ett sätt, ändå. Det finns således N CM = ( NC N F ) = N C! N F! (N C N F )! (3.11) olika kombinationer att välja bland. Dessa kombinationer kallas för kandidatmappningar (engelska: candidate mappings ). Figur 3.4 visar exempel på några få av alla möjliga kandidatmappningar, givet ett antal formantkandidater. I Figur 3.5 är kandidaterna i tre olika tidpunkter utritade. Av kandidaterna i en tidpunkt har två valts ut, det vill säga mappats, till två formanter, så att de bildar en kandidatmappning. Notera att antalet kandidatfrekvenser, och därmed antalet möjliga kandidatmappningar, inte behöver vara detsamma i varje tidpunkt. I praktiken ignoreras en hel del av de möjliga kandidatmappningarna, eftersom det finns ett system med gränser för hur höga eller låga formantfrekvenserna kan tillåtas vara. Till exempel är ingen av de formantkandidater med frekvens högre än 1500 Hz kandidat till F 1. Det sker med andra ord en tidig utsållning av osannolika kandidatmappningar. Detta är nödvändigt av flera skäl. Först och främst ser det till att formanterna inte får orimliga värden. Vidare minskar 19

32 frekvens kandidatmappning Figur 3.4: Ett fåtal av alla möjliga kandidatmappningar bestående av två formanter, givet sex formantkandidater. frekvens F 2 F 1 tid Figur 3.5: Varje kolumn motsvarar formantkandidaterna vid en tidpunkt. Den bästa kandidatmappningen, bestående av två formanter, har valts i varje tidpunkt. Linjerna visar de resulterande formantrörelserna. 20

33 kandidatmappning tid Figur 3.6: Kandiatmappningarna i en trellis, samt en möjlig väg genom den. Notera att ordinatan inte är en frekvensaxel, utan motsvarar kandidatmappningarna, som ju är numrerade. det beräkningsbördan såtillvida att betydligt färre kandidatmappningar behöver räknas fram och beaktas. Med tolv formantkandidater och fyra formanter att finna ger Ekvation 3.11 att antalet kandidatmappningar är ( 12 4 ) = Uppbyggnad av en trellis Det är dock inte den mest sannolika kandidatmappningen i varje enskild tidpunkt som väljs som den rätta. I praktiken är spektrumet nämligen inte så entydigt att sannolikheten i varje enskild punkt räcker som krav. Detta beror främst på att formantkandidaterna kommer från en modell av ljudet. I Figur 3.3 har två starka resonanser vid 224 Hz respektive 366 Hz hittats, men bara den ena av dem kommer från en formant, nämligen F 1, eftersom F 2 aldrig blir så låg. Utan information om vilka resonanser som framträder i tidpunkterna före och efter är valet mellan de två i princip godtyckligt. I stället söks den följd av kandidatmappningar som är den mest sannolika. Därför räknas alla kandidatmappningar i hela ljudsekvensen ut innan de bästa väljs ut. I varje tidpunkt tas ett antal formantkandidater fram, och utifrån dem skapas alla kandidatmappningar. Tillsammans bildar kandidatmappningarna ett nät (se Figur 3.6) som kallas för en trellis (engelska för spaljé). Av alla möjliga vägar genom trellisen väljs den mest sannolika. Resultatet blir en följd med kandidatmappningar, vilket i sin tur ger en följd av formantfrekvenser (se Figur 3.5). 21

34 3.1.6 Kostnadsfunktion Den mest sannolika vägen genom trellisen är den serie av kandidatmappningar som ger den lägsta totala kostnaden. Kostnaden är ett mått på hur sannolik en serie av kandidatmappningar är, och beräknas som kandidatmappningarnas avvikelse från något slags norm. Kostnaden är konstruerad för att straffa osannolika formantvärden så att de mest sannolika väljs som de rätta. Kostnaden beräknas som en vägd summa av ett antal delkostnader. De viktigaste delkostnaderna är: Frekvensavvikelsen visavi vissa normfrekvenser, tagen i kvadrat. Normfrekvensena är tagna från den teoretiska neutralvokalen hos en vuxen man, med formantfrekvenserna: F 1 = 500 Hz, F 2 = 1500 Hz, F 3 = 2500 Hz och F 4 = 3500 Hz. Bandbredden. Ju större bandbredd, desto mer osannolikt är det att den givna resonansen är en formant. Frekvensändringen sen förra tidpunkten, för att straffa abrupta hopp i formanterna och främja mjuka rörelser. Ett särskilt straff för de fall då en formant fattas eller då två formanter tilldelas samma kandidat. Om antalet kandidater är litet kan en sådan lösning vara acceptabel. Det gör det också möjligt att analysera ljud som har helt tysta partier. Kostnaden för en väg genom hela trellisen är summan av alla lokala kostnader, C local, plus summan av alla övergångskostnader, C trans. Om en kandidatmappning (bestående av N F formantkandidater) i tidpunkten t kallas F (t), och följden av kandidatmappningar F = {F (t)}, så kan den totala kostnaden, C, skrivas: T 1 T 2 C(F ) = C local (F (t)) + C trans (F (t), F (t + 1)). (3.12) t=0 Den mest sannolika följden av kandidatmappningar kan då uttryckas som t= Dynamisk programmering F mincost = arg min C(F ). (3.13) F Att testa alla vägar genom trellisen mot varandra är ett beräkningsmässigt tungt problem. För varje tidpunkt som läggs till uppstår N nya vägar, där N är antalet kandidatmappningar 1. Antalet vägar växer således exponentiellt med antalet tidpunkter, proportionellt mot N T, där T är antalet tidpunkter. Det betyder att i storleksordningen N T jämförelser måste göras för att kunna bestämma den mest sannolika vägen. Med dynamisk programmering kan beräkningsåtgången, minskas till ett polynomiskt problem, proportionellt mot N 2 T. Vid dynamisk programmering tas det faktum till vara på, att kostnaden för övergången mellan två kandidatmappningar bara beror på de två ingående kandidatmappningarna. I varje tidpunkt räknas de lokala kostnaderna för samtliga 1 Något oegentligt uttryckt, eftersom antalet kandidatmappningar inte behöver vara detsamma i alla tidpunkter. 22

35 kandidatmappningar ut. Dessutom räknas för varje kandidatmappning övergångskostnaderna från alla kandidatmappningar i den föregående tidpunkten ut. Den ackumulerade kostnaden är summan av den lokala kostnaden och den lägsta av alla möjliga summor av övergångskostnader och tidigare ackumulerade kostnader: C accum (F (t)) = C local (F (t)) + [ + min Caccum (F (t 1)) + C trans (F (t 1), F (t)) ]. (3.14) F (t 1) En pekare bakåt till den föregående kandidatmappning som gav den lägsta ackumulerade kostnaden sparas också. När hela trellisen är uppbyggd och alla kostnader är beräknade kan vägen bakåt följas och den följd av kandidatmappningar som gav den lägsta totala kostnaden kan tas fram och sparas. I Figur 3.7 är dynamisk programmering illustrerad. I varje punkt (utom den första) jämförs för varje kandidatmappning N kostnader med varandra. Det blir N 1 jämförelser per kandidatmappning och totalt N(N 1) jämförelser. För hela trellisen blir det N(N 1)(T 1) eller ungefär N 2 T jämförelser. När hela trellisen är genomsökt finns N kompletta vägar genom trellisen, motsvarande de N kandidatmappningarna i den sista tidpunkten. Den väg som ger den lägsta totala kostnaden är också den med den lägsta ackumulerade kostnaden Fel vid extraktion Vid tidigare arbete med uppbyggnad av formantdatabasen [23, 24] har vissa brister hos Waves-algoritmen noterats. Då dessa brister leder till att formanter ibland extraheras fel och med diskontinuiteter, vilket i sin tur leder till att syntetiseringen blir felaktig, har man varit tvungen att manuellt korrigera dessa fel. Korrigeringen skedde i det grafiska Wavesurfer [25]. Majoriteten av felen består av så kallade frekvenshopp. Ett frekvenshopp innebär att den formantkandidat som är den rätta (eller i alla fall den önskvärda) har en så hög kostnad att en billigare väg genom trellisen är att helt abrupt byta till en annan frekvens och en annan formantkandidat. Särskilt vanligt är detta hos F 4 som har en tendens att hoppa till F 5. Detta är dock oftast inte kritiskt för den datadrivna formantsyntesen, eftersom de tre lägre formanterna innehåller mycket mer information för lyssnaren. Frekvenshopp kan dock inträffa även hos de övriga formanterna. Särskilt illa är det om den nya frekvensen redan är upptagen av en annan formant. Om F 2 hoppar upp till F 3 kommer F 3 att, så att säga, knuffas bort. F 3 antar då (oftast) i stället F 4:s värde, så att F 4 knuffas vidare ett slags kaskadeffekt. Ibland sker inget egentligt hopp. I stället börjar extraktionen med fel värde i början av ett fonem, och blir inte rätt förrän i ett senare fonem. I Figur 3.8 har just detta hänt. Den riktiga andraformanten syns mellan F 1 och (den felaktigt detekterade) F 2, som ju egentligen är F 3. I det andra fonemet i figuren hoppar F 2 till slut tillbaka. Ibland kan F 1 hoppa ner till, eller fångas upp av, en resonans som ligger i området Hz. Detta är vanligast vid övergången till tystare segment, som till klusiler 2. Eftersom F 1 inte används vid syntes (med RULSYS och GLOVE) av sådana segment är det inte ett problem i sig att F 1 inte är rätt, men det kan bli problem just i övergången mellan fonem. 2 Klusiler är språkljud med paus, som [t] och [b]. 23

36 kandidatmappning tid (a) De lokala kostnaderna för den första tidpunkten beräknas. Dessa motsvarar även de hittills ackumulerade kostnaderna. kandidatmappning tid (c) Den lägsta summan väljs ut som ny ackumulerad kostnad och vägen bakåt sparas. kandidatmappning tid (b) I nästa tidpunkt beräknas alla övergångskostnader till de tidigare kandidatmappningarna och läggs till den ackumulerade kostnaden. kandidatmappning tid (d) Samma beräkning utförs för alla kandidatmappningar. kandidatmappning kandidatmappning tid (e) Om två vägar har samma kostnad så är de lika sannolika och det gör detsamma vilken av dem som väljs tid (f) De lokala kostnaderna adderas till de ackumulerade kostnaderna. Figur 3.7: Ett exempel på hur dynamisk programmering fungerar. 24

37 kandidatmappning tid (g) Sökningen fortsätter sedan i nästa tidpunkt i trellisen. kandidatmappning (i)... tid kandidatmappning kandidatmappning 7 4 (h) tid 15+2 tid (j) Vägar kan förgrena sig och gamla vägar kan försvinna. kandidatmappning (k) När hela trellisen är genomsökt väljs den väg med den lägsta ackumulerade kostnaden. tid Figur 3.7: (Forts.) Vägen tillbaka genom trellisen är sparad som de feta linjerna i figurerna. 25

38 Hz time Figur 3.8: Spektrogram av uttalandet [kœ fl :r] med formanterna F 1 F 4 extraherade med Waves-algoritmen. F 2 F 4 är felaktigt extraherade. 3.2 En modifierad formantextraktionsalgoritm Problemen med Waves-algoritmen som nämns i Avsnitt motiverar utvecklingen av en modifierad formantextraktionsalgoritm. Denna algoritm beskrivs i detta avsnitt Bakgrund Waves-algoritmen är inte optimal för extraktion ur en märkt databas, eftersom den inte tar någon som helst hänsyn till vilket fonem som faktiskt uttalas. Ett system som kan ta till vara på denna information skulle kunna öka precisionen i formantextraktionen och eliminiera de största felen. Mannell [20] beskriver ett system för formantextraktion, som utnyttjar märkningen av databasen. Det är betydligt mer avancerat än Waves-algoritmen, men kräver en övervakad träning av systemet, vilket gör den olämplig för automatisk extraktion. Lee et al. [19] beskriver ett annat system för formantextraktion ur en märkt databas, med en metod som inte är helt olik den i Waves. Detta avsnitt beskriver teorin bakom en variant av ett system som liknar det hos Lee et al., utvecklad under detta arbete. Systemet är i princip baserat på Waves-algoritmen. Den största skillnaden är en modifiering av kostnadsfunktionen så att den tar hänsyn till märkningen och segmenteringen av ljudfilerna i databasen. Detta för att eliminera de stora felen frekvenshopp och missade formanter så att extraktionen kan göras helt automatisk Formantkandidater och dynamisk programmering Formantkandidater beräknas på samma sätt som i Waves-algoritmen (se Avsnitt 3.1.3), med hjälp av en LPC-modell av ljudet. Till skillnad från Wavesalgoritmen så skapas dock alla de möjliga kandidatmappningarna inte bara dem vars formantkandidater håller sig inom de utfästa gränserna. En sållning bland dem, för att minska beräkningsbördan, sker i stället med hjälp av den lokala kostnaden (se Avsnitt 3.2.3). Endast de 20 kandidatmappningar med lägst lokal kostnad tas med i trellisen. 26

39 I övrigt byggs trellisen upp på samma sätt som i Waves-algoritmen, och sökningen går till på samma vis. Se Avsnitt 3.1 för en utförlig förklaring av förfarandet. Den stora skillnaden ligger i kostnadsfunktionen Kostnadsfunktion Kostnadsfunktionens grundläggande användning och innebörd beskrivs i Avsnitt Detta avsnitt beskriver i detalj den modifierade kostnadsfunktion som utvecklats i detta projekt. Den kan delas upp i två delar: den lokala kostnaden och övergångskostnaden. Den lokala kostnaden kan i sin tur delas upp i en frekvenskostnad och en bandbreddskostnad. Övergångskostnadens mål är att främja mjuka formantrörelser genom att straffa stora ändringar mellan formantfrekvenser i granntidpunkter. Kostnaden för formant n att ändras från frekvens f n (t) till frekvens f n (t + 1) är C trans (f n (t), f n (t + 1)) = K trans f n (t) f n (t + 1) 2, (3.15) där K trans är en vikt som bestämmer hur allvarligt ett hopp är. Kostnaden är kvadratisk, för att små variationer lättare ska släppas igenom medan stora hopp straffas hårt. Detta ger den totala kostnaden för att gå från kandidatmappning F (t) till F (t + 1) N F C trans (F (t), F (t + 1)) = K trans f n (t) f n (t + 1) 2. (3.16) Bandbreddskostnaden för en kandidatmappning F (t) ser till att de formantkandidater som har en liten bandbredd premieras. Om bandbredderna betecknas b n (t) kan bandbreddskostnaden skrivas: n=1 N F C bw (F (t)) = K bw b n (t). (3.17) Notera att det inte finns någon undre gräns för hur liten en bandbredd kan bli, vilket skulle kunna tänkas främja resonanser som inte kommer från formanterna. I normala fall uppstår dock inte resonanser med en så liten bandbredd vid inspelning av tal. Frekvenskostnaden är den delkostnad som använder information om märkning och segmentering av databasen. Till skillnad från den frekvenskostnad som används i Waves-algoritmen, som mäter avvikelsen från neutralvokalen, mäter den modifierade frekvenskostnaden avvikelsen från de förväntade värdena på formantfrekvenserna, givet det sagda fonemet. n=1 N F C freq (F (t)) = K freq f n (t) ˆf n (t). (3.18) De förväntade värdena ˆf n (t) tas från en databas med normvärden på de olika formantfrekvenserna. Eftersom fonemen byts ut allt eftersom i det inspelade ljudet så är ˆf n (t) en funktion av tiden. Hela den lokala kostnaden kan nu skrivas: n=1 C local (F (t)) = C bw (F (t)) + C freq (F (t)), (3.19) 27

40 tid Figur 3.9: Ett exempel på fyra gångers översampling. De tre övre tidpunkterna byts mot de tolv undre. och den totala kostnaden för en väg genom hela trellisen kan skrivas som summan av alla lokala kostnader och alla övergångskostnader: T 1 T 2 C(F ) = C local (F (t)) + C trans (F (t), F (t + 1)). (3.20) t=0 Eftersom algoritmen är baserad på dynamisk programmering är den ackumulerade kostnaden intressant: t=0 C accum (F (t)) = C local (F (t)) + [ + min Caccum (F (t 1)) + C trans (F (t 1), F (t)) ]. (3.21) F (t 1) Detta är samma uttryck som för den ackumulerade kostnaden i Waves-algoritmen, men de ingående delkostnaderna är inte desamma Översampling För att i varje tidpunkt minska variansen hos de extraherade formanterna kan översampling, det vill säga en ökning av samplingsfrekvensen vid extraktionen, användas. I praktiken innebär det att algoritmen appliceras på fler och tätare valda tidpunkter. Punkterna väljs så att de ligger symmetriskt kring de ursprungliga punkterna och så att de tillsammans bildar en ekvidistant rad med sampelpunkter, enligt Figur 3.9. Efter översamplingen kommer N OS T tidpunkter att ingå i extraktionen. Eftersom tiden det tar att söka genom trellisen är proportionell mot antalet tidpunkter ökar översamplingen beräkningsåtgången med N OS gånger. När formanterna väl har extraherats så samplas de ner till den önskade samplingsfrekvensen genom medelvärdesbildning: F (t) = 1 N OS 1 F (N OS t + k), (3.22) N OS k=0 så att F blir T punkter lång. En alternativ metod vore att ta medianen, alltså det mellersta av de N OS värdena. Notera att termen översampla inte ska förväxlas med uppsampling av själva ljudfilen och en förändring av dess samplingsfrekvens Extraformanter Om grundtonens frekvens är hög, eller om fönstret är långt, kan grundtonen (F 0) uppstå som en resonans i LPC-modellen, vilket blir till en formantkandidat. I 28

41 värsta fall kan ta den misstas för F 1. För att minska den risken infogas en pseudoformant F 0. Den antar oftast värdet hos den resonans som motsvarar grundtonen, eller någon annan låg och stark resonans (se Avsnitt 3.1.8) så att denna inte kan förväxlas med F 1. Om ingen låg resonansfrekvens med tillräckligt hög bandbredd finns tilldelas F 0 frekvensen 0. Den femte formanten, F 5, ligger ofta ganska nära F 4. Vid extraktionen kan det därför hända att F 5 detekteras i stället för F 4. För att förhindra detta och minska risken för att det leder till kaskadeffekter detekteras även F 5 i algoritmen. Eftersom varken F 0 eller F 5 är av intresse för formantdatabasen kasseras deras värden innan resultatet av extraktionen returneras. Det är således inte av särskilt stor vikt att de detekteras med någon större precision Om automatisk märkning Vid inspelning av en databas av difoner (eller andra ljudsegment) för användning i syntes får talaren läsa in ett antal ord, ofta nonsensord, som tillsammans innehåller alla de difoner som ska ingå. Varje inspelning märks automatiskt med transkriptionen av det inspelade yttrandet. Detta är trivialt eftersom talaren har instruerats om vad han ska tala in. Var varje fonem i yttrandet börjar och slutar i ljudet är däremot inte självklart. Problemet med automatisk segmentering av fonetiska segment i ljudfiler givet transkriptionen liknar taligenkänningsproblemet. Skillnaden är att man har en extra apriorikunskap nämligen vilka fonem som faktiskt ingår och uppgiften blir då att korrigera gränserna mellan fonemen [26]. En vanlig metod är att med hjälp av Hidden Markov-modeller [22] passa fonemen till ljudet. 3.3 DOMIN-modellen En metod för formantextraktion som skiljer sig betydligt från de övriga bygger på DOMIN-modellen [4, 30]. DOMIN, som står för dominant, bygger på en modell av örats perception av ljud. I modellen antar man att flimmerhåren i hörselsnäckan har olika resonansområden. När en ton kommer in i örat börjar flimmerhåren svänga. I teorin kommer ett flimmerhår vars resonansområde ligger nära en formant att svänga med formantens frekvens. Figur 3.10 visar hur detta kan illustreras i en graf. DOMIN-modellen är inget komplett system för formantextraktion, men skulle kunna ersätta LPC-modellen för ljudet och bli ett alternativt sätt att detektera formantkandidater på. Än mer intressant är möjligheten för de två metoderna att komplettera varandra, så till vida att precisionen kan ökas genom att DOMIN-modellen appliceras på dem av LPC-modellen extraherade formanterna. Teorin för formantextraktion med DOMIN-modellen är dock inte helt utvecklad, varför den inte beskrivs närmare här. För en diskussion kring möjligheten att integrera den i formantextraktionsalgoritmen, se Avsnitt

42 Resonansfrekvens [Hz] Infrekvens [Hz] Figur 3.10: Ett exempel på hur DOMIN-modellen reagerar på en sinusformad insignal. x-axeln är den frekvens som sänds in och y-axeln den frekvens med vilken motsvarande flimmerhår svänger. De flimmerhår vars resonansområden ligger nära insignalens frekvens kommer att svänga med just den frekvensen. 3.4 Utvärdering av formantextraktion För att kunna ge ett mått på hur bra en algoritm presterar behövs en metod för att jämföra resultaten från formantextraktionen med de korrekta formantvärdena. Men de korrekta värdena inte är tillgängliga; de är dolda. Därför uppstår ett annat problem, som först måste lösas: vilka värden ska resultaten jämföras med? Manuella utvärderingsmetoder En möjlig metod för att verifiera de extraherade formanterna är att titta på den grafiska framställningen av resultaten, det vill säga, ett spektrogram med formanterna utritade. Man kan då med ögonen avgöra när algoritmen har gjort rätt och när den gjort fel. Jämförelsen blir då med vad man grafiskt upplever är de korrekta värdena. En annan möjlighet är att syntetisera alla difoner med hjälp av en databas byggd på resultatet av extraktionen. Genom att lyssna på var och en av syntetiseringarna med kunskap om vad de borde innehålla kan man avgöra när algoritmen har gjort rätt eller fel. I praktiken är dock ingen av dessa metoder särskilt användbar, eftersom det handlar om tusentals difoner som måste undersökas Jämförelse med regelgenererade formanter I stället för att jämföra de extraherade formanterna med de korrekta formanterna från samma ljudfil så kan man jämföra med kända formanter från ett annat yttrande av samma difon. Formanterna kommer då inte att vara desamma, men förhoppningsvis tillräckligt nära för att jämförelsen ska kunna spåra stora fel. 30

43 Ett system för att generera användbara och (i någon mening) korrekta formantvärden givet en fras är regelsyntesen. Genom att generera difoner dels med regelsyntes, dels med den databas som är byggd av de extraherade formanterna, fås par med jämförbara formantrörelser. Skillnaden mellan dem skulle kunna tänkas spegla hur stort felet är. Notera dock att ett litet fel inte ska tolkas som ett egentligt fel det kan i själva verket handla om en förbättring. Tanken är ju att de databasgenererade formanterna ska låta annorlunda från de regelgenererade. Notera också att storleken på ett fel inte nödvändigtvis säger något om hur kritiskt det är. Ett litet fel som håller i sig är kanske inte lika störande som ett stort men tillfälligt fel, men de kan ge samma felvärde. Jämförelsen sker i de tidpunkter som tillhör den aktuella difonen, och endast då det finns ton i rösten. För varje formant f n (t), i varje tidpunkt t i difonen som har ton, beräknas skillnaden i kvadrat mellan den regelgenererade och den databasgenererade formantfrekvensen. Felet ɛ 2 n i en formant är summan av alla fel: ɛ 2 n = 1 fn,data (t) f n,rule (t) 2, (3.23) T D t D där D är de punkter i difonen med ton, och T D är storleken på D. 31

44 32

45 Kapitel 4 Genomförande Arbetet påbörjades under sommaren 2003 med utvecklingen av utvärderingsverktyget. Under sensommaren inleddes utvecklingen av den förbättrade formantextraktionsalgoritmen och översättningen av den till C-kod. Arbetets sista sex veckor fokuserades på lyssningstestet samt författandet av denna rapport. 4.1 Utvecklingsmiljö Hård- och mjukvara Större delen av arbetet utfördes på en dator från Dell, utrustad med en Intel Pentium 4-processor på 1,7 GHz och 256 MiB internminne 1. Ljudkortet var Creative Labs Soundblaster Live. Datorns operativsystem var Red Hat Linux 7.3. Följande program användes under utveckling, implementering och testning av formantextraktionsalgoritmen: Matlab för utveckling och testning av algoritmer och för visualisering av numeriska resultat, gcc 2.96 för utveckling i C, RULSYS [5] för parametergenerering, Glove [6] för röstsyntes, DDPS [23] för datadriven parametersyntes, samt Snack och Wavesurfer [25] för formantextraktion och visualisering av ljud med hjälp av spektrum. Lyssningstestet utfördes i programmet Visor [13], ett Windows-baserat program. För detta ändamål användes en bärbar dator från Hewlett-Packard med Windows XP som operativsystem. Ett externt ljudkort av märket M-Audio Duo kopplades till USB-porten, eftersom datorns interna ljudkort ansågs ha för låg kvalitet. Utöver denna utrustning fanns tillgång till ett antal snabbare datorer för beräkningsintensiva och minneskrävande uppgifter. 1 I denna rapport används prefixet Mi (Mibi) för , i enlighet med [16], för att skilja det från prefixet M (Mega) för

46 4.1.2 Difondatabas En databas av ljudfiler i Microsoft RIFF-format fanns tillgänglig, ur vilken drygt 2000 difoner kunde extraheras. Ljudfilerna var uppbyggda av inspelningar av nonsensord med en viktig difon per fil (avsedd att extraheras). Samma databas har använts i tidigare projekt [23]. Databasen var märkt och kunde segmenteras med nalign [27]. 4.2 Utvärderingsverktyget Utvärderingsverktyget, som beskrivs i Avsnitt 3.4, realiserades med hjälp av program skrivna i C-kod och shellskript. Proceduren delades upp i ett antal delsteg, dels för att resultatet av varje steg skulle kunna sparas och undersökas manuellt, dels för att hela proceduren inte skulle behöva upprepas varje gång något steg ändrades. Delstegen var de följande: 1. Skapandet av fonetisk testtext att syntetisera. Eftersom orden i testet skulle användas för att testa alla difoner i formantdatabasen, vilka ju var tagna från den inspelade difondatabasen, föll det sig naturligt att använda samma ord för utvärderingen som i difondatabasen. Dessa var, som tidigare nämnts, nonsensord, till exempel [veb i:d] för difonen [b- i:]. Det mesta av transkriptionen var därför redundant, då endast difonen skulle testas. 2. Parametersyntes av testtexten. Varje testord syntetiserades med RULSYS, och parameterfilerna sparades. (Notera att ingen röstsyntes behövdes för detta steg.) 3. Datadriven formantsyntes av testtexten. Varje parameterfil fick sina formanter utbytta av programmet DDPS, och en ny parameterfil skapades. För detta ändamål skrevs en specialversion av DDPS som kunde appliceras på flera filer samtidigt. Detta för att undvika att ladda in formantdatabasen en gång för varje fil, vilket annars är den största flaskhalsen i programmet [23]. 4. Extraktion av formanter från parameterfilerna. Formanterna kopierades från binärformat i parameterfilerna till klartextfiler för att kunna undersökas med Matlab. 5. Beräkning av skillnaden mellan formanterna i de olika parameterfilerna. Själva ekvationen varierades för att undersöka de olika formanternas respektive fel. Bland annat testades endast F 1, endast F 2 och summan av dem. (Se Avsnitt för ekvationerna som användes.) Endast den del av parameterfilerna som innehöll difonen användes, desssutom bara då det fanns ton, det vill säga, då den tonande röstkällan var på. Detta för att inte fånga fel i tonlösa och tysta segment. 6. Visualisering av resultaten med hjälp av grafer, i Matlab. Felsumman för alla difoner plottades. De difoner som hade ett stort fel kunde enkelt identifieras ur graferna. 7. Syntetisering av parameterfilerna. Egentligen ett valfritt steg, för de fall då en genomlyssning av syntetiseringarna var aktuell. 34

47 Utifrån resultaten kunde de felaktiga formantextraktionerna isolereras och undersökas. På basis av dessa empiriska kunskaper utvecklades en ny formantextraktionsalgoritm. 4.3 Formantextraktorn Formantextraktionsalgoritmen i Avsnitt 3.2 implementerades först i Matlab, både för att kunna dra nytta av de färdiga signalbehandlingsfunktionerna, och för att förenkla undersökning av resultaten genom grafisk framställning. Algoritmen testades till att börja med på korta segment, sedan på difoner och till slut på hela ord. Resultaten jämfördes löpande med motsvarande formanter extraherade med Wavesurfer, för att brister och fallgropar skulle kunna upptäckas och åtgärdas. Då Matlab-versionen ansågs vara komplett och stabil kördes den på hela difondatabasen för att en komplett databas av formanter skulle kunna byggas. Denna extraktion tog över två dygn, varav en stor del kördes parallellt på flera datorer. En konvertering av koden till ett effektivt och portabelt programspråk ansågs därför nödvändig för att programmet skulle vara praktiskt användbart på framtida databaser och för att möjliggöra integrering av algoritmen med andra verktyg. Matlab-koden konverterades manuellt till C-kod. Utöver själva konverteringen fungerade denna process som en verifiering, avlusning, av koden. Ett mindre antal tekniska fel upptäcktes och kunde rättas. (Detta är givetvis ingen garanti för att alla fel hittades.) Det slutgiltiga programmet var ett text-baserat program. Programmet tog som inparametrar tre filer: 1. en ljudfil i Microsoft RIFF-format, med en kanal (så kallat mono-ljud) och 16 bitars upplösning, 2. en text-fil med segmenteringen, från nalign [27], samt 3. en enkel databas med normfrekvenser för fonem och allofoner. Resultatet skrevs till standard-utenheten, stdout, och kunde enkelt sparas på disk eller, alternativt, ockulärbesiktigas. För att utföra extraktion på hela databasen skapades skript som automatiskt gick igenom samtliga ljudfiler och sparade de extraherade formanterna på disk. Hela extraktionsprocessen tog ett fåtal timmar, vilket var betydligt snabbare än Matlab-versionen. Formantfilerna användes sedan till att bygga upp en ny databas av formanter. 4.4 Lyssningstest Bakgrund och mål Ett lyssningtest arrangerades och genomfördes vid TMH i samarbete med Romain Vinet, vars arbete med konkatenering av tonlösa frikativer, såsom [s] och [f], med regelsyntetiserat tal liksom den datadrivna formantsyntesen hade som mål att höja uppfattningen av naturlighet hos formantsyntetiserat tal [31]. 35

48 Testets mål var att påvisa en förhöjning av uppfattningen av naturlighet hos det syntetiserade talet. Försökspersonerna ombads betygsätta och därmed implicit rangordna fyra varianter av ett och samma uttalande efter naturlighet. Varianterna var: med regeldriven eller datadriven formantsyntes, i kombination med regeldriven eller datadriven frikativsyntes. Testet utfördes i programmet Visor [13], vilket ger försökspersonen en grafisk betygsskala och ett drag-ochsläpp-gränssnitt Testmaterialet Totalt ingick 20 meningar, vilka redovisas i Bilaga B. Tre gånger under testperioden randomiserades ordningen på filerna, för att undertrycka effekter av ordningen. Samtliga ingående meningar innehöll minst en frikativ. Totalt sett innehöll de samtliga rikssvenska vokalallofoner. För att få en trevlig blandning av meningar användes såväl tidningstext och rubriker som ordstäv och lite mer skämtsamma uttryck. Alla formanter till den datadrivna formantsyntesen kom direkt från formantextraktionsverktyget, och ingen manuell korrigering hade skett. Således följde en del missljud med (se Avsnitt 6.4.1). Eftersom missljuden till viss del verkar ligga i felsyntetisering av övergångarna till frikativer väntades frikativkonkateneringen maskera en del av missljuden så att kombinationen av de två synteserna fick högst betyg. Efter skapandet av meningar delades de upp i två grupper: de med och de utan eller med mindre kritiska missljud. (Uppdelningen beskrivs närmare i Avsnitt ) Uppdelningen skedde så att grupperna blev lika stora. På så vis kunde testresultaten användas för att visa både på en förhöjning av uppfattningen av naturlighet då missljud undviks och på en minskning då missljud uppstår Försökspersonerna 15 försökspersoner deltog i testet. Av dem var nio examensarbetare vid TMH och kunde därmed anses vara bekanta med talsyntes. Två av försökspersonerna talade inte svenska alls. Tanken med att ha med dem i testet var att personer som inte förstod kontexten kunde tänkas koncentrera sig på naturligheten i rösten i stället för ordens betydelse. Ytterligare fyra hade inte svenska som modersmål, men de var alla så pass bra på att tala och förstå det att de inte behandlades som särfall. Ingen av försökspersonerna visste i förväg exakt vad de skulle lyssna efter annat är naturlighet vilket får anses vara ett mindre konkret begrepp men några hade en aning om vari en skillnad kunde ligga. De som arbetade på eller hade gått kurser vid TMH kunde dessutom antas ha hört Glove-syntetiseraren med RULSYS-reglerna förut Försöket Försökspersonerna instruerades muntligt om vad de skulle få se och lyssna på, samt hur testprogrammet fungerade. Den första meningen startades gemensamt med försöksledaren för att demonstrera hur programmet och betygsättningen fungerade i praktiken. 36

49 Under testet fick försökspersonerna när som helst ställa frågor. De fick också själva justera volymen i hörlurarna efter behag och hade tillåtelse att ta pauser, vilket en utnyttjade. De valde också själva hur många gånger de lyssnade på ljuden. I genomsnitt lyssnade de 2,5 gånger på varje ljud, men det varierade från 1,2 till 6,0 gånger. Den totala tiden att genomföra hela testet varierade från en kvart till en hel timme Kommentarer Några kommentarer från försökspersonerna under och efter testen var: I långa meningar kanske naturligheten förlorar, eftersom man vill ha mer tydlighet när det är mer information. Dialektskillnad: en röst talar stockholmska. Accentskillnad: en röst talar med amerikansk eller engelsk brytning. Svårt att avgöra vad som är naturligt. Visserligen låter två av dem naturligare, men de har distortioner. De flesta försökspersonerna noterade att ljudexemplen ofta kunde delas upp i två par, vilket motsvarade de två olika formanttyperna. Det visade sig också att några få av försökspersonerna men långt från alla konsekvent bedömde dessa par inbördes lika. Resultaten från testet redovisas i Avsnitt

50 38

51 Kapitel 5 Resultat 5.1 Utvärderingstest I Figur 5.1(a) visas felet i F 1 i difoner extraherade med Waves-algoritmen. Som synes har de flesta difoner relativt litet fel, medan ett fåtal sticker ut. Utstickarna antas vara de difoner där formantextraktionsalgoritmen har hoppat mellan formanter (se Avsnitt 3.1.8). Genom att ta stickprov kunde det bekräftas att så oftast var fallet, och att det till största del handlade om övergångar mellan tonande och icke-tonande fonem, till exempel difonen [v-ê]. I Figur 5.2 återfinns denna difons spektrogram tillsammans med de extraherade formanterna. Difonen motsvarar det största felet i Figur 5.1(a), difon nummer Motsvarande fel vid extraktion av F 1 med den nyutvecklade algoritmen visas i Figur 5.1(b). De felvärden som tidigare stack ut som toppar är nu antingen borta eller kraftigt förminskade. Det är dock noterbart att de små felen har ökat i amplitud. Om detta medför en förbättring eller en försämring framgår dock inte av dessa data. I Figur 5.1(c) visas felet i F 2 i difoner extraherade med Waves-algoritmen. Vid närmare undersökning visade det sig att dessa fel ofta berodde på felextraktion liknande den i Figur 3.8, där en hel formant har missats. Dessa fel har pratiskt taget samtliga eliminerats i den nyutvecklade algoritmen, vars fel i F 2 kan beskådas i Figur 5.1(d). Felet hos F 3 redovisas i Figur 5.1(e) för Waves-algoritmen och i Figur 5.1(f) för den nyutvecklade algoritmen. Dessa fel undersöktes inte närmare, utan antogs bero på samma problem som drabbade F 2. Dessa resultat bekräftar att arbetet har lett till mindre fel även hos F 3. Felet hos F 4 redovisas inte, då det visade sig att F 4 skiljde sig för mycket mellan regelsyntesen och talaren i databasen för att skillnaden skulle kunna avslöja felextraktion. För att få ett kvantitativt mått på hur ofta en algoritm ledde till stora fel vid extraktionen infördes felgränser. Antalet fel som överskred gränsen räknades. Valet av gränser kan förstås te sig arbiträrt, men gjordes för att spegla antalet stora fel. Gränserna valdes olika för de olika formanterna, eftersom storleken på de små felen inte var densamma. Resultaten för två olika gränser redovisas i Tabell 5.1. Notera att felen bara har mätts i den del av respektive difon som har ton. 39

52 x x Fel 6 Fel (a) Felet i F 1 vid extraktion med Wavesalgoritmen. Felen är plottade mot difonnumret i databasen. Difon Difon (b) Felet i F 1 vid extraktion med den nyutvecklade algoritmen. 2.2 x x Fel Fel Difon (c) Felet i F 2 vid extraktion med Wavesalgoritmen Difon (d) Felet i F 2 vid extraktion med den nyutvecklade algoritmen. 2 x x Fel 1 Fel Difon (e) Felet i F 3 vid extraktion med Wavesalgoritmen Difon (f) Felet i F 3 vid extraktion med den nyutvecklade algoritmen. Figur 5.1: Felen i F 1, F 2 och F 3. 40

53 500 Hz time Figur 5.2: Fel vid övergången från [v] till [Ê]. Formanterna har extraherats med Waves-algoritmen. (a) Höga gränser. Formant Gräns Waves Öhlin F F F Summa 79 1 (b) Låga gränser. Formant Gräns Waves Öhlin F F F Summa Tabell 5.1: Antalet fel i respektive formant som överstiger det angivna gränsvärdet. De data som använts i denna jämförelse är desamma som i Figur 5.1. Waves står för Waves-algoritmen och Öhlin står för den i detta arbete utvecklade algoritmen. 5.2 Lyssningstest Lyssningstestets mål var, som nämnts i Avsnitt 4.4, att påvisa en förhöjning av naturligheten i syntetiserat tal då de två datadrivna metoderna användes, dels var för sig, dels tillsammans Modeller och definitioner I lyssningstestet ingick ett antal deltest. Ett deltest räknas som betygsättningen av de fyra syntetiseringarna av en mening, av en försöksperson. I testet ingick N = 15 försökspersoner och M = 20 meningar. Detta ger N M = = 300 deltest. Utfallen av deltesten var betygen, som gavs på en grafisk skala med värden från 0 till Notera att siffervärdena visserligen var dolda för försökspersonerna vid testet, men att de förhöll sig linjärt till skärmen. För att kunna använda resultaten måste en modell över dem ställas upp. En enkel modell av betygen är att dessa är utfall av fyra stokastiska variabler X i motsvarande de fyra olika syntetiseringarna med olika väntevärden och varianser: E[X i ] = m i (5.1) V [X i ] = σ i 2. (5.2) (Hur väl modellen speglar verkligheten diskuteras i Avsnitt ) Förhoppningen är att väntevärdet för de datadrivna synteserna och kombinationen av 41

54 dem ska vara högre än väntevärdet för regelsyntesen. Varken väntevärdet eller variansen är dock tillgängliga, utan måste estimeras utifrån mätvärdena x i (j) enligt: m i x i = σ i 2 2 s i = j<nm 1 x i (j) (5.3) NM j=0 j<nm 1 (x i (j) x i ) 2. (5.4) NM 1 j=0 Dessa skattningar av de riktiga vänte- och variansvärdena blir såklart mer korrekta ju fler mätningar (delprov) som gjorts, men kommer alltid att vara belagda med fel. För att ta reda på om skillnaden mellan två skattade väntevärden är signifikant (statistiskt säkerställd) måste felen i skattningarna vara kända. Det är de naturligtvis inte, men även de kan skattas. Med hjälp av normalapproximation beräknas variansen hos skattningen av väntevärdet som: d i 2 = s i 2 NM. (5.5) Slutligen, för att undersöka om skillnaden mellan två skattade väntevärden, x i,k, är signifikant eller ej beräknas det gemensamma felet d i,k : x i,k = x i x k (5.6) d i,k 2 = s i 2 + s k 2 NM, (5.7) vilket ger att skillnaden är signifikant med signifikansnivån α om x i,k t α d i,k. (5.8) För α = 5 % är t α = 1,64 och för α = 1 % är t α = 2,33 [2]. Ju lägre α som kan användas, desto mer sannolikt är det att m i och m k skiljer sig åt. Notera att dessa beräkningar är utformade så att de kan bekräfta att tecknet på differensen mellan två skattade väntevärden, sign( x i,k ), är tillförlitligt, det vill säga, att en positiv skillnad verkligen är positiv. I princip är detta en hypotesprövning, där hypotesen är att tecknet på m i m k är motsatt det hos x i x k. Om Ekvation 5.8 är uppfylld så förkastas hypotesen Behandling och gruppering av data En brist i testet, som visade sig vid undersökning av resultaten, var försökspersonernas varierande syn på graderingen. Medan vissa använde hela betygsskalan satte andra ljuden konsekvent inom % från varandra. Vid behandlingen av resultaten prövades att kompensera för detta genom att sträcka betygsättningen inom varje deltest så att hela skalan användes, så kallad normalisering av mätvärdena. Genom att behandla resultaten sålunda ignoreras både den absoluta betygsskalan och den relativa betygsskillanden mellan meningarna. En variant av normalisering är att helt ignorera betygen och bara använda information om den inbördes placeringen, som om försökspersonerna hade ombetts rangordna syntetiseringarna. Skalan går då från 1 till 4, där 4 är den bästa placeringen. 42

55 Syntesmetod Medelvärde Standardavvikelse Regelsyntes Datadriven formantsyntes Datadriven frikativsyntes Kombinerad syntes Tabell 5.2: Genomsnittsbetygen för de fyra syntesmetoderna. Kombinerad syntes avser kombinationen av de två datadrivna syntesmetoderna. Syntesmetod Medelvärde Standardavvikelse Regelsyntes Datadriven formantsyntes Datadriven frikativsyntes Kombinerad syntes Tabell 5.3: Genomsnittsbetygen för de fyra syntesmetoderna vid normalisering av betygen. Som nämnts i Avsnitt var meningar indelade i två grupper: de med och de utan (större) missljud från den datadrivna formantsyntesen. Denna indelning var givetvis dold för försökspersonerna. En annan indelning av meningarna var i dem som kom tidigt respektive sent i testet. Frågan här var om försökspersonerna vande sig vid den datadrivna formantsyntesen, blev mer förlåtande mot felen och gav den allt bättre betyg mot slutet av testet. För få försökspersoner ingick i testet för att några slutsatser ska kunna dras på grundval av deras svenskkunskaper och modersmål. Därför redovisas heller inga resultat från försök med kategorisk indelning av försökspersonerna. Resultaten från dessa efterbehandlingar och grupperingar redovisas var för sig Resultat för samtliga meningar Genomsnittsbetygen för de fyra syntesmetoderna återfinns i Tabell 5.2. Alla försökspersoner och alla meningar är inkluderade, och ingen kompensation har introducerats. Skillnaden mellan regelsyntesen och den datadrivna syntesen är negativ, men inte signifikant; för en 5-procentig signifikansnivå krävs att skillnaden är större än 27,5. Enligt lyssningstestet uppfattas alltså den datadrivna formantsyntesen inte som mer naturlig än traditionell regelsyntes. När den datadrivna formantsyntesen kompletterades med datadriven frikativsyntes blev resultaten tydligare och positiva. Skillnaden i betyg mellan den datadrivna frikativsyntesen och kombinationen av de två synteserna är signifikant med signifikansnivån 5 %. Med andra ord är datadriven formantsyntes mer naturlig än traditionell regelsyntes då frikativsyntesen är datadriven. Motsvarande genomsnittsbetyg då resultaten har normaliserats återfinns i Tabell 5.3. Ändringarna i signifikans är små, men mellan den datadrivna frikativsyntesen och kombinationen av de två synteserna uppfyller den en signifikansnivå på 1 %. Resultaten då all information om betygsättningen ignoreras och bara placeringen används ges i Tabell 5.4. Skillnaden i placering mellan regelsyntesen och den datadrivna formantsyntesen är positiv och signifikant med signifikansnivån 43

56 Syntesmetod Medelvärde Standardavvikelse Regelsyntes 2,09 0,94 Datadriven formantsyntes 2,45 1,17 Datadriven frikativsyntes 2,44 1,11 Kombinerad syntes 3,02 1,04 Tabell 5.4: Genomsnittsplaceringen för de fyra syntesmetoderna. Syntesmetod Medelvärde Standardavvikelse Regelsyntes Datadriven formantsyntes Datadriven frikativsyntes Kombinerad syntes Tabell 5.5: Genomsnittsbetygen för de fyra syntesmetoderna då endast de meningar utan missljud inkluderas. 1 %, och så är även skillnaden mellan den datadrivna frikativsyntesen och kombinationen av de två synteserna. Således fick den datadrivna formantsyntesen i genomsnitt bättre placering än regelsyntesen Resultat för delmängder av meningarna Genomsnittsbetygen för de fyra syntesmetoderna då endast de meningar som inte gav upphov till missljud vid den datadrivna formantsyntesen används återfinns i Tabell 5.5. Alla försökspersoner är inkluderade. Skillnaden mellan regelsyntesen och den datadrivna formantsyntesen är positiv och signifikant med signifikansnivån 1 %. Detsamma gäller då datadriven frikativsyntes har kombinerats med det två. I Tabell 5.6 är genomsnittsbetygen då endast de meningar som gav upphov till missljud vid den datadrivna formantsyntesen togs med återgivna. Den datadrivna formantsyntesen har fått ett signifikant lägre genomsnittsbetyg än alla de andra syntesmetoderna. Genomsnittsbetyget för kombinationen av de två datadrivna metoderna är inte signifikant sämre än det för endast den datadrivna frikativsyntesen. Noterbart är dessutom att skillnaden mellan genomsnittsbetyget för regelsyntesen och den datadrivna frikativsyntesen inte är signifikant för dessa meningar. Vad detta skulle kunna betyda diskuteras i Avsnitt En viss skillnad mellan de första tio meningarna som försökspersonerna fick betygsätta och de sista tio kunde noteras. I Tabell 5.7 finns genomsnittsbetygen för de första och i Tabell 5.8 finns motsvarande betyg för de sista meningarna. Syntesmetod Medelvärde Standardavvikelse Regelsyntes Datadriven formantsyntes Datadriven frikativsyntes Kombinerad syntes Tabell 5.6: Genomsnittsbetygen för de fyra syntesmetoderna då endast de meningar med missljud inkluderas. 44

57 Syntesmetod Medelvärde Standardavvikelse Regelsyntes Datadriven formantsyntes Datadriven frikativsyntes Kombinerad syntes Tabell 5.7: Genomsnittsbetygen för de fyra syntesmetoderna då endast de tio första meningarna som försökspersonerna fick höra inkluderas. Syntesmetod Medelvärde Standardavvikelse Regelsyntes Datadriven formantsyntes Datadriven frikativsyntes Kombinerad syntes Tabell 5.8: Genomsnittsbetygen för de fyra syntesmetoderna då endast de tio sista meningarna som försökspersonerna fick höra inkluderas. Skillnaden i betygen mellan regelsyntesen och den datadrivna formantsyntesen är inte signifikant, och det är heller inte ändringen av skillnaden i betyg mellan de tio första och de tio sista meningarna, men den är ändå så stor att man kan misstänka att det föreligger en skillnad. Om denna skillnad är sann skulle det kunna innebära att den datadrivna formantsyntesen får bättre betyg efter invänjning. 45

58 46

59 Kapitel 6 Sammanfattning och diskussion I detta kapitel sammanfattas och diskuteras examensarbetets olika delar. Förslag på tänkbara, framtida förbättringar av såväl formantextraktion som datadriven formantsyntes ges. 6.1 Examensarbetets mål Examensarbetets mål är definierade i Avsnitt I arbetet har Waves-algoritmen jämförts med en modifierad version av densamma. Trots att bara två algoritmer har jämförts måste det första målet, att ta fram och jämföra algoritmer för automatisk formantextraktion, anses vara nått. En databas har också byggs av formanter som har extraherats med den nyutvecklade algoritmen, och den har använts i ett lyssningstest; därmed är även det andra målet nått. 6.2 Lyssningstestet Resultat Resultaten från Tabell 5.2 medger att det finns problem vid datadriven formantsyntes, som gör att den inte uppfattas som mer naturlig än den traditionella regelsyntesen i genomsnitt kanske till och mindre naturlig. Detta går stick i stäv mot tidigare, liknande undersökningar [24]. Skillnaden är dock att databasen här inte har rättats eller skapats för hand, utan har byggts med helt automatiska metoder. Det råder således knappast något tvivel om att felen främst ligger i databasen och i formantextraktionen. De missljud som dyker upp vid datadriven formantsyntes med en databas byggd av de formanter som har extraherats med den nyutvecklade algoritmen diskuteras i Avsnitt De positiva resultaten från lyssningstestet är dock att då dessa missljud undviks så uppfattas den datadrivna formantsyntesen som betydligt mer naturlig än den regeldrivna (se Tabell 5.5). I synnerhet verkar det som att syntes av gränser mellan tonande och tonlösa segment blir felaktig, vilket 47

60 med stor sannolikhet beror på att extraktion av formanter ur tonlösa segment är svårt (se vidare Avsnitt 6.3.1). Det skulle kunna förklara varför meningar med missljud gynnas av den datadrivna frikativsyntesen. De konkatenerade ljuden, som ju är inspelade, maskerar helt enkelt de felaktigt syntetiserade övergångarna till de tonlösa frikativerna. Resultaten från Tabell 5.7 och Tabell 5.8 visar på en tendens som visserligen inte är signifikant, men ändå stor nog att vara intressant att den datadrivna formantsyntesen får högre betyg relativt regelsyntesen, ju längre in i testet man kommer. Denna slutsats ska självklart bemötas med viss skepsis; risken finns att fenomenet snarare beror på att försökspersonerna efter ett tag insåg vilka syntetiseringar de förväntades ge högt betyg åt, eller att sättet på vilket de använder skalan ändras med tiden. Om det trots allt skulle handla om vana skulle det dock förklara varför de som arbetar med den datadrivna formantsyntesen lätt blir blinda för missljuden Modell I modellen över de mätvärden som fås från lyssningtestet antas att alla mätvärden är utfall av samma stokastiska variabel. Frågan är hur bra denna modell stämmer överens med verkligheten och om en bättre modell skulle ge väsentligt annorlunda resultat. En mer verklighetstrogen modell måste ta fasta på att de olika meningarna uppfattas som olika naturliga. Det skulle betyda att det finns en stokastisk variabel för varje mening och syntetiseringsmetod, med ett utfall per försöksperson. Enligt centrala gränsvärdessatsen närmar sig dock summan av ett antal stokastiska variabler en normalfördelning [2]. Eftersom väntevärdet beräknas som medelvärdet, som ju är en summa av alla utfall, kan det antas vara korrekt att förbise denna dimension av problemet och anta att en normalapproximation ger tillräckligt hög noggrannhet. Kanske svårare att motivera är att detta även gäller för variansen försökspersonerna emellan, men det är ändå en förenkling som görs Behanding av mätdata De syntetiserade meningarna delades upp i två grupper baserat på hur mycket missljud som följde med. Vad missljuden bestod av och vad de var uppbyggda av diskuteras i Avsnitt Uppdelningen gjordes efter att meningarna hade syntetiserats. Med andra ord skapades meningarna inte speciellt för att introducera ett visst antal missljud. En uppdelning mellan meningar med respektive utan större missljud lämnar därför utrymme för ett visst godtycke. Ett mer genomtänkt val av meningar skulle troligen bättre kunna visa på brister och kvaliteter hos datadriven formantsyntes. Försökspersonerna ombads betygsätta de fyra syntetiseringarna, men dessa betyg ignorerades delvis då normalisering introducerades, och helt då endast placeringen användes. Dessa steg var dock nödvändiga för att kompensera för försökspersonernas individuella syn på betygsskalan så att de alla spelade lika stor roll för resultatet. I diskuteras vad denna varians i utnyttjandet av skalan kan tänkas bero på. För ordnings skull redovisas resultaten i såväl ickenormaliserad som normaliserad form. 48

61 6.2.4 Problem med testet Då de meningar som ingick i lyssningstestet syntetiserades rådde det inget tvivel om att såväl datadriven formant- som frikativsyntes gav betydligt naturligare tal än regelsyntes. När meningarna spelades upp på testdatorn var dock effekten av den datadrivna frikativsyntesen dämpad, även efter att ett externt ljudkort kopplats in. Testet genomfördes ändå, och resultaten antyder att det inte var så stor skillnad som först hade fruktats. Före testet fick varje försöksperson instruktioner om hur betygsättningen gick till och hur skalan skulle tolkas. Det poängterades att det relativa avståndet mellan syntetiseringarna var det viktiga, och om två syntetiseringar lät likadant så var det fritt fram att ge dem samma betyg. Ändå använde några av försökspersonerna bara en bråkdel av skalan, medan andra helt uppenbart koncentrerade sig på att rangordna syntetiseringarna utan någon hänsyn till det relativa avståndet. Detta kan tyda på att informationen var bristfällig. Det är inte ovanligt att, i dylika test försökspersonerna explicit ombeds utnyttja hela betygsskalan. Dessutom borde all information ha funnits tillgänglig i skrift, för att försäkra att samtliga försökspersoner hade tillgång till den. För de meningar som hade missljud, alltså fel till följd av den datadrivna formantsyntesen, fick, i genomsnitt, även frikativsyntesen sämre betyg; visserligen något bättre än regelsyntesen, men inte signifikant. Vad det beror på är mycket svårt att säga, men det skulle kunna betyda att det är något fel i just de meningarna. Kanske beror det på något slags kontamineringseffekt, där alla betyg sänks om en syntetisering låter dåligt. Försökspersonerna var samtliga antingen studenter eller anställda vid KTH. Om dessa representerade målgruppen för talsyntes med datadriven formantsyntes kan förstås diskuteras och ifrågasättas, men valet av försökspersoner gör heller inga anspråk på att vara helt slumpmässigt. 6.3 Formantextraktion Problem och brister Lee et al. [19] noterade, vid extraktion ur en australiensisk databas, att det uppstod vissa problem vid koartikulation. Vid stark koartikulation mellan två fonem kan vissa av formanterna ändras redan i början av det första fonemet, för att anpassa sig till formanterna i det andra. Detta problem verkar dock inte vara lika närvarande i det svenska språket, och tas antagligen delvis om hand genom att allofoner används i kostnadsfunktionen. I gränserna mellan fonem växlar normvärdena för formanterna snabbt. Detta påverkar kostnadsfunktionen så att formantkandidaternas sannolikhet ändras. Om fonemgränserna inte är exakta vilket de sällan är, oavsett hur bra segmenteringen är kan detta leda till att fel formantkandidater väljs, och att det uppstår formanthopp. Lee et al. [19] löste detta med hjälp av en viktfunktion, som genom att minska frekvensändringskostnaden nära fonemgränser kunde tillåta större förändringar i formantfrekvenserna där. En annan, kanske mer intressant, metod vore att använda normfrekveser som på något vis är interpolerade mellan normfrekvenserna i respektive fonem. Formantextraktionsalgoritmen fungerar i sin nuvarande form i princip o- klanderligt i vokaler, men i vissa konsonanter ger den ifrån sig orimliga värden. 49

62 Hz time (a) Formanter extraherade med Waves-algoritmen. Notera i synnerhet frekvenshoppen som sker i F 3 och F 4 vid t = 0,59 och i F 1 och F 2 vid t = 0,63. Hz time (b) Formanter extraherade med den nyutvecklade algoritmen. Notera att formanthoppet i F 3 vid t = 0,61 varken påverkar F 2 eller F 4. Figur 6.1: Jämförelse mellan Waves-algoritmen och den nyutvecklade algoritmen ( Öhlin ), för difonen [v-ê]. Detta beror på att formanter inte går att finna på samma sätt i dem framför allt inte i frikativerna [f] och [s], eftersom ljudkällan inte sitter vid stämläpparna. Det är därför inte helt rätt att tala om formanter i dessa fonem. Vid syntesen används heller inte formantfiltren för att generera dem, vilket betyder att det inte påverkar syntesen vilka värden de extraherade formanterna har. Problem uppstår dock vid gränserna till och från sådana fonem. I Figur 6.1 visas övergången från [v], som är tonande, till den tonlösa frikativen [Ê] (som i avsked ), extraherad med dels Waves-algoritmen, dels den nyutvecklade algoritmen. Redan millisekunder innan tonen i [v] försvinner är F 3 och F 4 så svaga att Waves-algoritmen låter dem anta felaktiga värden. Den nyutvecklade algoritmen, däremot, följer formanterna så länge som de är synliga för blotta ögat, och låter sedan inte F 3 knuffa bort F 4, utan väljer en annan väg. Problemet är inte helt löst, men effekterna är betydligt mindre. 50

63 6.3.2 Implementationsförbättringar Implementationen av den nyutvecklade formantextraktionsalgoritmen saknar ett antal komponenter från Waves-algoritmen, som skulle kunna både förbättra formantextraktionen och reducera beräkningsåtgången. Bland annat saknas en lösning för vad som händer då det finns färre formantkandidater än formanter. Waves-algoritmen löser detta genom att i sådana nödfall tilldela en formant normfrekvensen, alternativt tilldela två formanter samma frekvens. I allmänhet är brist på formantkandidater inget problem vid extraktion från inspelat tal, eftersom det alltid finns bakgrundsbrus som ger en prediktionsmodell med ett antal formantkadidater (som förstås är nonsens), och i synnerhet inte vid extraktion från difoner, då formanterna får anses vara så pass tydliga att de alltid framträder som resonanser i prediktionsmodellen. Men i vissa fall uppstår ändå sådana situationer, där rimliga formantkandidater saknas. Att då (tillfälligt) tilldela en formant dess normvärde eller ännu hellre: ett värde som är interpolerat mellan två omgivande extraherade värden i stället för ett uppmätt värde skulle då kunna förhindra en situation med frekvenshopp och orimliga formantvärden. En stor beräkningsbesparing skulle kunna genomföras genom att över huvud taget inte beakta formantkandidater som ligger utanför ett visst område. Denna sållning görs i Waves-algoritmen (se Avsnitt 3.1.4), men inte i den nyutvecklade algoritmen. Inga numeriska problem har påträffats, men det finns några ställen där det potentiellt skulle kunna bli problem. Främst gäller detta den ackumulerade kostnaden (vid sökningen genom trellisen), som snabbt växer och blir stor. Men den ackumulerade kostnadens absoluta värde är i sig ointressant; det är den relativa kostanden de olika sökvägarna emellan som avgör vilken väg som till slut väljs. Därför skulle en normalisering av kostnaden kunna ge högre precision och se till att numeriska problem undviks. Normalisering i detta fall betyder att något värde dras av från alla de ackumulerade kostnaderna, till exempel det lägsta av dem. På så sätt håller sig kostnaderna små Modellförbättringar Detta avsnitt beskriver några förslag på framtida förbättringar av formantextraktion. DOMIN-modellen, som beskrivs i Avsnitt 3.3, skulle kunna användas för att öka precisionen i formantextraktionen. Några mer ingående försök att implementera DOMIN-modellen gjordes visserligen inte i detta arbete, men modellen ger i allmänhet en bild av ljudet som mer liknar den information som hörselsinnet tar emot, än vad ett vanligt spektrum och LPC-modellen ger. Förhoppningen är därför att den skulle kunna ge stabilare och mer noggrann information. En mer omfattande plan för hur formantextraktionen kan göras mer stabil är att bygga och använda regler och modeller för att predicera och estimera formantrörelser, i synnerhet för de fall då rimliga formantkandidater saknas. Reglerna skulle kunna skräddarsys för olika fonemgrupper, så att övergångarna mellan tonande och icke-tonande ljud inte leder till fel liknande dem i Figur 6.1(a). En sådan regel skulle i det fallet kunna säga att F 3 typiskt fortsätter oförändrad in i det efterföljande fonemet. Ett frekvenshopp skulle då inte kunna 51

64 Hz time Figur 6.2: Fel vid syntes av gofe [guf E] (ur tjugofem ). inträffa. När regler används så måste en viss avvägning mellan modellen och de tillgängliga data göras. Samtidigt som fel vid extraktionen undviks försvinner en del av den detaljrikedom som datadriven formantsyntes är menat att dra nytta av. Någon fullständig beskrivning av hur detta regel- och modell-system ska utformas och realiseras framförs inte i denna rapport. 6.4 Datadriven formantsyntes Problem Det kanske största problemet med den datadrivna formantsyntesen är de missljud som uppstår ibland. (Dessa missljud kallas kritiska, om de uppfattas som mycket störande av lyssnaren.) Det finns ett antal skäl till varför de uppstår, men i allmänhet handlar det om fel i databasen. De tydligaste och antagligen vanligaste fallen av missljud är då formanterna rör sig snabbare än vad som är (eller uppfattas som) naturligt. Det beror på att formanthopp har följt med extraktionen. Även ganska små hopp kan leda till missljud. För att undvika sådana fel måste formantextraktionen bli ännu mer stabil. Figur 6.2 visar en bit ur ett syntetiserat uttalande, gofe ur tjugofem. I slutet av o:et hoppar andraformanten iväg, vilket leder till ett missljud. Detta beror dock bara indirekt på fel vid extraktionen. Det avgörande felet ligger i segmenteringen av difonen [U-f]: gränsen mellan de två fonemen har satts för sent i ljudet. Den datadrivna formantsyntesen har därefter överfört formanterna från difonen, men eftersom en bit av f:et har inkluderats i o:et har formanter från f:et 1 också applicerats på det som i syntesen är ett o. Detta exempel visar att noggrannheten i segmenteringen gör skillnad, och att felaktig segmentering kan leda till missljud. Det är även ett argument för att 1 Notera att dessa formantvärden inte är egentliga formanter, se Avsnitt

Visa mer