HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius



Relevanta dokument
Grafisk visualisering av en spårbarhetslösning

Undervisningsmål Svenska Årskurs 1-5. Läsa

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Administrationsverktyg för marinvåg

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen

Appendix 4. Ordförklaringar och korta beskrivningar av test och skalor

5. Nytta av hörapparat

Lokala kursplaner i engelska reviderad 2005 Lokala mål Arbetssätt Underlag för bedömning

Anvisningar för utformning av sammandrag som mognadsprov

Enhetlig utformning av lägenhetsnummer

RAPPORT: ATT UPPLEVA EN UTSTÄLLNING HELT I LJUD. FÖR UTSTÄLLNINGEN VÄRDEFULLT. BAKGRUND..s 2 METOD...s 2 RESULTAT...s 3 9 ANALYS AV WORKSHOP...

ÖVNINGSUPPGIFTER KAPITEL 9

Matris för engelska, åk 7-9

Rapport från Läkemedelsverket

Digital Display VDS / Bus2

Utvärdering av försöket med frivilliga drogtester i Landskrona kommun

LäsFlyt Metodhandledning

Att skriva Hur utformar man en Social berättelse? Lathund för hur en Social berättelse kan skrivas

MODERSMÅL 3.7 MODERSMÅL

1. GRUNDLÄGGANDE SAMBAND

Kvalitetsanalys för Leklabbet läsåret 2013/14

Övergången från vård till vuxenliv. Vad vet vi och vad behöver vi veta?

BARNS SPRÅKUTVECKLING


Artiklar via UB:s sö ktja nst

Styrdokumentkompendium

Handledning Sfi i Hjo «Vi lär oss svenska tillsammans»

SLALOMINGÅNGAR hur svårt kan det vara?

LÄSLANDET - BOKSTÄVER OCH ORD

MODERSMÅL FINSKA 1. Syfte

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Lärande & utveckling. En kvalitetsanalys inom det systematiska kvalitetsarbetet Läsåret 2014/2015 Solbringen Barn- och utbildningsförvaltningen

ViTex snabbguide. 1. Inläsning till ViTex från scanner eller PDF Läs in text via scanner Läs in text från en JPEG-bild eller ett PDF-dokument

Word- sense disambiguation

(Termen grammatiskt läsande och skrivande kommer från det antika Grekland - grammatisk kunskap: förmågan att hantera bokstäverna)

Praktikrapport - Socialdemokraterna i Stockholms län

Test av kranspetsvågar i virkesfordon

Concept Selection Chaper 7

ett projekt om barns och ungas rättigheter En första utvärdering - vad säger eleverna och lärarna?

UTVÄRDERING AV KOMPETENSHÖJNING I UTTALSPROJEKTET

Rollspelsregler SweMUN 2015

Handbok Artikulate. Andreas Cord-Landwehr Ondrila Gupta Översättare: Stefan Asserhäll

Ämnesplan i Engelska

Proloquo4Text Skriv. Tala. Kommunicera.

19. Skriva ut statistik

Instruktioner för beställningar och kontoadministration för abonnenter av inlästa läromedel

75059 Stort sorteringsset

Working Paper Series

Senaste revideringen av kapitlet gjordes , efter att ett fel upptäckts.

Studieplan och bedömningsgrunder i Engelska för åk 7

WordRead Plus för Mac

Historia Årskurs 9 Vårterminen 2014

ClaroRead Plus Mac Manual. Artikel.nr

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

SVENSKA 3.17 SVENSKA

INFÖR ANSÖKAN OM MUNTLIGT PROV ELLER FÖRLÄNGD PROVTID VID KUNSKAPSPROV HUR UNDERLÄTTAR VI PÅ TRAFIKVERKET FÖR DIG MED LÄSSVÅRIGHETER?

Brukarundersökning av socialnämndens mål 2009

Förberedelser: Sätt upp konerna i stigande ordningsföljd (första inlärningen) eller i blandad ordningsföljd (för de elever som kommit längre).

Projektrapport - Live commentary

ANVÄNDARMANUAL. handdatorer i ängs- och betesmarksinventeringen. för

KUNSKAPSKRAV I ÄMNET MODERNA SPRÅK

Får vi vara trygga? Praktiknära forskning inom ämnet idrott och hälsa Rapport nr. 5:2009

Rapport från Praktik på SVOX AG till

För att använda sifferkrypto använder man en rektangel om 5 gånger 6 bokstäver.

Transkription och direktglossning av dialektinspelningar i SveDiaSyn

725G61 - Laboration 7 Implementation av ett API. Johan Falkenjack

K3 Om andra ordningens predikatlogik

Trumfkorten 100-programmets lärostig

Barn- och ungdomspsykiatri

Betatestning - Solsystem

Följa upp, utvärdera och förbättra

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Användarmanual CallPad och VoicePad

Sagor och berättelser

SCB:s Demokratidatabas Beskrivning av Demokratidatabasens innehåll och utveckling

1 Skapa Tabell Skapa Relationer Redigera Relationer Redigera Fält i Tabell Lägga till Poster i Tabell...

Sammanställning av uppgifter från lärarenkät vid kursprov i svenska 1 och svenska som andraspråk 1, VT 2014

diskriminering av invandrare?

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

För dig som är intygsgivare

VÄRDEGRUNDSENKÄT IFO, BENGTSFORS KOMMUN En värdegrundsenkät som avser insatser inom Individ- och

Medelpensioneringsålder

Sprog i Norden. Titel: Internordisk kommunikation kurs i skandinaviska vid Islands universitet. våren Forfatter: Elisabeth Alm.

STUDIETEKNIK. Till eleven

Ämnesprovet i matematik i årskurs 9, 2014 Margareta Enoksson PRIM-gruppen

Öga för öga, Tand för tand

Sammanställning av studentenkät arbetsterapeuter 2009

KOMMUNALT AKTIVITETSMEDLEMSBIDRAG

Mera ORD! Handledning. till 15 spel med 41varianter ISBN:

Fritidshus som tagits i anspråk för permanent boende mellan 1991 och En metodstudie

Kurslitteratur Taltranskription: Introduktion

Inventering av registrerade föreningar. Fritidsförvaltning

ÄMNESPLANENS STRUKTUR. Syfte Centralt innehåll Kunskapskrav. Mål KUNSKAPSKRAV

Lägga till olika dokument i en fil

Antagning till högre utbildning höstterminen 2016

Lönediskriminering praxis bland män?

En handledning för studerande på Högskolan Kristianstad

Ett test med en svensk rutgängare

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Sinnena den mänskliga hårdvaran

Transkript:

HörStöd Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal Mikael Salin Handledare: Mats Blomberg och Kjell Elenius Godkänt den... Examinator:... Mats Blomberg Examensarbete i Talteknologi Master of Science Thesis in Speech Technology KTH - Skolan för Datavetenskap och kommunikation Avdelningen för Tal, musik och hörsel 100 44 Stockholm TT Centrum för talteknologi

Examensarbete i Talteknologi HörStöd - Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal Mikael Salin Examinator Mats Blomberg Handledare Mats Blomberg, Kjell Elenius Sammanfattning Många personer med hörselnedsättning kan använda en vanlig telefon, och föredrar detta framför texttelefon. För det mesta fungerar det bra, men i vissa situationer kan det vara svårt att uppfatta vad den andra parten säger, t.ex. när man byter samtalsämne, när det gäller att uppfatta namn, siffror eller annat där man inte har stöd av sammanhanget. En tänkbar lösning på detta problem är att skapa ett hörstödsystem, med en hos användaren placerad utrustning, som kan kopplas till telefonen. I examensarbetet har ett taligenkänningssystem anpassats och undersökts beträffande förutsättningar att utgöra ett sådant hjälpmedel för hörselskadade. Två metoder har undersökts: fonemigenkänning och igenkänning av stavade ord och meningar. Experiment utfördes med 3 hörselskadade och 10 normalhörande försökspersoner som fick lyssna på naturligt respektive distorderat tal. Resultaten visar att båda igenkänningsmetoderna är användbara för att förbättra tolkningen av ett yttrande. Den genomsnittliga relativa förbättringen av fonemigenkänning var 205% för orden och 130% för meningarna jämfört med enbart lyssning. Stavningsigenkännaren uppnådde 81.6% korrekt bokstavsigenkänning, vilket bedöms som tillräckligt hög precision för att användarens tolkning skall fungera med god säkerhet.

Master of Science Thesis in Speech Technology HörStöd Speech recognition as an aid for hearing impaired in telephone conversation Mikael Salin (Examiner Mats Blomberg Supervisor Mats Blomberg, Kjell Elenius Abstract Many people with hearing impairment can use an ordinary telephone and prefer this instead of a text telephone. In most situations, this works well, but sometimes it can be difficult to understand what the other person is saying. A possible solution is to create a hearing support system, connected to the telephone and which helps the user to interpret the speech signal. In this thesis a recognition system has been designed and investigated regarding possible use for hearing impaired persons. Two techniques have been studied: phoneme and spelling recognition. Experiments have been performed with 3 hearing impaired and 10 normal hearing subjects who listened to natural and distorted speech, respectively. The results show that both approaches can be used to improve the interpretation of an utterance. The average relative improvement from phoneme recognition was 205% for words and 130% for sentences compared to only listening. The spelling recognizer reached 81.6% letter accuracy, which is judged sufficient to give high correct utterance understanding for the user.

Innehållsförteckning 1 Inledning 1.1 Bakgrund 1.2 Rapportens struktur 2 Grundläggande begrepp 2.1 Fonem 2.2 Automatisk igenkänning av tal 2.3 Hidden Markov Models 2.4 Tränings- och testmaterial 3 DEL 1 Fonemigenkänning 3.1 Exempel på fonemsträngar 3.2 Försök 3.3 Resultat 3.4 Kommentarer 4 DEL 2 Stavningsigenkänning 4.1 Talmaterial 4.2 Igenkänningsförsök 4.3 Prestanda mätning 4.4 Kommentarer 4.5 Förbättringar 5 Slutsats 6 Referenser A B C Viterbi igenkänning Bokstaveringsnamn Fonemtabell

Förord Det här examensarbetet utfördes vid institutionen för Tal, musik och hörsel (TMH) vid Kungliga Tekniska Högskolan (KTH) i Stockholm, under juni 1999 januari 2000. Handledare för arbetet var tekn.dr Mats Blomberg och tekn.dr Kjell Elenius. Projektet utförs på uppdrag av Polycom Technologies AB och är ett projekt inom Centrum för talteknologi (CTT). Jag vill speciellt tacka; Giampiero Salvi för kontinuerlig hjälp och assistans under arbetets gång, Eva Agelfors för framtagning av försökspersoner och hjälp vid testning, Johan Lindberg och Håkan Melin för hjälp med datorfrågor och talteknologiska problem, samt alla frivilliga försökspersoner.

1 INLEDNING 1.1 Bakgrund Projektet HörStöd initierades då det visat sig finnas en efterfrågan på ett visuellt stöd vid telefonering. Många personer med hörselnedsättning kan använda en vanlig telefon, och föredrar detta framför texttelefon. För det mesta fungerar det bra, men i vissa situationer kan det vara svårt att uppfatta vad den andra parten säger, t.ex. när man byter samtalsämne, när det gäller att uppfatta namn, siffror eller annat där man inte har stöd av sammanhanget. Det har i olika sammanhang diskuterats möjligheter att förbättra uppfattbarheten genom att ge mottagaren ytterligare information som kan underlätta tolkningen av vad som sägs. Den bästa lösningen är om endast den hörselskadade behövde speciell utrustning. En tänkbar lösning är att skapa ett hörstödsystem, med en hos användaren placerad utrustning, som kan kopplas till telefonen. HörStöd-projektet vid CTT är uppdelat i olika delprojekt. Tiden för projektet är beräknat till två år. Bestämda delmål är uppsatta för varje projektfas. Syftet med projektets första fas är att undersöka eventuella fördelar med att använda taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal med normalhörande. Arbetet är utformat som ett examensarbete vid institutionen Tal, musik och hörsel, KTH, och är ett projekt inom Centrum för talteknologi, CTT. Polycom Technologies AB är finansiär och Hjälpmedelsinstitutet är intressent. Arbetet är uppdelat i två delar, fonemigenkänning och stavningsigenkänning. Med stavning menas även bokstavering. De två skilda delarna ska enskilt ge resultat som visar om det är användbart att använda fonemstöd eller stavningsstöd vid telefonering. Fullständig tal-till-text-omvandling av godtycklig talare med obegränsad vokabulär anses ge långt ifrån tillräckligt hög precision för att förbättra förståelsen. 1.2 Rapportens struktur Först beskrivs för detta arbete grundläggande begrepp som talteknologiska termer, automatisk taligenkänning och SpeechDatprojektet. Därefter följer en beskrivning av utförandet av de två delmomenten. Resultat och tolkning av dessa följer efter varje moment. Den mer ingående tekniska beskrivningen kommer som appendix sist i rapporten.

2 GRUNDLÄGGANDE BEGREPP 2.1 Fonem ett talljud Ett fonem är en representant för en speciell typ av ljud, t.ex. a-fonem, i- fonem etc. Ljud i svenskan kan delas upp i 44 fonem. Av dessa är 22 vokaler och 22 konsonanter. Vokalerna i det svenska skriftspråket består av nio långa och nio korta vokalfonem, nämligen kort och långt a, o, u, å, e, i, y, ä respektive ö. Fonemen är invarianta, men realiseras med olika uttal, dialekt etc. De skrivs med fonematisk transkription (Elert, 1966). En svårighet med taligenkänning är att det finns inget unikt, entydigt samband mellan en fonetisk enhet, t.ex. ett talljud (fonem) eller en stavelse, och dess akustiska realisering. Det vill säga, det är svårt att översätta ett akustiskt talljud till fonem då t.ex. uttalen kan vara av olika utformningar. Ett annat problem är att en talsignal inte entydigt kan delas upp i tidsmässigt icke överlappande delar, som till exempel motsvarar fonem, stavelser eller ord. Orden i en mening uttalas ihop utan pauser mellan dem. 2.2 Automatisk igenkänning av tal De första försöken med automatisk taligenkänning började i slutet av 40- talet, men inte förrän på 60-talet tog forskningen fart då datortekniken hade blivit mer utvecklad. 1973 kom det första kommersiella systemet för isolerade ord. Vokabulären bestod av maximalt ett hundratal ord, att jämföras med dagens system som kan känna igen sammanhängande tal med en vokabulär om hundratusentals ord. Fördelarna med taligenkänning är många. Talet är vårt naturliga sätt att kommunicera, vilket ger effektiv kommunikation då komplexa samband kan uttryckas enkelt. Igenkänningssystem kräver inga vana användare eftersom inlärningen är snabb. Händer och ögon lämnas fria för andra uppgifter, när tangentbord och knappsats kan ersättas med tekniken. Taligenkänning fungerar i besvärliga miljöer, som t.ex. mörker och kyla, men i bullriga miljöer kan igenkänning försvåras. Andra nackdelar med taligenkänning är att vissa begränsningar måste införas för att möjliggöra lösningar med tillräcklig igenkänningsförmåga, som att ibland endast inmatning av ett ord i taget tillåts, ordigenkänning. Orden uttalas i det fallet med tydliga pauser sinsemellan och föregående ord ska ha känts igen innan det följande uttalas (Blomberg och Elenius, 1999-2005). Vid stora vokabulärer blir ordigenkänningsmetoden mindre lämplig. Fonemigenkänning tillämpas i dessa fall. Talet känns igen som fonem istället för ord. Fonemigenkänning används under avsnittet Fonemigenkänning nedan. En studie i Finland visar att finska är mycket lämpligt för taligenkänning, fonemtolkning, eftersom skriftspråket i hög grad följer uttalet. Undersökningen visar också att 10 till 20% fel kan tolereras vid fonemigenkänning med bibehållen tolkningsförmåga av igenkänningsresultatet i form av fonem. Resultaten motiverar vidareutveckling av tekniken till kommunikationshjälpmedel för hörselskadade (Karjalainen et al, 1997). Att tolka fonemsträngar på svenska kräver troligen

mer av läsaren jämfört med finska på grund av svenskans större avvikelse mellan tal och skrift. En persons förmåga att tolka en igenkänd fonemsträng beror på yttrandets längd och karaktär. Typen av fel som igenkännaren har genererat ger också olika resultat på tolkningen. Enskilda ord är mer svårtolkade än meningar och längre yttranden eftersom kontexten då försvinner (Alarotu et al, 1997). Ett exempel där taligenkänning använts för hörselskadade personer är indexering (textning) av TV program. I ett projekt utfört i Norge (Harborg et al, 1999) hade man målet att skapa ett realtidssystem för textning av direktsändningar. Specifikationen innehöll bland annat följande krav: kontinuerlig taligenkänning, stora vokabulärer, realtids textning och fungerande hjälpmedel för hörselskadade. En kommentator återberättar det som sägs i ett programmet, vilket en kontinuerlig taligenkännare känner igen och matar resultatet till textningssystemet. I den inledande fasen av projektet uppnåddes antalet korrekta ord i genomsnitt till 87%. Här användes adaption till talaren och en språkmodell i form av bigram. 2.3 Hidden Markov Models (HMM) Den mest använda taligenkänningsmetoden är dolda Markov processer, Hidden Markov Models (HMM). Talsignalen betraktas i detta fall som genererad av en Markovprocess. Processen kan vid varje tillfälle befinna sig i ett av flera tillstånd. Övergång mellan tillstånden sker slumpmässigt med en viss sannolikhet, övergångssannolikheter. I en dold Markovmodell kan man inte observera processen direkt utan är hänvisad till att göra mätningar av parametrar som är statistiskt relaterade till tillstånden. Sannolikheten att ett visst värde på en parameter ska observeras i ett visst tillstånd kallas dess observationssannolikhet, se figur 2.1. Modellen beskrivs som diskret eller kontinuerlig beroende på vilka värden observationsparametern kan anta. a: 0.3 b: 0.6 c: 0.1 0.3 a: 0.8 b: 0.1 c: 0.1 0.5 a: 0.4 b: 0.3 c: 0.3 0.8 S S 1 2 S 0.2 3 0.7 0.5 Fig. 2.1. En diskret Markovmodell med tre tillstånd. Tillåtna övergångar anges med pilar med associerade övergångssannolikheter. I varje tillstånd kan en diskret stokastisk variabel observeras. Variabeln kan anta värdena a, b och c med olika sannolikheter i de tre tillstånden Från Blomberg & Elenius (1999-2005). Enligt Markovantagandet är processens förflutna betydelselöst för dess framtida förlopp. Ett tillstånd karaktäriseras av sitt spektrala utseende. Övergångar mellan tillstånden sker enligt beräknade sannolikheter - övergångssannolikheter. För enkla ordmodeller har man inget behov av att gå till tidigare tillstånd. För varje tillstånd beräknar man sannolikheten för den observerade spektumramen producerats av modellen observationssannolikheten. Sannolikheten för att ett visst ord har sagts beräknas genom att jämföra dess Markovmodell med det intalade ordet. Det ord väljs som med största sannolikhet genererat den följd tillstånd som

detekterats. Eftersom det är omöjligt för en observatör att avgöra exakt hur de olika tillstånden i en modell har passerats talar man om en dold Markovprocess (Från Blomberg & Elenius, 1999-2005). Programpaketet som används för uppbyggnaden av igenkännings-system i detta arbete kallas för HTK (Hidden Markov Toolkit), en verktygslåda för att bygga HMM:er (Young et al, 1995-1999). 2.4 Tränings- och testmaterial Tränings- och testmaterial har hämtats från den svenska SpeechDatdatabasen. Det huvudsakliga målet i EU-projektet SpeechDat var att skapa stora taldatabaser för talstyrda teletjänster, som täcker EU:s 11 officiella språk och deras stora dialekter samt några minoritetsspråk. Insamlingen av tal har skett över telefonnätet för att kunna träna taligenkänningssystem. Totalt 28 databaser samlades in, varav 20 via fasta telefonnätet (FDB), fem via mobila nät (MDB), och tre designade specifikt för talarverifiering (SDB). Storleken varierar mellan 500 och 5000 talare. Projektet genomfördes inom både industrin och forskarvärlden. Användningsområdena inkluderar kommersiella applikationer som t.ex. informationstjänster, transaktionstjänster och annan automatisk samtalshantering och även långsiktig talforskning. Databaserna är strikt standardiserade enligt krav på bl.a. innehåll, struktur och kvalitet. Projektet finansierades av EU:s 4:e ramprogram. KTH hade ansvaret för insamlingen av två svenska telefondatabaser; en över det fasta telenätet på 5000 talare (FDB5000) och en över mobilnät på 1000 talare (MDB1000). Talmaterialet i den svenska FDB5000 inkluderar bl.a. nummer, sifferserier, namn, datum, klockslag, ja/nej svar på frågor, bokstäver, ord och meningar. Alla talarna har fått säga sinsemellan skilda saker för att få variation i materialet. Det ingår även gemensamma delar för jämförande studier. (Från Elenius och Lindberg, 1998).

3 DEL 1 Fonemigenkänning I detta delmoment utförs en undersökning, som visar om ett fonemstöd ger förbättrad förståelse av ett yttrande för en hörselskadad. Undersökningen baseras på mätningar av försökspersoners förmåga att uttolka rätt ord eller mening ur den delvis inkorrekta responsen från ett färdigt igenkänningssystem. Stödet består av en textsträng innehållande fonetiska tecken skrivna i STA / RULSYS-notation, se Appendix C. 3.1 Följande exempel på yttranden i fonetisk presentation efter automatisk igenkänning ger en uppfattning om svårighetsgraden för försökspersonerna att tolka strängen. Fonemsträngarna konstruerades ur igenkänt material innehållande ord och meningar från SpeechDat. Felen som igenkännaren gjort varierar kraftigt mellan strängarna. Hur bra en fras blivit igenkänd beror mycket på talarens tydlighet i uttal och dialekt. Igenkänt: P L Ä: D Text: pläd Igenkänt: P L Y: G V A P N Ä: E T Text: flygvapnet Igenkänt: N Ä: H D E: N T S Å F A: L I S T Text: Nej det är inte så farligt. 3.2 Försök Två olika testlistor sammanställdes med fonemsträngar som ovan. Fördelningen mellan antal ord och meningar i testen valdes i avsikt att få en jämn fördelning av antal fonemigenkänningsfel i de båda yttrandekategorierna såväl som testlistorna. Detta gav fonemsträngar med svårighetsgrad slumpmässigt fördelad över testen. Båda testversionerna innehöll 85 fraser. Vissa fraser förekom flera gånger. Till testen kopierades även ljudfiler till en CD-skiva med fraserna i motsvarande ordning, så att förutsättningarna skulle bli så lika som möjligt den tilltänkta applikationen, fonemsträngen skall fungera som ett stöd till det man hör. För att även kunna använda normalhörande testpersoner filtrerades ljudfilerna med ett 300 Hz lågpassfilter av 10:e ordningen för simulering av hörselnedsättning. Även här skapades en ljud-cd. Frivilliga försökspersoner fick instruktionerna att först endast lyssna på yttrandena och skriva ned det som var hörbart, och sedan göra om testet men nu med fonemstödet till hjälp. Hörselskadade försökspersoner använde sina hörapparater vid lyssningen, hörslinga och hörlurar med talspole fanns till förfogande. Normalhörande använde vanliga stereohörlurar.

Försökspersonen fick själv bestämma antalet uppspelningar av yttrandet. Detta eliminerade risken för att yttrandet inte skulle hinna uppfattas. Grundprincipen för rättningen var andelen korrekta ord med justering för ord som var delvis rätt, t. ex. ett morfem korrekt i ett sammansatt ord. Svaren rättades subjektivt, enligt den kvantifierade skalan 0%, 25%, 50%, 75% och 100% rätt för varje yttrande. Om exempelvis ordet partiföreträdare hade angivits till parti gav det 50% rätt på det yttrandet. Om meningen "Koka upp mjölk och grädde och låt det svalna" besvarades med "Koka svalna" gav det 25% rätt på meningen. Denna rättningsmetod ansågs som den mest användbara eftersom svaren inte kunde rättas enligt en färdig mall utan fick bedömas var för sig. Hänsyn togs också till var felen i yttrandena återfanns då dessa kanske inte påverkade förståelsen. 3.3 Resultat I resultaten skiljs meningar och ord åt eftersom de inte är direkt jämförbara. Meningarna innehöll en större andel korta ord medan orden i ordtestet ofta var längre. Resultaten från normalhörande räknades samman, men resultat från hörselskadade valdes att presenteras var för sig eftersom förutsättningarna skiljer sig mycket mellan försökspersonerna. Antal procent rätt ( % ) 100 TESTRESULTAT - FONEMSTÖD 90 80 70 Hörselskadad person 2 60 Normalhörande (10 personer) Hörselskadad person 1 Hörselskadad person 3 50 40 30 20 10 0 Ord Meningar Ord Meningar Ord Meningar Ord Meningar UTAN STÖD MED STÖD

Normalhörande (antal procent rätt) Utan stöd: Ord 17 Meningar 16 Med stöd: Ord 59 Meningar 47 Hörselskadad 1 (antal procent rätt) Utan stöd: Ord 18 Meningar 13 Med stöd: Ord 52 Meningar 39 Hörselskadad 2 (antal procent rätt) Utan stöd: Ord 58 Meningar 41 Med stöd: Ord 70 Meningar 48 Hörselskadad 3 (antal procent rätt) Utan stöd: Ord 13 Meningar 14 Med stöd: Ord 60 Meningar 29 Försöken visar att med ett fonemstöd så kan betydligt fler ord och meningar tolkas rätt, jämfört med utan stöd. Den procentuella förbättringen för orden var igenomsnitt 205% och för meningarna 130%. För hörselskadad nummer 2 gav inte stödet så stor hjälp vilket kan bero på att den personen hade relativt bra hörsel. 3.4 Kommentarer Fördelen med fonemigenkänning är att det inte begränsas av en vokabulär ty fonemsträngar kan tas fram för godtyckliga uttalanden. Igenkännaren kan vara kontinuerligt aktiv. Vid försöken var förhållandena orealistiskt svåra eftersom en stor del av fonemsträngarna hade mycket inkorrekt information, det vill säga att igenkänningen inte hade lyckats så bra. Om talaren är medveten om att han talar med en hörselskadad och att det finns en igenkännare som skall känna igen talet, så talat han säkert tydligare och träffsäkerheten blir bättre. Dessutom var försökspersonerna helt oförberedda. Med lite träning och vana så kan tolkningen med stor sannolikhet förbättras ytterligare. En ytterligare betydelsefull svårighet är avsaknaden av språklig och semantisk kontext mellan fraserna i testet. I en naturlig konversation har man stor hjälp av kännedom om samtalets tidigare förlopp vad gäller ämnesområde och ordval.

4 DEL 2 Stavningsigenkänning Stavningsigenkänning är en metod för att begränsa vokabulären i en igenkännare till bara ett hundratal ord, och därmed få en förbättrad träffsäkerhet på igenkänningen. Oftast används speciella namn vid stavning som Adam, Bertil, Caesar o.s.v. men för att göra stavning till en enkel process så bör man även kunna använda vanliga bokstäver A, B, C o.s.v. Detta gör också stavningen lättare för den som stavar och givetvis inte lika tidsödande. Just användningen av bokstäver i stavning ansågs vara det unika vid initieringen av projektet. 4.1 Talmaterial Talmaterialet är plockat ur SpeechDat, och består i denna del av 15000 stavade namn och ord. Vokabulären omfattas inte bara av bokstäver och de svenska bokstaveringsnamnen utan även andra namn som är vanliga vid bokstavering. (kapitel B) Arbetet inleddes med att sortera ut filer ur SpeechDat, vilka endast innehåller stavning och inte är behäftade med störningar av olika slag. En uppdelning i test- och träningsmaterial gjordes enligt en fördelning så att deras innehåll motsvarade varandra med avseende på, till exempel, dialektområden. Tränings- och testmaterial bestod av 12933 respektive 1391 yttranden. 4.2 Igenkänningsförsök I ett första testförsök användes redan tränade modeller från ett annat examensarbete vid TMH. Testningen gav tyvärr inte alls så bra resultat som väntat. Orsaken var förmodligen att modellerna inte var anpassade till stavningsigenkänning. För att förbättra resultaten så behövde modellerna tränas om. Modellparametrarna bestäms genom inlärning på träningsmaterialet. Träningen skedde i upprepade steg, iterationer, där de modeller som omtränats används som underlag i varje ny träningsomgång. Ett nytt försök gjordes med de nytränade modellerna. Resultaten var betydligt bättre än tidigare. Nu kunde man tolka de flesta igenkända stavade orden. Men för att ytterligare förbättra träffsäkerheten så konstruerades ett s. k. bigram baserat på träningsmaterialet. Bigram är enkla språkmodeller för ordpar, och anger i vårt fall sannolikheten att till exempel bokstaven A följs av B. I försöken utan bigram kunde alla bokstäver och namn följa på varandra med lika stor sannolikhet. Resultaten med bigram blev till en början betydligt sämre än förväntat, teoretiskt så borde bigram förbättra igenkänningen. För att vara säker på att statistiken inte var gjord på ett för litet material konstruerades ett nytt bigram baserat på ett stort textmaterial om cirka fem miljoner ord, eftersom träningsmaterialet innehåller bara drygt 10000 ord. Men igenkänningen blev ännu sämre med detta bigram, vilket troligen orsakas av att texten, som är en blandning av olika tidningsartiklar, innehåller korta ord vilket ger ett bigram

som inte motsvarar det stavade ordmaterialet i SpeechDat. De stavade orden är generellt lite längre. Dessa hade också valts för att ge en god täckning av alla bokstäver i svenska språket vilket medför att mindre frekventa bokstäver är överrepresenterade medan de vanligaste bokstäverna är underrepresenterade i testmaterialet. Den viktigaste orsaken till att bigramanvändning gav sämre resultat var dock en annan. Den lokaliserades efter en omfattande felsökning till att tystnadsmodeller saknades i lexikon. Igenkännaren behöver en tystnadsmodell för att kunna känna igen tysta intervall som uppträder före och efter yttrandet samt ibland mellan de ingående orden. När tystnadsmodellerna inkluderades blev resultaten med bigrammet baserat på träningsmaterialet märkbart bättre jämfört med testningen utan bigram. Men bigrammet, som var baserat på den stora texten, gav fortfarande sämre utfall. Fig 4.1 Förbättringar i stavningsigenkänning med olika modifieringar.

4.3 Prestanda mätning I alla försök är det bokstavsnoggrannheten (Accuracy), som har varit det mått som fått avgöra hur bra igenkänningen i ett test varit. Noggrannhe t= 100 * ( Antal bokstäver Förväxlingar Instopp Bortfall ) Antal bokstäver Ordnoggrannheten uppnåddes maximalt till 81,6%. Viktiga faktorer som avgör prestandan för taligenkännare är t.ex. vokabulär storlek, språkmodell (perplexitet), talarberoende / talaroberoende och den akustiska miljön. 4.4 Kommentarer Resultaten från stavningsigenkännaren skulle kunna testas med tolkning av försökspersoner på liknande sätt som med fonemsträngarna. Tolkningsresultaten skulle troligen bli höga eftersom bokstavsnoggrannheten redan från början är relativt hög. Som jämförelse kan nämnas att den genomsnittliga noggrannheten på fonemsträngarna var ungefär 60%. 4.5 Möjliga förbättringar Siffror kan med enkelhet läggas till i vokabulären. Trigram treordssekvenser - beskriver sannolikheten för ett längre intervall och höjer troligen noggrannheten förutsatt att man hittar ett lämpligt träningsmaterial. Prestanda kan ytterligare förbättras med talaradaption, varvid systemet anpassar sina tränade modeller till en ny talare. 5 SLUTSATS Resultaten från DEL 1 visar att fonemigenkänning är användbart för att förbättra tolkningen av ett yttrande för en hörselskadad. Om användaren dessutom finge träna på att tolka fonemsträngar skulle resultaten säkerligen bli ännu mer förbättrade. Stavningsigenkännaren som konstruerades i DEL 2 kan känna igen bokstavering med tillräckligt hög precision för att tolkningen skall fungera med god säkerhet.

6 REFERENSER Elert, C.-C. (1966). Allmän och svensk fonetik, Almqvist & Wiksell. Blomberg, M. Elenius, K. (1999-2005) Automatisk igenkänning av tal och talare, Kurskapitel TMH, KTH,. Karjalainen, M. Boda, P. Somervuo, P. Altosaar, T. (1997). Applications for the hearing-impaired: Evaluation of finnish phoneme recognition methods, Proceedings of Eurospeech 97, Rhodes, Greece, ISSN 1018-4074, 1811-1814 Alarotu, N. Lennes, M., Altosaar, T. Malm, A. Karjalainen, M. (1997). Applications for the hearing-impaired: Comprehension of finnish text with phoneme errors, Proceedings of Eurospeech 97, Rhodes, Greece, ISSN 1018-4074, 1815-1818. Harborg E. Holter T. Hallstein Johnsen, M. Svendsen, T. (1999). On-line captioning of TV-programs for the hearing impaired,, Eurospeech 99, Budapest, Hungary, ISSN 1018-4074, 567-570. Young S. et al., (1995-1999) The HTK Book version 2.2, Entropic Ltd. [8] Elenius, K. Lindberg J. (1998) FIXED1SV-FDB5000, TMH, KTH, 1998-11-27, v3.0.

Appendix A Viterbi-igenkänning HVite ingår i programpaketet HTK, en verktygslåda att bygga HMM:er (Hidden Markov Model). HVite är en allmän Viterbi-igenkännare med många konfigurationsmöjligheter. För att öka prestandan kan man, i den mån yttrandet är känt, på förhand ge HVite en ortografisk transkription av det yttrande man vill att det skall segmentera, vilket kallas "forced alignment" (ungefär: styrd matchning) - i motsats till fri igenkänning - eftersom HVite vid forced alignment tvingas att hålla sig till transkriptionen och alltså inte den tolkning som kanske passar bättre. Förutom själva ljudfilen kan man ge HVite en transkription i klartext, samt en dictfil, som är ett lexikon som översätter mellan varje ord i transkriptionen, och en eller flera fonetiskt beskrivna uttalsvarianter (Young et al, 1995-1999).

Appendix B Bokstaveringsnamn Från Elenius och Lindberg (1998).

Appendix C Fonemtabell