Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Taligenkänning, HKGBB0

Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens med orden som finns lagrade i systemets vokabulär. För att göra detta så bra som möjligt krävs en språklig representation av ordet, mallar/schabloner av ordet som lagras i systemet, och effektiva algoritmer som bland annat kan urskilja ordgränser i flytande tal samt hitta de ord som bäst matchar den yttrade meningen.

Innehållsförteckning 1 HISTORIA...1 2 HUR FUNGERAR ETT TALIGENKÄNNINGSSYSTEM?...2 2.1 IGENKÄNNINGSTEKNIKER...2 2.1.2 Hidden Markov Model...3 2.1.3 Viterbi-algoritmen...4 2.2 SPRÅKMODELLEN OCH DEN AKUSTISKA MODELLEN...4 3 RESULTATPÅVERKANDE FAKTORER...6 3.1 SPRÅKSTILAR...7 3.2 VOKABULÄRETS STORLEK...8 3.3 ANVÄNDARE...8 4 PROBLEMATIK...9 5 DISKUSSION...10 6 REFERENSER...11

1 Historia Redan på 1920-talet började man studera taligenkänning och dess användande. Leksakshunden Radio Rex är den första kända tillämpningen, då hunden kan aktiveras med rösten. Hunden kunde t ex hoppa om ljudfrekvensen var högre än 500 Hz. Efter andra världskriget utvecklades forskningen, och det uppfanns ett system som kunde känna igen enstaka siffror, med hjälp av mönstermatchning av akustiska särdrag. På 1970-talet utlyste DARPA (Defense Advanced Research Projects Agency) en tävling med 4 deltagande lag som fick fem år på sig att utveckla högpresterande taligenkänningssystem. Vinnaren, som lyckades med bedriften att få 90 % exakthet i igenkännandet av orden med en vokabulär på ca 1000 ord, var Harpy-systemet som utvecklades vid CMU (Carnegie Mellon University). Detta system utvecklades från ett system kallat Dragon, som var det första att använda HMM (Hidden Markov Model) som är en sannolikhetsprocess som beskrivs mer ingående längre fram i arbetet. Därefter började allt fler att använda sig av probabilistiska metoder i de taligenkänningssystem som utvecklades, särskilt HMM. (Russel & Norvig, 2003) 1

2 Hur fungerar ett taligenkänningssystem? Enligt Schmandt (1994) består ett taligenkänningssystem av tre grundläggande komponenter; en språklig representation, mallar och mönstermatchning. En språklig representation behövs för mönstermatchningen. Det är denna representationsform som igenkännaren omvandlar talsignalen till innan den analyserar dessa för att identifiera ord. Den akustiska vågformen delas upp i olika ramar som är mellan 10 och 20 millisekunder långa som innehåller information om just den lilla biten ljud. (Jurafsky & Martin, 2004) Det finns mallar som beskriver varje ord i systemets vokabulär. Dessa mallar jämförs sedan med inputorden så att systemet tar fram det ord som bäst matchar genom att använda en mönstermatchningsalgoritm. Denna algoritm ska kunna känna igen vart ord börjar och slutar, hitta den mall som liknar ordet mest och sedan avgöra om skillnaden mellan ordet och mallen är liten nog för att kunna säga att den har hittat rätt ord. De algoritmer man mestadels använder är Viterbi-algoritmen och A*. 2.1 Igenkänningstekniker För mer avancerade taligenkänningssystem, som är bra på att hantera de variationer i språket som förekommer, används ofta en av två tekniker för att göra mönstermatchningen mer effektiv. Dessa tekniker är Hidden Markov och Dynamic Time Warping. Dynamic Time Warping är en metod som kan kompensera talhastigheten om ord uttalas olika snabbt genom att minska eller öka på avståndet mellan de olika ramarna. Den kan också hitta ordgränser när ett okänt antal ord uttalas sammanhängande. Även neurala nät har använts i en del system, men denna teknik är inte så utvecklad ännu. (Schmandt, 1994) Forwardalgoritmen är en stor del i alla taligenkänningssystem, då denna algoritm räknar ut sannolikheten för en sekvens av fonem givet sannolikheten för att en viss väg ska tas. Den beräknar summan av sannolikheterna för varje möjlig väg som skulle kunna generera den yttrade sekvensen. Forwardalgoritmen beräknar detta på varje ord och väljer sedan det ord med högst sannolikhet. Denna algoritm är viktig i användandet av HMMs och 2

även för Viterbi-algoritmen då denna är en förenklad och förbättrad version av forwardalgoritmen. Viterbi-algoritmen kan beräkna detta på alla ord i meningen samtidigt och ändå komma fram med det högsta sannolikhetsvärdet och den bästa vägen till den observerade ordskevensen. (Jurafsky & Martin, 2000) Här nedan följer en lite mer ingående beskrivning av de ovan nämnda teknikerna. 2.1.2 Hidden Markov Model Hidden Markov Model (HMM) är den modell som är mest använd i dagens taligenkänningssystem. (Peackocke & Graf, 1990). HMM är en statistisk sannolikhetsprocess och en kraftfull språkrepresentaion. Den används för att matcha inputorden med systemets lagrade vokabulärord, baserad på hur ord och dess fonem uttalas. En HMM består av ett antal interna tillstånd som ändras från starttillståndet till det slutgiltiga tillståndet då den genom sannolikhet genererar observerbar utdata vid varje steg (vid varje övergång till nästa tillstånd). Dessa utdata består av en mall med den akustiska informationen som ska kunna tillåta skillnader i till exempel uttal. Modellen kan sedan vid varje steg antingen stanna där eller gå vidare till nästa. Anledningen till att ordet hidden finns med i namnet är att vi inte kan se dessa steg, utan endast resultatet av dem. Figur 1 En Hidden Markov Model För varje tillstånd S(n) finns en sannolikhet P(n, n) att modellen stannar i det tillståndet den befinner sig i nu och sannolikheten P(n, n + 1) att den förflyttar sig vidare till nästa tillstånd. När den stannar i det befintliga tillståndet kan den till exempel förlänga ett fonem. Figur 1 ger en bild av hur en HMM fungerar. Där ser vi även att i vissa HMM finns möjligheten att hoppa över vissa tillstånd. Detta för att man i vissa ord inte uttalar 3

alla fonem (till exempel i ordet chocolate där man ofta hoppar över det andra o:et) Summan av sannolikheterna för alla möjligheter till att modellen lämnar ett tillstånd är 1. I taligenkänningssystem består de mallar som jämför de lagrade orden med inputorden av ett antal HMM där en HMM är associerad med varje ord. Sedan används den HMM som har högst sannolikhet att producera den yttrade meningen. För att kunna ta fram denna HMM används Viterbi-algoritmen. (Schmandt, 1994) 2.1.3 Viterbi-algoritmen Forward-algoritmen beräknar sannolikheten på varje ord för sig, och anses därför vara ganska ineffektiv. Viterbi-algoritmen är en förenklad version av forward-algoritmen, den beräknar sannolikheten för alla ord samtidigt och kan ändå komma fram med den mest sannolika vägen till målet. Viterbi-algoritmen används i mönstermatchningen för att ta fram den mall som bäst matchar det yttrade ordet. (Jurafsky & Martin, 2000) 2.2 Språkmodellen och den akustiska modellen Enligt Russel & Norvig (2003) är språk data som inte alltid ren, dvs det kan finnas bakgrundsljud och andra störningsmoment såsom hur vi uttalar orden. Det finns även ett problem i att vissa ord låter likadant, men betyder helt olika saker. Detta gör det svårt för ett taligenkänningssystem att dra en logisk slutsats om identifikationen av orden. För att lösa detta problem kan vi använda oss av Bayes teorem, där words är alla möjliga sekvenser av ord som kan bli yttrade, och signal är det yttrade akustiska ljudet: P(words signal) = α P(signal words)p(words) P(words) i den ovannämnda regeln kallas för språkmodellen, P(signal words) är den akustiska modellen. Språkmodellen baseras på sannolikheten att hitta ord som kommer efter varandra. T ex är high ceiling ett mer sannolikt uttryck än high sealing. (Jurafsky & Martin, 2000) Den akustiska modellen beskriver ljudet av ordet. Denna modell är mer komplex än språkmodellen, då den räknar ut sannolikheten för en sekvens av ljud eller fonem (ett fonem är en lingvistisk beståndsdel av ett ord). (Russel & Norvig, 2003) Denna modell är även mer flexibel än språkmodellen då de flesta språk består av 40-50 fonem. När nya 4

ord kommer in i systemet så känner den igen alla fonem i ordet, och slipper då lära sig ett helt nytt ord. Med den akustiska modellen är det på så sätt lättare att känna igen naturligt tal (tal utan pauser mellan orden). (Johnson & Garmark, 2000) I nästan alla system är den akustiska modellen baserad på Hidden Markov Models. (Phil Woodland, 1998) I språkmodellen använder man sig oftast av olika n-grams som är en statistisk språkmodell, som endast använder de tidigare N-1 orden för att förutsäga nästa ord. Man behöver alltså inte veta vilka de andra orden är för att kunna förutsäga vilket ord som med högst sannolikhet kommer härnäst. Det finns olika slag av N-grams, varav bigram-modellen är en. Den uppskattar sannolikheten för ett ord givet endast det föregående ordet (N=2) En trigram-modell kollar på de två senaste orden (N=3) (Jurafsky & Martin, 2000, Holmes & Holmes, 2001) Den generella ekvationen för uppskattning av nästkommande ord i en sekvens enligt N- gram-modellen ser ut så här: n 1 n 1 ( n ) P( w ) 1 n wn N + 1 P w w 5

3 Resultatpåverkande faktorer Det finns många faktorer som påverkar hur bra ett taligenkänningssystem är. Till exempel är det stor skillnad på resultaten om orden som yttras talas in var för sig, eller om det är en sammanhängande text. Enligt Peacocke & Graf (1990) finns det olika sätt att få det bästa resultatet av ett taligenkänningssystem: Isolerade ord som har en liten paus efter sig är lättare att känna igen än hela meningar som lätt flyter ihop så att det är svårt att veta var gränsen går för nästa ord. Även uttalet av orden blir ofta annorlunda om man säger de i en mening än om man säger de var för sig, då positionen på orden jämte andra ord spelar en roll för hur ordet uttalas. Bättre resultat får man även om det endast är en enda person som använder sig av systemet, då de mönstermatchade mallar som systemet gör på orden inte fungerar lika bra på andra användare. Precisionen kan också påverkas av storleken på vokabulären, detta på så sätt att ju större ordförrådet är, desto större är risken att ord som låter lika varandra finns med, och att de blandas ihop. Grammatiken spelar också en stor roll, då en begränsad grammatik innebär att man får fram ett litet (men korrekt) urval av ord som kan följa det givna ordet. System med låga begränsningar kring grammatiken tenderar att få fram alldeles för många ord, och är därför inte lika precisa. Även miljön spelar in, då bakgrundsljud och liknande kan påverka exaktheten av igenkänningsprocessen. För att få ett så bra resultat som möjligt bör man alltså vara i en tyst och kontrollerad miljö, och även se till att användaren använder samma ljudbegränsade mikrofonem som användes under försöken, för att minska riskerna för störning under igenkänningsprocessen. 6

3.1 Språkstilar Ett diskret taligenkänningssystem kan endast känna igen ord om de talas in var för sig. Dessa system kan annars inte säga var ordgränserna går. Sammanhängande taligenkänningssystem är byggda för att klara av att känna igen korta fraser av ord. Med dessa system måste användaren pausa efter några ord orden eller efter en fras så att systemet kommer ikapp. Användaren måste även prata klart och tydligt så att systemet kan känna igen orden. Ett kontinuerligt taligenkänningssystem däremot ska kunna känna igen så gott som flytande tal. Denna typ av system har som mål att kunna hänga med så bra som en människa kan när den lyssnar på talaren, istället för att behöva pauser för att hinna ikapp. Ännu en typ av taligenkännare är de som kan känna igen vissa nyckelord i flytande tal. Ett bra exempel på detta är taligenkännare som är byggda för att känna igen siffror i en mening. De flest av dagens taligenkänningssystem kan känna igen enstaka ord eller kortare fraser (diskreta eller sammanhängande system). Sammanhängande taligenkänningssystem arbetar snabbare eftersom talaren inte behöver pausa efter varje ord. Men dessa system är mer komplicerade och presterar ofta sämre resultat än de diskreta systemen. Användaren talar ofta otydligare när man får prata naturligt, när man istället bara säger ett ord i taget tänker man mer på hur man uttalar orden. Andra anledningar till att sammanhängande taligenkänningssystem är mer komplicerade och ger sämre resultat än diskreta system är att orden flyter ihop, ett ords uttal beror alltså på de närliggande orden. Det är speciellt de första och sista bokstäverna i ett ord som drabbas. Det är även svårt att hitta ordgränser i flytande tal, detta också på grund av att ord lätt flyter ihop när man pratar flytande. Man kan också säga att ju fler ord i ett yttrande, desto fler fel kommer det att bli, och om det första ordet som systemet känner igen är fel, så betyder det att nästa ord med stor sannolikhet också kommer vara fel ord. (Schmandt, 1994) 7

3.2 Vokabulärets storlek Vokabulärens storlek spelar också en stor roll för prestandan hos ett taligenkänningssystem. En litet vokabulär innehåller mindre än 200 ord medan mellanstora vokabulärer innehåller mellan 200 och 5000 ord. System med stor vokabulär har ca 5000 10 000 ord lagrade. Dagens taligenkänningssystem har ofta liten vokabulär, men system med mellanstor vokabulär är under utveckling. Stora vokabulärer är ganska svåra att uppnå, då det krävs stor uträkningsförmåga för mönstermatchningsalgoritmen som ska hitta rätt ord. Tiden det tar för algoritmen att leta reda på rätt ord kan man säga beror på hur stor vokabulären är, och målet med ett bra taligenkänningssystem är att det ska gå så snabbt som möjligt att hitta rätt ord, vilket då blir ett problem eftersom man också vill ha en stor vokabulär att utgå ifrån. Men allteftersom tekniken utvecklas så tas det fram bättre och snabbare processorer som klarar av detta på en acceptabel tid. Ännu ett problem med för stor vokabulär är att det kommer vara fler ord som låter lika varandra. (Schmandt, 1994) 3.3 Användare Taligenkänningssystem kan vara oberoende, med det menas att vem som helst skulle kunna tala in en ordsekvens och systemet skulle klara det. Beroende system däremot kan inte klara av detta utan känner endast igen orden om de är en och samma talare. Oberoende system är svårare att utveckla, då vi alla talar på olika sätt och uttalar ord på olika sätt beroende på dialekt osv. Dessa oberoende system kräver en mer genomtänkt och utarbetad mallgenerering samt en bra teknik för att identifiera de olika sätt vi kan uttala ett ord på. (Schmandt, 1994) För att lösa problemet med att vi uttalar ord olika kan man tänka sig att föra samman och träna de olika mallarna så att man får fram ett slags genomsnittligt uttal av varje ord. 8

4 Problematik Ett av de största problemen för ett taligenkänningssystem är miljön runtomkring. Om det är mycket bakgrundsljud så påverkar detta resultatet på ett negativt sätt. Även problemet med att systemen inte kan använda stor vokabulär på grund av att det tar mycket längre tid är en nackdel. (Schmandt, 1994) Problem vid taligenkänning kan delas in i tre kategorier: Avvisning: När användaren yttrar ett ord känner inte systemet igen det. Ersättning: Ett ord som användaren yttrar känns igen som ett annat, liknande ord. Insättning: Systemet misstar vissa ljud som ord sagda av användaren. Detta kan till exempel vara inandningar eller bakgrundsljud. Enligt Schmandt (1994) inträffar de typer av fel ett taligenkänningssystem gör ofta när vokabulären är stor och systemet är sammanhängande och oberoende, medan en enkelt uppbyggt taligenkännare har svårt för att matcha ord som det är olika längd på. Det kan vara så att användaren säger inputordet snabbare än det ord som finns lagrat som en schablon i systemets vokabulär. För att lösa detta problem kan Dynamic Time Warping (som beskrevs tidigare) användas, som använder en algoritm för att minska mellanrummen mellan orden så att de ska matcha varandra bättre. (Peackocke & Graf, 1990) För ett taligenkänningssystem är det ganska svårt att urskilja ord som låter lika varandra, när det till och med kan vara svårt för oss människor ibland. Ord som har liknande fonemuppbyggnad har en tendens att misstas som samma ord. Även miljön har som sagt en påverkan på ett systems prestanda, då oförutsägbara ljud och andra störningsmoment påverkar resultatet. För detta ändamål finns det särskilda mikrofoner som reducerar brus och liknande. (Schmandt, 1994) 9

5 Diskussion Sedan 70-talet när HMM började användas i taligenkänningssystem så har dessa blivit allt bättre och mer avancerade. Ännu är målet inte riktigt nått med ett system som kan känna igen flytande tal såsom vi människor kan. Men de system som finns idag är ändå till stor nytta för till exempel rörelsehindrade människor eller i arbeten där man inte har händerna fria för att skriva på ett tangentbord. I framtiden kan man även tänka sig att taligenkänningssystem kommer användas mer flitigt på arbetsplatser där mötesprotokoll och liknande ska skrivas. Företagen sparar pengar på att använda sig av dessa system, istället för att ha en anställd, när ett sådant system kan klara jobbet minst lika bra. Exempel på detta är SJ och deras reseplanerare. Även om det inte fungerar hundraprocentigt idag då den inte känner igen alla ord och uttal av ord, så klarar den hyfsat mycket ändå. Nu är jag inte så insatt i hur just det systemet fungerar, men man kan tänka sig att den har ett vokabulär bestående av destinationer och andra nödvändiga ord. Den behöver alltså inte ha alla möjliga ord i vokabulären. Men ett problem är som sagt att det kan vara svårt att skilja på uttal av olika ord från person till person. Taligenkänningssystem kan i framtiden även vara till hjälp för elever som ska lära sig språk, då dessa system kan agera som lärare. Detta kan vara en hjälp för de som tycker att det är lättare att lära sig i en miljö utan en lärares granskande, som kan kännas pressande. Då skulle även studier hemifrån kunna underlättas om man kunde få hjälp med uttal och översättning via en dator. 10

6 Referenser Schmandt, C (1994) Voice communication with computers Comversational systems Van Nostrand Reinhold, New York Jurafsky, D & Martin, J H (2000) Speech and language processing Prentice Hall, New Jersey Holmes, J & Holmes, W (2001) Speech synthesis and recognition second edition Taylor & Francis, London & New York Russel, S J & Norvig, P (2003) Artificial intelligence: A modern approach, second edition Pearson Education, Inc, New Jersey Woodland, P (1998) Speech recognition Hämtad från: http://ieeexplore.ieee.org.lt.ltag.bibl.liu.se/iel4/6096/16317/00755343.pdf?tp=&arnumber =755343&isnumber=16317 Peacocke, R D & Graf, D H (1990) An introduction to speech and speaker recognition Hämtad från: http://ieeexplore.ieee.org.lt.ltag.bibl.liu.se/iel1/2/2059/00056868.pdf?tp=&arnumber=568 68&isnumber=2059 Johnson, A. & Garmark, S (2000) Speech Recognition possibility and usability for peoplewith disabilities - Lunds Universitet Hämtad från: http://www.certec.lth.se/doc/speechrecognition/speech.pdf 11