Taligenkänningssystem

Taligenkänningssystem Deras uppbyggnad och applicering Linus Dennerlöv 2013-08-14

Sammanfattning I denna rapport kommer jag att gå igenom vad taligenkänningssystem är för något, vilka problem sådana system ställs inför och hur man löser dessa problem. Alla taligenkänningssystem har samma grundkomponenter och de flesta byggs upp på samma sätt. Grunden ligger i att alla ord representeras i en varsin modell. Dessa modeller kallas Hidden Markov Modeller (HMM). Systemet måste sedan räkna ut vilken modell som passar den akustiska inputen (ordet som sägs) bäst, vilket görs med hjälp av en algoritm; Viterbis algoritm. För att få fram den bästa outputen måste systemet kunna hantera olika uttal och andra problem som språket medför vilket kräver att systemet både har semantisk och syntaktisk kunskap om språket. Taligenkänningssystem finns tillgängliga för i princip alla i dagens samhälle, men det krävs mer arbete med systemen för att gör de effektivare och på så sätt kunna användas i större utsträckning.

Innehåll 1. Grunder för taligenkänningssystem... 1 2. Problem för taligenkänningssystem... 2 3. Akustiska modellen, språkmodellen och Bayes regel... 2 3.1 Bayes regel... 2 3.2 Språkmodellen... 2 3.3 Akustiska modellen... 3 3.4 Akustiska modellen/språkmodellen i Bayes regel... 3 4. Hidden Markov Modeller... 4 5. Viterbis algoritm... 6 6. Applicering av taligenkänningssystem... 8 7. Diskussion... 9 Litteraturförteckning... 11

1. Grunder för taligenkänningssystem Enligt Schmandt (1994) finns det tre grundkomponenter som måste finnas i alla taligenkänningssystem som är: 1. En representation för tal som effektivt beräknar mönstermatchning. Representationen skapas genom att igenkännaren konverterar talsignaler innan den börjar analysera och identifiera ord. Ju mer avancerat system man vill ha desto grundligare måste talinputen representeras. 2. Det måste finnas ett antal mallar eller modeller, som är beskrivningar av alla ord som ska kännas igen, som kan matchas med talets representation som används av igenkännaren. Mallarna är en beskrivning av ordet i igenkännarens vokabulär dvs. en mall som jämförs med inputen. 3. En mönstermatchnings-algoritm som bestämmer vilken mall som passar talinputen bäst. Denna algoritm måste avgränsa ord, lokalisera den mest lika mallen och bestämma ifall det är tillräckligt liten skillnad på inputen och mallen för att systemet ska kunna acceptera ordet. I mer avancerade system måste matchningstekniken ha mer avancerad kunskap om språket såsom syntax och semantik. Man skiljer på två olika typer av taligenkänningssystem. Det är talarberoende (speaker dependent) och talaroberoende (speaker independent). Med talarberoende menas att systemet är anpassat efter en speciell individ, alltså bara en röst. Dessa system måste tränas upp av den som ska använda systemet vilket gör att systemet inte behöver ha en så bred representation av språket till skillnad från talaroberoende som måste hantera olika uttal, tonlägen etc. Företag använder idag taligenkänningssystem för exempelvis biljettbokning eller svara på andra kundtjänstrelaterade frågor. Dessa system har dock en relativt enkel uppgift då de endast behöver behandla isolerat tal och kan matcha det med en väldigt begränsad databas. Ifall man exempelvis ska beställa en resa genom ett taligenkänningssystem så finns det bara ett visst antal destinationer och när ens begäran består av ett ord och inte en hel mening så är talet isolerat och därför lättare att matcha med de möjliga destinationerna. Problemen för ett taligenkänningssystem ökar markant när det måste börja hantera kontinuerligt tal. Large-vocabulary continuous speech recognition (LVCSR) innebär att systemet ska klara av vokabulär på 20-60 tusen ord och kontinuerligt tal. Ett system som kan hantera LVCSR och är taloberoende kräver väldigt mycket kapacitet då systemet måste hantera flera problem som det mänskliga språket innebär. (Russell & Norvig, 2010) 1

2. Problem för taligenkänningssystem Det finns ett antal problem som ett taligenkänningssystem måste lösa för att fungera effektivt. Ta exempelvis det engelska uttrycket recognize speech som nästan låter likadant som wreck a nice beach ifall man säger det fort. Detta är ett exempel på vad som skiljer skriftspråket från talspråket; man kan sätta ett mellanslag efter ett avslutat ord och på sätt avskilja orden på ett sätt som inte går när man ska representera talspråket. Man måste alltså hitta en metod för att segmentera talspråket. Ett annat problem som uppstår är att en ordföljd skapar ett annat fonetiskt uttal än det isolerade ordet. Nice beach är ett exempel på detta där ändelsen på beach är ett [s]-ljud och början på beach är ett [b]-ljud, men när man säger orden snabbt så låter det som att de sammankopplas till ett [sp]-ljud. Detta kallas för koartikulation. Ett tredje problem för taligenkänningssystemet är att ord kan ha samma uttal men olika stavning, kallat homofoner. Ett exempel på homofoner är skäl, stjäl och själ. (Russell & Norvig, 2010) 3. Akustiska modellen, språkmodellen och Bayes regel Ett taligenkänningssystem måste ha en hel del information implementerat i sig för att kunna fungera. Man delar upp den informationen i två olika delar kallat den akustiska modellen och språkmodellen. Dessa två modeller kan sedan implementeras i Bayes regel. 3.1 Bayes regel För att hitta den mest troliga sekvensen av ord givet en talinput måste man hantera problemet med hjälp av probabilistisk logik. Probabilistisk logik används när man ska hantera resonemang där variablerna behöver ett sannolikhetsvärde istället för ett sant/falsk-värde. På så sätt kan man hantera osäkerhet i sina resonemang. Inom taligenkänning använder man Bayes regel för att hitta vilket ord som är mest troligt att ha framkommit ur en talinput. Bayes regel ser ut så här inom taligenkänning: P(ord 1:t ljud 1:t ) = P(ljud 1:t ord 1:t )P(ord 1:t ) 3.2 Språkmodellen P(mening 1:t ) är språkmodellen i Bayes regel, P(ord 1:t ljud 1:t ) = P(ljud 1:t ord 1:t )P(ord 1:t ), och har alltså som uppgift att räkna ut sannolikheten för att ett ord följer ett annat ord. Den typen 2

av språkmodell som används i taligenkänningssystem är N-gramsmodeller. Med N- gramsmodeller menas att en databas av talat språk används för att få fram statistik av ordföljder. Databaserna som modellen tar sin statistik ifrån är talkorpusar. En korpus är en databas fylld med samlingar av texter ur olika genrer som till exempel dagstidningar och skönlitteratur. En talkorpus är då en databas som tar statistik ur kontexter där talat språk förekommer. Ett exempel på en talkorpus är The switchboard corpus som har transkriberad data från 2430 telefonsamtal vilket resulterar i ungefär 3 miljoner ord. N-gramsmodellen tar då denna databas och får fram statistik för vilka ord som har en tendens att följa andra ord. Det finns olika typer av dessa modeller där bigram (2-gram) tar statistik på en ordföljd av 2 ord, trigram (3-gram) tar statistik på en ordföljd av 3 ord, osv. 3.3 Akustiska modellen För att systemet ska kunna känna igen ett ord som talas in så måste den ha en representation av det ordet. Med hjälp av de akustiska särdrag varje ord har så skapas en akustisk modell för det. Denna modell byggs upp av fonem; som är språkets minsta beståndsdel. Man har identifierat ungefär 100 foner hos människan och med hjälp av dessa kan vi forma vilket ord som helst i det mänskliga språket. Med den akustiska modellen menas att varje ord har en akustisk representation för just det ordet. Dessa representationer tar man ifrån en talkorpus. Ett exempel på hur komplext ett väl fungerande LVCSR måste vara kan tas när man kollar på The switchboard corpus där endast 27 % uttalar because på samma sätt. I Bayes regel, P(mening 1:t ljud 1:t ) = P(ljud 1:t mening 1:t )P(mening 1:t ), är den akustiska modellen P(ljud 1:t mening 1:t ). Vad denna ekvation vill räkna ut är vad sannolikheten att mening 1:t matchar ljud 1:t. 3.4 Akustiska modellen/språkmodellen i Bayes regel Problemen med segmentering, koartikulation och homofoner kan man lösa med hjälp av den akustiska modellen och språkmodellen. Med dessa två modeller kan man hitta det mest sannolika ordet givet en akustisk input om man använder Bayes regel: P(ord 1:t ljud 1:t ) = P(ljud 1:t ord 1:t )P(ord 1:t ) 3

I denna regel är P(ljud 1:t ord 1:t ) den akustiska modellen. Vad denna del i regeln säger är hur ett ord uttalas och kan vara exempelvis ceiling. Eftersom seiling uttalas likadant så representeras seiling på samma sätt i den akustiska modellen men med hjälp av språkmodellen, som då är P(ord 1:t ), kan man göra skillnad på de båda orden. Språkmodellen kan med hjälp av intilliggande ord räkna ut sannolikheten för vilket som är det rätta ordet. Exempelvis kan modellen få fram att det är 500 gånger troligare med ordekvensen ceiling fan än det är med seiling fan. (Russell & Norvig, 2010) 4. Hidden Markov Modeller Hidden Markov Modeller (HMM) är en typ av Baysianska nätverk. Baysianska nätverk används för att hantera probabilistiska resonemang. I en sådan modell är variablerna stokastiska; de har inte bara ett sant eller falskt värde som i första ordningens predikatlogik, utan istället har variablerna ett sannolikhetsvärde. Man kan exempelvis säga att ifall man vill ha ett system som kan diagnostisera sjukdomar så är symptomen de olika variablerna som ges ett sannolikhetsvärde för hur väl de passar in på olika sjukdomar. Inom Artificiell Intelligens så vill man kunna skapa agenter eller system som kan motsvara de mänskliga kognitiva processerna och eftersom vi i många fall handlar rationellt så vill man skapa agenter eller system som kan hantera osäkerhet i sin miljö. Grunden i HMMs ligger i att man har dolda variabler och en output som är observerbar. Med hjälp av den observerbara outputen så kan man räkna ut sannolikheten för i vilka tillstånd de dolda variablerna har befunnit sig. I modellen är sannolikheten distribuerad mellan de olika tillstånden med ett totalvärde av 1 ifrån varje variabel och man kan på så sätt hantera osäkerhet i en miljö. Här är en illustration av en HMM: Figur 1. Illustration av en Hidden Markov Modell (HMM). 4

Exemplet figur 1 går ut på att en person, som vi kan kalla Alice, har en kompis, som vi kan kalla Bob. De bor långt ifrån varandra men pratar med varandra varje dag om vad Bob har gjort (vandrat, handlat, städat). Dessa är då den observerbara outputen. Men Bob berättar aldrig vilket väder det har varit vilket gör regnigt eller soligt till de dolda variablerna. Men eftersom Alice vet de generella väderförhållandena där Bob bor och vad sannolikheten är att han gör en viss aktivitet givet ett visst väderförhållande så kan hon räkna ut vilket som är det mest troliga vädret en viss dag. Detta är en typ av HMM där alla de dolda variablerna är sammankopplade med varandra; då ett tillstånd kan gå emellan alla de andra tillstånden. Taligenkänningssystem grundar sig i sådana här modeller, men ser dock annorlunda ut då de dolda variablerna inte är sammankopplade med varandra. Figur 2 visar hur en HMM ser ut i taligenkänningssystem. Denna typ av HMM kallas för left-to-right HMM eller en Bakis HMM. Fig.2. En Hidden Markov Modell där variablerna inte är kopplade till varandra, utan endast till nästa variabel eller till sig självt. Figur 2 skulle kunna vara en modell av ordet båt där varje tillstånd (s1, s2, s3) representerar varje fon i ordet. Att tillstånden kan gå tillbaka till sig självt (självloopas) innebär att modellen kan hantera att man uttalar ordet som bbbbbåååååååååttttttt. Detta är givetvis en väldigt förenklad modell, men den ger ändå en inblick i hur den fungerar. Alla ord som samlats ur en korpus representeras med hjälp av en Bakis HMM. Men för att få reda på vilken modell som passar den akustiska inputen bäst måste den akustiska inputen avkodas på något sätt. Detta görs med hjälp av Viterbis algoritm. 5

5. Viterbis algoritm Viterbis algoritm används för att avkoda den akustiska inputen i en HMM. Detta är en process i flera steg och exemplet som jag kommer använda och som illustreras i (Jurafsky & Martin, 2000) är uttrycket [aa n iy dh ax]. Bokstäverna inom parentesen är fonerna som ska resultera i outputen I need the som också är den statistiskt mest troliga outputen. Här har vi problemet med continouus speech; orden är inte uppdelade med pauser mellan varje ord, alltså segmenteringsproblemet. Det kan tilläggas att detta exempel är väldigt förenklat och fungerar endast som förklaring för hur algoritmen fungerar. Till att börja med så visar figur 3 modeller för orden the, on, need och I och sannolikheterna för övergångar mellan de olika fonemen. Dessa är de akustiska modellerna för orden. Ordet on används i sin tur bara för att visa vikten av att hur hela ordsekvensen hör ihop istället för bara det isolerade ordet. Figur 3. Hidden Markov Modeller för de engelska orden the, on, need och I. Figur 4. Diagram över bigram-sannolikheterna av de fyra orden need, the, on och I. 6

I figur 3 så har vi alltså en akustisk modell över de fyra orden och när dessa kompletteras med språkmodellen över de fyra orden som vi har i figur 4 så kan vi få fram ett resultat av avkodningen som visas i figur 5. I detta diagram visas orden och dess fonem på y-axeln och den akustiska inputen på x-axeln. Figur 5. Diagram med sannolikheterna över vilka dolda tillstånd den akustiska inputen har befunnit sig. Första fonemet är alltså [aa]. Detta ljud passar in på både I och on. Den akustiska modellen över I visar att det är.20 i sannolikhet att ordet börjar med fonemet [aa] och.079 att ordet är början på en mening vilket resulterar i sannolikheten.0016. Viterbis algoritm tittar tillbaka i föregående frame, som indikeras av pilarna, som man ser i [n] där.0016 används i både the och need multiplicerat med bigrammodellens sannolikhet multiplicerat med den akustiska modellens sannolikhet. Till slut har algoritmen avkodat den akustiska inputen och kommit fram till att outputen ska vara I need the. På detta sätt har algoritmen dels avkodat inputen och även löst segmenteringsproblemet. Efter att fonemet [n] har avkodats så ser man att den mest troliga sekvensen är ordet on, men eftersom inget ord i modellen passar in på on följt av [iy] så är denna väg inte möjlig. Detta är som sagt en förenkling och när man lägger till alla möjliga uttal som dialektala skillnader innebär så blir avkodningen mer avancerad vilket skapar ett stort problem för taligenkänningssystem. I teorin är dock detta en lösning på problemet med att få ett system att kunna avkoda mänskligt tal. (Jurafsky & Martin, 2000) 7

6. Applicering av taligenkänningssystem Vi kan i dagens samhälle se hur taligenkänningssystem kan fungera i ett kommersiellt och vardagligt syfte. Enkla former av teknologin används i de flesta smarttelefoner. Min telefon kan man bland annat transformera en röstinput till text som kan användas för att göra en googlesökning eller skriva sms och det är även möjligt att ringa upp någon genom att bara tala om för telefonen vem jag vill ringa. Hur en mobil enhet behandlar den akustiska inputen kan ske genom tre olika typer av system. Dessa är: Embedded Speech Recognition (ESR), där alla steg sköts i enheten som används. Network Speech Recognition (NSR), där alla steg sköts av en server. Distributed Speech Recognition (DSR), där stegen delas upp mellan enheten och en server. Enheter som använder ESR behöver språkmodellen och den akustiska modellen implementerad och att alla algoritmer utförs i enheten. Detta medför problemen med att enhetens lagringsutrymme är begränsat. Fördelen är att enheten inte behöver kommunicera med någon server och är därför alltid redo för användning. Dessa problem undviker man genom att ha NSR-system. Enheten tar då bara in den akustiska signalen som skickas till en server som behandlar informationen. Systemet har då större möjligheter att klara av dialektala skillnader och olika språk. Nackdelen är framförallt att kvalitén på den akustiska inputen försämras när informationen måste skickas vidare till en extern server. I DSR-system så tar enheten hand om uppgiften att skapa en representation av den akustiska inputen som sedan skickas vidare till en extern server som behandlar informationen. På detta sätt får språkmodellen och den akustiska modellen mer kvalitativ data att behandla vilket ger ett bättre resultat. (Schmitt, Zaykovskiy, & Minker, 2008) Taligenkänningssystem kan dock användas i andra sammanhang än att bara förenkla människors vardag. En studie gjordes för att undersöka ifall en man som är drabbad av afasi kunde använda ett taligenkänningssystem som hjälpmedel i livet. Afasi är en språkstörning som kan visa sig på olika sätt. Vissa personer med afasi har svårigheter att producera verbalt tal, andra har svårigheter med ordassociationer och i fallet som beskrivs i denna studie har personen svårigheter med att skriva ner sina tankar och saker han kan beskriva verbalt. Till exempel tog det personen 5 minuter att skriva det engelska ordet toy. Genom att lära patienten att använda taligenkänningssystemet Dragon NaturallySpeaking ville man se ifall detta 8

program kunde hjälpa honom att skriva. Systemet är talarberoende vilket innebär att användaren var tvungen att träna upp systemet för att skapa en mall för talarens röst. Han tränade systemet under 8 månader under 17 entimmessessioner. Efter att ha lärt sig använda programmet och anpassa sitt tal efter att göra det så effektivt som möjligt så lyckades programmet få fram 84 % rätt i ett standardtest vilket inte är jätteimponerande ifall man vill ha ett pålitligt system, dock tyckte patienten att hans livssituation förbättrades med hjälp av det. Detta är ett av de mer sofistikerade taligenkänningssystemen som existerar i kommersiellt syfte och att personen hade ett initialt problem med språket hade en del i den låga siffran, men detta ger en insikt i hur svårt det är att få ett effektivt taligenkänningssystem. (Bruce, Edmundson, & Coleman, 2003) 7. Diskussion Det finns många användningsområden och det är tydligt att taligenkänningssystem är något som kommer finnas i större utsträckning i framtiden. Det pratas mycket om hur mobiltelefoner bidrar till många olyckor i trafiken och kanske är röststyrda telefoner en del av lösningen på det problemet? Jag använder själv min smarttelefons taligenkänning när jag är hemma i en ostörd miljö. Tyvärr blir i alla fall jag mer förvånad när funktionen fungerar än när det inte fungerar vilket är det stora problemet för taligenkänning. Man kan förstå varför när man inser vilken minneskapacitet och processorkraft som krävs. Men de applikationer jag använder kommer ändå alltid fram till en output och oftast förstår man att det inte är otänkbart att telefonen har kommit fram till det resultatet. Så ifall man kan göra systemen mer effektiva och bättre på att få fram rätt output så tror jag att taligenkänning kommer användas av fler. Jag tror även att man kan jobba mer på att utforma gränssnitt som gör det lätt att ändra på det som har gått fel i processen. Exempelvis kan enheten ge förslag på alternativa resultat. Användningen bör även uppmärksammas bättre av tillverkarna för att funktionen ska användas som ett hjälpmedel i vardagen. Men utvecklingen går ständigt framåt och med tanke på hur utvecklingen har gått framåt de senaste åren så kan jag tänka mig att man kan skapa telefoner som har tillräckligt med kapacitet för att hantera ett tämligen träffsäkert taligenkänningssystem. Jag tror även att det kommer finnas intresse av att utveckla teknologin då det kan bidra till en förbättring i människors livssituation som i studien med afasipatienten som med hjälp av ett taligenkänningssystem kunde uttrycka sig i skrift. Resultatet som studien med afasipatienten 9

visade också att man antagligen bör fokusera på att skapa system som är talarberoende och först och främst göra dessa mer träffsäkra. Talaroberoende system kräver mer kapacitet då det måste ta hänsyn till dialekter och andra uttalsskillnader vilket kan fungera vid begränsade ordförråd, men vid LVCSR-system så lär det dröja innan riktigt bra taligenkänningssystem kommer finnas. 10

Litteraturförteckning Bruce, C., Edmundson, A., & Coleman, M. (2003). Writing with voice: an investigation of the use of a voice recognition system as a writing aid for a man with aphasia. International Journal of Language & Communication Disorders, Volume 38(2), 131-148. Jurafsky, D., & Martin, J. H. (2000). Speech and language processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Englewood Cliffs, New Jersey: Prentice- Hall, Inc. Russell, S., & Norvig, P. (2010). Artificial Intelligence: A Modern Approach. Upper Saddle River, New Jersey: Pearson Education (US). Schmandt, C. (1994). Voice Communication with Computers: Conversational Systems. New York: Van Nostrand Reinhold. Schmitt, A., Zaykovskiy, D., & Minker, W. (2008). Speech recognition for mobile devices. International Journal of Speech Technology, Volume 11, Issue 2, 63-72. 11