AUTOMATISK IGENKÄNNING AV TAL

Transkript

1 AUTOMATISK IGENKÄNNING AV TAL 1 INLEDNING Mats Blomberg och Kjell Elenius Institutionen för tal, musik och hörsel, KTH 2005 Automatisk igenkänning av tal är ett relativt nytt forskningsfält. De första försöken började i slutet på 40-talet. Forskningen på området tog inte riktig fart förrän datortekniken blev mera allmän under 60-talet lanserades det första kommersiella ordigenkänningssystemet. Det hade en vokabulär om hundra ord. Nu finns flera och betydligt mer avancerade produkter på marknaden, bland annat dikteringssystem som kan känna igen tiotusentals ord. Forskningen är idag till stor del inriktad på att bygga system som kan hantera spontant tal från godtyckliga användare. Dessa kan användas i dialogsystem för exempelvis bokning av biljetter eller databassökningar på Internet, som bland annat kan besvara frågor om väder, lägenheter eller begagnade bilar. 2 PÅ MÄNNISKANS VILLKOR Kursboken kapitel 15.1, 15.2, 15.5, 15.6 Automatisk taligenkänning ger människan en ny kanal för datorkommunikation. Talet är vårt naturliga sätt att kommunicera, och det ger en psykologisk fördel genom att kommunikationen sker på människans villkor - inte maskinens. Händer och ögon lämnas fria för andra uppgifter och med en bärbar, trådlös mikrofon kan operatören röra sig fritt i rummet. Problemen med taligenkänning är emellertid stora. En hel del begränsningar har genom tiderna utnyttjats för att möjliggöra lösningar med tillräcklig igenkänningsförmåga. En vanlig inskränkning var att tillåta inmatning av endast ett ord i taget, ordigenkänning. Orden uttalas med tydliga pauser sinsemellan. För att komma ifrån uttals- och röstvariationer mellan olika talare tillät man ofta endast en användare åt gången. Systemet var alltså talaradaptivt och tränades in för varje ny talare. Denna teknik utnyttjas även i de dikteringssystem som nu finns på marknaden. För att ge användaren fortlöpande information om igenkänningsresultaten är det viktigt att visa vilka ord som känts igen. Man kan då snabbt korrigera förväxlingar och andra fel. En normal talare hinner med drygt dubbelt så många ord per tidsenhet som en skicklig skrivmaskinist (högläsning är 4 gånger snabbare). Vid ordigenkänning gör emellertid kravet på tydliga pauser mellan yttrandena att man hinner med till siffror per timme jämfört med för knappsatsinmatning. Enligt en begränsad undersökning för engelska blir antalet inmatade ord per minut ungefär 20 vid diktering om man tar hänsyn till tiden för korrektioner, vilket är ungefär hälften av vad man klarar av med tangentbord om man har viss skrivvana. Trots detta finns det många tillämpningar där talinmatning innebär en fördel. För till exempel rörelsehindrade som har svårt för att använda tangentbord kan tekniken vara mycket värdefull. Några olika användningsområden beskrivs i Tabell 1.

2 Automatisk igenkänning av tal 2 Tabell 1. Tillämpningar för automatisk taligenkänning samt de fördelar som kan uppnås. DIKTERING TELEFONI STÖD FÖR PERSONER MED FUNKTIONSHINDER Talaradaptiva system med tals ord Används till exempel av läkare, advokater och personer med funktionshinder Talaroberoende system med 1000-talet ord Röststyrda växlar (mobiltelefoner kan ha ett mindre antal talarberoende röststyrda telefonnummer/namn) Information ur databaser Trafikinformation (SAS, SJ, SL,Vägverket) Väderinformation (t ex fjällväder), Aktiekurser System med 10 till 100-tals ord Omgivningskontroll för personer med rörelsehinder, till exempel för att styra belysning, radio, TV, nummerslagning för telefon med mera Ett tidigt och illustrativt exempel på en konkret användning är United Airlines bagagesortering vid O'Hare flygplatsen i Chicago. Från början sorterades bagaget av två man. Den förste tog upp bagaget och roterade det så att den andre skulle kunna se adresslappen varefter han lade ner det på ett transportband. Den andre hade 1,5 sekunder på sig att skriva in ett tresiffrigt flygnummer till sorteringsmaskinen. Totalt rörde det sig om ca 200 olika nummer. Antalet felsorteringar var som lägst 10% - 15% och som högst 30% - 40%. Genom att gå över till taligenkänning behövde man endast en operatör som samtidigt hanterade godset och talade in flygnumret. Tidspressen gjorde dock att felfrekvensen ändå inte minskade i nämnvärd utsträckning. I stället lät man nu operatören säga endast ett ord, nämligen namnet på en av de 85 olika destinationsorterna. Med hjälp av klockan kunde sorteringsdatorn sedan räkna ut vilket som var det korrekta flygnumret. Nu minskade felfrekvensen till under 1%. När man inför taligenkänning är det alltså viktigt att anpassa tillämpningen så att den utnyttjar de fördelar som är möjliga med denna teknik.

3 Automatisk igenkänning av tal 3 3 TALET ÄR EN KOMPLICERAD, KONTINUERLIG PROCESS Det är svårt att på ett enkelt sätt avkoda "fonembudskapet" i en talsignal. Det är ett långt steg mellan ett ords diskreta uppdelning i bokstäver vid skrift och avbildningen av ordets akustiska signal på ett spektrogram. Talorganens mekaniska egenskaper gör att talet blir en kontinuerlig process, där talljuden intimt och ömsesidigt påverkar varandra. Det ömsesidiga beroendet gör att betydande information om fonemen finns i övergångarna, transitionerna, mellan dem. Uttalet av ord som står i fokus är normalt tydligt, medan till exempel artiklar och ändelser och prepositioner ofta utsätts för reduktioner och uttalas otydligt eller utelämnas helt och hållet. Figur 1 ger exempel på hur uttalet av en fras kan reduceras utan att det försvårar förståelsen för en mänsklig lyssnare. Talets kontinuerliga förlopp är särskilt tydligt i den reducerade utsagan. Vad jobbar du med? Va jobbaru me? Figur 1. Spektrogram av frasen vad jobbar du med yttrad av två olika manliga talare. Till vänster ett noggrant, hyperartikulerat, uttal och till höger ett reducerat från en dialogsituation. Sambandet mellan talorganens rörelser under tal och den akustiska talsignalen är komplicerat. Det kunde vara attraktivt att basera taligenkänning på artikulatoriska parametrar, men dessa har visat sig svåra att extrahera. Även mer talproduktionsinriktade parametrar som formanter är svåra att mäta och använda för igenkänning, trots att de har visat sig mycket fruktbara för text-till-talsyntes. Dessutom gäller den akustisk-fonetiska paradoxen som säger att: Det finns inget unikt, entydigt samband mellan en fonetisk enhet, till exempel ett talljud (fonem) eller en stavelse, och dess akustiska realisering i alla tänkbara sammanhang. En talsignal kan inte entydigt delas upp i tidsmässigt icke överlappande delar, som till exempel motsvarar stavelser eller ord. Ovanstående gäller i ännu högre utsträckning tal från olika talare. Att människan ändå har så lätt för att förstå tal beror förstås på en djup insikt i språkets natur samt kunskaper om talaren, ämnet och situationen kombinerat med allmänna omvärldskunskaper. Dessutom kan vi utnyttja vår förmåga att predicera vad talaren kommer att säga. Detta gör att vi kan återskapa och kompensera för obefintlig eller förvanskad information i talsignalen.

4 Automatisk igenkänning av tal 4 4 SVÅRIGHETER - TALSIGNALENS VARIABILITET En grundläggande svårighet för automatisk taligenkänning är talsignalens stora variabilitet. Vi vet att män, kvinnor och barn har olika röster med bland annat olika grundtoner. Men å andra sidan kan det ibland vara svårt att veta om det är en man eller kvinna som talar om vi bara kan höra rösten. Talorganens storlek är naturligtvis avgörande för formanternas frekvenslägen och dialekten färgar också talet. I figuren nedan ser vi exempel på spridningen av formanter mellan olika manliga och kvinnliga talare. Det går alltså inte att entydigt klassa de identifiera de främre vokalerna e, i och y enbart utifrån de första två formanterna. Figur 2. Spridning av de två lägsta resonans-frekvenserna (F1 och F2) för isolerade svenska vokaler uttalade av manliga och kvinnliga talare(efter Gunnar Fant). Notera att främre vokaler har en väsentlig överlappning.

5 Automatisk igenkänning av tal 5 reduktion knarr ja de ä väl fredag idag... lång konsonant knarr tvekan så det blir väl ehh... fredag kväll Figur 3. Talaren svarar på frågan När vill du åka?. Spektrogrammet visar på reduktioner och tecken på tveksamhet (förmodligen orsakat av tankeverksamhet) i form av knarr och långsamt tal. Figur 3 visar spektrogram på ett svar på en fråga. Man ser exempel på reduktion, knarr och distorderade fonemlängder. Talet är normalt fyllt av sådana distorsioner som lyssnaren oftast ignorerar totalt. Lyssnandet är ju en aktiv process där lyssnaren är hjälpt av sina kunskaper om talaren, ämnet, språket och kontexten i stort. Däremot kan en taligenkännare ställas inför problem, eftersom man inte kan modellera alla dessa fenomen på ett bra sätt. Man kan till exempel ha flera uttalsvarianter av ett ord för att ta hänsyn till reduktioner, men å andra sidan expanderar detta antalet möjligheter vid igenkänningen, något som i sin tur ökar komplexiteten. Figur 4 ger visar olika orsaker till talets variabilitet. Talet kan även röja talarens sinnesstämning och är man förkyld och täppt i näsan så påverkas talet markant. I en dialogsituation anpassar man både språk och tal till lyssnaren, ju mer bekant man är och känner till om varandra desto mindre tydlig behöver man vara, både i ordval och artikulation. Även kanalens kvalitet påverkar talaren; har man en dålig telefonförbindelse talar man tydligare än normalt. Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Reduktioner Minsta ansträngning Omgivning Additivt brus Rumsakustik Mikrofon, Telefon Bandbredd Störningar brus frekvensgång transienter klickar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin Figur 4. Exempel på faktorer som påverkar talsignalen. Akustiska störningar som efterklang i rum och buller påverkar naturligtvis signalen liksom frekvensgången hos telefoner och mikrofoner. Även om en del av de talarberoende faktorerna normaliseras när man vet att man talar till en maskin så kan tillräckliga effekter kvarstå för att komplicera uppgiften för en taligenkännare.

6 Automatisk igenkänning av tal 6 5 PARAMETRISK OMVANDLING OCH DATAREDUKTION Kursboken: kapitel 10 Den akustisk-parametriska omvandlingen av talsignalen är ett grundläggande steg vid all taligenkänning. I tidsdomänen representeras ofta talsignalen med 64 kbit/s, 8 khz samplingsfrekvens med 8 bitars upplösning, samma som vid digital telefoni. Högre samplingsfrekvens och upplösning kan användas om man inte telefonerar, till exempel vid diktering till en PC. För taligenkänning är det lämpligt att gå över till den spektrala domänen, som ger en mer kompakt och användbar beskrivning av talet. Ett flertal metoder har utvecklats och gemensamt för de flesta är att de baseras på talsignalens korttidsspektrum upp till 4-8 khz över intervall på ca 25 ms. Denna tidslängd är en kompromiss mellan önskemålen om god representation av korta tidsförlopp, samtidigt som variationer beroende på grundtonen bör undvikas. Ofta används FFT-analys (Fast Fourier Transform) för att beräkna amplituder i olika filterband. Det är vanligt att välja filterbandbredderna enligt teorin för kritiska band, som tar hänsyn till örats frekvenskaraktäristik (mel- eller Bark-skala). Vid låga frekvenser är filterdelningen konstant medan den växer ungefär exponentiellt för frekvenser över 1 khz. Exempel på spektrumparametrar för igenkänning finns i figuren nedan. Figur 5. Yttrande: omsorgfullt bilen. FFT-analys konverterad till 16 filteramplituder, Barkskala 0,2 till 6 khz och 10 ms mellan tidsramar.

7 Automatisk igenkänning av tal 7 För att ytterligare reducera datamängden omformas i många system filteramplituderna till ett lägre antal "cepstrum-koefficienter". Cepstrumanalys innebär en invers Fouriertransform av det logaritmerade amplitudspektrat, vilket förklarar namnet. I praktiken beräknas en Spektrum av /a:/ Spektrum av /s/ I Cn = Aicos( nπ( i 05. ) / I) i= 1 1 0,5 0-0, ,5 0-0, ,5 0-0, ,5 0-0,5-1 Viktfunktioner W1 * = W2 W3 * = W Cepstrum av /a:/ C1 C2 C3 C4 Cepstrum av /s/ C1 C2 C3 C4 Figur 6. Cepstrumberäkning från filterbanksspektra. Viktning av filteramplituder till vänster med cosinusfunktioner (mitten) resulterar i koefficienterna C1-C4 till höger. cepstrum-koefficient som en skalärprodukt mellan amplitudspektrum och en cosinusfunktion bestående av ett helt antal halva perioder, se Figur 6. Cepstrumkoefficienter beskriver på ett effektivt sätt spektrums grovstruktur med ett litet antal koefficienter, normalt 8-16 stycken, och en fördel är att de är ortogonala och alltså okorrelerade. En mycket vanlig representationsform är cepstrum beräknat på mel-skaletransformerat spektrum (MFCC, Mel Frequency Cepstral Coefficients). Förutom koefficienternas absolutvärden använder man ofta deras tidsderivator av första och andra ordningen. Det är rimligt att anta att ytterligare studier av människans hörsel kan ge information om hur den akustiska talsignalen skall behandlas. Den analys som sker i örat är oerhört mer avancerad än den som används i praktiska igenkänningssystem. Tyvärr förstår vi ännu långt ifrån allt vad som sker i innerörat och högre auditiva nivåer i hjärnan. Vissa tillämpningar av vår nuvarande kunskap om hörseln har dock visat sig användbara, som Bark-skalan ovan, som är allmänt utnyttjad. Dessutom har auditivt inspirerade modeller visat sig vara fördelaktiga i akustiskt besvärliga miljöer, som vid telefoni eller högt bakgrundsbuller. Talsignal Samplingsfrekvens Ramfrekvens 16 khz 100 Hz FFT Spektralanalys med Fast Fourier Transform db Parametrisering T. ex. cepstrumtransform 8-12 cepstrumkoefficienter var 10:e ms ~6000 Hz 50 Bark 30 Amplitud-frekvensspektrum av /a:/ C1 C2 C3 C4 Cepstrum av /a:/ Figur 7. Analys av talsignalen, från tidsvåg via FFT och spektrum till cepstrumparametrar En metod att på ett komprimerat sätt beskriva talsignalen kallas vektorkvantisering. Man kvantiserar man de spektrala talramarna med hjälp av ett antal "typramar", som först beräknats för att beskriva talsignaler på ett optimalt sätt givet ett visst distorsionsmått. Antalet

8 Automatisk igenkänning av tal 8 typvektorer brukar till exempel vara 256 och tillsammans utgör de en kodbok. Varje inkommande spektrumram klassificeras till den vektor i kodboken som den är mest lik. Detta ger en kvantisering av talsignalen som nu kan beskrivas som en följd typramar. Jämför Figur 8 nedan. Vektorkvantisering av ett yttrande Dela in parameterrymden i ett litet antal områden. Numrera dessa. Typiskt antal är 256. Klassa varje tidpunkt av ett yttrande till ett av dessa områden. Hela yttrandet beskrivs som en följd av indextal. Kraftig datareduktion på bekostnad av kvantiseringsdistorsion. Figur 8. Hur man vektorkvantiserar ett yttrande samt exempel på en tvådimensionell uppdelning av ett plan i åtta kvantiseringsområden. 6 IGENKÄNNINGSMETODER Efter den akustiska analysen följer en beslutsprocess då man ska bestämma sig för vilka ord som sagts. Man kan indela de metoder som finns i ett antal huvudinriktningar. Bland de viktigaste kan nämnas kunskapsbaserade metoder, mönsterigenkänning, neuronnät samt Markovmodellering. De olika metoderna utesluter inte nödvändigtvis varandra. Den första försöker i hög utsträckning utnyttja allmän fonetisk kunskap om tal, medan de övriga huvudsakligen är inlärande system. Numera är Markovmodellering den helt dominerande metoden. Att först hitta fonemen i ett yttrande och därefter de ingående orden kunde vara en attraktiv metod. Om man hypotetiskt tänker sig att man kan känna igen alla fonem för ett språk i alla kontexter så borde man lätt kunna känna igen språkets alla ord. En sådan metod kräver emellertid mycken akustisk-fonetisk insikt för att ge bra resultat. Tyvärr saknas denna kunskap ännu i stor utsträckning vilket resulterar i att den igenkända fonemföljden innehåller fel. Detta resulterar bland annat i att igenkänningsalgoritmen måste vara flexibel och tillåta alternativa fonetiska tolkningar för ett och samma tidsavsnitt i den akustiska talsignalen. 6.1 Kunskapsbaserade system Expertsystem och produktionsinriktade system baseras huvudsakligen på kunskap formulerad av lingvister, fonetiker och talforskare Expertsystem I ett typiskt expertsystem försöker man lägga in den kunskap som en skicklig spektrogramläsare besitter. Reglerna är ofta beslutsregler av typen "om energinivån i lågfrekvensområdet är hög så är segmentet tonande". Ett stort antal regler krävs för att beskriva den akustiskfonetiska variationen i olika sammanhang för skilda talare. Tekniken åtnjöt ett stort intresse under slutet av 70-talet och början av 80-talet. Intresset har därefter svalnat, främst till förmån för automatiskt inlärande system baserade på neuronnät och Markovmodeller. På senare tid har man emellertid börjat kombinera kunskapsbaserade system med statistiska metoder. Om man till exempel vill approximera läget av första formanten i vokaler med att

9 Automatisk igenkänning av tal 9 bestämma en tyngdpunkt i ett frekvensband, kan man med hjälp av ett inlärningsmaterial statistiskt bestämma vilket frekvensband som ger det bästa resultatet. Man kan även beräkna sannolikheten för att första "formanten" ligger i ett visst intervall för olika vokaler och ord. I ett sådant kunskapsbaserat system segmenterar man sedan talet i fonem och beräknar sannolikheter för ord beroende på de använda parametrarnas sannolikhetsfördelningar Produktionsbeskrivande system I talproduktionsinriktade system beskriver man talet i termer som har en närmare koppling till det fysikaliska och artikulatoriska skeendet i mänskligt tal. Med denna inriktning kan man exempelvis utnyttja kunskap om statiska och dynamiska samband som ges av den mänskliga anatomin till att förutse uttal av sällsynta ord eller trifoner som inte observerats i träningsmaterialet. En annan möjlighet är att man kan separera de ingående produktionsfaktorerna och träna dem separat. Man kan sedan beskriva ett stort antal talares röster genom en syntes av aktuella värden på ingående faktorer som röstkvalitet, talrörslängd, talvanor, mm. En produktionsmodell genererar en syntetisk förlaga till de ord som ska testas. Själva jämförelsen kan ske på samma sätt som med metoder baserade på akustisk inlärning. Metoden kan sägas beskrivas som analys genom syntes. Fördelen med denna teknik är att även sällan förekommande uttal kan beskrivas, vilket ofta inte är möjligt i inlärande system med begränsad mängd träningsdata. Beskrivningssättet medger också att man kan kombinera automatisk inlärning med känd kunskap från talanalys och talsyntes. Man ser även möjligheter till gemensam utveckling av system för både taligenkänning och talsyntes baserade på samma, automatiskt träningsbara, produktionsmodell. Ett problem med de kunskapsbaserade inriktningarna är att vi idag inte vet tillräckligt mycket om talets natur för att kunna bygga tillförlitliga system. En extra felkälla är också proceduren för extrahering av talproduktionsparametrar ur talsignalen. Prestandamässigt kan dessa metoder för närvarande inte konkurrera med konventionella system, men på forskningssidan är finns ett uppenbart intresse. 6.2 Mönsterigenkänning Kursboken kapitel , 8.10 Mönsterigenkänningsmetoden var den första som fick bred användning och den utnyttjades i första hand för ordigenkänning. Den utnyttjar ingen egentlig fonetisk information. Informationen om ett ord representeras med ett sparat, tidigare uttal av ordet. En tvådimensionell matris beskriver ett antal analysparametrars tidsvariation för varje yttrande enligt figur 9. Igenkänningsprocessen innebär att man väljer det ord ur den lagrade vokabulären som ger minsta distans mot det okända ordet. För att ta hänsyn till varierande taltempo används normalt en metod med dynamisk programmering som beskrivs nedan.

10 Automatisk igenkänning av tal Orden jämförs med minne Principerna för mönsterigenkänning av ord är alltså rätt enkla, se figur 9. Talsignalen analyseras till exempel i ett frekvensområde mellan ca 200 Hz och 5000 Hz, där större delen av den akustiskt intressanta informationen om fonemen finns. Analysen görs över tidsintervall, som kan vara mellan 10 och 25 ms långa. Ur talsignalens frekvensspektrum beräknas sedan parametrar som bör vara så känsliga som möjligt för skillnader mellan olika fonem. Datorn lagrar under ett inlärningsskede talparametrarnas tidsmässiga variation för varje ord i den aktuella vokabulären. Parametrarna kan antingen baseras på ett enda yttrande eller vara medelvärdade över flera yttranden av samma ord. Efter inlärningen representeras varje ord i igenkänningsvokabulären av ett mönster bestående av talparametrarnas värden vid olika tidpunkter över ordet, till exempel 16 värden vid 32 tidpunkter. Då ett ord skall kännas igen jämförs dess parametriska mönster med de lagrade mönstren för alla möjliga ordkandidater. Eftersom taltempot ofta varierar, justeras ordens tidsmässiga utsträckning innan de jämförs. Efter att ha jämfört med alla ord väljer datorn det som har bäst överensstämmelse med det intalade. Datorn kan också 50 välja att inte acceptera ett ord om det 45 Referensmönster inte stämmer tillräckligt bra överens Okänt yttrande med något av de 10 5 lagrade mönstren. Distansfunktion Figur 9. Ett försök att åskådliggöra hur man beräknar avståndet mellan ett yttrande och referensmönstret för ett ord i igenkänningsvokabulären.

11 Automatisk igenkänning av tal Korrektion för talhastigheten Vid igenkänning av ett ord måste man normalt ta hänsyn till talhastigheten. Eftersom taltempot i princip aldrig är exakt detsamma för två yttranden av samma ord, måste man vid jämförelsen mellan ord göra en korrektion. En enkel metod är att dela upp alla ord i ett bestämt antal delar. Metoden ger en linjärt normaliserad tid och alla ord får lika många segment. Tyvärr ger en ändring av taltempot inte upphov till proportionellt samma tidsförskjutningar över hela ordet. En linjär skalning är därför inte tillräcklig. En metod som är baserad på dynamisk programmering innebär att man vid jämförelsen av två ord finner en bästa överensstämmelse genom att tillåta vissa lokala sträckningar och töjningar av det ena ordet. Vid den dynamiska programmeringen brukar man tillåta lokala variationer av tidsskalan på mellan 50% och 200%. Normalt betyder det att om en tidpunkt, i, i det intalade okända ordet avbildas på en punkt j i ett referensord blir nästa tillåtna punktpar någon av följande tre: [i+1, j+1] (ingen tidstöjning), [i+1, j+2] (ett överhoppat sampel i referensordet) eller [i+2, j+1] (ett överhoppat sampel i inordet), beroende på vilket som ger den bästa överensstämmelsen. Antalet distansmätningar mellan sampelpunkter ökar avsevärt jämfört med linjär tidskorrektion. Men å andra sidan garanterar metoden att man hittar den optimala avbildningen enligt de givna villkoren. Se även Figur 10. Metoden brukar kallas Dynamic Time Warping, DTW, på engelska. En nackdel med metoden är avsaknaden av en fonetisk beskrivning av vokabulären. Detta medför att varje Figur 10. En optimal tidsavbildning mellan två ord beräknad med hjälp av dynamisk programmering. I detta fall skall första och sista punkterna avbildas på varandra. Linjer med lutningen 1/2 respektive 2 begränsar tillåtna avbildningar enligt de lokala villkoren enligt ovan. Dynamisk programmering innebär att de avbildningar som är möjliga enligt de lokala villkoren beräknas. Som slutresultat får man den optimala avbildningen. ingående ord måste tränas in, även om det till större delen är identiskt med något annat ord. Under igenkänning innebär samma förhållande att varje ord måste testas separat, något som tar betydligt längre tid jämfört med att identiska orddelar testas gemensamt. Mönsterigenkännande system är därför inte lämpade för stora vokabulärer.

12 Automatisk igenkänning av tal Artificiella neuronnät Kursboken kapitel 13 En teknik som på senare år tilldragit sig mycket intresse är artificiella neuronnät, som baseras på enkla analogier med nervsystemet. Med elementära modeller för nervceller, noder, och deras förbindelser med varandra har man uppnått överraskande goda resultat. I Figur 11 visas några av grundprinciperna. Kopplingsstyrkan mellan noderna i nätet varierar och kan vara både positiva, stimulerande, och negativa, inhiberande. Kopplingarna kallas vanligen för vikter. Normalt adderar man summan av de viktade insignalerna till en nod enligt en olinjär funktion, som ofta har karaktären av en beslutsfunktion, dvs den är till eller från, och utsignalen begränsas ofta till intervallet 0 till 1, eller -1 till 1. Sigmoidfunktionen, som är deriverbar, är den som normalt brukar användas. Varje nod har även en förspänning. Θ Figur 11. Principer för artificiella neuronnät. Insignalerna x n till en nod multipliceras med vikterna w n och summeras, varefter en konstant Θ subtraheras. Detta ger insignal till nodens beslutsfunktion f, varav några exempel visas i figurens nedre del. Genom att variera Θ flyttas beslutspunkten för f. Funktionerna kan (från vänster) beskrivas som: hård begränsare, tröskellogik och sigmoid. De nät vi närmare kommer att beskriva kallas ofta "backward propagation-nät", efter den algoritm (error back propagation), som används för att bestämma nätets väsentliga parametrar. Vissa noder drivs av yttre signaler, till exempel spektrala nivåer, medan andra bara reagerar på stimuli från interna noder i nätet, se Figur 12. Noderna brukar ligga samlade i olika "lager" eller nivåer. En nod på en given nivå är normalt ansluten till varje nod i närmast underliggande nivå. Den lägsta nivån är ansluten till insignalerna. Sedan följer ofta ett "dolt" lager av noder, som man inte observerar direkt, medan det översta lagret brukar ha en nod för varje klassning, beslut, som nätet kan utföra. Det kan till exempel vara noder som signalerar ett igenkänt fonem. Den särskiljande förmågan i nätet ligger i vikterna mellan noderna och dessa måste läras in.

13 Automatisk igenkänning av tal 13 Figur 12. Ett neuralt nät som får sin insignal från 16 filter och har ett dolt lager med 13 noder. Utsignalen ger en klassning av inmatat talspektrum i 7 fonetiskt inspirerade särdrag. Under inlärningen presenteras ett instimuli, till exempel ett akustiskt mönster för vokalen "a", för innoderna samtidigt som dess identitet presenteras för utnoderna, genom att noden för "a" sätts till 1 medan övriga utnoder sätts till 0. Vikterna (och förspänningarna) justeras sedan i mycket små steg så att utsignalen på samma instimuli blir något bättre nästa gång. Därefter presenteras ett nytt in- och ut-stimulipar och vikterna korrigeras igen. När alla stimulipar i inlärningsmaterialet presenterats (vilket brukar kallas en epok) börjar man om från början och man kan göra om denna iterativa procedur tusentals gånger innan inlärningen är klar. Om man har få inlärningsmönster och många parametrar kan nätet lära sig varje stimulipar nära nog perfekt. För nya inmönster fungerar det däremot mindre bra - nätet har blivit överinlärt. Vad man i stället eftersträvar är att nätet skall generalisera utifrån inlärningsmaterialet så att det fungerar bra även på nya, okända inmönster. Här spelar storleken på inlärningmaterialet, nätets topologi och själva problemets natur in. Även om inlärningen kan ta lång tid så är själva igenkänningen betydligt snabbare, särskilt om den realiseras i parallell maskinvara. Allmänt kan man säga att neuronnät har svårt för att modellera tidsförlopp. Deras styrka ligger snarare i att klassificera, till exempel att känna igen fonem från spektrumsektioner. En relativt enkel metod för att ge nätet information om koartikulation och kontexteffekter mellan talljud är att mata in flera successiva spektrumramar, till exempel 5-10 ramar om 10 ms, för varje ram som skall klassas. Denna teknik användes bland annat vid de första framgångsrika taligenkänningsförsöken med den så kallade TDNN-tekniken (Time-Delay Neural Networks). En vanlig metod för att ge igenkänningssystem baserade på neuronnät en möjlighet att modellera tidsförlopp är att kombinera dem med andra mer konventionella tekniker. Det finns ett flertal hybridsystem där man först använder neuronnät för fonemklassning och sedan utnyttjar samma metoder som vid Markovmodellering för att känna igen ord och meningar.

14 Automatisk igenkänning av tal Markovmodeller Kursboken kapitel , , , , Vid denna metod betraktas talförloppet som en Markovprocess. Enligt Markovantagandet är processens förflutna betydelselöst för dess framtida förlopp, se Figur 13, som visar en enkel Markovmodell. Vid igenkänning ses ett yttrande som resultatet av en produktionsprocess bestående av en följd av tillstånd (states). Sannolikheten att gå från ett tillstånd till ett annat benämns övergångssannolikhet. En komplikation är att talprocessens tillstånd inte kan observeras direkt. Man kan endast göra observationer som har ett statistiskt samband med modellens tillstånd. Sannolikheten för att göra en viss observation i ett tillstånd, kallas observationssannolikhet. Observationen kan till exempel vara en spektrumram. Det är inte möjligt för en observatör att exakt veta i vilken följd tillstånden i en modell passerats och vad de producerat. Däremot En Markovprocess kan man beräkna sannolikheten för att en viss modell producerat det som observerats. Man talar därför om en dold Markovmodell (Hidden Markov Model - HMM). Vid ordigenkänning representeras varje ord av en Markovmodell. Talspektrum samplas till exempel var 10:e eller 25:e ms, ofta i form av cepstrumparametrar och deras tidsderivator. Man beräknar sannolikheten för att modellen producerat de observerade cepstrumparametrarna med hjälp av observationssannolikheterna och övergångssannolikheterna. Det är möjligt att göra "självövergångar" - gå till samma tillstånd man just befann sig i. Observations- och övergångssannolikheterna ger sannolikheten för att modellen gett upphov till de observerade Övergångssannolikheter mellan tillstånd Observationssannolikheter a: 0.3 b: 0.6 c: 0.1 inom tillstånd Tillståndssekvensen kan inte observeras direkt Sannolikheten för att modellen ska ha genererat en observerad symbolföljd kan beräknas. Den mest sannolika tillståndsföljden (Viterbi) eller de N mest sannolika följderna (N-best algorithm) kan bestämmas a: 0.8 b: 0.1 c: 0.1 a: 0.4 b: 0.3 c: 0.3 S S 1 2 S Modelleras med tillstånd förbundna med bågar med övergångssannolikheter Saknar minne Förloppet beror enbart på det aktuella tillståndet, inte på historien S 1 S 2 S Figur 13. En enkel Markovprocess. Cirklar anger tillstånd och pilar markerar möjliga övergångar med de givna övergångssannolikheterna. Figur 14. En Markobprocess som producerar symbolerna {a,b,c} med de givna observations- och övergångssannolikheterna. parametrarna. Det ord väljs, som med största sannolikhet har genererat den följd som detekterats. Det har i praktiken visat sig att observationssannolikheterna är viktigare än transitionssannolikheterna.

15 Automatisk igenkänning av tal 15 VK- kodbok kodords - sannolikheter tillstånd Figur 15. En diskret HMM. För varje tillstånd har man beräknat sannolikheten för att observera de olika kodorden. Jämför Figur 8 ovan. Det finns iterativa algoritmer för att beräkna Markovmodellens sannolikheter ur talmaterial, där man vet vad som sagts. Inlärningsproceduren är långsam och kräver ett stort material för att ge tillräckligt goda uppskattningar av alla ingående sannolikheter. Vid igenkänningen använder man ofta dynamisk programmering som i detta sammanhang brukar kallas Viterbisökning. Eftersom antalet tillstånd normalt är betydligt färre än antalet ramar vid mönsterigenkänning med dynamisk programmering blir igenkänningen snabbare än för denna. Under senare tid har Markovmodeller varit helt dominerande vid försök med stora ordförråd. Beroende på hur observationssannolikhe- Markovmodeller. I de förra terna modelleras skiljer man på diskreta och kontinuerliga kvantiserar man de spektrala ramarna med hjälp av vektorkvantisering, se figur 8 ovan. Diskreta observationssannolikheter anger sannolikheten för att erhålla de olika typramarna i Markovmodellens olika tillstånd, se Figur 15. En fördel med metoden är att man kan representera godtyckliga frekvensfunktioner. Å andra sidan får man kvantiseringsfel från vektorkvantiseringen. En nackdel är också att kvantisering och HMM optimeras separat. Ett alternativ är att använda kontinuerliga statistiska funktioner för talparameterfördelningarna. Under igenkänningen beräknas observationssannolikheterna ur dessa. De beräknas alltså direkt från talparametrarna (oftast cepstrumparametrar) utan någon mellanliggande kvantisering. Kontinuerliga modeller kräver större inlärningsmaterial än diskreta, men när materialet är tillräckligt stort ger de bättre resultat. komponenter komponentvikter tillstånd Figur 16. En kontinuerlig HMM. Med flera viktade normalfördelningar kan man modellera även onormala frekvensfunktioner. Vanligtvis använder man Gaussfördelningar för att beskriva observationssannolikheterna. En sådan beskrivs av två parametrar: medelvärde och varians. I allmänhet är dock talparametrar inte normalfördelade. En vanlig metod är då att använda flera Gaussklockor med olika medelvärden och varianser för att beskriva frekvensfunktionerna, se Figur 16. En bimodal, "tvåpucklig", funktion kan till exempel modelleras med två klockor och deras relativa vikter. Genom att använda tillräckligt många klockor kan man avbilda en godtycklig funktion med önskad precision. För talparametrar använder man från ett fåtal till några tiotals Gaussfunktioner. Förutom medelvärde och varians behövs också en komponentvikt, som anger den relativa vikten av varje delfunktion i den totala, "blandade" frekvensfunktionen..

16 Automatisk igenkänning av tal 16 Så länge vokabulären är relativt liten, av storleksordningen ett hundratal ord, kan man modellera dem enskilt med 5 till 10 tillstånd för vart och ett. Men när man ska känna igen tiotusentals ord är en fonetisk metod överlägsen. Det vore naturligtvis bra om man kunde klara sig genom att använda ett femtiotal modeller för fonem eller allofoner. Eftersom talljuden förändras mycket beroende på koartikulation med föregående och efterföljande fonem har det visat sig vara mycket bättre att modellera dem i sin kontext. Detta resulterar i trifoner (trefonemföljder). Till exempel ger a-ljuden i: bar, rar, hav och av alla upphov till var sin trifon. På detta sätt får man lätt tiotusentals talljudsmodeller. Antalet möjliga trifoner begränsas av att alla fonemkombinationer inte förekommer - begränsningarna ges av språkets fonotax. Följande exempel gäller en engelsk vokabulär: 8000 (olika) ord innehöll trifoner, medan ord innehöll en ökning om endast 1000 trifoner - och ord innehöll trifoner. I löpande tal ger dessutom fonemföljderna över ordgränser upphov till ett mycket stort antal ytterligare trifoner. Om man räknar med 50 fonem (allofoner) kan man som exempel få maximalt 50 3 = möjliga kombinationer. Antalet parametrar som krävs för Markovmodellering blir ofta för stort för att man ska kunna få tillräckligt bra uppskattningar av dem även om man har stora inlärningsmaterial. Ett vanligt sätt att parera problemet är att slå ihop tillstånd som fonetiskt Vi har a-trifonerna d-a-m och t-a-m, dvs a i kontexten d-m och t-m 3-tillstånds HMM per trifon Samma högerkontext Tillstånd 3 kan delas mellan modellerna + Antalet fria parametrar minskar liknar varandra - man "knyter" tillståndens + Mer träningsdata per fri parameter fördelningar till varandra, jämför figur 17 + kräver mindre minne och Figur 18. Mängden träningsmaterial för ett gemensamt tillstånd blir lika med d m t 1 2 summan av de enskilda tillståndens. Trifoner a a 3 m modelleras vanligtvis med tre till- stånd. Ett exempel på "knytning" vore att Figur 17. För att minska antalet HMMparametrar kan man knyta fonetisk liknande dela på det tredje tillståndet i trifonerna 'dam' och 'tam', eftersom det följande fonemet tillstånd till varandra. är detsamma för båda. Om inlärnings- materialet inte räcker till kan även trifonernas tillstånd två (och ett) knytas till varandra.. Ett ganska vanligt specialfall av knytning brukar kallas semi-kontinuerliga Markovmodeller (Semi Continuous Hidden Markov Models, SCHMM). Här låter man alla Markovtillstånd dela på samma kontinuerliga Gaussfunktioner, som kan vara kring ett femtiotal. Det enda som skiljer tillstånden åt är de diskreta blandningsvikterna. Man kan se det som en hybrid med en kontinuerlig kodbok och diskreta fördelningar som anger vikter för respektive komponent i kodboken. System med stor vokabulär och ordgränstrifoner använder ~ trifoner Akustisk vektor med 39 element och 10 Gausskomponenter (2 parametrar: μ, σ) ger 790 parametrar per tillstånd, varav 10 vikter (mixture weights) 39 x 10 x = trifoner med 3 tillstånd ger parametrar! Knytning (tying) för att dela på modellparametrar ger ~ parametrar. Figur 18. Antalet parametrar i HMM-system är mycket stort även om man använder sig av knytning.

17 Automatisk igenkänning av tal 17 En annan variant är Semi-Markov-modeller för att bättre beskriva segmentdurationers statistiska fördelning. I den ursprungliga modellen innebär Markovantagandet och den konstanta transitionssannolikheten att duration modelleras med en exponentialfördelning. Detta överensstämmer ofta illa med den verkliga fördelningen för fonetiska segment i naturligt tal. Fördelningen kan implementeras under jämförelseprocessen mellan ett yttrande och en Markovmodell genom att göra transitionssannolikheterna beroende av hur länge man befunnit sig i respektive tillstånd. Detta strider mot Markovantagandet (historien påverkar förloppet) och vi har inte längre en ren Markovprocess. Användande av Semi-Markovmodeller ger en viss höjning av prestanda, dock till priset av betydligt längre beräkningstider 7 SAMMANHÄNGANDE TAL Kursboken kapitel , , 12.8 Vid igenkänning av sammanhängande tal tillkommer ytterligare problem. En mening måste följa för språket givna samband bestämda av språkets syntax, semantik, böjningsregler och satsintonation. Att känna igen helt naturligt tal är än så länge en alltför stor utmaning och man inskränker sig istället till en speciell domän med en avgränsad vokabulär. Om man vill kunna känna igen stora vokabulärer, som vid diktering, kan man välja att först adaptera systemet till talarens röst genom denna först får läsa in vissa kända meningar för systemet. Tekniken med mönsterigenkänning går att utsträcka till starkt begränsade ordföljder, exempelvis siffersekvenser. Principen här är att med mönsterteknik beräkna de sannolika ord som kan inleda ordsekvensen. Följande ord måste börja där de föregående slutar och för dem gör man nya mönsterjämförelser utifrån dessa tidpunkter. Nu får man nya sannolika slutpunkter för dessa ord varefter man fortsätter på samma sätt. Sedan väljer man den ordsekvens som ger den totalt sett bästa överensstämmelsen. Vid denna metod använder man enskilda ord vid inlärningen av vokabulären. Detta gör att man inte kan ta hänsyn till koartikulationseffekter mellan orden när de uttalas i en följd. Trots detta är metoden användbar för små vokabulärer. Den tidigare berörda Markovbaserade principen för ordigenkänning kan generaliseras till sammanhängande tal genom att man inför sannolikheter för ordföljder. Vanligt är att beräkna sannolikheten för ett ord utifrån vetskapen om dess frekvens och vilket ord som föregick det. Man kan även ta hänsyn till två eller flera föregående ord. Statistik över förekomsten av två- och treordssekvenser kallas ofta på engelska för "bigram grammar" respektive "trigram grammar" och N-gram (ordföljdssannolikheter) ger bra resultat trots sin enkelhet unigram: P(w i ) ordfrekevens bigram: P(w i w i-1 ) tvåordsföljd trigram: P(w i w i-2, w i-1 ) treordsföljd Ordklassföljder vid otillräckligt träningsmaterial Figur 19. Enkla men väl fungerande språkmodeller för taligenkännig. Om man inte har tillräckliga mängder träntingsdata (textmaterial) kan man använda sig av ordklasser i ställer för ord. ersätter syntax och semantik i en vanlig grammatik, se Figur 19. Det krävs texter på många miljoner ord för att kunna beräkna de önskade sannolikheterna med tillräcklig noggrannhet. För att kombinera den akustiska och språkliga informationen använder man sig av Bayes regel enligt Figur 20.

18 Automatisk igenkänning av tal 18 De kunskapsbaserade metoderna kan utsträckas till sammanhängande tal genom att införa regler för syntax, semantik och kanske även prosodi. Neuronnät används mest för fonemigenkänning och förekommer som tidigare nämnts mest i hybridsystem där de kombineras med metoder från Markovmodellering till kompletta system. Vid igenkänning av löpande tal utgår man från fonembaserade enheter. I ett lexikon definierar man vilka P ( Ord / Akustik P ( Akustik / Ord ) P ( Ord ) P ( Akustik ) ord som är tillåtna och hur de uttalas i termer av de enheter som används. Dessa är ofta fonem i given höger- och vänsterkontext (trifoner) eller stavelser som man sedan sätter ihop till ord och meningar. Lexikon kan innehålla alternativa uttal av den använda vokabulären. ) = P(Ord/Akustik) är a posteriori sannolikheten för en ordföljd givet den akustiska informationen. P(Akustik/Ord) är sannolikheten att ordföljden genererar den akustiska informationen och beräknas i ett träningsmaterial. P(Ord) ges av språkmodellen och är a priori sannolikheten för ordföljden (N-gram). P(Akustik) kan ses som en konstant eftersom den är oberoende av ordföljden och kan ignoreras Figur 20. Bayes regel för betingade sannolikheter används för att kombinera akustisk och språklig informatiom vid taligenkänning. Att leta efter rätt ordsekvens i en mening innebär ett mycket stort sökproblem. Förenklat kan man tänka sig att varje ord i vokabulären kan tänkas börja eller sluta vid varje tidpunkt i yttrandet. Att finna en bästa ordsekvens blir då en stor utmaning. Vid sökningen utnyttjar man i regel bigramstatistik (se ovan) för att ta hänsyn till sannolikheten för att ett ord ska följa på ett annat. Metoder baserade på dynamisk programmering kombinerar detta med sannolikheter för funna fonem i talsignalen och matchar allt detta mot fonetiska beskrivningar av lexikon. På så sätt kan man beräkna den optimala ordföljden givet talvågen, vokabulären och bigramsannolikheterna. Osäkerheten i beräknade systemparametrar gör emellertid att resultatet inte behöver vara korrekt. Det finns emellertid metoder som gör att man på ett effektivt sätt kan få fram ett bestämt antal, till exempel de 10 eller 100 sannolikaste meningarna, enligt samma kriterier som ovan. Sedan låter man en språklig komponent analysera dessa för att få fram den språkligt mest sannolika utsagan. Detta är en mycket snabbare metod än att integrera den komplexa språkliga analysen med den primära sökningen, vilket skulle resultera i orimligt långa svarstider.

19 Automatisk igenkänning av tal 19 8 ATT MÄTA PRESTANDA Kursboken kapitel 12.9 Att utvärdera och jämföra prestanda för olika taligenkänningssystem kan vara intressant ur många synpunkter. Resultaten kan användas diagnostiskt för att ta reda på vad som behöver förbättras i ett visst system. Det kan också ha sitt intresse att jämföra olika system eller att bedöma användbarheten för en viss tillämpning. Att mäta prestanda kan emellertid vara besvärligt. Det finns inga allmänna kriterier för hur igenkänningsförmågan skall bestämmas och det är svårt att få fram regler som är giltiga i alla sammanhang. Faktorer som är intressanta är naturligtvis vokabulärens storlek men även dess innehåll. Det är till exempel fullt möjligt att konstruera en vokabulär med 100 sinsemellan mycket olika ord, som ger samma felfrekvens som 10 ganska lika ord. I system för sammanhängande tal måste också tas hänsyn till hur stora begränsningar som ges av systemets språkmodell. Ljudmiljön betyder också mycket. Är testet gjort i bullrig miljö eller under mera lugna förhållanden? Även arbetsmiljön är intressant. Ett test under naturliga förhållanden på en arbetsplats ger högre felfrekvens än mer laboratoriemässiga förhållanden. Resultaten för olika talare kan dessutom variera mycket. En van talare har lättare att hålla sitt uttal något så när konstant. Talarens röst kan vara mer eller mindre svåranalyserad vilket också påverkar prestanda. Försök med ett flertal personer är alltså att föredra. Vilket språk som talas är också betydelsefullt. Tills vidare brukar man jämföra olika system genom att testa dem på samma talmaterial. 8.1 Prestandamått Ett allmänt accepterat mått för att beskriva hur säkert ett system är på ett visst testat talmaterial är dess s. k. ordnoggrannhet ( word accuracy på engelska). Måttet är en utvidgning av mäta enbart andelen förväxlingar genom att man även mäter såväl andelen ej detekterade ord (bortfall) som andelen extra ord (instoppade, dvs ord som detekterats utan att ha yttrats). Ordnoggrannheten mäts i procent enligt ekvationen: ON ON N F B I N F B I = 100 *, N ordnoggrannhet i procent (word accuracy) antal yttrade ord under mätningen antal förväxlingar antal bortfall (ej upptäckta ord) antal instoppade ord Ordnoggrannheten kan bli negativ om systemet genererar ett stort antal extra ord. Vid igenkänning av isolerade ord under goda signal-störförhållanden kan däremot B och I ofta försummas. Ekvationen förenklas då till en mätning av andel rätt igenkända ord. Ett problem vid sammanhängande tal är att det inte är möjligt att enbart från den korrekta och den igenkända ordsekvensen entydigt avgöra vilka fel som inträffat. En avvikelse kan t. ex. ha orsakats av en förväxling eller som en kombination av bortfall och instopp. För att korrekt bedöma felen krävs även information om tidspositionerna för orden i den korrekta och den igenkända meningen. En ordmärkning med tidsangivelser saknas dock normalt i stora talmaterial. Man får då nöja sig med en approximation. En övre gräns för noggrannheten, det vill säga den mest positiva tolkningen av resultatet, kan beräknas med hjälp av dynamisk programmering. Detta är den metod som normalt används.

20 Automatisk igenkänning av tal 20 Noggrannheten ger naturligtvis inte den totala sanningen om hur bra ett system fungerar i praktisk användning. Olika tillämpningar fäster olika stor vikt vid hur väl den igenkända ordföljden ska överensstämma med vad personen yttrat. Vid diktering är måttet naturligtvis en mycket bra uppskattning, men vid andra tillfällen är målet en korrekt respons, till exempel vid sökning i en databas. Det är då mindre väsentligt med en fullständig transkription än att sökorden detekteras korrekt. En kort svarstid är givetvis väsentlig och kan påtvinga en begränsning av antalet hypoteser som undersöks, vilket innebär en kompromiss med noggrannheten. När man redovisar resultat är det också vanligt att man i stället för noggrannheten anger ett felmått, andelen ordfel i procent (word error rate), som brukar anges som OF = ON, eller OF = 100*(F+B+I)/N. 8.2 Bedömning av uppgiftens svårighet perplexitet Kursboken kapitel För att kunna bedöma vad ett uppmätt noggrannhetsvärde på ett visst talmaterial säger om ett systems allmänna prestanda är det nödvändigt att relatera detta till materialets svårighet. För närvarande finns inget allmänt accepterat mått på den akustiska likheten mellan olika ord eller ordsekvenser. Man nöjer sig med att beskriva svårigheten på den lingvistiska nivån, som är lättare att bestämma. Denna mäts normalt med måttet perplexitet. Matematiskt kan perplexitet ses som ett informationsteoretiskt mått relaterat till entropi enligt: B H = 2, 2 H = P( W) log P( W ), där W B perplexiteten i antal ord för den givna tillämpningen, H entropin för den givna tillämpningen, P(W) sannolikheten för ordsekvensen W i det givna språket. Perplexiteten beskrivs som det genomsnittliga antalet ord som är möjliga efter varje ordgräns för det givna språket. Vid beräkningen tas hänsyn till sannolikheten för ordföljder. För den enkla uppgiften att känna igen 10 siffror, alla med samma sannolikhet, är perplexiteten 10. Om vissa siffror är vanligare är andra sjunker perplexiteten. Ett enklare mått, som tidigare användes främst för artificiella språk uppbyggda i form av finita tillståndsgrafer, är genomsnittlig förgreningsfaktor. Det anger det genomsnittliga antalet ord som är tillåtna efter varje nod i grafen då alla ord behandlas som lika sannolika.

21 Automatisk igenkänning av tal Exempel på utvärdering och jämförelser I USA startade DARPA (Defence Advanced Research Projects Agency) i mitten av 80-talet ett omfattande forskningsprojekt kring taligenkänning och talförståelse med ett flertal deltagande institutioner. En viktig del i projektet är att jämföra deltagarnas system. Varje år får alla deltagare ett testmaterial, som används för att jämföra systemen, så kallad competetive evaluation. Man började med relativt enkla uppgifter för att sedermera öka komplexiteten i ordförråd och språk. Dessutom har man gått från uppläst till spontant tal, se Figur 21. ARPA - Advanced Projects Research Agency började 1984 deltagare CMU, SRI, BBN, MIT, Lincoln Labs, Dragon Systems "competative evaluations" varje år domäner NAB, Naval Battle Management, ~1000 ord ATIS, Air Traffic Information System, ~1000 ord Flygbokning WSJ, Wall Street Journal, ord Tidningstext, uppläst SWITCHBOARD samtal över telefon med okänd person om givet ämne CALL HOME samtal över telefon med närmaste familjekretsen NAB, National Broadcast News radiotal, olika talare, telefon ibland, musik svårare Figur 21. Utvecklingen av ARPAs taligenkänningsprojekt i USA från 1984 till Resultaten för det bästa systemen visas i Figur 22. Den först uppgiften gällde en relativt enkel applikation med 1000 ords vokabulär och perplexiteten 20, Naval Battle Management. Man ser att felen minskar sex gånger på fyra år (vänstra delen av figuren). Figur 22. Talaroberoende igenkänningsresultat för ARPA-projektet i USA. Resultat för det bästa systemet vid varje utvärdering. Från presentationen, Human Languages Technology, av George Doddington vid ARPA Workshop, New Jersey, 8-11 mars, 1994.

Visa mer