DP - Dynamisk programmering. Exempel på DP - textjämförelse. För- och nackdelar med ordmönsterigenkänning. Dolda Markovmodeller

Relevanta dokument
Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

Doctoral Course in Speech Recognition

AUTOMATISK IGENKÄNNING AV TAL

AUTOMATISK IGENKÄNNING AV TAL

Niklas Lindvall Artificiell intelligens II Ht

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Markovkedjor. Patrik Zetterberg. 8 januari 2013

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Taligenkänning med fördjupning på Hidden Markov Models

HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius

DAB760: Språk och logik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Avkodning ASR prestanda

Probabilistisk logik 2

AI-rapport Speech recognition

729G43 Artificiell intelligens Probabilistisk logik. Arne Jönsson HCS/IDA

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning: Grundbegrepp

Artificial)Intelligence) Taligenkänning)

Probabilistisk logik 1

de var svåra att implementera och var väldigt ineffektiva.

Källkodning. Egenskaper hos koder. Några exempel

TAMS79: Föreläsning 10 Markovkedjor

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

- ett statistiskt fråga-svarsystem

foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8

Bayesianska numeriska metoder II

Anna: Bertil: Cecilia:

SF1901 Sannolikhetsteori och statistik I

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Föreläsning 5: Dynamisk programmering

Kapitel 10 Hypotesprövning

Artificiell Intelligens Lektion 7

Språkpsykologi/psykolingvistik

Skurlängdskodning. aaaabbbbbbbccbbbbaaaa. Man beskriver alltså sekvensen med ett annat alfabet än det ursprungliga.

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

ASR3 Språkmodeller Talgrammatiker

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

MVE051/MSG Föreläsning 14

Tekniker för storskalig parsning

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Grundläggande textanalys. Joakim Nivre

Statistiska metoder för säkerhetsanalys

Taligenkänning. Hur datorer känner igen talat språk. 729G43 Artificiell Intelligens. Charlie Forsgren, Linköpings Universitet. chafo

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Fö relä sning 2, Kö system 2015

Exempel ode45 parametrar Miniprojekt 1 Rapport. Problemlösning. Anastasia Kruchinina. Uppsala Universitet. Januari 2016

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?

Partiell parsning Parsning som sökning

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1

ASR3 Språkmodeller Taligenk änningsgrammatiker

SF1901 Sannolikhetsteori och statistik I

Ekvivalensrelationer

Talbaserade multimodala dialogsystem för medicinsk rådgivning

Lösning till tentamensskrivning i Diskret Matematik för CINTE, CL2 och Media 1, SF1610 och 5B1118, onsdagen den 17 augusti 2011, kl

Simulering av Poissonprocesser Olle Nerman, Grupprojekt i MSG110,GU HT 2015 (max 5 personer/grupp)

Analys av korstabeller

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

1 Föreläsning V; Kontinuerlig förd.

TAMS79: Föreläsning 1 Grundläggande begrepp

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Föreläsning 8 Datastrukturer (DAT037)

Matematisk statistik TMS064/TMS063 Tentamen

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Taligenkänning* !!!!!!!! !HMM!och!Viterbi! Ellinor!Andersson,! !

ANVISNINGAR TILL INLÄMNINGSUPPGIFTER I TILLFÖRLITLIGHETSTEORI. På inlämningsuppgiften ska alltid namn och elevnummer finnas med.

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Informationsfusion - en nyckelteknologi för informationsöverlägsenhet. Per Svensson

Markovprocesser SF1904

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Föreläsning 4: Konfidensintervall (forts.)

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Vinjetter TDDC91 Datastrukturer och algoritmer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 5: Grafer Del 1

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Speciell användning av heltalsvariabler. Heltalsprogrammering. Antingen-eller-villkor: Exempel. Speciell användning av heltalsvariabler

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):


Grafer och grannmatriser

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm

4.1 Grundläggande sannolikhetslära

FÖRELÄSNING 8:

Programmering II (ID1019) :00-11:00

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Transkript:

GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 31 ] DP - Dynamisk programmering snabb, optimal kombinering av delbeslut $QDORJL Sök bästa väg mellan två adresser i en stad. Ett mycket stort antal möjliga vägar, men: vid varje korsning är den bästa fortsättningen oberoende av hur man kom till denna punkt. Endast den bästa vägen hit kan alltså ingå i den totalt bästa vägen. Övriga vägar hit innebär en sämre totalväg och strykes. Antalet sökningar minskas dramatiskt. Exempel på DP - textjämförelse -lpi UHOVHPHOODQWH[WVWUlQJDU Sträng A: ALDRIG (korrekt, referens) Sträng B: ALLDRIG (okänt) )UnJHVWlOOQLQJ Vad är den minimala distansen mellan strängarna efter bästa synkronisering? (Avsåg författaren troligen detta ord? Är det felstavat? I så fall hur?) Lokal distans: d[i,j] = 0 om A[i] = B[j]; annars = 1. Global (ackumulerad) distans: D[i,j] = Min(D[i-1,j], D[i-1,j-1], D[i,j-1]) +d[i,j] Initiering: D[0,0] = d[0,0] Förenklad algoritm: for(i=1; i<=i,++i) for(j=1; j<=j,++j) D[i,j] = d[i,j] + Min(D[i-1,j], D[i-1,j-1], D[i,j-1]); return( D[I,J]); GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 32 ] Ackumulerade distanser D[i,j] G 5 4 4 3 2 1 0 I 4 3 3 2 1 0 1 R 3 2 2 1 0 1 2 D 2 1 1 0 1 2 3 L 1 0 0 1 2 3 4 A 0 1 2 3 4 5 6 A L L D R I G DP-exempel (forts.) Lokala distanser d[i,j] G 1 1 1 1 1 1 0 ) UHQNODGDOJRULWP I 1 1 1 1 1 0 1 IRUL L,L R 1 1 1 1 0 1 1 IRUM M -M D 1 1 1 0 1 1 1 '>LM@ G>LM@0LQ'>LM@'>LM@'>LM@ UHWXUQ'>,-@ L 1 0 0 1 1 1 1 A 0 1 1 1 1 1 1 A L L D R I G 7H[WGLVWDQV PHG'3 'LVWDQVWHFNHQI UWHFNHQ GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 33 ] För- och nackdelar med ordmönsterigenkänning + Kräver ej fonetisk beskrivning + Koartikulation inom ord tas om hand - Koartikulation i ordgräns tas ej om hand - Kräver inläsning av alla ord vid träning - Separat test av varje ord i vokabulären Långsam vid stor vokabulär - Spektralt distansmått olämpligt En fonetisk, sannolikhetsbaserad inriktning behövs GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 34 ] Sannolikhetsbaserad igenkänning Bayes regel för betingade sannolikheter 3 ( 2UG / $NXVWLN ) = 3 ( $NXVWLN / 2UG ) 3 ( 2UG ) 3 ( $NXVWLN ) 32UG$NXVWLN är DSRVWHULRUL VDQQROLNKHWHQ för en ordföljd givet den akustiska informationen. 3$NXVWLN2UG är VDQQROLNKHWHQ att ordföljden genererar den akustiska informationen och beräknas i ett träningsmaterial. 32UG ges av språkmodellen och är DSULRULVDQQROLNKHWHQ för ordföljden (N-gram). 3$NXVWLN kan ses som en NRQVWDQW eftersom den är oberoende av ordföljden och kan ignoreras Kombinerar akustisk och språklig kunskap! GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 35 ] Dolda Markovmodeller HMM, Hidden Markov Models From Bourlard & Morgan &RQQHFWLRQLVW6SHHFK5HFRJQLWLRQ $+\EULG$SSURDFK 1994 GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 36 ]

GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 37 ] Modelleras med tillstånd förbundna med bågar med övergångssannolikheter Saknar minne Förloppet beror enbart på det aktuella tillståndet, ej på historien 0.3 En Markovprocess 0.5 0.8 S 1 S 2 S 0.2 3 0.7 0.5 En enkel Markovprocess En Markovprocess är en SURGXNWLRQVSURFHVV LQWHHQLJHQNlQQLQJVPHWRG processen består av en följd av WLOOVWnQG (states) som t ex producerar en följd symboler sannolikheten att gå från ett tillstånd till ett annat benämns YHUJnQJVVDQQROLNKHW. förloppet beror enbart på det aktuella tillståndet, inte på historien Möjliga sekvenser DEF DEEFFFF DDDEEFFFFF D E F GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 38 ] Nederbörd Synlig Markovprocess Exempel: Vädret Soligt Processens tillstånd är direkt observerbart Molnigt GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 39 ] Dold (Hidden) Markovprocess Exempel: Vädret betraktat genom en gardin Nederbörd Molnigt Soligt Processens tillstånd är inte direkt observerbar Man kan göra indirekta, relaterade observationer som ljusstyrka, skarpa skuggor, ljud av regndroppar, lyssna på radio, osv. GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 40 ] HMM för taligenkänning Modell en följd av tillstånd varje modell representerar ett fonem (fonembaserat system) eller ord (ordbaserat) Tillstånd delar av fonem (fonembaserat) eller fonem (ordbaserat) Övergångssannolikheter mellan tillstånd enkel durationsmodell (exponentialfördelning) Diskret Kontinuerlig Observationssannolikheter i tillstånd statistiska modeller av talljudens akustik a: 0.3 b: 0.6 µ: 27.3 diskreta (ex. VQ) eller kontinuerliga observationer Tillståndssekvensen kan inte observeras direkt c: 0.1 (el. VQ) σ: 4.6 6DQQROLNKHWHQ för att modellen ska ha genererat en följd av observationer kan beräknas. b: 0.7 i: 0.2 l: 0.1 0.4 b: 0.1 i: 0.8 l: 0.1 0.8 S S 1 2 S 0.4 3 0.6 0.2 GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 41 ] b: 0.1 i: 0.2 l: 0.7 0.6 HMM egenskaper Snabbare än mönsterigenkänning på grund av sin segmentella struktur Möjliggör användande av statistiska metoder Fonetiska modeller: snabbare, vokabuläroberoende Lämplig för stora vokabulärer och kontinuerligt tal GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 42 ]

W L 1 W M L 1 W M L GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 43 ] Transitionsmatrisen Förbindelser mellan tillstånd i en HMM kan representeras i en transitionsmatris som innehåller sannolikheten för övergångarna Rad anger från-tillstånd, kolumn anger till-tillstånd D E F a b c end a 0.3 0.7 0.0 0.0 b 0.0 0.5 0.5 0.0 c 0.0 0.0 0.8 0.2 end 0.0 0.0 0.0 1.0 Diskret HMM Diskreta utmatade observationer Talet kvantiseras med VQ + godtycklig statistisk funktion - kvantiseringsfel, - VQ och HMM optimeras separat - kräver mycket träningsmateriel VQ kodbok kodordsannolikheter tillstånd GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 44 ] Kontinuerlig HMM Kontinuerliga observationer (parametervärden) Godtycklig frekvensfunktion med sammanslagning av flera normalfördelningskurvor. (Gaussian mixtures) + inget kvantiseringsfel + kräver mindre träningsdata om få komponenter - kräver ofta många normalfördelningskomponenter - beräkningsintensiv komponenter blandningsvikter tillstånd GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 45 ] Representation av allofoner - fonem med varianter (drygt 40 i svenskan) Kontextberoende allofoner trifoner, difoner, monofoner beroende på om båda, ena eller inget av de omgivande allofonerna är bestämd Varje allofon är ofta uppdelad i flera tillstånd beskriver t. ex. initiala, mediala och finala delar. Varje tillstånd bestäms med fördelningar för observationssannolikheter övergångssannolikheter GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 46 ] Två algoritmer: Sannolikhetsberäkning att en HMM genererat yttrandet 9LWHUEL Sannolikheten är produkten av observationssannolikheter och transitionssannolikheter för GHQElVWD tillståndssekvensen W W W ( 2 0 7 ) = S( VW ) S( 2 ) V V 1 3 W= 1 0D[LPXPOLNHOLKRRG%DXP:HOFK Sannolikheten beräknas för DOODWLOOnWQD tillståndssekvenser ( ) 3 2 0 = α ( = 1 ( + 1 V ) ( L 3( V V ) α + 1 ( M) = 3 2 α ) = 1 7 L ) GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 47 ] HMM Matchning mellan en HMM-modell och ett yttrande - Viterbisökning Förenklad algoritm för modellen nedan: for(t=1; t<=t,++t) for(s=1; s<=s,++s) P(t,s) = P(O t S s ) * Max[P(t-1,s)*P tr (s s), P(t-1,s-1)*P tr (s s-1), P(t-1,s-2)*P tr (s s-2) ]; return( P(T,S)); Beg Yttrande End Tid GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 48 ]

GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 49 ] 3:_: 3:_: : 3:_: : Igenkänning av ordsekvens med Viterbisökning %\JJHQ HQPHQLQJVPRGHOOELJUDPDYRUGPRGHOOHUQD +LWWDElVWDWLOOVWnQGVVHNYHQV PHG9LWHUEL Miljontals parametrar System med stor vokabulär och ordgränstrifoner använder ~ 60 000 trifoner Akustisk vektor med 39 element och 10 Gausskomponenter (2 parametrar: µ, σ) ger 790 parametrar per tillstånd, varav 10 vikter (mixture weights) 39 x 10 x 2 + 10 = 790 60 000 trifoner med 3 tillstånd ger 142 000 000 parametrar! Knytning (W\LQJ för att dela på modellparametrar ger ~10 000 000 parametrar. Tid 3:_: GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 50 ] Knutna HMM-system (tied) Träningsdata är ojämnt fördelat Exempel: trifoner Det krävs en metod som balanserar modellens komplexitet mot tillgängliga data De olika modellerna får dela på parametrar Automatiska klustringsmetoder används för att optimera sammanknytningen Exempel: beslutsträd slå ihop tillstånd så man får tillräckligt med data per parameter GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 51 ] Knytning: trifonexempel Vi har trifonerna d-a:-m och t-a:-m 3-tillstånds HMM per trifon Samma högerkontext Tillstånd 3 kan delas mellan modellerna + Antalet fria parametrar minskar + Mer träningsdata per fri parameter + kräver mindre minne 1 2 3 1 2 3 d a: m t a: m GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 52 ] Hantering av varierande uttal Flera transkriptioner per ord eller ett uttalsnät. Bör vara sannolikhetsbaserade. Uttalsvarianterna listas explicit eller genereras med regler. inkast Inkast (P=0.3), INkast (P=0.7) alt. inkast Inkast + regel: (+nasal, +dental) ->+velar / & +velar (P=0.7) % I n 0.3 0.7 N k k ( GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 53 ] a s t Lingvistisk kunskap i taligenkänning Finita nät formaliserat språk, t ex flygtrafikledning Unigram, bigram, trigram, n-gram sannolikheter för ordföljder, statistiskt baserade att inkludera djupare lingvistisk kunskap ger ofta bara marginella förbättringar Parsning, språklig analys syntaktiska och semantiska begränsningar Ofta används en tvåstegprocedur en enkel modell (t ex bigram) används vid den första sökningen för att få ett antal meningsförslag dessa sorteras om med hjälp av mer avancerade språkliga modeller (parsning) GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 54 ]

GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 55 ] Vanliga språkmodeller för taligenkänning N-gram (ordföljdssannolikheter) ger bra resultat trots sin enkelhet bigram: P(w i w i-1 ) RUGSDU trigram: P(w i w i-2, w i-1 ) WUHRUGVI OMG Ordklassföljder vid otillräckligt träningsmaterial Kombinera akustisk och språklig kunskap Bayes regel för betingade sannolikheter 3 ( 2UG / $NXVWLN ) = 3 ( $NXVWLN / 2UG ) 3 ( 2UG ) 3 ( $NXVWLN ) 32UG$NXVWLN är DSRVWHULRUL VDQQROLNKHWHQ för en ordföljd givet den akustiska informationen. 3$NXVWLN2UG är VDQQROLNKHWHQ att ordföljden genererar den akustiska informationen och beräknas i ett träningsmaterial. 32UG ges av språkmodellen och är DSULRULVDQQROLNKHWHQ för ordföljden (N-gram). 3$NXVWLN kan ses som en NRQVWDQW eftersom den är oberoende av ordföljden och kan ignoreras GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 56 ] N-bästa sökning med A* Utför en Best First sökning med flera hypoteser Den första som täcker yttrandet är bäst, andra näst bäst osv. Problem: Monotont sjunkande sannolikhet vid ökande hypoteslängd => korta hypoteser gynnas -> snarlik längd - > långsamt Lösning: Lägg till varje hypotes maximala sannolikhet (h*) för den ej sökta delen av yttrandet -> alla hypoteser får samma längd. Metrik: P(hyp,t) = g[0,t] + h*[t+1,t] (mätt + uppskattad) h* för alla tider och tillstånd erhålls med normal Viterbisökning i ett inledande pass (motsatt riktning). GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 57 ] lexikala noder A*-heuristik i sökmatrisen J J bästa vägen till yttrandets slut del som evaluerats yttrande h* h* GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 58 ] 7 N-bästa exempel de 10 akustiskt bästa meningarna 1U $NXVWLVN,JHQNlQGPHQLQJ SRlQJ 1-716,914 hur åka till svartlöga 2-717,444 du åka till svartlöga 3-718,289 ju åka till svartlöga KXUnNHUPDQWLOOVYDUWO JD 5-719,730 hur åka av hamn till svartlöga 6-720,260 du åka av hamn till svartlöga 7-720,365 ut åka till svartlöga 8-720,554 hur båtarna till svartlöga 9-720,630 hur åker hamn till svartlöga 10-720,699 nu åka till svartlöga GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 59 ] Prestanda för taligenkänning Viktiga faktorer vokabulärstorlek språkmodell (perplexitet) talarberoende / talaroberoende akustisk miljö kanalens egenskaper talarkarakteristik ( får och getter ) ingående ords akustiska likhet GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 60 ]

GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 61 ] Ordnoggrannhet = Utvärdering av taligenkänning 100 * (Antal_ord - Förväxlingar - Instopp - Bortfall) Antal_ord Om tidsgränser för orden i den rätta meningen saknas kan en garanterat korrekt bedömning inte göras. '\QDPLVNSURJUDPPHULQJ kan i så fall användas för att synkronisera orden mellan den igenkända och korrekta meningen. Detta ger en optimal matchning som inte behöver motsvara det verkliga igenkänningsresultatet. Stim\Resp -DJ YLOO nnd LGDJ WLOO 9D[KROP -DJ Korrekt VNXOOH Bortfall YLOMD Förväxling nnd Korrekt Instopp WLOO Korrekt 9D[KROP Korrekt 6 ord, 1 förväxling, 1 instopp, 1 bortfall: Ordnoggrannhet = 100*(6-3)/6 = 50% Tar ej hänsyn till fonetisk likhet mellan ord Ex: L NYlOO LNYlOOMDJ MD 9D[KROP 9D[KROPV ELO UHVWDXUDQJär alla lika mycket fel Tillämpningens svårighet - språkets perplexitet 2 + = 3 (:) log 3 (:) : % + % perplexiteten för givna tillämpningen + entropin för den givna tillämpningen 3: sannolikheten för ordsekvensen : i det givna språket Perplexiteten ger ett mått på det sannolikhetsviktade genomsnittliga antalet ord som kan följa efter ett givet ord. Exempel: För siffersekvenser är B = 10, om alla siffror är lika sannolika i alla positioner. Vid ojämn sannolikhetsfördelning är B < 10. Måttet tar ingen hänsyn till den fonetiska skillnaden mellan olika ord. GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 62 ] ARPA-projektet i USA Advanced Projects Research Agency började 1984 deltagare CMU, SRI, BBN, MIT, Lincoln Labs, Dragon Systems "competetive evaluations" varje år domäner ATIS, Air Traffic Information System, ~1000 ord Flygbokning Wall Street Journal, 5000-60000 ord Tidningstext, uppläst SWITCHBOARD samtal över telefon med okänd person om givet ämne CALL HOME samtal över telefon med närmaste familjekretsen Broadcast News radionyheter inklusive telefonintervjuer, jinglar med mera GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 63 ] svårare 15 10 5 0 Prestandautveckling DARPA-utvärdering 1988-1999 2UGIHO 25 20 RM Kommandomeningar (1000 ord) 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 ATIS Spontant tal (1000-2000 ord) WSJ Upplästa nyheter (20000 ord) NAB, Broadcast News Transcription (60000 ord) GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 64 ] Talare Får och getter ( bra och dåliga talare) ARPA-utvärdering, Wall Street Journal nov 1993 Hub1 Ordfel (%) GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 65 ] Ordfel (%) Talhastighetens inverkan ARPA-utvärdering, Wall Street Journal nov 1993 Hub1 GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 66 ]

GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 67 ] Jämförelse människa -maskin Resultat för mänsklig transkription av hela samtal jämfört med automatisk igenkänning av extraherade meningar från samma material. Talmaterial: Telefonsamtal om kreditkort i databasen Switchboard. 2UGIHO 0lQQLVND 0DVNLQ R. P. Lippman: "Speech perception by humans and machines", Proc. of the workshop on the auditory basis of speech perception, Keele University, UK, 15-19 July, 1996, pp. 309-316. Begränsningar i dagens system Stora mängder tal behövs för inlärning man måste veta vad som sagts Talaroberoende system tar ingen hänsyn till att talaren är konstant alla ramar i ett och samma yttrande kan ha producerats av olika talare Prosodisk information utnyttjas inte inte segmentell hur ska den mätas? Begränsad intelligens och omvärldsförståelse men fungerar inom begränsade domäner GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 68 ],(((:RUNVKRSRQ$656QRZELUG'HF Människan och maskinen Resultat av omröstning: "Om hur många år får maskinen samma resultat som människan för akustisk/fonetisk igenkänning?" 60 talforskare svarade: Antal år Antal röster 5-10 10 10-20 30 20-40 10 > 40 10 GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 69 ]