Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

Talteknologi 25-2-3 [ ] Översikt - taligenkänning Automatisk igenkänning av tal Del Mats Blomberg Tal, musik och hörsel KTH Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning olinjär tidstöjning (dynamisk programmering) dolda Markovmodeller kunskapsbaserade metoder neurala nät Databaser Resultat Aktuell forskning Tillämpningar Talteknologi 25-2-3 [ 2 ] Varför taligenkänning? Tillämpningar Naturligt sätt att kommunicera Snabbare inlärning Effektivare kommunikation Komplexa samband kan uttryckas enkelt i ett språk vi redan kan Ersätter tangentbord eller knappsats handdator, telefon, mobiltelefon Fungerar i besvärliga miljöer mörker, kyla etc. (dock sämre i buller) Händer och syn blir fria för andra uppgifter Talteknologi 25-2-3 [ 3 ] Handikapphjälpmedel Personer med rörelsehinder och hörselskada Telefontjänster intelligenta telefonsvarare informationssökning, biljettbokning Fria händer diktering styra mobiltelefon Studiehjälp tålmodig lärare språkinlärning, uttalsundervisning Indexering och sökning radio- och TV-program Talteknologi 25-2-3 [ 4 ] Svårighet: tal kontra skrift I fonetisk transkription eller vanlig ortografi beskrivs talet med avgränsade, diskreta enheter Talet har ett kontinuerligt förlopp pga artikulatorernas mekaniska tröghet Koartikulation: Rörelser från/till intilliggande fonem Fonem uttalas olika i olika kontext ( jfr /s/ i visir och ozon ) Reduktion: I snabbt tal och i obetonade stavelser uppnås inte det avsedda uttalet Fonem och stavelser kan falla bort ( bafatt, Sötälje, dnasba ) Svårigheter - stor variabilitet Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Minsta ansträngning Omgivning Additivt brus Rumsakustik Lombardeffekt Mikrofon, Telefon Bandbredd Störningar brus frekvensgång transienter klickar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin Talteknologi 25-2-3 [ 5 ] Talteknologi 25-2-3 [ 6 ]

Talteknologi 25-2-3 [ 7 ] Överlappning mellan vokaler för olika talare Spontant och hyper-artikulerat tal Spridning för de två lägsta resonans-frekvenserna (F och F2) hos isolerade svenska vokaler uttalade av manliga och kvinnliga talare (G Fant) Va jobbaru me Främre vokaler har väsentlig överlappning. Vad jobbar du med Talteknologi 25-2-3 [ 8 ] Spontant vs uppläst tal Talspråk: extra svårigheter Spontant tal ur ett samtal Text: Det är naturligtvis bara roligt Senare samma yttrande uppläst från text /dnasparolit/ /natulitvispara/ Talteknologi 25-2-3 [ 9 ] Uttalsreduktioner ofullständigt uttalade ord Icke-grammatiska meningar Stakningar omstarter, instopp, strykningar Extralingvistiska ljud läppsmack, andning, tvekljud Störningar omgivningsljud, teknisk distortion Talteknologi 25-2-3 [ ] En normalt besvärlig talare reduktion knarr Tal i brus Inspelat i bil, hastighet 9 km/t. Riktad mikrofon i instrumentpanelen ja det är väl fredag idag... lång konsonant knarr, tvekan så det blir väl ehh... fredag kväll Yttrande: Inga Talteknologi 25-2-3 [ ] Talteknologi 25-2-3 [ 2 ]

Talteknologi 25-2-3 [ 4 ] Inverkan av mikrofonavstånd Samma yttrande inspelat med 2 mikrofoner i tyst kontorsrum Det generella problemet är olöst Åtgärder i praktiska system Headsetmikrofon 2 m avstånd Begränsa uppgiften Vad känner man igen? enstaka ord, kommandon, diktering, dialog, spontant tal Vem känner man igen? en talare: talarberoende, -adaptivt alla talare talaroberoende Hur känner man igen? kunskapsbaserade metoder inlärande metoder (statistiskt baserade) Distortion från brus och rumsakustik Talteknologi 25-2-3 [ 6 ] Analys Delar i ett taligenkänningssystem 6 khz Hz FFT Parametrisering Spektralanalys Fonem/ord-modeller akustisk beskr. Lexikon vokabulär + fonemtranskription Språkmodell möjliga ordföljder Kunskap Kontinuerlig Klassificering Diskret Sökning Jämförelse N-best N-best N-best N-bästa Ev. Ev. mer mer sökning (ex. (ex. förståelse, prosodi) Igenkänningsresultat Talteknologi 25-2-3 [ 7 ] Kunskapsbaserade system Explicit utnyttjande av fonetisk kunskap Begränsad framgång eftersom det är svårt att kvantifiera expertkunskapen svårt att integrera mänsklig kunskap om fonetik, fonotax, lexikal access, syntax, semantik, pragmatik... Kombinera expertkunskap och självlärande system Algoritmer statistiskt baserade metoder Kunskap mel-skala, trifoner, modellera funktionsord i HMM-system Algoritmer gör det möjligt att lösa problem. Kunskap gör algoritmerna bättre. (Victor Zue vid MIT (Massachusetts Inst of Technology) ) Talteknologi 25-2-3 [ 8 ] Datadrivna metoder För att ett system ska känna igen tal oberoende av talare och miljö behövs kvantitativa mått på denna variabilitet. Ett stort träningsmaterial (tal och text) krävs för att uppskatta dessa Automatiska träningsmetoder nödvändiga Talteknologi 25-2-3 [ 9 ] Den akustiska databasen EU-projekt 996-998 Inspelat tal över telefonnätet för att träna och testa taligenkänningssystem alla officiella EU-språk samt samt varianter som finlandssvenska, schweizertyska, walesiska totalt över 6 talare inspelade balansera talare enligt dialekt, ålder och kön ca 5 yttranden per talare siffror, datum, tider, penningbelopp, enkla kommandon, fonetiskt rika meningar och ord SpeechDat i Sverige 5 talare inspelade över vanlig telefon talare inspelade över mobiltelefon Talteknologi 25-2-3 [ 2 ]

Talteknologi 25-2-3 [ 23 ] TMH:s textdatabas Totalt ca 5 miljoner ord Texter Pressens Bild ca 9 miljoner ord Samhall ca 37 miljoner ord Datalingvistik Göteborg ca 2 miljoner ord Göteborgs-Posten ca 5 miljoner ord,9 miljoner olika ord ca miljon ord förekommer bara en gång ca 5 miljoner ord totalt,88 miljoner olika ord miljon ord förekommer bara en gång TMH:s textdatabas - de 5 vanligaste orden Totalt gemena gemen form Totalt gemena gemen form Totalt gemena gemen form 44286 42772 och 36 34283 3997 eller 7 9943 996 vill 2 426937 392392 i 37 3269 2725 efter 72 982 95785 fick 3 34589 335874 att 38 325 372 ska 73 92335 928 dem 4 292952 246225 det 39 37668 35876 ut 74 977 95 blev 5 254392 238292 en 4 35375 38548 mot 75 8948 852 något 6 25377 2483293 som 4 33483 28863 vid 76 8689 8392 måste 7 239492 228435 på 42 3682 26752 här 77 8627 85545 sina 8 2465 979468 är 43 37357 2999 också 78 8623 7653 utan 9 766827 637663 av 44 3657 2492 du 79 8863 782 går 747 637525 för 45 3365 299552 år 8 854 3662 detta 7269 645599 med 46 32895 25828 under 8 7868 54958 allt 2 62547 336856 den 47 29652 22993 då 82 73932 745 kunde 3 53777 49327 till 48 28945 287853 säger 83 72629 64428 kom 4 42872 363722 inte 49 28927 283823 över 84 68233 4366 många 5 368623 99746 han 5 28897 268785 bara 85 6644 53667 någon 6 35483 93656 de 5 287357 28543 upp 86 6459 55325 mer 7 25333 22662 har 52 276734 2498 alla 87 57673 56289 sa 8 248597 82353 jag 53 274384 994 vad 88 57639 56759 bli 9 95578 99775 om 54 265398 264385 mig 89 5469 52887 sitt 2 66758 468 var 55 258 257276 vara 9 5485 4469 första 2 4299 966735 ett 56 256737 247662 mycket 9 5379 36447 några 22 86244 43734 men 57 253559 25995 in 92 45847 45676 varit 23 78482 78369 sig 58 249388 244959 än 93 44678 4775 fram 24 6854 49758 hon 59 24857 9884 hans 94 44363 3636 hela 25 678896 592543 så 6 244544 232593 andra 95 43998 43546 henne 26 6348 43883 vi 6 243864 237294 får 96 42353 358 ta 27 5739 5445 från 62 2438 24234 ha 97 4377 396 genom 28 556489 49262 man 63 243389 95362 sedan 98 4238 35823 mellan 29 55625 54469 hade 64 236593 23545 kommer 99 39927 36478 dag 3 54248 48825 kan 65 224 225 få 39752 499 ingen 3 5352 36482 när 66 2223 2235 honom 3755 34286 kronor 32 395292 285295 nu 67 29753 9643 två 2 3729 25652 nya 33 39385 38544 skulle 68 27583 69737 hur 3 3555 35242 göra 34 35873 32367 där 69 2747 2239 finns 4 35535 5644 även 35 3462 34445 sin 7 22274 9886 blir 5 3459 3 sverige Talteknologi 25-2-3 [ 24 ] Akustisk analys - önskemål Hög fonetisk diskrimination Litet antal parametrar Låg korrelation mellan parametrar Hög tidsupplösning men okänslighet för grundton - konflikt Teoretiskt bäst: grundtonssynkron mätning I praktiken konstant analysfönster (ca 25 ms) konstant tidsavstånd mellan mätningar (ca ms) Analys Analys av signalen till en följd av korttidsspektra (ramar) Samplingsfrekvens: 8 2 khz; analysbandbredd: 4 khz Analysfönster 5 ms, (här 2 ms) Ram nr n n+ n+2 n+3 n+4 Ramintervall: 5 25 ms (här ms) Talteknologi 25-2-3 [ 25 ] Talteknologi 25-2-3 [ 26 ] Parameter-representation Filterbanksamplituder (från FFT, Fast Fourier Transform) Hörselbaserad filterbank Mel-skala - baserad på örats frekvensupplösning Tids- och frekvensmaskering, ger förbättring främst vid buller och brus LPC Linjär prediktion - Linear Predictive Coding Cepstrum Invers Fouriertransform av logaritmiskt spektrum ortogonala koefficienter Cepstrum på Mel-spektrum: MFCC - standardmetoden Formanter Främst i kunskapsbaserade system Svåra att bestämma enkel approximation: mät tyngdpunkter i frekvensband Artikulatoriska parametrar Nära kopplad till talproduktionen Mycket svåra att beräkna Talteknologi 25-2-3 [ 27 ] Cepstrumanalys Den dominerande analysmetoden inom taligenkänning Invers Fouriertransform av logaritmerat frekvensspektrum Spektralanalys av spektrum Grovstrukturen i spektrum beskrivs med ett litet antal parametrar Hög fonemdiskrimination (har det visat sig) Ortogonala (okorrelerade) koefficienter Ordlek: Spectrum-cepstrum, filtering-liftering, frequencyquefrency, phase-saphe Bogert,, Healy & Tukey (963) The Quefrency Alanysis of Time Series for Echoes: Cepstrum,, Pseudo-autocovariance autocovariance,, Cross-Cepstrum Cepstrum and Saphe Cracking Proc. Symp.. Time Series Analysis, J. Wiley & Sons, 963 Talteknologi 25-2-3 [ 28 ]

Talteknologi 25-2-3 [ 29 ] Cepstral Processing Cepstral processing From Oppenheim & Schafer, 975 Holmes & Holmes, 2 Talteknologi 25-2-3 [ 3 ] Cepstrum från filterbankspektra Spektrum av /a:/ 9 7 5 3 9 7 5 3 Spektrum av /s/ I Cn = Ai cos( nπ( i. 5) / I) i=,5 -,5 - * =,5 -,5 -,5 -,5 - * =,5 -,5 - Viktfunktioner W W2 W3 W4 - -2 - -2 Cepstrum av /a:/ 2 3 4 C C2 C3 C4 Cepstrum av /s/ 2 3 4 C C2 C3 C4 Talteknologi 25-2-3 [ 3 ] Vanligast: MFCC-analys Mel Frequency Cepstral Coefficients FFT Spektralanalys med Fast Fourier Transform 9 7 5 3 db Mel-filterbank - 4 filter Hörselanpassad delning Linjär < Hz Log > Hz Amplitud-frekvensspektrum av /a:/ ~6 Hz Bark/mel - -2 Cepstrumtransform 2 3 4 C C2 C3 C4 Cepstrum av /a:/ Talteknologi 25-2-3 [ 32 ] 8-6 cepstrumkoefficienter var :e ms + energi + deras :a och 2:a tidsderivator Vanlig parameteruppsättning Cepstrum 2 cepstrumkoefficienter 2 -cepstrumkoefficienter (:a tidsderivata - lutning) 2 -cepstrumkoefficienter (2:a tidsderivata - krökning) Energi energi (ofta normaliserad mot medel/max energi i yttrandet) -energi -energi Sammanlagt 36 + 3 = 39 inparametrar för varje spektral mätning var :e ms Talteknologi 25-2-3 [ 33 ] Vektorkvantisering (VQ) Transformering från kontinuerliga till diskreta parametrar Automatisk indelning av parameterrymden i ett litet antal (~256) områden. Minimera distorsion i träningsdata Klassa varje tidpunkt av ett yttrande till ett av dessa områden. Hela yttrandet beskrivs som en följd av indextal. Kraftig datareduktion på bekostnad av kvantiseringsdistorsion. 6 khz FFT FFT Spektralanalys Hz Parametrisering Parametrisering Kontinuerlig VQ Klassificering Klassificering Talteknologi 25-2-3 [ 34 ] Diskret Ex. enl trajektorien ovan: 2,,,5,5,6,6,6,7

Talteknologi 25-2-3 [ 35 ] Olika igenkänningsmetoder Artificiella NeuronNät - ANN Mönsterigenkänning (Pattern Recognition) (Äldst) Ingen fonetisk representation Enkel jämförelse av två spektrala tidsserier Kompensation för varierande talhastighet (Dynamisk programmering, DP) Expertsystem (Övergiven i sin direkta form) Fonetikerns kunskap uttryckt i regler för fonetisk klassning Svårt och inflexibelt Artificiella Neurala Nät (ANN) (Bra för fonemklassificering) Huvudsakligen för fonetisk klassning Används i hybridsystem tillsammans med HMM Hidden Markov Models (HMM) (Mest använd) Representerar talets segmentella struktur Sökning med dynamisk programmering (Viterbi-avkodning) Θ N = y f w i x i θ Modell av nervcell i= Talteknologi 25-2-3 [ 36 ] Utlager Aktiveringsgrad för varje kategori Dolt lager Inlager Filteramplituder Artificiella neuronnät - exempel Klassificering av fonemkategorier Hybridsystem - ANN/HMM ANN används för att klassificera talsignalen i fonem återkopplade noder ger bättre resultat HMM-system för övrigt Ungefär samma prestanda som enbart HMM, men med en storleksordning färre antal parametrar Talteknologi 25-2-3 [ 37 ] Talteknologi 25-2-3 [ 38 ] Enkel mönsterigenkänning () Ingen kompensering för olika talhastighet Förenklat exempel: Yttrande analyserat i 32 tidsintervall och 2 parametrar Enkel mönsterigenkänning (2) Distansen mellan yttrandet och ett referensmönster är summan av distanserna för resp. parameter vid varje tidpunkt. 5 5 Referensmönster nr k 45 4 45 4 Okänt yttrande 35 3 25 2 5 Par 2 Par 35 3 25 2 5 Par 2 Par 5 5 3 5 7 9 3 5 7 9 2 23 25 27 29 3 3 5 7 9 3 5 7 9 2 23 25 27 29 3 Igenkänning: Mät distans för alla referensmönster. < k < K Välj det mönster (k) som ger minst distans mot yttrandet Enkelt lokalt distansmått: d(t) = Ref(Par,t) - Ytt(Par,t) + Ref(Par2,t) - Ytt(Par2,t) Talteknologi 25-2-3 [ 39 ] Talteknologi 25-2-3 [ 4 ]

Talteknologi 25-2-3 [ 4 ] Enkel mönsterigenkänning (3) Ackumulerad (global) distans: 5 45 4 35 Par 2 3 25 2 5 Par 5 3 5 7 9 3 5 7 9 2 23 25 27 29 3 D( t) = d( t) + D( t ) = Total distans D(T) Problem: Distansen beror till stor del på tidsavvikelser mellan kurvorna. t i= d( t) Olinjär normalisering av talhastighet Varierande känslighet för olika taltempo Vokaler förlängs mer än konsonanter vid långsamt tal Obetonade stavelser kan försvinna i snabbt och reducerat tal Tidsvarierande töjning behövs Dynamic Time Warping, DTW Problem: mycket stort antal möjliga töjningskurvor Matchning längs varje enskild kurva orimlig För mönsterlängd=32: 5.5 * 22 olika kurvor, varje kurva ca 32 spektrala jämförelser Lösning Utnyttja att många kurvor har delar gemensamma Utför varje spektrumjämförelse bara en gång Metod: Dynamisk Programmering (DP) Antal spektrala jämförelser: 32 2 = 24 Talteknologi 25-2-3 [ 42 ] Normalisera för talhastighet Ingen kompensering DP - Dynamisk programmering snabb, optimal kombinering av delbeslut Va jobbaru me Linjär töjning (mappning av ändpunkter) Olinjär töjning, Dynamic Time Warp (DTW) Utförs med dynamisk programmering (DP) Analogi Sök bästa väg mellan två adresser i en stad. Ett mycket stort antal möjliga vägar, men: Vid varje korsning är den bästa fortsättningen oberoende av hur man kom till denna punkt. Endast den bästa vägen hit kan alltså ingå i den totalt bästa vägen. Övriga vägar hit innebär en sämre totalväg och strykes. Antalet sökningar minskas dramatiskt. Vad jobbar du med Talteknologi 25-2-3 [ 43 ] Talteknologi 25-2-3 [ 44 ] DP-matchning mellan ett okänt yttrande och ett referensmönster Tid (j) Förenklad algoritm: for(i=; i<=i,++i) for(j=; j<=j,++j) D[i,j] = d[i,j] + min(d[i-,j], D[i-,j-], D[i,j-]); return( D[I,J]); Rekursiv formulering av DP Den ackumulerade distansen i en punkt är summan av den lokala distansen och den minsta ackumulerade distansen av de anslutna vägarna. D(I,J) = d(i,j) + min[ D(I,J-), D(I-,J-), D(I-,J)] D(,) = d(,) Tid ( j ) Referensmönster Yttrande Tid (i) I Tid (i) Talteknologi 25-2-3 [ 45 ] Talteknologi 25-2-3 [ 46 ]

Talteknologi 25-2-3 [ 47 ] Exempel på DP - textjämförelse Jämförelse mellan textsträngar Sträng A: ALDRIG (korrekt, referens) Sträng B: ALLDRIG (okänt) Frågeställning: Vad är den minimala distansen mellan strängarna efter bästa synkronisering? (Avsåg författaren troligen detta ord? Är det felstavat? I så fall hur?) Lokal distans: d[i,j] = om A[i] = B[j]; annars =. Global distans: D[i,j] = d[i,j] + Min(D[i-,j], D[i-,j-], D[i,j-]) D[,] = d[,] För- och nackdelar med ordmönsterigenkänning + Kräver ej fonetisk beskrivning Lätt för användare att lägga till nya ord + Koartikulation inom ord tas om hand - Koartikulation i ordgräns tas ej om hand - Kräver inläsning av alla ord vid träning - Separat test av varje ord i vokabulären Långsam vid stor vokabulär - Spektralt distansmått olämpligt - Små skillnader kan vara mer betydelsefulla än stora En fonetisk, sannolikhetsbaserad inriktning behövs Talteknologi 25-2-3 [ 5 ] Sannolikhetsbaserad igenkänning Bayes regel för betingade sannolikheter P( Ord / Akustik ) = P( Akustik / Ord ) P( Ord ) P( Akustik ) P(Ord/Akustik) är a posteriori sannolikheten för en ordföljd givet den akustiska informationen. P(Akustik/Ord) är sannolikheten att ordföljden genererar den akustiska informationen och beräknas i ett träningsmaterial. P(Ord) ges av språkmodellen och är a priori sannolikheten för ordföljden. P(Akustik) kan ses som en konstant eftersom den är oberoende av ordföljden och kan ignoreras Kombinerar akustisk och språklig kunskap! Talteknologi 25-2-3 [ 5 ] Dolda Markovmodeller HMM, Hidden Markov Models From Bourlard & Morgan Connectionist Speech Recognition - A Hybrid Approach 994 Talteknologi 25-2-3 [ 52 ] En enkel Markovprocess En Markovprocess är en produktionsprocess processen består av en följd av tillstånd (states) som t ex producerar en följd symboler sannolikheten att gå från ett tillstånd till ett annat benämns övergångssannolikhet. förloppet beror enbart på det aktuella tillståndet, inte på historien Nederbörd Synlig Markovprocess Exempel: Vädret Molnigt.3.5.8 a b c.7.5.2 Några möjliga sekvenser abc P =.35 abbcccc P =.7 aaabbccccc P =.6 Talteknologi 25-2-3 [ 54 ] Soligt Processens tillstånd är direkt observerbart Talteknologi 25-2-3 [ 55 ]

Talteknologi 25-2-3 [ 56 ] Dold (Hidden) Markovprocess Exempel: Vädret betraktat genom en gardin Nederbörd Molnigt Soligt Processens tillstånd är inte direkt observerbar Man kan göra indirekta, relaterade observationer som ljusstyrka, skarpa skuggor, ljud av regndroppar, lyssna på radio, osv. Tre frågor vid HMM-igenkänning Med vilken sannolikhet har modellen genererat observationerna? Igenkänning; välj den modell som ger högst sannolikhet Vilken är den troligaste tillståndssekvensen? Hur bestämmer man modellparametrarna? Inlärning på känt talmaterial Talteknologi 25-2-3 [ 57 ] HMM för taligenkänning Talsignalen betraktas som producerad av en HMM som beskrivs av tillstånd representerar ofta fonem eller delar därav övergångssannolikheter mellan tillstånd Alternativa uttal och en enkel modell av segmentdurationer (exponentialfördelning) observationssannolikheter i tillstånd VQ[]:.3 statistiska modeller av talljudens akustik VQ[2]:.6 µ: 27.3 diskreta eller kontinuerliga observationer: VQ[3]:. resp. σ: 4.6 kontinuerlig modell: sammansatt normalfördelning (Gaussian mixture) Snabbare än mönsterigenkänning på grund av sin segmentella struktur Lämplig för användande av statistiska metoder för akustik och språklig information Två algoritmer: Sannolikhetsberäkning att en HMM genererat yttrandet Viterbi: Sannolikheten är produkten av observationssannolikheter och transitionssannolikheter för den bästa tillståndssekvensen ( T ) = p( st st ) p( Ot st ) P O M t= Maximum likelihood (Baum-Welch): Sannolikheten är summan för alla tillåtna tillståndssekvenser Fonemmodeller (ej ord-) Snabbare, vokabuläroberoende Lämplig för stora vokabulärer och kontinuerligt tal Talteknologi 25-2-3 [ 58 ] α t N ( t+ s j ) t ( i P( s j si ) + ( j) = P O α ) i= N ( O M ) = P i= α i T ( ) Talteknologi 25-2-3 [ 6 ] Representation av allofoner - fonem med varianter (drygt 4 i svenskan) Kontextberoende allofoner trifoner, difoner, monofoner beroende på om båda, ena eller inget av de omgivande allofonerna är bestämd Varje allofon är ofta uppdelad i flera tillstånd beskriver t. ex. initiala, mediala och finala delar. Varje tillstånd bestäms med fördelningar för observationssannolikheter övergångssannolikheter HMM Viterbi-matchning HMM-modell mot ett yttrande Förenklad algoritm för modellen nedan: for(t=; t<=t,++t) for(s=; s<=s,++s) P(t,s) = P(O t S s ) * Max[P(t-,s)*P tr (s s), P(t-,s-)*P tr (s s-), P(t-,s-2)*P tr (s s-2) ]; return( P(T,S)); Talteknologi 25-2-3 [ 6 ] Beg Yttrande End Tid Talteknologi 25-2-3 [ 62 ]

Talteknologi 25-2-3 [ 63 ] P(W4 W2) P(W3 W) Igenkänning av ordsekvens med Viterbisökning Bygg en meningsmodell (här:: bigram) av ordmodellerna Samma sökmetod som vid enkla ord (Viterbi) W2 P(W2 W) W P(W W) P(W W2) Tid