Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?

Storlek: px

Starta visningen från sidan:

Download "Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?"

Linnéa Åkesson
för 7 år sedan
Visningar:

1 GSLT Tal- och talarigenkänning M Blomberg [ ] Automatisk igenkänning av tal och talare DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ Automatisk igenkänning av tal DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ GSLT Tal- och talarigenkänning M Blomberg [ 2 ] Översikt - taligenkänning Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning olinjär tidstöjning (dynamisk programmering) dolda Markovmodeller kunskapsbaserade metoder neurala nät Databaser Resultat Aktuell forskning Tillämpningar GSLT Tal- och talarigenkänning M Blomberg [ 3 ] Varför taligenkänning? Naturligt sätt att kommunicera Snabbare inlärning Effektivare kommunikation Komplexa samband kan uttryckas enkelt i ett språk vi redan kan Ersätter tangentbord eller knappsats handdator, telefon, mobiltelefon Fungerar i besvärliga miljöer mörker, kyla etc. (dock sämre i buller) Händer och syn blir fria för andra uppgifter GSLT Tal- och talarigenkänning M Blomberg [ 4 ] Tillämpningar Handikapphjälpmedel rörelsehindrade Telefontjänster intelligenta telefonsvarare, informationssökning, biljettbokning Fria händer diktering styra mobiltelefon Studiehjälp tålmodig lärare språkinlärning, uttalsundervisning Indexering och sökning radio- och TV-program GSLT Tal- och talarigenkänning M Blomberg [ 5 ] Klassificering av igenkänningsmetoder 9DG känner man igen? enstaka ord, kommandon, diktering, dialog, spontant tal 9HP känner man igen? en talare: talarberoende, -adaptivt alla talare talaroberoende +XU känner man igen? kunskapsbaserade metoder expertsystem med fonetisk kunskap igenkänning via syntes inlärande metoder (statistiskt baserade) dynamisk programmering (DP) dolda Markovmodeller (HMM, Hidden Markov Models) artificiella neuronnät (ANN, Artificial Neural Networks) GSLT Tal- och talarigenkänning M Blomberg [ 6 ]

GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 7 ] Svårighet: tal kontra skrift I fonetisk transkription eller vanlig ortografi beskrivs talet med avgränsade, diskreta enheter Talet har ett

2 GSLT Tal- och talarigenkänning M Blomberg [ 7 ] Svårighet: tal kontra skrift I fonetisk transkription eller vanlig ortografi beskrivs talet med avgränsade, diskreta enheter Talet har ett kontinuerligt förlopp pga artikulatorernas mekaniska tröghet Koartikulation: fonem uttalas olika i olika kontext ( jfr /s/ i visir och ozon ) Reduktion: I snabbt tal och i obetonade stavelser uppnås inte det avsedda uttalet Fonem och stavelser kan falla bort ( bafatt, Sötälje, dnasba ) Svårigheter - stor variabilitet Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Omgivning Additivt brus Rumsakustik Mikrofon, Telefon Bandbredd Störningar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin brus frekvensgång transienter Reduktioner klickar Minsta ansträngning GSLT Tal- och talarigenkänning M Blomberg [ 8 ] Överlappning mellan vokaler för olika talare Spridning för de två lägsta resonans-frekvenserna (F och F2) hos isolerade svenska vokaler uttalade av manliga och kvinnliga talare (G Fant) Främre vokaler har väsentlig överlappning. GSLT Tal- och talarigenkänning M Blomberg [ 9 ] Ekofritt rum Rumsakustik Samma inspelade yttrande uppspelat i två olika rum Föreläsningssal (KTH:E5) Mikrofonavstånd ~3 m Nu är det stjälk GSLT Tal- och talarigenkänning M Blomberg [ ] Tal i brus Inspelat i bil, hastighet 9 km/t. Riktad mikrofon i instrumentpanelen Yttrande: Inga GSLT Tal- och talarigenkänning M Blomberg [ ] Talspråk: extra svårigheter Uttalsreduktioner ofullständigt uttalade ord Icke-grammatiska meningar Stakningar omstarter, instopp, strykningar Extralingvistiska ljud läppsmack, andning, tvekljud Störningar omgivningsljud, teknisk distortion GSLT Tal- och talarigenkänning M Blomberg [ 2 ]

3 GSLT Tal- och talarigenkänning M Blomberg [ 3 ] Uppläst och spontant tal Uppläst Spontant tal ur ett samtal Spontant och hyper-artikulerat tal Va jobbaru me Vad jobbar du med GSLT Tal- och talarigenkänning M Blomberg [ 4 ] Träning För att ett system ska känna igen tal oberoende av talare och miljö behövs kvantitativa mått på denna variabilitet. Ett stort träningsmaterial krävs för att uppskatta dessa Automatiska träningsmetoder nödvändiga GSLT Tal- och talarigenkänning M Blomberg [ 5 ] EU-projektet Inspelat tal över telefonnätet för att träna och testa taligenkänningssystem alla officiella EU-språk samt samt varianter som finlandssvenska, schweizertyska, walesiska totalt över 6 talare inspelade balansera talare enligt dialekt, ålder och kön ca 5 yttranden per talare siffror, datum, tider, penningbelopp, enkla kommandon, fonetiskt rika meningar och ord SpeechDat i Sverige 5 talare inspelade över vanlig telefon talare inspelade över mobiltelefon GSLT Tal- och talarigenkänning M Blomberg [ 6 ] Svenska dialekter Flyget, tåget och bilbranschen tävlar om lönsamhet och folkets gunst. Född i USA ex-jugoslavien GSLT Tal- och talarigenkänning M Blomberg [ 7 ] Störningar och annat Mobiltelefoni bil, trottoar, restaurang %HQJW 'HQQLVJHULQJDDYVNHGVLQWHUYMXHULQI U VLQ DYJnQJYLGnUVVNLIWHW 'HWKDQGODUEDUDRPHWWJODSSSnPnQDGHU Dialektalt uttryckssätt +DQI UV NWH I UJlYHVUlGGD VLQ KXVWUXSn YHUYnQLQJHQ Den mänskliga faktorn.ylqqdqlup\fnhwqlud HQWRWDO NROODSVRFKJUnWHU RXSSK UOLJW GSLT Tal- och talarigenkänning M Blomberg [ 8 ]

4 GSLT Tal- och talarigenkänning M Blomberg [ 9 ] TMH:s textdatabas Totalt ca 5 miljoner ord Texter Pressens Bild ca 9 miljoner ord Samhall ca 37 miljoner ord Datalingvistik Göteborg ca 2 miljoner ord Göteborgs-Posten ca 5 miljoner ord,9 miljoner olika ord ca miljon ord förekommer bara en gång ca 5 miljoner ord totalt,88 miljoner olika ord TMH:s textdatabas - de 5 vanligaste orden miljon ord förekommer bara en gång 7RWDOW JHPHQD JHPHQIRUP 7RWDOW JHPHQD JHPHQIRUP 7RWDOW JHP HQD JHPHQIRUP och eller vill i efter fick att ska dem det ut blev en mot något som vid måste på här sina är också utan av du går för år detta med under allt den då kunde till säger kom inte över många han bara någon de upp mer har alla sa jag vad bli om mig sitt var vara första ett mycket några men in varit sig än fram hon hans hela så andra henne vi får ta från ha genom man sedan mellan hade kommer dag kan få ingen när honom kronor nu två nya skulle hur göra där finns även sin blir sverige GSLT Tal- och talarigenkänning M Blomberg [ 2 ] $QDO\V Delar i ett taligenkänningssystem N 6SHNWUDODQDO\V Fonemmodeller DNXVWLVNEHVNU Lexikon YRNDEXOlU IRQHPWUDQVNULSWLRQ Språkmodell P MOLJDRUGI OMGHU.XQVNDS Kontinuerlig Klassificering Diskret Sökning -lpi UHOVH EHVW EHVW EHVW ElVWD Meningsförståelse 9DOGPHQLQJ GSLT Tal- och talarigenkänning M Blomberg [ 2 ] Olika taligenkänningsmetoder Mönsterigenkänning (Pattern Recognition) bogvw Enkel jämförelse av två spektrala tidsserier Kompensation för varierande talhastighet (Dynamisk programmering, DP) Expertsystem gyhujlyhqlvlqgluhnwdirup Fonetikerns kunskap uttryckt i regler för fonetisk klassning Svårt och inflexibelt Artificiella Neurala Nät (ANN) %UDI UNODVVLILFHULQJ Huvudsakligen för fonetisk klassning Används i hybridsystem tillsammans med HMM Hidden Markov Models (HMM) HVWDQYlQG Representerar talets segmentella struktur Viterbi-avkodning (form av DP) GSLT Tal- och talarigenkänning M Blomberg [ 22 ] Parametrar för igenkänning Filterbanksamplituder (från, Fast Fourier Transform) Mel-skala - baserad på örats frekvensupplösning Cepstrum inversfouriertransform av logaritmiskt spektrum - ortogonala Cepstrum på Mel-spektrum: MFCC - standardmetoden LPC linjär prediktion - Linear Predictor Coefficients Formanter i kunskapsbaserade system svårt att mäta - kompromiss: mät tyngdpunkter i frekvensband Artikulatoriska parametrar nära kopplad till talproduktionen komplicerade att beräkna Hörselbaserade parametrar enkel modellering av hörseln Talsignal Vanligast: MFCC-analys Mel Frequency Cepstral Coefficients Mel-filterbank förbättring för tal stört av buller och GSLT brus Tal- och talarigenkänning M Blomberg [ 23 ] Amplitud-frekvensspektrum av /a:/ Cepstrum av /a:/ GSLT Tal- och talarigenkänning M Blomberg [ 24 ] N Samplingsfrekvens 6SHNWUDODQDO\V PHG )DVW)RXULHU 7UDQVIRUP db ILOWHU Ramfrekvens + UVHODQSDVVDGGHOQLQJ /LQMlU /RJ! ~6 Hz Bark/mel Cepstrumtransform 8-6 cepstrumkoefficienter var :e ms + energi + deras :a och 2:a tidsderivator C C2 C3 C4

5 GSLT Tal- och talarigenkänning M Blomberg [ 25 ] N 6SHNWUDODQDO\V Cepstrum från filterbankspektra Spektrum av /a:/ Spektrum av /s/ & $ Q L, Q L L, cos( π ( 5. ) / ) = =,5 -,5 -,5 -,5 -,5 -,5 - Viktfunktioner W = W2 W3 =,5 -,5 - W Cepstrum av /a:/ C C2 C3 C4 Cepstrum av /s/ C C2 C3 C4 Vektorkvantisering (VQ) Transformering från kontinuerliga till diskreta parametrar Automatisk indelning av parameterrymden i ett litet antal (~256) områden. Minimera distorsion i träningsdata Klassa varje tidpunkt av ett yttrande till ett av dessa områden. Hela yttrandet beskrivs som en följd av indextal. Kraftig datareduktion på bekostnad av kvantiseringsdistorsion. Kontinuerlig VQ.ODVVLILFHULQJ.ODVVLILFHULQJ Diskret Ex. enl trajektorien ovan: 2,,,5,5,6,6,6,7 GSLT Tal- och talarigenkänning M Blomberg [ 26 ] Artificiella NeuronNät - ANN Θ Modell av nervcell GSLT Tal- och talarigenkänning M Blomberg [ 27 ] 'ROWODJHU,QODJHU Filteramplituder Artificiella neuronnät - exempel Klassificering av fonemkategorier 8WODJHU Aktiveringsgrad för varje kategori GSLT Tal- och talarigenkänning M Blomberg [ 28 ] Referensmönster Enkel mönsterigenkänning utan tidsnormalisering Par 2 3 Okänt yttrande Par Lokal distans Ackumulerad (global) distans Total distans Distansen mellan yttrandet och ett referensmönster är summan av distanserna för resp. parameter vid varje tidpunkt. 3UREOHP: Distansen beror till stor del på tidsavvikelser mellan kurvorna. GSLT Tal- och talarigenkänning M Blomberg [ 29 ] Va jobbaru me Kompensera för talhastighet Ingen kompensering Olinjär töjning, Dynamic Time Warp (DTW) Utförs med dynamisk programmering (DP) GSLT Tal- och talarigenkänning M Blomberg [ 3 ] Vad jobbar du med Linjär töjning

Relevanta dokument

Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning? Talteknologi 25-2-3 [ ] Översikt - taligenkänning Automatisk igenkänning av tal Del Mats Blomberg Tal, musik och hörsel KTH Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning