Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?

Relevanta dokument
Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?

AUTOMATISK IGENKÄNNING AV TAL

AI-rapport Speech recognition

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Niklas Lindvall Artificiell intelligens II Ht

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

AUTOMATISK IGENKÄNNING AV TAL

Artificial)Intelligence) Taligenkänning)

DP - Dynamisk programmering. Exempel på DP - textjämförelse. För- och nackdelar med ordmönsterigenkänning. Dolda Markovmodeller

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Språkljudens akustik. Akustik, akustiska elementa och talanalys

HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius

4/27/12. Fönstring i MDCT. Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck

Språkpsykologi/psykolingvistik

Örat. Johnson, Kap 3. Basic audition

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer

Taligenkänning med fördjupning på Hidden Markov Models

Föreläsning 10: Ljudkodning ( Audio Coding )

Grundläggande ljud- och musikteori

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

Spektrala Transformer

Vanliga frågor för VoiceXpress

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

Digital signalbehandling Digitalt Ljud

3. Metoder för mätning av hörförmåga

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

Taligenkänning. Hur datorer känner igen talat språk. 729G43 Artificiell Intelligens. Charlie Forsgren, Linköpings Universitet. chafo

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

Spektrala Transformer

Grundläggande signalbehandling

I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Ämnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle

Akustiska Elementa och Digital Signalbehandling

Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

Teoretisk lingvistik och datalingvistik. Robin Cooper

CARLOS GALDO TEDDY CHAVEZ KTH SKOLAN FÖR KEMI, BIOTEKNOLOGI OCH HÄLSA

SOUNDGATE. Uppkopplad med SoundGate

Hur kan man mäta hörsel? Ann-Christin Johnson Karolinska Institutet, Stockholm, Sverige

Anmälan till EY1B13 Kontrastiv engelska för lärare (Contrastive English for Teachers) 7,5 hp vårterminen 2011.

Statistisk mönsterigenkänning

Hörsel- och dövverksamheten. Information till dig som har hörselnedsättning Hörselverksamheten

Ett examensarbete utfört vid Institutionen för tal, musik och hörsel Kungliga tekniska högskolan Februari 2001

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå(loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Signaler och system, IT3

Text-till-Talsyntes (TTS2)

Sundberg: Kap 4 Artikulation

Litteratur ASR. Taligenkänning Introduktion till tal- och talarigenkänning. Vad är taligenkänning? Varför taligenkänning? Användningsområden

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4

Hörselkontroll Bullerskydd med öronproppar

Tekniken bakom språket

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät

Sammanfattning av föreläsning 4. Modellbygge & Simulering, TSRT62. Föreläsning 5. Identifiering av olinjära modeller

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Talbaserade multimodala dialogsystem för medicinsk rådgivning

Artificiella Neuronnät

Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning. Jens Edlund KTH Tal, Musik och Hörsel

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Roger TM. Dynamic SoundField Anslut, slå på och börja undervisa

8. Skaderisker och komplikationer

Matcha rätt hjärta till rätt patient med AI. Dennis Medved

/r/ i några svenska dialekter

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Lägga till olika dokument i en fil

Mångsidig, trådlös kommunikationsförstärkare Nu kan du höra:

SPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. Linköpings Universitet 729G43 Artificiell Intelligens

SIGNALANALYS I FREKVENSRUMMET

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Artificiell Intelligens Lektion 7

valet menu-tillägg Det kan inte bli enklare att välja en funktion som passar din kund. färger och modeller: anpassningsområde:

Ljud i byggnad och samhälle

Källorienterat ljud Del 1

Kompletterande räkneuppgifter i Spektrala Transformer Komplex analys, sampling, kvantisering, serier och filter Laura Enflo & Giampiero Salvi

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

Bilaga A, Akustiska begrepp

729G50 - Artificiell Intelligens Institutionen för Datavetenskap Linköpings Universitet HT 2007

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Kursplan B. Svenska kursenheten

1. PRESENTATION SÄKERHETSFÖRESKRIFTER Säkerhetsföreskrifter Användningsvillkor BESKRIVNING AV INSTRUMENTET...

de var svåra att implementera och var väldigt ineffektiva.

Taligenkänning - har den en framtid som nyttoverktyg?

Talperception. Talperception. Örat. Örat

ACOUSTIC FINGERPRINTING SYSTEMS

Lafayette Smart Manual

Life is on. Samspela fritt. Kommunicera med självförtroende. Lev ett liv utan gränser. Livet är nu.

Flerdimensionell signalbehandling SMS022

DT1130 Spektrala transformer Tentamen

Hör och härma. Röda boken lite lättare. Uttalsträning för nybörjare i svenska som andraspråk. Unni Brandeby

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

Introduktion. Koartikulation (1)

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Transkription och direktglossning av dialektinspelningar i SveDiaSyn

Kommunikation och Interaktion

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

Engelskaläxa glosor samt fraser till berättelsen En sommar i Storbritannien

Transkript:

GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ ] Automatisk igenkänning av tal och talare DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ Automatisk igenkänning av tal DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 2 ] Översikt - taligenkänning Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning olinjär tidstöjning (dynamisk programmering) dolda Markovmodeller kunskapsbaserade metoder neurala nät Databaser Resultat Aktuell forskning Tillämpningar GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 3 ] Varför taligenkänning? Naturligt sätt att kommunicera Snabbare inlärning Effektivare kommunikation Komplexa samband kan uttryckas enkelt i ett språk vi redan kan Ersätter tangentbord eller knappsats handdator, telefon, mobiltelefon Fungerar i besvärliga miljöer mörker, kyla etc. (dock sämre i buller) Händer och syn blir fria för andra uppgifter GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 4 ] Tillämpningar Handikapphjälpmedel rörelsehindrade Telefontjänster intelligenta telefonsvarare, e-mail informationssökning, biljettbokning Fria händer diktering styra mobiltelefon Studiehjälp tålmodig lärare språkinlärning, uttalsundervisning Indexering och sökning radio- och TV-program GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 5 ] Klassificering av igenkänningsmetoder 9DG känner man igen? enstaka ord, kommandon, diktering, dialog, spontant tal 9HP känner man igen? en talare: talarberoende, -adaptivt alla talare talaroberoende +XU känner man igen? kunskapsbaserade metoder expertsystem med fonetisk kunskap igenkänning via syntes inlärande metoder (statistiskt baserade) dynamisk programmering (DP) dolda Markovmodeller (HMM, Hidden Markov Models) artificiella neuronnät (ANN, Artificial Neural Networks) GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 6 ]

GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 7 ] Svårighet: tal kontra skrift I fonetisk transkription eller vanlig ortografi beskrivs talet med avgränsade, diskreta enheter Talet har ett kontinuerligt förlopp pga artikulatorernas mekaniska tröghet Koartikulation: fonem uttalas olika i olika kontext ( jfr /s/ i visir och ozon ) Reduktion: I snabbt tal och i obetonade stavelser uppnås inte det avsedda uttalet Fonem och stavelser kan falla bort ( bafatt, Sötälje, dnasba ) Svårigheter - stor variabilitet Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Omgivning Additivt brus Rumsakustik Mikrofon, Telefon Bandbredd Störningar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin brus frekvensgång transienter Reduktioner klickar Minsta ansträngning GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 8 ] Överlappning mellan vokaler för olika talare Spridning för de två lägsta resonans-frekvenserna (F och F2) hos isolerade svenska vokaler uttalade av manliga och kvinnliga talare (G Fant) Främre vokaler har väsentlig överlappning. GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 9 ] Ekofritt rum Rumsakustik Samma inspelade yttrande uppspelat i två olika rum Föreläsningssal (KTH:E5) Mikrofonavstånd ~3 m Nu är det stjälk GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ ] Tal i brus Inspelat i bil, hastighet 9 km/t. Riktad mikrofon i instrumentpanelen Yttrande: Inga GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ ] Talspråk: extra svårigheter Uttalsreduktioner ofullständigt uttalade ord Icke-grammatiska meningar Stakningar omstarter, instopp, strykningar Extralingvistiska ljud läppsmack, andning, tvekljud Störningar omgivningsljud, teknisk distortion GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 2 ]

GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 3 ] Uppläst och spontant tal Uppläst Spontant tal ur ett samtal Spontant och hyper-artikulerat tal Va jobbaru me Vad jobbar du med GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 4 ] Träning För att ett system ska känna igen tal oberoende av talare och miljö behövs kvantitativa mått på denna variabilitet. Ett stort träningsmaterial krävs för att uppskatta dessa Automatiska träningsmetoder nödvändiga GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 5 ] EU-projektet Inspelat tal över telefonnätet för att träna och testa taligenkänningssystem alla officiella EU-språk samt samt varianter som finlandssvenska, schweizertyska, walesiska totalt över 6 talare inspelade balansera talare enligt dialekt, ålder och kön ca 5 yttranden per talare siffror, datum, tider, penningbelopp, enkla kommandon, fonetiskt rika meningar och ord SpeechDat i Sverige 5 talare inspelade över vanlig telefon talare inspelade över mobiltelefon GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 6 ] Svenska dialekter Flyget, tåget och bilbranschen tävlar om lönsamhet och folkets gunst. Född i USA ex-jugoslavien GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 7 ] Störningar och annat Mobiltelefoni bil, trottoar, restaurang %HQJW 'HQQLVJHULQJDDYVNHGVLQWHUYMXHULQI U VLQ DYJnQJYLGnUVVNLIWHW 'HWKDQGODUEDUDRPHWWJODSSSnPnQDGHU Dialektalt uttryckssätt +DQI UV NWH I UJlYHVUlGGD VLQ KXVWUXSn YHUYnQLQJHQ Den mänskliga faktorn.ylqqdqlup\fnhwqlud HQWRWDO NROODSVRFKJUnWHU RXSSK UOLJW GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 8 ]

GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 9 ] TMH:s textdatabas Totalt ca 5 miljoner ord Texter Pressens Bild ca 9 miljoner ord Samhall ca 37 miljoner ord Datalingvistik Göteborg ca 2 miljoner ord Göteborgs-Posten ca 5 miljoner ord,9 miljoner olika ord ca miljon ord förekommer bara en gång ca 5 miljoner ord totalt,88 miljoner olika ord TMH:s textdatabas - de 5 vanligaste orden miljon ord förekommer bara en gång 7RWDOW JHPHQD JHPHQIRUP 7RWDOW JHPHQD JHPHQIRUP 7RWDOW JHP HQD JHPHQIRUP 44286 42772 och 36 34283 3997 eller 7 9943 996 vill 2 426937 392392 i 37 3269 2725 efter 72 982 95785 fick 3 34589 335874 att 38 325 372 ska 73 92335 928 dem 4 292952 246225 det 39 37668 35876 ut 74 977 95 blev 5 254392 238292 en 4 35375 38548 mot 75 8948 852 något 6 25377 2483293 som 4 33483 28863 vid 76 8689 8392 måste 7 239492 228435 på 42 3682 26752 här 77 8627 85545 sina 8 2465 979468 är 43 37357 2999 också 78 8623 7653 utan 9 766827 637663 av 44 3657 2492 du 79 8863 782 går 747 637525 för 45 3365 299552 år 8 854 3662 detta 7269 645599 med 46 32895 25828 under 8 7868 54958 allt 2 62547 336856 den 47 29652 22993 då 82 73932 745 kunde 3 53777 49327 till 48 28945 287853 säger 83 72629 64428 kom 4 42872 363722 inte 49 28927 283823 över 84 68233 4366 många 5 368623 99746 han 5 28897 268785 bara 85 6644 53667 någon 6 35483 93656 de 5 287357 28543 upp 86 6459 55325 mer 7 25333 22662 har 52 276734 2498 alla 87 57673 56289 sa 8 248597 82353 jag 53 274384 994 vad 88 57639 56759 bli 9 95578 99775 om 54 265398 264385 mig 89 5469 52887 sitt 2 66758 468 var 55 258 257276 vara 9 5485 4469 första 2 4299 966735 ett 56 256737 247662 mycket 9 5379 36447 några 22 86244 43734 men 57 253559 25995 in 92 45847 45676 varit 23 78482 78369 sig 58 249388 244959 än 93 44678 4775 fram 24 6854 49758 hon 59 24857 9884 hans 94 44363 3636 hela 25 678896 592543 så 6 244544 232593 andra 95 43998 43546 henne 26 6348 43883 vi 6 243864 237294 får 96 42353 358 ta 27 5739 5445 från 62 2438 24234 ha 97 4377 396 genom 28 556489 49262 man 63 243389 95362 sedan 98 4238 35823 mellan 29 55625 54469 hade 64 236593 23545 kommer 99 39927 36478 dag 3 54248 48825 kan 65 224 225 få 39752 499 ingen 3 5352 36482 när 66 2223 2235 honom 3755 34286 kronor 32 395292 285295 nu 67 29753 9643 två 2 3729 25652 nya 33 39385 38544 skulle 68 27583 69737 hur 3 3555 35242 göra 34 35873 32367 där 69 2747 2239 finns 4 35535 5644 även 35 3462 34445 sin 7 22274 9886 blir 5 3459 3 sverige GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 2 ] $QDO\V Delar i ett taligenkänningssystem N 6SHNWUDODQDO\V Fonemmodeller DNXVWLVNEHVNU Lexikon YRNDEXOlU IRQHPWUDQVNULSWLRQ Språkmodell P MOLJDRUGI OMGHU.XQVNDS Kontinuerlig Klassificering Diskret Sökning -lpi UHOVH EHVW EHVW EHVW ElVWD Meningsförståelse 9DOGPHQLQJ GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 2 ] Olika taligenkänningsmetoder Mönsterigenkänning (Pattern Recognition) bogvw Enkel jämförelse av två spektrala tidsserier Kompensation för varierande talhastighet (Dynamisk programmering, DP) Expertsystem gyhujlyhqlvlqgluhnwdirup Fonetikerns kunskap uttryckt i regler för fonetisk klassning Svårt och inflexibelt Artificiella Neurala Nät (ANN) %UDI UNODVVLILFHULQJ Huvudsakligen för fonetisk klassning Används i hybridsystem tillsammans med HMM Hidden Markov Models (HMM) HVWDQYlQG Representerar talets segmentella struktur Viterbi-avkodning (form av DP) GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 22 ] Parametrar för igenkänning Filterbanksamplituder (från, Fast Fourier Transform) Mel-skala - baserad på örats frekvensupplösning Cepstrum inversfouriertransform av logaritmiskt spektrum - ortogonala Cepstrum på Mel-spektrum: MFCC - standardmetoden LPC linjär prediktion - Linear Predictor Coefficients Formanter i kunskapsbaserade system svårt att mäta - kompromiss: mät tyngdpunkter i frekvensband Artikulatoriska parametrar nära kopplad till talproduktionen komplicerade att beräkna Hörselbaserade parametrar enkel modellering av hörseln Talsignal Vanligast: MFCC-analys Mel Frequency Cepstral Coefficients Mel-filterbank förbättring för tal stört av buller och GSLT brus Tal- och talarigenkänning M Blomberg 22-9-9 [ 23 ] Amplitud-frekvensspektrum av /a:/ Cepstrum av /a:/ GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 24 ] N Samplingsfrekvens 6SHNWUDODQDO\V PHG )DVW)RXULHU 7UDQVIRUP 9 7 5 3 db ILOWHU Ramfrekvens + UVHODQSDVVDGGHOQLQJ /LQMlU /RJ! ~6 Hz Bark/mel Cepstrumtransform 8-6 cepstrumkoefficienter var :e ms + energi + deras :a och 2:a tidsderivator 2 3 4 - -2 C C2 C3 C4

GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 25 ] N 6SHNWUDODQDO\V 9 7 5 3 9 7 5 3 Cepstrum från filterbankspektra Spektrum av /a:/ Spektrum av /s/ & $ Q L, Q L L, cos( π ( 5. ) / ) = =,5 -,5 -,5 -,5 -,5 -,5 - Viktfunktioner W = W2 W3 =,5 -,5 - W4 - -2 - -2 Cepstrum av /a:/ 2 3 4 C C2 C3 C4 Cepstrum av /s/ 2 3 4 C C2 C3 C4 Vektorkvantisering (VQ) Transformering från kontinuerliga till diskreta parametrar Automatisk indelning av parameterrymden i ett litet antal (~256) områden. Minimera distorsion i träningsdata Klassa varje tidpunkt av ett yttrande till ett av dessa områden. Hela yttrandet beskrivs som en följd av indextal. Kraftig datareduktion på bekostnad av kvantiseringsdistorsion. Kontinuerlig VQ.ODVVLILFHULQJ.ODVVLILFHULQJ Diskret Ex. enl trajektorien ovan: 2,,,5,5,6,6,6,7 GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 26 ] Artificiella NeuronNät - ANN Θ Modell av nervcell GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 27 ] 'ROWODJHU,QODJHU Filteramplituder Artificiella neuronnät - exempel Klassificering av fonemkategorier 8WODJHU Aktiveringsgrad för varje kategori GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 28 ] Referensmönster Enkel mönsterigenkänning utan tidsnormalisering 5 45 4 35 Par 2 3 Okänt yttrande 25 2 5 Par Lokal distans 5 3 5 7 9 3 5 7 9 2 23 25 27 29 3 Ackumulerad (global) distans Total distans Distansen mellan yttrandet och ett referensmönster är summan av distanserna för resp. parameter vid varje tidpunkt. 3UREOHP: Distansen beror till stor del på tidsavvikelser mellan kurvorna. GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 29 ] Va jobbaru me Kompensera för talhastighet Ingen kompensering Olinjär töjning, Dynamic Time Warp (DTW) Utförs med dynamisk programmering (DP) GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ 3 ] Vad jobbar du med Linjär töjning