Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?



Relevanta dokument
Litteratur ASR. Taligenkänning Introduktion till tal- och talarigenkänning. Vad är taligenkänning? Varför taligenkänning? Användningsområden

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Överblick. Dialogsystem. En dialogsystemsarkitektur. Dialogsystemsarkitektur. Talförståelse. Dialoghantering

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Stina Nyman

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Taligenkänning - har den en framtid som nyttoverktyg?

HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius

Programmering A C# VT Ett kompendie över Programmering A (50p) i c# Stefan Fredriksson

Taligenkänning med fördjupning på Hidden Markov Models

DishPointer Apple iphone som hjälpmedel vid inställning av satellitantenn

Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?

NEO Speech. Trygghetstelefon. Användarmanual (SE)

Kommuniceramer än ord

LäsFlyt Metodhandledning

Studentguide Adobe Connect Pro

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

1. GRUNDLÄGGANDE SAMBAND

Utskrift av inspelat samtal hos Arbetsförmedlingen

Rapport från Praktik på SVOX AG till

ASR3 Språkmodeller Talgrammatiker

LAJKA-GUIDE Bättre än Airdrop Skicka filer mellan OS X och ios

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Niklas Lindvall Artificiell intelligens II Ht

Installation av SpeechMagic

Kurslitteratur Taltranskription: Introduktion

Transkription och direktglossning av dialektinspelningar i SveDiaSyn

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Net id OEM Användarhandbok för Windows

MOBILTELEFONI. Julia Kleiman, Frida Lindbladh & Jonas Khaled. tisdag 15 maj 12

ViTex snabbguide. 1. Inläsning till ViTex från scanner eller PDF Läs in text via scanner Läs in text från en JPEG-bild eller ett PDF-dokument

Tentaupplägg denna gång

RECORDED BOOKS PRESENTS PIMSLEUR LANGUAGE PROGRAMS SWEDISH SUPPLEMENTAL READING BOOKLET

Läs detta innan du fortsätter, eller skriv ut det, klicka runt lite och läs samtidigt.

Doro Secure 580IUP. Användarhandbok. Svenska

Det musikaliska hantverket

Appendix 4. Ordförklaringar och korta beskrivningar av test och skalor

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

ClaroRead Plus Mac Manual. Artikel.nr

Fö Inspelningsrummet. [Everest kapitel 20 och 22-24]

Tentamen i Realtidsprogrammering

Att ge feedback. Detta är ett verktyg för dig som:

SÄTT DIG NER, 1. KOLLA PLANERINGEN 2. TITTA I DITT SKRIVHÄFTE.

Testa din hörsel. - det är inte svårt

Övning 1: Vad är självkänsla?

Hjälp ditt barn att lära sig ett språk. Guide för föräldrar och vårdnadshavare

Introduktion till integrering av Schenkers e-tjänster. Version 2.0

Föreläsning 3.1: Datastrukturer, en översikt

Bruksanvisning DAB One

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 1

SÅindex 5 i Microsoft Excel 2010

TTS är stolta över att ingå i

Nokias uppförandekod

Konsten att leda workshops

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Sinnena den mänskliga hårdvaran

Vad tycker du om sfi?

Föreläsning 6: Introduktion av listor

PSYKOLOGISK UNDERSÖKNING H 70:

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

Redovisa i e-möten via Adobe Connect

Disposition. Antalet mikrofoner som behövs beror på vad du ska spela in. Vilken mikrofon ska jag välja? Hur nära ska mikrofonerna placeras?

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Elevens och hans/hennes vårdnadshavares egna åsikter/synpunkter kring skolsituationen är nödvändiga att ta med i sammanställningen.

Upplägg. Pretend mode Till att börja med. Varje gång

Domarassistenten.com. - en introduktion för domare

Neuropedagogik Björn Adler, Hanna Adler och Studentlitteratur Bilaga 1:1 Arbete med schema för bokstäver Kognitiv träning i läsning

Lektion 3. Anteckningar

Åtkomst och användarhandledning

Har du funderat något på ditt möte...

Artificial)Intelligence) Taligenkänning)

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

Fortsättningskurs i programmering F 2. Algoritmer i Programutveckling Hugo Quisbert Problemexempel 1

Inledning till Wavesurfer av Christine Ericsdotter (Lingvistik, Stockholms universitet)

När ReadHear är installerat på din dator, startar du det genom att klicka på programmets ikon.

The National Institute of Child Health and Human Development (NICHD) Protocol: Intervjuguide

Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens

Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

SNABBGUIDE TILL NEWSDESK

LÄSLANDET - BOKSTÄVER OCH ORD

Lathund, till Photo Story, för skräckslagna lärare

Språket, individen och samhället VT08

Språkpsykologi/psykolingvistik

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Trådlös anslutning till de viktiga sakerna i livet

Andas bättre må bättre!

WordRead Plus för Mac

Life is on. Samspela fritt. Kommunicera med självförtroende. Lev ett liv utan gränser. Livet är nu.

Digitalt lärande och programmering i klassrummet. Introduktionsworkshop - Bygg ett akvarium i Scratch

Handledning Miljömanualen på webben

Informationsmöte inför Pias skolstart i årskurs X 2011-MM-DD

GARAGEBAND En steg för steg guide hur du tar dig från idé till färdig låt.

8 sätt att öka engagemanget hos dina kunder med QR! Hur du kan använda QR-koder för att skapa nytta för er och värde för kunden.

Problem: BOW Bowling. Regler för Bowling. swedish. BOI 2015, dag 1. Tillgängligt minne: 256 MB

ZACI är den programvara som är navet i kommunikationen när det gäller kortbetalningar.

Doro Secure 580. Användarhandbok. Svenska

Transkript:

Litteratur ASR Taligenkänning Introduktion till taligenkänning Talteknologi, VT 2006 Rebecca Jonson Jurafsky & Martin. Kap 5,6,7 + delar fr. andra kapitel (t ex kap 19) Blomberg, M & Elenius, K. Automatisk igenkänning nning av tal. R.P. Lippman (1997) Speech recognition by machinesand and humans Steve Young,(1996). Large Vocabulary Continuous Speech Recognition: a review Upplägg taligenkänningsdelen Mån: Introduktion till ASR, Varför är ASR så svårt? Ons: Parametrisk representation,taligenkänningstekniker och Talarigenkänningstekniker Fre: Språkmodeller + Taligenkänningsgrammatiker Mån: Avkodning, N-Bästa, Prestanda Ons: Talförståelse (ASU), dialogsystem och talteknologi Ons em: Nuance Tutorial Nuance-labb (veckorna därpå fram till/efter tentan) Dagens litteratur Jurafsky & Martin. Kap 5-5.95.9 (ej 5.2,5.3,5.5), 7.5, s. 347, 16.1 Blomberg, M & Elenius, K. Automatisk igenkänning nning av tal. sid 1-1010 Vad är taligenkänning? Automatic Speech Recognition (ASR) En dators igenkänning av naturligt tal System som identifierar en talsignal och mappar den till ett språkligt yttrande Omvandling av tal till text Automatic Speech Understanding (ASU) En dators förståelse av naturligt tal En talsignal tolkas till en representation av ett språkligt yttrande Varför taligenkänning? Effektivt gränssnitt Mskor i grupp löser problem mycket snabbare om de kan kommunicera verbalt med varandra Talet naturligt sätt att interagera (snabbare inlärning) Mycket information koncist Språket kan uttrycka komplexa saker Tillåter fria händer och syn Ersätter tangentbord/knappsats (handdator, mobil) Fungerar i mörker, kyla etc. Slipper menystruktur med alternativ Stort kommersiellt intresse! Telefontillämpningar

Användningsområden Indelning av igenkänningsmetoder Handikapphjälpmedel Blinda Rörelsehandikappade Interaktion med mobiltelefon, handdator, bil (hands-free) Diktering (läkare, dåliga skrivmaskinister ) Telefontillämpningar (t ex voice-mail) Dialogsystem (t ex SJ s tidtabellupplysning) Översättning (t ex Verbmobil) Sökning Indexering av audio Språkinl ärning (uttalsundervisning) Vadkänner systemet igen? Ord Kommandon Keywords Diktering Dialog Spontant tal Vem känner systemet igen? Talarberoende (SD) (en/flera talare) Talaroberoende (SI) (godtyckliga talare, non-native?) De tre variablerna 1. Talarberoende Talaroberoende Speaker dependent/independent (SD/SI) Multispeaker 2. Vokabulärstorlek 10 till 500 000 ord 3. Isolerat Spontant tal Isolerade ord, Kommandon, Keywords, Kontinuerligt tal, Spontant tal Isolerat tal Känner igen vissa ord/fraser Kommandon Motsvarigheten till tryckknapparna på telefonen fast med tal eller tryckkommandon på datorn Fungerar enligt menyer -Om du vill höra saldot på ditt kontot, säg saldo eller tryck 2. -Saldo Diktering Types what you say Känner igen 60000-160000 ord sagda i uppläst tempo Känner igen EN talare Adaptering till talarens röst (träning) Vokabuläranpassning Korrekthet >90 % Skrivhastighet 20 ord/min (inkl korrektioner) Persondator med mikrofon Används av rörelsehindrade, läkare, advokater, dyslektiker

Dikteringsmjukvara Företag/Produkter: Scansoft Dragon Systems IBM ViaVoice Philips speech products - FreeSpeech 2000, SpeechMike. WindowsXP (amerikanska versionen) Apple Dictaphone (domänspecifika) Spontant tal Talaroberoende Taligenkänningen fungerar för (nästan) vem som helst (på det språk och med den vokabulär som den är anpassad för) Ej tränad på användaren Kontinuerligt tal Medelstor vokabulär (klarar inte vokabulärer så stora som för diktering) Låter användaren uttrycka sig friare och mer komplext (mer naturligt) Används bl a i Dialogsystem, Telefontjänster, Datainmatning Kommersiella Taligenkänningsprodukter SRI: Decipher (Eduspeak, Dynaspeak) AT&T: Watson Nuance: Nuance 8.0 SoftSound SpeechMachines Vocalis Philips Apple: PlainTalk Microsoft: SAPI (ASR & TTS) Whisper Nuance Introduktion Nuance är ett talteknologiföretag som erbjuder kommersiell: Taligenkänning, talarverifiering och talsyntes Samt APIs för att bygga ASR och TTS-klienter VoiceXML plattform Olika program som t ex. språkmodellgenerering Språk som Nuance stödjer Ett urval av Nuance program Arabic Cantonese Czech Danish Dutch English (5 varieties) French (2 varieties) German (2 varieties) Greek Hebrew Italian Japanese Korean Mandarin (2 varieties) Norwegian Portuguese Spanish (2 varieties) Swedish Turkish nlm license manager Xapp for testing ASR resource-manager distributes client requests recserver ASR server vocalizer TTS server Batchrec Evaluates LMs and grammars nuance-compile compiles recognition grammars train-slm trains statistical language models parse-tool checks if a recognition grammar accepts a string generate checks what strings a recognition grammar can generate

Verktygslådor för att bygga taligenkänning CMU Sphinx (Finns i Java-version) HTK toolkit (ATK) Sonic ASR CSLU toolkit (enkel taligenkänning + TTS, animerade huvuden, dialogsystem) ASR-system En talsignal ska parametriseras till en datarepresentation och sedan matchas till akustiskt och lingvistiskt innehåll och den ordsekvens som verkar mest sannolik i förhållande till input ska sökas upp. Delar i ett ASR-system Input (mikrofon/telefon) A/D omvandling Särskilja talsignalen från andra ljud, brus etc. Front End ( Parametrisering) Komputationell representation av talsignalen Ta ut de värden som inte ändrar sig så mycket när samma ord sägs men som ändras mycket när andra ord sägs Lokal matchning Sannolikhetsberäkning Hitta möjliga matchningar mellan ett talsegment och referenser Avkodning Beräknar likheten mellan ett segment och dess referens Ta hänsyn till tid! Spr åkmodeller (Trigram) Tar in lingvistisk information för att avgöra matchning Vilka ord är sannolika att förekomma tillsammans Akustik/ ljud våg Frekvens Spektrum Features (Fonem; Kontext) Fonem Fonemsekvenser/Ord Ord Sekvenser/ Mening Filtrering, Sampling Spektral Analys; FFT Signalbehandling / Analys Fonem Igenkänning: HMM, Neural Nät GrammatikellerStatistik Grammatik/Statistikför troliga ordsekvenser Översikt ASR-system En talsignal ska först detekteras ur inputsignalen och brus, bakgrundsljud, tystnader, eko, andra r öster ska filtreras bort. Talsignalen ska sedan parametriseras till en datarepresentation (sekvens av akustiska vektorer), Varje vektor är en representation av ett korttidsspektrum(10 ms). Yttrandet består av en sekvens av ord och ASR systemets uppgift är att hitta den mest sannolika ordsekvensen givet den observerade akustiska signalen. Igenkänningsmetoder Mönsterigenkänning (Äldst) Jämförelse av två spektrala tidsserier Dynamisk Programmering används för att kompensera för varierande talhastighet Hidden Markov Models (HMM) (Vanligast) Representerar talets segmentella struktur Viterbi-avkodning (form av DP) Artificiella Neurala Nätverk (ANN) Huvudsakligen för fonetisk klassning I kombination med HMM (Hybridsystem) Kunskapsbaserade system Baserar sig p å fonetisk, lingvistisk kunskap om tal. Ex: som en skicklig spektrogramläsare

Varför är ASR så svårt? Let s talk about how to wreck a nice beach or about how to recognize speech? Komplexiteten hos naturligt språk Talet är kontinuerligt ej isolerat (inga pauser mellan ord) Talspråkets karaktär (spontant misstag) Talvariabilitet Talarvariabilitet Talsignal vs andra ljud (Brus, Eko, Tystnad, Andning) Akustisk/Kanal variabilitet Databrist (OOV, akustiska modeller) Tekniska hinder Processhungrigt/Kräver stor Minneskapacitet Kräver prestation i realtid Många metoder/algoritmer måste väljas bort, för långsamma Variabilitet i talsignalen Svårigheter - talarvariabilitet Variabiliteten hos tal är den största svårigheten, olika talare eller samma talare kan producera ett sekvens som motsvarar samma ord men som skiljer sig akustiskt (ger t ex olika spektrogram) Samma ord kan realiseras med olika styrka och med olika talhastighet. Måste träna systemet med olika akustiska realiseringar av ljud Kräver lång träning Stora mängder träningsdata Extrahera ur talsignalen de faktorer som hålls likvärdiga mellan olika realiseringar av t ex samma ord. Röstskillnader mellan talare: Kön Män: 70-250 Hz Kvinnor: 150-400 Hz Ålder Barn: 200-600 Hz Anatomiska skillnader Dialekt Skillnad i t ex. uttal, betoning, intonation, accent, språkljud Sociolekt T ex Uttal Röstskillnad samma talare: Sinnestillstånd Glad, ledsen Hälsotillstånd Förkyld Stress Talstil Formellt Spontant Talhastighet Modellera talarvariabiliteten Talarvariabilitet kräver att vi har tillräckligt med data för att träna upp våra modeller Olika talare realiserar samma språkljud akustiskt olikt Tatvå spektrogram från två talare som säger samma ord Eller från samma talare! Vad är det som gör att vi uppfattar akustiska realiseringar från olika talare som samma ord? Vi måste hitta de oförändrade egenskaperna samt filtrera bort de irrelevanta skillnaderna Ta bort nivåer i styrka, skillnader i tid (DP!) Hitta gemensamma nämnare på frekvensnivå Akustiska modeller Akustiska modeller: statistiska modeller som beräknar likheten mellan en akustisk realisering och ett ord (el. fonemsekvens) Stort tr äningsmaterial behövs för att ta hänsyn till talarvariabiliteten. Speech dat 60000 talare inspelade, >11 språk Dialekt, ålder, kön 5000 talare i Sverige vanlig telefon 1000 talare via mobil Swedia2000 Dialektinspelningar (110 dialekter) 1284 personer inspelade

Svårigheter- uttalsvariation Exempel: Uttalsvarianter Koartikulation(talljuden påverkar varandra och fonem uttalas därför olika i olika kontext, och olika hos olika talare) /t/ i take, stake, tray, straight, butter, Kate TTS = mimic coarticulation ASR = overcome it!!! Reduktion (fonem och stavelser reduceras, uttalas otydligt eller utelämnas helt) Fokusordofta tydliga men ändelser och artiklar reduceras Bara för att bafatt Do you want to eat Juwana Eat Uttalsvarianter Ur talspråkskorpusen: vi{l}ken va{r} de{t} här den elle{r} den Ambiguitet i talsignalen Homofoner The tailof a dog/ the taleof a dog There/Their Talet kontinuerligt (ej segmenterat som skriften) Frasnivå: avgöra ordgränser (OBS! Ord förekommer bara isolerat i skrift) It s not easy to wrecka nicebeach It s not easy to recognise speech It s not easy to wreckan icebeach Says Sayyes [ay d ih s hh er d s ah m th ih ng ax b aw m uh v ih ng r ih s en l ih] I just heard something about moving recently Svårigheter - talspråk Talspråkssyntax Jag skulle vilja åka tror jag mellan öh fem nej sex och sju kanske. På eftermiddagen alltså. Flesta NLP-metoderna bygger på skriftlig syntax Inte bara språkljud Extralingvistiska ljud (l äppsmack,flås) Spontant tal är spontant! Vi tvekar, ändrar oss, säger fel etc. Talspråk svårt att förstå om taget ur kontexten? Disfluenser Exempel ur talkorpus Omstarter Pauser Tvekljud (öh, eh) Repetitioner Ändrar sig Slips of the tounge Teep a kape Hela ordet uttalas inte (truncated words) Säger fel Which flights leave bef- after noon? Which flights leave uh after noon? Which flights leave (pause) leave after noon?

Disfluenser Disfluenser väldigt vanliga men dock verkar människor skärpa till sig lite i H-M dialoger i motsvarighet till H-H dialoger. För att kunna klara av disfluensermåste vi modellera tvekljud, fyllda pauser, repetitioner etc. T ex att Öh räknas som ett ord i lexikon. Många av dagens taligenkänningssystem klarar dock inte detta Slips of the tounge väldigt svårt att modellera Så här låter ni: Disfluenser: Som ni ser både stakar ni er, flåsar, fnissar, säger fel, gör omstarter och tvekar en hel del Talvariabilitet: Samt kan vi se hur ljudnivån varierar väldigt och att bakgrundsljud hörs. Talarvariabilitet: och visst låter ni väldigt olika OOV (out of vocabulary words) Storleken på vokabulären är ett annat problem. Ju större vokabulär desto fler ord som liknar varandra akustiskt. Kommer aldrig täcka alla ord. ASR kan inte känna igen nya ord eftersom de bygger på lexikon. OOV blir istället igenkända som invocabulary words vilket påverkar igenkännandet av omkringliggande ord. Svårigheter - kanalvariabilitet Uttalet av samma ord kommer variera beroende på den akustiska/kanal variabiliteten: Omgivning Rumsakustik Brus: överflödig information i signalen, skilja ut talsignalen. Bakgrundsljud (cross-talking) Input modalitet Mikrofon, Telefon, Mobil Bandbredd (telefon 300-4 khz, mikro 8khz, /s/ vs /f/ högfrekvensa skillnader) Störningar (Eko, brus, cross talk) Kanalen påverkar signalen Talarens position i förhållande till mikrofon/telefon (nasala ljud starkare om närmare näsan, flås etc.) Tekniska hinder Taligenkänning kr äver mycket processorkraft och minne Många algoritmer intressanta teoretiskt men oanvändbara för att de tar för lång tid för att fungera i realtidssystem Träningsalgoritmer kan inte heller ta för lång tid (buggar!, måste få fram en produkt) Sammanställning svårigheter Vi måste modellera talarvariabiliteten Och talvariabiliteten Disambiguera talsignalen(ordgränser) Modellera disfluenser för att kunna extrahera dessa Identifiera OOV Särskilja talsignalen från andra ljud Modellera den akustiska omgivningens variabilitet, kompensera för distortion på talsignalen Ta hänsyn till olika kanalers påverkan Använda oss av effektiva algoritmer och smarta lagringsmetoder