Litteratur ASR. Taligenkänning Introduktion till tal- och talarigenkänning. Vad är taligenkänning? Varför taligenkänning? Användningsområden

Relevanta dokument
Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?

ASR3 Språkmodeller Talgrammatiker

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

Vanliga frågor för VoiceXpress

Taligenkänning med fördjupning på Hidden Markov Models

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Överblick. Dialogsystem. En dialogsystemsarkitektur. Dialogsystemsarkitektur. Talförståelse. Dialoghantering

Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

Artificial)Intelligence) Taligenkänning)

AI-rapport Speech recognition

Niklas Lindvall Artificiell intelligens II Ht

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Quick Start Guide Snabbguide

Workplan Food. Spring term 2016 Year 7. Name:

Statistisk mönsterigenkänning

Avkodning ASR prestanda

Kristian Almgren Artificiell Intelligens Linköpings Universitet Talstyrning

Support Manual HoistLocatel Electronic Locks

Chapter 1 : Who do you think you are?

RECORDED BOOKS PRESENTS PIMSLEUR LANGUAGE PROGRAMS SWEDISH SUPPLEMENTAL READING BOOKLET

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Read, work and talk! - och Lgr 11

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius

Engelska åk 5 höstterminen 2013

Taligenkänning. Hur datorer känner igen talat språk. 729G43 Artificiell Intelligens. Charlie Forsgren, Linköpings Universitet. chafo

Webbregistrering pa kurs och termin

Ready for Academic Vocabulary?

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Pressmeddelande Skriv med rösten - det lönar sig*

Text-till-Talsyntes (TTS2)

MÅL ATT UPPNÅ (FRÅN SKOLVERKET)

Översikt - talarigenkänning. Personidentifiering. Talarverifiering / -identifiering. Biometriska identifieringsmetoder.

Questionnaire for visa applicants Appendix A

Taligenkänning - har den en framtid som nyttoverktyg?

Join the Quest 3. Fortsätt glänsa i engelska. Be a Star Reader!

SCRATCH är ett nytt programmeringsspråk som gör att du kan skapa dina egna interaktiv historier, animationer, spel, musik och konst.

Preschool Kindergarten

Beijer Electronics AB 2000, MA00336A,

LARS. Ett e-bokningssystem för skoldatorer.

Talbaserade multimodala dialogsystem för medicinsk rådgivning

Webbreg öppen: 26/ /

DP - Dynamisk programmering. Exempel på DP - textjämförelse. För- och nackdelar med ordmönsterigenkänning. Dolda Markovmodeller

Påminnelse om inloggningsuppgifter

LUNDS TEKNISKA HÖGSKOLA Institutionen för Elektro- och Informationsteknik

DishPointer Apple iphone som hjälpmedel vid inställning av satellitantenn

Tips på AKK-appar. Jag tycker om dig! Appar med symboler, text och ljud för personer som behöver AKK-stöd för uttryck och förståelse

CMG Speech Attendant. Användarmanual. 19 februari PUBLIC

REGISTRERA DIG IDAG Din guide till Ronnebyporten

Tankar om Bliss symbolspråk i dagens värld

Unit course plan English class 8C

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Om integritet och sekretess på nätet. Stefan Ternvald, SeniorNet Lidingö,

Styrteknik 7.5 hp distans: E-1000 och E-Designer

Manuell installation av SQL Server 2008 R2 Express för SSF Timing

Naturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem. Stina Ericsson, Talteknologi VT06.

Varmt välkommen som gästföreläsare till Juridiska fakulteten vid Lunds universitet

Linköpings universitet

BREDBAND MBIT REGISTRERA DIG IDAG. Din guide till Karlshamnsporten

GOOD STUFF GOLD 2. PROVLEKTION: A pink jellyfish

ViTal. Talsyntes. Användarhandledning

1. Varje bevissteg ska motiveras formellt (informella bevis ger 0 poang)

Ett examensarbete utfört vid Institutionen för tal, musik och hörsel Kungliga tekniska högskolan Februari 2001


Tips på AKK-appar. Jag tycker om dig! Appar med symboler, text och ljud för personer som behöver AKK-stöd för uttryck och förståelse

Sri Lanka Association for Artificial Intelligence

Wittgenstein for dummies Eller hur vi gör det obegripliga begripligt. Västerås 15 februari 2017

Bridging the gap - state-of-the-art testing research, Explanea, and why you should care

Introduktion till programmering SMD180. Föreläsning 4: Villkor och rekursion


729G04 Programmering och diskret matematik. Python 2: Villkorssatser, sanningsvärden och logiska operatorer

Prototyper och användartest

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Ändringar i språkfiler i e-line 3.42A

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

MANUAL LYNC 365 TELEFONI - KONTROLLPANEL

Lektion 3. Anteckningar

Utvärdering SFI, ht -13

2.1 Installation of driver using Internet Installation of driver from disk... 3

Good Stuff 3 Textbook

Appar med symboler, text och talsyntes och/eller ljud som kan användas som stöd för personer som inte kan uttrycka sig via tal.

Sö ka litteratur i ERIC

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05

InstalationGuide. English. MODEL:150NHighGain/30NMiniUSBAdapter

Ansiktsigenkänning. Anna Ericsson Linköpings Universitet Linköping

Travel General. General - Essentials. General - Conversation. Asking for help. Asking if a person speaks English

Stina Nyman

Transkript:

Taligenkänning Introduktion till tal- och talarigenkänning Talteknologi, HT 2007 Litteratur ASR Kap 9 påp nätet Jurafsky & Martin. Kap 5,6,7 + delar fr. andra kapitel (t ex kap 19) Blomberg, M & Elenius, K. Automatisk igenkänning nning av tal. R.P. Lippman (1997) Speech recognition by machines and humans Steve Young,(1996). Large Vocabulary Continuous Speech Recognition: : a review Vad är taligenkänning? Automatic Speech Recognition (ASR) En dators igenkänning av naturligt tal System som identifierar en talsignal och mappar den till ett språkligt yttrande Omvandling av tal till text Automatic Speech Understanding (ASU) En dators förståelse av naturligt tal En talsignal tolkas till en representation av ett språkligt yttrande Varför taligenkänning? Effektivt gränssnitt Mskor i grupp löser problem mycket snabbare om de kan kommunicera verbalt med varandra Talet naturligt sätt att interagera (snabbare inlärning) Mycket information koncist Språket kan uttrycka komplexa saker Tillåter fria händer och syn Ersätter tangentbord/knappsats (handdator, mobil) Fungerar i mörker, kyla etc. Slipper menystruktur med alternativ Stort kommersiellt intresse! Användningsområden Handikapphjälpmedel Blinda Rörelsehandikappade Interaktion med mobiltelefon, handdator, bil (hands-free) Diktering (läkare, dåliga skrivmaskinister ) Telefontillämpningar (t ex voice-mail) Dialogsystem (t ex SJ s tidtabellupplysning) Tal-tilll-tal Översättning Sökning Indexering av audio Språkinlärning (uttalsundervisning) Project LISTEN (Literacy Innovation that Speech Technology ENables) is an inter-disciplinary research project at Carnegie Mellon University to develop a novel tool to improve literacy an automated Reading Tutor that displays stories on a computer screen, and listens to children read aloud. http://www.cs.cmu.edu/~listen/ 1

Indelning av igenkänningsmetoder Vad känner systemet igen? Ord Kommandon Keywords Diktering Dialog Spontant tal Vem känner systemet igen? Talarberoende (SD) (en/flera talare) Talaroberoende (SI) (godtyckliga talare, non-native?) De tre variablerna 1. Talarberoende Talaroberoende Speaker dependent/independent (SD/SI) Multispeaker 2. Vokabulärstorlek 10 till 500 000 ord 3. Isolerat Spontant tal Isolerade ord, Kommandon, Keywords, Kontinuerligt tal, Spontant tal Kommandotal Känner igen vissa ord/fraser Kommandon Motsvarigheten till tryckknapparna på telefonen fast med tal eller tryckkommandon på datorn Fungerar enligt menyer -Om du vill höra saldot på ditt kontot, säg saldo eller tryck 2. -Saldo Opera Speech Browser (www.opera.com) Gratis talbrusare för engelska Gör det möjligt att surfa på nätet med talkommandon: Gå till en viss sida Få text uppläst Zooma ut/in, reload Gå längst ner/högst upp på sidan Klicka osv. Kan användas på talsajter Möjlighet att lägga till egna kommandon Diktering Types what you say Känner igen 60000-160000 ord sagda i uppläst tempo Känner igen EN talare Adaptering till talarens röst (träning) Vokabuläranpassning Korrekthet >90 % Skrivhastighet 20 ord/min (inkl korrektioner) Persondator med mikrofon Används av rörelsehindrade, läkare, advokater, dyslektiker 2

Dikteringsmjukvara Företag/Produkter: Nuance Dragon Systems demo! IBM ViaVoice Philips speech products - FreeSpeech 2000, SpeechMike. WindowsXP (amerikanska versionen) Apple Dictaphone (domänspecifika) VoiceXpress (svenska) Kontinuerligt tal Talaroberoende Taligenkänningen fungerar för (nästan) vem som helst (på det språk och med den vokabulär som den är anpassad för) Ej tränad på användaren Medelstor vokabulär (klarar inte vokabulärer så stora som för diktering) Låter användaren uttrycka sig friare och mer komplext (mer naturligt) Används bl a i Dialogsystem, Telefontjänster, Datainmatning Kommersiella Taligenkänningsprodukter SRI: Decipher (Eduspeak, Dynaspeak) AT&T: Watson Nuance: Nuance 8.0 SoftSound SpeechMachines Vocalis Philips Loquendo Apple: PlainTalk Microsoft: SAPI (ASR & TTS) Whisper Nuance Introduktion Nuance är ett talteknologiföretag som erbjuder kommersiell: Taligenkänning, talarverifiering och talsyntes Samt APIs för att bygga ASR och TTS-klienter VoiceXML plattform Olika program som t ex. språkmodellgenerering Språk som Nuance stödjer Ett urval av Nuance program Arabic Cantonese Czech Danish Dutch English (5 varieties) French (2 varieties) German (2 varieties) Greek Hebrew Italian Japanese Korean Mandarin (2 varieties) Norwegian Portuguese Spanish (2 varieties) Swedish Turkish nlm license manager Xapp for testing ASR resource-manager distributes client requests recserver ASR server vocalizer TTS server Batchrec Evaluates LMs and grammars nuance-compile compiles recognition grammars train-slm trains statistical language models parse-tool checks if a recognition grammar accepts a string generate checks what strings a recognition grammar can generate 3

Verktygslådor för att bygga taligenkänning CMU Sphinx (Finns i Java-version) HTK toolkit (ATK) Sonic ASR CSLU toolkit (enkel taligenkänning + TTS, animerade huvuden, dialogsystem) ASR-system En talsignal ska parametriseras till en datarepresentation och sedan matchas till akustiskt och lingvistiskt innehåll och den ordsekvens som verkar mest sannolik i förhållande till input ska sökas upp. Delar i ett ASR-system Input (mikrofon/telefon) A/D omvandling Särskilja talsignalen från andra ljud, brus etc. Front End (Parametrisering) Komputationell representation av talsignalen Ta ut de värden som inte ändrar sig så mycket när samma ord sägs men som ändras mycket när andra ord sägs Lokal matchning Sannolikhetsberäkning Hitta möjliga matchningar mellan ett talsegment och referenser Avkodning Beräknar likheten mellan ett segment och dess referens Ta hänsyn till tid! Språkmodeller (Trigram) Tar in lingvistisk information för att avgöra matchning Vilka ord är sannolika att förekomma tillsammans Akustik / ljud våg Frekvens Spektrum Features (Fonem; Kontext) Fonem Fonemsekvenser/Ord Ord Sekvenser/ Mening Filtrering, Sampling Spektral Analys; FFT Signalbehandling / Analys Fonem Igenkänning: HMM, Neural Nät Grammatik eller Statistik Grammatik/Statistik för troliga ordsekvenser Översikt ASR-system Igenkänningsmetoder En talsignal ska först detekteras ur inputsignalen och brus, bakgrundsljud, tystnader, eko, andra röster ska filtreras bort. Talsignalen ska sedan parametriseras till en datarepresentation (sekvens av akustiska vektorer), Varje vektor är en representation av ett korttidsspektrum (10 ms). Yttrandet består av en sekvens av ord och ASR systemets uppgift är att hitta den mest sannolika ordsekvensen givet den observerade akustiska signalen. Mönsterigenkänning (Äldst) Jämförelse av två spektrala tidsserier Dynamisk Programmering(DP) används för att kompensera för varierande talhastighet Hidden Markov Models (HMM) (Vanligast) Representerar talets segmentella struktur Viterbi-avkodning (form av DP) Artificiella Neurala Nätverk (ANN) Huvudsakligen för fonetisk klassning I kombination med HMM (Hybridsystem) Kunskapsbaserade system Baserar sig på fonetisk, lingvistisk kunskap om tal. Ex: som en skicklig spektrogramläsare 4

Varför är ASR så svårt? Let s talk about how to wreck a nice beach or about how to recognize speech? Komplexiteten hos naturligt språk Talet är kontinuerligt ej isolerat (inga pauser mellan ord) Talspråkets karaktär (spontant misstag) Talvariabilitet Talarvariabilitet Talsignal vs andra ljud (Brus, Eko, Tystnad, Andning) Akustisk- och kanalvariabilitet Databrist (okända ord, okända uttalssätt, okända rösttyper) Tekniska hinder Processhungrigt/Kräver stor Minneskapacitet Kräver prestation i realtid Många metoder/algoritmer måste väljas bort, för långsamma Variabilitet i talsignalen Talarvariabilitet Variabiliteten hos tal är den största svårigheten Olika talare eller samma talare kan producera en ljudsekvens som motsvarar samma ord men som skiljer sig åt akustiskt (ger t ex olika spektrogram) Samma ord kan realiseras med olika styrka och med olika talhastighet. Vi måste därför träna systemet med olika akustiska realiseringar av ljud Kräver lång träning Stora mängder träningsdata Vi vill extrahera ur talsignalen de faktorer som hålls likvärdiga mellan olika akustiska realiseringar av t ex samma ord. Röstskillnader mellan talare: Kön Män: 70-250 Hz Kvinnor: 150-400 Hz Ålder Barn: 200-600 Hz Anatomiska skillnader Dialekt Skillnad i t ex. uttal, betoning, intonation, accent, språkljud Sociolekt T ex Uttal Röstskillnad inom talare: Sinnestillstånd Glad, ledsen Hälsotillstånd Förkyld Stress Talstil Formellt Spontant Talhastighet Modellera talarvariabiliteten Talarvariabilitet kräver att vi har tillräckligt med data för att träna upp våra modeller Olika talare realiserar samma språkljud akustiskt olika Ta två spektrogram från två talare som säger samma ord Eller från samma talare! Vad är det som gör att vi uppfattar akustiska realiseringar från olika talare som samma ord? Vi måste hitta de oförändrade egenskaperna samt filtrera bort de irrelevanta skillnaderna Ta bort nivåer i styrka Ta bort skillnader i duration Hitta gemensamma nämnare på frekvensnivå Akustiska modeller Akustiska modeller: statistiska modeller som beräknar likheten mellan en akustisk realisering och ett ord (el. fonemsekvens) Stort träningsmaterial behövs för att ta hänsyn till talarvariabiliteten. Speech dat 60000 talare inspelade, >11 språk Dialekt, ålder, kön 5000 talare i Sverige vanlig telefon 1000 talare via mobil Swedia2000 Dialektinspelningar (110 dialekter) 1284 personer inspelade 5

Uttalsvariation Exempel: Uttalsvarianter Koartikulation (talljuden påverkar varandra och fonem uttalas därför olika i olika kontext, och olika hos olika talare) /t/ i take, stake, tray, straight, butter, Kate TTS = mimic coarticulation ASR = overcome it!!! Reduktion (fonem och stavelser reduceras, uttalas otydligt eller utelämnas helt) Fokusord ofta tydliga men ändelser och artiklar reduceras Bara för att bafatt Do you want to eat Juwana Eat Uttalsvarianter Ur talspråkskorpusen (GSLC): vi{l}ken va{r} de{t} här den elle{r} den Ambiguiteten i talsignalen Talspråkets syntax Homofoner The tail of a dog/ the tale of a dog There/Their Talet är kontinuerligt och ej segmenterat som skriften. Ord förekommer inte isolerat. Vi måste göra ordgränser! It s not easy to wreck a nice beach It s not easy to recognise speech It s not easy to wreck an ice beach Say s Say yes [ay d ih s hh er d s ah m th ih ng ax b aw m uh v ih ng r ih s en l ih] I just heard something about moving recently Talspråkssyntax Jag skulle vilja åka tror jag mellan öh fem nej sex och sju kanske. På eftermiddagen alltså. Flesta NLP-metoderna bygger på skriftlig syntax Inte bara språkljud Extralingvistiska ljud (läppsmack,flås) Spontant tal är spontant! Vi tvekar, ändrar oss, säger fel etc. Talspråk svårt att förstå om taget ur kontexten? Disfluenser Exempel ur talkorpus Omstarter Pauser Tvekljud (öh, eh) Repetitioner Ändrar sig Slips of the tounge Teep a kape Hela ordet uttalas inte (truncated words) Säger fel Which flights leave bef- after noon? Which flights leave uh after noon? Which flights leave (pause) leave after noon? 6

Modellera disfluenser Disfluenser väldigt vanliga men dock verkar människor skärpa till sig lite i H-M dialoger i motsvarighet till H-H dialoger. Följer disfluenser vissa mönster? Verkar vanligare framför innehållsord För att kunna klara av disfluenser måste vi modellera tvekljud, fyllda pauser, repetitioner etc. T ex att Öh räknas som ett ord i lexikon. Många av dagens taligenkänningssystem klarar dock inte detta Slips of the tounge väldigt svårt att modellera Så här låter ni och studenter på DL Disfluenser: Som ni ser både stakar ni er, flåsar, harklar, fnissar, säger fel, gör omstarter och tvekar en hel del Talvariabilitet: Samt kan vi se hur ljudnivån varierar väldigt samt durationen av ord Talarvariabilitet: och visst låter ni väldigt olika Kanalvariabilitiet: och bakgrundsljud hörs. OOV (out of vocabulary words) Storleken på vokabulären är ett annat problem. Ju större vokabulär desto fler ord som liknar varandra akustiskt. Kommer aldrig täcka alla ord. ASR kan inte känna igen nya ord eftersom de bygger på lexikon. OOV blir istället igenkända som invocabulary words vilket påverkar igenkännandet av omkringliggande ord. Kanalvariabilitet Uttalet av samma ord kommer variera beroende på den kanalvariabiliteten: Omgivning Rumsakustik Brus: överflödig information i signalen, skilja ut talsignalen. Bakgrundsljud (cross-talking) Input modalitet Mikrofon, Telefon, Mobil Bandbredd (telefon 300-4 khz, mikro 8khz, /s/ vs /f/ högfrekvensa skillnader) Störningar (Eko, brus, cross talk) Kanalen påverkar signalen Talarens position i förhållande till mikrofon/telefon (nasala ljud starkare om närmare näsan, flås etc.) Tekniska hinder Taligenkänning kräver mycket processorkraft och minne Många algoritmer intressanta teoretiskt men oanvändbara för att de tar för lång tid för att fungera i realtidssystem Träningsalgoritmer kan inte heller ta för lång tid (buggar!, måste få fram en produkt) Sammanställning svårigheter Vi måste modellera talarvariabiliteten Och talvariabiliteten Disambiguera talsignalen (ordgränser) Modellera disfluenser för att kunna extrahera dessa Identifiera att ett ord är okänt (OOV) Särskilja talsignalen från andra ljud Modellera den akustiska omgivningens variabilitet, kompensera för distortion på talsignalen Ta hänsyn till olika kanalers påverkan Använda oss av effektiva algoritmer och smarta lagringsmetoder 7

Igenkänning av talarkarakteristiska Vi människor känner inte bara igen vad som sägs utan uppfattar samtidigt övrig information om talaren såsom: vilken dialekt om det är kvinna eller man ungefärlig ålder Vilket humör personen är på Hälsotillstånd Vilket språk personen talar I vissa sammanhang vill vi extrahera information om talaren och inte lingvistisk information som i taligenkänning Biometriska metoder inom talteknologi Talarverifiering (Speaker verification/authentication) Avgöra om talaren är den har utgör sig vara Biometrisk metod för att verifiera en persons identitet Talarigenkänning (Speaker identification) Avgöra vem talaren är, eller vilken grupp talaren tillhör Biometrisk metod för att identifiera en person Talarföljning (speaker spotting): identifiera vid vilka tidpunkter talar en viss person Språkigenkänning: verifiera eller identifiera en talares språk Åldersigenkänning: verifiera eller identifiera en talares ålder Könsigenkänning: verifiera eller identifiera en talares kön Steg i Automatisk Igenkänning av talarkarakteristika Användare säger något: text-beroende repeterar en textprompt textoberoende Inputsignal kommer inte till systemet Parameterextraktion (feature analysis) av talarmönster (om text-beroende även taligenkänning) Jämförelse av input mot referensmönster (utvärdering av distanser) i talarmodell Igenkänningsbeslut Talarspecifika parametrar Spektrum: talrör och röstkälla Statiska och dynamiska drag Anatomiska: Längden på talröret, storleken på kaviteter, stämbandsegenskaper Formantfrekvenser och bandbredder, medelgrundton Inlärda Dialekt, talstil Grundton, talhastighet, styrka formantfrekvenser Talarverifiering Intrångsförsök Identiteten uppges och verifieras med rösten Är oftas textberoende: Talaren säger en viss fras eller en pinkod Avgöra om ett yttrande tillhör en viss kategori (viss talare) dvs hur lång distans det är mellan två yttranden är det en acceptabel distans? Acceptera eller avvisa? Sann kund eller bedragare? En talarmodell måste byggas upp i förväg där talaren spelar in några få exempel Prestanda minskar ej med antalet användare Application:Welcome to the Speaker Verification demo.please say or enter the last 4 digits of your telephone number. This number will identify you for access to the secure application. User:3 0 4 2 Application:I heard three zero four two. Is that correct? Say Yes or No. User:Yes Application:A voice print has already been registered for the identifying number three zero four two. Let's see if your voice matches that voice print. Application:Please say your 10-digit telephone number. User:408-656-3042 Application:Please say any five digit number. User:1 2 3 4 5 Application:I'm still not sure of your identity. Lets try again Please say your 10-digit telephone number. User:408-656-3042 Application:Please say any five digit number. User:8 9 7 8 9 Application:Sorry. You are not authorized to access the secure application. Goodbye 8

Avvisa eller acceptera? Bestämma tröskel Fel som kan uppstå: false rejections (type I error): avvisar en korrekt användare false acceptances (type II error): accepterar en bedragare Måste bestämma vad som ska prioriteras Att någon annan inte ska kunna ta sig in (intrångsförsök) Att rätt användaren alltid ska kunna komma in Val av beslutsströskel beror på vad systemet ska användas till Kontoöverföring, samtalsdebitering, kolla mobilsaldo, sätta på datorn/mobil Beror på sannolikheten att en bedragare kommer dyka upp (intrångsförsök) samt kostnadsrelation mellan intrång (false acceptance) och felaktiva avvisningar (false rejections) Verifieringssystem brukas presenteras med false acceptance rate Ex FAR=0.1% dvs en av 1000 bedragare kommer lyckas FAR= False Acceptances/ Impostor Attempts Kombineras ofta med pinkod för att öka säkerheten Talarigenkänning Vem är användaren? Matcha talarens röst med en av de möjliga användare som systemet har Avgöra vem utav den mängd av talarkategorier som systemet har som rösten matchar bäst Talarmodeller byggs upp i förväg (textberoende eller inte) Prestanda minskar med antalet användare Kan avvisa om ingen klar matchning finns Användningsområden för biometriska talteknologimetoder Åtkomstkontroll: Banktjänster (picasso) Kreditkortsanvändning Personliga Telefontjänster Inpasserings och behörighetskontroll till byggnader/rum eller maskiner Ex: Apples voice login för imac Monitoring, övervakning och forensics : Monitoring av inspelningar av en viss person Övervakning av kriminella i hemmet Identifiering av personer inom brottsutredningar Talarindexering av audiofiler Sökning i ljudfiler efter viss talare 9