Ett examensarbete utfört vid Institutionen för tal, musik och hörsel Kungliga tekniska högskolan Februari 2001



Relevanta dokument
Testa din hörsel. - det är inte svårt

Concept Selection Chaper 7

7 steg från lagom till världsklass - 7 tips som berikar Ditt liv

Att ge feedback. Detta är ett verktyg för dig som:

STÖD BARN MED ADHD I KLASSRUMMET

Fö Inspelningsrummet. [Everest kapitel 20 och 22-24]

Dynamisk programvara, ett didaktiskt verktyg?

Från sömnlös till utsövd

Protokoll studienämndsmöte 1 25/ Rapporter från råd

75059 Stort sorteringsset

FÖRKORTA DIN VÄG PÅ BANAN

Hur kommer man igång?

TDDB96 Projekt: Object priming med visuell stimuli

STUDIETEKNIK. Till eleven

Resultatnivåns beroende av ålder och kön analys av svensk veteranfriidrott med fokus på löpgrenar

6-stegsguide för hur du tänker positivt och förblir positiv.

Utvärdering av föräldrakurs hösten 2013

Allmändidaktik och lärande 4 högskolepoäng

Positiv Ridning Systemet Arbetar min häst korrekt? Av Henrik Johansen

Just nu pågår flera satsningar för att förbättra svenska elevers måluppfyllelse

De tysta vittnena. Verklighetsbakgrunden

Språkäventyret. Mål. Verktyg. Inledande arbete

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

Får vi vara trygga? Praktiknära forskning inom ämnet idrott och hälsa Rapport nr. 5:2009

Lathund, till Photo Story, för skräckslagna lärare

Barn- och ungdomspsykiatri

Omarbetade funktioner i NyA

Rapport från Praktik på SVOX AG till

OM KRITERIER av Emelie Johnson Vegh och Eva Bertilsson, publicerad i Canis 2004

Instruktioner för dig som ska söka till Mattekollo 2016

Generic System. Innehåll GS Sida 1 (6) [Kommentarer till remissutgåva av PTS Spektrumstrategi ]

Förarbete, planering och förankring

Grunderna i stegkodsprogrammering

Tips och verktyg för studietiden om studieteknik och stresshantering. Carina Bäckström & Karolina Källoff Studentcentrum

Resultat av elev- och föräldraenkät 2014

Skolkvalitetsmätning 2004

2011 Studsvik AB PANORAMA-BILDTAGNING. Tony Björkman

Storyline Familjen Bilgren

Online reträtt Vägledning vecka 26

Egenskattning av hälsan

Tre misstag som äter upp din tid och hur du enkelt gör någonting åt dem. Innehåll. Misstag #1: Önskelistan Misstag #2: Parkinsons lag...

Föreläsning 3.1: Datastrukturer, en översikt

Dnr: Statliga pensioner trender och tendenser

Handisam. Beräkningsunderlag för undersökningspanel

VIDEODAGBOKEN. Individuellt Mjukvaruutvecklingsprojekt. En dagbok i videoform online. Robert Forsgren (rf222ce) UD

Kommentarer om nätverket Schyst Resandes rapport "Utsugning av vissa - guldkant för andra"

Lära tillsammans som grund för utveckling erfarenheter från förskolan. Sunne 3-4 februari 2010 Katina Thelin

SSM tänkte fel: Tio gånger för hög effekt för 90 procent av Sveriges radioamatörer

Namn: Eron Teklehaimanot Klass: 9b Datum: 21 maj 2010 Mentor: Mikael (svenskan) Hållbar utveckling med inriktning naturvetenskap Oljud i klassrummen

Förberedelser: Sätt upp konerna i stigande ordningsföljd (första inlärningen) eller i blandad ordningsföljd (för de elever som kommit längre).

GENOMGÅNG EKG Förändringar och Förbättringar Upprättad av: Anders Bondemark 2014/ /1

ett projekt om barns och ungas rättigheter En första utvärdering - vad säger eleverna och lärarna?

Valhallaskolan i Oskarshamn åk 6-åk 9: Pionjär med Drömmen om det goda på högstadiet

BASKET FÖR UNGA SPELARE

Möjliga Världar. Skapande Skola, Halmstad. Robert Hais

Om ni skulle göra om Lupp vad skulle ni göra bättre/ändra på?

Kommuniceramer än ord

Färgklövern. Färgklövern är gjord 1998 i samarbete mellan Datateket i Linköping och Hargdata AB i Linköping.

MI - Motiverande samtal

Tankar om språkundervisning

Facit till Några extra uppgifter inför tentan Matematik Baskurs. x 2 x

REPETITION (OCH LITE NYTT) AV REGLERTEKNIKEN

GRs effektstudie 2008 Gällande studerande vid kommunal vuxenutbildning i Göteborgsregionen, våren 2006

SAMUEL HÖR GUD ROPA 2:A SÖNDAGEN UNDER ÅRET (ÅRGÅNG B) 18 JANUARI Tidsram: minuter.

Uppstartskonferens den 4/ för projektet Delaktighet, Inflytande och Hälsa-ett projekt inom Sysslo Okt 2015-Sept 2016

Viktigt att tänka på i en intervju och de vanligaste fallgroparna. som intervjuar. Ett kostnadsfritt whitepaper utgivet av Level Recruitment

Detta dokument är ett förslag till projektplan för arbete med verksamhetsplan och varumärke för Svenska Cykelförbundet perioden

Ett övningssystem för att nå automatik

Nallelek Lärarvägledning

Barn och familj

Sex goda skäl att styra trycket med gråbalansfält

Innehållet i svenskämnet

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 1

Likabehandlingsplanen

Senaste revideringen av kapitlet gjordes , efter att ett fel upptäckts.

Vilja lyckas. Rätt väg

Tvärtom Hur du vinner framgång, blir lycklig och rik genom att göra precis tvärtom

Global nedvärdering av sig själv, andra och livet.

Bör man legalisera nerladdning av musik?

Svenskt Näringsliv/Privatvården. Patienternas syn på vårdcentraler i privat och offentlig drift

Studio Ett den 12 december: Svensk film med svensk textning

Kärlekens språk En analys

Företagande mot sporten

Ämnesprovet i matematik i årskurs 9, 2014 Margareta Enoksson PRIM-gruppen

Administrationsverktyg för marinvåg

Att använda bildhanteringsprogram, del 2

Bryssel den 16 december 2002

Dubbelt En elev plockar upp en näve kuber. En annan ska ta upp dubbelt så många.

STUDIETEKNIK. Heurika

RAPPORT: ATT UPPLEVA EN UTSTÄLLNING HELT I LJUD. FÖR UTSTÄLLNINGEN VÄRDEFULLT. BAKGRUND..s 2 METOD...s 2 RESULTAT...s 3 9 ANALYS AV WORKSHOP...

a), c), e) och g) är olikheter. Av dem har c) och g) sanningsvärdet 1.

En beskrivning av det professionella rådgivningssamtalet

ETT ÅR MED DIN TRÄNING

Rapport avseende lågfrekventa ljud och övrig ljudspridning MARS 2016 VINDPARK MÖRTTJÄRNBERGET VINDPARK ÖGONFÄGNADEN VINDPARK BJÖRKHÖJDEN

Möjliga Världar. Skapande Skola, Halmstad. Robert Hais

Business Model You Din personliga affärsplan framtagen på åtta timmar.

Kursrapport Datorlingvistisk grammatik (första skiss)

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Signalanalys med snabb Fouriertransform

Effektivare avel för jaktegenskaper hos engelsk setter

Transkript:

TT Inst. för tal, musik och hörsel &HQWUXPI UWDOWHNQRORJL +lupqlqj±hwwkrwprwwdoduyhulilhulqjvv\vwhp" Daniel Elenius Ett examensarbete utfört vid Institutionen för tal, musik och hörsel Kungliga tekniska högskolan Februari 2001

6DPPDQIDWWQLQJ 'HWlUYLNWLJWDWWVlNHUVWlOODDWWHQKlYGDGLGHQWLWHWlUNRUUHNW YHUHQWHOHIRQOLQMH L WLOO H[HPSHO HQ EDQNDSSOLNDWLRQ ) U DWW EHNUlIWD DWW HQ XSSJLYHQ LGHQWLWHW lu VDQQKDUYHULILHULQJVV\VWHPVRPEDVHUDUVLWWEHVOXWRPVDQQHOOHUIDOVNLGHQWLWHWSn GHW PlQVNOLJD WDOHW WDJLWV IUDP 9LG XWYlUGHULQJ DY VnGDQD V\VWHP EUXNDU LQJHQ KlQV\QWDVWLOO DWW HQ WlQNW EHGUDJDUH NDQKD P MOLJKHW DWW WUlQD VLQ LPLWDWLRQ DY PnOWDODUHQVU VW 6\IWHW PHG H[DPHQVDUEHWHW lu DWW VH RP HQ EHGUDJDUH PHG KMlOS DY ROLND WUlQLQJVPHWRGHUPlUNEDUWNDQI UElWWUDVLQDP MOLJKHWHUDWWOXUDV\VWHPHWPHGVLQ U VW MlPI UW PHG Gn KDQ DQYlQGHU VLQ YDQOLJD QDWXUOLJD U VW 6WXGLHQ KDU JHQRPI UWVSnLQVWLWXWLRQHQI UWDOPXVLNRFKK UVHO70+Sn.7+L6WRFNKROP $EVWUDFW,WLVLPSRUWDQWWRFRUUHFWO\YHULI\DQLGHQWLW\FODLPWKURXJKWKHWHOHSKRQHQHWZRUN LQ IRU H[DPSOH D EDQNLQJ DSSOLFDWLRQ :LWK WKLV LQ PLQG UHVHDUFK KDV EHHQ FDUULHGRXWLQRUGHUWRFUHDWHDXWRPDWLFYHULILFDWLRQV\VWHPVXVLQJKXPDQVSHHFK DVWKHEDVLVRIGHFLGLQJLIDQLGHQWLW\FODLPLVWUXHRUIDOVH1RUPDOO\QRUHJDUGLV WDNHQWRWKHIDFWWKDWWKHLPSRVWRUPLJKWWUDLQKLVPLPLFRIWKHWDUJHWVSHDNHU 7KLVWKHVLVDLPVDWLQYHVWLJDWLQJLIDKXPDQLPSRVWRUZLWKWKHDLGRIVRPHWUDLQLQJ VHVVLRQVLQVWHDGRIMXVWVSHDNLQJLQKLVQRUPDOYRLFHPLJKWFRQVLGHUDEO\LQFUHDVH KLVFKDQFHVWRIRROWKHYHULILFDWLRQV\VWHP7KHVWXG\LVGRQHDWWKH'HSDUWPHQWRI VSHHFKPXVLFDQGKHDULQJDW.7+LQ6WRFNKROP6ZHGHQ

,QQHKnOO,QOHGQLQJ 3UREOHPVWlOOQLQJ 7DODUYHULILHULQJ YHUWHOHIRQ 3UREOHPYLGWDODUYHULILHULQJ,PLWDW UHQ 6W\UNRURFKVYDJKHWHU /lpsoljdi UV NVSHUVRQHU 7UlQLQJ 9lJOHGQLQJVPHWRGHU 7HVWIDOO,QOlUQLQJVHIIHNWHU ([SHULPHQWXSSOlJJ 9HULILHULQJVV\VWHPHW 7.1.1 Verifierarinställning... 12 0nOWDODUH 7.2.1 Måltalarnas yttranden... 14 9DOHWDYO VHQRUG 7UlQLQJVSURJUDP 7.4.1 Väntan på inspelning... 15 7.4.2 Trimning av taligenkänning... 15 7.4.3 Införande av taldetektor... 16 9DOGDI UV NVSHUVRQHU 7UlQLQJVVLWXDWLRQ ) UV NHWVJnQJ 5HVXOWDW (IIHNWHQDYWUlQLQJ ) UlQGULQJLDQWDOHWJRGNlQGD\WWUDQGHQ 'LVNXVVLRQ 6OXWVDWVHU 7DFN 5HIHUHQVHU %LODJD %LODJD

,QOHGQLQJ Bedömning om en persons identitet är den uppgivna behöver göras i olika sammanhang, till exempel vid penningtransaktioner eller passkontroller. Det har utarbetats många olika sätt att styrka en hävdad identitet, exempelvis identitetskort, pin-koder och personbevis. Sifferkoder kan vara svåra att komma ihåg. Det kan leda till att man har koden uppskriven på en lapp som förvaras nära till exempel bankomatkortet. Säkerheten som koden skulle ge går då förlorad. En möjlighet är att låta användaren av tjänsten välja kod själv. Genom ett sådant förfarande kan en kod väljas som är lätt för användaren att komma ihåg. Möjligheten finns att användaren väljer en kod som är lätt för en obehörig att gissa sig till. Den teoretiska säkerheten bakom en pin-kod behöver alltså inte alltid stämma överens med den säkerhetsnivå som uppnås i praktiken. Då koder av olika slag kan vara svåra att komma ihåg kan det vara intressant att titta på andra möjligheter att styrka användarens identitet. Olika metoder som ögonbottenavläsning, automatisk fingeravtrycksavläsning och röstverifiering (talarverifiering) har tagits fram. Fysiska egenskaper eller personens sätt att utföra en handling används för att styrka identitetsuppgiften. En fördel är att användaren inte behöver komma ihåg en kod. Att lyssna på klientens röst för att bedöma om en identitet är sann eller falsk, har både för och nackdelar gentemot att använda någon annan datorbaserad verifieringsmetod. Problem med röstverifiering kan uppstå, bland annat då man är rejält förkyld vem har väl inte misstagit sig på identiteten på en förkyld person som ringt? Ett annat problem är att en talhandling inte utförs på exakt samma sätt varje gång, utan det är alltid någon detalj som är olika från en gång till en annan. Ett fingeravtryck däremot är någonting som är det förändras inte mycket. En fördel med röstverifiering är att det bara behövs en mikrofon för att verifiering skall kunna genomföras. Därför är det särskilt intressant att använda rösten som nyckel i till exempel telefonapplikationer som telefonbanker eftersom ingen ytterligare utrustning på användarens sida behöver installeras. Examensarbetet är utfört som en del i EU-projektet PICASSO (Bimbot m. fl., 1999). I detta projekt strävar man efter att utvärdera och vid behov utveckla metoder baserade på tal för att på ett pålitligt sätt styrka en hävdad identitet över en telefonlinje. En liten del av PICASSO syftar till att undersöka om imitatörer, talomvandlare eller text till tal system utgör ett hot mot talarverifierare. Arbetet ingår som en liten del av denna underavdelning av projektet. Deltagare i PICASSO återfinns i Frankrike, Nederländerna, Schweiz, Storbritannien och Sverige. Problemställningen och en översikt över tidigare arbeten på området ges i kapitel 2. I kapitel 3 skissas med grova drag hur talarverifiering kan gå till i ett talarverifieringssystem. Kapitel 4 handlar om imitatörer och andra grupper att välja försökspersoner ur. En diskussion kring träningsmetoder som en tänkt bedragare kan tänkas använda förs i kapitel 5. Sökandet efter lämpliga testfall beskrivs i kapitel 6. Experimentets upplägg beskrivs i kapitel 7. Där kan man även läsa om vilket talarverifieringssystem som användes och vilka databaser systemet var tränat på. Resultat av undersökningen presenteras i kapitel 8. Efter detta diskuteras resultaten i kapitel 9. Slutsatser återfinns i kap 10. En kort beskrivning av programmet återfinns i bilaga 1. Handledningsbladet som delades ut till försökspersonerna före försöket återges i bilaga 2. 1

3UREOHPVWlOOQLQJ Kan en bedragare efterlikna en annan persons röst så bra att han kan lura ett talarverifieringssystem att han är den andra personen? Bedragaren kan gå till väga på två sätt. Dels kan han träna sitt eget tal till att så bra som möjligt härma en viss person, dels kan han använda tekniska hjälpmedel för att transformera ett yttrande uttalat av en person till att likna den andre personens röst. Denna rapport begränsas till imitation med imitatörens anpassning av sitt eget tal. För att undersöka om en person kan träna sig att imitera en annan röst så väl att han/hon kan lura en talarverifierare gjordes en undersökning med några träningsmetoder. Vi ansåg att det skulle kännas tryggare att använda ett system om vi visste att det stänger ute imitatörer som givits goda möjligheter att lura systemet. Därför försökte vi ge försökspersonerna goda möjligheter att lura talarverifieringssytemet efter att ha tränat att härma måltalarna. Frågan vi försökte besvara var: hur stora möjligheter har en person att efter träning med undersökningens träningsmetoder lura systemet att han/hon är den utvalda måltalaren? Det var svårt att finna artiklar om liknande undersökningar. Detta överensstämmer med en notis i en artikel av Genoud & Chollet (1990) om att få försök gjorts med bedragare som aktivt förställer sin röst. Ett par undersökningar från 1972 hittades dock. I en undersökning av Rekieta & Hair (1972) gjordes en studie med professionell underhållningsimitatör. Uppgiften för imitatören var att försöka lura ett talarverifieringssystem. Systemet använde spektrum för talljud som underlag för bedömning om en identitetsuppgift var sann. Om fler än fyra talljud användes blev det för svårt för imitatören att lura systemet. Lumnis & Rosenberg (1972) genomförde en studie där flera handplockade professionella imitatörer användes. Då de bästa yttrandena från fyra imitatörer användes blev 27% av yttrandena godkända mot 1.2% för fallet med bedragare som talade med sin normala röst. Undersökningen var gjord kring 1972 och en talarverifierare som enbart utnyttjade fem parametrar användes. En teknikutveckling får antas ha skett från 1972 så en ny undersökning på området känns angelägen. Vid utveckling av talarverifieringssystem är det inte enbart mänskliga imitatörer som man har att oroa sig för. En bedragare har möjlighet att använda tekniska hjälpmedel för att förbättra sina möjligheter att lura systemet. Tekniska hjälpmedel ligger utanför ramen för denna rapport men det finns andra arbeten gjorda på området. En vanlig invändning är till exempel att man bara behöver spela upp måltalarens röst, med en bandspelare, för att lura systemet. Framgången för en sådan metod kan minskas genom att välja en slumpmässig siffersekvens som talaren skall säga. Då bedragaren inte på förhand kan veta vilken siffersekvens som kommer att begäras blir det svårt att ha en lämplig inspelning till hands. Den intresserade kan bland annat läsa om en studie utförd av Lindberg & Blomberg (1999) där risken undersöktes att ett talarverifieringssystem skulle bli lurat av några olika tekniska hjälpmedel. Möjligheten att bedragaren använder sin naturliga röst i kombination med en talomvandlare har studerats bland annat av Genoud & Chollet (1990) och de ger ett förslag på hur framgången av denna metod kan hållas nere. 2

7DODUYHULILHULQJ YHUWHOHIRQ Rapporten är fokuserad på talarverifiering över telefon, eftersom det är ett område där talarverifiering är tänkt att användas. Ett exempel på en talarverifierare visas i figur 1. Idén är att klienten ringer upp systemet och uppger en identitet. Uppgiften är att, utifrån klientens röst, bekräfta eller avfärda den hävdade identiteten. För bekräftelse av identiteten får användaren till exempel säga en siffersekvens. Talsignal Parametrisering Matchning mot klientmodell Matchning mot världsmodell + - Σ Över tröskel? Sant / falskt )LJXU(QWDODUYHULILHUDUHVXSSE\JJQDG Den klassiska metoden att bedöma om talaren är den han utger sig för att vara beskrivs i en artikel av Bimbot m. fl. (1997). I det klassiska fallet bygger beslutet om den angivna identiteten är korrekt på en kvot mellan två sannolikheter. Se ekvation 1. Täljaren består av sannolikheten att yttrandet kommer från måltalarens modell. I nämnaren finner man ett uttryck för sannolikheten att yttrandet kommer från någon annan person. Blir kvoten högre än den så kallade verifieringströskeln anses identiteten styrkt. Modellen för någon annan person kallas här världsmodell eftersom den är tänkt att representera alla personer i världen. Ofta logaritmeras den tidigare nämnda kvoten. Den logaritmerade kvoten kallas log likelihood ratio (LLR). P LLR= log ( O måltalar mod ell) P( O världsmod ell) acceptera > avvisa tröskel En typ av modell som används vid talarverifiering är Hidden Markov modellering (HMM). Det är en statistisk modell av en signalkälla i detta fall talaren. Man tänker sig att källan kan befinna sig i ett av flera tillstånd (frambringa olika ljud). För varje tillstånd finns en beskrivning av den genererade signalens spektrala egenskaper. Genom att talarmodellen byter tillstånd under yttrandet kan en invecklad talsignal genereras som till exempel ett talat ord. I modellen ingår sannolikheter för hur troligt det är att den byter från ett tillstånd till ett annat samt en sannolikhetsfördelning för talsignalens spektrum i varje tillstånd. Man kan oftast inte med säkerhet säga i vilken ordning tillstånden har genomlöpts utifrån talsignalen. Däremot kan man räkna ut vilken ordning av genomlöpta tillstånd som är den mest sannolika och vid vilka tidpunkter under yttrandet källan befann sig i de olika tillstånden. För talarverifiering är det intressant att räkna ut hur stor sannolikhet det är att en viss modell har genererat (sagt) det inspelade yttrandet (P (O modell)). Denna sannolikhet används i den tidigare nämnda kvoten som används vid talarverifiering. För en fördjupning i matematiken bakom denna typ av modeller kan en bok av Rabiner & Juang (1993) rekommenderas. För att bygga upp talarmodellerna behövs inspelningar av klientens röst. Detta brukar kallas för att enrollera en talare. Klienten läser in ett antal förbestämda yttranden. Beroende på vilken sorts system det rör sig om kan det vara text, siffror eller andra talljud. För att göra en bra talarmodell behöver man mycket talmaterial. Klienten har dock ett intresse av att antalet (1) 3

yttranden som behövs för att träna modellerna är så litet som möjligt, eftersom det tar tid att läsa många yttranden. Efter enrolleringen anpassas de statistiska modellerna för klientens röst. Detta kallas för att modellerna tränas. Det finns olika typer av talarverifierare. En möjlig indelning är i: textberoende- och textoberoende talarverifiereare. I ett textberoende talarverifieringssystem används kunskap om vad talaren borde ha sagt. Den textoberoende talarverifieraren analyserar däremot talsignalen utan kunskap om vad som egentligen sagts. Då klientmodellerna tränats är det dags att dimensionera systemet. Hur stor risk kan vi acceptera att en bedragare lyckas lura systemet? Hur ofta får det hända att den sanne klienten blir felaktigt utestängd? Dessa frågor ligger till grund för valet av hur strikta krav på likhet mellan talarmodellen och verifieringsyttrandet vi kan ställa. I praktiken innebär valet av likhet att man väljer hur hög tröskeln skall vara som verifierarens poäng för yttrandet skall över för att yttrandet skall anses komma från måltalaren. Processen att välja tröskel kallas tröskelsättning. Ett vanligt sätt att välja tröskel vid utvärdering av ett system är att sätta den så att sannolikheten att en bedragare blir insläppt är lika stor som sannolikheten att en sann klient blir utestängd. Tröskeln som väljs på detta sätt brukar kallas för en equal error rate tröskel (EER-tröskel). I figur 2 skulle EER-tröskeln väljas till 3.0. Yttranden för tröskelsättning kan till exempel tas från en databas där personerna talat med sin naturliga röst. Eftersom tröskeln sätts utifrån en begränsad datamängd kommer antalet felbedömningar i ett verkligt fall troligen avvika från den från början uppskattade felfrekvensen. I ett verkligt fall vill man kanske att sannolikheten att släppa in en bedragare skall vara mindre än det man får då en EER-tröskel används. Då kan man använda en högre tröskel som stänger ute fler bedragare. Men då måste man även vara beredd på att klienterna i systemet oftare blir utestängda. 4

)LJXU $QGHOHQ IHODNWLJW LQVOlSSWD EHGUDJDUH RFK DQGHOHQ IHODNWLJW DYYLVDGH NOLHQWHU VRP IXQNWLRQDYWU VNHOVlWWQLQJHQ Talarmodellerna kan till exempel använda s.k. cepstrumkoefficienter för att beskriva spektrum för talarens röst. I en artikel av Gish & Shmidt (1994) ges en kort motivering till att använda cepstrumkoefficienter för att baserat på talet känna igen en talare. Ett sätt att beräkna cepstrum är att göra en invers FFT av det logaritmerade effektspektrat av en signal. En anledning till att använda cepstrum är att den övergripande spektrumformen beskrivs av några få ortogonala parametrar. En minskning i antalet parametrar sparar lagringsutrymme och färre beräkningar behöver genomföras vid modellbygge och talarverifiering. Att datorerna inte behöver räkna lika mycket gör att verifiering tar mindre tid att utföra, alternativt behöver inte lika omfattande investeringar i hårdvara göras för att få ett användbart system. 3UREOHPYLGWDODUYHULILHULQJ Talarverifiering är en balansgång mellan att släppa in bedragare och att stänga ute den sanne klienten. Ingen människa kan upprepa ett yttrande på exakt samma sätt två gånger, det finns alltid någon skillnad mellan yttranden sagda vid olika tillfällen För att systemet inte skall utestänga klienten krävs därför ett visst spelrum i kravet på den auditiva informationen. Bedragaren har således en möjlighet att utnyttja denna grovkornighet för att komma in. Som exempel kan nämnas att röststyrkan kan ändras oavsiktligt från gång till gång vilket gör att systemet helst skall överse med klientens egna variationer i talet. Användaren av systemet vill förmodligen kunna ringa från vilken telefon som helst. Ett problem är då att olika telefonlurar färgar talet på olika sätt. Talarverifieringssystemet bör därför kunna överse även med färgning från olika telefonlurar. Bland annat har Reynolds (1996) gjort en undersökning om hur man kan minska den variation i talsignalen som beror på att olika telefonlurar används. I de talarverifierare som använder cepstrumkoefficienter kan man genom att normera koefficienterna bortse från statiska (tidsinvarianta) avvikelser i spektrumform. Nyttan av normering av cepstrumkoefficienter visas i en undersökning av Bernasconi (1990). Med 5

normering menas att man drar bort koefficientens medelvärde över yttrandet från koefficienten själv. Man blir då av med information i koefficienter som inte ändrar sig över tiden. En fördel är att man till exempel blir av med några av effekterna som beror på vilken mikrofon talet spelas in med (Reynolds 1996). Variationen i koefficienterna blir därför mindre för olika inspelningar av klientens tal. Koefficienterna blir å andra sidan mindre särskiljande eftersom egenskaper i rösten som är konstanta under yttrandet inte tas i beaktande. En anledning till att man skulle vilja ha med viss del av den information som inte ändras över tiden är att där även finns talarspecifik information. I undersökningen utförd av Bernasconi (1990) visas att man vinner mer på att normera cepstrumkoefficienter än man förlorar på att delar av klientinformationen som fanns från början går förlorad. Man bör dock tänka på att studien baserar sig på slumpvis parning av yttranden mot klienter. Skulle man ha dragit en annan slutsats om bedragaren hade försökt förändra sin röst medvetet? Informationsmängden i talet är så stor att den behöver reduceras för att datorerna inte skall ta för lång tid på sig att verifiera en hävdad identitet. För att reducera informationsmängden i talet använder man kunskap om hur en människa uppfattar ljud. Det behövs exempelvis olika stor skillnad i frekvens vid olika tonhöjd för att människan skall uppfatta skillnaden. Man brukar därför göra en melskalning av frekvensaxeln då hörselsystemet skall modelleras. I stort sett logaritmerar man frekvensskalan, vilket innebär att skalan blir grovkornigare vid högre frekvenser än vid lägre frekvenser. Argument för melskalning av frekvensaxeln då man betraktar människans hörsel kan man läsa om i en bok av Zwicker & Fastl (1999).,PLWDW UHQ För att få en bild av vad en bedragare kan tänkas försöka förbättra med ett träningsredskap tittade vi på vad professionella imitatörer har svårt att anpassa utan hjälp. Antalet parametrar att visa kan minskas om man tar hänsyn till vad en imitatör anpassar med hjälp av sitt gehör. 6W\UNRURFKVYDJKHWHU I en undersökning av Eriksson & Wretling (1997) visades att en professionell imitatör kunde härma grundtonen tämligen väl. Detta stämmer även med en tidigare undersökning där Endres m. fl. (1971) studerade tyska välkända imitatörer. I undersökningen utförd av Eriksson & Wretling (1997) syns även att det för imitatören var tämligen lätt att härma den övergripande talhastigheten. Däremot var det svårare att efterlikna måltalarens talmönster på ordnivå. /lpsoljdi UV NVSHUVRQHU Det vore naturligt att börja söka försökspersoner till undersökningen bland underhållningsimitatörer och andra skådespelare. Det är dock inte säkert att dessa är lämpligast eftersom dessa är vana att ha mänskliga åhörare. Ett datoriserat talarverifieringssystem behöver inte nödvändigtvis lyssna efter samma typ av auditiv information som en mänsklig åhörare. Den intresserade kan bland annat läsa en artikel av Doddington (1985) om några skillnader i vad en dator och människor lyssnar efter. Det kan även löna sig att ha ett större urval försökspersoner istället för att bara ha ett fåtal teoretiskt skickliga personer. För att härma en röst krävs motivation, experimentlusta och fallenhet för att imitera. Vad gör att en person har en bättre fallenhet att imitera än en annan? Talets rytm är förmodligen lättare 6

att efterlikna om man har en bra rytmkänsla. För att höra talets nyanser kan ett utvecklat musikaliskt gehör underlätta. Kunskap och erfarenhet av hur man kan modifiera sin talproduktionsapparat underlättar om man vill härma en annan människas tal. Sångare bör därför vara en intressant grupp att studera. Andra intressanta grupper är musiker, talpedagoger och skådespelare. 7UlQLQJ För att försökspersonerna skall ha nytta av sitt gehör, rytmkänsla och experimentlusta måste de ha möjlighet att träna sin imitation. Om försökspersonen ges bra vägledning i undersökningen är risken mindre att vi felaktigt tror att talarverifieringssystemet är säkrare än det är. Frågan är då vilken sorts vägledning som skall erbjudas försökspersonen. Det finns möjlighet att ge auditiv vägledning, visuell vägledning och verbala råd. En sak man bör tänka på är om det är någon mening att följa det råd tränaren ger. Det är meningslöst att påpeka någonting som inte får någon effekt på talarverifierarens poängsättning av imitationen. Då en försöksperson anpassar en parameter kan även andra aspekter av imitationen bli påverkade så att talarverifieraren gör en annan bedömning av imitationen. Det är därför inte så enkelt att man bara behöver beakta vilka parametrar som är teoretiskt intressanta. Ju fler parametrar en försöksperson behöver hålla reda på desto svårare blir det att anpassa alla parametrar. Därför söks ett litet antal nyckelparametrar för undersökningen som speglar imitationens kvalitet på ett bra sätt. 9lJOHGQLQJVPHWRGHU För att underlätta inlärning av imitation behöver en parameter vara rättvisande. I annat fall kan imitatören bli vilseledd. En parameter bör således både spegla en viktig aspekt av talet, kunna mätas med bra noggrannhet och dessutom kunna åskådliggöras på ett bra sätt för användaren. En bedragare skulle kunna träna på de enskilda talljuden för att sedan träna in det aktuella yttrandet. För att bedöma risken för framgång kunde man dela upp yttrandet i fonem och presentera en visuell jämförelse av fonem med spektrum / cepstrum för att försöka framhäva information imitatören annars kanske hade missat vid enbart lyssning. Det finns många fonem att träna på vilket gör att en tänkt bedragare troligen skulle behöva ett automatiskt urvalsförfarande. En möjlighet kunde vara att låta datorn dela upp (segmentera) talet i fonem. Datorn skulle sedan välja ut de delar av yttrandet som bedragaren behövde träna mest på. Segmenteringen och jämförelsen av hur lika måltalaren de olika fonemen låter är svår att göra rättvisande. Om felsegmentering eller en miss i jämförelsen mellan fonemen skulle göras skulle imitatören få felaktiga råd. Vi tror inte att risken är så stor att imitatören idag skulle nå stor framgång med denna träningsmetod. Därför kommer den inte att användas i undersökningen. Professionella imitatörer är enligt tidigare undersökningar bra på att anpassa globalt tempo medan de har svårt att anpassa tempo på lokal nivå (Eriksson & Wretling 1997). Därför kanske en bedragare skulle försöka hitta ett sätt att få hjälp vid inlärning av lokalt tempo. Finns det några enkla sätt att göra detta på? Ett sätt att visualisera skillnader i tid är att visa talsignalen för yttranden från imitatören och måltalaren. Frågan är dock om imitatören genom att jämföra sådana diagram kan anpassa sin talrytm. En annan möjlighet är att bedragaren 7

skulle ha ett program som visar var varje fonem startar och slutar. Genom att försöka få start och slutpunkterna att stämma överrens med måltalarens yttrande kunde kanske imitatören träna den lokala rytmen i yttrandet. Att få en korrekt automatisk uppmärkning av start och slutpunkter för fonem i talet är svårt. Om start och slutpunkter hamnar lite fel kommer en tänkt imitatör att få felaktiga råd. Vi väljer därför att titta på en träningsmetod som verkar vara pålitligare. Att lyssna och försöka härma är något som människan gör redan som litet barn. En bedragare bör därför ha långvarig övning på att härma det han hör. Bedragaren kan spela upp sina och måltalarens yttranden för att göra en egen jämförelse och dra slutsatser om vad som behöver rättas till. Eftersom metoden är lättillgänglig bör effekterna av denna studeras närmare. Som tidigare nämnts kan människan och datorn i vissa fall prioritera och tolka den auditiva informationen olika. För att underlätta för försökspersonerna i undersökningen att anpassa rätt egenskaper i rösten väljer vi också att presentera ett poängvärde för hur bra systemet anser att imitationen är. Parametern är inte särskilt entydig eftersom poängsumman är en vägning mellan flera aspekter av talet. Däremot är det en parameter som visar hur bra talarverifieraren anser att en imitation är, så parametern bör åtminstone vara rättvisande. För en första undersökning får den anses vara tillräcklig. 7HVWIDOO För att utvärdera hur bra försökspersonen blivit efter träning behöver någon form av testfall konstrueras. Inspiration till testfall kan man få genom att betrakta enkla scenarier för hur en bedragare skulle gå till väga i en verklig situation. Några möjliga situationer: Bedragaren vet koden och försöker med sin egen röst komma in i systemet utan att ha hört måltalarens röst. Bedragaren har tillgång till kod och inspelningar av måltalarens röst. Bedragaren har tillgång till ett talarverifieringssystem. Genom att titta på olika parametrar som systemet använder kan bedragaren få en bild av vad som är intressant att lägga ned arbete på att försöka härma. Om en bedragare på något sätt får veta koden och försöker bryta sig in i systemet är det troligt att systemet spärrar kontot efter ett begränsat antal försök. Med tanke på att det tar ett antal försök att utarbeta en imitation finns det troligen andra fall som är mer intressanta att betrakta. Med tillgång till inspelat material kan en bedragare träna sin imitationsförmåga genom att lyssna på det inspelade materialet och jämföra med sina egna imitationsförsök. En begränsning för framgång ligger i att människan och verifieringssystemet inte med nödvändighet lyssnar efter samma egenskaper. Imitatören kan i sin träning även använda sig av signalbehandling för att vaska fram egenskaper i talet som han normalt inte är van att lyssna efter. Då en bedragare har tillgång till ett liknande system kan han få vägledning av vad han bör koncentrera sig på för att få imitationen mer lik måltalarens yttrande genom att till exempel systemets värdering av imitationen visas. För att få en övre gräns på hur väl en bedragare kan använda denna information kan man låta försökspersonen vid inlärning vägledas av samma system som används för att utvärdera hans förbättring av verifieringspoängen. 8

Om en bedragare har tillgång till verifieringssystemet kan han även på något sätt fått tag i inspelningar av måltalaren. Då kan bedragaren både lyssna på yttranden och få en objektiv bedömning av hur lik måltalaren ett talarverifieringssystem anser att imitationen är. Att studera effekten av träning med tillgång till dessa två informationskällor kan därför vara intressant. Genom att använda samma system i undersökningen som försökspersonen senare kommer att försöka lura kan man se hur mycket kombinationen av träningsmetoderna hjälper dem. Detta fall är mest av teoretiskt intresse. Om en bedragare hade tillgång till lämpliga inspelningar av måltalaren skulle han förmodligen i praktiken använda inspelningen för att försöka lura systemet, inte träna sin egen röst att bli så lik inspelningen som möjligt. Fallet är dock intressant för oss då vi söker ett gynnsamt fall för träning. Några typfall som ovanstående situationer leder tankarna till återfinns i tabell 1. 7DEHOO1nJUDWUlQLQJVVLWXDWLRQHU Typfall Ljudexempel Talarverifieringssystem 1 X - 2 - X 3 X X En närmare beskrivning av typfallen följer: Fall 1 motsvarar att en bedragare med sitt gehör jämför sina yttranden med måltalarens yttranden. Även någon form av stöd för visuell jämförelse baserad på signalanalys av yttrandena är möjlig. I fall 2 har en bedragare tillgång till ett talarverifieringssystem som är tränat på måltalaren. Systemet ger en objektiv bild av hur bra imitationen överensstämmer med måltalarens modell. I fall 3 kan en bedragare både lyssna på måltalarens röst och få sina yttranden poängsatta av talarverifieringssystemet Den träningsmetod som borde vara mest lättillgänglig för en tänkt imitatör är att använda inspelningar av måltalarens röst. Träningseffekterna av denna metod bör därför kontrolleras (fall 1). För att se hur långt en bedragare kan komma med enkel vägledning, kan man kombinera gehörsbaserad träning med den poängsättning som talarverifieringssystemet gör av imitationsyttrandena (fall 2). Träning genom enbart lyssning och träning med information från systemet behöver inte med nödvändighet vara additiv. Man kan tänka sig att en bedragare kan få ny insikt om vad systemet lyssnar efter och således börja lyssna efter annan information än tidigare. Informationsmängderna kan samspela på ett multiplikativt sätt då det gäller förbättring av imitationslikheten. Detta gör att man inte kan räkna ut nyttan av träning med enbart poängsättning utifrån resultatet av kombinerad träning och resultatet efter gehörsträning. För att se hur mycket enbart träning med poängsättning från systemet ger måste en separat undersökning om detta göras. Testmetoden behöver innehålla tre moment: gehörsträning, träning med information från systemet samt en kombination av gehörsträning och systeminformation. Eftersom försökspersonen enbart är otränad innan första träningspasset behöver vi egentligen tre 9

grupper av försökspersoner. Vi väljer dock att använda två försöksgrupper. Den grupp som skulle börjat med kombinerad träning väljs bort. Det är möjligt att utföra ren gehörsträning eller ren poängsatt träning vid kombinerad träning, så det gör inte så mycket att försökspersonen tidigare hunnit träna med dessa träningsmetoder.,qoluqlqjvhiihnwhu Vid upprepad träning är det nödvändigt att värdera inlärningseffekter som hänger kvar från ett träningspass till nästa. Sådana effekter är både en fördel och en nackdel i en undersökning. Genom att försökspersonen hunnit förbättra sig inför senare träningsomgångar har vi tillgång till imitatörer som troligen är lite bättre på att imitera än då de utförde den första träningen. Nackdelen är dock att det blir svårare att jämföra resultat mellan gångerna. Några inlärningseffekter: Det blir lättare att härma en given måltalare allteftersom mer tid läggs ned på att träna imitation. Försökspersonen bör träna med enkel träning först för att sedan utföra den kombinerade träningen sist. I den kombinerade träningen vill vi ju främst se hur bra försökspersonen över huvud taget kan bli. Det är därför nästan bara en fördel att han hunnit vänja sig vid att härma en viss måltalare. En risk är dock att försökspersonerna inte orkar prestera lika bra i slutet av undersökningen på grund av att experimentet tar för lång tid. Försökspersonen får en allt bättre kontroll över sin talproduktionsapparat och kunskapen om hur man gör för att åstadkomma olika typer av talljud ökar allteftersom talaren utforskar sina möjligheter att efterlikna olika sätt att tala. För att underlätta jämförelser mellan imitation av olika måltalare görs inte försöken direkt efter varandra utan vid två olika tillfällen. Vanan att använda tränings- och utvärderingsprogrammet ökar efterhand. Denna träningseffekt har inte medvetet minimerats. Jämförelsen av resultat mellan olika måltalare försvåras visserligen, men fördelen av att försökspersonerna är mer vana att använda träningsprogrammet har bedömts vara större. Det är inte träningsprogrammets gränssnitt som skall utvärderas utan om försökspersonerna med träning kan lura talarverifieringssystemet. Vill man ha mer imitationsvana försökspersoner för en svårare imitationsuppgift kan man möjligen erhålla det genom att låta dem utföra vad man tror är en enklare imitationsuppgift först. Då har försökspersonerna möjlighet att lära sig lite om imitation före den svårare imitationsuppgiften. Varje imitatör i undersökningen har två måltalare som de skall imitera. Den ena måltalaren var tänkt att vara lätt att imitera genom att den valts att ligga nära försökspersonens naturliga röst. Den andra måltalaren antogs vara svårare att imitera eftersom den valts som en medelmåltalare. Försöket med en lik måltalare valdes att göra före försöket med en medelmåltalare för att få mer imitationsvana försökspersoner i det senare försöket. För att underlätta jämförelser mellan olika träningsomgångar och för att inte trötta ut försökspersonerna gjordes de två försöken vid olika tillfällen. ([SHULPHQWXSSOlJJ För att ge försökspersonen gynnsamma träningsförutsättningar väljs måltalarna enligt vissa principer istället för att väljas slumpmässigt. Måltalare väljs baserat på medelpoängen för försökspersonens naturliga röst. Valet av måltalare är beskrivet närmare i kapitel 7.2. 10

En verklig bedragare skulle försöka få så bra träningsförutsättningar som möjligt. Därför är det viktigt att ge försökspersonen rimliga möjligheter att träna sin imitation. Diskussionen i de föregående kapitlen ligger till grund för valet av träningsmetoder. I undersökningen användes tre vägledningsmetoder enligt nedan: Försökspersonerna ges möjlighet att lyssna på tidigare yttranden och en inspelning av måltalaren då denne uttalar lösenordet. Försökspersonen bedömer själv vad som skall rättas till för att imitationen skall bli bättre. Talarverifieraren poängsätter försökspersonens imitation. Försökspersonen ges möjlighet att lyssna på sina egna yttranden men har vid denna träning inte tillgång till något tal från måltalaren. En kombination av lyssning och poängsättning för att hjälpa försökspersonen att koncentrera sig på att anpassa de särdrag i imitationen som systemet lyssnar efter. För att underlätta för försökspersonen räcker det med att han lär sig härma måltalarens röst för en siffersekvens. Samma siffersekvens används både vid träning och utvärderingen av träningen. I en verklig situation är det inte troligt att en bedragare på förhand kan veta vilken siffersekvens han förväntas uttala. Det innebär att försökspersonerna i undersökningen bör ha lättare att lura talarverifieraren än i en verklig applikation. Siffersekvensen som försökspersonen skall säga visas på skärmen istället för att läsas upp i telefonluren med syntetiskt tal. Vi antar att detta stör försökspersonen mindre i dennes imitationsförsök än att höra en syntetisk röst som läser lösenordet. Då försökspersonen ser lösenordet under hela experimentets gång belastas inte dennes korttidsminne på samma sätt som om han fick lösenordet uppläst. Lindberg & Melin (1997) visar i en undersökning att antalet felsägningar är färre då användaren ser lösenordet i skriftlig form än då användaren får lösenordet uppläst. 9HULILHULQJVV\VWHPHW Verifieringssystemet, som tagits fram på KTH, består av bland annat en taligenkännare och en talarverifierare. För att få närmare information om taligenkännaren kan man läsa en artikel av Ström (1997). Talarverifieraren är i princip densamma som beskrivs i en artikel av Melin (1998). En skiss över talarverifieringssystemet visas i figur 3. Mikrofon Digitaliserat ljud Hävdad identitet Taligenkännare Segmenteringsinformation Talarverifiering Poängvärde Sant / falskt Beslutsfattande )LJXU7DODUYHULILHULQJVV\VWHPHW I den använda verifieraren beskrivs klienterna av tio HMM-modeller, en för varje siffra (0 1 2 3 4...). Varje siffra är uppbyggd av ett antal fonem. Siffermodellen är vald att ha dubbelt så 11

många tillstånd som antal fonem i aktuell siffra. En riktad modell används. Med en riktad modell menas att den genomlöps i en viss riktning till exempel ett och inte tte. Spektrumformen i varje tillstånd beskrivs av sannolikhetsfördelningen av tidsnormerade cepstrumparametrar med tillhörande delta och deltadelta parametrar. Tidsnormerade cepstrumparametrar används som tidigare beskrivits under rubrik 3.1 för att ta bort statisk (tidsinvariant) information i parametrarna. Deltaparametrar är en beskrivning av hur cepstrumparametrarna ändras över tiden. Deltadeltaparametrar är således en beskrivning av hur deltaparametrarna förändras över tiden. För att få fram cepstrum för talsignalen i den använda verifieraren används en 24 kanals, FFT baserad filterbank. Filterbanken täcker den melskalade frekvensaxeln från 300 till 3400 Hz. Talsignalen delas in i överlappande block om 25.6 ms vilket ger underlag för cepstrumparametrar från filterbanken var 10:e ms. Amplitudaxeln är logaritmerad för att man genom att utföra en cosinustransform på filterbankens utdata skall få fram cepstrumparametrar. Cepstrumliftering appliceras på cepstrumparametrarna. I princip gör man en uppskalning av parametern ju högre ordnings cepstrumparameter det handlar om. Detta motverkar att högre ordningens cepstrumparametrar annars tenderar att ha små numeriska värden. Talsignalen spelas in via en ISDN-anslutning och filtreras med: y(n)=x(n)-0.97*x(n-1), dvs högfrekventa delar av signalen har förstärkts. Vid bedömningen om en identitet är sann används en log likelihood ratio som tidigare beskrivits i kapitel 3. Verifieraren arbetar på ordnivå och dividerar varje poäng med antalet ramar som ordet består av. 9HULILHUDULQVWlOOQLQJ Måltalarmodellerna är tränade på 25 stycken femsiffriga siffersekvenser hämtade från Gandalfdatabasen. En beskrivning av databasen finns i en artikel av Melin (1996). Databasen är framtagen för att användas vid forskning på talarverifierare. De flesta talare i databasen bor i Stockholmstrakten. I försöket används de 18 kvinnliga och 22 manliga måltalare som ingår i utvecklingsset (dev-set) som användts i en undersökning av Melin & Lindberg (1999). En anledning till att använda dessa måltalare är att modeller och underlag för tröskelsättning redan fanns från tidigare försök. Världsmodellen är tränad på en databas med talare från hela Sverige, kallad SpeechDat. Materialet är hämtat från en tidig version med enbart 1000 talare från olika delar av Sverige. Databasen beskrivs i artiklar av Elenius & Lindberg (1997) och Elenius (1999). En EER-tröskel på 3.01 har valts baserad på slumpvis parning av yttranden av den aktuella siffersekvensen från Gandalfdatabasen mot måltalarna. Andelen felaktiga beslut var ungefär 3%. Tröskelsättningen har gjorts med de talare ur databasen som finns i det utvecklingsset (dev-set) som används i en undersökning utförd av Melin & Lindberg (1999). 0nOWDODUH Måltalarna i undersökningen har hämtats ur Gandalfdatabasen. En måltalare av samma kön som försökspersonen väljs. Många av de försökspersoner som används i undersökningen finns med i databasen. Någonting måste följaktligen göras åt möjligheten att försökspersonen kan få sig själv som måltalare. I försöket väljs enbart måltalare för vilka medelvärdet av 12

försökspersonens naturliga röst ligger under verifieringströskeln. För sin egen modell bör försökspersonen hamna över verifieringströskeln. Således bör inte försökspersonen få sig själv som måltalare. Ingen försöksperson fick heller sig själv som måltalare i försöket. I undersökningen väljs två måltalare för varje försöksperson. Den första måltalaren är tänkt att vara lätt att härma. Denna måltalare kommer i fortsättningen kallas för en lik måltalare. Med lik måltalare menas den måltalare för vilken medelvärdet av försökspersonens naturliga röst ligger närmast under verifieringströskeln. Den andra måltalaren var tänkt att väljas som en medellik måltalare. Med medellik måltalare menas den måltalare vars värde ligger närmast över medelvärdet av verifieringspoängen för försökspersonens naturliga röst för de i databasen förekommande måltalarna. Se även figur 4. Ett programmeringsfel inträffade dock som gjorde att de första 11 försökspersonerna som skulle fått en medellik måltalare i själva verket fick en annan måltalare. Felet rättades till och de kvarvarande försökspersonerna fick en medellik måltalare i den andra försöksomgången. )LJXU)LJXUHQYLVDUPHGHOSRlQJI UWLR\WWUDQGHQPHGI UV NVSHUVRQVQDWXUOLJDU VWI UROLND P MOLJD PnOWDODUH 0HGHOYlUGHW I U GHVVD SRlQJ lu PDUNHUDG PHG VWUHFNDG OLQMH 9HULILHULQJVWU VNHOQ lu PDUNHUDG PHG KHOGUDJHQ OLQMH /LN PnOWDODUH lu PDUNHUDG PHG HQ I\UNDQWRFKPHGHOOLNPnOWDODUHlUPDUNHUDGPHGHQULQJ Att mäta närheten mellan försökspersonens naturliga röst och måltalaren kan göras på olika sätt och det sätt som valdes för undersökningen behöver inte vara det bästa. Om försökspersonen har samma verifieringspoäng mot två måltalare betyder det inte att de akustiska skillnaderna mellan försökspersonens röst och måltalarens röster är lika lätta att rätta till. Det ansågs dock ligga utanför ramen för undersökningen att finna en mer lämplig urvalsmetod. Den valda metoden är åtminstone lätt att implementera och tar inte så lång tid att utföra. 13

0nOWDODUQDV\WWUDQGHQ Måltalarens yttrande av lösenordet som försökspersonen får lyssna på i försöket är hämtat från Gandalfdatabasen. Upprepade inspelningar av siffersekvensen är gjord för alla måltalare som används i undersökningen. Det är möjligt att antingen välja ett typiskt uttalande av lösenordet eller låta försökspersonen lyssna på flera olika versioner av hur måltalaren säger lösenordet. Om man väljer att presentera flera inspelningar av lösenordet får försökspersonen en bredare bild av hur måltalaren talar än om enbart en inspelning används. En risk kanske är att försökspersonen blir osäker på vilket yttrande som det är mest lönt att härma. Därför valdes det yttrande från måltalaren som talarverifieraren bedömde vara mest lik måltalarens egen modell. Vid valet av måltalaryttrande görs segmenteringen på ett lite annat sätt än för försökspersonen under försökets gång. Måltalarna antas nämligen ha yttrat rätt siffersekvens. Segmenteringen har sedan gjorts under förutsättning att detta antagande var sant. Det är därför inte säkert att måltalarens yttranden verkligen skulle bli rätt igenkänt om det hade gjorts med försöksuppställningens sätt att segmentera talet. Genom att anta att måltalaren säger den siffersekvens som förväntas av honom finns inte risken att vi måste välja bort en måltalare bara för att vi inte har något ljudmaterial att presentera för försökspersonen. Då ingen av försökspersonerna klagade på att måltalaren sade fel lösenord får man förmoda att rätt lösenord sagts i alla yttranden som spelats upp. 9DOHWDYO VHQRUG För undersökningen skulle ett lagom långt lösenord bestående av siffror väljas. Valet av lösenord blir begränsat av att det måste finnas ljudmaterial för det valda lösenordet för alla möjliga måltalare i verifieringssystemet. Av denna anledning var talarverifieraren tränad på Gandalfdatabasen. I databasen finns bland annat inspelningar av siffersekvenser som är gemensamma för alla talare i databasen. De tillgängliga siffersekvenserna har längder på: 1, 3 och 4 siffror. Siffersekvenserna är lästa från papper vilket passar bra eftersom vi kommer att presentera lösenordet i skriftlig form i undersökningen. För att talarverifieraren skall ha rimliga möjligheter att göra en riktig bedömning om den hävdade identiteten är sann bör en tämligen lång siffersekvens användas. Vid talarverifiering vill man kunna sätta ihop slumpmässiga lösenord. Det är obekvämt att behöva träna talarverifieraren på alla möjliga kombinationer av lösenord. För att efterlikna situationen att det valda lösenordet inte är exakt ett lösenord som verifieraren är tränad på valdes en fyrsiffrig sekvens, medan modellerna tränades på femsiffriga sekvenser. Siffersekvensen som skulle ligga till grund för talarverifiering valdes till 7 6 8 9. De andra möjliga fyrsiffriga yttrandena innehöll antingen en upprepning av någon siffra eller slutade med siffran ett. Upprepning av någon siffra ansågs mindre lämpligt eftersom onödigt stor vikt då fästs på förmågan att imitera en enskild siffra. Siffersekvenser som slutar på siffran ett valdes bort vid en tidig undersökning av gränssnittet, eftersom det upptäcktes att ettan ofta blev avklippt av taldetektorn. Anledningen till den felaktiga klippningen antogs vara det energifattiga talljudet för t i ett. Problemet försvann då den aktuella siffersekvensen började användas. 14

7UlQLQJVSURJUDP För att vägleda försökspersonen under träning och samla in information om imitationskvaliten konstruerades ett datorprogram. Programmet använde Atlasplattformen som finns beskriven i en artikel av Melin m. fl. (2001). Försökspersonen använde musen för att styra programmet och yttranden spelades in och spelas upp via en telefonförbindelse. Programmet är närmare beskrivet i bilaga 1. Tre problem med gränssnittet noterades vid en liten förundersökning: 1. Det hände att första siffran uttalats innan programmet hunnit starta inspelningen. 2. Då försökspersonen försökte härma sin måltalare kunde det vara svårt för taligenkännaren att uppfatta yttrandet korrekt. Om felaktigt lösenord uppfattades skulle en verifiering baserad på en annan siffersekvens ha gjorts. Därför valdes dessa yttranden bort och försökspersonen fick upprepa yttrandet. 3. En fördröjning på upp till fyra sekunder mellan inspelning och att resultatet presenterades kunde förekomma beroende på hur snabbt försökspersonen sade sitt yttrande. Detta ledde till att programmet i vissa fall uppfattades som långsamt. 9lQWDQSnLQVSHOQLQJ Trots ansträngningar att få programmet att börja inspelning direkt efter att inspelningsknappen släppts upp fanns en tendens kvar att programmet missade första siffran. Om en snabbare dator använts för inspelning och verifiering hade förmodligen problemet varit mindre. För användaren känns det naturligt att börja tala direkt efter att ha tryckt på inspelningsknappen. Det måste anses som en störning för användaren att vara tvungen att anpassa sig efter programmet. Användaren behöver dock inte förändra själva imitationen eftersom han bara behöver vänta lite innan han börjar tala. Imitationskvaliten bör därför inte påverkas nämnvärt. 7ULPQLQJDYWDOLJHQNlQQLQJ Taligenkännaren ger en lista över hypoteser för vad som sagts, en så kallad N-bästa lista. I en sådan lista listas de N mest troliga hypoteserna i fallande ordning. I den använda taligenkännaren fanns som mest tio hypoteser med i N-bästa-listan. I vissa fall fanns det förväntade lösenordet inte på första plats i listan. Taligenkännaren ansåg då att ett annat yttrande var mer troligt, vilket resulterade i en felaktig igenkänning. För att förbättra möjligheterna att få det korrekta lösenordet rätt igenkänt implementerades en algoritm som valde den rätta lösenordshypotesen om den fanns med i N-bästa-listan. Det bör vara rimligt att söka efter det förväntade lösenordet eftersom det inte är taligenkännaren utan talarverifieraren som primärt skall utvärderas. Taligenkännarna blir dessutom allt bättre med tiden och är tänkt att uppfatta den siffersekvens som verkligen sagts. Problemet med fel igenkända yttranden minskade och imitationsförsöken kunde börja. Under imitationsförsöken upptäcktes att siffran nio i den använda siffersekvensen 7 6 8 9 ibland var svår att känna igen då den uttalades som nie. En orsak kunde vara att försökspersonens utandningsluft gick in i mikrofonen, vilket kunde avhjälpas med att hålla telefonluren, så den inte gick in i mikrofonen. Särskilt nio uttalat som nije verkade vara svårt för taligenkännaren att uppfatta korrekt. Efter att ha undersökt taligenkännarens lexikon som beskriver vilka talljud som ingår i de olika siffrorna upptäcktes att nie med långt i inte fanns med. Däremot fanns en variant av nie med kort i med i lexikonet. Nu infann sig en obehaglig fråga. Skall vi göra en liten komplettering av taligenkännarens lexikon för att få nian rätt igenkänd? Eftersom man högst motvilligt ändrar förutsättningarna under pågående 15

försök, måste fördelar vägas mot nackdelar. Om de tidigare felaktigt uppfattade yttrandena hade gått igenom taligenkännaren hade kanske försökspersonen lyckats utarbeta en betydligt bättre imitation av sin måltalare. De yttranden som tidigare accepterats kanske hade blivit segmenterade på ett annat sätt så att de fått en annan verifieringspoäng? Enbart ett par av de 11 personer som redan gjort experimentet verkade ha haft betydande problem att få sina yttranden rätt igenkända. Om taligenkännaren känner igen fel siffersekvens gång på gång finns en risk att försökspersonen snarare försöker få sina yttranden rätt igenkända än att försöka imitera måltalaren. Risken att många av de kvarvarande försökspersonerna skulle få samma problem var nedslående. Det beslutades att en liten komplettering av taligenkännarens lexikon skulle göras. För att få en bättre igenkänning lades även nie med långt i till i taligenkännarens lexikon. Taligenkännaren går förvisso inte på bokstavens längd utan lyssnar snarare på klangfärgen hos talljudet. Förhoppningen var att den lilla ändringen skulle leda till bättre igenkänning av siffersekvensen. Problemet med felaktigt igenkända lösenord kvarstod. Innan ändringen i lexikon gjordes var det 11 försökspersoner som gjorde försöket. Av dessa personer hade 6 stycken fått något av sina yttranden bättre igenkänt om ändringen i lexikonet gjorts innan försöken började.,qi UDQGHDYWDOGHWHNWRU För att användaren inte skulle behöva vänta hela den maximala inspelningstiden användes en taldetektor. Taldetektorns uppgift var avbryta inspelning om yttrandet tagit slut innan maximal inspelningslängd uppnåtts. Taldetektorn gjorde således att gränssnittets svarstider förkortades. 9DOGDI UV NVSHUVRQHU Största delmängden försökspersoner i undersökningen har anknytning till institutionen för tal, musik och hörsel (TMH). Att göra en undersökning med försökspersoner från TMH bör inte vara någon nackdel om man vill undersöka hur bra en mänsklig imitation av målrösten kan bli. De som arbetar på TMH tycker förmodligen att det är intressant med mänskligt tal och det bör finnas intresse för att utforska sin förmåga att härma andra människor. Att arbeta med talsyntes, talarverifiering, musiksyntes eller något annat i området tal, musik och hörsel där man använder hörseln i sitt dagliga arbete är förmodligen en fördel vid imitation. En annan fördel är att några av försökspersonerna på institutionen har kunskap om vad som brukar vara svaga punkter i ett talarverifieringssystem. Genom att välja försökspersoner huvudsakligen från TMH blev sammansättningen 15 personer som spelar instrument, spelar teater eller sjunger av totalt 26 försökspersoner. En risk med att välja försökspersoner från institutionen kan vara att några personer gärna vill att systemet inte skall gå att överlista. De anställda får anses tillräckligt professionella att göra sitt bästa för att lura talarverifieraren. I undersökningen var försökspersonerna uppdelade i två grupper gehörsgruppen och poänggruppen. Samtliga träningsmoment användes i båda grupperna. Benämningen på grupperna syftar på vilken typ av träning gruppmedlemmarna började med. Gehörsgruppen fick börja med gehörsträning och poänggruppen började med poängsatt träning. I tabell 2 och 3 visas försöksgruppernas sammansättning för olika försöksomgångar. Försökspersonerna gjorde försöket med två olika måltalare. En ur systemets synvinkel lik måltalare valdes i första försöksomgången. I andra försöksomgången valdes antingen måltalaren slumpmässigt 16