AUTOMATISK IGENKÄNNING AV TAL

Storlek: px
Starta visningen från sidan:

Download "AUTOMATISK IGENKÄNNING AV TAL"

Transkript

1 AUTOMATISK IGENKÄNNING AV TAL 1 INLEDNING Mats Blomberg och Kjell Elenius Institutionen för tal, musik och hörsel, KTH 2000 Automatisk igenkänning av tal är ett relativt nytt forskningsfält. De första försöken började i slutet på 40-talet. Forskningen på området tog inte riktig fart förrän datortekniken blev mera allmän under 60-talet lanserades det första kommersiella ordigenkänningssystemet. Det hade en vokabulär om hundra ord. Nu finns flera och betydligt mer avancerade produkter på marknaden, bland annat dikteringssystem som kan känna igen tiotusentals ord. Forskningen är idag till stor del inriktad på att bygga system som kan hantera spontant tal från godtyckliga användare. Dessa kan användas i dialogsystem för exempelvis bokning av biljetter eller databassökningar på Internet, som bland annat kan besvara frågor om väder, lägenheter eller begagnade bilar. 2 PÅ MÄNNISKANS VILLKOR Automatisk taligenkänning ger människan en helt ny kanal för datorkommunikation. Talet är vårt naturliga sätt att kommunicera, och det ger en psykologisk fördel genom att kommunikationen sker på människans villkor - inte maskinens. Händer och ögon lämnas fria för andra uppgifter och med en bärbar, trådlös mikrofon kan operatören röra sig fritt i rummet. Problemen med taligenkänning är emellertid stora. En hel del begränsningar har genom tiderna utnyttjats för att möjliggöra lösningar med tillräcklig igenkänningsförmåga. En vanlig inskränkning var att tillåta inmatning av endast ett ord i taget, ordigenkänning. Orden uttalas med tydliga pauser sinsemellan. För att komma ifrån uttals- och röstvariationer mellan olika talare tillät man ofta endast en användare åt gången. Systemet var alltså talaradaptivt och tränades in för varje ny talare. Denna teknik utnyttjas även i de dikteringssystem som nu finns på marknaden. För att ge användaren fortlöpande information om igenkänningsresultaten är det viktigt att visa vilka ord som känts igen. Man kan då snabbt korrigera förväxlingar och andra fel. En normal talare hinner med drygt dubbelt så många ord per tidsenhet som en skicklig skrivmaskinist (högläsning är 4 gånger snabbare). Vid ordigenkänning gör emellertid kravet på tydliga pauser mellan yttrandena att man hinner med till siffror per timme jämfört med för knappsatsinmatning. Enligt en begränsad undersökning för engelska blir antalet inmatade ord per minut ungefär 20 vid diktering om man tar hänsyn till tiden för korrektioner, vilket är ungefär hälften av vad man klarar av med tangentbord om man har viss skrivvana. Trots detta finns det många tillämpningar där talinmatning innebär en fördel. För till exempel rörelsehindrade som har svårt för att använda tangentbord kan tekniken vara mycket värdefull. Några olika användningsområden beskrivs i Tabell 1.

2 Automatisk igenkänning av tal 2 Tabell 1. Tillämpningar för automatisk ordigenkänning samt de fördelar som kan uppnås. PERSONDATORER DATAINMATNING TELEFONI HANDIKAPP- TEKNIK System med ca ord, talaradaptiva Röststyrning av applikationsprogram samt diktering av text. Används till exempel av rörelsehindrade, röntgenläkare, advokater. System med 100 till 1000 ord Industri Mätdatainsamling, processtyrning, produktionskontroll, avsyning. Ökad snabbhet och säkerhet genom samtidig inspektion och röstinmatning av data. Distribution Sortering av post och bagage. Talaroberoende. 10 till 1000 ord Automatisering av telefonisttjänster Postorderbeställning Information ur databaser Tidtabeller, aktiekurser. System med 100 till 1000 ord Omgivningskontroll för rörelsehandikappade, till exempel för att styra belysning, radio, TV, nummerslagning för telefon med mera. System med ca ord, talaradaptiva Diktering Ett tidigt och illustrativt exempel på en konkret användning är United Airlines bagagesortering vid O'Hare flygplatsen i Chicago. Från början sorterades bagaget av två man. Den förste tog upp bagaget och roterade det så att den andre skulle kunna se adresslappen varefter han lade ner det på ett transportband. Den andre hade 1,5 sekunder på sig att skriva in ett tresiffrigt flygnummer till sorteringsmaskinen. Totalt rörde det sig om ca 200 olika nummer. Antalet felsorteringar var som lägst 10% - 15% och som högst 30% - 40%. Genom att gå över till taligenkänning behövde man endast en operatör som samtidigt hanterade godset och talade in flygnumret. Tidspressen gjorde dock att felfrekvensen ändå inte minskade i nämnvärd utsträckning. I stället lät man nu operatören säga endast ett ord, nämligen namnet på en av de 85 olika destinationsorterna. Med hjälp av klockan kunde sorteringsdatorn sedan räkna ut vilket som var det korrekta flygnumret. Nu minskade felfrekvensen till under 1%. När man inför taligenkänning är det alltså viktigt att anpassa tillämpningen så att den utnyttjar de fördelar som är möjliga med denna teknik.

3 Automatisk igenkänning av tal 3 3 TALET ÄR EN KOMPLICERAD, KONTINUERLIG PROCESS Det är svårt att på ett enkelt sätt avkoda "fonembudskapet" i en talsignal. Det är ett långt steg mellan ett ords diskreta uppdelning i bokstäver vid skrift och avbildningen av ordets akustiska signal på ett spektrogram. Talorganens mekaniska egenskaper gör att talet blir en kontinuerlig process, där talljuden intimt och ömsesidigt påverkar varandra. Det ömsesidiga beroendet gör att betydande information om fonemen finns i övergångarna, transitionerna, mellan dem. Uttalet av ord som står i fokus är normalt tydligt, medan till exempel artiklar och ändelser och prepositioner ofta utsätts för reduktioner och uttalas otydligt eller utelämnas helt och hållet. Figur 1 ger exempel på hur uttalet av en fras kan reduceras utan att det försvårar förståelsen för en mänsklig lyssnare. Talets kontinuerliga förlopp är särskilt tydligt i den reducerade utsagan. Vad jobbar du med? Va jobbaru me? Figur 1. Spektrogram av frasen vad jobbar du med yttrad av två olika manliga talare. Till vänster ett noggrant, hyperartikulerat, uttal och till höger ett reducerat från en dialogsituation. Sambandet mellan talorganens rörelser under tal och den akustiska talsignalen är komplicerat. Det kunde vara attraktivt att basera taligenkänning på artikulatoriska parametrar, men dessa har visat sig svåra att extrahera. Även mer talproduktionsinriktade parametrar som formanter är svåra att mäta och använda för igenkänning, trots att de har visat sig mycket fruktbara för text-till-talsyntes. Dessutom gäller den akustisk-fonetiska paradoxen som säger att: Det finns inget unikt, entydigt samband mellan en fonetisk enhet, till exempel ett talljud (fonem) eller en stavelse, och dess akustiska realisering i alla tänkbara sammanhang. En talsignal kan inte entydigt delas upp i tidsmässigt icke överlappande delar, som till exempel motsvarar stavelser eller ord. Ovanstående gäller i naturligtvis i synnerhet för tal från olika talare. En förklaring till att man ändå kan förstå tal är att lyssnaren har kunskap om språket, talaren, ämnet, situationen med mera och hela tiden predicerar vad talaren kommer att säga. Detta gör att han kan återskapa och kompensera för obefintlig eller förvanskad information i talsignalen.

4 Automatisk igenkänning av tal 4 4 SVÅRIGHETER - TALSIGNALENS VARIABILITET En grundläggande svårighet för automatisk taligenkänning är talsignalens stora variabilitet. Vi vet att män, kvinnor och barn har olika röster med bland annat olika grundtoner. Men å andra sidan kan det ibland vara svårt att veta om det är en man eller kvinna som talar om vi bara kan höra rösten. Talorganens storlek är naturligtvis avgörande för formanternas frekvenslägen och dialekten färgar också talet. I figuren nedan ser vi exempel på spridningen av formanter mellan olika manliga och kvinnliga talare. Det går alltså inte att entydigt klassa de identifiera de främre vokalerna e, i och y enbart utifrån de första två formanterna. Figur 2. Spridning av de två lägsta resonans-frekvenserna (F1 och F2) för isolerade svenska vokaler uttalade av manliga och kvinnliga talare(efter Gunnar Fant). Notera att främre vokaler har en väsentlig överlappning.

5 Automatisk igenkänning av tal 5 reduktion knarr ja de ä väl fredag idag... lång konsonant knarr tvekan så det blir väl ehh... fredag kväll Figur 3. Talaren svarar på frågan När vill du åka?. Spektrogrammet visar på reduktioner och tecken på tveksamhet (förmodligen orsakat av tankeverksamhet) i form av knarr och långsamt tal. Figur 3 visar spektrogram på ett svar på en fråga. Man ser exempel på reduktion, knarr och distorderade fonemlängder. Talet är normalt fyllt av sådana distorsioner som lyssnaren oftast ignorerar totalt. Lyssnandet är ju en aktiv process där lyssnaren är hjälpt av sina kunskaper om talaren, ämnet, språket och kontexten i stort. Däremot kan en taligenkännare ställas inför problem, eftersom man ännu inte kan modellera alla dessa fenomen på ett bra sätt. Däremot kan man till exempel ha flera uttalsvarianter av ett ord för att ta hänsyn till reduktioner, men å andra sidan expanderar detta antalet möjligheter vid igenkänningen, något som i sin tur ökar komplexiteten. Figur 4 ger visar olika orsaker till talets variabilitet. Talet kan även röja talarens sinnesstämning och är man förkyld och täppt i näsan så påverkas talet markant. I en dialogsituation anpassar man både språk och tal till lyssnaren, ju mer bekant man är och känner till om varandra desto mindre tydlig behöver man vara, både i ordval och artikulation. Även kanalens kvalitet påverkar talaren; har man en dålig telefonförbindelse talar man tydligare än normalt. Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Reduktioner Minsta ansträngning Omgivning Additivt brus Rumsakustik Mikrofon, Telefon Bandbredd Störningar brus frekvensgång transienter klickar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin Figur 4. Exempel på faktorer som påverkar talsignalen. Akustiska störningar som efterklang i rum och buller påverkar naturligtvis signalen till en taligenkännare liksom frekvensgången hos telefoner och mikrofoner. Även om en del av de talarberoende faktorerna normaliseras när man vet att man talar till en maskin så kan tillräckliga effekter kvarstå för att komplicera uppgiften för en taligenkännare.

6 Automatisk igenkänning av tal 6 5 PARAMETRISK OMVANDLING OCH DATAREDUKTION Den akustisk-parametriska omvandlingen av talsignalen är ett grundläggande steg vid all taligenkänning. I tidsdomänen representeras ofta talsignalen med 64 kbit/s, 8 khz samplingsfrekvens med 8 bitars upplösning. För taligenkänning har det visat sig lämpligt att gå över till den spektrala domänen, som ger en mer kompakt och användbar beskrivning av talet. Ett flertal metoder har utvecklats och gemensamt för de flesta är att de baseras på talsignalens korttidsspektrum mellan 0 och 5 khz över intervall på ca 25 ms. Denna tidslängd är en kompromiss mellan önskemålen om god representation av korta tidsförlopp, samtidigt som variationer beroende på grundtonen bör undvikas. Tidigare utfördes denna analys med analog teknik, men numera används oftast FFT-analys (Fast Fourier Transform). Det är vanligt att välja filterbandbredderna enligt teorin för kritiska band, som tar hänsyn till örats frekvenskaraktäristik (mel- eller Bark-skala). Vid låga frekvenser är filterdelningen konstant medan den växer ungefär exponentiellt för frekvenser över 1 khz. Figur 5. Yttrande: omsorgfullt bilen. FFT-analys konverterad till 16 filteramplituder, Barkskala 0,2 till 6 khz och 10 ms mellan tidsramar Spektrum av /a:/ Spektrum av /s/ I Cn = Aicos( nπ ( i 05. ) / I) i= 1 0,5-0,5-1 * = 1 0,5 0 W2-0, ,5 0-0,5-1 1 * = 0,5 0-0, Viktfunktioner W1 W3 W Cepstrum av /a:/ C1 C2 C3 C4 Cepstrum av /s/ C1 C2 C3 C4 Figur 6. Cepstrumberäkning från filterbanksspektra. Viktning av filteramplituder till vänster med cosinusfunktioner (mitten) resulterar i koefficienterna C1-C4 till höger. För att ytterligare reducera datamängden omformas i många system filteramplituderna till ett lägre antal "cepstrum-koefficienter". Cepstrumanalys innebär en invers Fouriertransform av det logaritmerade amplitudspektrat, därav namnet. Om spektrum inte logaritmeras före transformationen erhåller man autokorrelationsfunktionen. I praktiken beräknas en cepstrum-koefficient som en skalärprodukt mellan amplitudspektrum och en cosinusfunktion bestående av ett helt antal halva perioder, se Figur 6. Cepstrumkoefficienter beskriver på ett effektivt sätt spektrums grovstruktur med ett litet antal koefficienter, normalt 8-16 stycken, och en fördel är att de är ortogonala och alltså okorrelerade. En mycket vanlig representationsform är cepstrum beräknat på mel-skaletransformerat spektrum (MFCC, Mel Frequency Cepstral Coefficients). Förutom koefficienternas absolutvärden använder man ofta deras tidsderivator av första och andra ordningen.

7 Automatisk igenkänning av tal 7 Det är rimligt att anta att ytterligare studier av människans hörsel kan ge information om hur den akustiska talsignalen skall behandlas. Den analys som sker i örat är oerhört mer avancerad än den som används i praktiska igenkänningssystem. Tyvärr förstår vi ännu långt ifrån allt vad som sker i innerörat och högre auditiva nivåer i hjärnan. Vissa tillämpningar av vår nuvarande kunskap om hörseln har dock visat sig användbara, som Bark-skalan ovan, som är allmänt utnyttjad. Dessutom har auditivt inspirerade modeller visat sig vara fördelaktiga i akustiskt besvärliga miljöer, som vid telefoni eller högt bakgrundsbuller. Talsignal Samplingsfrekvens Ramfrekvens 16 khz 100 Hz FFT Spektralanalys med Fast Fourier Transform db Parametrisering T. ex. cepstrumtransform 8-12 cepstrumkoefficienter var 10:e ms ~6000 Hz Bark Amplitud-frekvensspektrum av /a:/ -200 C1 C2 C3 C4 Cepstrum av /a:/ Figur 7. Analys av talsignalen, från tidsvåg via FFT och spektrum till cepstrumparametrar En metod att på ett komprimerat sätt beskriva talsignalen kallas vektorkvantisering. Man kvantiserar man de spektrala talramarna med hjälp av ett antal "typramar", som först beräknats för att beskriva talsignaler på ett optimalt sätt givet ett viss distorsionsmått. Antalet typvektorer brukar till exempel vara 256 och tillsammans utgör de en kodbok. Varje inkommande spektrumram klassificeras till den vektor i kodboken som den är mest lik. Detta ger en kvantisering av talsignalen som nu kan beskrivas som en följd typramar. Jämför Figur 8 nedan. Vektorkvantisering av ett yttrande Dela in parameterrymden i ett litet antal områden. Numrera dessa. Typiskt antal är 256. Klassa varje tidpunkt av ett yttrande till ett av dessa områden. Hela yttrandet beskrivs som en följd av indextal. Kraftig datareduktion på bekostnad av kvantiseringsdistorsion. Figur 8. Hur man vektorkvantiserar ett yttrande samt exempel på en tvådimensionell uppdelning av ett plan i åtta kvantiseringsområden.

8 Automatisk igenkänning av tal 8 6 IGENKÄNNINGSMETODER Efter den akustiska analysen följer en beslutsprocess då man ska bestämma sig för vilka ord som sagts. Man kan indela de metoder som finns i ett antal huvudinriktningar. Bland de viktigaste kan nämnas kunskapsbaserade metoder, mönsterigenkänning, neuronnät samt Markovmodellering. De olika metoderna utesluter inte nödvändigtvis varandra. Den första försöker i hög utsträckning utnyttja allmän fonetisk kunskap om tal, medan de övriga huvudsakligen är inlärande system. Numera är Markovmodellering den helt dominerande metoden, särskilt i kommersiella system. Att först hitta fonemen i ett yttrande och därefter de ingående orden kunde vara en attraktiv metod. Om man hypotetiskt tänker sig att man kan känna igen alla fonem för ett språk i alla kontexter så borde man lätt kunna känna igen språkets alla ord. En sådan metod kräver emellertid mycken akustisk-fonetisk insikt för att ge bra resultat. Tyvärr saknas denna kunskap ännu i stor utsträckning vilket resulterar i att den igenkända fonemföljden innehåller fel. Detta resulterar bland annat i att igenkänningsalgoritmen måste vara flexibel och tillåta alternativa fonetiska tolkningar för ett och samma tidsavsnitt i den akustiska talsignalen. 6.1 Kunskapsbaserade system Expertsystem och produktionsinriktade system baseras huvudsakligen på kunskap formulerad av lingvister, fonetiker och talforskare Expertsystem I ett typiskt expertsystem försöker man lägga in den kunskap som en skicklig spektrogramläsare besitter. Reglerna är ofta beslutsregler av typen "om energinivån i lågfrekvensområdet är hög så är segmentet tonande". Ett stort antal regler krävs för att beskriva den akustiskfonetiska variationen i olika sammanhang för skilda talare. Tekniken åtnjöt ett stort intresse under slutet av 70-talet och början av 80-talet. Intresset har därefter svalnat en del, främst till förmån för automatiskt inlärande system baserade på neuronnät och Markovmodeller. På senare tid har man emellertid börjat kombinera kunskapsbaserade system med statistiska metoder. Om man till exempel vill approximera läget av första formanten i vokaler med att bestämma en tyngdpunkt i ett frekvensband, kan man med hjälp av ett inlärningsmaterial statistiskt bestämma vilket frekvensband som ger det bästa resultatet. Man kan även beräkna sannolikheten för att första "formanten" ligger i ett visst intervall för olika vokaler och ord. I ett sådant kunskapsbaserat system segmenterar man sedan talet i fonem och beräknar sannolikheter för ord beroende på de använda parametrarnas sannolikhetsfördelningar Produktionsbeskrivande system I talproduktionsinriktade system beskriver man talet i termer som har en närmare koppling till det fysikaliska och artikulatoriska skeendet i mänskligt tal. Med denna inriktning kan man exempelvis utnyttja kunskap om statiska och dynamiska samband som ges av den mänskliga anatomin till att förutse uttal av sällsynta ord eller trifoner som inte observerats i träningsmaterialet. En annan möjlighet är att man kan separera de ingående produktionsfaktorerna och träna dem separat. Man kan sedan beskriva ett stort antal talares röster genom en syntes av aktuella värden på ingående faktorer som röstkvalitet, talrörslängd, talvanor, mm. En produktionsmodell genererar en syntetisk förlaga till de ord som ska testas. Själva jämförelsen kan ske på samma sätt som med metoder baserade på akustisk inlärning.

9 Automatisk igenkänning av tal 9 Fördelen med denna teknik är att även sällan förekommande effekter kan beskrivas, vilket ofta inte är möjligt i inlärande system med begränsad mängd träningsdata. Beskrivningssättet medger också att man kan kombinera automatisk inlärning med känd kunskap från talanalys och talsyntes. Man ser även möjligheter till gemensam utveckling av system för både taligenkänning och talsyntes baserade på samma, automatiskt träningsbara, produktionsmodell. Ett problem med de kunskapsbaserade inriktningarna är att vi idag inte vet tillräckligt mycket om talets natur för att kunna bygga tillförlitliga system. En extra felkälla är också proceduren för extrahering av talproduktionsparametrar ur talsignalen. Prestandamässigt kan dessa metoder för närvarande inte konkurrera med konventionella system, men på forskningssidan är finns ett uppenbart intresse. 6.2 Mönsterigenkänning Mönsterigenkänningsmetoden var den första som fick bred användning och den utnyttjades i första hand för ordigenkänning. Den utnyttjar ingen egentlig fonetisk information. Informationen om ett ord representeras med ett sparat, tidigare uttal av ordet. En tvådimensionell matris beskriver ett antal analysparametrars tidsvariation för varje yttrande. Igenkänningsprocessen innebär att man väljer det ord ur den lagrade vokabulären som ger minsta distans mot det okända ordet. För att ta hänsyn till varierande taltempo används normalt en metod med dynamisk programmering som beskrivs nedan Orden jämförs med minne Principerna för mönsterigenkänning av ord är alltså rätt enkla, se figur 9. Talsignalen analyseras till exempel i ett frekvensområde mellan ca 200 Hz och 5000 Hz, där större delen av den akustiskt intressanta informationen om fonemen finns. Analysen görs över tidsintervall, som kan vara mellan 10 och 25 ms långa. Ur talsignalens frekvensspektrum beräknas sedan parametrar som bör vara så känsliga som möjligt för skillnader mellan olika fonem. Datorn lagrar under ett inlärningsskede talparametrarnas tidsmässiga variation för varje ord i den aktuella vokabulären. Parametrarna kan antingen baseras på ett enda yttrande eller vara medelvärdade över flera yttranden av samma ord. Efter inlärningen representeras varje ord i igenkänningsvokabulären av ett mönster bestående av talparametrarnas värden vid olika tidpunkter över ordet, till exempel 16 värden vid 32 tidpunkter. Då ett ord skall kännas igen jämförs dess parametriska mönster med de lagrade mönstren för alla möjliga ordkandidater. Eftersom taltempot alltid varierar något, justeras ordens tidsmässiga utsträckning innan de jämförs. Efter att ha jämfört med alla ord väljer datorn det som har bäst överensstämmelse med det intalade. Datorn kan också 50 välja att inte acceptera ett ord om det 45 Referensmönster inte stämmer tillräckligt bra överens Okänt yttrande med något av de 10 5 lagrade mönstren. Distansfunktion Figur 9. Ett försök att åskådliggöra hur man beräknar avståndet mellan ett yttrande och referensmönstret för ett ord i igenkänningsvokabulären.

10 Automatisk igenkänning av tal Korrektion för talhastigheten Vid igenkänning av ett ord måste man normalt ta hänsyn till talhastigheten. Eftersom taltempot aldrig är exakt detsamma för två yttranden av samma ord, måste man vid jämförelsen mellan ord göra en korrektion. En vanlig metod är att dela upp alla ord i ett bestämt antal delar. Metoden ger en linjärt normaliserad tid och alla ord får lika många segment. Tyvärr ger en ändring av taltempot inte upphov till proportionellt samma tidsförskjutningar över hela ordet. En linjär skalning är därför inte tillräcklig. En metod som är baserad på dynamisk programmering innebär att man vid jämförelsen av två ord finner en bästa överensstämmelse genom att tillåta vissa lokala sträckningar och töjningar av det ena ordet. Vid den dynamiska programmeringen brukar man tillåta lokala variationer av tidsskalan på mellan 50% och 200%. Normalt betyder det att om en tidpunkt, i, i det intalade okända ordet avbildas på en punkt j i ett referensord blir nästa tillåtna punktpar någon av följande tre: [i+1, j+1] (ingen tidstöjning), [i+1, j+2] (ett överhoppat sampel i referensordet) eller [i+2, j+1] (ett överhoppat sampel i inordet), beroende på vilket som ger den bästa överensstämmelsen. Antalet distansmätningar mellan sampelpunkter ökar avsevärt jämfört med linjär tidskorrektion. Men å andra sidan garanterar metoden att man hittar den optimala avbildningen enligt de givna villkoren. Se även Figur 10. Metoden brukar kallas Dynamic Time Warping, DTW, på engelska. En nackdel med metoden är avsaknaden av en fonetisk beskrivning av vokabulären. Detta medför att varje Figur 10. En optimal tidsavbildning mellan två ord beräknad med hjälp av dynamisk programmering. I detta fall skall första och sista punkterna avbildas på varandra. Linjer med lutningen 1/2 respektive 2 begränsar tillåtna avbildningar enligt de lokala villkoren enligt ovan. Dynamisk programmering innebär att de avbildningar som är möjliga enligt de lokala villkoren beräknas. Som slutresultat får man den optimala avbildningen. ingående ord måste tränas in, även om det till större delen är identiskt med något annat ord. Under igenkänning innebär samma förhållande att varje ord måste testas separat, något som tar betydligt längre tid jämfört med att identiska orddelar testas gemensamt. Mönsterigenkännande system är därför inte lämpade för stora vokabulärer.

11 Automatisk igenkänning av tal Artificiella neuronnät En teknik som på senare år tilldragit sig mycket intresse är artificiella neuronnät, som baseras på enkla analogier med nervsystemet. Med elementära modeller för nervceller, noder, och deras förbindelser med varandra har man uppnått överraskande goda resultat. I Figur 11 visas några av grundprinciperna. Kopplingsstyrkan mellan noderna i nätet varierar och kan vara både positiva, stimulerande, och negativa, inhiberande. Kopplingarna kallas vanligen för vikter. Normalt adderar man summan av de viktade insignalerna till en nod enligt en olinjär funktion, som ofta har karaktären av en beslutsfunktion, dvs den är till eller från, och utsignalen begränsas ofta till intervallet 0 till 1, eller -1 till 1. Varje nod har även en förspänning. Sigmoidfunktionen, som är deriverbar, är den som normalt brukar användas. Θ Figur 11. Principer för artificiella neuronnät. Insignalerna x n till en nod multipliceras med vikterna w n och summeras, varefter en konstant Θ subtraheras. Detta ger insignal till nodens beslutsfunktion f, varav några exempel visas i figurens nedre del. Genom att variera Θ flyttas beslutspunkten för f. Funktionerna kan (från vänster) beskrivas som: hård begränsare, tröskellogik och sigmoid. De nät vi närmare kommer att beskriva kallas ofta "backward propagation-nät", efter den algoritm (error back propagation), som används för att bestämma nätets väsentliga parametrar. Vissa noder drivs av yttre signaler, till exempel spektrala nivåer, medan andra bara reagerar på stimuli från interna noder i nätet, se Figur 12. Noderna brukar ligga samlade i olika "lager" eller nivåer. En nod på en given nivå är normalt ansluten till varje nod i närmast underliggande nivå. Den lägsta nivån är ansluten till insignalerna. Sedan följer ofta ett "dolt" lager av noder, som man inte observerar direkt, medan det översta lagret brukar ha en nod för varje klassning, beslut, som nätet kan utföra. Det kan till exempel vara noder som signalerar ett igenkänt fonem. Den särskiljande förmågan i nätet ligger i vikterna mellan noderna och dessa måste läras in.

12 Automatisk igenkänning av tal 12 Figur 12. Ett neuralt nät som får sin insignal från 16 filter och har ett dolt lager med 13 noder. Utsignalen ger en klassning av inmatat talspektrum i 7 fonetiskt inspirerade särdrag. Under inlärningen presenteras ett instimuli, till exempel ett akustiskt mönster för vokalen "a", för innoderna samtidigt som dess identitet presenteras för utnoderna, genom att noden för "a" sätts till 1 medan övriga utnoder sätts till 0. Vikterna (och förspänningarna) justeras sedan i mycket små steg så att utsignalen på samma instimuli blir något bättre nästa gång. Därefter presenteras ett nytt in- och ut-stimulipar och vikterna korrigeras igen. När alla stimulipar i inlärningsmaterialet presenterats (vilket brukar kallas en epok) börjar man om från början och man kan göra om denna iterativa procedur tusentals gånger innan inlärningen är klar. Om man har få inlärningsmönster och många parametrar kan nätet lära sig varje stimulipar nära nog perfekt. För nya inmönster fungerar det däremot mindre bra - nätet har blivit överinlärt. Vad man i stället eftersträvar är att nätet skall generalisera utifrån inlärningsmaterialet så att det fungerar bra även på nya, okända inmönster. Här spelar storleken på inlärningmaterialet, nätets topologi och själva problemets natur in. Om inlärningen kan ta lång tid så är själva igenkänningen betydligt snabbare, särskilt om den realiseras i parallell maskinvara. Allmänt kan man säga att neuronnät har svårt för att modellera tidsförlopp. Deras styrka ligger snarare i att klassificera, till exempel att känna igen fonem från spektrumsektioner. En relativt enkel metod för att ge nätet information om koartikulation och kontexteffekter mellan talljud är att mata in flera successiva spektrumramar, till exempel 5-10 ramar om 10 ms, för varje ram som skall klassas. Denna teknik användes bland annat vid de första framgångsrika taligenkänningsförsöken med den så kallade TDNN-tekniken (Time-Delay Neural Networks). En vanlig metod för att ge igenkänningssystem baserade på neuronnät en möjlighet att modellera tidsförlopp är att kombinera dem med andra mer konventionella tekniker. Det finns ett flertal hybridsystem beskrivna där man först använder neuronnät för fonemklassning och sedan utnyttjar antingen dynamisk programmering eller Markovmodellering för att känna igen ord och meningar.

13 Automatisk igenkänning av tal Markovmodeller I denna metod betraktas talförloppet som en Markovprocess. Enligt Markovantagandet är processens förflutna betydelselöst för dess framtida förlopp, se Figur 13, som visar en enkel Markovmodell. Vid igenkänning ses ett yttrande ses som resultatet av en produktionsprocess bestående av en följd av tillstånd (states). Sannolikheten att gå från ett tillstånd till ett annat benämns övergångssannolikhet. En komplikation är att talprocessens tillstånd inte kan observeras direkt. Man kan endast göra observationer som har ett statistiskt samband med modellens tillstånd. Sannolikheten för att göra en viss observation i tillståndet, kallas observationssannolikhet. Observationen kan till exempel vara en spektrumram. Det är alltså inte möjligt för en observatör att exakt veta i vilken följd tillstånden i en modell passerats och vad de producerat. Däremot kan man beräkna sannolikheten för att en viss modell producerat det som observerats. Man talar därför om en dold Markovmodell (Hidden Markov Model - HMM). Vid ordigenkänning representeras varje ord av en Markovmodell. Talspektrum samplas till exempel var 10:e eller 25:e ms, ofta i form av cepstrumparametrar och deras tidsderivator. Man beräknar sannolikheten för att modellen producerat de observerade cepstrumparametrarna med hjälp av observationssannolikheterna och övergångssannolikheterna. Det är möjligt att göra "självövergångar" - gå till samma tillstånd man just befann sig i. Observations- och övergångssannolikheterna ger sannolikheten för att modellen gett upphov till de observerade Övergångssannolikheter mellan tillstånd Observationssannolikheter a: 0.3 b: 0.6 c: 0.1 inom tillstånd Tillståndssekvensen kan inte observeras direkt En Markovprocess Sannolikheten för att modellen ska ha genererat en observerad symbolföljd kan beräknas. Den mest sannolika tillståndsföljden (Viterbi) eller de N mest sannolika följderna (N-best algorithm) kan bestämmas 0.3 a: 0.8 b: 0.1 c: 0.1 S S 1 2 S Modelleras med tillstånd förbundna med bågar med övergångssannolikheter Saknar minne Förloppet beror enbart på det aktuella tillståndet, inte på historien a: 0.4 b: 0.3 c: S 1 S 2 S Figur 13. En enkel Markovprocess. Cirklar anger tillstånd och pilar markerar möjliga övergångar med de givna övergångssannolikheterna. Figur 14. En Markobprocess som producerar symbolerna {a,b,c} med de givna observations- och övergångssannolikheterna. parametrarna. Det ord väljs, som med största sannolikhet har genererat den följd som detekterats. Det har i praktiken visat sig att observationssannolikheterna är viktigare än transitionssannolikheterna.

14 Automatisk igenkänning av tal 14 VK-kodbok kodordssannolikheter tillstånd Figur 15. En diskret HMM. För varje tillstånd har man beräknat sannolikheten för att observera de olika kodorden. Jämför Figur 8 ovan. Det finns iterativa algoritmer för att beräkna Markovmodellens sannolikheter ur talmaterial, där man vet vad som sagts. Inlärningsproceduren är långsam och kräver ett stort material för att ge tillräckligt goda uppskattningar av alla ingående sannolikheter. Vid igenkänningen använder man ofta dynamisk programmering som i detta sammanhang brukar kallas Viterbisökning. Eftersom antalet tillstånd normalt är betydligt färre än antalet ramar vid mönsterigenkänning med dynamisk programmering blir igenkänningen snabbare än för denna. Under senare tid har Markovmodeller varit helt dominerande vid försök med stora ordförråd. Beroende på hur observationssannolikheterna modelleras skiljer man på diskreta och kontinuerliga Markovmodeller. I de förra kvantiserar man de spektrala ramarna med hjälp av vektorkvantisering, se ovan. Diskreta observationssannolikheter anger sannolikheten för att erhålla de olika typramarna i Markovmodellens olika tillstånd, se Figur 15. En fördel med metoden är att man kan representera godtyckliga frekvensfunktioner. Å andra sidan får man kvantiseringsfel från vektorkvantiseringen. En nackdel är också att kvantisering och HMM optimeras separat. För kontinuerliga modeller använder man kontinuerliga statistiska funktioner. Under igenkänningen beräknas observationssannolikheterna ur dessa fördelningar. Sannolikheterna beräknas alltså direkt ur talparametrarna utan något mellanliggande kvantiseringssteg. Kontinuerliga modeller kräver större inlärningsmaterial än diskreta för att fungera, men när materialet är tillräckligt stort ger de bättre resultat. Vanligtvis använder man Gaussfördelningar för att beskriva observationssannolikheterna. En sådan beskrivs av två parametrar: medelvärde och varians. I allmänhet är dock talparametrar inte normalfördelade. En vanlig metod är därför att använda flera Gaussklockor med olika medelvärden och varianser för att beskriva frekvensfunktionerna, se Figur 16. En bimodal, "tvåpucklig", funktion kan till exempel modelleras med två klockor och deras relativa vikter. Genom att använda tillräckligt många klockor kan man avbilda en godtycklig funktion med önskad komponenter komponentvikter tillstånd Figur 16. En kontinuerlig HMM. Med flera viktade normalfördelningar kan man modellera även onormala frekvensfunktioner. precision. För talparametrar använder man från ett fåtal till ett tiotal Gaussfunktioner. Förutom medelvärde och varians behövs alltså en parameter som anger den relativa vikten av varje delfunktion i den totala, "blandade" fördelningen, blandningsvikten.

15 Automatisk igenkänning av tal 15 Så länge vokabulären är relativt liten, av storleksordningen ett hundratal ord, kan man modellera dem enskilt med 5 till 10 tillstånd för vart och ett. Men när man ska känna igen tiotusentals ord är en fonetisk metod överlägsen. Det vore naturligtvis bra om man kunde klara sig genom att använda ett femtiotal modeller för fonem eller allofoner. Eftersom talljuden förändras mycket beroende på koartikulation med föregående och efterföljande fonem har det visat sig vara mycket bättre att modellera dem i sin kontext. Detta resulterar i trifoner (trefonemföljder). Till exempel ger a-ljuden i: bar, rar, hav och av alla upphov till var sin trifon. På detta sätt får man lätt tiotusentals talljudsmodeller. Antalet möjliga trifoner begränsas av att alla fonemkombinationer inte förekommer - begränsningarna ges av språkets fonotax. Följande exempel gäller en engelsk vokabulär: 8000 (olika) ord innehöll trifoner, medan ord innehöll en ökning om endast 1000 trifoner - och ord innehöll trifoner. I löpande tal ger dessutom fonemföljderna över ordgränser upphov till ett mycket stort antal ytterligare trifoner. Om man räknar med 50 fonem (allofoner) kan man som exempel få maximalt 50 3 = möjliga kombinationer. Antalet parametrar som krävs för Markovmodellering blir ofta för stort för att man ska kunna få tillräckligt bra uppskattningar av dem även om man har stora inlärningsmaterial. Ett vanligt sätt att parera problemet är att slå ihop tillstånd som fonetiskt liknar varandra - man "knyter" tillståndens fördelningar till varandra, jämför Figur 18. Mängden träningsmaterial för ett gemensamt tillstånd blir lika med summan av de enskilda tillståndens. Trifoner modelleras vanligtvis med tre tillstånd och ett exempel på "knytning" vore att dela på det andra och tredje tillståndet i trifonerna 'dam' och 'kan', eftersom det följande fonemet är detsamma båda fallen. Ett ganska vanligt specialfall av knytning brukar kallas semi-kontinuerliga Markovmodeller (Semi Continuous Hidden Markov Models, SCHMM). Här låter man alla Markovtillstånd dela på samma kontinuerliga Gaussfunktioner, som kan vara kring ett femtiotal. Det enda som skiljer tillstånden åt är de diskreta blandningsvikterna. Man kan se det som en hybrid med en kontinuerlig kodbok och diskreta fördelningar som anger vikter för respektive komponent i kodboken. Vi har a-trifonerna d-a-m och t-a-m, dvs a i kontexten d-m och t-m 3-tillstånds HMM per trifon Samma högerkontext Tillstånd 3 kan delas mellan modellerna + Antalet fria parametrar minskar +Mer träningsdata per fri parameter +kräver mindre minne d 1 3 m t a Figur 17. För att minska antalet HMMparametrar kan man knyta fonetisk liknande tillstånd till varandra. System med stor vokabulär och ordgränstrifoner använder ~ trifoner Akustisk vektor med 39 element och 10 Gausskomponenter (2 parametrar: µ, σ) ger 790 parametrar per tillstånd, varav 10 vikter (mixture weights) 39 x 10 x = trifoner med 3 tillstånd ger parametrar! Knytning (tying) för att dela på modellparametrar ger ~ parametrar. Figur 18. Antalet parametrar i HMM-system är mycket stort även om man använder sig av knytning. a m

16 Automatisk igenkänning av tal 16 En annan variant är Semi-Markov-modeller. I dessa kan man bättre beskriva segmentdurationers statistiska fördelning. I den ursprungliga modellen innebär Markovantagandet och den konstanta transitionssannolikheten att duration modelleras med en exponentialfördelning. Detta överensstämmer ofta illa med den verkliga fördelningen för fonetiska segment i naturligt tal. Fördelningen kan implementeras under jämförelseprocessen mellan ett yttrande och en Markovmodell genom att göra transitionssannolikheterna beroende av hur länge man befunnit sig i respektive tillstånd. Detta strider mot Markovantagandet (historien påverkar förloppet) och vi har inte längre en ren Markovprocess. Användande av Semi-Markov-modeller ger en viss höjning av prestanda, dock till priset av betydligt längre beräkningstider 7 SAMMANHÄNGANDE TAL Vid igenkänning av sammanhängande tal tillkommer ytterligare problem. En mening måste följa för språket givna samband bestämda av språkets syntax, semantik, böjningsregler och satsintonation. Att känna igen naturligt tal är än så länge en alltför stor utmaning och man inskränker sig istället till en speciell domän med en avgränsad vokabulär och en begränsad syntax. Kommersiella system har börjat dyka upp, men allmänt gäller att tekniken ännu befinner sig på forskningsstadiet. Tekniken med mönsterigenkänning går att utsträcka till starkt begränsade ordföljder, exempelvis siffersekvenser. Principen här är att med mönsterteknik beräkna de sannolika ord som kan inleda ordsekvensen. Följande ord måste börja där de föregående slutar och för dem gör man nya mönsterjämförelser utifrån dessa tidpunkter. Nu får man nya sannolika slutpunkter för dessa ord varefter man fortsätter på samma sätt. Sedan väljer man den ordsekvens som ger den totalt sett bästa överensstämmelsen. Denna teknik kräver avsevärt mer processkapacitet än vanlig enordsigenkänning. Vid denna metod använder man enskilda ord vid inlärningen av vokabulären. Detta gör att man inte kan ta hänsyn till koartikulationseffekter mellan orden när de uttalas i en följd. Trots detta är metoden användbar för små vokabulärer och sådana system marknadsförs av flera företag. Den tidigare berörda Markovbaserade principen för ordigenkänning kan generaliseras till sammanhängande tal genom att man inför sannolikheter för ordföljder. Vanligt är att beräkna sannolikheten för ett ord utifrån vetskapen om dess frekvens, vilket ord som föregick det och ibland tar man även ta hänsyn till två föregående ord. Statistik över förekomsten av två- och treordssekvenser kallas ofta på engelska för "bigram grammar" respektive "trigram grammar" och ersätter syntax och semantik i en N-gram (ordföljdssannolikheter) ger bra resultat trots sin enkelhet unigram: P(w i ) ordfrekevens bigram: P(w i w i-1 ) tvåordsföljd trigram: P(w i w i-2, w i-1 ) treordsföljd Ordklassföljder vid otillräckligt träningsmaterial Figur 19. Enkla men väl fungerande språkmodeller för taligenkännig. Om man inte har tillräckliga mängder träntingsdata (textmaterial) kan man använda sig av ordklasser i ställer för ord. vanlig grammatik se Figur 19. Det krävs texter på många miljoner ord för att kunna beräkna de önskade sannolikheterna med tillräcklig noggrannhet. För att kombinera den akustiska och språkliga informationen använder man sig av Bayes regel enligt Figur 20.

17 Automatisk igenkänning av tal 17 P ( Ord / Akustik P ( Akustik / Ord ) P ( Ord ) P ( Akustik ) De kunskapsbaserade metoderna kan utsträckas till sammanhängande tal genom att införa regler för syntax, semantik och kanske även prosodi. Neuronnät används mest för fonemigenkänning (i kontext) och förekommer som tidigare nämnts mest i hybridsystem där de kombineras med dynamisk programmering eller Markovmodeller till kompletta system. Vid mer avancerade system för igenkänning av löpande tal väljer man inte metoder baserade på mönsterigenkänning utan istället försöker man identifiera mindre enheter i talsignalen. I ett lexikon definierar man vilka ord som är tillåtna och hur de uttalas i termer av de enheter som används. Dessa är ofta fonem i given höger- och vänsterkontext (trifoner) eller stavelser som man sedan sätter ihop till ord och meningar. Lexikon kan innehålla alternativa uttal av den använda vokabulären. Att leta efter rätt ordsekvens i en mening innebär ett mycket stort sökproblem. Förenklat kan man tänka sig att varje ord i vokabulären kan tänkas börja eller sluta vid varje tidpunkt i yttrandet. Att finna en bästa ordsekvens blir då en stor utmaning. Vid sökningen utnyttjar man i regel bigramstatistik (se ovan) för att ta hänsyn till sannolikheten för att ett ord ska följa på ett annat. Metoder baserade på dynamisk programmering kombinerar detta med sannolikheter för funna fonem i talsignalen och matchar allt detta mot fonetiska beskrivningar av lexikon. På så sätt kan man beräkna den optimala ordföljden givet talvågen, vokabulären och bigramsannolikheterna. Osäkerheten i beräknade systemparametrar gör emellertid att resultatet inte behöver vara korrekt. Det finns emellertid metoder som gör att man på ett effektivt sätt kan få fram ett bestämt antal, till exempel de 10 eller 100 troligaste meningarna enligt samma kriterier som ovan. Sedan låter man en språklig komponent analysera dessa för att få fram den språkligt mest sannolika utsagan. Detta är en mycket snabbare metod än att integrera den komplexa språkliga analysen med den primära sökningen, vilket skulle resultera i orimligt långa svarstider. ) = P(Ord/Akustik) är a posteriori sannolikheten för en ordföljd givet den akustiska informationen. P(Akustik/Ord) är sannolikheten att ordföljden genererar den akustiska informationen och beräknas i ett träningsmaterial. P(Ord) ges av språkmodellen och är a priori sannolikheten för ordföljden (N-gram). P(Akustik) kan ses som en konstant eftersom den är oberoende av ordföljden och kan ignoreras Figur 20. Bayes regel för betingade sannolikheter används för att kombinera akustisk och språklig informatiom vid taligenkänning.

18 Automatisk igenkänning av tal 18 8 ATT MÄTA PRESTANDA Att utvärdera och jämföra prestanda för olika taligenkänningssystem kan vara intressant ur många synpunkter. Resultaten kan användas diagnostiskt för att ta reda på vad som behöver förbättras i ett visst system. Det kan också ha sitt intresse att jämföra olika system eller att bedöma användbarheten för en viss tillämpning. Att mäta prestanda kan emellertid vara besvärligt. Det finns inga allmänna kriterier för hur igenkänningsförmågan skall bestämmas och det är svårt att få fram regler som är giltiga i alla sammanhang. Faktorer som är intressanta är naturligtvis vokabulärens storlek men även dess innehåll. Det är till exempel fullt möjligt att konstruera en vokabulär med 100 sinsemellan mycket olika ord, som ger samma felfrekvens som 10 ganska lika ord. I system för sammanhängande tal måste också tas hänsyn till hur stora begränsningar som ges av systemets språkmodell. Ljudmiljön betyder också mycket. Är testet gjort i bullrig miljö eller under mera lugna förhållanden? Även arbetsmiljön är intressant. Ett test under naturliga förhållanden på en arbetsplats ger högre felfrekvens än mer laboratoriemässiga förhållanden. Resultaten för olika talare kan dessutom variera mycket. En van talare har lättare att hålla sitt uttal något så när konstant. Talarens röst kan vara mer eller mindre svåranalyserad vilket också påverkar prestanda. Försök med ett flertal personer är alltså att föredra. Vilket språk som talas är också betydelsefullt. Tills vidare brukar man jämföra olika system genom att testa dem på samma talmaterial. 8.1 Prestandamått Ett allmänt accepterat mått för att beskriva hur säkert ett system är på ett visst testat talmaterial är dess s. k. ordnoggrannhet ( word accuracy på engelska). Måttet är en utvidgning av mäta enbart andelen förväxlingar genom att man även mäter såväl andelen ej detekterade ord (bortfall) som andelen extra ord (instoppade, dvs ord som detekterats utan att ha yttrats). Ordnoggrannheten mäts i procent enligt ekvationen: ON ON N F B I N F B I = 100 *, N ordnoggrannhet i procent (word accuracy) antal yttrade ord under mätningen antal förväxlingar antal bortfall (ej upptäckta ord) antal instoppade ord Ordnoggrannheten kan bli negativ om systemet genererar ett stort antal extra ord. Vid igenkänning av isolerade ord under goda signal-störförhållanden kan däremot B och I ofta försummas. Ekvationen förenklas då till en mätning av andel rätt igenkända ord. Ett problem vid sammanhängande tal är att det inte är möjligt att enbart från den korrekta och den igenkända ordsekvensen entydigt avgöra vilka fel som inträffat. En avvikelse kan t. ex. ha orsakats av en förväxling eller som en kombination av bortfall och instopp. För att korrekt bedöma felen krävs även information om tidspositionerna för orden i den korrekta och den igenkända meningen. En ordmärkning med tidsangivelser saknas dock normalt i stora talmaterial. Man får då nöja sig med en approximation. En övre gräns för noggrannheten, det vill säga den mest positiva tolkningen av resultatet, kan beräknas med hjälp av dynamisk programmering. Detta är den metod som normalt används.

19 Automatisk igenkänning av tal 19 Noggrannheten ger naturligtvis inte den totala sanningen om hur bra ett system fungerar i praktisk användning. Olika tillämpningar fäster olika stor vikt vid hur väl den igenkända ordföljden ska överensstämma med vad personen yttrat. Vid diktering är måttet naturligtvis en mycket bra uppskattning, men vid andra tillfällen är målet en korrekt respons, till exempel vid sökning i en databas. Det är då mindre väsentligt med en fullständig transkription än att sökorden detekteras korrekt. En kort svarstid är givetvis väsentlig och kan påtvinga en begränsning av antalet hypoteser som undersöks, vilket innebär en kompromiss med noggrannheten. När man redovisar resultat är det också vanligt att man i stället för noggrannheten anger ett felmått, andelen ordfel i procent (word error rate), som brukar anges som OF = ON, eller OF = 100*(F+B+I)/N. 8.2 Bedömning av uppgiftens svårighet - perplexitet För att kunna bedöma vad ett uppmätt noggrannhetsvärde på ett visst talmaterial säger om ett systems allmänna prestanda är det nödvändigt att relatera detta till materialets svårighet. För närvarande finns inget allmänt accepterat mått på den akustiska likheten mellan olika ord eller ordsekvenser. Man nöjer sig med att beskriva svårigheten på den lingvistiska nivån, som är lättare att bestämma. Denna mäts normalt med måttet perplexitet. Matematiskt kan perplexitet ses som ett informationsteoretiskt mått relaterat till entropi enligt: B H = 2, 2 H = P( W) log P( W), W där B H P(W) perplexiteten i antal ord för den givna tillämpningen, entropin för den givna tillämpningen, sannolikheten för ordsekvensen W i det givna språket. Perplexiteten beskrivs som det genomsnittliga antalet ord som är möjliga efter varje ordgräns för det givna språket. Vid beräkningen tas hänsyn till sannolikheten för ordföljder. För den enkla uppgiften att känna igen 10 siffror, alla med samma sannolikhet, är perplexiteten 10. Om vissa siffror är vanligare är andra sjunker perplexiteten. Ett enklare mått, som tidigare användes främst för artificiella språk uppbyggda i form av finita tillståndsgrafer, är genomsnittlig förgreningsfaktor. Det anger det genomsnittliga antalet ord som är tillåtna efter varje nod i grafen då alla ord behandlas som lika sannolika.

20 Automatisk igenkänning av tal Exempel på utvärdering och jämförelser I USA startade DARPA (Defence Advanced Research Projects Agency) i mitten av 80-talet ett omfattande forskningsprojekt kring taligenkänning och talförståelse med ett flertal deltagande institutioner. En viktig del i projektet är att jämföra deltagarnas system. Varje år får alla deltagare ett testmaterial, som används för att jämföra systemen, så kallad competetive evaluation. Man började med relativt enkla uppgifter för att sedermera öka komplexiteten i ordförråd och språk. Dessutom har man gått från uppläst till spontant tal, se Figur 21. DARPA - Defence Advanced Projects Research Agency började 1984 deltagare CMU, SRI, BBN, MIT, Dragon Systems "competative evaluations" varje år domäner Naval Battle Management, ~1000 ord ATIS, Air Traffic Information System, ~1000 ord flygbokning Wall Street Journal, ord tidningstext, uppläst SWITCHBOARD sponana samtal över telefon med okänd person om givet ämne CALL HOME spootana samtal över telefon med närmaste familjekretsen svårare Figur 21. Utvecklingen av DARPAs taligenkänningsprojekt i USA. Resultaten för det bästa systemen visas i Figur 22. Den först uppgiften gällde en relativt enkel applikation med 1000 ords vokabulär och perplexiteten 20, Naval Battle Management. Man ser att felen minskar sex gånger på fyra år (vänstra delen av figuren). Figur 22. Talaroberoende igenkänningsresultat för ARPA-projektet i USA. Resultat för det bästa systemet vid varje utvärdering. Från presentationen, Human Languages Technology, av George Doddington vid ARPA Workshop, New Jersey, 8-11 mars, 1994.

AUTOMATISK IGENKÄNNING AV TAL

AUTOMATISK IGENKÄNNING AV TAL AUTOMATISK IGENKÄNNING AV TAL 1 INLEDNING Mats Blomberg och Kjell Elenius Institutionen för tal, musik och hörsel, KTH 2005 Automatisk igenkänning av tal är ett relativt nytt forskningsfält. De första

Läs mer

Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?

Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning? Talteknologi 25-2-3 [ ] Översikt - taligenkänning Automatisk igenkänning av tal Del Mats Blomberg Tal, musik och hörsel KTH Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning

Läs mer

Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?

Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning? GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ ] Automatisk igenkänning av tal och talare DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ Automatisk igenkänning av tal DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ GSLT Tal- och

Läs mer

DP - Dynamisk programmering. Exempel på DP - textjämförelse. För- och nackdelar med ordmönsterigenkänning. Dolda Markovmodeller

DP - Dynamisk programmering. Exempel på DP - textjämförelse. För- och nackdelar med ordmönsterigenkänning. Dolda Markovmodeller GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 31 ] DP - Dynamisk programmering snabb, optimal kombinering av delbeslut $QDORJL Sök bästa väg mellan två adresser i en stad. Ett mycket stort antal

Läs mer

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0 Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens

Läs mer

Spektrala Transformer

Spektrala Transformer Spektrala Transformer Tidsdiskreta signaler, kvantisering & sampling Tidsdiskreta signaler Tidskontinuerlig signal Ex: x(t) = sin(ωt) t är ett reellt tal ω har enheten rad/s Tidsdiskret signal Ex: x(n)

Läs mer

Ett urval D/A- och A/D-omvandlare

Ett urval D/A- och A/D-omvandlare Ett urval D/A- och A/D-omvandlare Om man vill ansluta en mikrodator (eller annan digital krets) till sensorer och givare så är det inga problem så länge givarna själva är digitala. Strömbrytare, reläer

Läs mer

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden- Analogt och Digital Bertil Larsson Viktor Öwall Analoga och Digitala Signaler Analogt Digitalt 001100101010100000111110000100101010001011100010001000100 t Analogt kontra Digitalt Analogt få komponenter

Läs mer

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag Perception Akustiska och perceptoriska drag Samband mellan akustiska och perceptoriska drag Tyngpunkt på perceptorisk relevanta drag Prosodi Vokaler Konsonanter Perception i största allmänhet Primära akustiska

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

Analys/syntes-kodning

Analys/syntes-kodning Analys/syntes-kodning Många talkodare bygger på en princip som kallas analys/syntes-kodning. Istället för att koda en vågform, som man normalt gör i generella ljudkodare och i bildkodare, så har man parametrisk

Läs mer

Spektrala Transformer

Spektrala Transformer Spektrala Transformer Tidsdiskreta signaler, kvantisering & sampling Tidsdiskreta signaler Tidskontinuerlig signal Ex: x(t) = sin(ωt) t är ett reellt tal ω har enheten rad/s Tidsdiskret signal Ex: x(n)

Läs mer

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez Taligenkänning 1 Sammanfattning Taligenkänning är i dagens samhälle en nödvändig teknik för många människor för att lättare ta sig fram genom vardagen. Man hittar tekniken i olika sammanhang som telefonupplysning,

Läs mer

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har? Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Hur bestämmer man vilka fonem ett språk har? Hur bestämmer man vilka fonem ett språk har? Fonem = minsta betydelseskiljande ljudenhet i

Läs mer

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har? Hur bestämmer man vilka fonem ett språk har? Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se (Morfem = minsta betydelsebärande enhet i ett språk) Fonem = minsta betydelseskiljande ljudenhet

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Signaler och system, IT3

Signaler och system, IT3 Signaler och system, IT3 Vad är signalbehandling? 1 Detta dokument utgör introduktionsföreläsningen för kursen Signaler och system för IT3 period 2. Kursen utvecklades år 2002 av Mathias Johansson. 1 Vad

Läs mer

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät Artificiella Neuronnät 1 Karaktäristiska egenskaper Användningsområden Klassiska exempel Biologisk bakgrund 2 Begränsningar Träning av enlagersnät 3 Möjliga avbildningar Backprop algoritmen Praktiska problem

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full

Läs mer

Artificiella Neuronnät

Artificiella Neuronnät Artificiella Neuronnät 2 3 4 2 (ANN) Inspirerade av hur nervsystemet fungerar Parallell bearbetning Vi begränsar oss här till en typ av ANN: Framåtkopplade nät med lagerstruktur 3 4 Fungerar i princip

Läs mer

Taligenkänning med fördjupning på Hidden Markov Models

Taligenkänning med fördjupning på Hidden Markov Models IDA, Linköpings Universitet Artificiell Intelligens II, 729G11 HT 2008 Taligenkänning med fördjupning på Hidden Markov Models 870524-0045 jearu017@student.liu.se Sammanfattning Taligenkänning är en teknik

Läs mer

DIGITAL KOMMUNIKATION

DIGITAL KOMMUNIKATION EN KOR SAMMANFANING AV EORIN INOM DIGIAL KOMMUNIKAION Linjär kod En binär linjär kod kännetecknas av att summan av två kodord också är ett kodord. Ett specialfall är summan av ett kodord med sig själv

Läs mer

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Artificial)Intelligence) Taligenkänning)

Artificial)Intelligence) Taligenkänning) LINKÖPINGS)UNIVERSITET) Artificial)Intelligence) Taligenkänning)! Adam%Annerhult% 2012009017%! Contents' ' ) ) ) ) ) Inledning... 3! Så fungerar taligenkänning... 4! Grundläggande egenskaper i ett taligenkänningsprogram...

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19

Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19 Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19 Tillåtna hjälpmedel: Valfri miniräknare (utan möjlighet till trådlös kommunkation). Valfri litteratur, inkl. kursböcker, formelsamlingar.

Läs mer

Örat. Johnson, Kap 3. Basic audition

Örat. Johnson, Kap 3. Basic audition Det här kapitlet handlar om det man brukar kalla det perifera hörselsystemet och lite om hur processningen på den nivån ser ut och vilka skalor som bäst kan beskriva detta. Så låt oss då först bara påminna

Läs mer

3. Metoder för mätning av hörförmåga

3. Metoder för mätning av hörförmåga 3. Metoder för mätning av hörförmåga Sammanfattning Förekomst och grad av hörselnedsättning kan mätas med flera olika metoder. I kliniskt arbete används oftast tonaudiogram. Andra metoder är taluppfattningstest

Läs mer

AD-DA-omvandlare. Mätteknik. Ville Jalkanen. ville.jalkanen@tfe.umu.se 1

AD-DA-omvandlare. Mätteknik. Ville Jalkanen. ville.jalkanen@tfe.umu.se 1 AD-DA-omvandlare Mätteknik Ville Jalkanen ville.jalkanen@tfe.umu.se Inledning Analog-digital (AD)-omvandling Digital-analog (DA)-omvandling Varför AD-omvandling? analog, tidskontinuerlig signal Givare/

Läs mer

Niklas Lindvall Artificiell intelligens II Ht

Niklas Lindvall Artificiell intelligens II Ht Taligenkänning Hidden Markov Model Niklas Lindvall nikli368@student.liu.se Artificiell intelligens II Ht 2011 2011-09-19 0 Innehåll Inledning... 2 Taligenkänning språk... 3 Taligenkänning... 4 Oberoende/Beroende...

Läs mer

Mätningar med avancerade metoder

Mätningar med avancerade metoder Svante Granqvist 2008-11-12 13:41 Laboration i DT2420/DT242V Högtalarkonstruktion Mätningar på högtalare med avancerade metoder Med datorerna och signalprocessningens intåg har det utvecklats nya effektivare

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012 Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig

Läs mer

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen Prediktiv kodning Närliggande sampel i en signal är oftast starkt korrelerade med varandra, det kan därför vara en bra ide att försöka utnyttja denna korrelation (minnet) innan kvantiseringen för att få

Läs mer

Elektronik. Dataomvandlare

Elektronik. Dataomvandlare Elektronik Dataomvandlare Johan Wernehag Institutionen för elektro- och informationsteknik Lunds universitet 2 Översikt Analoga och digitala signaler Nyquistteorem Kvantiseringsfel i analog-till-digital

Läs mer

Laboration i Fourieranalys, TMA132 Signalanalys med snabb Fouriertransform

Laboration i Fourieranalys, TMA132 Signalanalys med snabb Fouriertransform Laboration i Fourieranalys, TMA132 Signalanalys med snabb Fouriertransform Den laborationen har syften: dels att visa lite hur den snabba Fouriertransformen fungerar, och lite om vad man den an dels att

Läs mer

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare Prediktiv kodning Linjär prediktion Närliggande sampel i en signal är oftast starkt korrelerade med varandra, det kan därför vara en bra ide att försöka utnyttja denna korrelation (minnet) innan kvantiseringen

Läs mer

Kristian Almgren Artificiell Intelligens Linköpings Universitet 2011. Talstyrning

Kristian Almgren Artificiell Intelligens Linköpings Universitet 2011. Talstyrning Talstyrning Abstrakt Talstyrning är en teknik som gör det möjligt för oss människor att mer eller mindre verbalt kommunicera med en dator eller ett system. Det här är ett tillvägagångssätt inom AI och

Läs mer

Signalanalys med snabb Fouriertransform

Signalanalys med snabb Fouriertransform Laboration i Fourieranalys, MVE030 Signalanalys med snabb Fouriertransform Den här laborationen har två syften: dels att visa lite på hur den snabba Fouriertransformen fungerar, och lite om vad man bör

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

Sundberg: Kap 4 Artikulation

Sundberg: Kap 4 Artikulation Sundberg: Kap 4 Den viktigaste lärdomen av det här diagrammet är att man inte kan ändra på en enskild formant utan att det får konsekvenser för hela spektrum. Sundberg och Lindbloms artikulatoriska modell

Läs mer

Stokastiska processer med diskret tid

Stokastiska processer med diskret tid Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius

HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius HörStöd Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal Mikael Salin Handledare: Mats Blomberg och Kjell Elenius Godkänt den... Examinator:... Mats Blomberg Examensarbete i Talteknologi

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer

Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer Talperceptionsteorier Passiva stimulusstyrda processer Passiva stimulusstyrda processer Aktiva hypotesstyrda processer Perceptionsteorier Testmetoder Specifik, akustisk information för att identifiera

Läs mer

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription Tillägg i schemat 21/9 slutar 16.00 ist f 15.00 5/10 slutar 16.00 ist f 15.00 Idag talkommunikationskedjan ljudvågor, enkla och sammansatta vågrörelser frekvens och amplitud ljudtryck, decibel källa-filter-modellen

Läs mer

Stokastiska processer med diskret tid

Stokastiska processer med diskret tid Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna

Läs mer

Kan vi beskriva ett system utan någon fysikalisk kännedom om systemet?

Kan vi beskriva ett system utan någon fysikalisk kännedom om systemet? Kan vi beskriva ett system utan någon fysikalisk kännedom om systemet? 1 Om svaret på frågan är ja så öppnar sig möjligheten att skapa en generell verktygslåda som fungerar för analys och manipulering

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Kundts rör - ljudhastigheten i luft

Kundts rör - ljudhastigheten i luft Kundts rör - ljudhastigheten i luft Laboration 4, FyL VT00 Sten Hellman FyL 3 00-03-1 Laborationen utförd 00-03-0 i par med Sune Svensson Assisten: Jörgen Sjölin 1. Inledning Syftet med försöket är att

Läs mer

DT1130 Spektrala transformer Tentamen

DT1130 Spektrala transformer Tentamen DT3 Spektrala transformer Tentamen 5 Tentamen består av fem uppgifter där varje uppgift maximalt ger p. Normalt gäller följande betygsgränser: E: 9 p, D:.5 p, C: p, B: 6 p, A: 8 p Tillåtna hjälpmedel:

Läs mer

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG FÖRELÄSNING EXEMPEL : ARTVARIATION Kurs- och transform-översikt. Kursintroduktion med typiska signalbehandlingsproblem och kapitelöversikt. Rep av transformer 3. Rep av aliaseffekten Givet: data med antal

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Monte Carlo-metoder. Bild från Monte Carlo

Monte Carlo-metoder. Bild från Monte Carlo Monte Carlo-metoder 0 Målen för föreläsningen På datorn Bild från Monte Carlo http://en.wikipedia.org/wiki/file:real_monte_carlo_casino.jpg 1 Begrepp En stokastisk metod ger olika resultat vid upprepning

Läs mer

Grundläggande A/D- och D/A-omvandling. 1 Inledning. 2 Digital/analog(D/A)-omvandling

Grundläggande A/D- och D/A-omvandling. 1 Inledning. 2 Digital/analog(D/A)-omvandling Grundläggande A/D- och D/A-omvandling. 1 Inledning Datorer nns nu i varje sammanhang. Men eftersom vår värld är analog, behöver vi något sätt att omvandla t.ex. mätvärden till digital form, för att datorn

Läs mer

7. Sampling och rekonstruktion av signaler

7. Sampling och rekonstruktion av signaler Arbetsmaterial 5, Signaler&System I, VT04/E.P. 7. Sampling och rekonstruktion av signaler (Se också Hj 8.1 3, OW 7.1 2) 7.1 Sampling och fouriertransformering Man säger att man samplar en signal x(t) vid

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00 Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 5Hp 41I12B KINAF13, KINAR13, KINLO13,KMASK13 7,5 högskolepoäng Tentamensdatum: 30 oktober

Läs mer

Grundläggande signalbehandling

Grundläggande signalbehandling Beskrivning av en enkel signal Sinussignal (Alla andra typer av signaler och ljud kan skapas genom att sätta samman sinussignaler med olika frekvens, Amplitud och fasvridning) Periodtid T y t U Amplitud

Läs mer

Föreläsninsanteckningar till föreläsning 3: Entropi

Föreläsninsanteckningar till föreläsning 3: Entropi Föreläsninsanteckningar till föreläsning 3: Entropi Johan Håstad, transkriberat av Pehr Söderman 2006-01-20 1 Entropi Entropi är, inom kryptografin, ett mått på informationsinnehållet i en slumpvariabel.

Läs mer

Kravgränser. Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng.

Kravgränser. Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng. Kravgränser Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng. Kravgräns för provbetyget E: 17 poäng D: 25 poäng varav 7 poäng på minst

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

Neurokognitiv arkitektur

Neurokognitiv arkitektur Tre beskrivningsnivåer (Marr, 1982) Neurokognitiv arkitektur Beräkningsnivå (beteende) Vad som beräknas (ex. fokusering av uppmärksamhet) Algoritmnivå (mekanismer) Hur det beräknas (ex. släpp nuvarande

Läs mer

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or) Analog - digital Analog oändlig digital diskret (1or 0or) Digitalt intakt trots kopiering analogt slits och kvaliteten degraderar Sampling Sinuston vågdiagram (AT) antal mätpunkter/samplingspunkter Samplingsfrekvens

Läs mer

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts. Datakompression fö 3 p.3 Datakompression fö 3 p.4 Optimala koder Övre gräns för optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning)

Läs mer

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or. Datakompression fö 3 p.1 Optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning) som har lägre kodordsmedellängd. Det existerar förstås

Läs mer

3 differensekvationer med konstanta koefficienter.

3 differensekvationer med konstanta koefficienter. Matematiska institutionen Carl-Henrik Fant 17 november 2000 3 differensekvationer med konstanta koefficienter 31 T Med en menar vi en av rella eller komplexa tal varje heltal ges ett reellt eller komplext

Läs mer

Bilaga A, Akustiska begrepp

Bilaga A, Akustiska begrepp (5), Akustiska begrepp Beskrivning av ljud Ljud som vi hör med örat är tryckvariationer i luften. Ljudet beskrivs av dess styrka (ljudtrycksnivå), dess frekvenssammansättning och dess varaktighet. Ljudtrycksnivå

Läs mer

Anpassning av problem

Anpassning av problem Modul: Problemlösning Del 7: Anpassning av problem Anpassning av problem Kerstin Hagland och Eva Taflin Detta är en något omarbetad text från boken: Hagland, K., Hedrén R., & Taflin, E. (2005). Rika matematiska

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Forskningsmetodik 2006 lektion 2

Forskningsmetodik 2006 lektion 2 Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014 Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten.

Läs mer

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1 Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens

Läs mer

Kursplan för Matematik

Kursplan för Matematik Sida 1 av 5 Kursplan för Matematik Inrättad 2000-07 SKOLFS: 2000:135 Ämnets syfte och roll i utbildningen Grundskolan har till uppgift att hos eleven utveckla sådana kunskaper i matematik som behövs för

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk Jens A Andersson Att sända information mellan datorer värd 11001000101 värd Två datorer som skall kommunicera. Datorer förstår endast

Läs mer

TMS136. Föreläsning 4

TMS136. Föreläsning 4 TMS136 Föreläsning 4 Kontinuerliga stokastiska variabler Kontinuerliga stokastiska variabler är stokastiska variabler som tar värden i intervall av den reella axeln Det kan handla om längder, temperaturer,

Läs mer

Förslag den 25 september Matematik

Förslag den 25 september Matematik Matematik Matematiken har en flertusenårig historia med bidrag från många kulturer. Den utvecklas såväl ur praktiska behov som ur människans nyfikenhet och lust att utforska matematiken som sådan. Matematisk

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion

Läs mer

Diskussionsproblem för Statistik för ingenjörer

Diskussionsproblem för Statistik för ingenjörer Diskussionsproblem för Statistik för ingenjörer Måns Thulin thulin@math.uu.se Senast uppdaterad 20 februari 2013 Diskussionsproblem till Lektion 3 1. En projektledare i ett byggföretaget ska undersöka

Läs mer

8.3 Variabeltransformationer Frånkoppling. Betrakta ett 2x2-system, som beskrivs med modellen (8.3.1)

8.3 Variabeltransformationer Frånkoppling. Betrakta ett 2x2-system, som beskrivs med modellen (8.3.1) 8.3 Variabeltransformationer Betrakta ett 2x2-system, som beskrivs med modellen y () s G () s G () s u () s 1 11 12 1 y2() s = G21() s G22() s u2() s (8.3.1) Figuren till höger visar ett blockschema över

Läs mer

2 Laborationsutrustning

2 Laborationsutrustning Institutionen för data- och elektroteknik 2002-02-11 1 Inledning Denna laboration syftar till att illustrera ett antal grundbegrepp inom digital signalbehandling samt att närmare studera frekvensanalys

Läs mer

Spektrala Transformer

Spektrala Transformer Spektrala Transformer Kurssammanfattning Fyra kärnkoncept Sampling Faltning Poler och nollställen Fouriertransform Koncept #1: Sampling En korrekt samplad signal kan rekonstrueras exakt, dvs ingen information

Läs mer

Ansiktsigenkänning med MATLAB

Ansiktsigenkänning med MATLAB Ansiktsigenkänning med MATLAB Avancerad bildbehandling Christoffer Dahl, Johannes Dahlgren, Semone Kallin Clarke, Michaela Ulvhammar 12/2/2012 Sammanfattning Uppgiften som gavs var att skapa ett system

Läs mer

Shannon-Fano-Elias-kodning

Shannon-Fano-Elias-kodning Datakompression fö 5 p.1 Shannon-Fano-Elias-kodning Antag att vi har en minnesfri källa X i som tar värden i {1, 2,...,L}. Antag att sannolikheterna för alla symboler är strikt positiva: p(i) > 0, i. Fördelningsfunktionen

Läs mer

Vanliga frågor för VoiceXpress

Vanliga frågor för VoiceXpress Vanliga frågor för VoiceXpress 1) Hur stort ordförråd (vokabulär) innehåller VoiceXpress? VoiceXpress innehåller ett mycket omfattande ordförråd, och svaret på frågan varierar en aning beroende på hur

Läs mer

Jordbävningar en enkel modell

Jordbävningar en enkel modell 9 september 05 FYTA Simuleringsuppgift 3 Jordbävningar en enkel modell Handledare: André Larsson Email: andre.larsson@thep.lu.se Telefon: 046-34 94 Bakgrund Jordbävningar orsakar fruktansvärda tragedier

Läs mer

Blandade problem från elektro- och datateknik

Blandade problem från elektro- och datateknik Blandade problem från elektro- och datateknik Sannolikhetsteori (Kapitel 1-10) E1. En viss typ av elektroniska komponenter anses ha exponentialfördelade livslängder. Efter 3000 timmar brukar 90 % av komponenterna

Läs mer

AI-rapport Speech recognition

AI-rapport Speech recognition AI-rapport Speech recognition The process of analyzing an acoustic speech signal to identify the linguistic message that was intended, so that a machine can correctly respond to spoken commands. Anntu228

Läs mer

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013 Föreläsning 11 Slumpvandring och Brownsk Rörelse Patrik Zetterberg 11 januari 2013 1 / 1 Stokastiska Processer Vi har tidigare sett exempel på olika stokastiska processer: ARIMA - Kontinuerlig process

Läs mer

Elektronik Dataomvandlare

Elektronik Dataomvandlare Elektronik Översikt Analoga och digitala signaler Dataomvandlare Pietro Andreani Institutionen för elektro- och informationsteknik Lunds universitet Nyquistteorem Kvantiseringsfel i analog-till-digital

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer