AUTOMATISK IGENKÄNNING AV TAL
|
|
- Anna Hansson
- för 8 år sedan
- Visningar:
Transkript
1 AUTOMATISK IGENKÄNNING AV TAL 1 INLEDNING Mats Blomberg och Kjell Elenius Institutionen för tal, musik och hörsel, KTH 2005 Automatisk igenkänning av tal är ett relativt nytt forskningsfält. De första försöken började i slutet på 40-talet. Forskningen på området tog inte riktig fart förrän datortekniken blev mera allmän under 60-talet lanserades det första kommersiella ordigenkänningssystemet. Det hade en vokabulär om hundra ord. Nu finns flera och betydligt mer avancerade produkter på marknaden, bland annat dikteringssystem som kan känna igen tiotusentals ord. Forskningen är idag till stor del inriktad på att bygga system som kan hantera spontant tal från godtyckliga användare. Dessa kan användas i dialogsystem för exempelvis bokning av biljetter eller databassökningar på Internet, som bland annat kan besvara frågor om väder, lägenheter eller begagnade bilar. 2 PÅ MÄNNISKANS VILLKOR Kursboken kapitel 15.1, 15.2, 15.5, 15.6 Automatisk taligenkänning ger människan en ny kanal för datorkommunikation. Talet är vårt naturliga sätt att kommunicera, och det ger en psykologisk fördel genom att kommunikationen sker på människans villkor - inte maskinens. Händer och ögon lämnas fria för andra uppgifter och med en bärbar, trådlös mikrofon kan operatören röra sig fritt i rummet. Problemen med taligenkänning är emellertid stora. En hel del begränsningar har genom tiderna utnyttjats för att möjliggöra lösningar med tillräcklig igenkänningsförmåga. En vanlig inskränkning var att tillåta inmatning av endast ett ord i taget, ordigenkänning. Orden uttalas med tydliga pauser sinsemellan. För att komma ifrån uttals- och röstvariationer mellan olika talare tillät man ofta endast en användare åt gången. Systemet var alltså talaradaptivt och tränades in för varje ny talare. Denna teknik utnyttjas även i de dikteringssystem som nu finns på marknaden. För att ge användaren fortlöpande information om igenkänningsresultaten är det viktigt att visa vilka ord som känts igen. Man kan då snabbt korrigera förväxlingar och andra fel. En normal talare hinner med drygt dubbelt så många ord per tidsenhet som en skicklig skrivmaskinist (högläsning är 4 gånger snabbare). Vid ordigenkänning gör emellertid kravet på tydliga pauser mellan yttrandena att man hinner med till siffror per timme jämfört med för knappsatsinmatning. Enligt en begränsad undersökning för engelska blir antalet inmatade ord per minut ungefär 20 vid diktering om man tar hänsyn till tiden för korrektioner, vilket är ungefär hälften av vad man klarar av med tangentbord om man har viss skrivvana. Trots detta finns det många tillämpningar där talinmatning innebär en fördel. För till exempel rörelsehindrade som har svårt för att använda tangentbord kan tekniken vara mycket värdefull. Några olika användningsområden beskrivs i Tabell 1.
2 Automatisk igenkänning av tal 2 Tabell 1. Tillämpningar för automatisk taligenkänning samt de fördelar som kan uppnås. DIKTERING TELEFONI STÖD FÖR PERSONER MED FUNKTIONSHINDER Talaradaptiva system med tals ord Används till exempel av läkare, advokater och personer med funktionshinder Talaroberoende system med 1000-talet ord Röststyrda växlar (mobiltelefoner kan ha ett mindre antal talarberoende röststyrda telefonnummer/namn) Information ur databaser Trafikinformation (SAS, SJ, SL,Vägverket) Väderinformation (t ex fjällväder), Aktiekurser System med 10 till 100-tals ord Omgivningskontroll för personer med rörelsehinder, till exempel för att styra belysning, radio, TV, nummerslagning för telefon med mera Ett tidigt och illustrativt exempel på en konkret användning är United Airlines bagagesortering vid O'Hare flygplatsen i Chicago. Från början sorterades bagaget av två man. Den förste tog upp bagaget och roterade det så att den andre skulle kunna se adresslappen varefter han lade ner det på ett transportband. Den andre hade 1,5 sekunder på sig att skriva in ett tresiffrigt flygnummer till sorteringsmaskinen. Totalt rörde det sig om ca 200 olika nummer. Antalet felsorteringar var som lägst 10% - 15% och som högst 30% - 40%. Genom att gå över till taligenkänning behövde man endast en operatör som samtidigt hanterade godset och talade in flygnumret. Tidspressen gjorde dock att felfrekvensen ändå inte minskade i nämnvärd utsträckning. I stället lät man nu operatören säga endast ett ord, nämligen namnet på en av de 85 olika destinationsorterna. Med hjälp av klockan kunde sorteringsdatorn sedan räkna ut vilket som var det korrekta flygnumret. Nu minskade felfrekvensen till under 1%. När man inför taligenkänning är det alltså viktigt att anpassa tillämpningen så att den utnyttjar de fördelar som är möjliga med denna teknik.
3 Automatisk igenkänning av tal 3 3 TALET ÄR EN KOMPLICERAD, KONTINUERLIG PROCESS Det är svårt att på ett enkelt sätt avkoda "fonembudskapet" i en talsignal. Det är ett långt steg mellan ett ords diskreta uppdelning i bokstäver vid skrift och avbildningen av ordets akustiska signal på ett spektrogram. Talorganens mekaniska egenskaper gör att talet blir en kontinuerlig process, där talljuden intimt och ömsesidigt påverkar varandra. Det ömsesidiga beroendet gör att betydande information om fonemen finns i övergångarna, transitionerna, mellan dem. Uttalet av ord som står i fokus är normalt tydligt, medan till exempel artiklar och ändelser och prepositioner ofta utsätts för reduktioner och uttalas otydligt eller utelämnas helt och hållet. Figur 1 ger exempel på hur uttalet av en fras kan reduceras utan att det försvårar förståelsen för en mänsklig lyssnare. Talets kontinuerliga förlopp är särskilt tydligt i den reducerade utsagan. Vad jobbar du med? Va jobbaru me? Figur 1. Spektrogram av frasen vad jobbar du med yttrad av två olika manliga talare. Till vänster ett noggrant, hyperartikulerat, uttal och till höger ett reducerat från en dialogsituation. Sambandet mellan talorganens rörelser under tal och den akustiska talsignalen är komplicerat. Det kunde vara attraktivt att basera taligenkänning på artikulatoriska parametrar, men dessa har visat sig svåra att extrahera. Även mer talproduktionsinriktade parametrar som formanter är svåra att mäta och använda för igenkänning, trots att de har visat sig mycket fruktbara för text-till-talsyntes. Dessutom gäller den akustisk-fonetiska paradoxen som säger att: Det finns inget unikt, entydigt samband mellan en fonetisk enhet, till exempel ett talljud (fonem) eller en stavelse, och dess akustiska realisering i alla tänkbara sammanhang. En talsignal kan inte entydigt delas upp i tidsmässigt icke överlappande delar, som till exempel motsvarar stavelser eller ord. Ovanstående gäller i ännu högre utsträckning tal från olika talare. Att människan ändå har så lätt för att förstå tal beror förstås på en djup insikt i språkets natur samt kunskaper om talaren, ämnet och situationen kombinerat med allmänna omvärldskunskaper. Dessutom kan vi utnyttja vår förmåga att predicera vad talaren kommer att säga. Detta gör att vi kan återskapa och kompensera för obefintlig eller förvanskad information i talsignalen.
4 Automatisk igenkänning av tal 4 4 SVÅRIGHETER - TALSIGNALENS VARIABILITET En grundläggande svårighet för automatisk taligenkänning är talsignalens stora variabilitet. Vi vet att män, kvinnor och barn har olika röster med bland annat olika grundtoner. Men å andra sidan kan det ibland vara svårt att veta om det är en man eller kvinna som talar om vi bara kan höra rösten. Talorganens storlek är naturligtvis avgörande för formanternas frekvenslägen och dialekten färgar också talet. I figuren nedan ser vi exempel på spridningen av formanter mellan olika manliga och kvinnliga talare. Det går alltså inte att entydigt klassa de identifiera de främre vokalerna e, i och y enbart utifrån de första två formanterna. Figur 2. Spridning av de två lägsta resonans-frekvenserna (F1 och F2) för isolerade svenska vokaler uttalade av manliga och kvinnliga talare(efter Gunnar Fant). Notera att främre vokaler har en väsentlig överlappning.
5 Automatisk igenkänning av tal 5 reduktion knarr ja de ä väl fredag idag... lång konsonant knarr tvekan så det blir väl ehh... fredag kväll Figur 3. Talaren svarar på frågan När vill du åka?. Spektrogrammet visar på reduktioner och tecken på tveksamhet (förmodligen orsakat av tankeverksamhet) i form av knarr och långsamt tal. Figur 3 visar spektrogram på ett svar på en fråga. Man ser exempel på reduktion, knarr och distorderade fonemlängder. Talet är normalt fyllt av sådana distorsioner som lyssnaren oftast ignorerar totalt. Lyssnandet är ju en aktiv process där lyssnaren är hjälpt av sina kunskaper om talaren, ämnet, språket och kontexten i stort. Däremot kan en taligenkännare ställas inför problem, eftersom man inte kan modellera alla dessa fenomen på ett bra sätt. Man kan till exempel ha flera uttalsvarianter av ett ord för att ta hänsyn till reduktioner, men å andra sidan expanderar detta antalet möjligheter vid igenkänningen, något som i sin tur ökar komplexiteten. Figur 4 ger visar olika orsaker till talets variabilitet. Talet kan även röja talarens sinnesstämning och är man förkyld och täppt i näsan så påverkas talet markant. I en dialogsituation anpassar man både språk och tal till lyssnaren, ju mer bekant man är och känner till om varandra desto mindre tydlig behöver man vara, både i ordval och artikulation. Även kanalens kvalitet påverkar talaren; har man en dålig telefonförbindelse talar man tydligare än normalt. Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Reduktioner Minsta ansträngning Omgivning Additivt brus Rumsakustik Mikrofon, Telefon Bandbredd Störningar brus frekvensgång transienter klickar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin Figur 4. Exempel på faktorer som påverkar talsignalen. Akustiska störningar som efterklang i rum och buller påverkar naturligtvis signalen liksom frekvensgången hos telefoner och mikrofoner. Även om en del av de talarberoende faktorerna normaliseras när man vet att man talar till en maskin så kan tillräckliga effekter kvarstå för att komplicera uppgiften för en taligenkännare.
6 Automatisk igenkänning av tal 6 5 PARAMETRISK OMVANDLING OCH DATAREDUKTION Kursboken: kapitel 10 Den akustisk-parametriska omvandlingen av talsignalen är ett grundläggande steg vid all taligenkänning. I tidsdomänen representeras ofta talsignalen med 64 kbit/s, 8 khz samplingsfrekvens med 8 bitars upplösning, samma som vid digital telefoni. Högre samplingsfrekvens och upplösning kan användas om man inte telefonerar, till exempel vid diktering till en PC. För taligenkänning är det lämpligt att gå över till den spektrala domänen, som ger en mer kompakt och användbar beskrivning av talet. Ett flertal metoder har utvecklats och gemensamt för de flesta är att de baseras på talsignalens korttidsspektrum upp till 4-8 khz över intervall på ca 25 ms. Denna tidslängd är en kompromiss mellan önskemålen om god representation av korta tidsförlopp, samtidigt som variationer beroende på grundtonen bör undvikas. Ofta används FFT-analys (Fast Fourier Transform) för att beräkna amplituder i olika filterband. Det är vanligt att välja filterbandbredderna enligt teorin för kritiska band, som tar hänsyn till örats frekvenskaraktäristik (mel- eller Bark-skala). Vid låga frekvenser är filterdelningen konstant medan den växer ungefär exponentiellt för frekvenser över 1 khz. Exempel på spektrumparametrar för igenkänning finns i figuren nedan. Figur 5. Yttrande: omsorgfullt bilen. FFT-analys konverterad till 16 filteramplituder, Barkskala 0,2 till 6 khz och 10 ms mellan tidsramar.
7 Automatisk igenkänning av tal 7 För att ytterligare reducera datamängden omformas i många system filteramplituderna till ett lägre antal "cepstrum-koefficienter". Cepstrumanalys innebär en invers Fouriertransform av det logaritmerade amplitudspektrat, vilket förklarar namnet. I praktiken beräknas en Spektrum av /a:/ Spektrum av /s/ I Cn = Aicos( nπ( i 05. ) / I) i= 1 1 0,5 0-0, ,5 0-0, ,5 0-0, ,5 0-0,5-1 Viktfunktioner W1 * = W2 W3 * = W Cepstrum av /a:/ C1 C2 C3 C4 Cepstrum av /s/ C1 C2 C3 C4 Figur 6. Cepstrumberäkning från filterbanksspektra. Viktning av filteramplituder till vänster med cosinusfunktioner (mitten) resulterar i koefficienterna C1-C4 till höger. cepstrum-koefficient som en skalärprodukt mellan amplitudspektrum och en cosinusfunktion bestående av ett helt antal halva perioder, se Figur 6. Cepstrumkoefficienter beskriver på ett effektivt sätt spektrums grovstruktur med ett litet antal koefficienter, normalt 8-16 stycken, och en fördel är att de är ortogonala och alltså okorrelerade. En mycket vanlig representationsform är cepstrum beräknat på mel-skaletransformerat spektrum (MFCC, Mel Frequency Cepstral Coefficients). Förutom koefficienternas absolutvärden använder man ofta deras tidsderivator av första och andra ordningen. Det är rimligt att anta att ytterligare studier av människans hörsel kan ge information om hur den akustiska talsignalen skall behandlas. Den analys som sker i örat är oerhört mer avancerad än den som används i praktiska igenkänningssystem. Tyvärr förstår vi ännu långt ifrån allt vad som sker i innerörat och högre auditiva nivåer i hjärnan. Vissa tillämpningar av vår nuvarande kunskap om hörseln har dock visat sig användbara, som Bark-skalan ovan, som är allmänt utnyttjad. Dessutom har auditivt inspirerade modeller visat sig vara fördelaktiga i akustiskt besvärliga miljöer, som vid telefoni eller högt bakgrundsbuller. Talsignal Samplingsfrekvens Ramfrekvens 16 khz 100 Hz FFT Spektralanalys med Fast Fourier Transform db Parametrisering T. ex. cepstrumtransform 8-12 cepstrumkoefficienter var 10:e ms ~6000 Hz 50 Bark 30 Amplitud-frekvensspektrum av /a:/ C1 C2 C3 C4 Cepstrum av /a:/ Figur 7. Analys av talsignalen, från tidsvåg via FFT och spektrum till cepstrumparametrar En metod att på ett komprimerat sätt beskriva talsignalen kallas vektorkvantisering. Man kvantiserar man de spektrala talramarna med hjälp av ett antal "typramar", som först beräknats för att beskriva talsignaler på ett optimalt sätt givet ett visst distorsionsmått. Antalet
8 Automatisk igenkänning av tal 8 typvektorer brukar till exempel vara 256 och tillsammans utgör de en kodbok. Varje inkommande spektrumram klassificeras till den vektor i kodboken som den är mest lik. Detta ger en kvantisering av talsignalen som nu kan beskrivas som en följd typramar. Jämför Figur 8 nedan. Vektorkvantisering av ett yttrande Dela in parameterrymden i ett litet antal områden. Numrera dessa. Typiskt antal är 256. Klassa varje tidpunkt av ett yttrande till ett av dessa områden. Hela yttrandet beskrivs som en följd av indextal. Kraftig datareduktion på bekostnad av kvantiseringsdistorsion. Figur 8. Hur man vektorkvantiserar ett yttrande samt exempel på en tvådimensionell uppdelning av ett plan i åtta kvantiseringsområden. 6 IGENKÄNNINGSMETODER Efter den akustiska analysen följer en beslutsprocess då man ska bestämma sig för vilka ord som sagts. Man kan indela de metoder som finns i ett antal huvudinriktningar. Bland de viktigaste kan nämnas kunskapsbaserade metoder, mönsterigenkänning, neuronnät samt Markovmodellering. De olika metoderna utesluter inte nödvändigtvis varandra. Den första försöker i hög utsträckning utnyttja allmän fonetisk kunskap om tal, medan de övriga huvudsakligen är inlärande system. Numera är Markovmodellering den helt dominerande metoden. Att först hitta fonemen i ett yttrande och därefter de ingående orden kunde vara en attraktiv metod. Om man hypotetiskt tänker sig att man kan känna igen alla fonem för ett språk i alla kontexter så borde man lätt kunna känna igen språkets alla ord. En sådan metod kräver emellertid mycken akustisk-fonetisk insikt för att ge bra resultat. Tyvärr saknas denna kunskap ännu i stor utsträckning vilket resulterar i att den igenkända fonemföljden innehåller fel. Detta resulterar bland annat i att igenkänningsalgoritmen måste vara flexibel och tillåta alternativa fonetiska tolkningar för ett och samma tidsavsnitt i den akustiska talsignalen. 6.1 Kunskapsbaserade system Expertsystem och produktionsinriktade system baseras huvudsakligen på kunskap formulerad av lingvister, fonetiker och talforskare Expertsystem I ett typiskt expertsystem försöker man lägga in den kunskap som en skicklig spektrogramläsare besitter. Reglerna är ofta beslutsregler av typen "om energinivån i lågfrekvensområdet är hög så är segmentet tonande". Ett stort antal regler krävs för att beskriva den akustiskfonetiska variationen i olika sammanhang för skilda talare. Tekniken åtnjöt ett stort intresse under slutet av 70-talet och början av 80-talet. Intresset har därefter svalnat, främst till förmån för automatiskt inlärande system baserade på neuronnät och Markovmodeller. På senare tid har man emellertid börjat kombinera kunskapsbaserade system med statistiska metoder. Om man till exempel vill approximera läget av första formanten i vokaler med att
9 Automatisk igenkänning av tal 9 bestämma en tyngdpunkt i ett frekvensband, kan man med hjälp av ett inlärningsmaterial statistiskt bestämma vilket frekvensband som ger det bästa resultatet. Man kan även beräkna sannolikheten för att första "formanten" ligger i ett visst intervall för olika vokaler och ord. I ett sådant kunskapsbaserat system segmenterar man sedan talet i fonem och beräknar sannolikheter för ord beroende på de använda parametrarnas sannolikhetsfördelningar Produktionsbeskrivande system I talproduktionsinriktade system beskriver man talet i termer som har en närmare koppling till det fysikaliska och artikulatoriska skeendet i mänskligt tal. Med denna inriktning kan man exempelvis utnyttja kunskap om statiska och dynamiska samband som ges av den mänskliga anatomin till att förutse uttal av sällsynta ord eller trifoner som inte observerats i träningsmaterialet. En annan möjlighet är att man kan separera de ingående produktionsfaktorerna och träna dem separat. Man kan sedan beskriva ett stort antal talares röster genom en syntes av aktuella värden på ingående faktorer som röstkvalitet, talrörslängd, talvanor, mm. En produktionsmodell genererar en syntetisk förlaga till de ord som ska testas. Själva jämförelsen kan ske på samma sätt som med metoder baserade på akustisk inlärning. Metoden kan sägas beskrivas som analys genom syntes. Fördelen med denna teknik är att även sällan förekommande uttal kan beskrivas, vilket ofta inte är möjligt i inlärande system med begränsad mängd träningsdata. Beskrivningssättet medger också att man kan kombinera automatisk inlärning med känd kunskap från talanalys och talsyntes. Man ser även möjligheter till gemensam utveckling av system för både taligenkänning och talsyntes baserade på samma, automatiskt träningsbara, produktionsmodell. Ett problem med de kunskapsbaserade inriktningarna är att vi idag inte vet tillräckligt mycket om talets natur för att kunna bygga tillförlitliga system. En extra felkälla är också proceduren för extrahering av talproduktionsparametrar ur talsignalen. Prestandamässigt kan dessa metoder för närvarande inte konkurrera med konventionella system, men på forskningssidan är finns ett uppenbart intresse. 6.2 Mönsterigenkänning Kursboken kapitel , 8.10 Mönsterigenkänningsmetoden var den första som fick bred användning och den utnyttjades i första hand för ordigenkänning. Den utnyttjar ingen egentlig fonetisk information. Informationen om ett ord representeras med ett sparat, tidigare uttal av ordet. En tvådimensionell matris beskriver ett antal analysparametrars tidsvariation för varje yttrande enligt figur 9. Igenkänningsprocessen innebär att man väljer det ord ur den lagrade vokabulären som ger minsta distans mot det okända ordet. För att ta hänsyn till varierande taltempo används normalt en metod med dynamisk programmering som beskrivs nedan.
10 Automatisk igenkänning av tal Orden jämförs med minne Principerna för mönsterigenkänning av ord är alltså rätt enkla, se figur 9. Talsignalen analyseras till exempel i ett frekvensområde mellan ca 200 Hz och 5000 Hz, där större delen av den akustiskt intressanta informationen om fonemen finns. Analysen görs över tidsintervall, som kan vara mellan 10 och 25 ms långa. Ur talsignalens frekvensspektrum beräknas sedan parametrar som bör vara så känsliga som möjligt för skillnader mellan olika fonem. Datorn lagrar under ett inlärningsskede talparametrarnas tidsmässiga variation för varje ord i den aktuella vokabulären. Parametrarna kan antingen baseras på ett enda yttrande eller vara medelvärdade över flera yttranden av samma ord. Efter inlärningen representeras varje ord i igenkänningsvokabulären av ett mönster bestående av talparametrarnas värden vid olika tidpunkter över ordet, till exempel 16 värden vid 32 tidpunkter. Då ett ord skall kännas igen jämförs dess parametriska mönster med de lagrade mönstren för alla möjliga ordkandidater. Eftersom taltempot ofta varierar, justeras ordens tidsmässiga utsträckning innan de jämförs. Efter att ha jämfört med alla ord väljer datorn det som har bäst överensstämmelse med det intalade. Datorn kan också 50 välja att inte acceptera ett ord om det 45 Referensmönster inte stämmer tillräckligt bra överens Okänt yttrande med något av de 10 5 lagrade mönstren. Distansfunktion Figur 9. Ett försök att åskådliggöra hur man beräknar avståndet mellan ett yttrande och referensmönstret för ett ord i igenkänningsvokabulären.
11 Automatisk igenkänning av tal Korrektion för talhastigheten Vid igenkänning av ett ord måste man normalt ta hänsyn till talhastigheten. Eftersom taltempot i princip aldrig är exakt detsamma för två yttranden av samma ord, måste man vid jämförelsen mellan ord göra en korrektion. En enkel metod är att dela upp alla ord i ett bestämt antal delar. Metoden ger en linjärt normaliserad tid och alla ord får lika många segment. Tyvärr ger en ändring av taltempot inte upphov till proportionellt samma tidsförskjutningar över hela ordet. En linjär skalning är därför inte tillräcklig. En metod som är baserad på dynamisk programmering innebär att man vid jämförelsen av två ord finner en bästa överensstämmelse genom att tillåta vissa lokala sträckningar och töjningar av det ena ordet. Vid den dynamiska programmeringen brukar man tillåta lokala variationer av tidsskalan på mellan 50% och 200%. Normalt betyder det att om en tidpunkt, i, i det intalade okända ordet avbildas på en punkt j i ett referensord blir nästa tillåtna punktpar någon av följande tre: [i+1, j+1] (ingen tidstöjning), [i+1, j+2] (ett överhoppat sampel i referensordet) eller [i+2, j+1] (ett överhoppat sampel i inordet), beroende på vilket som ger den bästa överensstämmelsen. Antalet distansmätningar mellan sampelpunkter ökar avsevärt jämfört med linjär tidskorrektion. Men å andra sidan garanterar metoden att man hittar den optimala avbildningen enligt de givna villkoren. Se även Figur 10. Metoden brukar kallas Dynamic Time Warping, DTW, på engelska. En nackdel med metoden är avsaknaden av en fonetisk beskrivning av vokabulären. Detta medför att varje Figur 10. En optimal tidsavbildning mellan två ord beräknad med hjälp av dynamisk programmering. I detta fall skall första och sista punkterna avbildas på varandra. Linjer med lutningen 1/2 respektive 2 begränsar tillåtna avbildningar enligt de lokala villkoren enligt ovan. Dynamisk programmering innebär att de avbildningar som är möjliga enligt de lokala villkoren beräknas. Som slutresultat får man den optimala avbildningen. ingående ord måste tränas in, även om det till större delen är identiskt med något annat ord. Under igenkänning innebär samma förhållande att varje ord måste testas separat, något som tar betydligt längre tid jämfört med att identiska orddelar testas gemensamt. Mönsterigenkännande system är därför inte lämpade för stora vokabulärer.
12 Automatisk igenkänning av tal Artificiella neuronnät Kursboken kapitel 13 En teknik som på senare år tilldragit sig mycket intresse är artificiella neuronnät, som baseras på enkla analogier med nervsystemet. Med elementära modeller för nervceller, noder, och deras förbindelser med varandra har man uppnått överraskande goda resultat. I Figur 11 visas några av grundprinciperna. Kopplingsstyrkan mellan noderna i nätet varierar och kan vara både positiva, stimulerande, och negativa, inhiberande. Kopplingarna kallas vanligen för vikter. Normalt adderar man summan av de viktade insignalerna till en nod enligt en olinjär funktion, som ofta har karaktären av en beslutsfunktion, dvs den är till eller från, och utsignalen begränsas ofta till intervallet 0 till 1, eller -1 till 1. Sigmoidfunktionen, som är deriverbar, är den som normalt brukar användas. Varje nod har även en förspänning. Θ Figur 11. Principer för artificiella neuronnät. Insignalerna x n till en nod multipliceras med vikterna w n och summeras, varefter en konstant Θ subtraheras. Detta ger insignal till nodens beslutsfunktion f, varav några exempel visas i figurens nedre del. Genom att variera Θ flyttas beslutspunkten för f. Funktionerna kan (från vänster) beskrivas som: hård begränsare, tröskellogik och sigmoid. De nät vi närmare kommer att beskriva kallas ofta "backward propagation-nät", efter den algoritm (error back propagation), som används för att bestämma nätets väsentliga parametrar. Vissa noder drivs av yttre signaler, till exempel spektrala nivåer, medan andra bara reagerar på stimuli från interna noder i nätet, se Figur 12. Noderna brukar ligga samlade i olika "lager" eller nivåer. En nod på en given nivå är normalt ansluten till varje nod i närmast underliggande nivå. Den lägsta nivån är ansluten till insignalerna. Sedan följer ofta ett "dolt" lager av noder, som man inte observerar direkt, medan det översta lagret brukar ha en nod för varje klassning, beslut, som nätet kan utföra. Det kan till exempel vara noder som signalerar ett igenkänt fonem. Den särskiljande förmågan i nätet ligger i vikterna mellan noderna och dessa måste läras in.
13 Automatisk igenkänning av tal 13 Figur 12. Ett neuralt nät som får sin insignal från 16 filter och har ett dolt lager med 13 noder. Utsignalen ger en klassning av inmatat talspektrum i 7 fonetiskt inspirerade särdrag. Under inlärningen presenteras ett instimuli, till exempel ett akustiskt mönster för vokalen "a", för innoderna samtidigt som dess identitet presenteras för utnoderna, genom att noden för "a" sätts till 1 medan övriga utnoder sätts till 0. Vikterna (och förspänningarna) justeras sedan i mycket små steg så att utsignalen på samma instimuli blir något bättre nästa gång. Därefter presenteras ett nytt in- och ut-stimulipar och vikterna korrigeras igen. När alla stimulipar i inlärningsmaterialet presenterats (vilket brukar kallas en epok) börjar man om från början och man kan göra om denna iterativa procedur tusentals gånger innan inlärningen är klar. Om man har få inlärningsmönster och många parametrar kan nätet lära sig varje stimulipar nära nog perfekt. För nya inmönster fungerar det däremot mindre bra - nätet har blivit överinlärt. Vad man i stället eftersträvar är att nätet skall generalisera utifrån inlärningsmaterialet så att det fungerar bra även på nya, okända inmönster. Här spelar storleken på inlärningmaterialet, nätets topologi och själva problemets natur in. Även om inlärningen kan ta lång tid så är själva igenkänningen betydligt snabbare, särskilt om den realiseras i parallell maskinvara. Allmänt kan man säga att neuronnät har svårt för att modellera tidsförlopp. Deras styrka ligger snarare i att klassificera, till exempel att känna igen fonem från spektrumsektioner. En relativt enkel metod för att ge nätet information om koartikulation och kontexteffekter mellan talljud är att mata in flera successiva spektrumramar, till exempel 5-10 ramar om 10 ms, för varje ram som skall klassas. Denna teknik användes bland annat vid de första framgångsrika taligenkänningsförsöken med den så kallade TDNN-tekniken (Time-Delay Neural Networks). En vanlig metod för att ge igenkänningssystem baserade på neuronnät en möjlighet att modellera tidsförlopp är att kombinera dem med andra mer konventionella tekniker. Det finns ett flertal hybridsystem där man först använder neuronnät för fonemklassning och sedan utnyttjar samma metoder som vid Markovmodellering för att känna igen ord och meningar.
14 Automatisk igenkänning av tal Markovmodeller Kursboken kapitel , , , , Vid denna metod betraktas talförloppet som en Markovprocess. Enligt Markovantagandet är processens förflutna betydelselöst för dess framtida förlopp, se Figur 13, som visar en enkel Markovmodell. Vid igenkänning ses ett yttrande som resultatet av en produktionsprocess bestående av en följd av tillstånd (states). Sannolikheten att gå från ett tillstånd till ett annat benämns övergångssannolikhet. En komplikation är att talprocessens tillstånd inte kan observeras direkt. Man kan endast göra observationer som har ett statistiskt samband med modellens tillstånd. Sannolikheten för att göra en viss observation i ett tillstånd, kallas observationssannolikhet. Observationen kan till exempel vara en spektrumram. Det är inte möjligt för en observatör att exakt veta i vilken följd tillstånden i en modell passerats och vad de producerat. Däremot En Markovprocess kan man beräkna sannolikheten för att en viss modell producerat det som observerats. Man talar därför om en dold Markovmodell (Hidden Markov Model - HMM). Vid ordigenkänning representeras varje ord av en Markovmodell. Talspektrum samplas till exempel var 10:e eller 25:e ms, ofta i form av cepstrumparametrar och deras tidsderivator. Man beräknar sannolikheten för att modellen producerat de observerade cepstrumparametrarna med hjälp av observationssannolikheterna och övergångssannolikheterna. Det är möjligt att göra "självövergångar" - gå till samma tillstånd man just befann sig i. Observations- och övergångssannolikheterna ger sannolikheten för att modellen gett upphov till de observerade Övergångssannolikheter mellan tillstånd Observationssannolikheter a: 0.3 b: 0.6 c: 0.1 inom tillstånd Tillståndssekvensen kan inte observeras direkt Sannolikheten för att modellen ska ha genererat en observerad symbolföljd kan beräknas. Den mest sannolika tillståndsföljden (Viterbi) eller de N mest sannolika följderna (N-best algorithm) kan bestämmas a: 0.8 b: 0.1 c: 0.1 a: 0.4 b: 0.3 c: 0.3 S S 1 2 S Modelleras med tillstånd förbundna med bågar med övergångssannolikheter Saknar minne Förloppet beror enbart på det aktuella tillståndet, inte på historien S 1 S 2 S Figur 13. En enkel Markovprocess. Cirklar anger tillstånd och pilar markerar möjliga övergångar med de givna övergångssannolikheterna. Figur 14. En Markobprocess som producerar symbolerna {a,b,c} med de givna observations- och övergångssannolikheterna. parametrarna. Det ord väljs, som med största sannolikhet har genererat den följd som detekterats. Det har i praktiken visat sig att observationssannolikheterna är viktigare än transitionssannolikheterna.
15 Automatisk igenkänning av tal 15 VK- kodbok kodords - sannolikheter tillstånd Figur 15. En diskret HMM. För varje tillstånd har man beräknat sannolikheten för att observera de olika kodorden. Jämför Figur 8 ovan. Det finns iterativa algoritmer för att beräkna Markovmodellens sannolikheter ur talmaterial, där man vet vad som sagts. Inlärningsproceduren är långsam och kräver ett stort material för att ge tillräckligt goda uppskattningar av alla ingående sannolikheter. Vid igenkänningen använder man ofta dynamisk programmering som i detta sammanhang brukar kallas Viterbisökning. Eftersom antalet tillstånd normalt är betydligt färre än antalet ramar vid mönsterigenkänning med dynamisk programmering blir igenkänningen snabbare än för denna. Under senare tid har Markovmodeller varit helt dominerande vid försök med stora ordförråd. Beroende på hur observationssannolikhe- Markovmodeller. I de förra terna modelleras skiljer man på diskreta och kontinuerliga kvantiserar man de spektrala ramarna med hjälp av vektorkvantisering, se figur 8 ovan. Diskreta observationssannolikheter anger sannolikheten för att erhålla de olika typramarna i Markovmodellens olika tillstånd, se Figur 15. En fördel med metoden är att man kan representera godtyckliga frekvensfunktioner. Å andra sidan får man kvantiseringsfel från vektorkvantiseringen. En nackdel är också att kvantisering och HMM optimeras separat. Ett alternativ är att använda kontinuerliga statistiska funktioner för talparameterfördelningarna. Under igenkänningen beräknas observationssannolikheterna ur dessa. De beräknas alltså direkt från talparametrarna (oftast cepstrumparametrar) utan någon mellanliggande kvantise- ring. Kontinuerliga modeller kräver större inlärningsmaterial än diskreta, men när materialet är tillräckligt stort ger de bättre resultat. komponenter komponentvikter tillstånd Figur 16. En kontinuerlig HMM. Med flera viktade normalfördelningar kan man modellera även onormala frekvensfunktioner. Vanligtvis använder man Gaussfördelningar för att beskriva observationssannolikheterna. En sådan beskrivs av två parametrar: medelvärde och varians. I allmänhet är dock talparametrar inte normalfördelade. En vanlig metod är då att använda flera Gaussklockor med olika medelvärden och varianser för att beskriva frekvensfunktionerna, se Figur 16. En bimodal, "tvåpucklig", funktion kan till exempel modelleras med två klockor och deras relativa vikter. Genom att använda tillräckligt många klockor kan man avbilda en godtycklig funktion med önskad precision. För talparametrar använder man från ett fåtal till några tiotals Gaussfunktioner. Förutom medelvärde och varians behövs också en komponentvikt, som anger den relativa vikten av varje delfunktion i den totala, "blandade" frekvensfunktionen..
16 Automatisk igenkänning av tal 16 Så länge vokabulären är relativt liten, av storleksordningen ett hundratal ord, kan man modellera dem enskilt med 5 till 10 tillstånd för vart och ett. Men när man ska känna igen tiotusentals ord är en fonetisk metod överlägsen. Det vore naturligtvis bra om man kunde klara sig genom att använda ett femtiotal modeller för fonem eller allofoner. Eftersom talljuden förändras mycket beroende på koartikulation med föregående och efterföljande fonem har det visat sig vara mycket bättre att modellera dem i sin kontext. Detta resulterar i trifoner (trefonemföljder). Till exempel ger a-ljuden i: bar, rar, hav och av alla upphov till var sin trifon. På detta sätt får man lätt tiotusentals talljudsmodeller. Antalet möjliga trifoner begränsas av att alla fonemkombinationer inte förekommer - begränsningarna ges av språkets fonotax. Följande exempel gäller en engelsk vokabulär: 8000 (olika) ord innehöll trifoner, medan ord innehöll en ökning om endast 1000 trifoner - och ord innehöll trifoner. I löpande tal ger dessutom fonemföljderna över ordgränser upphov till ett mycket stort antal ytterligare trifoner. Om man räknar med 50 fonem (allofoner) kan man som exempel få maximalt 50 3 = möjliga kombinationer. Antalet parametrar som krävs för Markovmodellering blir ofta för stort för att man ska kunna få tillräckligt bra uppskattningar av dem även om man har stora inlärningsmaterial. Ett vanligt sätt att parera problemet är att slå ihop tillstånd som fonetiskt Vi har a-trifonerna d-a-m och t-a-m, dvs a i kontexten d-m och t-m 3-tillstånds HMM per trifon Samma högerkontext Tillstånd 3 kan delas mellan modellerna + Antalet fria parametrar minskar liknar varandra - man "knyter" tillståndens + Mer träningsdata per fri parameter fördelningar till varandra, jämför figur 17 + kräver mindre minne och Figur 18. Mängden träningsmaterial för ett gemensamt tillstånd blir lika med d m t 1 2 summan av de enskilda tillståndens. Trifoner a a 3 m modelleras vanligtvis med tre till- stånd. Ett exempel på "knytning" vore att Figur 17. För att minska antalet HMMparametrar kan man knyta fonetisk liknande dela på det tredje tillståndet i trifonerna 'dam' och 'tam', eftersom det följande fonemet tillstånd till varandra. är detsamma för båda. Om inlärnings- materialet inte räcker till kan även trifonernas tillstånd två (och ett) knytas till varandra.. Ett ganska vanligt specialfall av knytning brukar kallas semi-kontinuerliga Markovmodeller (Semi Continuous Hidden Markov Models, SCHMM). Här låter man alla Markovtillstånd dela på samma kontinuerliga Gaussfunktioner, som kan vara kring ett femtiotal. Det enda som skiljer tillstånden åt är de diskreta blandningsvikterna. Man kan se det som en hybrid med en kontinuerlig kodbok och diskreta fördelningar som anger vikter för respektive komponent i kodboken. System med stor vokabulär och ordgränstrifoner använder ~ trifoner Akustisk vektor med 39 element och 10 Gausskomponenter (2 parametrar: μ, σ) ger 790 parametrar per tillstånd, varav 10 vikter (mixture weights) 39 x 10 x = trifoner med 3 tillstånd ger parametrar! Knytning (tying) för att dela på modellparametrar ger ~ parametrar. Figur 18. Antalet parametrar i HMM-system är mycket stort även om man använder sig av knytning.
17 Automatisk igenkänning av tal 17 En annan variant är Semi-Markov-modeller för att bättre beskriva segmentdurationers statistiska fördelning. I den ursprungliga modellen innebär Markovantagandet och den konstanta transitionssannolikheten att duration modelleras med en exponentialfördelning. Detta överensstämmer ofta illa med den verkliga fördelningen för fonetiska segment i naturligt tal. Fördelningen kan implementeras under jämförelseprocessen mellan ett yttrande och en Markovmodell genom att göra transitionssannolikheterna beroende av hur länge man befunnit sig i respektive tillstånd. Detta strider mot Markovantagandet (historien påverkar förloppet) och vi har inte längre en ren Markovprocess. Användande av Semi-Markovmodeller ger en viss höjning av prestanda, dock till priset av betydligt längre beräkningstider 7 SAMMANHÄNGANDE TAL Kursboken kapitel , , 12.8 Vid igenkänning av sammanhängande tal tillkommer ytterligare problem. En mening måste följa för språket givna samband bestämda av språkets syntax, semantik, böjningsregler och satsintonation. Att känna igen helt naturligt tal är än så länge en alltför stor utmaning och man inskränker sig istället till en speciell domän med en avgränsad vokabulär. Om man vill kunna känna igen stora vokabulärer, som vid diktering, kan man välja att först adaptera systemet till talarens röst genom denna först får läsa in vissa kända meningar för systemet. Tekniken med mönsterigenkänning går att utsträcka till starkt begränsade ordföljder, exempelvis siffersekvenser. Principen här är att med mönsterteknik beräkna de sannolika ord som kan inleda ordsekvensen. Följande ord måste börja där de föregående slutar och för dem gör man nya mönsterjämförelser utifrån dessa tidpunkter. Nu får man nya sannolika slutpunkter för dessa ord varefter man fortsätter på samma sätt. Sedan väljer man den ordsekvens som ger den totalt sett bästa överensstämmelsen. Vid denna metod använder man enskilda ord vid inlärningen av vokabulären. Detta gör att man inte kan ta hänsyn till koartikulationseffekter mellan orden när de uttalas i en följd. Trots detta är metoden användbar för små vokabulärer. Den tidigare berörda Markovbaserade principen för ordigenkänning kan generaliseras till sammanhängande tal genom att man inför sannolikheter för ordföljder. Vanligt är att beräkna sannolikheten för ett ord utifrån vetskapen om dess frekvens och vilket ord som föregick det. Man kan även ta hänsyn till två eller flera föregående ord. Statistik över förekomsten av två- och treordssekvenser kallas ofta på engelska för "bigram grammar" respektive "trigram grammar" och N-gram (ordföljdssannolikheter) ger bra resultat trots sin enkelhet unigram: P(w i ) ordfrekevens bigram: P(w i w i-1 ) tvåordsföljd trigram: P(w i w i-2, w i-1 ) treordsföljd Ordklassföljder vid otillräckligt träningsmaterial Figur 19. Enkla men väl fungerande språkmodeller för taligenkännig. Om man inte har tillräckliga mängder träntingsdata (textmaterial) kan man använda sig av ordklasser i ställer för ord. ersätter syntax och semantik i en vanlig grammatik, se Figur 19. Det krävs texter på många miljoner ord för att kunna beräkna de önskade sannolikheterna med tillräcklig noggrannhet. För att kombinera den akustiska och språkliga informationen använder man sig av Bayes regel enligt Figur 20.
18 Automatisk igenkänning av tal 18 De kunskapsbaserade metoderna kan utsträckas till sammanhängande tal genom att införa regler för syntax, semantik och kanske även prosodi. Neuronnät används mest för fonemigenkänning och förekommer som tidigare nämnts mest i hybridsystem där de kombineras med metoder från Markovmodellering till kompletta system. Vid igenkänning av löpande tal utgår man från fonembaserade enheter. I ett lexikon definierar man vilka P ( Ord / Akustik P ( Akustik / Ord ) P ( Ord ) P ( Akustik ) ord som är tillåtna och hur de uttalas i termer av de enheter som används. Dessa är ofta fonem i given höger- och vänsterkontext (trifoner) eller stavelser som man sedan sätter ihop till ord och meningar. Lexikon kan innehålla alternativa uttal av den använda vokabulären. ) = P(Ord/Akustik) är a posteriori sannolikheten för en ordföljd givet den akustiska informationen. P(Akustik/Ord) är sannolikheten att ordföljden genererar den akustiska informationen och beräknas i ett träningsmaterial. P(Ord) ges av språkmodellen och är a priori sannolikheten för ordföljden (N-gram). P(Akustik) kan ses som en konstant eftersom den är oberoende av ordföljden och kan ignoreras Figur 20. Bayes regel för betingade sannolikheter används för att kombinera akustisk och språklig informatiom vid taligenkänning. Att leta efter rätt ordsekvens i en mening innebär ett mycket stort sökproblem. Förenklat kan man tänka sig att varje ord i vokabulären kan tänkas börja eller sluta vid varje tidpunkt i yttrandet. Att finna en bästa ordsekvens blir då en stor utmaning. Vid sökningen utnyttjar man i regel bigramstatistik (se ovan) för att ta hänsyn till sannolikheten för att ett ord ska följa på ett annat. Metoder baserade på dynamisk programmering kombinerar detta med sannolikheter för funna fonem i talsignalen och matchar allt detta mot fonetiska beskrivningar av lexikon. På så sätt kan man beräkna den optimala ordföljden givet talvågen, vokabulären och bigramsannolikheterna. Osäkerheten i beräknade systemparametrar gör emellertid att resultatet inte behöver vara korrekt. Det finns emellertid metoder som gör att man på ett effektivt sätt kan få fram ett bestämt antal, till exempel de 10 eller 100 sannolikaste meningarna, enligt samma kriterier som ovan. Sedan låter man en språklig komponent analysera dessa för att få fram den språkligt mest sannolika utsagan. Detta är en mycket snabbare metod än att integrera den komplexa språkliga analysen med den primära sökningen, vilket skulle resultera i orimligt långa svarstider.
19 Automatisk igenkänning av tal 19 8 ATT MÄTA PRESTANDA Kursboken kapitel 12.9 Att utvärdera och jämföra prestanda för olika taligenkänningssystem kan vara intressant ur många synpunkter. Resultaten kan användas diagnostiskt för att ta reda på vad som behöver förbättras i ett visst system. Det kan också ha sitt intresse att jämföra olika system eller att bedöma användbarheten för en viss tillämpning. Att mäta prestanda kan emellertid vara besvärligt. Det finns inga allmänna kriterier för hur igenkänningsförmågan skall bestämmas och det är svårt att få fram regler som är giltiga i alla sammanhang. Faktorer som är intressanta är naturligtvis vokabulärens storlek men även dess innehåll. Det är till exempel fullt möjligt att konstruera en vokabulär med 100 sinsemellan mycket olika ord, som ger samma felfrekvens som 10 ganska lika ord. I system för sammanhängande tal måste också tas hänsyn till hur stora begränsningar som ges av systemets språkmodell. Ljudmiljön betyder också mycket. Är testet gjort i bullrig miljö eller under mera lugna förhållanden? Även arbetsmiljön är intressant. Ett test under naturliga förhållanden på en arbetsplats ger högre felfrekvens än mer laboratoriemässiga förhållanden. Resultaten för olika talare kan dessutom variera mycket. En van talare har lättare att hålla sitt uttal något så när konstant. Talarens röst kan vara mer eller mindre svåranalyserad vilket också påverkar prestanda. Försök med ett flertal personer är alltså att föredra. Vilket språk som talas är också betydelsefullt. Tills vidare brukar man jämföra olika system genom att testa dem på samma talmaterial. 8.1 Prestandamått Ett allmänt accepterat mått för att beskriva hur säkert ett system är på ett visst testat talmaterial är dess s. k. ordnoggrannhet ( word accuracy på engelska). Måttet är en utvidgning av mäta enbart andelen förväxlingar genom att man även mäter såväl andelen ej detekterade ord (bortfall) som andelen extra ord (instoppade, dvs ord som detekterats utan att ha yttrats). Ordnoggrannheten mäts i procent enligt ekvationen: ON ON N F B I N F B I = 100 *, N ordnoggrannhet i procent (word accuracy) antal yttrade ord under mätningen antal förväxlingar antal bortfall (ej upptäckta ord) antal instoppade ord Ordnoggrannheten kan bli negativ om systemet genererar ett stort antal extra ord. Vid igenkänning av isolerade ord under goda signal-störförhållanden kan däremot B och I ofta försummas. Ekvationen förenklas då till en mätning av andel rätt igenkända ord. Ett problem vid sammanhängande tal är att det inte är möjligt att enbart från den korrekta och den igenkända ordsekvensen entydigt avgöra vilka fel som inträffat. En avvikelse kan t. ex. ha orsakats av en förväxling eller som en kombination av bortfall och instopp. För att korrekt bedöma felen krävs även information om tidspositionerna för orden i den korrekta och den igenkända meningen. En ordmärkning med tidsangivelser saknas dock normalt i stora talmaterial. Man får då nöja sig med en approximation. En övre gräns för noggrannheten, det vill säga den mest positiva tolkningen av resultatet, kan beräknas med hjälp av dynamisk programmering. Detta är den metod som normalt används.
20 Automatisk igenkänning av tal 20 Noggrannheten ger naturligtvis inte den totala sanningen om hur bra ett system fungerar i praktisk användning. Olika tillämpningar fäster olika stor vikt vid hur väl den igenkända ordföljden ska överensstämma med vad personen yttrat. Vid diktering är måttet naturligtvis en mycket bra uppskattning, men vid andra tillfällen är målet en korrekt respons, till exempel vid sökning i en databas. Det är då mindre väsentligt med en fullständig transkription än att sökorden detekteras korrekt. En kort svarstid är givetvis väsentlig och kan påtvinga en begränsning av antalet hypoteser som undersöks, vilket innebär en kompromiss med noggrannheten. När man redovisar resultat är det också vanligt att man i stället för noggrannheten anger ett felmått, andelen ordfel i procent (word error rate), som brukar anges som OF = ON, eller OF = 100*(F+B+I)/N. 8.2 Bedömning av uppgiftens svårighet perplexitet Kursboken kapitel För att kunna bedöma vad ett uppmätt noggrannhetsvärde på ett visst talmaterial säger om ett systems allmänna prestanda är det nödvändigt att relatera detta till materialets svårighet. För närvarande finns inget allmänt accepterat mått på den akustiska likheten mellan olika ord eller ordsekvenser. Man nöjer sig med att beskriva svårigheten på den lingvistiska nivån, som är lättare att bestämma. Denna mäts normalt med måttet perplexitet. Matematiskt kan perplexitet ses som ett informationsteoretiskt mått relaterat till entropi enligt: B H = 2, 2 H = P( W) log P( W ), där W B perplexiteten i antal ord för den givna tillämpningen, H entropin för den givna tillämpningen, P(W) sannolikheten för ordsekvensen W i det givna språket. Perplexiteten beskrivs som det genomsnittliga antalet ord som är möjliga efter varje ordgräns för det givna språket. Vid beräkningen tas hänsyn till sannolikheten för ordföljder. För den enkla uppgiften att känna igen 10 siffror, alla med samma sannolikhet, är perplexiteten 10. Om vissa siffror är vanligare är andra sjunker perplexiteten. Ett enklare mått, som tidigare användes främst för artificiella språk uppbyggda i form av finita tillståndsgrafer, är genomsnittlig förgreningsfaktor. Det anger det genomsnittliga antalet ord som är tillåtna efter varje nod i grafen då alla ord behandlas som lika sannolika.
21 Automatisk igenkänning av tal Exempel på utvärdering och jämförelser I USA startade DARPA (Defence Advanced Research Projects Agency) i mitten av 80-talet ett omfattande forskningsprojekt kring taligenkänning och talförståelse med ett flertal deltagande institutioner. En viktig del i projektet är att jämföra deltagarnas system. Varje år får alla deltagare ett testmaterial, som används för att jämföra systemen, så kallad competetive evaluation. Man började med relativt enkla uppgifter för att sedermera öka komplexiteten i ordförråd och språk. Dessutom har man gått från uppläst till spontant tal, se Figur 21. ARPA - Advanced Projects Research Agency började 1984 deltagare CMU, SRI, BBN, MIT, Lincoln Labs, Dragon Systems "competative evaluations" varje år domäner NAB, Naval Battle Management, ~1000 ord ATIS, Air Traffic Information System, ~1000 ord Flygbokning WSJ, Wall Street Journal, ord Tidningstext, uppläst SWITCHBOARD samtal över telefon med okänd person om givet ämne CALL HOME samtal över telefon med närmaste familjekretsen NAB, National Broadcast News radiotal, olika talare, telefon ibland, musik svårare Figur 21. Utvecklingen av ARPAs taligenkänningsprojekt i USA från 1984 till Resultaten för det bästa systemen visas i Figur 22. Den först uppgiften gällde en relativt enkel applikation med 1000 ords vokabulär och perplexiteten 20, Naval Battle Management. Man ser att felen minskar sex gånger på fyra år (vänstra delen av figuren). Figur 22. Talaroberoende igenkänningsresultat för ARPA-projektet i USA. Resultat för det bästa systemet vid varje utvärdering. Från presentationen, Human Languages Technology, av George Doddington vid ARPA Workshop, New Jersey, 8-11 mars, 1994.
AUTOMATISK IGENKÄNNING AV TAL
AUTOMATISK IGENKÄNNING AV TAL 1 INLEDNING Mats Blomberg och Kjell Elenius Institutionen för tal, musik och hörsel, KTH 2000 Automatisk igenkänning av tal är ett relativt nytt forskningsfält. De första
Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?
Talteknologi 25-2-3 [ ] Översikt - taligenkänning Automatisk igenkänning av tal Del Mats Blomberg Tal, musik och hörsel KTH Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning
Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?
GSLT Tal- och talarigenkänning M Blomberg 22-9-9 [ ] Automatisk igenkänning av tal och talare DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ Automatisk igenkänning av tal DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ GSLT Tal- och
DP - Dynamisk programmering. Exempel på DP - textjämförelse. För- och nackdelar med ordmönsterigenkänning. Dolda Markovmodeller
GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 31 ] DP - Dynamisk programmering snabb, optimal kombinering av delbeslut $QDORJL Sök bästa väg mellan två adresser i en stad. Ett mycket stort antal
Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0
Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens
Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-
Analogt och Digital Bertil Larsson Viktor Öwall Analoga och Digitala Signaler Analogt Digitalt 001100101010100000111110000100101010001011100010001000100 t Analogt kontra Digitalt Analogt få komponenter
Spektrala Transformer
Spektrala Transformer Tidsdiskreta signaler, kvantisering & sampling Tidsdiskreta signaler Tidskontinuerlig signal Ex: x(t) = sin(ωt) t är ett reellt tal ω har enheten rad/s Tidsdiskret signal Ex: x(n)
Ett urval D/A- och A/D-omvandlare
Ett urval D/A- och A/D-omvandlare Om man vill ansluta en mikrodator (eller annan digital krets) till sensorer och givare så är det inga problem så länge givarna själva är digitala. Strömbrytare, reläer
Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag
Perception Akustiska och perceptoriska drag Samband mellan akustiska och perceptoriska drag Tyngpunkt på perceptorisk relevanta drag Prosodi Vokaler Konsonanter Perception i största allmänhet Primära akustiska
Signaler och system, IT3
Signaler och system, IT3 Vad är signalbehandling? 1 Detta dokument utgör introduktionsföreläsningen för kursen Signaler och system för IT3 period 2. Kursen utvecklades år 2002 av Mathias Johansson. 1 Vad
Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?
Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Hur bestämmer man vilka fonem ett språk har? Hur bestämmer man vilka fonem ett språk har? Fonem = minsta betydelseskiljande ljudenhet i
Analys/syntes-kodning
Analys/syntes-kodning Många talkodare bygger på en princip som kallas analys/syntes-kodning. Istället för att koda en vågform, som man normalt gör i generella ljudkodare och i bildkodare, så har man parametrisk
Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?
Hur bestämmer man vilka fonem ett språk har? Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se (Morfem = minsta betydelsebärande enhet i ett språk) Fonem = minsta betydelseskiljande ljudenhet
Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?
När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns
Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez
Taligenkänning 1 Sammanfattning Taligenkänning är i dagens samhälle en nödvändig teknik för många människor för att lättare ta sig fram genom vardagen. Man hittar tekniken i olika sammanhang som telefonupplysning,
Spektrala Transformer
Spektrala Transformer Tidsdiskreta signaler, kvantisering & sampling Tidsdiskreta signaler Tidskontinuerlig signal Ex: x(t) = sin(ωt) t är ett reellt tal ω har enheten rad/s Tidsdiskret signal Ex: x(n)
Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät
Artificiella Neuronnät 1 Karaktäristiska egenskaper Användningsområden Klassiska exempel Biologisk bakgrund 2 Begränsningar Träning av enlagersnät 3 Möjliga avbildningar Backprop algoritmen Praktiska problem
F3 Introduktion Stickprov
Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription
Tillägg i schemat 21/9 slutar 16.00 ist f 15.00 5/10 slutar 16.00 ist f 15.00 Idag talkommunikationskedjan ljudvågor, enkla och sammansatta vågrörelser frekvens och amplitud ljudtryck, decibel källa-filter-modellen
3. Metoder för mätning av hörförmåga
3. Metoder för mätning av hörförmåga Sammanfattning Förekomst och grad av hörselnedsättning kan mätas med flera olika metoder. I kliniskt arbete används oftast tonaudiogram. Andra metoder är taluppfattningstest
Artificiella Neuronnät
Artificiella Neuronnät 2 3 4 2 (ANN) Inspirerade av hur nervsystemet fungerar Parallell bearbetning Vi begränsar oss här till en typ av ANN: Framåtkopplade nät med lagerstruktur 3 4 Fungerar i princip
DIGITAL KOMMUNIKATION
EN KOR SAMMANFANING AV EORIN INOM DIGIAL KOMMUNIKAION Linjär kod En binär linjär kod kännetecknas av att summan av två kodord också är ett kodord. Ett specialfall är summan av ett kodord med sig själv
Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19
Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19 Tillåtna hjälpmedel: Valfri miniräknare (utan möjlighet till trådlös kommunkation). Valfri litteratur, inkl. kursböcker, formelsamlingar.
Niklas Lindvall Artificiell intelligens II Ht
Taligenkänning Hidden Markov Model Niklas Lindvall nikli368@student.liu.se Artificiell intelligens II Ht 2011 2011-09-19 0 Innehåll Inledning... 2 Taligenkänning språk... 3 Taligenkänning... 4 Oberoende/Beroende...
ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap
ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full
Mätningar med avancerade metoder
Svante Granqvist 2008-11-12 13:41 Laboration i DT2420/DT242V Högtalarkonstruktion Mätningar på högtalare med avancerade metoder Med datorerna och signalprocessningens intåg har det utvecklats nya effektivare
Taligenkänning med fördjupning på Hidden Markov Models
IDA, Linköpings Universitet Artificiell Intelligens II, 729G11 HT 2008 Taligenkänning med fördjupning på Hidden Markov Models 870524-0045 jearu017@student.liu.se Sammanfattning Taligenkänning är en teknik
Örat. Johnson, Kap 3. Basic audition
Det här kapitlet handlar om det man brukar kalla det perifera hörselsystemet och lite om hur processningen på den nivån ser ut och vilka skalor som bäst kan beskriva detta. Så låt oss då först bara påminna
Elektronik. Dataomvandlare
Elektronik Dataomvandlare Johan Wernehag Institutionen för elektro- och informationsteknik Lunds universitet 2 Översikt Analoga och digitala signaler Nyquistteorem Kvantiseringsfel i analog-till-digital
Laboration i Fourieranalys, TMA132 Signalanalys med snabb Fouriertransform
Laboration i Fourieranalys, TMA132 Signalanalys med snabb Fouriertransform Den laborationen har syften: dels att visa lite hur den snabba Fouriertransformen fungerar, och lite om vad man den an dels att
729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen
Signalanalys med snabb Fouriertransform
Laboration i Fourieranalys, MVE030 Signalanalys med snabb Fouriertransform Den här laborationen har två syften: dels att visa lite på hur den snabba Fouriertransformen fungerar, och lite om vad man bör
Grundläggande signalbehandling
Beskrivning av en enkel signal Sinussignal (Alla andra typer av signaler och ljud kan skapas genom att sätta samman sinussignaler med olika frekvens, Amplitud och fasvridning) Periodtid T y t U Amplitud
AD-DA-omvandlare. Mätteknik. Ville Jalkanen. ville.jalkanen@tfe.umu.se 1
AD-DA-omvandlare Mätteknik Ville Jalkanen ville.jalkanen@tfe.umu.se Inledning Analog-digital (AD)-omvandling Digital-analog (DA)-omvandling Varför AD-omvandling? analog, tidskontinuerlig signal Givare/
En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen
Prediktiv kodning Närliggande sampel i en signal är oftast starkt korrelerade med varandra, det kan därför vara en bra ide att försöka utnyttja denna korrelation (minnet) innan kvantiseringen för att få
Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012
Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig
1 Mätdata och statistik
Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt
Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare
Prediktiv kodning Linjär prediktion Närliggande sampel i en signal är oftast starkt korrelerade med varandra, det kan därför vara en bra ide att försöka utnyttja denna korrelation (minnet) innan kvantiseringen
Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer
Talperceptionsteorier Passiva stimulusstyrda processer Passiva stimulusstyrda processer Aktiva hypotesstyrda processer Perceptionsteorier Testmetoder Specifik, akustisk information för att identifiera
Artificial)Intelligence) Taligenkänning)
LINKÖPINGS)UNIVERSITET) Artificial)Intelligence) Taligenkänning)! Adam%Annerhult% 2012009017%! Contents' ' ) ) ) ) ) Inledning... 3! Så fungerar taligenkänning... 4! Grundläggande egenskaper i ett taligenkänningsprogram...
Projekt 3: Diskret fouriertransform
Projekt 3: Diskret fouriertransform Diskreta fouriertransformer har stor praktisk användning inom en mängd olika områden, från analys av mätdata till behandling av digital information som ljud och bildfiler.
Lektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG
FÖRELÄSNING EXEMPEL : ARTVARIATION Kurs- och transform-översikt. Kursintroduktion med typiska signalbehandlingsproblem och kapitelöversikt. Rep av transformer 3. Rep av aliaseffekten Givet: data med antal
Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval
Sundberg: Kap 4 Artikulation
Sundberg: Kap 4 Den viktigaste lärdomen av det här diagrammet är att man inte kan ändra på en enskild formant utan att det får konsekvenser för hela spektrum. Sundberg och Lindbloms artikulatoriska modell
Kan vi beskriva ett system utan någon fysikalisk kännedom om systemet?
Kan vi beskriva ett system utan någon fysikalisk kännedom om systemet? 1 Om svaret på frågan är ja så öppnar sig möjligheten att skapa en generell verktygslåda som fungerar för analys och manipulering
Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson
Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk Jens A Andersson Att sända information mellan datorer värd 11001000101 värd Två datorer som skall kommunicera. Datorer förstår endast
HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius
HörStöd Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal Mikael Salin Handledare: Mats Blomberg och Kjell Elenius Godkänt den... Examinator:... Mats Blomberg Examensarbete i Talteknologi
Signalbehandling Röstigenkänning
L A B O R A T I O N S R A P P O R T Kurs: Klass: Datum: I ämnet Signalbehandling ISI019 Enk3 011211 Signalbehandling Röstigenkänning Jonas Lindström Martin Bergström INSTITUTIONEN I SKELLEFTEÅ Sida: 1
Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II
Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs
Språkljudens akustik. Akustik, akustiska elementa och talanalys
Akustik, akustiska elementa och talanalys Språkljudens akustik Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Talsignalen mer lättåtkomlig än andra delar av talkommunikationskedjan Det finns
2 Dataanalys och beskrivande statistik
2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att
Grundläggande A/D- och D/A-omvandling. 1 Inledning. 2 Digital/analog(D/A)-omvandling
Grundläggande A/D- och D/A-omvandling. 1 Inledning Datorer nns nu i varje sammanhang. Men eftersom vår värld är analog, behöver vi något sätt att omvandla t.ex. mätvärden till digital form, för att datorn
DT1130 Spektrala transformer Tentamen
DT3 Spektrala transformer Tentamen 5 Tentamen består av fem uppgifter där varje uppgift maximalt ger p. Normalt gäller följande betygsgränser: E: 9 p, D:.5 p, C: p, B: 6 p, A: 8 p Tillåtna hjälpmedel:
Kundts rör - ljudhastigheten i luft
Kundts rör - ljudhastigheten i luft Laboration 4, FyL VT00 Sten Hellman FyL 3 00-03-1 Laborationen utförd 00-03-0 i par med Sune Svensson Assisten: Jörgen Sjölin 1. Inledning Syftet med försöket är att
7. Sampling och rekonstruktion av signaler
Arbetsmaterial 5, Signaler&System I, VT04/E.P. 7. Sampling och rekonstruktion av signaler (Se också Hj 8.1 3, OW 7.1 2) 7.1 Sampling och fouriertransformering Man säger att man samplar en signal x(t) vid
Föreläsninsanteckningar till föreläsning 3: Entropi
Föreläsninsanteckningar till föreläsning 3: Entropi Johan Håstad, transkriberat av Pehr Söderman 2006-01-20 1 Entropi Entropi är, inom kryptografin, ett mått på informationsinnehållet i en slumpvariabel.
Härledning av Black-Littermans formel mha allmänna linjära modellen
Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem
Shannon-Fano-Elias-kodning
Datakompression fö 5 p.1 Shannon-Fano-Elias-kodning Antag att vi har en minnesfri källa X i som tar värden i {1, 2,...,L}. Antag att sannolikheterna för alla symboler är strikt positiva: p(i) > 0, i. Fördelningsfunktionen
Bilaga A, Akustiska begrepp
(5), Akustiska begrepp Beskrivning av ljud Ljud som vi hör med örat är tryckvariationer i luften. Ljudet beskrivs av dess styrka (ljudtrycksnivå), dess frekvenssammansättning och dess varaktighet. Ljudtrycksnivå
Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson
Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk Jens A Andersson Att sända information mellan datorer värd 11001000101 värd Två datorer som skall kommunicera. Datorer förstår endast
Anpassning av problem
Modul: Problemlösning Del 7: Anpassning av problem Anpassning av problem Kerstin Hagland och Eva Taflin Detta är en något omarbetad text från boken: Hagland, K., Hedrén R., & Taflin, E. (2005). Rika matematiska
de var svåra att implementera och var väldigt ineffektiva.
OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan
Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
2 Laborationsutrustning
Institutionen för data- och elektroteknik 2002-02-11 1 Inledning Denna laboration syftar till att illustrera ett antal grundbegrepp inom digital signalbehandling samt att närmare studera frekvensanalys
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall
Förslag den 25 september Matematik
Matematik Matematiken har en flertusenårig historia med bidrag från många kulturer. Den utvecklas såväl ur praktiska behov som ur människans nyfikenhet och lust att utforska matematiken som sådan. Matematisk
Vanliga frågor för VoiceXpress
Vanliga frågor för VoiceXpress 1) Hur stort ordförråd (vokabulär) innehåller VoiceXpress? VoiceXpress innehåller ett mycket omfattande ordförråd, och svaret på frågan varierar en aning beroende på hur
KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten
KÄLLA-FILTER Repetition - Repetition av resonans och filter Komplexa ljudvågor: deltoner Amplitudspektrum - Talapparaten som resonator - Talapparaten som källa-filtersystem - Spektrum, Spektrogram, spektrograf
8.3 Variabeltransformationer Frånkoppling. Betrakta ett 2x2-system, som beskrivs med modellen (8.3.1)
8.3 Variabeltransformationer Betrakta ett 2x2-system, som beskrivs med modellen y () s G () s G () s u () s 1 11 12 1 y2() s = G21() s G22() s u2() s (8.3.1) Figuren till höger visar ett blockschema över
Stokastiska processer med diskret tid
Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna
PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik
Diskussionsproblem för Statistik för ingenjörer
Diskussionsproblem för Statistik för ingenjörer Måns Thulin thulin@math.uu.se Senast uppdaterad 20 februari 2013 Diskussionsproblem till Lektion 3 1. En projektledare i ett byggföretaget ska undersöka
Elektronik Dataomvandlare
Elektronik Översikt Analoga och digitala signaler Dataomvandlare Pietro Andreani Institutionen för elektro- och informationsteknik Lunds universitet Nyquistteorem Kvantiseringsfel i analog-till-digital
Blandade problem från elektro- och datateknik
Blandade problem från elektro- och datateknik Sannolikhetsteori (Kapitel 1-10) E1. En viss typ av elektroniska komponenter anses ha exponentialfördelade livslängder. Efter 3000 timmar brukar 90 % av komponenterna
Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab
Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts
Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.
Datakompression fö 3 p.3 Datakompression fö 3 p.4 Optimala koder Övre gräns för optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning)
Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).
Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019). I detta dokument synliggörs föreslagna likheter och skillnader mellan kursplanerna.
Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.
Datakompression fö 3 p.1 Optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning) som har lägre kodordsmedellängd. Det existerar förstås
DIGITALA FILTER. Tillämpad Fysik Och Elektronik 1. Frekvensfunktioner FREKVENSSVAR FÖR ETT TIDSDISKRET SYSTEM. x(n)= Asin(Ωn)
DIGITALA FILTER TILLÄMPAD FYSIK OCH ELEKTRONIK, UMEÅ UNIVERSITET 1 Frekvensfunktioner x(n)= Asin(Ωn) y(n) H(z) TILLÄMPAD FYSIK OCH ELEKTRONIK, UMEÅ UNIVERSITET 2 FREKVENSSVAR FÖR ETT TIDSDISKRET SYSTEM
TEM Projekt Transformmetoder
TEM Projekt Transformmetoder Utförs av: Mikael Bodin 19940414 4314 William Sjöström 19940404 6956 Sammanfattning I denna laboration undersöks hur Fouriertransformering kan användas vid behandling och analysering
Forskningsmetodik 2006 lektion 2
Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som
Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson
Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson Vocoding Några av de första försöken att återskapa tal elektroniskt gjordes på 30-talet av fysikern Homer
Monte Carlo-metoder. Bild från Monte Carlo
Monte Carlo-metoder 0 Målen för föreläsningen På datorn Bild från Monte Carlo http://en.wikipedia.org/wiki/file:real_monte_carlo_casino.jpg 1 Begrepp En stokastisk metod ger olika resultat vid upprepning
Stokastiska processer med diskret tid
Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna
Centralt innehåll. I årskurs 1.3
3.5 Matematik Matematiken har en flertusenårig historia med bidrag från många kulturer. Den utvecklas såväl ur praktiska behov som ur människans nyfikenhet och lust att utforska matematiken som sådan.
Kursplan för Matematik
Sida 1 av 5 Kursplan för Matematik Inrättad 2000-07 SKOLFS: 2000:135 Ämnets syfte och roll i utbildningen Grundskolan har till uppgift att hos eleven utveckla sådana kunskaper i matematik som behövs för
1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående
MATEMATISKA INSTITUTIONEN STOCKHOLMS UNIVERSITET Christian Gottlieb Gymnasieskolans matematik med akademiska ögon Induktion Dag 1 1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta
Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson
Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk Jens A Andersson Att göra Kursombud Williams bok???? Kolla schemat: Övningar flyttade Labanmälan ska funka nu 2 Att sända information
Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)
Analog - digital Analog oändlig digital diskret (1or 0or) Digitalt intakt trots kopiering analogt slits och kvaliteten degraderar Sampling Sinuston vågdiagram (AT) antal mätpunkter/samplingspunkter Samplingsfrekvens
Kommunikation. En aptitretare från VisVires AB
Kommunikation En aptitretare från VisVires AB Inledning Vi använder ofta ganska slarvigt begreppet kommunikation, vi säger t.ex. ofta att ett beslut skall kommuniceras ut i organisationen och sedan skickar
Neurokognitiv arkitektur
Tre beskrivningsnivåer (Marr, 1982) Neurokognitiv arkitektur Beräkningsnivå (beteende) Vad som beräknas (ex. fokusering av uppmärksamhet) Algoritmnivå (mekanismer) Hur det beräknas (ex. släpp nuvarande
4 Diskret stokastisk variabel
4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används
Samband och förändringar Olika proportionella samband, däribland dubbelt och hälften.
MATEMATIK Matematiken har en flertusenårig historia med bidrag från många kulturer. Den utvecklas såväl ur praktiska behov som ur människans nyfikenhet och lust att utforska matematiken som sådan. Matematisk
729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion