Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?
|
|
- Linnéa Åkesson
- för 7 år sedan
- Visningar:
Transkript
1 GSLT Tal- och talarigenkänning M Blomberg [ ] Automatisk igenkänning av tal och talare DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ Automatisk igenkänning av tal DWV%ORPEHUJ 7DOPXVLNRFKK UVHO.7+ GSLT Tal- och talarigenkänning M Blomberg [ 2 ] Översikt - taligenkänning Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning olinjär tidstöjning (dynamisk programmering) dolda Markovmodeller kunskapsbaserade metoder neurala nät Databaser Resultat Aktuell forskning Tillämpningar GSLT Tal- och talarigenkänning M Blomberg [ 3 ] Varför taligenkänning? Naturligt sätt att kommunicera Snabbare inlärning Effektivare kommunikation Komplexa samband kan uttryckas enkelt i ett språk vi redan kan Ersätter tangentbord eller knappsats handdator, telefon, mobiltelefon Fungerar i besvärliga miljöer mörker, kyla etc. (dock sämre i buller) Händer och syn blir fria för andra uppgifter GSLT Tal- och talarigenkänning M Blomberg [ 4 ] Tillämpningar Handikapphjälpmedel rörelsehindrade Telefontjänster intelligenta telefonsvarare, informationssökning, biljettbokning Fria händer diktering styra mobiltelefon Studiehjälp tålmodig lärare språkinlärning, uttalsundervisning Indexering och sökning radio- och TV-program GSLT Tal- och talarigenkänning M Blomberg [ 5 ] Klassificering av igenkänningsmetoder 9DG känner man igen? enstaka ord, kommandon, diktering, dialog, spontant tal 9HP känner man igen? en talare: talarberoende, -adaptivt alla talare talaroberoende +XU känner man igen? kunskapsbaserade metoder expertsystem med fonetisk kunskap igenkänning via syntes inlärande metoder (statistiskt baserade) dynamisk programmering (DP) dolda Markovmodeller (HMM, Hidden Markov Models) artificiella neuronnät (ANN, Artificial Neural Networks) GSLT Tal- och talarigenkänning M Blomberg [ 6 ]
2 GSLT Tal- och talarigenkänning M Blomberg [ 7 ] Svårighet: tal kontra skrift I fonetisk transkription eller vanlig ortografi beskrivs talet med avgränsade, diskreta enheter Talet har ett kontinuerligt förlopp pga artikulatorernas mekaniska tröghet Koartikulation: fonem uttalas olika i olika kontext ( jfr /s/ i visir och ozon ) Reduktion: I snabbt tal och i obetonade stavelser uppnås inte det avsedda uttalet Fonem och stavelser kan falla bort ( bafatt, Sötälje, dnasba ) Svårigheter - stor variabilitet Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Omgivning Additivt brus Rumsakustik Mikrofon, Telefon Bandbredd Störningar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin brus frekvensgång transienter Reduktioner klickar Minsta ansträngning GSLT Tal- och talarigenkänning M Blomberg [ 8 ] Överlappning mellan vokaler för olika talare Spridning för de två lägsta resonans-frekvenserna (F och F2) hos isolerade svenska vokaler uttalade av manliga och kvinnliga talare (G Fant) Främre vokaler har väsentlig överlappning. GSLT Tal- och talarigenkänning M Blomberg [ 9 ] Ekofritt rum Rumsakustik Samma inspelade yttrande uppspelat i två olika rum Föreläsningssal (KTH:E5) Mikrofonavstånd ~3 m Nu är det stjälk GSLT Tal- och talarigenkänning M Blomberg [ ] Tal i brus Inspelat i bil, hastighet 9 km/t. Riktad mikrofon i instrumentpanelen Yttrande: Inga GSLT Tal- och talarigenkänning M Blomberg [ ] Talspråk: extra svårigheter Uttalsreduktioner ofullständigt uttalade ord Icke-grammatiska meningar Stakningar omstarter, instopp, strykningar Extralingvistiska ljud läppsmack, andning, tvekljud Störningar omgivningsljud, teknisk distortion GSLT Tal- och talarigenkänning M Blomberg [ 2 ]
3 GSLT Tal- och talarigenkänning M Blomberg [ 3 ] Uppläst och spontant tal Uppläst Spontant tal ur ett samtal Spontant och hyper-artikulerat tal Va jobbaru me Vad jobbar du med GSLT Tal- och talarigenkänning M Blomberg [ 4 ] Träning För att ett system ska känna igen tal oberoende av talare och miljö behövs kvantitativa mått på denna variabilitet. Ett stort träningsmaterial krävs för att uppskatta dessa Automatiska träningsmetoder nödvändiga GSLT Tal- och talarigenkänning M Blomberg [ 5 ] EU-projektet Inspelat tal över telefonnätet för att träna och testa taligenkänningssystem alla officiella EU-språk samt samt varianter som finlandssvenska, schweizertyska, walesiska totalt över 6 talare inspelade balansera talare enligt dialekt, ålder och kön ca 5 yttranden per talare siffror, datum, tider, penningbelopp, enkla kommandon, fonetiskt rika meningar och ord SpeechDat i Sverige 5 talare inspelade över vanlig telefon talare inspelade över mobiltelefon GSLT Tal- och talarigenkänning M Blomberg [ 6 ] Svenska dialekter Flyget, tåget och bilbranschen tävlar om lönsamhet och folkets gunst. Född i USA ex-jugoslavien GSLT Tal- och talarigenkänning M Blomberg [ 7 ] Störningar och annat Mobiltelefoni bil, trottoar, restaurang %HQJW 'HQQLVJHULQJDDYVNHGVLQWHUYMXHULQI U VLQ DYJnQJYLGnUVVNLIWHW 'HWKDQGODUEDUDRPHWWJODSSSnPnQDGHU Dialektalt uttryckssätt +DQI UV NWH I UJlYHVUlGGD VLQ KXVWUXSn YHUYnQLQJHQ Den mänskliga faktorn.ylqqdqlup\fnhwqlud HQWRWDO NROODSVRFKJUnWHU RXSSK UOLJW GSLT Tal- och talarigenkänning M Blomberg [ 8 ]
4 GSLT Tal- och talarigenkänning M Blomberg [ 9 ] TMH:s textdatabas Totalt ca 5 miljoner ord Texter Pressens Bild ca 9 miljoner ord Samhall ca 37 miljoner ord Datalingvistik Göteborg ca 2 miljoner ord Göteborgs-Posten ca 5 miljoner ord,9 miljoner olika ord ca miljon ord förekommer bara en gång ca 5 miljoner ord totalt,88 miljoner olika ord TMH:s textdatabas - de 5 vanligaste orden miljon ord förekommer bara en gång 7RWDOW JHPHQD JHPHQIRUP 7RWDOW JHPHQD JHPHQIRUP 7RWDOW JHP HQD JHPHQIRUP och eller vill i efter fick att ska dem det ut blev en mot något som vid måste på här sina är också utan av du går för år detta med under allt den då kunde till säger kom inte över många han bara någon de upp mer har alla sa jag vad bli om mig sitt var vara första ett mycket några men in varit sig än fram hon hans hela så andra henne vi får ta från ha genom man sedan mellan hade kommer dag kan få ingen när honom kronor nu två nya skulle hur göra där finns även sin blir sverige GSLT Tal- och talarigenkänning M Blomberg [ 2 ] $QDO\V Delar i ett taligenkänningssystem N 6SHNWUDODQDO\V Fonemmodeller DNXVWLVNEHVNU Lexikon YRNDEXOlU IRQHPWUDQVNULSWLRQ Språkmodell P MOLJDRUGI OMGHU.XQVNDS Kontinuerlig Klassificering Diskret Sökning -lpi UHOVH EHVW EHVW EHVW ElVWD Meningsförståelse 9DOGPHQLQJ GSLT Tal- och talarigenkänning M Blomberg [ 2 ] Olika taligenkänningsmetoder Mönsterigenkänning (Pattern Recognition) bogvw Enkel jämförelse av två spektrala tidsserier Kompensation för varierande talhastighet (Dynamisk programmering, DP) Expertsystem gyhujlyhqlvlqgluhnwdirup Fonetikerns kunskap uttryckt i regler för fonetisk klassning Svårt och inflexibelt Artificiella Neurala Nät (ANN) %UDI UNODVVLILFHULQJ Huvudsakligen för fonetisk klassning Används i hybridsystem tillsammans med HMM Hidden Markov Models (HMM) HVWDQYlQG Representerar talets segmentella struktur Viterbi-avkodning (form av DP) GSLT Tal- och talarigenkänning M Blomberg [ 22 ] Parametrar för igenkänning Filterbanksamplituder (från, Fast Fourier Transform) Mel-skala - baserad på örats frekvensupplösning Cepstrum inversfouriertransform av logaritmiskt spektrum - ortogonala Cepstrum på Mel-spektrum: MFCC - standardmetoden LPC linjär prediktion - Linear Predictor Coefficients Formanter i kunskapsbaserade system svårt att mäta - kompromiss: mät tyngdpunkter i frekvensband Artikulatoriska parametrar nära kopplad till talproduktionen komplicerade att beräkna Hörselbaserade parametrar enkel modellering av hörseln Talsignal Vanligast: MFCC-analys Mel Frequency Cepstral Coefficients Mel-filterbank förbättring för tal stört av buller och GSLT brus Tal- och talarigenkänning M Blomberg [ 23 ] Amplitud-frekvensspektrum av /a:/ Cepstrum av /a:/ GSLT Tal- och talarigenkänning M Blomberg [ 24 ] N Samplingsfrekvens 6SHNWUDODQDO\V PHG )DVW)RXULHU 7UDQVIRUP db ILOWHU Ramfrekvens + UVHODQSDVVDGGHOQLQJ /LQMlU /RJ! ~6 Hz Bark/mel Cepstrumtransform 8-6 cepstrumkoefficienter var :e ms + energi + deras :a och 2:a tidsderivator C C2 C3 C4
5 GSLT Tal- och talarigenkänning M Blomberg [ 25 ] N 6SHNWUDODQDO\V Cepstrum från filterbankspektra Spektrum av /a:/ Spektrum av /s/ & $ Q L, Q L L, cos( π ( 5. ) / ) = =,5 -,5 -,5 -,5 -,5 -,5 - Viktfunktioner W = W2 W3 =,5 -,5 - W Cepstrum av /a:/ C C2 C3 C4 Cepstrum av /s/ C C2 C3 C4 Vektorkvantisering (VQ) Transformering från kontinuerliga till diskreta parametrar Automatisk indelning av parameterrymden i ett litet antal (~256) områden. Minimera distorsion i träningsdata Klassa varje tidpunkt av ett yttrande till ett av dessa områden. Hela yttrandet beskrivs som en följd av indextal. Kraftig datareduktion på bekostnad av kvantiseringsdistorsion. Kontinuerlig VQ.ODVVLILFHULQJ.ODVVLILFHULQJ Diskret Ex. enl trajektorien ovan: 2,,,5,5,6,6,6,7 GSLT Tal- och talarigenkänning M Blomberg [ 26 ] Artificiella NeuronNät - ANN Θ Modell av nervcell GSLT Tal- och talarigenkänning M Blomberg [ 27 ] 'ROWODJHU,QODJHU Filteramplituder Artificiella neuronnät - exempel Klassificering av fonemkategorier 8WODJHU Aktiveringsgrad för varje kategori GSLT Tal- och talarigenkänning M Blomberg [ 28 ] Referensmönster Enkel mönsterigenkänning utan tidsnormalisering Par 2 3 Okänt yttrande Par Lokal distans Ackumulerad (global) distans Total distans Distansen mellan yttrandet och ett referensmönster är summan av distanserna för resp. parameter vid varje tidpunkt. 3UREOHP: Distansen beror till stor del på tidsavvikelser mellan kurvorna. GSLT Tal- och talarigenkänning M Blomberg [ 29 ] Va jobbaru me Kompensera för talhastighet Ingen kompensering Olinjär töjning, Dynamic Time Warp (DTW) Utförs med dynamisk programmering (DP) GSLT Tal- och talarigenkänning M Blomberg [ 3 ] Vad jobbar du med Linjär töjning
Svårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?
Talteknologi 25-2-3 [ ] Översikt - taligenkänning Automatisk igenkänning av tal Del Mats Blomberg Tal, musik och hörsel KTH Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning
Läs merTaligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0
Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens
Läs merLitteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?
Litteratur ASR Taligenkänning Introduktion till taligenkänning Talteknologi, VT 2006 Rebecca Jonson Jurafsky & Martin. Kap 5,6,7 + delar fr. andra kapitel (t ex kap 19) Blomberg, M & Elenius, K. Automatisk
Läs merAUTOMATISK IGENKÄNNING AV TAL
AUTOMATISK IGENKÄNNING AV TAL 1 INLEDNING Mats Blomberg och Kjell Elenius Institutionen för tal, musik och hörsel, KTH 2005 Automatisk igenkänning av tal är ett relativt nytt forskningsfält. De första
Läs merAI-rapport Speech recognition
AI-rapport Speech recognition The process of analyzing an acoustic speech signal to identify the linguistic message that was intended, so that a machine can correctly respond to spoken commands. Anntu228
Läs merSampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)
Analog - digital Analog oändlig digital diskret (1or 0or) Digitalt intakt trots kopiering analogt slits och kvaliteten degraderar Sampling Sinuston vågdiagram (AT) antal mätpunkter/samplingspunkter Samplingsfrekvens
Läs merTalteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav
Talteknologi introduktion Rebecca Jonson Doktorand i Språkteknologi (GSLT, Lingvistik Gbg) AAST-kursen VT 2007 Computers are getting smarter all the time; scientists tell us that soon they will be able
Läs merNiklas Lindvall Artificiell intelligens II Ht
Taligenkänning Hidden Markov Model Niklas Lindvall nikli368@student.liu.se Artificiell intelligens II Ht 2011 2011-09-19 0 Innehåll Inledning... 2 Taligenkänning språk... 3 Taligenkänning... 4 Oberoende/Beroende...
Läs merPerception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag
Perception Akustiska och perceptoriska drag Samband mellan akustiska och perceptoriska drag Tyngpunkt på perceptorisk relevanta drag Prosodi Vokaler Konsonanter Perception i största allmänhet Primära akustiska
Läs merArtificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez
Taligenkänning 1 Sammanfattning Taligenkänning är i dagens samhälle en nödvändig teknik för många människor för att lättare ta sig fram genom vardagen. Man hittar tekniken i olika sammanhang som telefonupplysning,
Läs merAUTOMATISK IGENKÄNNING AV TAL
AUTOMATISK IGENKÄNNING AV TAL 1 INLEDNING Mats Blomberg och Kjell Elenius Institutionen för tal, musik och hörsel, KTH 2000 Automatisk igenkänning av tal är ett relativt nytt forskningsfält. De första
Läs merArtificial)Intelligence) Taligenkänning)
LINKÖPINGS)UNIVERSITET) Artificial)Intelligence) Taligenkänning)! Adam%Annerhult% 2012009017%! Contents' ' ) ) ) ) ) Inledning... 3! Så fungerar taligenkänning... 4! Grundläggande egenskaper i ett taligenkänningsprogram...
Läs merDP - Dynamisk programmering. Exempel på DP - textjämförelse. För- och nackdelar med ordmönsterigenkänning. Dolda Markovmodeller
GSLT Tal- och talarigenkänning M Blomberg 2002-9-9 [ 31 ] DP - Dynamisk programmering snabb, optimal kombinering av delbeslut $QDORJL Sök bästa väg mellan två adresser i en stad. Ett mycket stort antal
Läs merIdag. Tillägg i schemat. Segmenteringsproblemet. Transkription
Tillägg i schemat 21/9 slutar 16.00 ist f 15.00 5/10 slutar 16.00 ist f 15.00 Idag talkommunikationskedjan ljudvågor, enkla och sammansatta vågrörelser frekvens och amplitud ljudtryck, decibel källa-filter-modellen
Läs merSpråkljudens akustik. Akustik, akustiska elementa och talanalys
Akustik, akustiska elementa och talanalys Språkljudens akustik Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Talsignalen mer lättåtkomlig än andra delar av talkommunikationskedjan Det finns
Läs merHörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius
HörStöd Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal Mikael Salin Handledare: Mats Blomberg och Kjell Elenius Godkänt den... Examinator:... Mats Blomberg Examensarbete i Talteknologi
Läs mer4/27/12. Fönstring i MDCT. Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck
Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck 2. Hörselsinnet Hörnivåkurvor, hörseltröskel, maskeringseffekter, Barkskalan 3. Ljudkodning
Läs merSpråkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Läs merÖrat. Johnson, Kap 3. Basic audition
Det här kapitlet handlar om det man brukar kalla det perifera hörselsystemet och lite om hur processningen på den nivån ser ut och vilka skalor som bäst kan beskriva detta. Så låt oss då först bara påminna
Läs merAutomatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter
Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter Mikko Kurimo Institutionen för signalbehandling och akustik Aalto-universitetet Innehåll 1. Hur automatisk taligenkänning
Läs merPassiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer
Talperceptionsteorier Passiva stimulusstyrda processer Passiva stimulusstyrda processer Aktiva hypotesstyrda processer Perceptionsteorier Testmetoder Specifik, akustisk information för att identifiera
Läs merTaligenkänning med fördjupning på Hidden Markov Models
IDA, Linköpings Universitet Artificiell Intelligens II, 729G11 HT 2008 Taligenkänning med fördjupning på Hidden Markov Models 870524-0045 jearu017@student.liu.se Sammanfattning Taligenkänning är en teknik
Läs merFöreläsning 10: Ljudkodning ( Audio Coding )
Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck 2. Hörselsinnet Hörnivåkurvor, hörseltröskel, maskeringseffekter, Barkskalan 1. Ljudkodning
Läs merGrundläggande ljud- och musikteori
Grundläggande ljud- och musikteori Jan Thim Magnus Eriksson Lektionens syfte Syftet med denna lektion är är att att ge ge förståelse för för decibelbegreppet, spektrum, digitalisering och och olika olika
Läs merHMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish
HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish Anders Lundgren Handledare: Jonas Beskow Godkänd:... Examinator:... Rolf Carlson Examensarbete vid institutionen för Tal, Musik
Läs merSpektrala Transformer
Spektrala Transformer Tidsdiskreta signaler, kvantisering & sampling Tidsdiskreta signaler Tidskontinuerlig signal Ex: x(t) = sin(ωt) t är ett reellt tal ω har enheten rad/s Tidsdiskret signal Ex: x(n)
Läs merVanliga frågor för VoiceXpress
Vanliga frågor för VoiceXpress 1) Hur stort ordförråd (vokabulär) innehåller VoiceXpress? VoiceXpress innehåller ett mycket omfattande ordförråd, och svaret på frågan varierar en aning beroende på hur
Läs mer! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!
Introduktion till akustisk analys (av tal)!! akustiska elementa!! akustisk analys!! grupparbete: akustisk analys!! om hinner: introduktion till Praat!! mina bilder finns att ladda ner här: http://person2.sol.lu.se/susanneschotz/teaching_files/intro_ak.pdf!
Läs merDigital signalbehandling Digitalt Ljud
Signalbehandling Digital signalbehandling Digitalt Ljud Bengt Mandersson Hur låter signalbehandling Institutionen för elektro- och informationsteknik 2008-10-06 Elektronik - digital signalbehandling 1
Läs mer3. Metoder för mätning av hörförmåga
3. Metoder för mätning av hörförmåga Sammanfattning Förekomst och grad av hörselnedsättning kan mätas med flera olika metoder. I kliniskt arbete används oftast tonaudiogram. Andra metoder är taluppfattningstest
Läs merDagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem
Dagens lektion Mänsklig igenkänning Talteknologi och DialogSystem Talteknologi, VT 2006 Rebecca Jonson Mänsklig taligenkännning Talteknologi och Dialogsystem Demos! Kurssammandrag Labgenomgång Frågestund
Läs merTaligenkänning. Hur datorer känner igen talat språk. 729G43 Artificiell Intelligens. Charlie Forsgren, Linköpings Universitet. chafo246 2014-01-09
Taligenkänning Hur datorer känner igen talat språk 729G43 Artificiell Intelligens Charlie Forsgren, chafo246 2014-01-09 Charlie Forsgren Innehållsförteckning Inledning..3 Språk och Ljud 4 Elektronisk Inspelning
Läs mer729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen
Läs merSpektrala Transformer
Spektrala Transformer Tidsdiskreta signaler, kvantisering & sampling Tidsdiskreta signaler Tidskontinuerlig signal Ex: x(t) = sin(ωt) t är ett reellt tal ω har enheten rad/s Tidsdiskret signal Ex: x(n)
Läs merGrundläggande signalbehandling
Beskrivning av en enkel signal Sinussignal (Alla andra typer av signaler och ljud kan skapas genom att sätta samman sinussignaler med olika frekvens, Amplitud och fasvridning) Periodtid T y t U Amplitud
Läs merI. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler
Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Kodning av tal Kodning av musik MPEG-4 Audio toolbox Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder
Läs merKodning av tal Kodning av musik MPEG-4 Audio toolbox
Kodning av tal Kodning av musik MPEG-4 Audio toolbox Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder
Läs merÄmnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle
Institutionen för hälsovetenskap och medicin Kod: Ämnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle Datum 2013-08-19 Tid 4 timmar Kursansvarig Susanne Köbler Tillåtna
Läs merAkustiska Elementa och Digital Signalbehandling
Akustiska Elementa och Digital Signalbehandling Rebecca Jonson Talteknologikursen VT2005 Akustisk behandling av tal Inom talteknologi vill vi producera och analysera tal vilket kräver kunskap om talproduktion
Läs merDigital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling
Digital behandling av tal Akustiska Elementa och Digital Signalbehandling Rebecca Jonson Talteknologikursen VT2007 Inom talteknologi vill vi producera och analysera tal vilket kräver kunskap om talproduktion
Läs merTeoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Läs merCARLOS GALDO TEDDY CHAVEZ KTH SKOLAN FÖR KEMI, BIOTEKNOLOGI OCH HÄLSA
EXAMENSARBETE INOM DATATEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2018 Prototyputveckling för skalbar motor med förståelse för naturligt språk Prototype development for a scalable engine with natural
Läs merSOUNDGATE. Uppkopplad med SoundGate
SOUNDGATE Uppkopplad med SoundGate Möjligheten att vara uppkopplad är bättre än någonsin. Tack vare ny teknik är det enklare att hålla kontakt med vänner, familj och kollegor, närsomhelst och varsomhelst.
Läs merHur kan man mäta hörsel? Ann-Christin Johnson Karolinska Institutet, Stockholm, Sverige
Hur kan man mäta hörsel? Ann-Christin Johnson Karolinska Institutet, Stockholm, Sverige Ljudstyrka mäts i decibel (db) Några exempel Stor risk för hörselskada Risk för hörselskada Svårt att uppfatta tal
Läs merAnmälan till EY1B13 Kontrastiv engelska för lärare (Contrastive English for Teachers) 7,5 hp vårterminen 2011.
Institutionen för Språk och litteraturer Anmälan till EY1B13 Kontrastiv engelska för lärare (Contrastive English for Teachers) 7,5 hp vårterminen 2011. Personnummer Efternamn Förnamn Adress Postnummer
Läs merStatistisk mönsterigenkänning
Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning
Läs merHörsel- och dövverksamheten. Information till dig som har hörselnedsättning Hörselverksamheten
Hörsel- och dövverksamheten Information till dig som har hörselnedsättning Hörselverksamheten Hörseln, ett av våra sinnen Hörseln är ett av våra allra viktigaste sinnen för att kunna kommunicera med våra
Läs merEtt examensarbete utfört vid Institutionen för tal, musik och hörsel Kungliga tekniska högskolan Februari 2001
TT Inst. för tal, musik och hörsel &HQWUXPI UWDOWHNQRORJL +lupqlqj±hwwkrwprwwdoduyhulilhulqjvv\vwhp" Daniel Elenius Ett examensarbete utfört vid Institutionen för tal, musik och hörsel Kungliga tekniska
Läs merPsykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå(loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.
Psykoakustik Ljudtrycksnivå Människans hörsel är ganska väl studerad och det finns bra modeller för den. Detta kan utnyttjas vid ljudkodning för att placera distorsionen (kvantiseringsbruset) så att det
Läs merSignaler och system, IT3
Signaler och system, IT3 Vad är signalbehandling? 1 Detta dokument utgör introduktionsföreläsningen för kursen Signaler och system för IT3 period 2. Kursen utvecklades år 2002 av Mathias Johansson. 1 Vad
Läs merText-till-Talsyntes (TTS2)
Text-till-Talsyntes (TTS2) Rebecca Jonson TalTeknologikursen VT 2005 Dagens lektion Lite mer om prosodisk frasering Svar på frågan om svenska sammansättningar Några exempel på system Talsyntes Formant
Läs merSundberg: Kap 4 Artikulation
Sundberg: Kap 4 Den viktigaste lärdomen av det här diagrammet är att man inte kan ändra på en enskild formant utan att det får konsekvenser för hela spektrum. Sundberg och Lindbloms artikulatoriska modell
Läs merLitteratur ASR. Taligenkänning Introduktion till tal- och talarigenkänning. Vad är taligenkänning? Varför taligenkänning? Användningsområden
Taligenkänning Introduktion till tal- och talarigenkänning Talteknologi, HT 2007 Litteratur ASR Kap 9 påp nätet Jurafsky & Martin. Kap 5,6,7 + delar fr. andra kapitel (t ex kap 19) Blomberg, M & Elenius,
Läs merÄmnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4
IHM Kod: Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ115 Tentamenstillfälle 4 Datum 213-11-7 Tid 4 timmar Kursansvarig Susanne Köbler Tillåtna hjälpmedel Miniräknare Linjal
Läs merHörselkontroll Bullerskydd med öronproppar
Laborationer i miljöfysik Hörselkontroll Bullerskydd med öronproppar Målet med övningen är att ta upp ett audiogram för en person, samt att undersöka hur mycket ljudet dämpas i olika frekvensområden med
Läs merTekniken bakom språket
Tekniken bakom språket Red. Rickard Domeij Småskrift utarbetad av SPRÅKRÅDET 2008 NORSTEDTS AKADEMISKA FÖRLAG INNEHÅLL Språkteknologi för språken i Sverige 13 Rickard Donieij Tekniken bakom språket 13
Läs merEnlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät
Artificiella Neuronnät 1 Karaktäristiska egenskaper Användningsområden Klassiska exempel Biologisk bakgrund 2 Begränsningar Träning av enlagersnät 3 Möjliga avbildningar Backprop algoritmen Praktiska problem
Läs merSammanfattning av föreläsning 4. Modellbygge & Simulering, TSRT62. Föreläsning 5. Identifiering av olinjära modeller
Sammanfattning av föreläsning 4 Modellbygge & Simulering, TSRT62 Föreläsning 5. Identifiering av olinjära modeller Reglerteknik, ISY, Linköpings Universitet Linjära parametriserade modeller: ARX, ARMAX,
Läs merEXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG
FÖRELÄSNING EXEMPEL : ARTVARIATION Kurs- och transform-översikt. Kursintroduktion med typiska signalbehandlingsproblem och kapitelöversikt. Rep av transformer 3. Rep av aliaseffekten Givet: data med antal
Läs merTalbaserade multimodala dialogsystem för medicinsk rådgivning
Talbaserade multimodala dialogsystem för medicinsk rådgivning Daniel Höglind (hoeglind@kth.se) & Paulina Modlitba (paulina@kth.se) Den här artikeln beskriver ett talbaserat multimodalt dialogsystem som
Läs merArtificiella Neuronnät
Artificiella Neuronnät 2 3 4 2 (ANN) Inspirerade av hur nervsystemet fungerar Parallell bearbetning Vi begränsar oss här till en typ av ANN: Framåtkopplade nät med lagerstruktur 3 4 Fungerar i princip
Läs merNya analys(- och insamlings)metoder i talforskning och talteknologisk forskning. Jens Edlund KTH Tal, Musik och Hörsel
Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning Jens Edlund KTH Tal, Musik och Hörsel Om mig Arbetar som forskare på KTH Tal, Musik och Hörsel Lingvistik, fonetik, datorlingvistik
Läs merKÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten
KÄLLA-FILTER Repetition - Repetition av resonans och filter Komplexa ljudvågor: deltoner Amplitudspektrum - Talapparaten som resonator - Talapparaten som källa-filtersystem - Spektrum, Spektrogram, spektrograf
Läs merRoger TM. Dynamic SoundField Anslut, slå på och börja undervisa
Roger TM Dynamic SoundField Anslut, slå på och börja undervisa Ljudutjämningssystem gör skillnad Att höra bra i klassrumsmiljö är viktigt för att eleverna ska blomstra och få bästa tänkbara möjlighet till
Läs mer8. Skaderisker och komplikationer
8. Skaderisker och komplikationer Sammanfattning Skador och komplikationer har observerats i samband utprovning och användande av hörapparater. Skador av allvarlig natur är dock sällsynta. En allvarlig
Läs merMatcha rätt hjärta till rätt patient med AI. Dennis Medved
Matcha rätt hjärta till rätt patient med AI Dennis Medved Översikt Introduktion IHTSA LuDeLTA Sammanfattning Framtida arbete Introduktion Hjärttransplantation Livräddande operation för patienter med hjärtsvikt
Läs mer/r/ i några svenska dialekter
/r/ i några svenska dialekter Damra Muminovic och Olle Engstrand 1. Inledning R-ljuden uppvisar stor artikulatorisk variation mellan och inom språk och dialekter (Lindau 1985). I den svenska dialektlitteraturen
Läs merHur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?
Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Hur bestämmer man vilka fonem ett språk har? Hur bestämmer man vilka fonem ett språk har? Fonem = minsta betydelseskiljande ljudenhet i
Läs merLägga till olika dokument i en fil
Lägga till olika dokument i en fil Om du vill kombinera flera dokument och göra en enda fil kan du kopiera och klistra in innehållet från alla dokumenten i en enda fil. Eller så kan du öppna det första
Läs merMångsidig, trådlös kommunikationsförstärkare Nu kan du höra:
Mångsidig, trådlös kommunikationsförstärkare Nu kan du höra: TV Samtal Telefon Mobiltelefon Trådlös flexibilitet HearIt All är en hörsellösning som kommunicerar ljud och tal utan kablar. Med eller utan
Läs merSPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. Linköpings Universitet 729G43 Artificiell Intelligens
SPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS Oscar Lundblad Osclu399@student.liu.se 2017-01-05 Linköpings Universitet 729G43 Artificiell Intelligens Innehållsförteckning Introduktion 3 Rapportens
Läs merSIGNALANALYS I FREKVENSRUMMET
SIGNALANALYS I FREKVENSRUMMET Fourierserie och Fouriertransform Föreläsning 4 Mätsystem och Mätmetoder, HT-2016 Florian Schmidt Department of Applied Physics and Electronics Umeå University LECTURE OUTLINE
Läs merAcapela TTS. Inställningar och korrigering av uttal. Emma och Erik
Acapela TTS Inställningar och korrigering av uttal Emma och Erik Innehåll Inledning... 3 Inställning av talsyntesens parametrar... 4 Förklaring av Flikar... 5 Info... 5 General... 5 Pauses... 5 Reading...
Läs merArtificiell Intelligens Lektion 7
Laboration 6 Artificiell Intelligens Lektion 7 Neurala nätverk (Lab 6) Probabilistiska resonemang Vad? Mönsterigenkänning Lära ett neuralt nätverk att känna igen siffror Varför? Få ökad förståelse för
Läs mervalet menu-tillägg Det kan inte bli enklare att välja en funktion som passar din kund. färger och modeller: anpassningsområde:
menu-tillägg Det kan inte bli enklare att välja en funktion som passar din kund. Det basala valet hd locator med speech tracer Detta riktmikrofonsystem underlättar brusreduktion och hjälper användarna
Läs merLjud i byggnad och samhälle
Ljud i byggnad och samhälle Kristian Stålne Teknisk Akustik Innehåll Kursintroduktion, administrativa detaljer Översikt, kursens schema och innehåll Grundläggande akustiska begrepp 1 Lärare Föreläsningar,
Läs merKällorienterat ljud Del 1
Källorienterat ljud Del 1 Alf Berntson I musikaler och teaterföreställningar med förstärkt ljud är det snarare regel än undantag att ljudet kommer från fel håll. Källorienterad förstärkning gör det nu
Läs merKompletterande räkneuppgifter i Spektrala Transformer Komplex analys, sampling, kvantisering, serier och filter Laura Enflo & Giampiero Salvi
Kompletterande räkneuppgifter i Spektrala Transformer Komplex analys, sampling, kvantisering, serier och filter & Giampiero Salvi Komplex analys Om man endast använder den reella tallinjen är det inte
Läs mer729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med
Läs merBilaga A, Akustiska begrepp
(5), Akustiska begrepp Beskrivning av ljud Ljud som vi hör med örat är tryckvariationer i luften. Ljudet beskrivs av dess styrka (ljudtrycksnivå), dess frekvenssammansättning och dess varaktighet. Ljudtrycksnivå
Läs mer729G50 - Artificiell Intelligens Institutionen för Datavetenskap Linköpings Universitet HT 2007
729G50 - Artificiell Intelligens Institutionen för Datavetenskap Linköpings Universitet HT 2007 $,I UGMXSQLQJ 7DOLJHQNlQQLQJ 850329-2107 6DPPDQIDWWQLQJ Ett taligenkänningssystem kan vara konstruerat för
Läs merVad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar
1 Agenda Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 2 Nuvarande AI Funktioner en grov Analogi Rekommendation,
Läs merKursplan B. Svenska kursenheten
Kursplan B Svenska kursenheten Folkuniversitetets kurser i svenska som främmande språk Värdegrund På Folkuniversitetet ses språkinlärningen som en livslång process. Begreppet Kunskap förändrar innebär
Läs mer1. PRESENTATION... 3 2. SÄKERHETSFÖRESKRIFTER... 3. 2.1 Säkerhetsföreskrifter...3. 2.2 Användningsvillkor...3 3. BESKRIVNING AV INSTRUMENTET...
Användarmanual Tack för att Du har införskaffat en CA 834 Ljudnivåmätare. För att få ut mesta möjliga av ditt instrument så ber vi Dig att: Läsa användarmanualen noggrant Följa säkerhetsföreskrifterna
Läs merde var svåra att implementera och var väldigt ineffektiva.
OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan
Läs merTaligenkänning - har den en framtid som nyttoverktyg?
Taligenkänning - har den en framtid som nyttoverktyg? Examens arbete I, 10 p. Handelshögskolan vid Göteborgs Universitet Institutionen för Informatik HT 2001 Handledare: Göran Walske Författare: Zineta
Läs merTalperception. Talperception. Örat. Örat
Talperception Studiet av talperception handlar om lyssnarens förmåga att uppfatta den akustiska signalen som en talare producerar som en sekvens av meningsfulla ord och idéer Talperception Vi ska behandla
Läs merACOUSTIC FINGERPRINTING SYSTEMS
LINKÖPINGS UNIVERSITET - IDA ACOUSTIC FINGERPRINTING SYSTEMS Louise Walletun Artificiell Intelligens II 729G11 HT2012 Innehållsförteckning Inledning... 3 Attribut hos akustiska fingeravtryck... 4 Evalueringssystemet...
Läs merLafayette Smart Manual
Lafayette Smart Manual DC-31/70/155 Kontakt: 031-840430 Info@lafayette.se www.lafayette.eu Lafayette AB 2017 1 Innehållsförteckning Start s.3 Normalläget s.4 Kanalläget s.5 Snabbval/Favoriter förvalda
Läs merLife is on. Samspela fritt. Kommunicera med självförtroende. Lev ett liv utan gränser. Livet är nu. www.phonak.se www.dynamicsoundfield.
Life is on Vi är lyhörda för behoven hos alla dem, som är beroende av våra kunskaper, idéer och omsorger. Genom att utmana teknologins gränser på ett kreativt sätt utvecklar vi innovationer, som hjälper
Läs merFlerdimensionell signalbehandling SMS022
Luleå tekniska universitet Avd för signalbehandling Frank Sjöberg Flerdimensionell signalbehandling SMS022 Laboration 4 Array Processing Syfte: Syftet med den här laborationen är att få grundläggande förståelese
Läs merDT1130 Spektrala transformer Tentamen
DT3 Spektrala transformer Tentamen 5 Tentamen består av fem uppgifter där varje uppgift maximalt ger p. Normalt gäller följande betygsgränser: E: 9 p, D:.5 p, C: p, B: 6 p, A: 8 p Tillåtna hjälpmedel:
Läs merHör och härma. Röda boken lite lättare. Uttalsträning för nybörjare i svenska som andraspråk. Unni Brandeby
Hör och härma Röda boken lite lättare Uttalsträning för nybörjare i svenska som andraspråk Unni Brandeby spår 1 FÖRORD till den studerande Den här boken är till dig som just ska börja lära dig svenska.
Läs merARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap
ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full
Läs merIntroduktion. Koartikulation (1)
Det dynamiska talet - - Assimilation - - Ljudförändringar Introduktion Talproduktion består inte av diskreta, sekventiella enheter utan av ett kontinuerligt flöde av sammanflätade artikulatoriska gester
Läs merElektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-
Analogt och Digital Bertil Larsson Viktor Öwall Analoga och Digitala Signaler Analogt Digitalt 001100101010100000111110000100101010001011100010001000100 t Analogt kontra Digitalt Analogt få komponenter
Läs merTranskription och direktglossning av dialektinspelningar i SveDiaSyn
Transkription och direktglossning av dialektinspelningar i SveDiaSyn I SveDiaSyn finns det två tillvägagångssätt då inspelningar ska överföras till skriftspråk: transkription och direktglossning. En transkription
Läs merKommunikation och Interaktion
Kommunikation och Interaktion Innehåll Kommunikation Vad är Kommunikation? Kommunikationsmodeller Interaktion Vad är interaktion? Interaktionsmodeller Vad är kommunikation? Överföring av information från
Läs merFöreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.
Elektronik - digital signalbehandling Föreläsning: Digitalt Ljud Bengt Mandersson Hur låter signalbehandling Institutionen för elektro- och informationsteknik 2010-10-01 1 2008-10-06 Elektronik - digital
Läs merEngelskaläxa glosor samt fraser till berättelsen En sommar i Storbritannien
Instruktioner Part 1: Glosor - träna på att uttala, stava samt veta vad den svenska motsvarigeten till ordet är. Glosorna får du i pappersform varannan måndag (jämna veckor), för att sätta i din läxpärm.
Läs mer