Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Relevanta dokument
Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

FÖRSLAG TILL KURSPLAN INOM KOMMUNAL VUXENUTBILDNING GRUNDLÄGGANDE NIVÅ

TEACHING AND LECTURING

Det engelska språket omger oss i vardagen och används inom så skilda områden som kultur, politik, utbildning och ekonomi. Kunskaper i engelska

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING,

Förslag den 25 september Engelska

Taligenkänning med fördjupning på Hidden Markov Models

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Undervisningen i ämnet engelska ska ge eleverna förutsättningar att utveckla följande:

Mål som eleverna skall ha uppnått i slutet av femte skolåret Eleverna skall:

GÖTEBORGS UNIVERSITETSBIBLIOTEK

LEARNING ACTIVITIES AND TEACHING METHODS RECOMMENDED OR REQUIRED READING

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

3.6 Moderna språk. Centralt innehåll

Svårt att läsa och skriva

Kommentarer till bedömningsmatris för Tala Kurs D

Kravnivåer engelska år 8 Godkänt

Förslag den 25 september Engelska

MSPR 3.6 MODERNA SPRÅK. Syfte

Modersmål - jiddisch som nationellt minoritetsspråk

Vanliga frågor för VoiceXpress

Betyg i årskurs 6. Grundskolans läroplan Kursplan i ämnet engelska

Grund. Markera Användaren och välj Användarinställningar till vänster i Grids utforskare. Välj Talinställningar

Taligenkänning. - Anteckna direkt in i journalen med rösten. Anders Eidergard & Hanna Nilsson-Levin

ENGELSKA 3.2 ENGELSKA

Prövning i Moderna språk 3

Fonem eller grafem? Vilket ska komma först i sfiundervisningen? Margareta Molin

CMG Speech Attendant. Användarmanual. 19 februari PUBLIC

OBS! Inga lexikon eller liknande hjälpmedel är tillåtna..

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs B

ENGELSKA. Ämnets syfte. Kurser i ämnet

Maskinöversättning 2008

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Ämne - Engelska. Ämnets syfte

Artificial)Intelligence) Taligenkänning)

Kursplan B. Svenska kursenheten

Om ämnet Engelska. Bakgrund och motiv

Betyg i årskurs 6. Grundskolans läroplan

SVENSKA SOM ANDRASPRÅK

ViTal. Talsyntes. Användarhandledning

Kursplanen i svenska som andraspråk

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

Vad är fonetik? Vad är fonetik? Fonetikens tre huvudområden Produktion Akustik Perception. Men dessa kan appliceras på en mängd området som t.ex...

Kompensatoriska Tekniska Hjälpmedel - appar och andra verktyg. Cecilia Widlund, leg. logoped Logopederna Sverige AB

Appendix 4. Ordförklaringar och korta beskrivningar av test och skalor

Centralt innehåll. Läsa och skriva. Tala, lyssna och samtala. Berättande texter och sakprosatexter. Språkbruk. Kultur och samhälle.

Del ur Lgr 11: kursplan i engelska i grundskolan

Nationella prov och anpassning.

Kommentarer till bedömningsmatris för Tala Kurs C

Roger TM. Dynamic SoundField Anslut, slå på och börja undervisa

Läs- och skrivstöd för dator

Svenska Läsa

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Övergripande planering

Kursplan i svenska som andraspråk grundläggande GRNSVA2

Enkla inspelningsverktyg PowerPoint

Digitaliserad TROG-2 med manipulerad talhastighet

För prövning i Grundläggande Svenska gäller följande vid första tillfället:

Betygsskalan och betygen B och D

Virtuell språkundervisning Distans- och hybridkurser

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?

LäsFlyt Metodhandledning

Svenska som andraspråk

Alternativa verktyg en - pedagogisk utmaning

Kursplan i svenska grundläggande kurs Y

FÖRBÄTTRA DIN PREDIKTIVA MODELLERING MED MACHINE LEARNING I SAS ENTERPRISE MINER OSKAR ERIKSSON - ANALYSKONSULT

STÖDMATERIAL Kunskapskrav som understiger vitsordet åtta

Prövning i grundläggande engelska: GRNENG 2

svenska Syfte Kurskod: GRNSVE2 Verksamhetspoäng: KuRSplanER FöR KoMMunal VuxEnutBildninG på GRundläGGandE nivå 75

Lägga ll text och tal ll bild:

kunna diskutera och samtala fritt om olika ämnen och med stort sammanhang

INTERNATIONAL SPINAL CORD INJURY DATA SETS - QUALITY OF LIFE BASIC DATA SET Swedish version

Kursplan i svenska som andraspråk grundläggande kurs W

Kursplan - Grundläggande svenska

Prövning i Moderna språk 1

Tidiga tecken på läs- och skrivsvårigheter

Kursplan. PR1017 Portugisiska: Muntlig språkfärdighet II. 7,5 högskolepoäng, Grundnivå 1. Portuguese: Oral Proficiency II

Automatiserad kvalitetsbedömning av SOS samtal. Frida Hermansson-TUCAP

Övergripande planering

1. Vad är ett språk? 1. Vad är ett språk? 2. Språkets struktur och delar. 2. Språkets struktur och delar

Dikterare PMO Version 3.3.4

Appar vi arbetat med

Elevers användning av maskinöversättning vid skrivande på främmande språk.

AEC 7 Ch av 10. Detta ska du kunna (= konkretisering)

Kursplan - Grundläggande engelska

Kursplan i svenska grundläggande kurs GRNSVE2

Rockhammars skola Lokal pedagogisk planering (LPP)

Kommunal vuxenutbildning på grundläggande nivå

Modersmål meänkieli som nationellt minoritetsspråk

SVENSKA SOM ANDRASPRÅK

ANVÄNDARGUIDE VITAL & TALANDE TANGENTBORD

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

Betyg i moderna språk nu redan i år 6. Mia Smith, förstelärare Vallhamra skola, Partille

Uttalsutveckling med hjälp av IT-teknik

Word- sense disambiguation

Terminsplanering i svenska årskurs 8 Ärentunaskolan

Transkript:

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter Mikko Kurimo Institutionen för signalbehandling och akustik Aalto-universitetet

Innehåll 1. Hur automatisk taligenkänning fungerar 2. Taligenkänning för svenska och finska 3. Hur sker automatisk uttalsbedömning? 2

Mikko Kurimo Associate professor in speech and language processing Background from machine learning algorithms and pattern recognition systems PhD 1997 at TKK on speech recognition training algorithms Research experience in several top speech groups: Research Centers: IDIAP (CH), SRI (USA), ICSI (USA) Universities: Edinburgh, Cambridge, Colorado, Nagoya Head of Aalto speech recognition research group + several national and European speech and language projects Research topics: Speech recognition, language modeling, speaker adaptation, speech synthesis, translation, information retrieval from audio and video

Talsignalen representerad i frekvensspektrumet 21 olika särdrag räknas ut i 10ms intervall från ett effektspektrum

Ljudmodeller Hur ett ljud uppfattas beror på: talaren, talhastigheten, talstilen, talsituationen Andra faktorer som påverkar: bakgrundsljud, eko, mikrofonen, transmissionskanalen En exakt ljudmodell kräver: mycket taldata av lämplig kvalité, personliga (adapterade) modeller Tal Språkmodell Särdrag Ljud Decoder Taligenkännare Text

Språkmodellens uppgift Urskiljer meningar och ord som låter liknande och reducerar antalet alternativ som undersöks: - vilka ord förekommer tillsammans - definierar ord och morfem - beskriver ordens uttal som ljudsekvenser Kräver mycket lämplig data: - skrift- vs. talspråk - planerat vs. spontant Språkmodell - yrkesjargong Tal Decoder Särdrag Ljud Taligenkännare Text

Taligenkännarens uppgift: Räkna ut den mest sannolika meningen med tanke på: Inspelade talsignalen Ljudmodellen Språkmodellen Räknekapaciteten Språkmodell Tal Särdrag Ljud Decoder Taligenkännare Text

Igenkänningsnogrannheten beror på: Igenkännarens träning och testning: materialets storlek och lämplighet Inspelning och bakgrundsljud mikrofonen och avståndet Talare och talstil byte av talare talarens klarhet och stil Språket och talsituationen bok- vs. skriftspråk planerat vs. spontant yrkesjargong

Senaste doktorsavhandlingarna inom forskningsgruppen: Audiovisuell indexering och sökning (Ville, 2012) Språkmodeller och morfem (SamiV, 2012) Diskriminativ träning av ljudmodeller (Janne, 2013) Taligenkänning i brus (Ulpu 2016, Heikki 2016) Språkmodeller och morfologi (Matti, Stig-Arne, Peter, Teemu 2016) Talspråk, låneord och adaptering av språkmodeller (Seppo, Andre 2016) Talar-adaptering och talsyntes (Reima)

Andra projekt Unsupervised morphological analysis of words Speech and language modeling in brains Multimodal speaker segmentation and recognition Automatic captioning of multimodal data Pronunciation evaluation and helping to speak a foreign language

Applikationer inom taligenkänning 1.Diktering 2.Uttalsbedömning 3.Indexering 4.Användargränssnitt

1. Bearbetning och behandling av diktat Mål: En text som beskriver vad som sägs i diktatet. Behövs ingen perfekt transkription, men det väsentliga innehållet ska vara 100% rätt. Automatisk taligenkänning är ett viktigt hjälpmedel för att göra processen snabbare, men räcker oftast inte till på egen hand. För brev, rapporter och maskinöversättning borde texten vara felfri. Det sammal gäller för bedömning av språkkunskaper. Ett sätt att behandla svårbegripligt tal är att diktera om på nytt och spara till en skild inspelning som är sedan lättare för automatisk taligenkänning (vilket medför färre fel och det behövs mindre tid för att rätta texten).

Finsk och svensk taligenkänning Utmaningarna växer i pilens riktning nedåt Finska: Tiotals år av erfarenhet vid Aalto, igenkännaren gör inga större fel vid normaldiktering, WER 20% även utan talar-adaptering Svenska (standard rikssvenska): Påbörjat 2015, mycket tal- och textdata och hyfsat resultat, WER 23% Finlandssvenska: Lite data tillgängligt, sökes efter mera, igenkännare är under arbete. Finskspråkigas svenska: Kan samma system användas som för finlandssvenska? Kan träningsdata fås av YLE? Finskspråkiga skolelevers svenska: Data har samlats under det här projektet, igenkännare är under arbete.

Varför är skolsvenska svårt för taligenkännaren? För tillfället finns bara taligenkännare för rikssvenska, vilket inte motsvarar finskspråkigas uttal Skolbokstexter borde vara ok (borde inte vara svårare för rikssvenska språkmodeller!) Elevernas uppläsning är inte lika flytande som för svenskspråkiga och de kan göra fel Elevernas uttal kan vara ganska långt från nativt uttal och innehålla fel Det kan finnas mycket variation i ljudlängder och prosodi vilket medför problem

Observationer från de första taligenkänningsresultaten våren 2015 Stor variation mellan talare (20 bästa med i testet): Bra: munkka_2pgz 56.0% och munkka_jv5z 57.5% Dåliga: olari_4j53 106.5%, olari_k38w 110.4% Bakgrundsljud och andra inspelningssvårigheter är det största problemet för taligenkänning! WER% = (substitutioner+insertioner+deletioner) / (antalet ord) Exempel där WER är runt 42% (8 rätt, 6 fel): när folk frågar mig vad jag gör på fritiden måste jag ofta svara ingenting... => när folk frågade nej vajar gör fritt igen måste jag ofta svara ingenting...

De senaste resultaten Bakgrundsljud och inspelningsvårigheter minskade vid inspelningarna under hösten 2015, finlandssvenska nu det största problemet Igenkänningsnogrannhet (WER%): rikssvenska talare (Aalto/KTH) 23% / 24%* finlandssvensk: talar-/accent-/ingen adaptering 38% / 42% / 47%** gymnasisters skolsvenska: X% / 65% / 65%** (* KTH:s publicerade testdata) (**uppläsningar ur lärobok)

Applikationer inom taligenkänning 1.Diktering 2.Uttalsbedömning 3.Indexering 4.Användargränssnitt

Hur sker automatisk uttalsbedömning? olika bedömningskriterier: 1. Känner taligenkännaren igen ordet när det uttalas? 2. Hur nära är ordet från igenkänningströskeln? 3. Hur lika är dom olika ljuden jämfört med en modelltalare? 4. Hur lika är prosodin jämfört med en modelltalare?

Hur sker automatisk uttalsbedömning? olika bedömningskriterier: 1. Känner taligenkännaren igen ordet när det uttalas? nogrannheten inte stor för skolelever, kan känna igen vad som helst, modellerna motsvarar en genomsnittlig nativtalare 2. Hur nära är ordet från igenkänningströskeln? 3. Hur lika är dom olika ljuden jämfört med en modelltalare? 4. Hur lika är prosodin jämfört med en modelltalare?

Hur sker automatisk uttalsbedömning? olika bedömningskriterier: 1. Känner taligenkännaren igen ordet när det uttalas? nogrannheten inte stor för skolelever, kan känna igen vad som helst, modellerna motsvarar en genomsnittlig nativtalare 2. Hur nära är ordet från igenkänningströskeln? jämförs med ord som har liknande uttal ljudmodellerna kan adapteras till skolelever samma som igenkännarens pålitlighet, är ett rätt eller fel ord helt klart bäst 3. Hur lika är dom olika ljuden jämfört med en modelltalare? 4. Hur lika är prosodin jämfört med en modelltalare?

Hur sker automatisk uttalsbedömning? olika bedömningskriterier: 1. Känner taligenkännaren igen ordet när det uttalas? 2. Hur nära är ordet från igenkänningströskeln? 3. Hur lika är dom olika ljuden jämfört med en modelltalare? man matchar först rätt ord med talet man mäter hur nära de olika uttalsljuden är från modelltalaren modelltalaren kan väljas (och adapteras) till att vara så lik eleven som möjligt (men med rätt uttal) man kan mäta om ljuduttalen förbättras efter repetition 4. Hur lika är prosodin jämfört med en modelltalare?

Hur sker automatisk uttalsbedömning? olika bedömningskriterier: 1. Känner taligenkännaren igen ordet när det uttalas? 2. Hur nära är ordet från igenkänningströskeln? 3. Hur lika är dom olika ljuden jämfört med en modelltalare? 4. Hur lika är prosodin jämfört med en modelltalare? - man matchar först rätt ord med talet - ljudlängder - intonation och betoning (F0)

More demos, results etc. Kontaktuppgifter: Mikko Kurimo mikko.kurimo@aalto.fi http://spa.aalto.fi/en/research/research_groups/speech_recognition/demos