Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav



Relevanta dokument
Litteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?

Text-till-Talsyntes (TTS2)

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Stina Nyman

Taligenkänning - har den en framtid som nyttoverktyg?

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Text-till-Talsyntes (TTS3)

Fragment, ellipser och informationsberikade konstituenter

Ofelia en ny syntesröst

Studieplan och bedömningsgrunder i Engelska för åk 7

BARNS SPRÅKUTVECKLING

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

Hej! Det var allt för denna gång. Ha en trevlig helg! Med vänlig hälsning. Thomas

Marika Edoff. En intervju av Peter Du Rietz 22 oktober 2008

Dagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

Ready for Academic Vocabulary?

Automatisk igenkänning av tal och talare. Automatisk igenkänning av tal. Översikt - taligenkänning. Varför taligenkänning?

Preschool Kindergarten

Särskild avgift enligt lagen (2012:735) med kompletterande bestämmelser till EU:s blankningsförordning

Travel General. General - Essentials. General - Conversation. Asking for help. Asking if a person speaks English

Mönster. Ulf Cederling Växjö University Slide 1

Digitaliseringens påverkan på samhället MÄNNISKA MÖTER MASKIN EN SAMSYN KRING BEGREPPET DIGITAL KOMPETENS

Det är vår igen alla knoppar brister ut

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

MÅL ATT UPPNÅ (FRÅN SKOLVERKET)

En uppsats i Språkteknologi av Niklas Vargensten e-post: d99-nva@d.kth.se

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Överblick. Dialogsystem. En dialogsystemsarkitektur. Dialogsystemsarkitektur. Talförståelse. Dialoghantering

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Smartair System. TS1000 Version 4.23

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Kan en robot skriva teknisk information? Exempel från Wikipedia. Sverker Johansson Högskolan Dalarna

Kommentar till bilderna. Att spara hörsel för framtiden. Bara det värdefulla är vi beredda att skydda! Hörseln vad kan vi förstå?!

EXPERT SURVEY OF THE NEWS MEDIA

HörStöd. Taligenkänningsteknik som hjälpmedel för hörselskadade vid telefonsamtal. Mikael Salin. Handledare: Mats Blomberg och Kjell Elenius

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

MOBILTELEFONI. Julia Kleiman, Frida Lindbladh & Jonas Khaled. tisdag 15 maj 12

Heteronormer i vardagen - Så funkar de språkligt

Målet är att ge maskiner förmågan att plocka ut information ur

Att vara delaktig på distans

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

Särskild avgift enligt lagen (2012:735) med kompletterande bestämmelser till EU:s blankningsförordning

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Business Model You Din personliga affärsplan framtagen på åtta timmar.

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

English. Things to remember

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Protokoll studienämndsmöte 1 25/ Rapporter från råd

Campuskurs Distanskurs Annan. Examinator Remigijus Gustas

Innehållsförteckning. Kapitel 1

Lektion 3. Anteckningar

Utförligare beskrivning av Yellofier

Elektronisk patientjournal

Barn lär av barn. Flerspråkighet i fokus, Stockholms universitet, 4 april 2016 Ellinor Skaremyr

Questionnaire for visa applicants Appendix A

Chapter 1 : Who do you think you are?

Kognitiva hjälpmedel/ begåvningshjälpmedel. Definitioner och bakgrund

För support videos, webinstruktioner och mer information besök oss på

Fonetik och fonologi, 7,5 hp 2LG023 Logopedprogrammet

Telefonienkäter framställda utifrån webbenkäter. Konvertering från HTML till VoiceXML. Anna Lindström, STP07

Person 33. Basic Information. Studies. Enskilda enkäter för Utbytesrapport/Exchange Report

Word- sense disambiguation

MIN Drömplan. Uppföljningstillfällen: Mitt förslag är att avsätta 4 tillfällen kvartalsvis under ett år för att följa upp din drömplan.

Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?

Särskild avgift enligt lagen (2012:735) med kompletterande bestämmelser till EU:s blankningsförordning

ORCID medlemskap och implementering vid Chalmers

Förtroende ANNA BRATTSTRÖM

Join the Quest 3. Fortsätt glänsa i engelska. Be a Star Reader!

Äldre som beslutsfattare. Pär Bjälkebring Doktorand, Psykologiska Institutionen Göteborgs Universitet

Ontologier. Cassandra Svensson

Mödradödlighet bland invandrarkvinnor

Max Walter Skype Skype Skype Max Walter

Rapport från Praktik på SVOX AG till

Vår anläggning Our venue

1. Hur många timmar per vecka har du i genomsnitt lagt ner på kursen (inklusive schemalagd tid)?

Arbetsmarknaden för högutbildade utrikesfödda en jämförelse mellan personer födda i annat land än Sverige och personer födda i Sverige

Wittgenstein for dummies Eller hur vi gör det obegripliga begripligt. Västerås 15 februari 2017

ANVÄNDARMANUAL. handdatorer i ängs- och betesmarksinventeringen. för

Småprat Small talk (stressed vowels are underlined)

Ungdomsgruppen 18 april

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Ansvarig lärare: Annika Fällman LAG NORD.

GOOD STUFF GOLD 2. PROVLEKTION: A pink jellyfish

En liten introduktion till Community på GR-SLI

Appendix 4. Ordförklaringar och korta beskrivningar av test och skalor

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Inledning till Wavesurfer av Christine Ericsdotter (Lingvistik, Stockholms universitet)

Insamlingsforumbilden. Den nya givaren

Hvordan kan tilrettelegging bidra til mestring av arbeidsdagen?

Webbregistrering pa kurs och termin

CHEMICAL KEMIKALIER I MAT. 700 miljoner på ny miljöteknik. Rester i mer än hälften av alla livsmedel

E-post, chat mm. E-post, chat mm. E-post, chat mm. E-post, chat mm. E-post, chat mm. E-post, chat mm

Särskild avgift enligt lagen (2012:735) med kompletterande bestämmelser till EU:s blankningsförordning

Att använda flipped classroom i statistisk undervisning. Inger Persson Statistiska institutionen, Uppsala

Kursutvärdering Ämne: SO Lärare: Esa Seppälä/Cecilia Enoksson Läsåret Klass: SPR2

ANVÄNDARHANDBOK KXT 441 Plus

F5 Introduktion till digitalteknik

Transkript:

Talteknologi introduktion Rebecca Jonson Doktorand i Språkteknologi (GSLT, Lingvistik Gbg) AAST-kursen VT 2007 Computers are getting smarter all the time; scientists tell us that soon they will be able to talk with us. (By they, I mean computers; I doubt scientists will ever be able to talk to us.) Dave Barry Hur realistisk var HAL? Dagens situation? HAL : superdatorn i Kubricks film, 2001: A Space Odyssee från 60-talet. HALs talteknologibeteende: hörde, kände igen och förstod tal talade med människoliknande röst och förstod dessutom vad den sa (kunde dessutom en hel del annat d v s AI) Hur talar dagens datorer, år 2007? Kursupplägg Talteknologikursen Intro till talteknologi Akustiska elementa + Digital signalbehandling Text-till-talsyntes (TTS) * 3 Lab1 TTS utvärdering av TTS-system Lab2 TTS mbrola + festival domänsyntes (Jonas Lindh) Sannolikhetslära *4 (Björn Haglund) Taligenkänning (ASR) * 5 Lab3 ASR Nuance tutorial + Nuancelab Talteknologi och dialogsystem * 2 (Jag och Stina Ericsson) Tenta (2 april) Kurskrav Godkända labbar Lab1 TTS utvärdering av TTS-system Lab2 TTS mbrola + festival Lab3 ASR Nuance Godkänd tenta Betyget baseras på tentan 1

Litteratur TTS Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University sid. 1-28 Dutoit, T. A Short Introduction to Text-to-Speech Synthesis. Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System (Vissa kapitel) Black, A., and Lenzo, K. Limited domain synthesis. In ICSLP200 (Beijing, China., 2000). Jurafsky, D & Martin, J. (2000) Speech and Language Processing. Eller senare utgåva i paperback Litteratur ASR Jurafsky, D & Martin, J. (2000) Speech and Language Processing. Blomberg, M & Elenius, K. Automatisk igenkänning av tal. R.P. Lippman (1997) Speech recognition by machines and humans. Steve Young,(1996). Large Vocabulary Continuous Speech Recognition: a review. G. Gorrell (2003) Language Modelling for Spoken Dialogue Systems; Grammar-based and Robust Approaches Compared and Contrasted Övrig litteratur Artiklar och utdrag ur böcker som delas ut Litteratur för Statistikbiten finns att hämta hos Ritva (Malmgren, kap 2.1 ur Manning & Schütze)! Litteratur dagens lektion Jurafsky & Martin: kap1 Donovan: 1.2, 1.4.2 Fördjupningslitteratur Vad är talteknologi? Automatisk produktion och perception av tal och röster. Områden inom Talteknologi Taligenkänning (ASR:Automatic Speech Recognition) Text-till-talsyntes (TTS: text-to-speech synthesis) Talarigenkänning (Speaker recognition) Talarverifiering (Speaker verification) Språkigenkänning 2

Varför talteknologi? Effektivt gränssnitt Talet naturligt sätt att interagera (snabbare inlärning) Mycket information koncist Språket kan uttrycka komplexa saker Tillåter fria händer och syn Fungerar i mörker, kyla etc. Små skärmar (handdator, mobil) Slipper menystruktur med alternativ Kommersiellt intresse Användningsområden Handikapphjälpmedel (Speech/Sight impairment) OCR till talsyntes för blinda Läser upp tidningstext Stephen Hawking (talprotes) Multimedia Talande böcker och leksaker Interaktiva spel Språkinlärningsprogram Där talande meddelanden är mer effektiva än text olika kontrollsystem, PDA, i bil, mobiler Människa-datorinteraktion (Dialogsystem) Översättning Telefontjänster Uppläsning av information från databaser Email, fax Vad är text-till-talsyntes (TTS)? TTS kort historik Omvandling av text till syntetiskt tal Automatisk produktion av nya meningar till skillnad från Voice Response Systems som kombinerar redan inspelad bitar (ord eller fraser). Datorsystem som talar eller läser upp vilken given text som helst. (enligt Dutoit) Kräver dels signalbehandling (DSP) men också språkbehandling (NLP) ~1780 Von Kempelen (artikulatorisk syntes) Mekanisk maskin som härmade talproduktionen (blåsbälg) 1936 Voder (Dudley) Elektronisk syntes som styrdes manuellt (typ piano-keyboard) 1953 OVE-1, Gunnar Fant KTH Studie av spektrogram av yttrandet och sedan inmatning av parametrar 1967 OVE 3 (formantsyntes) 1968 Haskins lab Pattern Playback Syntetisering utifrån avläsning av skrivna spektrogram 1972 Bell TTS 1978 Speak and Spell 1983-.. Infovox (formantsyntes) 1983-.. DecTalk (formantsyntes) 1985 Bell Labs (diphone) Idag: Konkateneringssyntes vanligast kommersiellt Formantsyntes fortf. inom forskning Talsyntesmetoder Artikulatorisk syntes Modellering av människans talproduktion Formantsyntes Modellering av resulterande talsignal Konkateneringssyntes Ihopsättning av inspelade talsegment till nya talproduktioner Syntesexempel Engelska Svenska 3

Talande huvuden Animerade agenter som artikulerar synkront med talsyntes. KTH:s August Vad är taligenkänning? Automatic Speech Recognition (ASR) En dators igenkänning av naturligt tal System som identifierar en talsignal och mappar den till ett språkligt yttrande Automatic Speech Understanding (ASU) En dators förståelse av naturligt tal En talsignal tolkas till en representation av ett språkligt yttrande ASR- kort historik Stanford AI researchers perfected a talking and listening handyman robot, which was sent out to solicit research funds door to door. The robot rolled up to its first house and rang the bell: Robot: I am Stanford s handyman robot. Tell me a task, and I will do it for $5 per hour. This money will be applied to further research in AI. Human: $5 an hour? Sounds great! Can you paint? Robot: My painting is of highest quality. Human: OK. See that paint brush and bucket of paint? Take them out back and paint the porch. Robot: Your request will be fullfilled, courtesy of Stanford. (The robot trundles off to do his job and returns in an hour). Robot: The task is complete. Please deposit $5 to aid in further research. Human: (Handing over the cash) This was a great deal! Come back again! Robot: (While leaving) Oh by the way, it wasn t a Porsche. It was a BMW 20-talet Radio Rex Leksakshund som reagerade på sitt namn Rex (eller andra ljud med samma energi som vokalen i ordet Rex) 50-talet Bell Labs (talarberoende, isolerade siffror) jmf spektral energi, fåordsigenkänning, några talare 1959 Denes: en enhet är inte bara akustiskt beroende utan även lingvistiskt (grammatik) 1960-talet Nummerigenkänning flera talare Spektrala uppskattningstekniker: FFT, LPC, Cepstral analys Mönsterigenkänningstekniker: DTW, HMM 1970-talet ARPA projektet: uppnå < 10% semantisk felaktighet i talförståelse 1000-ords ASR, få talare, grammatik 1973 första kommersiella systemet 1980-talet TalKorpusinsamling ATIS (Air Travel Information Systems) dialogsystem, talförståelse Nya Front-end tekniker (HMM., mel cepstrum, delta cepstral coeff.) CMU, SRI, MIT-Lincoln, Philips, Bell, IBM HTK-toolkit (HMM) av Cambridge University Neurala Nät Idag: Statistiska metoder vanligast Kommersiell användning i dialogsystem samt i dikteringssystem Indelning av igenkänningsmetoder Vad känner systemet igen? Ord Kommandon Diktering Dialog Spontant tal Vem känner systemet igen? Talarberoende (en talare) Talaroberoende (alla talare) Igenkänningsmetoder Mönsterigenkänning (Äldst) Jämförelse av två spektrala tidsserier Dynamisk Programmering används för att kompensera för varierande talhastighet Hidden Markov Models (HMM) (Vanligast) Representerar talets segmentella struktur Viterbi-avkodning (form av DP) Artificiella Neurala Nätverk (ANN) Huvudsakligen för fonetisk klassning I kombination med HMM Kunskapsbaserade system Baserar sig på fonetisk, lingvistisk kunskap om tal. Ex: som en skicklig spektrogramläsare 4

Taligenkänningsprodukter Scansoft Dragon Systems Dragon Naturally Speaking Lernout & Hauspie RealSpeak IBM ViaVoice (Diktering) Nuance CMU Sphinx HTK toolkit Microsoft (Whisper, SAPI) Apple (Plaintalk) Talarverifiering/Talarigenkänning Talarverifiering (Speaker verification) Avgöra om talaren är den har utgör sig för att vara Talarigenkänning (Speaker identification) Avgöra vem talaren är Automatisk Språkigenkänning (Spoken Language Identification) Automatiskt avgöra vilket språk som talas Igenkänning av språk från korta talsegment för att kunna koppla in rätt språk i ett dialogsystem/taligenkänning eller koppla till rätt operatör Enklare för text där man kan utgå från typiska symboler i språket (t ex åäö) http://complingone.georgetown.edu/~langid/ Vilka är de stora akustiska, perceptuella och lingvistiska skillnaderna mellan språk? Dagens forskningssystem ger 80% korrekthet på 11 språk Talteknologi behandlar Talspråk Ett fragment från Gothenburg Spoken Language Corpus (GSLC): $C: så tretti{o}åtta kroner blir de{t} då $M: (han där) (...) $B: va e0 de{t} här då // e0 re0 en jul < nisse > $S: ne{r} de{t} e0 (gamla) $B: vaffö köpe ru gamla [6 fö{r} ]6 $S: [6 men ]6 varför har ni tryckt priserna på dom här då $C: e0 för vi har så många av dom $S: ni ha [7 (...) ]7 $C: [7 (...) ]7 vi har inte så många av $S: okej och talande Dialogsystem behandlar dialog och allt vad det innebär! 5