Talteknologi: Rolf Carlson Tal, musik och hörsel



Relevanta dokument
Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Read, work and talk! - och Lgr 11

Webbregistrering pa kurs och termin

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

Writing with context. Att skriva med sammanhang

Utvärdering SFI, ht -13

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Travel General. General - Essentials. General - Conversation. Asking for help. Asking if a person speaks English

Småprat Small talk (stressed vowels are underlined)

Unit course plan English class 8C

Fragment, ellipser och informationsberikade konstituenter

Chapter 1 : Who do you think you are?

English. Things to remember

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

MÅL ATT UPPNÅ (FRÅN SKOLVERKET)

Boiler with heatpump / Värmepumpsberedare

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

6 th Grade English October 6-10, 2014

Support Manual HoistLocatel Electronic Locks

Resa Att ta sig runt. Att ta sig runt - Platser. I am lost. Du vet inte var du är

Resa Att ta sig runt. Att ta sig runt - Platser. Du vet inte var du är. Be om att bli visad en viss plats på en karta. Fråga om en viss servicepunkt

samhälle Susanna Öhman

Webbreg öppen: 26/ /

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Beijer Electronics AB 2000, MA00336A,

Evaluation Ny Nordisk Mat II Appendix 1. Questionnaire evaluation Ny Nordisk Mat II

Introduction to the Semantic Web. Eva Blomqvist

Listen to me, please!

Preschool Kindergarten

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

VAD SKULLE DU HA VALT PDF

- den bredaste guiden om Mallorca på svenska! -

Protokoll Föreningsutskottet

Consumer attitudes regarding durability and labelling

Stort Nordiskt Vänortsmöte maj Rundabordssamtal Hållbar stadsutveckling, attraktiva städer 20 maj 2016

Användning av Erasmus+ deltagarrapporter för uppföljning

Överblick. Dialogsystem. En dialogsystemsarkitektur. Dialogsystemsarkitektur. Talförståelse. Dialoghantering

Försöket med trängselskatt i siffror


Studieteknik för universitetet 2. Books in English and annat på svenska

LUNDS TEKNISKA HÖGSKOLA Institutionen för Elektro- och Informationsteknik

Kursplan. PR1017 Portugisiska: Muntlig språkfärdighet II. 7,5 högskolepoäng, Grundnivå 1. Portuguese: Oral Proficiency II

Att använda data och digitala kanaler för att fatta smarta beslut och nå nya kunder.

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Sri Lanka Association for Artificial Intelligence

Materialplanering och styrning på grundnivå. 7,5 högskolepoäng

Adding active and blended learning to an introductory mechanics course

Michael Q. Jones & Matt B. Pedersen University of Nevada Las Vegas

Support for Artist Residencies

Questionnaire for visa applicants Appendix A

Focus on English 9. Teacher s Guide with Projects

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH PRELIMINARY LSPSWEP/0Y09

Lesson 1. Lektion 1. Facebook: Svenska för Nyanlända Hello, my name is Hussein. I live in Åre.

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

Förmåga att läsa och förstå: Elevsvar

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

Authentication Context QC Statement. Stefan Santesson, 3xA Security AB

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Vässa kraven och förbättra samarbetet med hjälp av Behaviour Driven Development Anna Fallqvist Eriksson

V 4. Veckan som gått. APT 9 Februari. Förskolan stänger Föräldrarådsmöte 24 Februari. Kl. 18:00. APT 10 Mars. Förskolan stänger kl16.


#minlandsbygd. Landsbygden lever på Instagram. Kul bild! I keep chickens too. They re brilliant.

Andy Griffiths Age: 57 Family: Wife Jill, 1 kid Pets: Cats With 1 million SEK he would: Donate to charity and buy ice cream

PLANERING FÖR ENGELSKA LAG SYD ÅK 7

Quick Start Guide Snabbguide

Tummen upp! Engelska åk 3

Immigration Studera. Studera - Universitet. Ange att du vill anmäla dig. Ange att du vill anmäla dig till en kurs. Kurs.

Immigration Studera. Studera - Universitet. Ange att du vill anmäla dig. Ange att du vill anmäla dig till en kurs. Kurs. Typ av kurs.

Focus on English 7. PROVLEKTION: the Present Continuous

The Municipality of Ystad

Haparanda ht Engelska år 1 5. Under åren 1 5 arbetar eleverna med bland annat följande områden:

Problem som kan uppkomma vid registrering av ansökan

Blueprint Den här planeringen skapades med Blueprints gratisversion - vänligen uppgradera nu. Engelska, La06 - Kursöversikt, 2015/2016.


Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Att fastställa krav. Annakarin Nyberg

F18-förbundets årsmöte

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning. Jens Edlund KTH Tal, Musik och Hörsel

Provlektion Just Stuff B Textbook Just Stuff B Workbook

2.1 Installation of driver using Internet Installation of driver from disk... 3

Grafisk visualisering

Ökat personligt engagemang En studie om coachande förhållningssätt

Talbaserade multimodala dialogsystem för medicinsk rådgivning

Workplan Food. Spring term 2016 Year 7. Name:

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

Engelska åk 5 höstterminen 2013

Listen to me, please!

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

TRENDERNA SOM FORMAR DIN VERKLIGHET 2014 ÅRETS IT AVDELNING

Uttagning för D21E och H21E

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Every visitor coming to the this website can subscribe for the newsletter by entering respective address and desired city.

Transkript:

Talteknologi och dialogsystem Rolf Carlson, Centrum för Talteknologi, KTH, KTH http://www.speech.kth.se CTT - Centrum för talteknologi Forskningsområden Talproduktion Talperception Kommunikationshjälpmedel Multimodal talsyntes Automatisk talförståelse Talarkaraktärisering Talat språk Interaktiva dialogsystem The KTH speech group -Early days Open source software from TMH http://www.speech.kth.se/software/#wavesurfer Snack library for speech analysis WaveSurfer analysis tools Gunnar Fant and OVE I 1953 Namn Talteknologi Talteknologi, utökad kurs Spektrala transformer för Media Musikakustik Musical communication & music technology Elektroakustik Audioteknik Orkesterspelets teori Orkesterspelets praktik Elektroprojekt Medieteknik grundkurs (avsnitt Ljud) Nr 2F1111 2F1112 2F1120 2F1212 2F1213 2F1400 2F1410 2F1601 2F1602 2U1700 2D1574 Årskurs D3-4, E4, F4 Media 3-4 Media 3-4 D4, E4, F4 Media 3-4, E4, D4 E4-5, M4-5 Media 3-4, E4, D4 alla alla E1 Media 2 Period 3 3 2 4 4 1 2 3-4 1-2 Poäng 4 5 4 4 5 4 5 6 6 5 12 The Hype Cycle for Emerging Technologies Breakthrough High expectations Disappointments Education Production Källa: Teknisk Tidskrift augusti 2005 Gartner Group 1

Academia and Industry Money in Speech Technology academia dialog linguistics natural interfaces feedom user in control applications voice user interface task completion system, in control Hosting Applications Platforms Base Technology $$$ dialog engeneering industry R&D Talteknologi - tvärvetenskap Översikt av området Automatisk talförståelse Multimodal talsyntes Talbaserade dialogsystem Perception Produktion Fonetik Fysiologi Syntes Igenkänning Signalbehandling Lingvistik Generering Statistik Förståelse Datateknik Människamaskin Dialogkontroll Semantik Kunskap Fonetik Fonologi, Morfologi fonetik fonetik fonologi morfologi hov#mäst-ar-n två Frekvens khz Tid ms 2

Syntax Semantik, Pragmatik fonetik fonologi morfologi syntax semantik fonetik fonologi morfologi syntax semantik pragmatik Domän Världsmodell fonetik fonologi morfologi syntax semantik pragmatik diskurs domän fonetik fonologi morfologi syntax semantik pragmatik diskurs domän linjär presentation sammanfattning domänprediktion Taligenkänning Känn först igen talljud mät talsignalens spektrum 100 ggr per sekund Matcha talljuden mot ett lexikon innehåller uttalet av de tillåtna orden Sätt samman ord till meningar ta hänsyn till hur troligt det är att orden följer på varandra Svårigheter - stor variabilitet Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Sinnesstämning Hälsotillstånd Formellt / Spontant Reduktioner Minsta ansträngning Omgivning Additivt brus Rumsakustik Mikrofon, Telefon Bandbredd Störningar brus frekvensgång transienter klickar Lyssnare Ålder Modersmål Hörsel Bekant / Okänd Människa / Maskin 3

Överlappning mellan vokaler för olika talare Spridning för de två lägsta resonansfrekvenserna (F1 och F2) hos isolerade svenska vokaler uttalade av manliga och kvinnliga talare (G Fant) Främre vokaler har väsentlig överlappning. Olika talparametrar Filterbanksamplituder (FFT) talets spektrum var 10 ms Mel-skala - baserad på örats frekvensupplösning Cepstrum inversfouriertransform av logaritmiskt spektrum - ortogonala Artikulatoriska parametrar nära kopplad till talproduktionen komplicerade att beräkna Hörselbaserade parametrar förenklad modellering av hörseln lovande resultat för tal stört av buller och brus Spontant och hyperartikulerat tal Kompensera för talhastighet Ingen kompensering Linjär töjning Va jobbaru me Va jobbaru me Olinjär töjning, Dynamic Time Warp (DTW) Utförs med dynamisk programmering (DP) Vad jobbar du med Vad jobbar du med Statistiskt baserad taligenkänning Analys Fonemmodeller akustisk beskr. Lexikon vokabulär + fonemtranskription Kunskap 16 khz 100 Hz FFT Parametrisering Spektralanalys Språkmodell möjliga ordföljder Kontinuerlig Klassificering Diskret Sökning Jämförelse N-best N-best N-best N-bästa Meningsförståelse Vald mening Svenska dialekter Flyget, tåget och bilbranschen tävlar om lönsamhet och folkets gunst. Född i USA ex-jugoslavien 4

Störningar och annat Mobiltelefoni bil, trottoar, restaurang Bengt Dennis ger inga avskedsintervjuer inför sin avgång vid årsskiftet Det handlar bara om ett glapp på 18 månader Dialektalt uttryckssätt Han försökte förgäves rädda sin hustru på övervåningen Den mänskliga faktorn Kvinnan är mycket nära en total kollaps och gråter oupphörligt Sannolikhetsbaserad igenkänning Bayes regel för betingade sannolikheter P( Ord / Akustik ) = P( Akustik / Ord ) P( Ord ) P( Akustik ) P(Ord/Akustik) är a posteriori sannolikheten för en ordföljd givet den akustiska informationen. P(Akustik/Ord) är sannolikheten att ordföljden genererar den akustiska informationen och beräknas i ett träningsmaterial. P(Ord) ges av språkmodellen och är a priori sannolikheten för ordföljden (N-gram). P(Akustik) kan ses som en konstant eftersom den är oberoende av ordföljden och kan ignoreras Kombinerar akustisk och språklig kunskap! En Markovprocess Synlig Markovprocess Exempel: Vädret Modelleras med tillstånd förbundna med bågar med övergångssannolikheter Saknar minne Förloppet beror enbart på det aktuella tillståndet, ej på historien Nederbörd Molnigt 0.3 0.5 0.8 Soligt S 1 S 2 S 0.2 3 0.7 0.5 Processens tillstånd är direkt observerbart Dold (Hidden) Markovprocess Exempel: Vädret betraktat genom en gardin Språkmodeller för igenkänning Nederbörd Molnigt N-gram (ordföljdssannolikheter) ger bra resultat trots sin enkelhet bigram: P(w i w i-1 ) trigram: P(w i w i-2, w i-1 ) Klasspar/Ordpar om träningsmaterial saknas Soligt Processens tillstånd är inte direkt observerbar Man kan göra indirekta, relaterade observationer som ljusstyrka, skarpa skuggor, ljud av regndroppar, lyssna på radio, osv. 5

Tillämpningens svårighet - språkets perplexitet 2 H = P( W) log P( W) W B = 2 H B perplexiteten för givna tillämpningen H entropin för den givna tillämpningen P(W) sannolikheten för ordsekvensen W i det givna språket Perplexiteten ger ett mått på det genomsnittliga antalet ord som kan följa efter ett givet ord. Exempel: För siffersekvenser är B = 10, om alla siffror är lika sannolika i alla positioner. Måttet tar ingen hänsyn till den fonetiska skillnaden mellan olika ord. abcd text Språkidentifiering Lingvistisk analys Prosodisk analys Fonetisk beskrivning Sammansättning Ljudgenerering Text-till-tal (TTS) Morfologisk analys Lexikon och regler Syntaxanalys Regler och lexikon Regler och enhetsval Regler Vad är talsyntes? Inspelat mänskligt tal ord och fraser fix vokabulär Systematiskt inspelat fragmenterat tal en fix talare spela in övergångar mellan talljud, "difoner" Parametrisk syntes (helt konstgjord) formantsyntes artikulatorisk syntes Syntes med fler modaliteter t ex talande ansikte Artikulatorer Syntesmetoder Ansatsrörets form Källa Tuber Elektriskt nät Resonanser Läppar Källa-filterteori Pia odlar blå violer TID: källa (flödet från stämbanden) FREKVENS: filter (talrörets form) strålning (läppar) Original Synthesis Carlson, R. Granström, B., and Karlsson, I.(1990): "Experiments with voice modeling in speech synthesis," 6

PSOLA 1950 Synthesis by analysis 1960 Phonetic Rules 1970 Linguistic Rules 1980 Concatenation 1990 Automatic procedures 2000 Pitch pulses moved in time to fit F0 contour Conceptually simple and computationally efficient - Need for precise pitch pulse marking - Could not handle spectral interpolation Unit selection Unit selection - BrightSpeech Large databases of recorded natural speech Minimal processing Annotation of database what information is needed? Synthesis defaults to transcription and search problem Few cuts > maximally long units selected (but context and prosody must fit well) Target and concatenation costs Swedish Norwegian Talking head Combining interior and exterior registration Parametric 3D model Articulatory based parameters Rule based control speech gestures Tools for character creation Windows, linux, unix Listening & Thinking 7

Example of resynthsis Dialogsystem vid KTH Dialogsystem vid KTH Dialogsystem vid KTH Dialogsystem vid KTH The HIGGINS domain Multimodalt dialogsystem AdApt multimodala dialogsystem Användare kan diskutera och utvärdera lägenheter till försäljning i Stockholm. Samarbeta med en talande agent, Urban 8

Dialogfenomen Wizard of Oz Har du inget billigare? Implicit referens, ellips, kontext Berätta mer om den andra lägenheten! Meta-referens Vad menar du med charmig? Domän-fråga Hur stor del av systemet tar Wizard hand om Hela systemet Delar av systemet Igenkänning Syntes Dialoghantering Kunskapsbas Vilka krav ställs på Wizard Skall man markera felaktigheter Skall man tillföra information Vad får man säga och hur Vilka hjälpmedel har Wizard Wizard-of-Oz data collection Pictorial scenarios The Wizard s graphical interface Adapt demonstration av komplett system Waxholmssystemet Turistinformation Stockholms skärgård tidtabeller, restauranger, hotell... Blandat initiativ taligenkänning multimodal syntes Grafisk information bilder, kartor och tidtabeller. 9

Waxholmsystemet Inmatning Talspråk Ord Ordklasser Semantisk information Uttal Databas Båttidtabeller, Hamnpositioner, Hotell, Restauranger, Mm. Lexikon Igenkänning Igenkänning Databas- Databas- Sökning Sökning Grafik Grafik Tal Tal Grammatik Grammatik & & semantik semantik Dialogkontroll Dialogkontroll Akustisk Akustisk och och visuell visuell Talsyntes Talsyntes Kartor och tabeller Tal Utmatning Simulering med Wizard Kontextkänsliga Regler och nätverk Ljud Ljud Inspelningar grammatik / semantik omstart, instopp, strykningar nya ord extralingvistiska ljud reduktioner störningar omgivningsljud, teknisk distortion The Waxholm system Tre år senare. There Information Which are When I Is Waxholm am I lots Which think day This it possible looking do of about I of Where want is I boats the hotels a Thank is can table hotels the evening to for The week shown the to is from to go are restaurants I boats eat Waxholm? you go find of hotels city tomorrow you is do Stockholm the in on boats shown too hotels? you Waxholm? boats... this in want depart? in map Waxholm this to to go? table is on a Friday, From is At where shown what do in time in you this do want table you to want go to go? I stället för WOZ Boostrap av systemet Träning av Jupiter Gör ett enkelt men komplett system och testa Tala om för dina kompisar att det finns en häftig demo på telefonnummer. Samla in data Uppdatera systemet 10

Automatisk talförståelse Speech understanding some aspects a b... dynamisk ordanalys paus hej paus paus hej paus paus hej paus paus hej paus paus hej paus grammatisk analys semantisk analys dialoganalys paus nej paus Bigram Tight coupling Keyword spotting Phrase spotting Full grammatical and semantic analysis OOV out of vocabulary Kunskapskällor - värdering Syntaktisk analys Akustisk analys Syntaktisk analys Semantisk analys Dialogstatus Dialogkontext Konfidens Förväntan Filter Jag vill åka... Disfluency examples from Adapt Parser score 12.26 Jag vill åka från Stockholm till Vaxholm. I want to go from Stockholm to Vaxholm. 11.99 Jag vill åka till Vaxholm från Stockholm. I want to go to Vaxholm from Stockholm. 10.01 Jag vill åka till Vaxholm. I want to go to Vaxholm. 9.85 Jag skulle vilja åka till Vaxholm. I would like to go to Vaxholm. 5.30 Jag vill åka. I want to go. 3.17 När går det en båt till Vaxholm? When does a boat go to Vaxholm? -1.32 När går båten till Vaxholm? When does the boat go to Vaxholm? -1.95 Jag vill åka till mamma. I want to go to my mother. rättelse avbrutet pauser feluttal förlängning rättelseterm det är lite för... lite för sent tidigt finns det nån ehm... liknande lgh in/~området med som är byggd på 1800talet hur se/ eh... är köket eh utrustat uhm... högt till tak och eh... kanske någon kakelugn... och balkong gärna iii söderläge är den eh nyredo~ nyrenoverad huuurrr ser gatan ut jag vill gärna ha en lägenhet med... utsikt... nej med balkong 11

Distribution of Disfluenices Generering Proportion of Disfluencies Disfluency Position 0,40 0,30 0,20 0,10 0,00 0,00 0,20 0,40 0,60 0,80 1,00 Position of Current Word / Total Words 5-8 words 9-12 words 13-16 words Fasta yttranden Fasta ramar som kan fyllas i Parafrasering Switch board data, Liz Shriberg, Thesis, SRI Systemets yttranden Yttrandena skall avspegla systemets vokabulär och lingvistiska kapacitet användarna anpassar sig Korta yttranden användarna anpassar sitt språk Snälla felmeddelanden använd ord och frastyper som systemet klarar av User answers to questions? The answers to the question: What weekday do you want to go? (Vilken veckodag vill du åka?) 22% Friday (fredag) 11% I want to go on Friday (jag vill åka på fredag) 11% I want to go today (jag vill åka idag) 7% on Friday (på fredag) 6% I want to go a Friday (jag vill åka en fredag) - are there any hotels in Vaxholm? (finns det några hotell i Vaxholm) User answers to questions? The answers to the question: What weekday do you want to go? (Vilken veckodag vill du åka?) 22% Friday (fredag) 11% I want to go on Friday (jag vill åka på fredag) 11% I want to go today (jag vill åka idag) 7% on Friday (på fredag) 6% I want to go a Friday (jag vill åka en fredag) - are there any hotels in Vaxholm? (finns det några hotell i Vaxholm) Exempel på frågor och svar Hur ofta åker du utomlands på semestern? jag åker en gång om året kanske jag åker ganska sällan utomlands på semester jag åker nästan alltid utomlands under min semester jag åker ungefär 2 gånger per år utomlands på semester jag åker utomlands nästan varje år jag åker utomlands på semestern varje år jag åker utomlands ungefär en gång om året jag är nästan aldrig utomlands en eller två gånger om året en gång per semester kanske en gång per år ungefär en gång per år åtminståne en gång om året nästan aldrig Hur ofta reser du utomlands på semestern? jag reser en gång om året utomlands jag reser inte ofta utomlands på semester det blir mera i arbetet jag reser reser utomlands på semestern vartannat år jag reser utomlands en gång per semester jag reser utomlands på semester ungefär en gång per år jag brukar resa utomlands på semestern åtminståne en gång i året en gång per år kanske en gång vart annat år varje år vart tredje år ungefär nu för tiden inte så ofta varje år brukar jag åka utomlands 12

Results other 24% no no reuse 4% answer 2% Dialoghantering reuse 52% 18% ellips Människa-maskin interaktion Spoken dialog system Vem tar initiativ system/användare Vem är användaren första gången? Terminologi gemensam vokabulär Får system och användare tala samtidigt? har användaren förstått det som sägs? Kan användaren lära systemet något? Finite-state based systems dialog and states explicitly specified Frame based systems dialog separated from information states Agent based systems model of intentions, goals, beliefs Dialog modell voicexml Domänbunden model regler, nätverk, stack Modell som skiljer dialoghandlingar från domain t.ex. fråga/svar Referenshantering http://www.voicexml.org/ 13

Waxholm Topics Semantisk ram TIME_TABLE Task: get a time-table. Example: När går båten? (When does the boat leave?) SHOW_MAP Task : get a chart or a map displayed. Example: Var ligger Vaxholm? (Where is Vaxholm located?) EXIST Task : display lodging and dining possibilities. Example: Var finns det vandrarhem? (Where are there hostels?) OUT_OF_DOMAIN Task : the subject is out of the domain. Example: Kan jag boka rum. (Can I book a room?) NO_UNDERSTANDING Task : no understanding of user intentions. Example: Jag heter Olle. (My name is Olle) END_SCENARIO Task : end a dialog. Example: Tack. (Thank you.) Current functions: /TO-PLACE Q-VERBAL SUBJECT FROM-TIME/ Current meaning: /MOVE BOAT PORT QUANT/ History functions: /TO-PLACE Q-VERBAL SUBJECT FROM-TIME/ History meaning: /MOVE BOAT PORT QUANT/ (FROM-TIME.AFTER_TIME "04"// ) (FROM-TIME.BEFORE_TIME "06"// ) (SUBJECT "båten"/boat/ ) (Q-VERBAL "går"/move/ ) (TO-PLACE "vaxholm"/port/ ) proposed topic TIME_TABLE FEATURES Topic selection TOPIC EXAMPLES TIME SHOW FACILITY NO UNDER- OUT OF END TABLE MAP STANDING DOMAIN OBJECT.062.312.073.091.067.091 QUEST-WHEN.188.031.024.091.067.091 QUEST-WHERE.062.688.390.091.067.091 FROM-PLACE.250.031.024.091.067.091 AT-PLACE.062.219.293.091.067.091 TIME.312.031.024.091.067.091 PLACE.091.200.500.091.067.091 OOD.062.031.122.091.933.091 END.062.031.024.091.067.909 HOTEL.062.031.488.091.067.091 HOSTEL.062.031.122.091.067.091 ISLAND.333.556.062.091.067.091 PORT.125.750.244.091.067.091 MOVE.875.031.098.091.067.091 Adaption av dialog Utvärdera talförståelsen kontinuerligt Utvärdera dialogen kontinuerligt har system och användare samma mål vem tar initiativ Felhantering analys och åtgärder skall vi avbryta eller hålla igång dialogen tills någon kan ta emot samtalet argmax { p(t i i F )} Human-human conversations Conversational grunts Customer Agent Act Freq. Words Freq. Words Acknowledge 47.9 2.3 30.8 3.1 Request 29.5 9.0 15.0 12.3 Confirm 13.1 5.3 11.3 6.4 Inform 5.9 7.9 27.8 12.7 Statement 3.4 6.9 15.0 6.7 Grunts occur an average of once every 5 seconds in American English conversation. (Nigel Ward, 2000) In Switchboard database um was the 6th most frequent item (after I, and, the, you, and a), (Nigel Ward, 2000) the four items uh, uh-huh and um and um-hum accounted for 4% of the total (Picone et al. 1998). DEMO Statistics of turns in a movie domain (from Flammia). 14

Interaction control The August system Conversation Exchange of information Control of the exchange of information Turn-taking Control of the floor Feedback Perception, attention, understanding, attitude Dialogue systems needs both turn-taking and feedback Stockholm (events and general information) Yellow pages KTH and speech technology August Strindberg Greetings and social utterances Comments about the system capabilities and the discourse Shallow semantic analysis Input word sequences semantic features from lexicon Output Acceptable utterance? yes/no Predicted domain strindberg, stockholm, yellow pages.. Feature:value representation object:restaurant, place:mariatorget Trained on tagged N-best lists and lexicon The set-up in Kulturhuset A sample video of the system environment The August database September 1998 - February 1999: 10,058 utterances (approximately 15 hours of speech) were manually checked, transcribed and analyzed children 24% children 22% women 26% men 50% women 23% 2685 users 10,058 utterances men 55% 15

Vad säger man till August? Socializing categories Barn Kvinna 1 Kvinna 2 Social Insult Test Hello August! That s a nice mustache! Would you like to go out with me tonight? You are stupid! Is your brain too small? You have a sausage brain! What is my name? I want to rent a refrigerator What is the color of your hair? The info-seeking categories Repetitiva yttranden Domain Meta Facts How many books did Strindberg write? What can you study at KTH? Where are the restaurants on Kungsgatan? What can I ask you? August answer my question I know you know everything Then I will speak at the same time as I hold down the button - what is your name, agent What s the capital of Finland? What is two times two? How many people live in Madrid? Vad heter kungen? original plus två repetitioner Features in repetition The August system Percentage of all repetitions 50 40 30 20 10 0 more clearly articulated increased loudness adults children shifting of focus People Strindberg What call can When What myself answer do you were is was Strindberg, your questions do born for name? born? a in living? about 1849 but I Strindberg, Yes, I Yes, Over come The How Strindberg The Perhaps Do that who a many from you million was live like the people a people it smart department glass here? live thing houses live of don t Speech, should it You information the might Royal Thank Good are we welcome! Institute bye! you! will is meet shown of really Technology! on Stockholm? soon not KTH Music the be was have throw say! again! and map that married three times! and a Stockholm surname stones area Hearing will! 16

The HIGGINS domain Mänsklig felhantering This is a 3D test environment Experiment med användare Speaks ASR Reads Listens Vocoder Speaks User Uppgift: hitta vägen i ett virtuellt campus Operator The primary domain of HIGGINS is city navigation for pedestrians. Secondarily, HIGGINS is intended to provide simple information about the immediate surroundings. Resultat Higgins målsättning -demo Försökspersonerna signalerar sällan "non-understanding" endast 30% av fallen De säger till exempel "kan du se det röda huset" och följer upp situationen leder till snabbare felhantering leder till upplevd lyckad konversation Vad påverkar systemets komplexitet Initiativ Referenshantering Hur lång tid tar det att åka dit? När gick den andra? Många domäner "out of domain" Felhantering Anpassning av systemet till användaren Utvärdering Fonetisk analys Orduppfattbarhet Domänberoende vokabulär, grammatik Rimlig systemrespons Task completion Hur lång tid/hur många yttranden Nöjda och glada användare 17

Prestandamått i taligenkänning Prestandautveckling DARPA-utvärdering 1988-1999 ON = 100 * N F B I N Ordfel (%) 25 ON N F B I ordnoggrannhet (word accuracy) antal yttrade ord under mätningen antal förväxlingar antal bortfall (ej upptäckta ord) antal instoppade ord 20 15 10 5 RM Kommandon (1000 ord) ATIS Spontant tal (2000 ord) WSJ Upplästa nyheter (20000 ord) NAB, Broadcast News Transrciption (60000 ord) Tar ej hänsyn till fonetisk likhet mellan ord Ex: i kväll - ikväll, jag - ja, Vaxholm -Vaxholms, bil - restaurang är alla lika fel 0 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 User profile Ljuddesign för talgränssnitt 1000 100 Novice without Tutorial Novice with Tutorial Expert Utveckling av ett system för jourhavande fastighetsskötare Hur ser en fastighetsskötardomän ut? Komplicerad! - Källare med många rum vattenkranar elskåp Ventilationsanläggningar 10 Time User Turns Recognition Score Email retrieval Kamm, Litman Walker ICSLP98 Ljuddesign för talgränssnitt Ljuddesign för talgränssnitt Komplicerad domän! Huvudfläktrum A1 HuvudelcentralB2 Sektionsluftsrum C2 Korridor B1 Elmätarcentral Sektionsvattenrum C0 C1 Vattenrum A2 Säkringsrum B3 Ventilations-rum C3 Korridor A3 VarmvattenrumB 4 Korridor C4 Systemet är användarens ögon och händer, t.ex.: S> Du befinner dig i korridor C4. Härifrån kan du gå till följande rum: elrum D3, sektionsvattenrum C3. Vad vill du göra? A> gå till sektionsvattenrum C3 S> Du befinner dig i sektionsvattenrum C3. Härifrån kan du gå till följande rum: korridor C4, elmätarcentral C2, ventilationsrum E3. Vad vill du göra? A> titta på vattenkranarna S> Du tittar på sektionsvattenkranarna. Följande kranar är öppna: kran 2, kran 7. Resten av kranarna är stängda. Vad vill du göra? Korridor D1 Luftkylningscentral D2 Huvudkranrum D3 Elrum D4 18

Some Challenges Dialog Modeling statistical? Initiative conversation Error Handling Multidomain User modelling Adaptivity Turn Taking Multimodal Communication Ljuddesign för talgränssnitt Hur kan ljud användas som navigationsstöd? Auditiva ikoner två typer förekommer i två olika roller bakgrundsljud (kontextgivare) återkoppling på kommando [exempeldialog utan ljud] [exempeldialog med ljud] Concept video Den hemliga gästen e-rektor SLUT 19