Syntetiska talare ger nya möjligheter till kommunikation. Joakim Gustafson Professor i Talteknologi Institutionen för Tal, Musik och Hörsel

Relevanta dokument
Stina Nyman

Solowheel. Namn: Jesper Edqvist. Klass: TE14A. Datum:

Bett mässa i London 2013

Hjälp ditt barn att lära sig ett språk. Guide för föräldrar och vårdnadshavare

Finansierad av: Tell-Us

The National Institute of Child Health and Human Development (NICHD) Protocol: Intervjuguide

KAPITEL 6. Verb: preteritum. *imperativ som slutar på p, k, s, t eller x +te. Special (it-verb och oregelbundna verb) T ex: gå-gick, drick-drack

Liten introduktion till akademiskt arbete

där ämnet introduceras övergripande och ställningstagandet klargörs. Av introduktionen ska man förstå ämnet och huvudorsaken till att laget är för.

Scen 1. Personer är Emma 38 och. emma jerry robert en servitör

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?)

Kardinal Synd Umeå - Inspelningsinstruktioner -

Studentguide Adobe Connect Pro

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar


Lärarmaterial. Det skulle varit jag dansteater av Birgitta Egerbladh. VästmanlandsTeater

Kommuniceramer än ord

Innehåll. Introduktion Min Stora Sorg. Diskussionsfrågor. Bildanalys. Analysera musiktexter. Tips på ytterligare fördjupning

ÖKA DIN SOCIALA KOMPETENS. På en timme

Övergången från vård till vuxenliv. Vad vet vi och vad behöver vi veta?

Positiv Ridning Systemet Om att sätta mål Av Henrik Johansen

Agent Angus. Lgr 11 - Centralt innehåll och förmågor som tränas:

Studio Ett den 12 december: Svensk film med svensk textning

När hon trodde att allt var för sent Predikotext: Apg 9:1-19

Fakta om Malala Yousafzai

Mediedjungeln (sas) mediekunskap för barn

Barns brukarmedverkan i den sociala barnavården - de professionellas roll för barns delaktighet

1. GRUNDLÄGGANDE SAMBAND

7 steg från lagom till världsklass - 7 tips som berikar Ditt liv

Thomas Padron-Mccarthy Datateknik B, Mobila applikationer med Android, 7.5 hp (Distans) (DT ) Antal svarande = 14

SVENSKA Inplaceringstest B

Slutrapport för projektet Programmeringsundervisning i skolor med webbaserad konstprogrammering Annika Silvervarg, Linköping universitet

Tjejer är någonting fint och ska inte untyttjas... Elever på Angeredgymnasiet om trafficking och prostitution

Talsyntes historia och metoder

MOBILTELEFONI. Julia Kleiman, Frida Lindbladh & Jonas Khaled. tisdag 15 maj 12

Ingrid Mårtensson, ingma583

Drömmaskiner en hjälp i vardagen

Självkänsla. Här beskriver jag skillnaden på några begrepp som ofta blandas ihop.

Om skaparen. Tomas Öberg är idag entreprenör, föreläsare och på gång med sin första självbiografi Ilska, kärlek och framgång från insidan och ut.

En vanlig dag på jobbet

Innehåll. Användarstudier. Användarstudier enligt Microsoft. Varför? Aktivt lyssnande. Intervjuteknik. Intervju Observation Personor Scenarier Krav

Fråga, lyssna, var intresserad

Shakedown inför rallycross EM och SM.

Hur skandinaviska undertextare förmedlar. kulturella referenser

MTM:S INFORMATIONSSERIE. Talböcker i skolan. För dig som möter elever med läs- och skrivsvårigheter/dyslexi

TAKE A LOOK AT DIG SJÄLV

Innehållsförteckning. Kapitel 1

Omformningsförmåga, berättelse och identitet. Vigdis Ahnfelt, Lektor i spanska och lärare i ämnesdidaktik moderna språk

Positiva och negativa aspekter på konferenssystem med och utan videoapplikation

Att skriva Hur utformar man en Social berättelse? Lathund för hur en Social berättelse kan skrivas


Fakta om Melodifestivalen

Uppdrag undersökning

Musen Martina vinner en baktävling

Kåre Bluitgen. Sjalen. Översättning: Catharina Andersson illustrationer: Kirsten raagaard. nypon förlag AB. Publicerat med tillstånd.

Lära och utvecklas tillsammans!

RAPPORT: ATT UPPLEVA EN UTSTÄLLNING HELT I LJUD. FÖR UTSTÄLLNINGEN VÄRDEFULLT. BAKGRUND..s 2 METOD...s 2 RESULTAT...s 3 9 ANALYS AV WORKSHOP...

Mitt arbete kommer att handla om schack för förskolebarn i förskoleklassen på min skola.

Från Per and Abbi Åkvist E-nyhetsbrev-Vinter-10 januari,

Izzy & gänget Lata dagar

Förhandlingar om pojkighet och normalitet i förskolan. Anette Hellman, FD Universitets lektor, IPKL Göteborgs Universitet

Tre röda flygplan. Erica Högsborn och Fanny Collandbeck

Att använda flipped classroom i statistisk undervisning. Inger Persson Statistiska institutionen, Uppsala

Biblioteken i Norrbotten

Illustrationer: Hugo Karlsson, Ateljé Inuti Projektledare: Elinor Brunnberg. Mälardalens högskola Text: Kim Talman, Jeanette Åkerström Kördel, Elinor

Inledning till Wavesurfer av Christine Ericsdotter (Lingvistik, Stockholms universitet)

Barn som bråkar. sollentuna. Vem är jag? Om lågaffektivt bemötande i familjen och vardagen.

Sinnena den mänskliga hårdvaran

Wordpress och Sociala medier av Sanna Ohlander STAFFANSTORP Framtidens kommun

Taligenkänning - har den en framtid som nyttoverktyg?

Studieresa till James B. Hunt Jr. Library, North Carolina State University

Den äldre, digitala resenären

Oktober Lyssna på mig! Delaktighet - så mycket mer än att bestämma

Låt Stå. /fröken 2A. Matilda Sköld

Utskrift av inspelat samtal hos Arbetsförmedlingen

Lärarmaterial. Vad handlar boken om? Mål från Lgr -11: Författare: Gertrud Malmberg

Att fortsätta formas

Kapitel 3. Publicerat med tillstånd Tufft spel Text Magnus Ljunggren Bild Mats Vänehem Bonnier Carlsen 2013

Övningar till avsnitt 3 - Leva inifrån och ut

Delad tro delat Ansvar

Utvärdering av 5B1117 Matematik 3

Trådlös anslutning till de viktiga sakerna i livet

Tjänsten Jing och lärande över Internet Författare: Sofia Sundgren sosu0002, Digitala Distributioner

Första dagboken: ATT HANTERA EN TSUNAMI. Onsdag 19 januari

Att arbeta med öppna uppgifter

Att läsa särskilt bra - med hjälp av lässtrategier och digitala lärverktyg i gymnasiesärskolan

Kapitel 2 Kapitel 3 Brevet Nyckeln

Fragment, ellipser och informationsberikade konstituenter

0HG HXURSHLVNW GLJLWDOW LQQHKnOO EHKnOOHUYLOHGQLQJHQ

Krav på och beskrivning av undervisningsmiljöer.

Vi skriver och talar om konst svenska för film- och tv-studerande (3 sp)

Hur definieras ett jämställt samhälle? (vad krävs för att nå dit? På vilket sätt har vi ett jämställt/ojämställt samhälle?)

Föräldramöten på daghem och i skolor 2015

Boken om svenska för 3:an

ZA4881. Flash Eurobarometer 241 (Information society as seen by EU citizens) Country Specific Questionnaire Sweden

The 3D Classroom gör det komplexa enklare att förstå!

Kastades från balkong tog själv fallet till HD

Först till häcken... en berättelse om vad som hände innan prinsen kysste prinsessan ROLLER HÄCK-IRÈN MAMMA OLE DOLE DOFF

HANDLEDNING/METODIK En del av mig själv Filmade självporträtt för intagna på anstalter och institutioner En jagstärkande workshop

Redovisa i e-möten via Adobe Connect

Transkript:

Syntetiska talare ger nya möjligheter till kommunikation Joakim Gustafson Professor i Talteknologi Institutionen för Tal, Musik och Hörsel

Introduktion

CV för Joakim Gustafson 1987-1992 Civ. ing. Programmet i elektroteknik på KTH 1992-1993 Lingvistik på Stockholms University 1993-2000 Doktorand på KTH 2000-2007 Forskare på Telia Research 2007-2011 Biträdande Lektor, KTH 2011 2013 Lektor, KTH 2013 Professor, KTH

Institutionen för Tal, Musik och Hörsel

TMH grundat av Gunnar Fant 1951 Gunnar Fant and OVE I 1953

60 år av talforskning på TMH Sven Öhman Professor i Fonetik Björn Granström Gunnar Fant 51 61 71 81 91 01 11 Björn Lindblom Professor i Fonetik Rolf Carlson Prof Fonetik Prefekt lingvistik Avknoppningbolag: Infovox, Nyvalla, Honeysoft, PipeBeach, Voxi, Voxway, STTS, Veridict, Hörselbron, Synface, Fanchinima, FurHat robotics

Centrum för Talteknologi (CTT) TT Centre for Speech Technology Ett VINNOVA kompetenscenter (1996-2006) 20 utexaminerade forskare: 12 doktorer, 8 licensiater 14 EU-projekt: - CAVE, PICASSO, VeriVox, SpeechDat, DISC, ENABL, DUMAS, SPEECON, SYNFAC, OLP, MULTISENSE, PF-STAR, CHIL, ASPI Publicering: - 31 journal artiklar, 29 bokkapitel, 239 int. konferensbidrag

CTTs Forskningsområden TT Centre for Speech Technology

CTTs 30 industripartners TT Centre for Speech Technology ABB Babel Infovox ACAPELA-group English Town Ericsson Radio Systems AB Flextronics GN Resound Hjälpmedelsinstitutet (fd Handikappinstitutet) HoneySoft Ice Peak Just Direct Dolphin audio publishing Levande Böcker i Norden AB Luftfartsverket Phoneticom AB PipeBeach AB Polycom Technologies AB SAAB AB SAAB Tech Systems AB SpeechCraft STTS Svenska Handelsbanken AB Sveriges Radio AB Sveriges TV Telia Sonera TPB Talboks och Punktskriftbibliotek Trio Informationssystem AB Vattenfall AB Voice Provider Volvo Teknisk Utveckling AB Voxi

Talgruppen 2014 OLOV ENGWALL JOAKIM GUSTAFSON DAVID HOUSE JONAS BESKOW GIAMPIERO SALVI GABRIEL SKANTZE ENS EDLUND ANNA HJALMARSSON PROFESSOR PROFESSOR PROFESSOR ASSOCIATE PROFESSOR ASSOCIATE PROFESSOR ASSOCIATE PROFESSOR RESEARCHER RESEARCHER JOSE DAVID LOPES MARGARET ZELLERS SAMER AL MOUBAYED SOFIA STRÖMBERGSSON RAVEESH MEENA KALIN STEFANOV SIMON ALEXANDERSSON CATHARINE OERTEL POSTDOC POSTDOC POSTDOC PhD STUDENT PhD STUDENT PhD STUDENT PhD STUDENT PhD STUDENT MARTIN JOHANSSON NIKLAS VANHAINEN BAJIBABU BOLLEPALLI SAEED DABBAGHCHIAN BO SCHENKMAN Peter Nordqvist BJÖRN GRANSTRÖM ROLF CARLSON PhD STUDENT PhD STUDENT PhD STUDENT PhD STUDENT GUEST RESEARCHER GUEST RESEARCHER PROGFESSOR EMERITUS PROFESSOR EMERITUS

Talgruppens grundforskning: förstå hur människor kommunicerar via tal Mänsklig perception/produktion av tal Multimodal interaktion Prosodi i samtal Samtalande system Datainsamlingar och infrastruktur

Samtalande maskiner?

Varför kommer datorer aldrig kunna förstå svenska? Jag stod och väntade på min fru Men redan efter 5 minuter... Sa hon vad tung du är! Fråga från Jan Alexandersson, svensk datalingvist arbetande i Tyskland sedan 20 år

För att verkligen förstå mänskligt språk måste man umgås med människor Människor säger inte alltid vad de menar rakt ut: - Vet du vad klockan är? - *Ja Ibland säger människor motsatsen till vad de menar - Jag råkade sätta i batterierna fel i klockan - Det var ju smart gjort Människor använder sig av kontexten när de talar: - Vad ska jag göra med klockan? - Ta den och ge till henne

Dessutom bestäms betydelsen av hur man uttalar det Har Lisa klippt gräset? (Neutral fråga, ja eller nej.) Har Lisa klippt gräset? (Förvånad, trodde inte hon hade gjort det) Har Lisa klippt gräset? (Det var ju vattna det hon skulle göra.) Har Lisa klippt gräset? (Det var ju Pelle som skulle göra det.) Har Lisa klippt gräset? (Det var ju häcken hon skulle klippa.)

Om en maskin kunde tänka, hur skulle vi veta det? Alan Turing formulerad Turingtestet 1950: om en människa konverserar med en maskin och inte kan avgöra om det är en maskin eller människa, uppfylls kriteriet för mänsklig intelligens. Praktiskt går det till så att en person sitter vid en dator i ett isolerat rum och ställer vilka frågor som helst till andra datorer via nätverk. Dessa andra datorer är antingen också bemannade av människor som helt enkelt skriver in svaren för hand, eller datorprogram som automatiskt svarar på frågorna. Om testpersonen efteråt inte kan avgöra vilka respondenter som är människor och vilka som är program sägs de sistnämnda ha klarat testet.

Kan vi bygga maskiner som är lika smarta som människor? Ja om vi begränsar uppgiften kan vi redan idag bygga maskiner som är intelligentare än människor IBM har de senaste åren gjort det inom två områden - 1997 Deep Blue slår stormästaren Garri Kasparov i schack - 2011 Watson slår stormästarna i Jeoperdy

Men, fokus i detta föredrag är inte hur maskiner kan tänka som människor.....utan snarare hur de kan tala som folk! Om man begränsar uppgiften är graden av förståelse som behövs för att lösa den via tal möjlig för en maskin En telefonist i kundtjänsten kan till exempel koppla samtalet till rätt expert utan expertkunskap Men om telefonisten talar otydligt eller väntar mycket länge innan hen svarar bryter kommunikationen ihop Detsamma gäller talande maskiner

Vår vision om samtalande maskiner

Talteknologi: från forskningsverktyg till kommersiella konsumentprodukter 1953 1993 2013

Vision: artificial dialogues 2001

Verkligheten 2010?

Vad kan göras bättre? - Bättre förståelse - Spontant tal - Ignorera sidoprat - Emotioner -Bättre tal - Rappare talstil - Mer ledigt tal - Emotioner -Bättre dialog - Sunt förnuft - Bättre felmeddelanden - Längre minne

Varför är tal bra som gränssnitt till maskiner? Tillgängligt - kräver inte speciell hårdvara (telefon räcker) Enkelt - kräver inte att man lär sig speciellt gränssnitt Multitaskbart kräver inte tillgång till blick och händer

Typer applikationer kan dra nytta av ett talgränssnitt Informationssökning/bokning Spel och underhållning Expertsystem och guider Hjälpmedel för gamla och handikappade Undervisning, språkträning Sociala robotar

Nya maskiner som behöver tal Smarta mobiler och pekplattor Spelkonsoller och mediacenter Säkra bilar Robotar

Att skapa syntetiska talare

Vad behöver göras i samtalande system? Förstå vad som menas med det som sägs Bestämma vad som ska sägas tillbaka Generera och spela upp det som ska sägas

Taligenkänning nu och då 1952: Bell labs Audrey kunde känna siffrorna 0-9. 1962: IBMs Shoebox maskin kunde känna igen 16 ord 1971: CMUs Harpy kunde känna igen 1001 ord 1980-talet fonem och HMMer -> tusentals ord eller mer 1990-talet Dragon dictate känna igen tiotusentals ord i meningar 2000-talet Google, SIRI och Nuance släpper taligenkänning i molnet för mobiltelefoner. De har slutat räkna ord, kan lägga till nya vid behov. Kvalitén förbättras dagligen

Talare Kanal Lyssnare Mellan talare Ålder Kön Anatomi Dialekt Inom en talare Stress Humör Hälsa Formell / Spontant Omgivning Brus Rum Mikrofon Bandwidth Brus Lyssnare Ålder Första språk Hörselnivå Känd / Okänd Människa / Maskin

Flyget, tåget och bilbranschen tävlar om lönsamhet och folkets gunst. Född i USA ex-jugoslavien

Slappt uttal Talspråk Tesempel Åhamba Bafatt Sötälje Javende Skriftspråk Till exempel (for example) Och han bara (and he just ) Bara för att (just because) Södertälje Jag vet inte ( I don t know)

Att skapa syntetis tal

1791: Talsyntesens födelse? Wolfgang von Kempelen s bok Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine (1791). De väsentliga delarna - En blåsbälg= lungor - Rörblad i elfenben = stämbanden - Ett läderrör = ansatsröret. Maskinen var - Handdriven - Kunde säga ord och fraser

1939: Första elektroniska talsyntesen Homer Dudley presentade VODER (Voice Operating Demonstrator) på Världsutställning i New York i1939 Den spelades som ett musikinstrument, röstkälla och bruskälla tillgängliga via pedaler och tio bandpassfilter

1953: Den första svenska talsyntesen Gunnar Fant på KTH bygger formantsyntesen OVE (Orator Verbis Electris) - OVE1 1953 och OVE2 1962

Talsyntesens utveckling fram till idag Poor Intelligibility; Poor Naturalness, Small footprint Good Intelligibility; Poor Naturalness Good Intelligibility; Customer Quality Naturalness (Limited Context) Multi-speaker training, speaker adaptation; Naturalness, generative, Small footprint Formant Synthesis Bell Labs; Joint Speech Research Unit; MIT (DEC- Talk); Haskins Lab; KTH LPC-Based Diphone/Dyad Synthesis Bell Labs; CNET; Bellcore; Berkeley Speech Technology Unit Selection Synthesis ATR in Japan; CSTR in Scotland; BT in England; AT&T Labs (1998); L&H in Belgium HMM Synthesis HTS in Japan; CSTR in Scotland; 1962 1967 1972 1982 1987 1992 1997 2002 Year

Krav på talsyntes i samtal Talsyntesen måst fungera i realtid Den måste låta som att den förstår vad den säger Den måste kunna visa känslor/attityd

En osäker dator måste kunna pausa 040217155705

och humma för att vinna tid dia1

visa att den tänker fortsätta. dia0

och kanske till och med andas ljudligt 010217145301

Det viktigaste är att talgränssnitten är intuitiva Användaren ska inte behöva lära sig: - När man kan tala - Hur man ska tala - Vad man kan säga Maskinen måste därför: - Klart visa när den lyssnar - Förstå när användaren har talat klart - Säga sånt som speglar det den förstår

Samtalskontroll Ett samtal har två kanaler -Själva informationsutbytet - Kontroll av informationutbytet Samtalskontroll Turtagning: avgöra vem som för tillfället har rätt att tala Återkoppling: visa att man lyssnar, att man förstår och vad man tycker om det som sägs

Konstgjorda sätt att kontrollera samtalet Tryck-för-att-tala-knapp (jmfr. Walkie-talkie) Tala efter pipet (jmfr. telefonsvarare) Tala-nu-ikon, arbetar-på-kursor (timglas) Visualisering av förstådd input (text/ikon)

Människolika metoder för samtalskontroll Satsmelodi och icke-ord Ansiktsgester och huvudrörelser

Ansiktsgester för samtalskontroll personlig agent MonAMI reminder - Input: trådlös mikrofon och webkamera - Output: talande huvud på skärm - Samtalskontroll: lyssnar bara på sin användare när denne tittar på skärmen

Ansiktsgester för samtalskontroll gemensam IURO FurHat - Input: Kinects array mikrofon och djupseende kameror - Output: talande huvud projicerat på mask - Samtalskontroll: väljer vem den lyssnar på genom att titta på denne

Att skapa syntetiska lyssnare Samarbete med skotska företaget Cereproc 9 återkopplingsljud: - ah, m-hm, m-m, n-hn, oh, okay, u-hu, yeah, yes 6 betydelser - Håller med - fortsätt.. - håller inte med - Förvånad - Entusiastisk - Osäker

En trestegsinspelning Små dialoger: - Excuse me do you know how I could get to an A T M? - Sure, let me explain - Okay! *enthusiastic* - If you continue for about five hundred metres - Okay.. *continuer* - You will see a large building. There you take left. - Okay. *acknowledgement* - You should continue for about three blocks and pass the opera building. - Okay?!? *uncertain* Småprat under schackspel Småprat

Virtuella syntetiska talare

Våra syntetiska talare

Waxholm: det första svenska dialogystemet

August vår första publika syntetiska talare (1998)

En av tusentals samtalspartner

En syntetisk språklärare

En syntetisk mimare som hörselstöd

Syntetiska tecknare lär barn teckenspråk

En syntetisk guide som hjälper dig att hitta i en virtuell stad

En syntetisk bilguide för säkrare färd hem

Fysiska syntetiska talare

Robotar från filmens värld I ache, therefore I am Pipande eller Talande Glada eller Ledsna Goda eller Onda Plåtniklas eller Androider

Vill vi verkligen ha riktigt människolika robotar? ( TV-series Äkta människor)

Dagens humanoida robotar Gående Leksaker Betjänter Sällskap Androider

Man on the moon -utmaningar VOA's Suzanne Presto reports on 50th aniversary of the Man on the moon challenge

I USA: DARPAs Robotutmaningen 1. Köra fordon 2. Ta sig över hinder 3. Ta bort hinder 4. Öppna dörr gå in i hus 5. Gå upp för stege 6. Använda verktyg för att ta sig igenom betong 7. Leta upp och stänga en ventil i närheten av ett läckande rör

EU FET Flagship candidate: Robot Companions for Citizens Sällskapsrobotar som universella assistenter - Förbättrad livskvalitet för alla - Kunna användas av alla åldrar och utbildningsnivåer - I hemmet, industrin, publikt http://www.robotcompanions.eu/

Stora robotutmaningar som forskningsverktyg Bygga en robot som kan hitta i en stad genom att be människor om hjälp Bygga en robot som lär sig mänskligt språk på samma sätt som en barn

Biologiskt inspirerade statistiska metoder för flexibel automatisk talförståelse Kan robotar att lära sig förstå mänskligt tal på samma sätt som barn? Förbättra våra algoritmer genom att studera barns språkinlärning Förbättra vår förståelse om hur barn lär sig tala

Språkinlärning är audiovisuell och interaktiv

Talande robotar behöver ett ansikte SynFace, KTH George, CMU Kismet, MIT Beskow, J et al. (2009). SynFace - Verbal and Nonverbal Face Animation from Audio. Gockley, R. et al. (2004) Grace and George: Social Robots at AAAI The Mona Lisa effect Sosnowski, S. et al. (2010) Mirror my emotions! Combining facial expression analysis and synthesis on a robot. COST 2102, Dresden Feb 2011 71

Vad ansiktet förmedlar Orden read my lips Identiteten Känslan Nästa talare

Två ansiktslösningar till robotar Projicerat Mechatroniskt

Utvecklingen av FurHat Ansiktet 1. en ansiktssyntesmodel 2. En 3D-utskriven mask Huvud och nacke 3. Mask, projector och spegel fasts samman 4. En nacke med 2-3 motorer 5. Huvudtäckning (pälsmössan) Al Moubayed, S., Beskow, J., Skantze, G. and Granström, B. (2012). Furhat: A Back-projected Human-like Robot Head for Multiparty Human-Machine Interaction, In Esposito, A. et al. (Eds.) Cognitive behavioural systems Lecture Notes in Computer Science Springer.

Resultatet en social robot

Tällberg video

Social Robots in the future?

En kropp på distans (tele presence)

An interactive mannequin

A coordinating teacher

Virtual Santa clause

Member of a entertainment group

A discrete shrink for maffia bosses

A neutral peace maker

Sammanfattning Vi kommer behöva kunna tala med framtidens maskiner Det är viktigt att vi designar dem väl så de fungerar bra