Naturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem. Stina Ericsson, Talteknologi VT06.



Relevanta dokument
Överblick. Dialogsystem. En dialogsystemsarkitektur. Dialogsystemsarkitektur. Talförståelse. Dialoghantering

Inledande exempel. Levinson och informationsstruktur. Vad är informationsstruktur? Informationsstruktur och pragmatik

Fragment, ellipser och informationsberikade konstituenter

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

Tillämpad prosodi inom Artificiell Intelligens

Read, work and talk! - och Lgr 11

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Stina Nyman

Webbregistrering pa kurs och termin

6 th Grade English October 6-10, 2014

Isolda Purchase - EDI

Teknikprogrammet Klass TE14A, Norrköping. Jacob Almrot. Självstyrda bilar. Datum:

Chapter 1 : Who do you think you are?


En bild säger mer än tusen ord?

The Algerian Law of Association. Hotel Rivoli Casablanca October 22-23, 2009

Utvärdering SFI, ht -13

IGoR som GoDiS för restaurangbranschen

Engelska åk 5 höstterminen 2013

Beijer Electronics AB 2000, MA00336A,

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Unit course plan English class 8C

Webbreg öppen: 26/ /

Syfte med undervisningen Genom undervisningen i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

DVG C01 TENTAMEN I PROGRAMSPRÅK PROGRAMMING LANGUAGES EXAMINATION :15-13: 15

Lektion 3. Anteckningar

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

Studieplan och bedömningsgrunder i Engelska för åk 7

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

Webbtillgänglighet. Tillgänglighet på webben. Hörselskadades behov. Synskadades behov. Kognitivt funktionshindrades behov. Rörelsehindrades behov

Accomodations at Anfasteröd Gårdsvik, Ljungskile

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Lesson 1. Lektion 1. Facebook: Svenska för Nyanlända Hello, my name is Hussein. I live in Åre.

Svenska inlärares svårigheter vad gäller uttal och perception av talad franska

Exjobbskritik Muntlig opponering på ett exjobb. Stina Ericsson

Stort Nordiskt Vänortsmöte maj Rundabordssamtal Hållbar stadsutveckling, attraktiva städer 20 maj 2016

Writing with context. Att skriva med sammanhang

Dialogsystem. Joakim Nivre. Introduktion till språkteknologi. Dialogsystem. Inledning. Mänskliga dialoger. Tidiga dialogsystem. Moderna dialogsystem

The reception Unit Adjunkten - for newly arrived pupils

EttLJUSFörVÄRLDEN. JULINITIATIVET november 25 december 2017

Mönster. Ulf Cederling Växjö University Slide 1

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

PLANERING FÖR ENGELSKA LAG SYD ÅK 7

Resa Logi. Logi - Hitta boende. Logi - Boka. Fråga om vägen till olika former av boenden. ... ett rum att hyra?... a room to rent?

Resa Logi. Logi - Hitta boende. Logi - Boka. Fråga om vägen till olika former av boenden. ... a room to rent?... ett rum att hyra?

MÅL ATT UPPNÅ (FRÅN SKOLVERKET)

Lathund Claro Read Plus

V 4. Veckan som gått. APT 9 Februari. Förskolan stänger Föräldrarådsmöte 24 Februari. Kl. 18:00. APT 10 Mars. Förskolan stänger kl16.

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Protokoll Föreningsutskottet

Blueprint Den här planeringen skapades med Blueprints gratisversion - vänligen uppgradera nu. Engelska, La06 - Kursöversikt, 2015/2016.

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Småprat Small talk (stressed vowels are underlined)

onsdag den 21 november 2012 PRONOMEN

Arbetsmiljö för doktorander

Do you Think there is a problem with the car traffic to or from the inner city weekdays ?

Libers språklåda i engelska 7 9: Listening

Lokal arbetsplan i engelska. Lokal planering i engelska år 2

Fernando Álvarez Montalbán

Solowheel. Namn: Jesper Edqvist. Klass: TE14A. Datum:

Support for Artist Residencies

Workplan Food. Spring term 2016 Year 7. Name:

Listen to me, please!

- den bredaste guiden om Mallorca på svenska! -

Hej! Det var allt för denna gång. Ha en trevlig helg! Med vänlig hälsning. Thomas

Styrteknik: Binära tal, talsystem och koder D3:1

2.1 Installation of driver using Internet Installation of driver from disk... 3

Travel General. General - Essentials. General - Conversation. Asking for help. Asking if a person speaks English

Arbetsmiljö för doktorander

PROJEKTRAPPORT LIA II

EXPERT SURVEY OF THE NEWS MEDIA

Authentication Context QC Statement. Stefan Santesson, 3xA Security AB

Installation av F13 Bråvalla

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

Alias 1.0 Rollbaserad inloggning

Module 6: Integrals and applications

Methods to increase work-related activities within the curricula. S Nyberg and Pr U Edlund KTH SoTL 2017

The Swedish system of Contract Archaeology

Särskild avgift enligt lagen (2012:735) med kompletterande bestämmelser till EU:s blankningsförordning

Text-till-Talsyntes (TTS1)

Mångfald som en del av affärsstrategin

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Av Patrik Österblad

Svensk presentation Anita Lennerstad 1

Obemannade flygplan. Namn: Hampus Hägg. Datum: Klass: TE14B. Gruppmedlemmar: Gustav, Emilia, Henric och Didrik

Tänder din grill på sextio sekunder. Lights your grill in sixty seconds.

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

Alla Tiders Kalmar län, Create the good society in Kalmar county Contributions from the Heritage Sector and the Time Travel method

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Matthew Thurley Industriell bildanalys (E0005E) Response rate = 65 %

Vässa kraven och förbättra samarbetet med hjälp av Behaviour Driven Development Anna Fallqvist Eriksson

Syfte Eleverna får läsa enkla texter och visa sin förståelse genom att rita lösningen.

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Arctic. Design by Rolf Fransson

Engelska, år Studieplan och bedömningsgrunder i Engelska för år 7 Moment Mål innehåll Bedömningsgrund Läsa

#minlandsbygd. Landsbygden lever på Instagram. Kul bild! I keep chickens too. They re brilliant.

Transkript:

Talteknologi (AAST) 1 mars 2006 1 Talteknologi (AAST) 1 mars 2006 2 Naturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem Problemet Föreställ dig ett dialogsystem som ger reseinformation Att generera: Vilken stad vill du åka till? (1) Vilken stad vill du åka TILL? Stina Ericsson, Talteknologi VT06 Vilken stad vill DU åka till? Vilken STAD vill du åka till? Talteknologi (AAST) 1 mars 2006 3 Talteknologi (AAST) 1 mars 2006 4 Passande intonation beror på kontexten (1) Passande intonation beror på kontexten (2) (2) A: Jag vill boka en resa och jag vill åka från Göteborg S: Vilken stad vill du åka TILL? S :? Vilken stad vill DU åka till? S :? Vilken STAD vill du åka till? (3) A: Min kusin och jag vill resa till varsin stad. Hon vill åka till Prag. S: Vilken stad vill DU åka till? S :? Vilken stad vill du åka TILL? S :? Vilken STAD vill du åka till?

Talteknologi (AAST) 1 mars 2006 5 Talteknologi (AAST) 1 mars 2006 6 Ett TTS-test Passande intonation beror på kontexten (3) (5) a. When do you WANT to leave? Festival a and ViaVoice b b. When DO you want to leave? Lucent s Articulator c (4) A: Jag vill gärna åka till USA c. When do you want TO leave? AT&T s TTS d S: Vilken STAD vill du åka till? S :? Vilken stad vill du åka TILL? S :? Vilken stad vill DU åka till? a festvox.org/voicedemos.html demo version October 2002. b www-3.ibm.com/software/speech/enterprise/dcenter/demo-tts.html; demo version March 2002. c www.tts-talk.com; demo version March 2002. d www.naturalvoices.att.com/demos; ; demo version March 2002. Talteknologi (AAST) 1 mars 2006 7 Talteknologi (AAST) 1 mars 2006 8 Generera tal Martin & Jurafsky Föreläsningsinnehåll Ett stort problem for generering av tal: prosodi (satsmelodi, betoning) Enkla lösningar för satsmelodi: skilja frågor från icke-frågor, utnyttja punkter och kommatecken Behov: tillgång till kontexten The system could annotate the output with discourse structure information to help synthesise the proper prosody. To date, there has been very little work on this area in NLG. [J&M s.792] 1. Prosodi 2. TTS och prosodi-markup 3. Informationsstruktur och prosodi 4. Ett exempel: generering av prosodiskt passande yttranden i dialogsystemet GoDiS

Talteknologi (AAST) 1 mars 2006 9 Talteknologi (AAST) 1 mars 2006 10 Prosodi 1. Prosodi Aspekter av uttal som rör större enheter än lexikoningångar, dvs det rör sig om suprasegmentala fenomen Talteknologi (AAST) 1 mars 2006 11 Talteknologi (AAST) 1 mars 2006 12 Fonologisk prosodi Prominens Fonologisk prosodi Prosodisk struktur Betoning Rör stavelsenivå Ett relativt begrepp Exempelvis kontexten (texten, dialogen, osv) påverkar vad som är prominent och inte i ett yttrande Prosodisk frasering: yttranden består av prosodisk frasstruktur (jfr. syntaktisk frasstruktur) Ex. Jag vill boka en resa, och jag vill åka från Göteborg Två stora fraser: Jag vill boka en resa och jag vill åka från Göteborg Intermediära fraser: Jag vill boka en resa... Debatt kring definitionen av prosodiska fraser, och deras relation till syntaktiska och semantiska enheter

Talteknologi (AAST) 1 mars 2006 13 Talteknologi (AAST) 1 mars 2006 14 Fonologisk prosodi Tonala kategorier (tunes) Grundtonsmönster ( pitch accents ): rör F0-konturen En modell för grundtonsmönster: ToBI (Tones and Break Indices) Tonala kategorier och gruppering Språkspecifikt Engelska: Två enkla toner: H(igh), L(ow). Asterisk (*) anger ton på betonad stavelse. H+L: ett fallande mönster, L+H: en stigning H*, L*, L+H*, L*+H, H+L* Dessutom: två gränstoner: L%, H% Fonologisk prosodi ToBI exempel Jurafsky & Martin: oh, really L+H*: glad L*+H: skeptisk L*: arg Talteknologi (AAST) 1 mars 2006 15 Talteknologi (AAST) 1 mars 2006 16 Parametrar för prosodi-generering Tonhöjd/frekvenstoppar Melodi/Grundtonsmönster 2. TTS och prosodi-markup Hastighet Volym Pauser Ex. prominenta stavelser har ofta högre volym och lägre hastighet än icke-prominenta Ex. prosodiska frasgränser följs ofta av pauser

Talteknologi (AAST) 1 mars 2006 17 Talteknologi (AAST) 1 mars 2006 18 TTS markup-språk för (bl.a) prosodi Markup for speech synthesis SABLE ToBI för olika språk, exv. GToBI för tyska http://www.coli.uni-sb.de/phonetik/projects/tobi/ gtobi.php3 SSML (Speech Synthesis Markup Language) http://www.w3.org/tr/speech-synthesis/ SABLE Aim: a standard markup language for speech synthesis A collaboration between Sun, AT&T, Bell Labs, Edinburgh, and CMU Builds on three previous markup languages: SSML, STML, JSML XML-based http://www.bell-labs.com/project/tts/sable.html Talteknologi (AAST) 1 mars 2006 19 Talteknologi (AAST) 1 mars 2006 20 Några SABLE-taggar EMPH: betoning The leaders of <EMPH>Denmark</EMPH> and <EMPH>India</EMPH> meet on Friday PITCH: Tonhöjd som ökning eller minskning i förhållande till aktuellt värde Without his penguin, <PITCH BASE=-20%"> which he left at home, </PITCH> he could not enter the restaurant RATE: Talhastighet TTS FESTIVAL http://www.cstr.ed.ac.uk/projects/festival/ Utvecklat i Edinburgh Brittisk engelska, amerikansk engelska, spanska, walesiska SABLE markup På experimentnivå: ToBI VOLUME: Volym

Talteknologi (AAST) 1 mars 2006 21 Talteknologi (AAST) 1 mars 2006 22 TTS MARY http://mary.dfki.de/ 3. Informationsstruktur och prosodi Utvecklat vid DFKI i Tyskland GToBI och SABLE för tyska SABLE för engelska Talteknologi (AAST) 1 mars 2006 23 Talteknologi (AAST) 1 mars 2006 24 Påminnelse: Kontexten påverkar prosodin Informationsstruktur Mark Steedmans tema och rema 1. Tema/Rema-indelning (6) A: Vilken lampa är tänd? S: Lampan i KÖKET är tänd (7) A: Är lampan i köket släckt? S: Lampan i köket är TÄND Tema: reflekterar kontexten, det som diskuteras Rema: det informativa i förhållande till temat Exempel: Q: Vilken lampa är tänd? A: Lampan i köket är tänd De två S-yttrandena är relaterade till kontexten på olika sätt de har olika informationsstruktur Tema i A: är tänd Rema i A: Lampan i köket

Talteknologi (AAST) 1 mars 2006 25 Talteknologi (AAST) 1 mars 2006 26 Informationsstruktur Mark Steedmans fokus och bakgrund Informationsstruktur och prosodi 2. Fokus/bakgrunds-indelning Fokus: den del av tema eller rema som skiljer det från liknande element Bakgrund: det som inte är fokus Exempel: Q: Vilken lampa är tänd? A: Lampan i köket är tänd Tema i A: är tänd Rema i A: Lampan i köket Fokus i temat i A: tänd (jfr. släckt) Fokus i remat i A: köket (jfr. hallen, badrummet,..) Steedman kopplar tema/rema och fokus/bakgrund till prosodi: Tema och rema är olika prosodiska fraser, med olika intonationsmönster Fokus bestämmer placeringen av intonationsaccenter i tema och rema Rema-fokus: H* Tema-fokus: L+H* Talteknologi (AAST) 1 mars 2006 27 Talteknologi (AAST) 1 mars 2006 28 (8) U: Which heaters are on? S: The heater in the KITCHEN H* L+H*LH% } {{ } } {{ } }{{} } {{ } Background F ocus Background F ocus } {{ }} {{ } Rheme T heme is ON. (9) U: What is the status of the heaters? S: The heater in the KITCHEN L+H*LH% H*LL% } {{ } } {{ } }{{} } {{ } Background F ocus Background F ocus } {{ }} {{ } T heme Rheme is ON.

Talteknologi (AAST) 1 mars 2006 29 Talteknologi (AAST) 1 mars 2006 30 GoDiS (Gothenburg Dialogue System) 4. Ett exempel: Generering av prosodiskt passande yttranden i dialogsystemet GoDiS Ett experimentellt dialogsystem för forskning kring människa-människa- och människa-maskin-interaktion Ett flertal applikationer: resebyråinformation, video, kalender, m.m Systemet bygger en bild av vad som sagts och gjorts (och ska sägas och göras) i dialogen; ett informationstillstånd Talteknologi (AAST) 1 mars 2006 31 Talteknologi (AAST) 1 mars 2006 32 GoDiS informationstillstånd Bestämma informationsstruktur för generering i GoDiS Tema-rema utifrån Question Under Discussion 2 6 4 PRIVATE SHARED h i... 2 COM QUD 6 4 LU SET(PROPOSITION) STACK(QUESTION) 2 4 SPEAKER.. MOVES.. S: Vart vill du åka? Question Under Discussion:?λx.destination(user, x) U: Jag vill åka till Berlin Commitment: destination(user, berlin) 3 5 3 7 5 3 7 5 QUD-baserad bestämning av tema-rema (QudTR): Tema är den del av yttrandet som motsvarar frågan på QUD. Resten av yttrandet är rema (den informativa delen). (10) U: How much is the flight? S: The price is 423 Euros. } {{ }} {{ } T heme Rheme QUD före svaret:?λx.λy.price(x, y) Svaret: price(423, euros) Svarets tema: λx.λy.price(x, y) Svarets rema: 423, euros

Talteknologi (AAST) 1 mars 2006 33 Talteknologi (AAST) 1 mars 2006 34 Bestämma informationsstruktur för generering i GoDiS Fokus-bakgrund utifrån commitments Commitments-baserad bestämning av fokus-bakgrund (ComFB): Fokus är den del av tema eller rema som har ett alternativ i en parallel struktur i commitments. Resten är bakgrund. (11) U1: How much is the business flight? S1: The price is one thousand Euros Bland commitments: price(1000, euros) U2: And how much is the economy flight? QUD:?λx.λy.price(x, y) Svar att generera: price(500, euros) S2: The price is } {{ } T heme five hundred } {{ } F ocus Euros } {{ } Background } {{ } Rheme Talteknologi (AAST) 1 mars 2006 35 Talteknologi (AAST) 1 mars 2006 36 Bestämma informationsstruktur för generering i GoDiS Fokus-bakgrund utifrån domänen Domän-baserad bestämning av fokus-bakgrund (DomFB): Fokus är den del av tema eller rema som har ett alternativ i en parallel struktur i domänen. Resten är bakgrund. There is a } {{ } } {{ } Background business F ocus flight } {{ } Background } {{ } Rheme (12) U: Is there a flight from Saarbrücken to Frankfurt on Monday? QUD:?(how(f ly)&dep(sb)&dest(f ra)&dep day(mo)) Svar att generera: class(business) S:

Talteknologi (AAST) 1 mars 2006 37 Talteknologi (AAST) 1 mars 2006 38 Propositional content QudTR TR-partitioned propositional. content ComFB Output from information structure determination GoDiS tags DomFB Example: <F TH> Business </F TH> class costs <RH> <F RH> 1234 </F RH> Euros </RH>. IS partitioned propositional content Figur 1: Assignment of information structure in GoDiS Talteknologi (AAST) 1 mars 2006 39 Talteknologi (AAST) 1 mars 2006 40... IS-Partitioning GoDiS med SABLE i MARY och FESTIVAL Generation module Output module Dialogexempel (generera S1): Text interface Festival interface MARY interface Audio player (13) U1: How much is the economy flight? S1: The price is THREE HUNDRED Euros. Text SABLE/ AMPL SABLE/ MaryXML Audio output Efter informationsstrukturbestämning: Text output Festival MARY (14) The price is <RH> <F RH> three hundred </F RH> Audio output Audio file Euros </RH>. Figur 2: Assignment of information structure in GoDiS

Talteknologi (AAST) 1 mars 2006 41 Talteknologi (AAST) 1 mars 2006 42 Konvertering till SABLE, alternativ 2: Konvertering till SABLE, alternativ 1: <?xml version="1.0"?> <!DOCTYPE SABLE PUBLIC "-//SABLE//DTD SABLE speech mark up//en" "Sable.v0_2.dtd" []> <SABLE> <SPEAKER NAME="male1"> The price is <EMPH> three hundred </EMPH> </SPEAKER> </SABLE> Euros. <?xml version="1.0"?> <!DOCTYPE SABLE PUBLIC "-//SABLE//DTD SABLE speech mark up//en" "Sable.v0-2.dtd" []> <SABLE> <SPEAKER NAME="male1"> The price is <EMPH> <PITCH BASE="+15%"> three hundred </PITCH> </EMPH> Euros. </SPEAKER> </SABLE> Talteknologi (AAST) 1 mars 2006 43 Talteknologi (AAST) 1 mars 2006 44 GoDiS med GToBI i MARY Konvertering till GToBI: Dialogexempel (generera S1): (15) U1: Wieviel kostet die zweite Klasse? S1: Der Preis ist DREIHUNDERT Euros. Efter informationsstrukturbestämning: (16) Der Preis ist <RH> <F RH> dreihundert </F RH> Euros </RH>. <?xml version="1.0" encoding="iso-8859-1"?> <!DOCTYPE maryxml SYSTEM "http://mary.dfki.de/ lib/maryxml.dtd"> <maryxml> <speaker gender="female"> Der Preis ist <t accent="h*"> dreihundert </t> Euro. </speaker> </maryxml>

Talteknologi (AAST) 1 mars 2006 45 Lyssna på GoDiS-output med varierad prosodi http://www.coli.uni-saarland.de/projects/siridus Klicka på Experiments