Bilaga A Vad gör tal till samtal? Forskningsprogram

Relevanta dokument
Abelin, Å. (1999) Studies in Sound Symbolism Gothenburg Monographs in Linguistics 17. Göteborg, 279 sid.

Delat projektledarskap * SWEDIA De svenska dialekternas fonetik och fonologi år 2000 (RJ)

Miniseminarium om grounding och feedback

Litteraturlista ALLMÄN SPRÅKVETENSKAP och FONETIK. Period 1:

KOMMUNIKATION ATT SKAPA ETT BRA SAMTAL

Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning. Jens Edlund KTH Tal, Musik och Hörsel

Litteraturlista HT09 ALLMÄN SPRÅKVETENSKAP och FONETIK GRUNDKURS. Period

F12: Användarna i fokus

Ingrid Mårtensson, ingma583

FAKTORER SOM PÅVERKAR VÅR BEDÖMNING AV KVINNLIGA OCH MANLIGA TALARES ÅLDER Susanne Schötz

Litteraturlista ht10 ALLMÄN SPRÅKVETENSKAP och FONETIK. GRUNDKURS Period Period 1

Artikelskrivandets konst, 7.5 hp

Tillämpad experimentalpsykologi [2] Tillämpad experimentalpsykologi [1] Tillämpad experimentalpsykologi [3] Empirisk forskningsansats

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Att använda den didaktiska modellen organiserande syften för att planera och analysera naturvetenskaplig undervisning

Exjobbskritik Muntlig opponering på ett exjobb. Stina Ericsson

Tillämpad experimentalpsykologi [2] Tillämpad experimentalpsykologi [1] Empirisk forskningsansats. Tillämpad experimentalpsykologi [3] Variabler

Tankar om språkundervisning

Hur reagerar väljare på skatteförändringar?

Tillämpad prosodi inom Artificiell Intelligens

KOMMUNIKATIVT LEDARSKAP

Kursens syfte. En introduktion till uppsatsskrivande och forskningsmetodik. Metodkurs. Egen uppsats. Seminariebehandling

DET KOMMUNIKATIONSSTÖDJANDE KLASSRUMMET: OBSERVATIONSPROTOKOLL

DET KOMMUNIKATIONSSTÖDJANDE KLASSRUMMET: OBSERVATIONSVERKTYG

Att tala var för sig, samtidigt eller inte alls

Är det meningsfullt att försöka överraska förare flera gånger i rad när man utvärderar kollisionsvarning?

Vad säger forskningen om programmering som kunskapsinnehåll? Karin Stolpe, föreståndare NATDID liu.se/natdid

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson

Teoretisk lingvistik och datalingvistik. Robin Cooper

Svenska inlärares svårigheter vad gäller uttal och perception av talad franska

Kursinformation och schema Lingvistik 729G08 (6 hp)

Kommunikation Samtal-Professionella samtal-pedagogiska professionella samtal - Handledning

Att läsa utan att förstå - läsförståelseproblem i tidig skolålder. Åsa Elwér

Jämförelserapport. För Christina Jonsson som samarbetar med Lars Andersson Denna rapport tillhandahålls av:

Fonetik och fonologi, 7,5 hp 2LG023 Logopedprogrammet

En snabbguide för att söka forskningsartiklar i utbildningsvetenskap

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Sociala berättelser och seriesamtal

Beijer Electronics AB 2000, MA00336A,

Perception och Maskininärning i Interaktiva Autonoma System. Michael Felsberg Institutionen för systemteknik Linköpings universitet

/r/ i några svenska dialekter

Deltagarbaserad forskning, 7.5 högskolepoäng

Fonologikollokviet vt Institutionen för svenska och flerspråkighet (fr.o.m. 2013)

Sri Lanka Association for Artificial Intelligence


Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

Försök att rymma svaren i den platsen som finns. Skriv tydligt! Svara sammanhängande och med enkla, tydliga meningar.

Att skriva uppsats. Magnus Nilsson Karlstad universitet

Annette Lennerling. med dr, sjuksköterska

Rapportskrivning Användarcentrerad Design. Anders Lindgren

Metoder inom nordistiken Interaktionell lingvistik

Pragmatisk och narrativ utveckling

Kommunikation och interaktion Maria Redström Patricija Jaksetic CR&T

det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC

Kurslitteratur Taltranskription: Introduktion

Vilka färdigheter ska vi sträva efter för att ge våra barn en god grund för åk 1?

Kristina Säfsten. Kristina Säfsten JTH

diskriminering av invandrare?

Dataförmedlad kommunikation och sociala medier, 7,5 hp

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Fastställande. Allmänna uppgifter. Kursens mål

SPRÅKINLÄRNINGSMILJÖ Denna dimension omfattar den fysiska miljön och lärandekontexten. Elevens namn: Klassrummet är utformat med öppen planlösning.

Barn lär av barn. Flerspråkighet i fokus, Stockholms universitet, 4 april 2016 Ellinor Skaremyr

Kursinformation och schema för Lingvistik 6 hp 729G08

KONSTEN SOM KUNSKAPSVÄG

Skrivträning som fördjupar den naturvetenskapliga förståelsen. Susanne Pelger Lunds universitet

Simulering av brand i Virtual Reality

Pedagogik AV, Nätbaserat lärande, 7,5 hp

Kommunikation och Interaktion

Tolkhandledning

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Matris i engelska, åk 7-9

Hantering av hazards i pipelines

Kommunikationsflödet i texttelefonsamtal Introduktion och syfte Bakgrund Tidigare forskning om skrifspråksproduktion Allmänt

Kursplan. PR1017 Portugisiska: Muntlig språkfärdighet II. 7,5 högskolepoäng, Grundnivå 1. Portuguese: Oral Proficiency II

In: Jörgenson, Platzack & Svensson (eds) Språkbruk, grammatik och språkförändring. Dept of Nordic Languages, University of Lund.

Effekter av ett familjestödsprogram för att utveckla barns ordförråd och senare läs- och skrivförmåga

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

De interaktiva kuddarna Textil som kommunikationsredskap

Affärsmodellernas förändring inom handeln

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

APD? APD Auditory Processing Disorder finns det? Elsa Erixon Hörselläkare. Hörsel- och Balansmottagningen Akademiska sjukhuset

Appendix 4. Ordförklaringar och korta beskrivningar av test och skalor

ÄMNESSPRÅK Språk i alla ämnen

Designmönster för sociala användningssituationer

ANTROPOLOGISK LINGVISTIK 1 En Projektbeskrivning

Fernando Álvarez Montalbán

Kommunikationsanalys (5) Mathias Broth Avdelningen för språk och kultur/ikk

Hur gör man för att urskilja god undervisning? PLATO som redskap för klassrumsobservationer

Hittillsvarande verksamhet

VAD ÄR KOMMUNIKATION?

TEACHING AND LECTURING

Aktuell forskning inom området flerspråkighet, funktionsnedsättning, AKK

Humanistiska programmet (HU)

Programmering på vetenskaplig grund? Några forskningsresultat. Karin Stolpe, föreståndare NATDID liu.se/natdid

Matris för engelska, åk 7-9

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

1. Öppna frågans argument

Matematikundervisning med digitala verktyg* Översikt över modulstrukturen

Conversation Analysis (CA) Samtalsanalys. Göteborgs universitet Inst f lingvistik Pragmatik ht 2006

Transkript:

Bilaga A Vad gör tal till samtal? Forskningsprogram Specifika mål Mer än hundra års talforskning har gett oss grundläggande kunskaper om hur talet fungerar som kommunikativt medium. Vi har en bra bild av vilka talets byggstenar är; hur delar av talet framhävs; hur enheter i talet grupperas och avgränsas; och vilken form och funktion dessa komponenter har. Den typ av tal som framför allt studerats inom fonetisk och talteknologisk forskning har hämtats ur situationer utan interaktion mellan talare och lyssnare; man har undersökt enstaka ord, isolerade yttranden, uppläst text, monologer, datorriktat tal, och så vidare. Mer sällan har man studerat samtal mellan människor. Detta trots att samtal öga mot öga måste anses vara den primära och den rikaste formen av tal. Det är i samtalssituationen som talet, och för den del språket, uppstått; det är där man lär sig tala; och samtalet är det naturliga sättet att kommunicera på. Det finns starka skäl att anta att tal i samtal skiljer sig väsentligt från tal där det inte finns någon lyssnare bland annat genom att samtal innehåller en reglering av interaktionen som saknas i andra former av tal. I den mån samtal människor emellan faktiskt undersökts inom fonetik och talteknologi eller inom relaterade discipliner (som pragmatik, konversationsanalys och interaktionell lingvistik) har studierna ofta baserats på exempel utvalda av forskarna, på manuellt valda mätpunkter i analyserna och på transkriptioner och andra mänskliga bedömningar (Local & Walker, 2005). Den sortens metodologi ger observationer som är svåra att frikoppla från den enskilda forskarens intuition vilket äventyrar reproducerbarheten i undersökningarna. Ett sätt att angripa problemet är att operationalisera såväl bedömningar som analyser så att dessa kan verifieras objektivt.

Valet av material och forskningsinriktning inom vårt område har lett till en situation där kunskaperna om talets egenskaper i samtal i stor utsträckning saknas och där vi är mycket bättre på att modellera monolog än dialog i teorin liksom i talteknologiska applikationer. Syftet med det föreslagna projektet är att förbättra situationen genom att undersöka och beskriva en av de företeelser som faktiskt gör tal till samtal nämligen det kontinuerliga samarbetet kring regleringen av interaktionen. Eftersom vi vet att prosodin har stor betydelse för interaktionskontrollen ska vi i detta projekt koncentrera oss på att modellera prosodiskt interaktionskontrollsbeteende och på att undersöka människors reaktioner på beteende genererat utifrån dessa modeller. Områdesöversikt Förutsättningarna för ett samtal är minst två samtalsparter som kan och vill samtala med varandra. Under samtalet ikläder de sig rollerna som talare och lyssnare och rollerna växlar under samtalets gång. Växlingen av roller i samtalet det som brukar kallas turtagning (t ex Cassell, Bickmore, Campbell, Vilhjámsson, & Yan, 2000; Goodwin, 1981; Sacks, Schegloff, & Jefferson, 1974) är unik för samtalssituationen. I projektet vill vi bland annat ta reda på och modellera hur lyssnaren hittar lämpliga tillfällen att ta ordet, och hur talaren gör för att behålla ordet eller för att lämna över det. Projektet har som utgångspunkt att samtal är ett samarbete mellan samtalsparterna och att både talare och lyssnare aktivt och kontinuerligt bidrar till samtalet. Talaren gör det, självklart, genom att säga något. Lyssnaren gör det genom att på olika nivåer ge talaren återkoppling på det som sägs: att lyssnaren och talaren har kontakt; att lyssnaren har uppfattat och förstått vad som sägs; om lyssnaren har accepterat det som sägs; och lyssnarens attityd till det sagda (t ex Allwood, Nivre, & Ahlsén, 1993; Clark, 1996). Återkopplingsbeteendet är också unikt för samtalssituationen. Här vill vi bland annat ta reda på hur lyssnaren hittar lämpliga tillfällen att ge återkoppling och hur återkoppling på olika nivåer signaleras. Men det är mycket mer som försiggår i ett samtal. Innan talaren kan inleda ett samtal måste han/hon till exempel få lyssnarens uppmärksamhet; under samtalet kan lyssnaren signalera att han/hon vill ta ordet; och lyssnaren såväl som talaren kan antyda att de vill avsluta samtalet. Allt detta utgör potentiella studieobjekt inom projektet. För att komplicera bilden ytterligare är talet naturligtvis inte den enda ingrediensen i samtalet. Funktionerna som omnämnts ovan kan utföras med olika medel till exempel med ord, blickar, gester eller intonationsrörelser. Vi kommer dock att avgränsa projektet till akustiska/ prosodiska kanaler som är relevanta för samtalet. Om forskningsområdet definieras strikt som undersökningar av samtalsspecifika prosodiska egenskaper med mätbara och reproducerbara resultat vilket är vad vi vill ägna oss åt kan man med rätta säga att området är tämligen outforskat. Ett betydelsefullt namn inom området är dock Nigel Ward som tillsammans med kollegor undersökt olika automatiskt extraherade prosodiska drag som medel för att hitta lämpliga ställen att ge språklig återkoppling i japanska och amerikansk engelska (t ex Ward, 1999, forthcoming; Ward & Tsukahara, 2000). Ett annat viktigt namn inom området är Elizabeth Shriberg. Hon har tillsammans med kollegor lång erfarenhet av undersökningar med automatiskt extraherade prosodiska korrelat och har bland annat använt dessa för att modellera vissa samtalsspecifika egenskaper då framför allt yttrandeslut i amerikansk engelska (t ex Ferrer, Shriberg, & Stolcke, 2002; Shriberg & Stolcke, 2004; Shriberg, Stolcke, Hakkani-Tür, & Tür, 2000). Ytterligare en viktig forskargrupp består av Kristinn Thórisson, Justine Cassell och kollegor (t ex Cassell, Bickmore, Campbell, Vilhjámsson, & Yan, 2000; Thórisson, 2002). De har i mångt och mycket tagit ett steg vidare i och med att de kombinerat automatiskt extraherade prosodiska och visuella korrelat (vem som tittar på vem, handgester mm) i amerikansk engelska för att hitta lämpliga ställen för en talande dator att ta ordet.

Projektbeskrivning Vi avser att studera prosodiska fenomen som uppstår under samtalets gång med automatiska instrumentella metoder och observationer av samtalsparternas beteende. Det kan till exempel röra sig om intonationsrörelser och förlängningsmönster. För att kontrollera att resultat från mänskliga bedömare är reproducerbara testas samstämmigheten hos flera bedömare som givits samma uppgift. Resultaten används för att generera hypoteser vilka testas på nya data såväl som i produktions- och perceptionsexperiment, och kan även användas för att förfina de instrumentella metoderna. Målsättningen är att uppnå en modell av samtalsspecifika egenskaper som är testbar och användbar. Modellen utvidgas och förbättras genom att processen upprepas. Forskargruppen har egenutvecklade verktyg för automatiska analyser av olika prosodiska fenomen (Edlund & Heldner, forthcoming). Detta ger dels konsistenta och reproducerbara resultat, dels möjlighet att undersöka större material, vilket i sin tur ger bättre underlag för generalisering. Gruppen har även en gedigen erfarenhet av kontrollerade experiment med såväl naturliga som syntetiserade akustiska stimuli för att undersöka hur människor beter sig i och uppfattar olika situationer (bedömnings-, produktions- och perceptionsexperiment), vilket kommer att nyttjas för att testa de framtagna samtalsmodellerna. I det föreslagna projektet avser vi att kombinera dessa metoder för att studera naturliga samtal mellan människor. Vi planerar att göra undersökningar inom tre områden. Vi vill ta ett nytt grepp på frågan om var man ska leta efter interaktionskontrollssignaler; vi vill undersöka vilka prosodiska egenskaper som förekommer i samband med regleringen av interaktionen; och vi vill testa om de prosodiska egenskaper vi modellerar har någon relevans för människor om de ger de effekter som vi tror att de har när de används i samtal. Dessa tre områden beskrivs mer i detalj nedan. Var man ska leta efter interaktionskontrollsignaler? Andras forskning hävdar att turtagningssignaler signaler om att det är lämpligt att ta ordet måste komma minst 200-300 ms innan nästa talare tar ordet på grund av responstiden för språkliga yttranden (Ward, forthcoming; Wesseling & van Son, 2005a, 2005b). Turhållningssignaler signaler att talaren trots avbrott i talet inte är färdig som inte är menade att utlösa någon respons (utan snarare att hämma respons) kan dock troligen sitta senare än turtagningssignalerna. Dessa observationer gör det mycket intressant att undersöka de faktiska avstånden mellan yttranden i samtal (det vill säga längden på tystnaderna) eftersom det borde ge en uppfattning av hur långt innan pausen man ska leta efter signaler. Det brukar ofta framhållas att mänsklig turtagning är så rapp och precis att nästa talare normalt tar vid med minimal fördröjning och utan överlapp (t ex Levinson, 1983). Vi känner dock inte till några kvantitativa data på detta eller för den delen hur minimal fördröjning i detta sammanhang ska tolkas. Egna preliminära observationer tyder på att tyngdpunkten i distributionen av tystnadslängder i samtal snarare ligger kring 300 ms än nära ingen tyst paus. Om detta mönster håller verkar det rimligt att söka efter signaler omedelbart före pausen, men om turtagningar faktiskt sker utan överlapp och med minimal fördröjning som det sägs i litteraturen måste man leta efter signalerna längre tillbaka i orden. Vi planerar därför en distributionsanalys av tysta pauser i samtal där vi särskiljer tystnader där det sker ett talarbyte (och använder dessa som lämpliga platser att ta ordet) från tystnader där samma talare fortsätter efter tystnaden. Vi har egenutvecklade verktyg för att mäta längden på tystnader och för att avgöra om det sker ett talarbyte eller ej. Analyserna kan göras automatiskt och är inte beroende av mänskliga bedömningar. Verktyget ger även möjlighet att kvantifiera eventuellt överlapp vid talarskiften vilket vi naturligtvis kommer att utnyttja. Vi har även tillgång till omfattande talmaterial som lämpar sig för denna typ av undersökningar.

Vilka prosodiska drag förekommer i samband med interaktionskontroll? Egen och andras forskning har visat att förekomsten av en tyst paus inte är tillräcklig för att avgöra om talaren har pratat färdigt eller ej. Tysta pauser förekommer nämligen minst lika ofta där talaren inte är färdig till exempel vid tvekan eller framför betydelsetunga ord som när han eller hon faktiskt är det (Edlund & Heldner, 2005; Ferrer, Shriberg, & Stolcke, 2002). Vi har därför inlett undersökningar av om andra prosodiska drag kan användas för att fatta detta slags avgöranden och flera undersökningar är planerade inom projektet. En rad olika prosodiska drag sägs vara relevanta och vi har hittills gjort en studie av intonationsmönster omedelbart före tysta pauser. I denna undersökning fann vi bland annat att platta intonationsmönster i mitten av talarens omfång ofta används i situationer där talaren inte är färdig och att fallande mönster i den lägre delen av talarens omfång ofta används när talaren är färdig. Stigande intonationsmönster däremot förekom lika ofta vid ställen där det var lämpligt att ta ordet som där det inte var det och kan därför inte heller användas för att avgöra om talaren är färdig eller ej (Edlund & Heldner, 2005). Vi ser dock behov av mer forskning om olika intonationsmönsters funktion och då särskilt vad gäller stigande mönsters funktion. Vi avser även undersöka andra prosodiska drag som sägs vara relevanta för interaktionskontrollen. Ett sådant drag är förlängningsmönster i samband med olika typer av gränser i talet. Som ett led i undersökningen av intonationsmönster har vi utvecklat en metod för automatisk segmentering av pseudo-stavelser som huvudsakligen består av den tonande stavelsekärnan vokalen (Edlund & Heldner, forthcoming). Vi planerar att undersöka om durationen av dessa pseudostavelser före tysta pauser kan användas för att uppskatta förlängningsmönster och om förlängningsmönster i sin tur kan användas för att avgöra om det är lämpligt att ta ordet eller ej. Vidare planerar vi att undersöka om man kan påvisa olika akustiska kvalitéer på tysta pauser ihop med olika interaktionskontrollsfunktioner. Det har föreslagits att talröret ofta är slutet under tysta pauser där talaren inte är färdig, medan det är öppet när talaren faktiskt är färdig (Local & Kelly, 1986). Dessa talrörskonfigurationer borde rimligen påverka hur tysta de tysta pauserna är i så mån att pauserna när talaren inte är färdig borde ha lägre intensitet än de där talaren är färdig och andas ut. Det återstår dock att visa att skillnaderna är mätbara och vilken praktisk nytta de har för att avgöra om talaren är färdig eller ej. Ytterligare en planerad undersökning är att gå vidare med resultatet att önskan att behålla ordet signaleras med platta intonationsmönster för att ta reda på om detta kan generaliseras till att önskan att behålla ordet signaleras med ingen förändring (uthållen artikulation, tystnad med ocklusion, utdragna talljud, ingen grundtonsförändring, ingen intensitetsförändring, fonologiska processer som sträcker sig över tystnaden med mera). Vi har talmaterial som lämpar sig även för denna typ av undersökningar. Har resulterande modeller någon relevans för människor? Undersökningarna av var man ska leta efter interaktionskontrollssignaler och vilka prosodiska egenskaper man ska leta efter är avsedda att ge underlag till modeller av mänskligt interaktionskontrollsbeteende. För att testa om modellerna har någon relevans för människor om de ger de effekter som vi tror att de har när de används i samtal så planerar vi även undersökningar där vi ska generera samtalsbeteende utifrån modellerna för att undersöka hur försökspersoner reagerar. Kommer till exempel försökspersoner undvika att ta ordet när en samtalande dator använder de signaler vi tror betyder att man har mer att säga, eller kommer försökspersonerna faktiskt ta ordet när datorn signalerar att den har pratat färdigt. Dessa undersökningar kommer att göras under projektets senare del. I detta sammanhang är det viktigt att påpeka att de talteknologiska metoderna ger oss möjlighet att empiriskt testa modeller och teorier, men att teknologin inte är ett mål i sig.

Betydelse Vi menar att projektet kan ge ett väsentligt bidrag till kunskapen om vad som gör tal till samtal genom att beskriva och modellera prosodiskt beteende som är relevant för regleringen av interaktionen i samtal. Det här är en kunskap som vi menar vara eftersatt inom fonetisk och talteknologisk forskning. Vidare har projektet förutsättningar att ge kvantitativa och verifierbara beskrivningar på ett sätt som tidigare forskning inte kunnat ge. Med den kunskap vi har inom forskargruppen ser vi möjligheten att föra grundforskningen inom området ett stort steg framåt. Preliminära resultat Vi har publicerat ett antal artiklar i internationella tidskrifter, böcker och konferensvolymer, nu senast i ett specialnummer av tidskriften Phonetica med undertiteln Progress in Experimental Phonology: From Communicative Function to Phonetic Substance and Vice Versa (Edlund & Heldner, 2005) med direkt relevans för projektet, och dessförinnan bland annat (Edlund, Heldner, & Gustafson, 2005; Edlund, House, & Skantze, 2005; Heldner, Edlund, & Carlson, 2006). Dessa studier har framför allt behandlat intonationsrörelsers betydelse för interaktionskontroll. Utrustning Forskargruppen disponerar för närvarande allmänna resurser inom KTH Tal, musik och hörsel som även kommer att kunna utnyttjas inom det föreslagna projektet. Det vore dock önskvärt om medel för en bärbar dator (ca 30 000 kr) lades till projektmedlen. Denna dator vore till stor nytta för demonstrationer, inspelningar och experiment inom projektet. Internationellt och nationellt samarbete Forskargruppen befinner sig vid den internationella forskningsfronten inom detta mycket aktuella område. Vi har sedan flera år arbetat med närliggande frågeställningar, till exempel inom VR-projektet GROG (Gräns och gruppering Strukturering av talet i olika kommunikativa situationer) (Carlson et al., 2002; Heldner & Megyesi, 2003) och EU-projektet CHIL (Computers in the Human Interaction Loop) (Edlund & Heldner, 2005; Edlund, Heldner, & Gustafson, 2005; Heldner, Edlund, & Carlson, 2006). Vi har haft upprepade kontakter med en av de tongivande forskarna inom området Elizabeth Shriberg och vi nyligen blivit inbjudna till en specialsession under konferensen Interspeech 2006 The Prosody of Turn-Taking and Dialog Acts som Elizabeth Shriberg organiserar tillsammans med ovan nämnde Nigel Ward. Vidare verkar forskargruppen i en miljö med goda internationella kontakter; bland annat genom EU-projektet CHIL med deltagare från 15 olika institutioner och företag i Europa och USA och där vi aktivt samarbetar med flera av dessa. Etiska överväganden Vi bedömer att det inte föreligger några etiska problem med det föreslagna projektet. Forskningen avser människor och mänskligt beteende, men det är inte aktuellt att behandla känsliga personuppgifter enligt 13 och 21 personuppgiftslagen. Det är heller inte fråga om fysiska ingrepp, fysisk påverkan eller psykisk påverkan på försökspersonerna. Forskningen kommer att beakta de riktlinjer som finns i Vetenskapsrådets forskningsetiska principer för humanistisk-samhällsvetenskaplig forskning. Undersökningsdeltagare deltar frivilligt efter att ha informerats om alla de inslag i den aktuella undersökningen som rimligen kan tänkas påverka deras villighet att delta. I de fall då förhandsinformation skulle äventyra undersökningens syfte, till exempel i Wizard-of-Oz studier, kommer deltagarna informeras om de faktiska förhållandena direkt efter experimentet. I den mån undersökningarna samlar in data i form av röstinspelningar, kommer dessa data registreras på ett sådant sätt att utomstående inte kan koppla försökspersonernas identitet till ljudfilerna.

Genusforskning och forskning med genusperspektiv Vi avser inte att lägga några genusperspektiv på forskningen. Däremot kommer jämställdhetsaspekter beaktas i så mån att både kvinnor och män ska finnas representerade i det material som undersöks inom projektet; att de prosodiska/akustiska drag som undersöks i projektet ska definieras och mätas på ett sådant sätt att män och kvinnor blir jämförbara vilket inte alltid varit fallet i tidigare forskning; och slutligen att både män och kvinnor ska delta som försökspersoner i de olika experimenten. Resursbehov Forskargruppen har en tvärvetenskaplig sammansättning med bakgrund i bland annat fonetik, lingvistik och talteknologi. Gruppen har stor erfarenhet av analys av prosodi och interaktion och har den nödvändiga kompetensen för projektets genomförande. Gruppen har medverkat i ett antal projekt, bland annat det nu aktiva CHIL (Edlund & Heldner, 2005; Edlund, Heldner, & Gustafson, 2005) och det avslutade GROG (Carlson et al., 2002; Heldner, Edlund, & Björkenstam, 2004; Heldner & Megyesi, 2003). I forskargruppen ingår två personer för vilka projektet söker finansiering; Fil dr Mattias Heldner och Forskningsingenjör Jens Edlund. Dessa två kommer att göra insatser i alla delar av projektet. Bägge två ägnar sig huvudsakligen åt forskning inom sina tjänster. Utöver dessa planeras ytterligare forskare verksamma vid Tal, musik och hörsel på KTH delta inom sina ordinarie tjänster i mindre omfattning; Professor Rolf Carlson, och Tekn dr Jonas Beskow. Vidare avser vi att hålla kontakten med tidigare samarbetspartners och söka kontakt med andra forskargrupper för att bredda forskningen. Utöver lönemedlen söks resemedel för deltagande i internationella konferenser med 30 000 kr per år och medel för inköp av en bärbar dator med 30 000 kr under första året. Referenser Allwood, J., Nivre, J., & Ahlsén, E. (1993). On the semantics and pragmatics of linguistic feedback. Journal of Semantics, 9 (1), 1-26. Carlson, R., Granström, B., Heldner, M., House, D., Megyesi, B., Strangert, E., et al. (2002). Boundaries and groupings - the structuring of speech in different communicative situations: a description of the GROG project. THM-QPSR, 44, 65-68. Cassell, J., Bickmore, T., Campbell, L., Vilhjámsson, H., & Yan, H. (2000). Human conversation as a system framework: Designing embodied conversational agents. In J. Cassell, J. Sullivan, S. Prevost & E. Churchill (Eds.), Embodied Conversational Agents (pp. 29-63). Cambridge, M.A.: The MIT Press. Clark, H. H. (1996). Using language. Cambridge: Cambridge University Press. Edlund, J., & Heldner, M. (2005). Exploring prosody in interaction control. Phonetica, 62(2-4), 215-226. Edlund, J., & Heldner, M. (forthcoming). /nailon/ a tool for online analysis of prosody. To appear in Proceedings of the 9th International Conference on Spoken Language Processing (Interspeech 2006). Pittsburgh, Pennsylvania, USA. Edlund, J., Heldner, M., & Gustafson, J. (2005). Utterance segmentation and turn-taking in spoken dialogue systems. In B. Fisseni, H.-C. Schmitz, B. Schröder & P. Wagner (Eds.), Sprachtechnologie, mobile kommunikation und linguistische ressourcen (pp. 576-587). Frankfurt am Main, Germany: Peter Lang.

Edlund, J., House, D., & Skantze, G. (2005). The Effects of Prosodic Features on the Interpretation of Clarification Ellipses. In Proceedings of Interspeech 2005. Lisbon, Portugal. Ferrer, L., Shriberg, E., & Stolcke, A. (2002). Is the speaker done yet? Faster and more accurate end-of-utterance detection using prosody in human-computer dialog. In Proceedings of the Seventh International Conference on Spoken Language Processing (ICSLP 2002) (Vol. 3, pp. 2061-2064). Denver, USA. Goodwin, C. (1981). Conversational organization: Interaction between speakers and hearers. New York: Academic Press. Heldner, M., Edlund, J., & Björkenstam, T. (2004). Automatically extracted F0 features as acoustic correlates of prosodic boundaries. In Proceedings of Fonetik 2004 (pp. 52-55). Stockholm: Department of Linguistics, Stockholm University. Heldner, M., Edlund, J., & Carlson, R. (2006). Interruption impossible. In M. Horne & G. Bruce (Eds.), Nordic Prosody: Proceedings of the IXth Conference, Lund 2004 (pp. 97-105). Frankfurt am Main: Peter Lang. Heldner, M., & Megyesi, B. (2003). Exploring the prosody-syntax interface in conversations. In Proceedings ICPhS 2003 (pp. 2501-2504). Barcelona, Spain. Levinson, S. C. (1983). Pragmatics. Cambridge: Cambridge University Press. Local, J. K., & Kelly, J. (1986). Projection and 'silences': Notes on phonetic and conversational structure. Human Studies, 9, 185-204. Local, J. K., & Walker, G. (2005). Methodological Imperatives for Investigating the Phonetic Organization and Phonological Structures of Spontaneous Speech. Phonetica, 62(2-4), 120-130. Sacks, H., Schegloff, E. A., & Jefferson, G. (1974). A simplest systematics for the organization of turn-taking for conversation. Language, 50(4), 696-735. Shriberg, E., & Stolcke, A. (2004). Direct Modeling of Prosody: An Overview of Applications in Automatic Speech Processing. In Proceedings of Speech Prosody 2004 (pp. 575-582). Nara, Japan. Shriberg, E., Stolcke, A., Hakkani-Tür, D., & Tür, G. (2000). Prosody-based automatic segmentation of speech into sentences and topics. Speech Communication, 32, 127-154. Thórisson, K. R. (2002). Natural turn-taking needs no manual: Computational theory and model, from perception to action. In B. Granström, D. House & I. Karlsson (Eds.), Multimodality in language and speech systems (pp. 173-207). Dordrecht, The Netherlands: Kluwer Academic Publishers. Ward, N. (1999). Low-pitch regions as dialog signals? Evidence from dialog-act and lexical correlates in natural conversation. In M. Swerts & J. Terken (Eds.), ESCA Workshop on Dialog and Prosody (pp. 83-88). Eindhoven: TUE-IPO. Ward, N. (forthcoming). Methods for discovering prosodic cues to turn-taking. To appear in Speech Prosody 2006. Dresden, Germany. Ward, N., & Tsukahara, W. (2000). Prosodic features which cue back-channel responses in English and Japanese. Journal of Pragmatics, 32, 1177-1207.

Wesseling, W., & van Son, R. J. J. H. (2005a). Early preparation of experimentally elicited minimal responses. In L. Dybkjaer & W. Minker (Eds.), Proceedings of the Sixth SIGdial Workshop on Discourse and Dialogue (pp. 11-18). Lisbon, Portugal: ISCA. Wesseling, W., & van Son, R. J. J. H. (2005b). Timing of experimentally elicited minimal responses as quantitative evidence form the use of intonation in projecting TRPs. In Proceedings of the Ninth European Conference on Speech Communication and Technology (Interspeech'2005) (pp. 3389-3392). Lisbon, Portugal: ISCA.