Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning Jens Edlund KTH Tal, Musik och Hörsel
Om mig Arbetar som forskare på KTH Tal, Musik och Hörsel Lingvistik, fonetik, datorlingvistik i grunden Talforskning och talteknologisk forskning sedan 90- talet - Industri och akademi - Huvudsakligen KTH 2015: blandade databehovsrelaterade sidouppdrag
Om KTH Tal, Musik och Hörsel Grundades 1951 av Gunnar Fant
Om tal Inte talad text (och text är sällan skrivet tal) I normalfallet - Ansikte mot ansikte - Kraftigt multimodalt - Emergent, transient Inspelat tal är en representation av serier av mänskliga beteenden som växer fram, inkrementellt, över tid
Om talteknologi Analys, beskrivning, visualisering, modellering, kategorisering, igenkänning, manipulation, generering av tal Syften från grundforskning till diagnos och vård, till underhållning och information, till transaktion och effektivisering... Och så kommunikation, förstås Använder text som resurs Bör använda ljud (åtminstone talljud) Dessutom allt som finns att tillgå!
Om taldata Idag: stora datamängder (paradfall för big data ) Svår distinktion mellan insamling och analys - I en iterativ process - Det som är resultat i en evaluering blir indata till nästa steg - Stegvis automatisering - Human in the loop...
Brister (?) i befintliga metoder Offrar ofta ekologisk validitet för experimentell kontroll - Inspelningar i laboratoriemiljö - Krystade och sökta uppgifter - Urval baserat på politik och (missriktad?) vetenskapsteori snarare än hur användargruppen ser ut Offrar skärpa för generalitet - Standardiserade uppgifter - Breda frågeställningar Offrar effektivitet för återbrukbarhet - Standardscheman för uppmärkning som inte passar uppgiften - Stanndardiserade evalueringar som inte mäter det som är relevant
Nya metoder Aktivt område - Det görs ganska mycket här - Mycket sker mer eller mindre dolt i industrin Nyckelpunkter - Wisdom of the crowd - Analys/insamling som positiv sidoeffekt - Icke-linjära processer - Kollaborativ analys (människa-människa och människadator)
Några specifika metoder Audience response systems - ARS Wizard of Oz Crowd sourcing Human computation/games with a purpose Människa/dator-återkoppling Visualisering
Audience Response Systems Hollywood! Stringent utvärderad metod Men: måste återskapas
ARS results General statistics - Subjects clicked on average 29 times per subject (1/6 seconds) - Varying from 10 clicks (1/17 seconds) to 50 clicks (1/3.5 seconds). KDE Estimates
Temporal precision and latency Cross-correlation between ARS and objective data Small (0.22, 0.25, 0.27) correlation 0.3 0.2 0.1 0-0.1 0.1 0.3 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7 click+cut click + match click+both
Precision and recall Peak height vs cumulative number of identifiable problems in the peak-preceding regions Peak height Identifiable Unidentifiable
Vad ARS kan ge Snabb annotering (realtid*annoterare) Låg kognitiv belastning Lämplig för öppna, svåroperationaliserade frågor Lämplig för långa transienta datasekvenser
Trollkarlen från Oz Gammal teknik Hur många känner till den? Kan användas på många nivårer Human-in-the-loop - Komponentbaserade trollkarlar Wizard-As-Subject Computer-in-the-loop
Crowd sourcing Amazons mekaniska turk i all ära... Wikipedia och andra - Exempel: Syntesprojekt
Human computation/games with a purpose Von Ahns exempel: - ESP game - Captchas Statistik från, låt säga, Word Feud Perceptionstester i form av spel
Återkopplingsloopar Människa och maskin i samverkan Få ut mer än summan av delarna Exempel: syntesinläsning med utvärdering - Inläsning, analys, återsyntes, bedömning(ar, omläsning) - Ger data på varje nivå
Visualisering Uttnyttja människans (än så länge) bättre mönstermatchning Cocktail omedelbara ljudmiljöer Ljudbrowsing - Proportioner: män/kvinnor, missnöja/nöjda - Sökning i parameterrymder
Tack för er tid!