Denna presentation. 1. Introduktion. Olika områden. Introduktion (1) Introduktion (2) Vad är språk? Vad är språkteknologi?

Relevanta dokument
Text-till-Talsyntes (TTS2)

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Tillgänglighet och teknologi en omöjlig möjlighet?

Språket, individen och samhället VT08

Linköpings universitet

Stina Nyman

Talteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav

man kan lyssna på vad de betyder man kan lyssna efter hur de låter utan att bry sig om vad de betyder.

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Lär dig engelska med bilder Mappia AB Facebook.se/mappia Twitter/mappiaab

tal är en multimodal funktion.

Att argumentera i olika samtalssituationer och beslutsprocesser. (SV åk 4 6)

Talsyntes historia och metoder

Kognition crash course

Ansiktsigenkänning. Anna Ericsson Linköpings Universitet Linköping

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Fakta om cyklar VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR. Lärarmaterial ULF SINDT SIDAN 1

Jobbigt läge VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR LGRS 11 CENTRALT INNEHÅLL SOM TRÄNAS

BARNS SPRÅKUTVECKLING

EN UTFÄRD I HJÄRNANS VÄRLD

Nya Medier. Gränssnitt, Interaktivitet och Digital kod

Talbaserade multimodala dialogsystem för medicinsk rådgivning

Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning. Jens Edlund KTH Tal, Musik och Hörsel

Analys/syntes-kodning

DATORER OCH PROGRAM. Datorn är en symbolmaskin

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?)

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Teoretisk lingvistik och datalingvistik. Robin Cooper

ASPERGERS SYNDROMvad betyder det? Mia Nykopp, neuropsykolog Barnläkarstationen Pikkujätti i Hagalund mia.nykopp@pikkujatti.fi

DATORER OCH PROGRAM. Programmerade maskiner Program beteendeplan och beteendegenerator Generalitet och portabilitet Datorn är en symbolmaskin

Datoranimerade talande ansikten

Cristina Eriksson oktober 2001

Ny forskning: Så pratar katter med människor

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Pragmatik. Olika nivåer. Tumregler. Grice s samarbetsprinciper. Pragmatik och diskurs

Lyssningsstrategier. En framgångsrik språkinlärare: Tror på sin förmåga att lära sig. Är motiverad. Är medveten om varför hon/han vill lära sig

KIT 104 Kognitiva processer

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Lässtrategier för att förstå och tolka texter samt för att anpassa läsningen efter textens form och innehåll. (SV åk 1 3)

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?)

Anna-Lena Godhe. Sylvana Sofkova Hashemi. docent i utbildningsvetenskap. lektor i pedagogik. Institutionen för pedagogik kommunikation och lärande

Cochleaimplantat för vuxna möjlighet för ökad oberoende

Minifakta om djurungar hemma

Inledning till Wavesurfer av Christine Ericsdotter (Lingvistik, Stockholms universitet)

Kurslitteratur Taltranskription: Introduktion

Fakta om Marcus och Martinus

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

Vilka färdigheter ska vi sträva efter för att ge våra barn en god grund för åk 1?

Datormetaforen. Från människa till dator Från dator till människa o.s.v.

Ljud. Låt det svänga. Arbetshäfte

Uttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling

Radioear B81. PhD Karl-Johan Fredén Jansson Chalmers University of Technology Department of Electrical Engineering

Institutionen för datavetenskap vid Helsingfors universitet

Engelskaläxa glosor samt fraser till berättelsen En sommar i Storbritannien

Fyrverkerier. Introduktion. Nivå. I det här projektet ska vi skapa ett fyrverkeri över en stad. Activity Checklist.

Fonem eller grafem? Vilket ska komma först i sfiundervisningen? Margareta Molin

Det FRIA ORDET - ska det vara något - också för användare av AKK?

INTERNATIONAL SPINAL CORD INJURY DATA SETS - QUALITY OF LIFE BASIC DATA SET Swedish version

Fakta om robotar VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR. Lärarmaterial EVA MOSEGAARD AMDISEN

som har en integrerad hörselskadad elev i sin grupp

Mr. Adam Smith Smith's Plastics 8 Crossfield Road Selly Oak Birmingham West Midlands B29 1WQ

Drakjägarna: Drakblod

Introduktion till studier på Masugnen och sfi

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping

Lgr 11 - Centralt innehåll och förmågor som tränas:

Läsnyckel Skot på barnhem av Oscar K. illustrationer av Dorte Karrebæk översättning av Marie Helleday Ekwurtzel

Du kan även lyssna på sidorna i läroboken: Teknik direkt s Lyssna gör du på inläsningstjänst.

I dag. Småprat Uttal Bestämd och obestämd form Presentation av artiklar + diskussion Att beskriva. Miljöer, saker, människor

Familjedaghemmet Dagmamma i Brunna 2014ht- 2015vt

Nya Medier. Gränssnitt, Interaktivitet och Digital kod

Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige

SÄRSKOLANS RIKSKONFERENS

Att söka vetenskapliga artiklar inom vård och medicin -

Linköpings universitet

döden i datorn SPN-uppdrag

Köra tevespel VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR LGRS 11 CENTRAT INNEHÅLL SOM TRÄNAS

Vad styr våra val inlärning och motivation

Ramkursplan i teckenspråk som modersmål för hörande barn till döva och hörselskadade föräldrar (CODA)

Lärarmaterial. Vad handlar boken om? Mål och förmågor som tränas: Eleverna tränar på följande förmågor: Författare: Thomas Halling

Erik jagar en hund. Torsten Bengtsson. Lärarmaterial. Lgr 11 - Centralt innehåll och förmågor som tränas:

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Sinnena den mänskliga hårdvaran

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 1

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Deltagarbaserad forskning, 7.5 högskolepoäng

Människan och Tekniken. Fö 3 Människan och tekniken. Perception. Visuell perception

Unit course plan English class 8C

LEKTIONSTIPS. Lektionstips 3:4. Under denna lektion får dina elever:

Ofelia en ny syntesröst

När kroppen talar. Hur du kan tolka andra människors kroppsspråk och bli en KÄNSLOLÄSARE. Communication & Performance Development

Kognitiv psykologi. Kognition och hjärnan. Hjärnans struktur Neurokognition Kap 2

ANTON SVENSSON. Mitt kommunikationspass. Läs här om mig!

Structured Query Language (SQL)

E-boksstudie vid Högskolebiblioteket i Jönköping: resultat och konsekvenser för förvärvet

Om AKK och modersmål. Kommunikation och språk

Transkript:

Språkteknologi En Introduktion Denna presentation Vad är språk? Robert Eklund robert@roberteklund.info http://roberteklund.info Vad är språkteknologi? Vad är språkteknologins delområden Universitetslektor (Fonetik) vid Institutionen för Kultur och Kommunikation, Linköpings Universitet Linköping, Sverige & Affilierad Forskare (Neurokognition) vid Avdelningen för Neurovetenskap / Karolinska Institutet Stockholm, Sverige & Docent (Datorlingvistik) vid Avdelningen för Datavetenskap, Linköpings Universitet Linköping, Sverige Varför språkteknologi? Historik Vartåt barkar det hela? < BILD HÄR > 30 september 2012 Lt Commander Data i Star Trek 2 Olika områden 1. Introduktion Taligenkänning Talsyntes Text-till-Tal-System Talarverifiering (-identifiering) Maskinöversättning Dialogsystem Ansiktsanimering Multimodala system Androider Neuroteknologi 3 4 Introduktion (1) Introduktion (2) Vi vet inte när talet utvecklades Skriftsystem 5000 år gamla (Mesopotamien, Egypten, Kina) Fullt utvecklade språk, tal mycket äldre Mänsklig hjärna och talorgan är anpassade för talproduktion Det finns 5000 8000 språk Ojämnt distribuerade Engelska 2:a / svenska 85:e plats Teknologisk utveckling Tala med datorer Schimpanser kan inte producera talljud Hoover the Talking Seal * 1971, Maine 1985, Boston 5 6 1

2. Taligenkänning Taligenkänning (1) Datorer som förstår tal Spektrografen uppfanns 1946 läsa tal Första systemet beskrivet i Davis, Biddulph & Balashek (1952) 7 8 Taligenkänning (2) Talets variabilitet mycket större än man trott Denna variabilitet är (fortfarande) problemet Tal varierar (bl a) med avseende på... - Kön -Ålder - Dialekt - Sociolekt - Individ (mellan/inom) - Talhastighet/reduktioner ( har du en bil harumbil ) - Disfluenser ( eh, öh etc) Taligenkännare tränas Taligenkänning (3) Skapar meningar som täcker/beskriver det aktuella språket (fonetiskt/lingvistiskt) Talare av språket spelar in meningarna Talarna bör vara balanserade över kön, ålder, dialekt, sociolekt och så vidare Datorn jämför inspelningarna med transkriptioner Datorn lär sig variabiliteten Men vad, exakt, ska man träna på? 9 10 Lingvistisk term: fonem Taligenkänning (4) Definition: Minsta betydelseändrande enhet 1. b/p ändrar betydelsen i svenska, men inte i finska Ex: bil vs pil 2. v/w ändrar betydelsen i engelska, men inte i svenska Ex: vie vs why Antalet fonem i olika språk varierar mellan 11 (Rotokas) och 141 (!XŨ) Engelska och svenska: ca 45 Taligenkänning (5) Två skilda termer: Tal-igenkänning känner igen vad som sägs, oavsett vem som säger det Talar-igenkänning (-identifiering/-verifiering) känner igen vem som talar, oavsett vad som sägs Barn är svårare att känna igen än kvinnor, som är svårare att känna igen än män Akustiska orsaker: Ju högre grundton, desto större sökrymd 11 12 2

3. Talsyntes Talsyntes Datorer som pratar/talar Tre äkta/genuina syntesformer: 1. Artikulatorisk syntes 2. Formant-syntes t 3. Konkatenerings-syntes Pseudosyntes: Burkat tal 13 14 Burkat tal ( canned speech ) Man spelar in en bärfras : Saldot på kontot är kronor. Fyller i den tomma luckan med förinspelat material Varje nytt yttrande kräver en ny inspelning, helst med samma person/röst (som kanske bytt jobb) Delvis bra ljudkvalitet Låg flexibilitet Artikulatorisk Syntes (1) Försöker imitera beteendet hos människans talorgan Använder virtuella - lungor - stämläppar - kinder - tunga - gom - luftströmmar - läppar - tänder med mera och så vidare et cetera 15 16 Artikulatorisk Syntes (2) Urban Hjärne (1641 1724) Använde avhuggna huvuden Bälgar pumpade luft genom strupen Trådar styrde tunga, läppar, kinder Inte så bra resultat Etiska problem Artikulatorisk Syntes (3) Alexander Graham Bell (1847 1922) Använde sin (levande!) hunds strupe Hunden ylade, Bell klämde Kunde producera få ljud Inte så bra resultat Etiska problem 17 18 3

Artikulatorisk Syntes (4) Artikulatorisk Syntes (5) Wolfgang von Kempelen (1734 1804) Skapade en talmaskin (1791) Mekanisk automat Fungerade!! Tack till Mária Gósy, Kempelen Farkas Speech Research Laboratory, Budapest 19 20 Artikulatorisk Syntes (6) Hade tidigare skapat en schackspelande automat (1770) Turken Människa gömd inuti maskinen (dvärg?) Artikulatorisk Syntes (7) Ur Scientific American, 1901 Dr. Marage has constructed an apparatus, using the plastic substance employed by dentists, to reproduce the interior of a person s mouth while pronouncing the different vowels. Dålig cred Tidigt exempel på artificiell intelligens Jämför Lt Commander Data (Star Trek) 21 22 Artikulatorisk Syntes (8) Hideyuki Sawada, Kagawa University Svår metod Artikulatorisk Syntes (9) Den mest intressanta ur forskningsperspektiv Inte så intressant kommersiellt (hittills) < FILM HÄR > Om det lyckas kan datorn göra allt som människor kan http://www.eng.kagawa-u.ac.jp/~sawada/index_e.html 23 24 4

Formantsyntes (1) Formantsyntes (2) Imiterar talets akustiska karakteristika Formanter = frekvensband med hög amplitud i talsignalen Tidig synthesizer: The Voder (1939) Homer Dudley Tonhöjd = melodisk kontur = Formant 0 = F0 Genererar tonpuls i datorn Filtrerar tonen elektroniskt tills det låter som tal 25 26 Formantsyntes (3) Konkateneringssyntes (1) Tidig svensk synthesizer (som talar engelska): Ove (1953) Gunnar Fant Klipp-och-klistrings -syntes Spelar in riktigt mänskligt tal Klipper ut ljudbitar 1. Fonem: Omöjligt! Inte samma [ k] i kille och kalle 2. Difoner: /ki/ka/ku/ko osv 3. Polyfoner: spri-/-orv/-olmskt osv 4. Större enheter: Unit selection. Godtyckligt stora enheter Klistrar ihop dem i ny ordning 27 28 Konkateneringssyntes (2) Konkateneringssyntes (3) Inspelning: _ta IGEN Säga tat IGEN Säga tal IGEN Säg alsa IGEN Säga språt IGEN Säga tåk IGEN SÄGA tak Syntes: t + ta + al + ls + språ + åk + k Antalet polyfoner varierar mellan språk Fonotax: Hur fonem tillåts kombineras Svenska tillåter många kombinationer Typisk stavelsestruktur: CV- eller V-stavelser Svenskt maximum: CCCVCCCCCCCCC Ex: CCV VCCCCCC ordet stockholmskts uttal. 29 Mänsklig talkvalitet Kommersiellt intressant, speciellt unit selection 30 5

Syntesexempel (1) 1. Inspelning: Kvinnoröst 2. Syntes: Kvinnoröst 3. Inspelning: Mansröst 4. Syntes: Mansröst 5. Syntes: Manspolyfoner / Kvinnlig grundton 6. Syntes: Kvinnopolyfoner / Manlig grundton Syntesexempel (2) 7. Syntes Namnupplysningen 7.1 Formantsyntes Ove (KTH) 7.2 Polyfonsyntes Prophon (Telia 1995) 7.3 Polyfonsyntes Prophon (Telia 1995) Telefonkvalitet: 300 3400 Hz 8. Engelsk syntes Flygbokningsmeningar 8.1 Difonsyntes TrueTalk 9. Fransk syntes Flygbokningsmeningar 9.1 Difonsyntes CNETVox 31 32 4. Text-till-Tal-System Text-till-Tal-System (1) Datorer som läser ut text Kan använda vilken talsyntesmetod som helst Det finns ett otal andra problem Allt syns inte i text Ett exempel: Partikelverb Bo stötte på Lena vs Bo stötte på Lena Annat problem: Uttal av främmande namn/ord Margaret Thatcher vs Margaret Tätser 33 34 Text-till-tal-system (2) 5. Maskinöversättning Språk har olika förhållande mellan skrift/ljud: - Finska Nästan perfekt - Turkiska Nästan perfekt - Svenska Ganska dåligt - Franska Ganska bra text-till-tal till tal (men hemskt tal-till-text!) till text!) - Engelska En katastrof!!!! (Charivarius: The Chaos) http://pages.cpsc.ucalgary.ca/~hill/papers/conc/thechaos.htm - Mandarin och andra språk med ikonografiska skriftspråk. Intonation över hela satser, och från sats till sats Dessa och många liknande problem måste lösas innan talsyntesen kan säga något! 35 36 6

Maskinöversättning (1) Maskinöversättning (2) Automatisk översättning mellan språk Text-till-Text eller Tal-till-Tal Spoken Language Translator Project: Spoken Language Translator - Telia Research - SRI International, Menlo Park, California Swedish English French Igenkänning Översättning Syntes Swedish English French - SRI International, Cambridge, UK 1993 1999 Air Travel Information Service (ATIS) Decipher SRI CLE SRI / Telia Prophon Telia Engelska/Svenska/Franska Bok på Cambridge University Press 37 38 Maskinöversättning (3) Maskinöversättning (4) 39 40 Maskinöversättning (5) 6. Dialogsystem 41 42 7

Dialogsystem (1) Dialogsystem (2) System som både lyssnar och talar Kommunikation med t ex databaser Kräver annat slags lingvistisk kunskap Konversationsgrammatiker Dialoghantering Kommersiellt mycket intressant 43 44 Dialogsystem (3) 7. Ansiktsanimering 45 46 Ansiktsanimering (1) Ansiktsanimering (2): McGurk Talsyntes med ansikte Förbättrar förståelsen av talsyntes McGurk-effekten Alla hör med ögonen (inte bara hörselskadade) < FILM HÄR > Originalreferens: Harry McGurk & John MacDonald. 1976. Hearing lips and seeing voices, Nature, vol. 264, pp. 746 748 http://www.youtube.com/watch?v=afptc8bvdjk 47 48 8

Ansiktsanimering (3) Ansiktsanimering (4) Finns olika metoder Telia Research: unik metod Samma princip som talsyntesen Kommer inte ihåg? OK... Inspelning: _ta IGEN Säga tat IGEN Säga tal IGEN Säg alsa IGEN Säga språt IGEN Säga tåk IGEN SÄGA tak Syntes: t + ta + al + ls + språ + åk + k lägg till ansiktsrörelser! 49 50 Ansiktsanimering (5) Ansiktsanimering (6) Spela in ansiktsrörelser tillsammans med ljudet Inspelning: Reflektorer i ansiktet på talaren 24 reflektorer runt munnen (och näsan) Glasögon för att normalisera för huvudrörelser 51 52 Ansiktsanimering (7) Ansiktsanimering (8) Labbet: 53 Reflektorrörelser lagras som 3D-rörelser i datorn 54 9

Ansiktsanimering (9) Ansiktsanimering (10) Lägg till ögon, tänder... Datorgrafik Reflektorerna fästs på en trådmodell av ett huvud 55 56 Huvudform: Ansiktsanimering (11) Lägg till textur Ansiktsanimering (12) Vattenkammat hår Göm reflektorer Foton av riktigt ansikte 57 58 Ansiktsanimering (13) Ansiktsanimering (14) Systemet: Vision: 59 60 10

Ansiktsanimering (15) 8. Multimodala gränssnitt 61 62 Multimodala gränssnitt (1) Kombination av olika modaliteter -Tal -Mus - Gester - Ansiktsuttryck - Känsel - Lukter osv Både input/användare och output/dator Multimodala gränssnitt (2) Hur interagerar människor med datorer? Reeves & Nass (1996): The Media Equation It s Only A Movie -fenomenet Nass, Kim & Lee (1998): When Your Face is the Interface: An experimental comparison of interacting with one s own face or someone else s face Jönsson & Dahlbäck (1988): Talking to your computer is not like talking to your best friend 63 64 Multimodala gränssnitt (3) Multimodala gränssnitt (4) AdApt Telia och KTH Lägenhetsinformation 65 66 11

Multimodala gränssnitt (5) Multimodala gränssnitt (6): Humanoid Waseda University (Japan): Humanoid Konversationsrobot Integrerar: - Taligenkänning - Talsyntes - Dialoggrammatik - Datorseende - Gaze Tracking (ser vem en person ser på) - Fungerande robotik < FILM HÄR > 67 http://www.humanoid.waseda.ac.jp/ 68 Multimodala gränssnitt (7): Aiko 9. NeuroTechnology < FILM HÄR > http://www.aikoproject.jp/ http://www.youtube.com/watch?v=ig7qmddoq4s&feature=related 69 70 NeuroTechnology Inte språkteknologi i strikt bemärkelse Dock är språk nästan alltid inblandat Kort (!) sammanfattning av några områden Brain-Reading Via neuroimaging läser man hjärnaktivitet EEG: Hjälm/nät av elektroder registrerar elektriska aktivitet fmri: Mäter syreförbrukning (antas vara aktivitet) Via signaler har man har lyckats se: vad folk tittar på för bild (ansikte, katt, stol etc) (Haxby et al., 2001) vilken bild av 1000 bilder som en person tittar på (Kay et al., 2008) vilken scen ur Sergio Leones film Den gode, den onde, den fule en person just tittar på (Hasson et al., 2004) < BILD HÄR > 71 72 12

Brain Computer Interfaces (BCI) Gränssnitt direkt mellan hjärna och dator Hjälm eller nät av elektroder registrerar hjärnans elektriska aktivitet och använder den för att styra dator Användningsområde: locked-in -patienter (kvadripleger) Neural prosthetics (Andersen et al., 2004) < BILD HÄR > http://computer.howstuffworks.com Lögndetektion Normala lögndetektorer inte pålitliga/tillåtna i domstolar Hypotes: olika hjärnaktivitet vid sanning och lögn Metod: via EEG eller fmri direkt kolla om en viss hjärna producerar en sanning eller en lögn Hett område (duh!) < BILD HÄR > Not there yet http://singularityhub.com/2010/05/06/ another-attempt-to-use-fmri-lie-detector-in-us-court-fails-in-brooklyn-more-on-the-way/ 73 74 10. Sammanfattning Sammanfattning Mängd detaljproblem att lösa Allmän teknologiutveckling ger nya utmaningar Målbilden är minst sagt ambitiös! Flera tänkta användningsområden: Personer med handikapp Sällskap Nyhetsankare (?) Språk spelar en central roll i skapandet av androider och glöm inte Turken! 75 76 Sammanfattning (2) Bonus Så, hur långt har vi kommit? Ja, jämför och slutligen en kommentar, as seen on TV < BILD HÄR > < BILD HÄR > Lt Commander Data Aiko 77 78 13

TV3 Direkt, 3 november 1998 Tack för uppmärksamheten! Kontakta mig gärna: robert@roberteklund.info Hemsida: http://roberteklund.info 79 80 14