Talteknologi introduktion Rebecca Jonson Doktorand i Språkteknologi (GSLT, Lingvistik Gbg) AAST-kursen VT 2007 Computers are getting smarter all the time; scientists tell us that soon they will be able to talk with us. (By they, I mean computers; I doubt scientists will ever be able to talk to us.) Dave Barry Hur realistisk var HAL? Dagens situation? HAL : superdatorn i Kubricks film, 2001: A Space Odyssee från 60-talet. HALs talteknologibeteende: hörde, kände igen och förstod tal talade med människoliknande röst och förstod dessutom vad den sa (kunde dessutom en hel del annat d v s AI) Hur talar dagens datorer, år 2007? Kursupplägg Talteknologikursen Intro till talteknologi Akustiska elementa + Digital signalbehandling Text-till-talsyntes (TTS) * 3 Lab1 TTS utvärdering av TTS-system Lab2 TTS mbrola + festival domänsyntes (Jonas Lindh) Sannolikhetslära *4 (Björn Haglund) Taligenkänning (ASR) * 5 Lab3 ASR Nuance tutorial + Nuancelab Talteknologi och dialogsystem * 2 (Jag och Stina Ericsson) Tenta (2 april) Kurskrav Godkända labbar Lab1 TTS utvärdering av TTS-system Lab2 TTS mbrola + festival Lab3 ASR Nuance Godkänd tenta Betyget baseras på tentan 1
Litteratur TTS Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University sid. 1-28 Dutoit, T. A Short Introduction to Text-to-Speech Synthesis. Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System (Vissa kapitel) Black, A., and Lenzo, K. Limited domain synthesis. In ICSLP200 (Beijing, China., 2000). Jurafsky, D & Martin, J. (2000) Speech and Language Processing. Eller senare utgåva i paperback Litteratur ASR Jurafsky, D & Martin, J. (2000) Speech and Language Processing. Blomberg, M & Elenius, K. Automatisk igenkänning av tal. R.P. Lippman (1997) Speech recognition by machines and humans. Steve Young,(1996). Large Vocabulary Continuous Speech Recognition: a review. G. Gorrell (2003) Language Modelling for Spoken Dialogue Systems; Grammar-based and Robust Approaches Compared and Contrasted Övrig litteratur Artiklar och utdrag ur böcker som delas ut Litteratur för Statistikbiten finns att hämta hos Ritva (Malmgren, kap 2.1 ur Manning & Schütze)! Litteratur dagens lektion Jurafsky & Martin: kap1 Donovan: 1.2, 1.4.2 Fördjupningslitteratur Vad är talteknologi? Automatisk produktion och perception av tal och röster. Områden inom Talteknologi Taligenkänning (ASR:Automatic Speech Recognition) Text-till-talsyntes (TTS: text-to-speech synthesis) Talarigenkänning (Speaker recognition) Talarverifiering (Speaker verification) Språkigenkänning 2
Varför talteknologi? Effektivt gränssnitt Talet naturligt sätt att interagera (snabbare inlärning) Mycket information koncist Språket kan uttrycka komplexa saker Tillåter fria händer och syn Fungerar i mörker, kyla etc. Små skärmar (handdator, mobil) Slipper menystruktur med alternativ Kommersiellt intresse Användningsområden Handikapphjälpmedel (Speech/Sight impairment) OCR till talsyntes för blinda Läser upp tidningstext Stephen Hawking (talprotes) Multimedia Talande böcker och leksaker Interaktiva spel Språkinlärningsprogram Där talande meddelanden är mer effektiva än text olika kontrollsystem, PDA, i bil, mobiler Människa-datorinteraktion (Dialogsystem) Översättning Telefontjänster Uppläsning av information från databaser Email, fax Vad är text-till-talsyntes (TTS)? TTS kort historik Omvandling av text till syntetiskt tal Automatisk produktion av nya meningar till skillnad från Voice Response Systems som kombinerar redan inspelad bitar (ord eller fraser). Datorsystem som talar eller läser upp vilken given text som helst. (enligt Dutoit) Kräver dels signalbehandling (DSP) men också språkbehandling (NLP) ~1780 Von Kempelen (artikulatorisk syntes) Mekanisk maskin som härmade talproduktionen (blåsbälg) 1936 Voder (Dudley) Elektronisk syntes som styrdes manuellt (typ piano-keyboard) 1953 OVE-1, Gunnar Fant KTH Studie av spektrogram av yttrandet och sedan inmatning av parametrar 1967 OVE 3 (formantsyntes) 1968 Haskins lab Pattern Playback Syntetisering utifrån avläsning av skrivna spektrogram 1972 Bell TTS 1978 Speak and Spell 1983-.. Infovox (formantsyntes) 1983-.. DecTalk (formantsyntes) 1985 Bell Labs (diphone) Idag: Konkateneringssyntes vanligast kommersiellt Formantsyntes fortf. inom forskning Talsyntesmetoder Artikulatorisk syntes Modellering av människans talproduktion Formantsyntes Modellering av resulterande talsignal Konkateneringssyntes Ihopsättning av inspelade talsegment till nya talproduktioner Syntesexempel Engelska Svenska 3
Talande huvuden Animerade agenter som artikulerar synkront med talsyntes. KTH:s August Vad är taligenkänning? Automatic Speech Recognition (ASR) En dators igenkänning av naturligt tal System som identifierar en talsignal och mappar den till ett språkligt yttrande Automatic Speech Understanding (ASU) En dators förståelse av naturligt tal En talsignal tolkas till en representation av ett språkligt yttrande ASR- kort historik Stanford AI researchers perfected a talking and listening handyman robot, which was sent out to solicit research funds door to door. The robot rolled up to its first house and rang the bell: Robot: I am Stanford s handyman robot. Tell me a task, and I will do it for $5 per hour. This money will be applied to further research in AI. Human: $5 an hour? Sounds great! Can you paint? Robot: My painting is of highest quality. Human: OK. See that paint brush and bucket of paint? Take them out back and paint the porch. Robot: Your request will be fullfilled, courtesy of Stanford. (The robot trundles off to do his job and returns in an hour). Robot: The task is complete. Please deposit $5 to aid in further research. Human: (Handing over the cash) This was a great deal! Come back again! Robot: (While leaving) Oh by the way, it wasn t a Porsche. It was a BMW 20-talet Radio Rex Leksakshund som reagerade på sitt namn Rex (eller andra ljud med samma energi som vokalen i ordet Rex) 50-talet Bell Labs (talarberoende, isolerade siffror) jmf spektral energi, fåordsigenkänning, några talare 1959 Denes: en enhet är inte bara akustiskt beroende utan även lingvistiskt (grammatik) 1960-talet Nummerigenkänning flera talare Spektrala uppskattningstekniker: FFT, LPC, Cepstral analys Mönsterigenkänningstekniker: DTW, HMM 1970-talet ARPA projektet: uppnå < 10% semantisk felaktighet i talförståelse 1000-ords ASR, få talare, grammatik 1973 första kommersiella systemet 1980-talet TalKorpusinsamling ATIS (Air Travel Information Systems) dialogsystem, talförståelse Nya Front-end tekniker (HMM., mel cepstrum, delta cepstral coeff.) CMU, SRI, MIT-Lincoln, Philips, Bell, IBM HTK-toolkit (HMM) av Cambridge University Neurala Nät Idag: Statistiska metoder vanligast Kommersiell användning i dialogsystem samt i dikteringssystem Indelning av igenkänningsmetoder Vad känner systemet igen? Ord Kommandon Diktering Dialog Spontant tal Vem känner systemet igen? Talarberoende (en talare) Talaroberoende (alla talare) Igenkänningsmetoder Mönsterigenkänning (Äldst) Jämförelse av två spektrala tidsserier Dynamisk Programmering används för att kompensera för varierande talhastighet Hidden Markov Models (HMM) (Vanligast) Representerar talets segmentella struktur Viterbi-avkodning (form av DP) Artificiella Neurala Nätverk (ANN) Huvudsakligen för fonetisk klassning I kombination med HMM Kunskapsbaserade system Baserar sig på fonetisk, lingvistisk kunskap om tal. Ex: som en skicklig spektrogramläsare 4
Taligenkänningsprodukter Scansoft Dragon Systems Dragon Naturally Speaking Lernout & Hauspie RealSpeak IBM ViaVoice (Diktering) Nuance CMU Sphinx HTK toolkit Microsoft (Whisper, SAPI) Apple (Plaintalk) Talarverifiering/Talarigenkänning Talarverifiering (Speaker verification) Avgöra om talaren är den har utgör sig för att vara Talarigenkänning (Speaker identification) Avgöra vem talaren är Automatisk Språkigenkänning (Spoken Language Identification) Automatiskt avgöra vilket språk som talas Igenkänning av språk från korta talsegment för att kunna koppla in rätt språk i ett dialogsystem/taligenkänning eller koppla till rätt operatör Enklare för text där man kan utgå från typiska symboler i språket (t ex åäö) http://complingone.georgetown.edu/~langid/ Vilka är de stora akustiska, perceptuella och lingvistiska skillnaderna mellan språk? Dagens forskningssystem ger 80% korrekthet på 11 språk Talteknologi behandlar Talspråk Ett fragment från Gothenburg Spoken Language Corpus (GSLC): $C: så tretti{o}åtta kroner blir de{t} då $M: (han där) (...) $B: va e0 de{t} här då // e0 re0 en jul < nisse > $S: ne{r} de{t} e0 (gamla) $B: vaffö köpe ru gamla [6 fö{r} ]6 $S: [6 men ]6 varför har ni tryckt priserna på dom här då $C: e0 för vi har så många av dom $S: ni ha [7 (...) ]7 $C: [7 (...) ]7 vi har inte så många av $S: okej och talande Dialogsystem behandlar dialog och allt vad det innebär! 5