Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet: språkteknologi Målet är att ge maskiner förmågan att plocka ut information ur text och tal på ett sätt som verkar förutsätta något slags förståelse, samt att använda naturligt språk för att presentera information. oktober 2005 1 2 Tekniska grundvalar Primär situation: prat är här-och-nu! Sentida utveckling: lagring och överföring av yttranden : Skrift, senare typografi Analog elektronisk överföring av tal (i nätverk) (telefoni, radio, etc.) Digitalisering av tal och skrift: digitala media och nätverk. digital bearbetning: datorer. Av avgörande betydelse för (kommunikationen i) vårt samhälle. 3 Digital text Sekvenser av symboler. Västerländska skriftsystem: små uppsättningar symboler. Relativt lätt att representera digitalt på ett kompakt och klart sätt (textfiler). I stort sett all professionell texthantering är digital i den industrialiserade världen idag (produktion, lagring, mångfaldigande, tryckning). Enorma mängder text är maskinläsbar, alltså. (Enorma mängder information.) 4 Digitalt tal Överföring och lagring alltmer digital. Ljud: mycket informationsrikt mänskligt/digitalt sett. (En liten boksida, kanske 1 kb. En minut ljud [i vanlig mp3], ca 1 MB, alltså 1000 gånger mer.) Tal enorma variationmöjligheter: röst, röstanvändning, intonation, tempo, rytm, volym, klang, etc. Svårt att urskilja den språkliga strukturen automatiskt kontinuerligt ljudflöde. Ljuden överlappar. Språkteknologi: tillämpningsområden Informationssökning och -utvinning Sammandrag och sammanfattning Dokumentklassificering Språkgranskning (stavnings-, stil- och grammatikkontroll) Maskinöversättning Dialogsystem/interaktiva telefontjänster Språkvetenskaplig forskning, t.ex. vid lexikonbyggande (lexikografi) 5 6 Problem med språk: ord och grammatik Många olika ord med komplext innehåll. Naturliga språks grammatik är mycket rik. Det finns många olika typer av ord med olika grammatiskt beteende. Språkanvändningen trotsar ofta traditionella grammatikideal: Lösa fraser och ord (snarare är fullständiga meningar), (i tal) omtagningar och avbrutna enheter, etc. är vanliga. Problem med språk: tvetydighet Språk är rika på ord. Ord ofta tvetydiga (polysemi, homonymi). Olika språk olika begrepp. Det sitter ett djur i taket:... on the ceiling.... Det sitter ett djur på taket:... on the roof.... i/på on. tak ceiling/roof. Möjligheter multipliceras: bara ben har minst fyra möjliga översättningar till engelska. 7 8
Problem med språk: pronomensyftning Pronomen har typiskt flera möjliga antecedenter. De fångar olika egenskaper i olika språk. Personliga pronomina i singularis: Svenska: den, det, han, hon. Saker: grammatiskt genus. Personer: kön. Engelska: it, he, she. Saker: ett pronomen. Personer: kön. Problem med språk: öppenhet Vi kan alltid vara kreativa i språket och använda gamla ord och uttryckssätt på nya sätt. Vi kan hitta på nya ord. Vi kan uttrycka oss indirekt, t.ex. i ironi, över- och underdrifter, metaforer, artiga frågor, etc. Franska: il, elle. Saker och personer i maskulinum eller femininum. 9 10 Datorlingvistik: grammatik Utgår från teoretisk formell syntax, där grammatik beskrivs i termer av matematiska regelsystem (Chomsky, Syntactic Structures, 1957). Datorlingvistik: grammatik, syntaxträd Grammatiska strukturer representeras i de flesta fall som träd: M.h.a. speciella beräkningsprocedurer (s.k. algoritmer) kan formella grammatiker användas för att bestämma den grammatikens strukturen hos språkliga uttryck (parsing). Parsing ofta utgångspunkt för annan bearbetning. t.ex. översättning. 11 12 Datorlingvistik: semantik Datorlingvistisk semantik handlar om att analysera/generera naturligt språk (meningar) till/från representationer av betydelse. Utgår från logisk semantik, som utvecklats ur 1900-talets logik och språkfilosofi. Semantik och grammatik kopplas samman. Kompositionell semantik: en sammansatt enhets betydelse kan räknas fram ur delarnas betydelser. Datorlingvistik: diskurs Diskurser är texter och samtal. Hur etableras ett sammanhang (koherens/kohesion)? Diskursers struktur avspeglar deras syften. Referens: införande av referenter, tillbakasyftande referens (ofta med pronomina). Referens: vilka saker står i centrum? Retorisk struktur 13 14 Datorlingvistik: statistiska modeller Datorlingvistik olika angreppssätt: tidig tradition mer sentida kategoriska regler probabilistiska samband grammatikliknande system statistiska modeller lingvisten modell från automatisk skriver regler analys av data dyrt billigare (?) språkspecifikt mindre språkspecifikt Statistiska metoder har visat sig framgångsrika. Informationssökning, exempel (1) www.ask.com: Who is Göran Persson? Två första träffarna Löpsedel Regeringskansliet Läs pressmeddelande: Göran Persson överlägger med Matti Vanhanen Statsrådsberedningen, 25 juni 2003... From: www.regeringen.se/ Presentation Göran Persson Regeringen Regeringskansliet Faktablad Göran Persson svenska (55K) Göran Persson engelska (23K) Göran Persson franska (80K) Göran Persson tyska (81K) Aktuellt... From: www.statsradsberedningen.regeringen.se/persson/ 15 16
Informationssökning, exempel (2) www.ask.com: Who is the king of Sweden? Två första träffarna: Karl XII, King of Sweden: 1682-1718 Karl XII, King of Sweden... Patricia Wengraf Ltd. Jacques-Philippe BOUCHARDON: Adolf Frederik, Patricia Wengraf Ltd. Fine European Sculpture, Bronzes and Works of Art. Jacques-Philppe Bouchardon: Adolf Frederik, King of Sweden (terracotta... From: www.patwengraf.com/bochardon3.htm Textsammandrag Att komprimera text och ta ut de viktigaste bitarna Användningsområden: I kombination med sökmotor på Internet För presentation av information på små skärmar Ledtrådar: Ytliga tecken, såsom fetstil och närvaron av siffror Nyckelord som fastställts statistiskt Meningarnas position i texten Lingvistisk: morfologisk analys, stavningskontroll m.m. 17 18 Textsammandrag, (forts) Textsammanfattare för svenska: SweSum (KTH) Domän: Svensk tidningstext Prova själv och läs mer: http://swesum.nada.kth.se. Dokumentklassificering Att klassificera och sortera dokument utifrån ämneskategori Ofta i kombination med sökmotor på Internet Sorterar bort spam Ledtrådar: Nyckelord som fastställts statistiskt Samförekomst av ord i dokument. Baseras ofta på inlärning från samlingar med redan klassificerade dokument. 19 20 Språkgranskning Automatisk kontroll av stavning, grammatik och stil Två uppgifter: Feldetektering och felkorrigering Stavningskontroll: Uppslagning i lexikon fångar felstavningar som inte utgör några ord, t ex coh och spårkteknolog Lexikonets storlek avgörande: För stort lexikon ger missade fel, för litet lexikon ger falska alarm Går inte att lista alla sammansättningar: sms-analys Alltför tillåtande sms-analys gör att osannolika ord slinker igenom, t ex medalg, kotroll och cykelsäll 21 Språkgranskning (forts) Grammatikkontroll: Behövs för stavningskontroll: s k Real Word Errors, t ex Jag kan inte stavar och vi är tjära Behövs för grammatikfel, t ex Vi är kär och samhällets utvecklingen Ofta lokala felregler för förutsedda fel 22 Språkgranskning (forts) Stilkontroll: Ord- och meningslängd Minusord: ålderdomliga, byråkratiska och alltför vardagliga ord Vissa syntaktiska konstruktioner, t ex passiv Konsekvenskontroll, t ex ska vs skall Exempel på språkgranskningssystem: Grammatifix (i svenska Word), SCARRIE (från Uppsala universitet) och Granska (från KTH) Maskinöversättning Maskinöversättning: automatisk översättning av en text från ett språk till ett annat Datorstödd översättning: Mänsklig översättning av en text, med hjälp av datoriserade lexikon, termordlistor, översättningsminnen o dyl. Tre typer av maskinöversättning: Direktöversättning Regelbaserad översättning Korpusbaserad översättning 23 24
Maskinöversättning (forts) Mest använda systemet idag: Systran På institutionen: MATS (regelbaserat) Användbarhet idag: Kan ge oss hjälp att förstå dokument på språk vi inte kan Bra översättningar inom begränsade domäner, särskilt i kombination med kontrollerat språk Effektiviserar översättningsarbetet: Automatisk översättning kombinerat med mänsklig korrigering Skönlitteratur skulle man inte maskinöversätta 25 Maskinöversättning: Exempel från Systran Källtext: I vårt företagsregister kan du söka efter företag i Uppsala. Du kan söka efter ett enskilt företag eller en bransch och få resultatet på en karta. Sök företag: Översättning: In our company register can you look for companies in Uppsala. You can look for an individual company or a sector and few result on a map. Applies for companies: 26 Korpuslingvistik Språkvetenskap som undersöker stora textmängder (korpusar), tex mha sk konkordanser: Korpuslingvistik, (forts) Fler saker man kan göra med korpusar och datorer: Räkna ord Se samband mellan ords relativa frekvenser Se samband mellan samförekomst av ord Bas för lexikografi och grammatikstudier En korpus behöver inte vara baserad på text, utan kan istället innehålla tal, t ex Göteborg Spoken Language Corpus (GSLC) 27 28 Talteknologi Talteknologin har i hög grad blivit ett eget fält. Talsyntes: att artificiellt framställa tal Taligenkänning: att utifrån tal automatiskt bestämma vilka ord som uttalas. All sådan teknik utnyttjar statistiska modeller. Problem med tal: olika grundton (män, kvinnor, barn), intensitet, tempo, uttalssätt, dialekter, intonation, betoning etc. 29 Talsyntes Text till tal: Översättning av ortografisk representation till fonetisk representation. Ofta olika typer av klipp-och-klistra-metoder. Kräver grammatisk-semantisk analys för homografer, såsom matris, banan, finskor. Måste kunna hantera intonation, betoning m.m. Dagens teknik ger inte fullt naturligt tal. Kan kombineras med artificiell animnation av gester och mimik, s k talking heads. 30 Taligenkänning (-analys) Tal till text (att identifiera vilka ord som uttalats): Problem: Tal kan låta väldigt olika: olika grundton, intensitet, tempo, uttalssätt, dialekter etc. Bakgrundsljud kan störa taligenkänningsprocessen. Ofta för bokningstjänster av olika slag, där ordförrådet är begränsat och kan styras. Bäst resultat fås om systemet tränas för en viss person. Exempel på taligenkänningssystem: SJ:s tågbokningssystem, Vägverkets trafikregister. Tillämpningar Dokumentuppläsning mha talsyntes för människor som ej har möjlighet att läsa Dikteringssystem. Interaktiva telefontjänster, t ex biljettbokning Styrning av apparater, t ex i hushållet eller i bilar 31 32
Sammanfattning (1) Språkteknologin börjar bli betydelsefull, även från ett vardagligt perspektiv: Enorma volymer av språklig kommunikation förlitar sig på digital överföring och lagring. Språkgranskningsverktyg har fått stor spridning och är användbara, men långt ifrån perfekta. Sammanfattning (2) Taligenkänningstekniken utvecklas snabbt och får en allt större användning. Talsyntes kombineras med gester och mimik. Interaktiva telefontjänster blir allt vanligare. Elektronisk dokumenthantering blir en allt viktigare verksamhet. Maskinöversättning får en allt större spridning. 33 34