Datorlingvistik och språkteknologi Mats Dahllöf Institutionen för lingvistik och filologi Att bearbeta språk i datorer med känslighet för språket som språk: Språkvetenskapligt forskningsområde: datorlingvistik Teknisk bransch: språkteknologi Målet är att ge maskiner förmågan att plocka ut information ur text och tal på ett sätt som verkar förutsätta något slags förståelse, samt att använda naturligt språk för att presentera information. oktober 2012 1 2 Datorlingvistik Språkvetenskap handlar rimligtvis om språkligt beteende, om hur språk används. Konkreta data finns som inspelningar och texter. Dessa kan omfatta miljoner eller miljarder ord. Datorer kan användas för att analysera dessa data på ett systematiskt sätt korpuslingvistik. Språkteknologi Med dagens tekniker för digital kommunikation behöver vi verktyg för att hantera språkligt kodad information. Det är användbart om dessa verktyg kan ta hänsyn till språkligt innehåll och andra språkliga egenskaper. Detta kräver en artificiell språklig intelligens. Vi kan också vilja testa teorier om hur människor processar språk psykolingvistisk modellering. 3 4
Språkteknologi: tillämpningsområden Dokumentklassificering Informationssökning och -utvinning Automatisk översättning maskinöversättning Sammandrag och sammanfattning Språkgranskning (stavnings-, stil- och grammatikkontroll) Dialogsystem/interaktiva telefontjänster Språkvetenskaplig forskning, t.ex. vid lexikonbyggande (lexikografi) Talteknologi Talteknologin brukar betraktas som ett eget forskningsfält. Där finns det två huvudproblem: Talsyntes: att artificiellt framställa tal. Uppläsning av en given textmassa. Taligenkänning: att utifrån tal automatiskt bestämma vilka ord som uttalas. All sådan teknik utnyttjar statistiska modeller. Problem med tal: olika grundton (män, kvinnor, barn), intensitet, tempo, uttalssätt, dialekter, intonation, betoning etc. 5 6 Dokumentklassificering och -sökning Internet och andra samlingar av elektroniska dokument miljontals texter, miljardtals ord manuell genomsökning omöjligt. Ordning som i traditionella bibliotek kräver omfattande manuella arbetsinsatser: långsamt, dyrt. Söktjänster och filtrering av t.ex. spam är av avgörande betydelse för dagens mediala kultur. Googlandet definierar vår tid, kan man säga. Spamfiltrering Användarönskemål: Att enbart se legitima brev och få spam placerade i papperskorgen. (Eller att stoppa utgående spam.) Motparten, avsändarna av spam, vill lura oss och våra spamfilter. Ledtrådar: avsändaradresser, textinnehåll, länkar, bilders utseende. Bortfiltrering av legitimt brev kan vara farligt. Ett textklassifikationsproblem bedöma om en text är legitim eller spam? 7 8
Språkbestämning Användarönskemål: Att, givet ett dokument av ett visst slag, eller en ljudinspelning (mycket svårare), få veta vilket språk det är. (Det här kan vara ett hjälpmedel vid t.ex. dokumentsökning och spamfiltrering.) Ledtrådar: vilka ord, teckensekvenser eller ljudkomponenter förekommer och i vilka relativa frekvenser. Ett textklassifikationsproblem koppla språkexempel till språk. Spamfiltrering Användarönskemål: Att enbart se legitima brev och få spam placerade i papperskorgen. (Eller att stoppa utgående spam.) Motparten, avsändarna av spam, vill lura oss och våra spamfilter. Ledtrådar: avsändaradresser, textinnehåll, länkar, bilders utseende. Bortfiltrering av legitima brev kan vara farligt. 9 10 Textklassificering allmänt I många fall kan vi samla ihop stora korpusar av texter med kända egenskaper, som spamstatus eller språk. Det här är en typisk ordsekvens på engelska och ur ett spambrev: You ve Received $1800 In Your Account. Click Here to Collect Your Funds Today! Givet sådana data kan vi försöka modellera texterna utifrån särdrag som vi extraherar. Med hjälp av maskininlärning kan vi bygga system som kopplar textrepresentationer till de eftersökta egenskaperna. 11 Söktjänst, typ Google Användarönskemål: Att hitta dokument (på nätet, eller ur en begränsad mängd) som uppfyller något informationseller underhållningsbehov uttryckt som en sökformulärsfråga. Rangordnade med bästa först. Två aspekter: Vad betyder sökfrågan? Hur bra är dokument som träffar till frågan? Bästa: Det folk vill ha. Önskat språk, mest relevanta, mest vederhäftiga, skojigaste, etc. (Om en söktjänst lever på att sälja annonser, så vill den locka så många presumtiva kunder som möjligt till sina annonsörer.) 12
Söktjänst, ledtrådar. Textinnehållets egenskaper: Vilket språk? Vad handlar texten om? Vilken sorts text är det? Är det ett plagiat/maskinöversättning från en bättre källa? Dokumentets relation till andra dokument på nätet: Google: Patentet Pagerank (Method for node ranking in a linked database, Lawrence Page) Värderar siter efter vilka som länkar till dem. Idé: Seriösa siter länkar främst till (andra) värdefulla siter. Söktjänst, ledtrådar. Användardata är viktiga: Vilka förslag gillar användarna (går de vidare till, stannar de och läser). Googlar Uppsala fjärde träff ser ut så här: Uppsala kommun - Startsida www.uppsala.se/ - Translate this page 13 14 Söktjänst, ledtrådar. Men det är denna länk vi klickar (vilket min läsare döljer): http://www.google.com/url?sa=t&rct=j&q=& source=web&cd=4&cad=rja&ved=0cdsqfjad& url=http%3a%2f%2fwww.uppsala.se%2f& ei=77r2ukvun8jd4qtp4icwaq& usg=afqjcnglfeoz8i2p0a6tyzrozgumebvklq Söktjänsten håller reda på vilka förslag vilka användarna följer och när. Söktjänst, ledtrådar. En viss användare (vem?, var?, när?) med en viss sökfråga skall paras ihop med en rangordnad lista med dokumentförslag. Ovanstående kriterier (jämte andra) måste vägas samman Dokumentens avsändare kan innefatta både legitima och bedrägliga aktörer. Egen branch: Search engine optimisation (SEO). 15 16
Maskinöversättning En av de första språkteknologiska tillämpningarna. Uppenbar teknisk och språklig utmaning svårt! Översättning är dyrt: tar tid och kräver yrkeskompetens. Manuell översättning tar tid en maskin kan leverera på direkten. Maskinöversättning kan användas som ett hjälpmedel för en mänsklig översättare. Exempel: maskinöversättning Svenska (från Boverket): Särskilda riktlinjer för självbärande sammansatta skivelement för användning i innerväggar och innertak. Engelska, officiell översättning (från Boverket): Specific aspects relating to Self-supporting composite lightweight panels for use in internal walls and ceilings Engelska, enligttranslate.google.com: Specific guidelines for self-supporting composite lightweight panels for use in walls and ceilings 17 18 Exempel: maskinöversättning Svenska: Skotta taket! Engelska, enligttranslate.google.com: Shovel the roof! Svenska: Måla taket! Engelska, enligttranslate.google.com: Paint the ceiling! Exempel: maskinöversättning Svenska: Den största risken för att tak rasar gäller främst lokaler med tak som har stora spännvidder till exempel hallar och jordbruksbyggnader. Engelska, enligttranslate.google.com: The greatest risk of roof collapse are mainly rooms with ceilings that have large spans such as halls and farm buildings. 19 20
(Maskin)översättning är en svår uppgift Ord måste tolkas i källspråket och motsvarande uttryck måste hittas i målspråket. Polysemi: t.ex. tak som innertak (ceiling) eller yttertak (roof). eller wall som vägg, mur eller vall. Grammatisk struktur måste tolkas i källspråket och någonting funktionellt ekvivalent måste formuleras i målspråket. En infinitivfras kan översättas med en nominalfras: risken för att tak rasar risk of roof collapse. Maskinöversättning metoder Maskinöversättning kan bygga på... för hand sammanställda regler och lexikon (detta är en gammaldags metod) statistiska mekanismer som lärt sig att översätta utifrån befintliga översättningar och språkexempel. (moderna metoder bygger på detta) 21 22 Maskinöversättning metoder Samförekomstdata. Antal träffar i google på de engelska fraserna som en illustration. skotta...... taket... taket... the roof... the ceiling shovel... 49 000 8 måla... paint... 233 000 994 000 Maskinöversättning data Samlingar av texter på ett visst språk, t.ex. svenska och engelska, s.k. korpusar, typiskt miljontals ord. Dessa ger oss kunskaper om t.ex. ordföljd och om ord som semantiskt sett hör ihop. Samlingar av s.k. parallella texter dokument på ett visst språk knutna till samma text på annat språk, s.k. parallellkorpusar. (Original översättning, översättning original, översättningar av samma original). Dessa visar hur man översätter från ena språket till det andra. 23 24
Maskinöversättning problem på vägen Hur hittar vi parallella texter? Vi behöver automatiska metoder för att lokalisera sådana textpar och kolla att de representerar samma text. Ledtrådar för det? Typografi, längder, egennamn, siffror, ord som liknar varandra, etc. Vi behöver kanske filtrera bort dåliga texter. Maskinöversättning problem på vägen Vi behöver länka textelement i de parallella texterna: stycken mot stycken, meningar mot meningar, fraser mot fraser, ord mot ord. Samma typer av ledtrådar kan utnyttjas. Ord och fraser kan dessutom kopplas genom statistiska samband. T.ex. kanske man ser en stark statistiskt samband mellan att taket och the roof förekommer i länkade meningar. 25 26 Exempel: maskinöversättning http://translate.google.com igen: det regnade småspik hela dagen it rained cats and dogs all day jag köpte småspik I bought small nails jag köpte småspik hela dagen I bought the cats and dogs all day (vad händer här?) Språkgranskning av stavning, grammatik och stil Användarönskemål: att möjliga fel (enligt någon norm) i en text markeras, och korrigeringsförslag ges. Förslag: hitta likt (t.ex. coh och och bara en omkastning olika) och sannolikt ord (och är ett vanligt ord). (Tillhandahålls även vid Google-sökning.) Stavningskontroll: Uppslagning i lexikon kan fånga felstavningar som inte utgör några ord, t ex coh och spårkteknolog. Metoden har brister. 27 28
Språkgranskning, forts. Grammatikkontroll: Behövs för stavningskontroll, t.ex. Jag kan inte stavar och Dem kan inte stava. Sammansättning är produktivt i svenskan: sammansättningsanalys behövs. Inte trivialt. Alltför tillåtande analys gör att osannolika ord slinker igenom, t.ex. medalg, kotroll och cykelsäll. Behövs för grammatikfel, t ex Vi är kär och samhällets utvecklingen. Språkgranskning, forts. Stilkontroll: Ord- och meningslängd. Upprepningar. Minusord : ålderdomliga, byråkratiska, anstötliga. Vissa syntaktiska konstruktioner, t.ex. passiv ogillas ofta i engelska. Konsekvenskontroll, t ex ska vs skall. Kontroll av terminologi. 29 30 Talsyntes Text till tal: Översättning av ortografisk representation till fonetisk representation. Ofta olika typer av klipp-och-klistra-metoder. Kräver grammatisk-semantisk analys för homografer, såsom matris, banan, finskor. Måste kunna hantera intonation, betoning m.m. Dagens teknik ger inte fullt naturligt tal. Kan kombineras med artificiell animnation av gester och mimik, s k talking heads. 31 Taligenkänning (-analys) Tal till text (att identifiera vilka ord som uttalats): Problem: Tal kan låta väldigt olika: olika grundton, intensitet, tempo, uttalssätt, dialekter etc. Bakgrundsljud kan störa taligenkänningsprocessen. Ofta för bokningstjänster av olika slag, där ordförrådet är begränsat och kan styras. Bäst resultat fås om systemet tränas för en viss person. Exempel på taligenkänningssystem: SJ:s tågbokningssystem, Vägverkets trafikregister. 32
Tillämpningar Dokumentuppläsning mha talsyntes för människor som ej har möjlighet att läsa Dikteringssystem. Interaktiva telefontjänster, t ex biljettbokning Styrning av apparater, t ex i hushållet eller i bilar Problem/utmaningar för ST/DL med språk: ord och grammatik Många olika ord med komplext innehåll och varierande grammatiskt beteende. Språkanvändningen trotsar ofta normativa ideal: Lösa fraser och ord (snarare är fullständiga meningar), felstavningar, förkortningar. I tal: omtagningar och avbrutna enheter, etc. är vanliga. Språkanvändningenär kreativ nya saker kommer in. 33 34 Problem med språk: tvetydighet Ord ofta tvetydiga (polysemi, homonymi). Olika språk olika begrepp. Det sitter ett djur i taket:... on the ceiling.... Det sitter ett djur på taket:... on the roof.... i/på on. tak ceiling/roof. Möjligheter multipliceras: bara ben har minst fyra möjliga översättningar till engelska. Problem med språk: pronomensyftning Pronomen har typiskt flera möjliga antecedenter. De fångar olika egenskaper i olika språk. Personliga pronomina i singularis: Svenska: den, det, han, hon. Saker: grammatiskt genus. Personer: kön. Engelska: it, he, she. Saker: ett pronomen. Personer: kön. Franska: il, elle. Saker och personer i maskulinum eller femininum. 35 36
Problem med språk: öppenhet Vi kan alltid vara kreativa i språket och använda gamla ord och uttryckssätt på nya sätt. Vi kan hitta på nya ord. Vi kan uttrycka oss indirekt, t.ex. i ironi, över- och underdrifter, metaforer, artiga frågor, etc. Sammanfattning (1) Språkteknologiska tillämpningar används dagligen av miljarder människor. Enorma volymer av språklig kommunikation förlitar sig på digital överföring och lagring. WWW-användningen förutsätter sökmotorer. Maskinöversättning blir allt bättre och får en allt större spridning. 37 38 Sammanfattning (2) Språkgranskningsverktyg finns i många ordbehandlare och sökmotorer. Taligenkänningstekniken utvecklas snabbt och får en allt större användning. Talsyntes kombineras med generering av gester och mimik. Interaktiva telefontjänster blir allt vanligare. 39