Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006
Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi Maskinöversättning Språkgranskning Informationssökning Textsammandrag (Datorstödd språkinlärning - CALL) 2 Lingvistik I, 9 februari 2006
Datorlingvistik/språkteknologi Tvärvetenskapligt område: språk- och datavetenskap, men även t.ex. kognitionsvetenskap, artificiell intelligens och pedagogik. Behandlar hur människans språk är uppbyggt och hur en dator kan programmeras för att hantera det mänskliga språket. Målet är att underlätta kommunikationen mellan människor och datorer. Exempel på språkteknologiska tjänster: automatisk översättning, talbaserade telefontjänster, stavnings- och grammatikkontroll, sökmotorer för Internet, hjälpmedel för språkinlärning. 3 Lingvistik I, 9 februari 2006
KORPUSLINGVISTIK 4 Lingvistik I, 9 februari 2006
Korpuslingvistik (1) Språkvetenskap som undersöker stora textmängder (korpusar), t.ex. med hjälp av s.k. konkordanser: 5 Lingvistik I, 9 februari 2006
Korpuslingvistik (2) Fler saker man kan göra med korpusar och datorer: Räkna ord Se samband mellan ords relativa frekvenser Se samband mellan samförekomst av ord Bas för lexikografi och grammatikstudier 6 Lingvistik I, 9 februari 2006
Vad är en korpus? En samling språkliga data bestående av antingen skrivna texter eller transkriptioner av talspråk Texterna i korpusen bör vara mer eller mindre är representativa för språket i fråga, och vara lagrade elektroniskt Syftet med en korpus är att verifiera hypoteser om naturligt språk, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion används Innehållet i korpusen är ofta (manuellt eller automatiskt) uppmärkt med lingvistisk information, t.ex. ordklass, lemma, genus, kasus och syntaktisk funktion 7 Lingvistik I, 9 februari 2006
SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex. K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och morfosyntaktiska särdrag, såsom kasus, genus, numerus etc. 8 Lingvistik I, 9 februari 2006
Exempel ur SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 9 Lingvistik I, 9 februari 2006
BNC British National Corpus Ca 100 miljoner löpord talad och skriven brittisk engelska Ordklasser och viss morfosyntaktisk information har tilldelats helt automatiskt taggad utan manuell efterredigering 10 Lingvistik I, 9 februari 2006
Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 11 Lingvistik I, 9 februari 2006
Korpusanvändning inom datorlingvistiken Stor användning inom nästan alla språkteknologiska tillämpningsområden: automatisk översättning (flerspråkiga korpusar) talteknologi fråge-svarsystem automatisk grammatisk analys lexikonskapande m.m. m.m. 12 Lingvistik I, 9 februari 2006
TALTEKNOLOGI 13 Lingvistik I, 9 februari 2006
Talteknologi Mål: att människan ska kunna kommunicera med datorn via talat språk Exempel på användningsområden: styrning av apparater i bil, flyg etc. hjälpmedel för synskadade och andra funktionshindrade personer telefonbokningstjänster utan mänsklig inblandning (t.ex. SJ) 14 Lingvistik I, 9 februari 2006
Talteknologins två delar Taligenkänning tal-till-text att få datorn att identifiera vilka ord som uttalas Talsyntes text-till-tal att få datorn att tala 15 Lingvistik I, 9 februari 2006
Taligenkänning Problem: Tal kan låta olika mellan olika personer: dialekt, kön, ålder, tempo etc. Tal kan låta olika för samma person vid olika tillfällen: förkylning, sinnesstämning etc. Bakgrundsljud försvårar taligenkänningen Var börjar och slutar ett ord? Bäst resultat om tränas för en viss person Tillämpning: bokningssystem, t.ex. SJ - ordförrådet är begränsat och kan styras 16 Lingvistik I, 9 februari 2006
Talsyntes Att få datorn att tala Översättning av ortografisk representation till en fonetisk representation -> transkribering Oftast klipp-och-klistra-metoder Kan kombineras med talking head Grammatisk/semantisk analys krävs för uttal av homografer: matris, banan, finskor Tillämpning: läsa upp texter för personer som har svårt att läsa 17 Lingvistik I, 9 februari 2006
Talsyntesapplikation: Readspeaker Utvecklat av Phoneticom http://www.phoneticom.com/ Läser upp webbsidor Tänkta målgrupper: Dyslektiker Synskadade Kognitivt funktionshindrade personer Personer med dåliga svenskakunskaper 18 Lingvistik I, 9 februari 2006
MASKIN ÖVERSÄTTNING 20 Lingvistik I, 9 februari 2006
Maskinöversättning Maskinöversättning: automatisk översättning av en text från ett språk till ett annat Datorstödd översättning: mänsklig översättning av en text, med hjälp av datoriserade lexikon, termordlistor, översättningsminnen o dyl. 21 Lingvistik I, 9 februari 2006
Varför maskinöversättning? Kan ge oss hjälp att förstå texter på språk som vi inte kan Väl fungerande maskinöversättningssystem sparar både tid och pengar Konsekventare och mer exakta översättningar Ökar motivationen att skriva på det egna språket 22 Lingvistik I, 9 februari 2006
Allmänt om maskinöversättning Började utvecklas redan på 50-talet Då: Höga förväntningar på felfria översättningar Vilken text som helst ska kunna översättas Nu: Mer realistiska förväntningar på kvaliteten Avgränsade domäner, t ex väderleksrapporter eller tekniska manualer Genombrott: 70-talet, EU-Systran 23 Lingvistik I, 9 februari 2006
Maskinöversättningsstrategier Direktöversättning Ord-för-ord och fras-för-fras Regelbaserad översättning Grammatiska regler Semantiska regler Korpusbaserad översättning Återanvändning av tidigare översättningar som återfinns i flerspråkiga korpusar 24 Lingvistik I, 9 februari 2006
Direktöversättning Äldsta och enklaste typen av automatisk översättning Ord-för-ord- och fras-för-fras-översättning med så lite syntaktisk analys som möjligt Bygger helt på lexikonets utformning Problem med (bland annat): Strukturella skillnader mellan språken Ordföljd Tvetydighet 25 Lingvistik I, 9 februari 2006
Regelbaserad översättning (1) Transferbaserad översättning, tre steg: Analys Automatisk grammatisk analys av källtexten (den text som användaren skickat in för översättning) Transfer Den grammatiska strukturen för källtexten görs om till en grammatisk struktur anpassad till målspråket (det språk som texten ska översättas till) Generering Utifrån målspråkets grammatiska struktur byggs ordföljd och meningsuppbyggnad upp för den aktuella texten och en översättning skapas 26 Lingvistik I, 9 februari 2006
Regelbaserad översättning (2) Språkliga resurser som krävs för transferbaserad översättning: Lexikon och grammatik för källspråket Transfergrammatik med lexikala och strukturella transferregler Lexikon och grammatik för målspråket 27 Lingvistik I, 9 februari 2006
Översättningssystem: Systran SYStem TRANslation Mest använda systemet idag 1969: ryska-engelska 1976: Systran för EU Antalet språkpar utvidgas kontinuerligt Svenska-engelska-svenska 2004 (med UU:s hjälp) Startade som direktöversättnings-system; nu mer och mer transfermetoder 28 Lingvistik I, 9 februari 2006
29 Lingvistik I, 9 februari 2006
30 Lingvistik I, 9 februari 2006
31 Lingvistik I, 9 februari 2006
Exempel på översättningsproblem i Systran A 15-årig boy was grabbed on the Thursday morning of Uppsalapolisen suspect for a miss hand electrical that will have may rooms in Gränbyområdet in Uppsala 32 Lingvistik I, 9 februari 2006
Exempel på översättningsproblem i Systran A 15-årig boy was grabbed on the Thursday morning of Uppsalapolisen suspect for a miss hand electrical that will have may rooms in Gränbyområdet in Uppsala En 15-årig pojke greps på torsdagsförmiddagen av Uppsalapolisen misstänkt för en misshandel som ska ha ägt rum i Gränbyområdet i Uppsala (Unt, 2005-09-08) 33 Lingvistik I, 9 februari 2006
Fler exempel på översättningsproblem i Systran In our company register can you look for companies in Uppsala. You can look for an individual company or a sector and few result on a map. Applies for companies: 34 Lingvistik I, 9 februari 2006
Fler exempel på översättningsproblem i Systran In our company register can you look for companies in Uppsala. You can look for an individual company or a sector and few result on a map. Applies for companies: I vårt företagsregister kan du söka efter företag i Uppsala. Du kan söka efter ett enskilt företag eller en bransch och få resultatet på en karta. Sök företag: 35 Lingvistik I, 9 februari 2006
SPRÅKGRANSKNING 36 Lingvistik I, 9 februari 2006
Språkgranskning Automatisk kontroll av stavning, grammatik och stil Två uppgifter: Feligenkänning (att hitta felen) Felkorrigering (att ge ersättningsförslag) 37 Lingvistik I, 9 februari 2006
Feligenkänning i Microsoft Word
Felkorrigering i Microsoft Word
Feligenkänning i Microsoft Word
Felkorrigering i Microsoft Word
Stavningskontroll (1) Enklaste tekniken för stavningskontroll: uppslagning i lexikon fångar felstavningar som inte utgör några ord, t ex coh och lingvstik Lexikonets storlek avgörande För stort lexikon ger missade fel, för litet lexikon ger falska alarm 42 Lingvistik I, 9 februari 2006
Stavningskontroll (2) Problem: språket utvecklas hela tiden - kan inte lista alla möjliga ord i lexikonet Exempel på lösningar: automatisk sammansättningsanalys morfologiska regler automatisk egennamnsigenkänning tillåt användaren att lägga till egna ord i lexikonet Alltför tillåtande sammansättningsanalys gör att osannolika sammansättningar slinker igenom, t.ex. medalg, kotroll, makelera och särkskilt 43 Lingvistik I, 9 februari 2006
Grammatikkontroll (1) Grammatikkontroll behövs för: Stavningskontroll, när felet resulterar i s.k. Real Word Errors : Jag er dålig på att stavar vi är tjära dator lingvistik Grammatikfel: Vi är kär samhällets utvecklingen 44 Lingvistik I, 9 februari 2006
Grammatikkontroll (2) Hur hittar systemet grammatiska fel? Ofta lokala felregler för förutsedda fel Exempel på regel i den svenska grammatikkontrollen i Microsoft Word: om ett substantiv i bestämd form föregås av en genitivform, så ska substantivet istället stå i obestämd form 45 Lingvistik I, 9 februari 2006
Stilkontroll Ord- och meningslängd Minusord: ålderdomliga, byråkratiska och alltför vardagliga ord Vissa syntaktiska konstruktioner, t.ex. passiv Konsekvenskontroll, t.ex. ska vs skall och mig vs mej 47 Lingvistik I, 9 februari 2006
TEXTSAMMANDRAG 48 Lingvistik I, 9 februari 2006
Textsammandrag Att komprimera text och ta ut de viktigaste bitarna Användningsområden: I kombination med sökmotor på Internet För presentation av information på små skärmar Ledtrådar: Ytliga tecken, såsom fetstil och närvaron av siffror Nyckelord som fastställts statistiskt Meningarnas position i texten Lingvistik: morfologisk analys, stavningskontroll m.m. 49 Lingvistik I, 9 februari 2006
Textsammandrag (2) Textsammanfattare för svenska: SweSum (KTH) Domän: Svensk tidningstext Prova själv och läs mer: http://swesum.nada.kth.se 50 Lingvistik I, 9 februari 2006
51 Lingvistik I, 9 februari 2006
52 Lingvistik I, 9 februari 2006
INFORMATIONS SÖKNING 53 Lingvistik I, 9 februari 2006
Informationssökning/ informationsextraktion Informationssökning att söka upp dokument som är relevanta för det som användaren efterfrågar vanliga sökmotorer på Internet, t.ex. Google Informationsextraktion att inte bara söka upp rätt dokument, utan att faktiskt svara på en fråga som användaren ställer t.ex. Ask Jeeves (www.ask.com) 54 Lingvistik I, 9 februari 2006
55 Lingvistik I, 9 februari 2006
56 Lingvistik I, 9 februari 2006
57 Lingvistik I, 9 februari 2006
58 Lingvistik I, 9 februari 2006
Datorlingvistiska resurser för informationssökning Nyckelordsextraktion - frekvensberäkningar Automatisk morfologisk analys för att hitta alla ordformer, t.ex. flicka-flickor-flickorna Automatisk stavningskontroll Automatisk syntaktisk analys av sökfrågan och svarsdokumenten 59 Lingvistik I, 9 februari 2006
Länkar till demos och annat Talking head: http://www.facems.com/examples/typeandtalk/ index.html Automatisk översättning: http://www.systransoft.com/index.html Automatisk textsammanfattning: http://swesum.nada.kth.se/ Ask Jeeves: http://www.ask.com/ Allmänt om datorlingvistik/språkteknologi: http://www.sprakteknologi.se 60 Lingvistik I, 9 februari 2006