Datorlingvistik och språkteknologi



Relevanta dokument
Målet är att ge maskiner förmågan att plocka ut information ur

Lingvistik I Delmoment: Datorlingvistik

Introduktion till. språkteknologin; OH-serie 1. Kursen

Introduktion till språkteknologi

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik

Introduktion till språkteknologi

Tekniken bakom språket

SPRÅKTEKNOLOGIPROGRAMMET

SPRÅKTEKNOLOGIPROGRAMMET

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Maskinöversättning möjligheter och gränser

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Teoretisk lingvistik och datalingvistik. Robin Cooper

Språkteknologi och Open Source

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Datorlingvistisk grammatik

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK

Grundläggande textanalys. Joakim Nivre

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING,

Lathund för SpellRight

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Kursplaneöversättaren. Lina Stadell

Språkteknologi för ökad tillgänglighet vilka möjligheter finns?

Grammatik för språkteknologer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Att orientera i den närliggande natur- och utemiljön med hjälp av kartor, såväl med som utan digitala verktyg. Kartors uppbyggnad och symboler.

Tillgänglighet och teknologi en omöjlig möjlighet?

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Cristina Eriksson oktober 2001

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Lathund för Stava Rex

Grammatik för språkteknologer

Vad säger WCAG om kognition?

RÖDA TRÅDEN SVENSKA F-KLASS ÅK

LPP Magiska dörren ÅR 4

SpellRight. för Google Docs. Manual för SpellRight för Google Docs

Språkteknologi. Språkteknologi

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

Nationella prov och anpassning.

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Kompensatoriska Tekniska Hjälpmedel - appar och andra verktyg. Cecilia Widlund, leg. logoped Logopederna Sverige AB

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

ClaroDictionary med tal. ClaroDictionary utan tal

Egenskaper för digitala läromedel och film

Sammanställning IKT/digitalt i Lgr11

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

Skriva och skapa med datorn

Maskinöversättning. F Anna Sågvall Hein

Lär dig engelska med bilder Mappia AB Facebook.se/mappia Twitter/mappiaab

PubMed gratis Medline på Internet 1946-

3.6 Moderna språk. Centralt innehåll

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

Semantik och pragmatik

Datorlingvistisk grammatik

Mål och betygskriterier i Engelska

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

Att söka information (med betoning på Internet)

Grammatik för språkteknologer

Lokalisering, terminologi och översättning


Lässtrategier för att förstå och tolka texter från olika medier samt för att urskilja texters budskap,

Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs

RÖDA TRÅDEN ENGELSKA ÅK 2 ÅK

Tillämpad programmering CASE 1: HTML. Ditt namn

Engelska åk 5 höstterminen 2013

Peter Hellström. PH-Digital Marketing

Betyg i moderna språk nu redan i år 6. Mia Smith, förstelärare Vallhamra skola, Partille

Kursplan för Moderna språk

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Mål- och bedömningsmatris Engelska, år 3-9

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

MSPR 3.6 MODERNA SPRÅK. Syfte

Statistisk Maskinöversättning eller:

Mål som eleverna skall ha uppnått i slutet av det femte skolåret.

Får jag använda bilden? Lektionen handlar om upphovsrätt för bilder. Får jag använda bilden? Lektionsförfattare: Greger Ravik.

Språkpsykologi/psykolingvistik

Capítulo 5, Animales y países, Tapas 2

Centralt innehåll. Läsa och skriva. Tala, lyssna och samtala. Berättande texter och sakprosatexter. Språkbruk. Kultur och samhälle.

729G09 Språkvetenskaplig databehandling

MÖSG ht 2005 Maskinöversättningssystemet MATS

Kommentarer till bedömningsmatris för Tala Kurs B

Checklista. 10 saker du behöver ha på plats för SEO 2019

Pragmatisk och narrativ utveckling

Avstämning med Referensgrupp Sprint 11 lnu.se + Mina saker

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Handledning Sfi i Hjo «Vi lär oss svenska tillsammans»

Fakta om robotar VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR. Lärarmaterial EVA MOSEGAARD AMDISEN

Centralt innehåll. Tala, lyssna och samtala. Läsa och skriva. Berättande texter och faktatexter. Språkbruk. I årskurs 1-6

Sökoptimering - Innehåll

Profilera dig på LinkedIn. 10 steg till en lyckad profil

Lgr 11 - Centralt innehåll och förmågor som tränas:

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

So ka artiklar och annan litteratur

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Transkript:

Datorlingvistik och språkteknologi Mats Dahllöf Institutionen för lingvistik och filologi Att bearbeta språk i datorer med känslighet för språket som språk: Språkvetenskapligt forskningsområde: datorlingvistik Teknisk bransch: språkteknologi Målet är att ge maskiner förmågan att plocka ut information ur text och tal på ett sätt som verkar förutsätta något slags förståelse, samt att använda naturligt språk för att presentera information. oktober 2012 1 2 Datorlingvistik Språkvetenskap handlar rimligtvis om språkligt beteende, om hur språk används. Konkreta data finns som inspelningar och texter. Dessa kan omfatta miljoner eller miljarder ord. Datorer kan användas för att analysera dessa data på ett systematiskt sätt korpuslingvistik. Språkteknologi Med dagens tekniker för digital kommunikation behöver vi verktyg för att hantera språkligt kodad information. Det är användbart om dessa verktyg kan ta hänsyn till språkligt innehåll och andra språkliga egenskaper. Detta kräver en artificiell språklig intelligens. Vi kan också vilja testa teorier om hur människor processar språk psykolingvistisk modellering. 3 4

Språkteknologi: tillämpningsområden Dokumentklassificering Informationssökning och -utvinning Automatisk översättning maskinöversättning Sammandrag och sammanfattning Språkgranskning (stavnings-, stil- och grammatikkontroll) Dialogsystem/interaktiva telefontjänster Språkvetenskaplig forskning, t.ex. vid lexikonbyggande (lexikografi) Talteknologi Talteknologin brukar betraktas som ett eget forskningsfält. Där finns det två huvudproblem: Talsyntes: att artificiellt framställa tal. Uppläsning av en given textmassa. Taligenkänning: att utifrån tal automatiskt bestämma vilka ord som uttalas. All sådan teknik utnyttjar statistiska modeller. Problem med tal: olika grundton (män, kvinnor, barn), intensitet, tempo, uttalssätt, dialekter, intonation, betoning etc. 5 6 Dokumentklassificering och -sökning Internet och andra samlingar av elektroniska dokument miljontals texter, miljardtals ord manuell genomsökning omöjligt. Ordning som i traditionella bibliotek kräver omfattande manuella arbetsinsatser: långsamt, dyrt. Söktjänster och filtrering av t.ex. spam är av avgörande betydelse för dagens mediala kultur. Googlandet definierar vår tid, kan man säga. Spamfiltrering Användarönskemål: Att enbart se legitima brev och få spam placerade i papperskorgen. (Eller att stoppa utgående spam.) Motparten, avsändarna av spam, vill lura oss och våra spamfilter. Ledtrådar: avsändaradresser, textinnehåll, länkar, bilders utseende. Bortfiltrering av legitimt brev kan vara farligt. Ett textklassifikationsproblem bedöma om en text är legitim eller spam? 7 8

Språkbestämning Användarönskemål: Att, givet ett dokument av ett visst slag, eller en ljudinspelning (mycket svårare), få veta vilket språk det är. (Det här kan vara ett hjälpmedel vid t.ex. dokumentsökning och spamfiltrering.) Ledtrådar: vilka ord, teckensekvenser eller ljudkomponenter förekommer och i vilka relativa frekvenser. Ett textklassifikationsproblem koppla språkexempel till språk. Spamfiltrering Användarönskemål: Att enbart se legitima brev och få spam placerade i papperskorgen. (Eller att stoppa utgående spam.) Motparten, avsändarna av spam, vill lura oss och våra spamfilter. Ledtrådar: avsändaradresser, textinnehåll, länkar, bilders utseende. Bortfiltrering av legitima brev kan vara farligt. 9 10 Textklassificering allmänt I många fall kan vi samla ihop stora korpusar av texter med kända egenskaper, som spamstatus eller språk. Det här är en typisk ordsekvens på engelska och ur ett spambrev: You ve Received $1800 In Your Account. Click Here to Collect Your Funds Today! Givet sådana data kan vi försöka modellera texterna utifrån särdrag som vi extraherar. Med hjälp av maskininlärning kan vi bygga system som kopplar textrepresentationer till de eftersökta egenskaperna. 11 Söktjänst, typ Google Användarönskemål: Att hitta dokument (på nätet, eller ur en begränsad mängd) som uppfyller något informationseller underhållningsbehov uttryckt som en sökformulärsfråga. Rangordnade med bästa först. Två aspekter: Vad betyder sökfrågan? Hur bra är dokument som träffar till frågan? Bästa: Det folk vill ha. Önskat språk, mest relevanta, mest vederhäftiga, skojigaste, etc. (Om en söktjänst lever på att sälja annonser, så vill den locka så många presumtiva kunder som möjligt till sina annonsörer.) 12

Söktjänst, ledtrådar. Textinnehållets egenskaper: Vilket språk? Vad handlar texten om? Vilken sorts text är det? Är det ett plagiat/maskinöversättning från en bättre källa? Dokumentets relation till andra dokument på nätet: Google: Patentet Pagerank (Method for node ranking in a linked database, Lawrence Page) Värderar siter efter vilka som länkar till dem. Idé: Seriösa siter länkar främst till (andra) värdefulla siter. Söktjänst, ledtrådar. Användardata är viktiga: Vilka förslag gillar användarna (går de vidare till, stannar de och läser). Googlar Uppsala fjärde träff ser ut så här: Uppsala kommun - Startsida www.uppsala.se/ - Translate this page 13 14 Söktjänst, ledtrådar. Men det är denna länk vi klickar (vilket min läsare döljer): http://www.google.com/url?sa=t&rct=j&q=& source=web&cd=4&cad=rja&ved=0cdsqfjad& url=http%3a%2f%2fwww.uppsala.se%2f& ei=77r2ukvun8jd4qtp4icwaq& usg=afqjcnglfeoz8i2p0a6tyzrozgumebvklq Söktjänsten håller reda på vilka förslag vilka användarna följer och när. Söktjänst, ledtrådar. En viss användare (vem?, var?, när?) med en viss sökfråga skall paras ihop med en rangordnad lista med dokumentförslag. Ovanstående kriterier (jämte andra) måste vägas samman Dokumentens avsändare kan innefatta både legitima och bedrägliga aktörer. Egen branch: Search engine optimisation (SEO). 15 16

Maskinöversättning En av de första språkteknologiska tillämpningarna. Uppenbar teknisk och språklig utmaning svårt! Översättning är dyrt: tar tid och kräver yrkeskompetens. Manuell översättning tar tid en maskin kan leverera på direkten. Maskinöversättning kan användas som ett hjälpmedel för en mänsklig översättare. Exempel: maskinöversättning Svenska (från Boverket): Särskilda riktlinjer för självbärande sammansatta skivelement för användning i innerväggar och innertak. Engelska, officiell översättning (från Boverket): Specific aspects relating to Self-supporting composite lightweight panels for use in internal walls and ceilings Engelska, enligttranslate.google.com: Specific guidelines for self-supporting composite lightweight panels for use in walls and ceilings 17 18 Exempel: maskinöversättning Svenska: Skotta taket! Engelska, enligttranslate.google.com: Shovel the roof! Svenska: Måla taket! Engelska, enligttranslate.google.com: Paint the ceiling! Exempel: maskinöversättning Svenska: Den största risken för att tak rasar gäller främst lokaler med tak som har stora spännvidder till exempel hallar och jordbruksbyggnader. Engelska, enligttranslate.google.com: The greatest risk of roof collapse are mainly rooms with ceilings that have large spans such as halls and farm buildings. 19 20

(Maskin)översättning är en svår uppgift Ord måste tolkas i källspråket och motsvarande uttryck måste hittas i målspråket. Polysemi: t.ex. tak som innertak (ceiling) eller yttertak (roof). eller wall som vägg, mur eller vall. Grammatisk struktur måste tolkas i källspråket och någonting funktionellt ekvivalent måste formuleras i målspråket. En infinitivfras kan översättas med en nominalfras: risken för att tak rasar risk of roof collapse. Maskinöversättning metoder Maskinöversättning kan bygga på... för hand sammanställda regler och lexikon (detta är en gammaldags metod) statistiska mekanismer som lärt sig att översätta utifrån befintliga översättningar och språkexempel. (moderna metoder bygger på detta) 21 22 Maskinöversättning metoder Samförekomstdata. Antal träffar i google på de engelska fraserna som en illustration. skotta...... taket... taket... the roof... the ceiling shovel... 49 000 8 måla... paint... 233 000 994 000 Maskinöversättning data Samlingar av texter på ett visst språk, t.ex. svenska och engelska, s.k. korpusar, typiskt miljontals ord. Dessa ger oss kunskaper om t.ex. ordföljd och om ord som semantiskt sett hör ihop. Samlingar av s.k. parallella texter dokument på ett visst språk knutna till samma text på annat språk, s.k. parallellkorpusar. (Original översättning, översättning original, översättningar av samma original). Dessa visar hur man översätter från ena språket till det andra. 23 24

Maskinöversättning problem på vägen Hur hittar vi parallella texter? Vi behöver automatiska metoder för att lokalisera sådana textpar och kolla att de representerar samma text. Ledtrådar för det? Typografi, längder, egennamn, siffror, ord som liknar varandra, etc. Vi behöver kanske filtrera bort dåliga texter. Maskinöversättning problem på vägen Vi behöver länka textelement i de parallella texterna: stycken mot stycken, meningar mot meningar, fraser mot fraser, ord mot ord. Samma typer av ledtrådar kan utnyttjas. Ord och fraser kan dessutom kopplas genom statistiska samband. T.ex. kanske man ser en stark statistiskt samband mellan att taket och the roof förekommer i länkade meningar. 25 26 Exempel: maskinöversättning http://translate.google.com igen: det regnade småspik hela dagen it rained cats and dogs all day jag köpte småspik I bought small nails jag köpte småspik hela dagen I bought the cats and dogs all day (vad händer här?) Språkgranskning av stavning, grammatik och stil Användarönskemål: att möjliga fel (enligt någon norm) i en text markeras, och korrigeringsförslag ges. Förslag: hitta likt (t.ex. coh och och bara en omkastning olika) och sannolikt ord (och är ett vanligt ord). (Tillhandahålls även vid Google-sökning.) Stavningskontroll: Uppslagning i lexikon kan fånga felstavningar som inte utgör några ord, t ex coh och spårkteknolog. Metoden har brister. 27 28

Språkgranskning, forts. Grammatikkontroll: Behövs för stavningskontroll, t.ex. Jag kan inte stavar och Dem kan inte stava. Sammansättning är produktivt i svenskan: sammansättningsanalys behövs. Inte trivialt. Alltför tillåtande analys gör att osannolika ord slinker igenom, t.ex. medalg, kotroll och cykelsäll. Behövs för grammatikfel, t ex Vi är kär och samhällets utvecklingen. Språkgranskning, forts. Stilkontroll: Ord- och meningslängd. Upprepningar. Minusord : ålderdomliga, byråkratiska, anstötliga. Vissa syntaktiska konstruktioner, t.ex. passiv ogillas ofta i engelska. Konsekvenskontroll, t ex ska vs skall. Kontroll av terminologi. 29 30 Talsyntes Text till tal: Översättning av ortografisk representation till fonetisk representation. Ofta olika typer av klipp-och-klistra-metoder. Kräver grammatisk-semantisk analys för homografer, såsom matris, banan, finskor. Måste kunna hantera intonation, betoning m.m. Dagens teknik ger inte fullt naturligt tal. Kan kombineras med artificiell animnation av gester och mimik, s k talking heads. 31 Taligenkänning (-analys) Tal till text (att identifiera vilka ord som uttalats): Problem: Tal kan låta väldigt olika: olika grundton, intensitet, tempo, uttalssätt, dialekter etc. Bakgrundsljud kan störa taligenkänningsprocessen. Ofta för bokningstjänster av olika slag, där ordförrådet är begränsat och kan styras. Bäst resultat fås om systemet tränas för en viss person. Exempel på taligenkänningssystem: SJ:s tågbokningssystem, Vägverkets trafikregister. 32

Tillämpningar Dokumentuppläsning mha talsyntes för människor som ej har möjlighet att läsa Dikteringssystem. Interaktiva telefontjänster, t ex biljettbokning Styrning av apparater, t ex i hushållet eller i bilar Problem/utmaningar för ST/DL med språk: ord och grammatik Många olika ord med komplext innehåll och varierande grammatiskt beteende. Språkanvändningen trotsar ofta normativa ideal: Lösa fraser och ord (snarare är fullständiga meningar), felstavningar, förkortningar. I tal: omtagningar och avbrutna enheter, etc. är vanliga. Språkanvändningenär kreativ nya saker kommer in. 33 34 Problem med språk: tvetydighet Ord ofta tvetydiga (polysemi, homonymi). Olika språk olika begrepp. Det sitter ett djur i taket:... on the ceiling.... Det sitter ett djur på taket:... on the roof.... i/på on. tak ceiling/roof. Möjligheter multipliceras: bara ben har minst fyra möjliga översättningar till engelska. Problem med språk: pronomensyftning Pronomen har typiskt flera möjliga antecedenter. De fångar olika egenskaper i olika språk. Personliga pronomina i singularis: Svenska: den, det, han, hon. Saker: grammatiskt genus. Personer: kön. Engelska: it, he, she. Saker: ett pronomen. Personer: kön. Franska: il, elle. Saker och personer i maskulinum eller femininum. 35 36

Problem med språk: öppenhet Vi kan alltid vara kreativa i språket och använda gamla ord och uttryckssätt på nya sätt. Vi kan hitta på nya ord. Vi kan uttrycka oss indirekt, t.ex. i ironi, över- och underdrifter, metaforer, artiga frågor, etc. Sammanfattning (1) Språkteknologiska tillämpningar används dagligen av miljarder människor. Enorma volymer av språklig kommunikation förlitar sig på digital överföring och lagring. WWW-användningen förutsätter sökmotorer. Maskinöversättning blir allt bättre och får en allt större spridning. 37 38 Sammanfattning (2) Språkgranskningsverktyg finns i många ordbehandlare och sökmotorer. Taligenkänningstekniken utvecklas snabbt och får en allt större användning. Talsyntes kombineras med generering av gester och mimik. Interaktiva telefontjänster blir allt vanligare. 39