Lingvistik I Delmoment: Datorlingvistik



Relevanta dokument
Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik

Målet är att ge maskiner förmågan att plocka ut information ur

Datorbaserade verktyg i humanistisk forskning

Datorlingvistik och språkteknologi

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Språk, datorer och textbehandling

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Tekniken bakom språket

Elementära verktyg för korpusbearbetning

Teoretisk lingvistik och datalingvistik. Robin Cooper

Maskinöversättning möjligheter och gränser

Grundläggande textanalys, VT2013

Grundläggande textanalys. Joakim Nivre

Språkgranskningsverktyg, vt 2009

Introduktion till. språkteknologin; OH-serie 1. Kursen

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Kursplaneöversättaren. Lina Stadell

Maskinöversättning. F Anna Sågvall Hein

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Datorbaserade verktyg i humanistisk forskning

Språkteknologi för ökad tillgänglighet vilka möjligheter finns?

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Introduktion till språkteknologi. Datorstöd för språkgranskning

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

MÖSG ht 2005 Maskinöversättningssystemet MATS

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Språkteknologi och Open Source

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Grammatik för språkteknologer

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Korpusbaserad Maskinöversättning

Språkteknologi. Språkteknologi

Symbolspråk som alternativa och kompletterande kommunikationsmedel

Grammatik för språkteknologer

Grammatik för språkteknologer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

729G09 Språkvetenskaplig databehandling

Statistisk Maskinöversättning eller:

Maskinöversättning idag

Maskinöversättning och språkgranskning, ht 2006

språkgranskning, ht 2007

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

SPRÅKTEKNOLOGIPROGRAMMET

Statistisk maskinöversättning

Engelska åk 5 höstterminen 2013

Introduktion till språkteknologi


Tabell 4. Indelningar av enskilda språk och språkfamiljer

Tillgänglighet och teknologi en omöjlig möjlighet?

Grammatik, det fixar väl datorn?

SVENSKA SOM ANDRASPRÅK

SPRÅKTEKNOLOGIPROGRAMMET

Pre-editering och maskinöversättning. Convertus AB

Cristina Eriksson oktober 2001

Kort presentation av Korp, Sveriges nationalkorpus

Fakta om robotar VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR. Lärarmaterial EVA MOSEGAARD AMDISEN

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Kungliga Tekniska Högskolan Patrik Dallmann

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

Maskinöversättning 2008

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Introduktion till språkteknologi

Pedagogisk planering för ämnet: Svenska

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Svensk nationell datatjänst, SND BAS Online

AEC 7 Ch av 10. Detta ska du kunna (= konkretisering)

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Lingvistiska grundbegrepp

Disposition. En definition av språk. Att bygga ett språk en stor uppgift för en liten människa. Disposition DEFINITION. Språkets olika delar

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

svenska kurskod: sgrsve7 50

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

LPP Magiska dörren ÅR 4

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

RÖDA TRÅDEN ENGELSKA ÅK 2 ÅK

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ClaroDictionary med tal. ClaroDictionary utan tal

Språk, datorer och textbehandling

Välkommen till. Särskild utbildning för vuxna i Trelleborg

Nationella prov och anpassning.

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Förslag den 25 september Engelska

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

12 Programstege Substantiv

Transkript:

Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007

Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Informationssökning Talteknologi Textsammandrag Språkgranskning Maskinöversättning (Datorstödd språkinlärning CALL) 2 Lingvistik I, 12 februari 2007

Datorlingvistik/språkteknologi Kombinerar språk- och datavetenskap (kognitionsvetenskap, artificiell intelligens, pedagogik) Hur människans språk är uppbyggt och hur en dator kan programmeras för att hantera det mänskliga språket Målet är att underlätta kommunikationen mellan människor och datorer Exempel på språkteknologiska tjänster: automatisk översättning talbaserade telefontjänster stavnings- och grammatikkontroll sökmotorer för Internet hjälpmedel för språkinlärning 3 Lingvistik I, 12 februari 2007

KORPUSLINGVISTIK 4 Lingvistik I, 12 februari 2007

Vad är en korpus? korpus av latinets corpus = kropp Nationalencyklopedins definition: textmängd som är föremål för språkvetenskapligt studium Samling språkliga data bestående av antingen skrivna texter eller transkriptioner av talspråk Texterna i korpusen bör vara mer eller mindre är representativa för språket i fråga, och vara lagrade elektroniskt Innehållet i korpusen är ofta uppmärkt med lingvistisk information, t.ex. ordklass, lemma, genus, kasus och syntaktisk funktion - taggning 5 Lingvistik I, 12 februari 2007

Vad är korpuslingvistik? Att med hjälp av en korpus verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80-talet) 6 Lingvistik I, 12 februari 2007

Varför korpuslingvistik? Empirisk (objektiv) lingvistik: undersöker språket så som det används i verkligheten Enda sättet att undersöka frekvens i språkbruket Kan användas för att: Räkna ord Se samband mellan ords relativa frekvenser Se samband mellan samförekomst av ord Skapa lexikon (en- eller flerspråkiga) Som bas för lexikografi och grammatikstudier 7 Lingvistik I, 12 februari 2007

Konkordanser Visar ett visst ord eller fras i sitt sammanhang Kan fås fram automatiskt ur korpusar 8 Lingvistik I, 12 februari 2007

Välkända korpusar Engelska BNC (British National Corpus, 100 milj ord) Brown corpus (1 milj ord) Svenska SUC (Stockholm-Umeå Corpus, 1 milj ord) PAROLE (19 milj ord) Flerspråkiga EUROPARL (Europaparlamentstexter på EU-språk) Hansard (Kanadensiska parlamentstexter på engelska och franska) 9 Lingvistik I, 12 februari 2007

SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex. K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass och lemma samt morfologiska särdrag, såsom kasus, genus och numerus 10 Lingvistik I, 12 februari 2007

Exempel ur SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 11 Lingvistik I, 12 februari 2007

BNC British National Corpus Ca 100 miljoner löpord talad och skriven brittisk engelska Ordklasser och viss morfologisk och syntaktisk information har tilldelats helt automatiskt utan någon manuell efterredigering 12 Lingvistik I, 12 februari 2007

Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 13 Lingvistik I, 12 februari 2007

Korpusanvändning inom datorlingvistiken Stor användning inom nästan alla språkteknologiska tillämpningsområden: automatisk översättning (flerspråkiga korpusar) talteknologi fråge-svarsystem automatisk grammatisk analys lexikonskapande m.m. m.m. 14 Lingvistik I, 12 februari 2007

INFORMATIONS SÖKNING 15 Lingvistik I, 12 februari 2007

Informationssökning/ informationsextraktion Informationssökning att söka upp dokument som är relevanta för det som användaren efterfrågar vanliga sökmotorer på Internet, t.ex. Google Informationsextraktion att inte bara söka upp rätt dokument, utan att faktiskt svara på en fråga som användaren ställer t.ex. Ask Jeeves (www.ask.com) 16 Lingvistik I, 12 februari 2007

17 Lingvistik I, 12 februari 2007

18 Lingvistik I, 12 februari 2007

19 Lingvistik I, 12 februari 2007

20 Lingvistik I, 12 februari 2007

Datorlingvistiska resurser för informationssökning Nyckelordsextraktion frekvensberäkningar Automatisk morfologisk analys för att hitta alla ordformer, t.ex. flicka-flickor-flickorna Automatisk stavningskontroll Automatisk grammatisk analys av sökfrågan och av svarsdokumenten 21 Lingvistik I, 12 februari 2007

TALTEKNOLOGI 22 Lingvistik I, 12 februari 2007

Talteknologi Mål: att människan ska kunna kommunicera med datorn via talat språk Exempel på användningsområden: styrning av apparater i bil, flyg etc. hjälpmedel för synskadade och andra funktionshindrade personer telefonbokningstjänster utan mänsklig inblandning (t.ex. SJ) 23 Lingvistik I, 12 februari 2007

Talteknologins två delar Taligenkänning tal-till-text att få datorn att förstå vad en människa säger Talsyntes text-till-tal att få datorn att tala (eller sjunga ) 24 Lingvistik I, 12 februari 2007

Taligenkänning Problem: Tal kan låta olika mellan olika personer: dialekt, kön, ålder, tempo etc. Tal kan låta olika för samma person vid olika tillfällen: förkylning, sinnesstämning etc. Bakgrundsljud försvårar taligenkänningen Var börjar och slutar ett ord? Bäst resultat om tränas för en viss person Tillämpning: bokningssystem, t.ex. SJ - ordförrådet är begränsat och kan styras 25 Lingvistik I, 12 februari 2007

Talsyntes Att få datorn att tala Oftast klipp-och-klistra-metoder för produktion av tal: små ljudsnuttar kombineras till ord, fraser och meningar Talet kan kombineras med talking heads Grammatisk/semantisk analys krävs för rätt uttal av homografer: matris, banan, finskor Tillämpning: läsa upp texter för personer som har svårt att läsa 26 Lingvistik I, 12 februari 2007

Talsyntesapplikation: Readspeaker Utvecklat av Phoneticom http://www.phoneticom.com/ Läser upp webbsidor Tänkta målgrupper: Dyslektiker Synskadade Kognitivt funktionshindrade personer Personer med dåliga svenskakunskaper 27 Lingvistik I, 12 februari 2007

TEXTSAMMANDRAG

Textsammandrag Att komprimera text och ta ut de viktigaste bitarna Användningsområden: I kombination med sökmotor på Internet För presentation av information på små skärmar Ledtrådar: Ytliga tecken, såsom fetstil och närvaron av siffror Nyckelord som fastställts statistiskt Meningarnas position i texten Lingvistik: morfologisk analys, stavningskontroll m.m.

Textsammandrag (2) Textsammanfattare för svenska: SweSum (KTH) Domän: Svensk tidningstext Prova själv och läs mer: http://swesum.nada.kth.se

SPRÅKGRANSKNING

Språkgranskning Automatisk kontroll av: stavning grammatik stil Två uppgifter: Feligenkänning (att hitta felen) Felkorrigering (att ge ersättningsförslag)

Feligenkänning (stavning) MÖSG05: stavningskontroll, Eva Pettersson

Felkorrigering (stavning) MÖSG05: stavningskontroll, Eva Pettersson

Feligenkänning (grammatik) MÖSG05: stavningskontroll, Eva Pettersson

Felkorrigering (grammatik) MÖSG05: stavningskontroll, Eva Pettersson

Stavningskontroll (1) Enklaste tekniken för stavningskontroll: uppslagning i lexikon fångar felstavningar som inte utgör några ord, t ex coh och lingvstik Lexikonets storlek avgörande För stort lexikon ger missade fel, för litet lexikon ger falska alarm

Stavningskontroll (2) Problem: språket utvecklas hela tiden - kan inte lista alla möjliga ord i lexikonet Exempel på lösningar: automatisk sammansättningsanalys morfologiska regler automatisk egennamnsigenkänning tillåt användaren att lägga till egna ord i lexikonet Alltför tillåtande sammansättningsanalys gör att osannolika sammansättningar slinker igenom, t.ex. medalg, kotroll, makelera och särkskilt

Grammatikkontroll (1) Grammatikkontroll behövs för: Stavningskontroll, när felet resulterar i s.k. Real Word Errors : Jag er dålig på att stavar vi är tjära dator lingvistik Grammatikfel: Vi är kär samhällets utvecklingen

Grammatikkontroll (2) Hur hittar systemet grammatiska fel? Ofta lokala felregler för förutsedda fel Exempel på regel i den svenska grammatikkontrollen i Microsoft Word: om ett substantiv i bestämd form föregås av en genitivform, så ska substantivet istället stå i obestämd form

Stilkontroll Ord- och meningslängd Minusord: ålderdomliga, byråkratiska och alltför vardagliga ord Vissa syntaktiska konstruktioner, t.ex. passiv Konsekvenskontroll, t.ex. ska vs skall och mig vs mej i samma text

MASKIN ÖVERSÄTTNING 44 Lingvistik I, 12 februari 2007

Maskinöversättning Maskinöversättning: automatisk översättning av en text från ett språk till ett annat Datorstödd översättning: mänsklig översättning av en text, med hjälp av datoriserade lexikon, termordlistor, översättningsminnen o dyl. 45 Lingvistik I, 12 februari 2007

Varför maskinöversättning? Kan ge oss hjälp att förstå texter på språk som vi inte kan Väl fungerande maskinöversättningssystem sparar både tid och pengar Konsekventare och mer exakta översättningar Ökar motivationen att skriva på det egna språket 46 Lingvistik I, 12 februari 2007

Allmänt om maskinöversättning Började utvecklas redan på 50-talet Då: Höga förväntningar på felfria översättningar Vilken text som helst ska kunna översättas Nu: Mer realistiska förväntningar på kvaliteten Avgränsade domäner, t ex väderleksrapporter eller tekniska manualer Genombrott: 70-talet, EU-Systran 47 Lingvistik I, 12 februari 2007

Maskinöversättningsstrategier Direktöversättning Ord-för-ord och fras-för-fras Regelbaserad översättning Grammatiska regler Semantiska regler Korpusbaserad översättning Återanvändning av tidigare översättningar som återfinns i flerspråkiga korpusar 48 Lingvistik I, 12 februari 2007

Direktöversättning Äldsta och enklaste typen av automatisk översättning Ord-för-ord- och fras-för-fras-översättning med så lite grammatisk analys som möjligt Bygger helt på lexikonets utformning Problem med (bland annat): Strukturella skillnader mellan språken Ordföljd Tvetydighet 49 Lingvistik I, 12 februari 2007

Regelbaserad översättning (1) Transferbaserad översättning, tre steg: Analys Automatisk grammatisk analys av källtexten (den text som användaren skickat in för översättning) Transfer Den grammatiska strukturen för källtexten görs om till en grammatisk struktur anpassad till målspråket (det språk som texten ska översättas till) Generering Utifrån målspråkets grammatiska struktur byggs ordföljd och meningsuppbyggnad upp för den aktuella texten och en översättning skapas 50 Lingvistik I, 12 februari 2007

Regelbaserad översättning (2) Språkliga resurser som krävs för transferbaserad översättning: Lexikon och grammatik för källspråket Transfergrammatik med lexikala och strukturella transferregler Lexikon och grammatik för målspråket 51 Lingvistik I, 12 februari 2007

Översättningssystem: Systran SYStem TRANslation (http://www.systransoft.com) Mest använda systemet idag 1969: ryska-engelska 1976: Systran för EU Antalet språkpar utvidgas kontinuerligt Svenska-engelska-svenska 2004 Startade som direktöversättningssystem; nu mer och mer transfermetoder 52 Lingvistik I, 12 februari 2007

Exempel på översättningsproblem i Systran A 15-årig boy was grabbed on the Thursday morning of Uppsalapolisen suspect for a miss hand electrical that will have may rooms in Gränbyområdet in Uppsala En 15-årig pojke greps på torsdagsförmiddagen av Uppsalapolisen misstänkt för en misshandel som ska ha ägt rum i Gränbyområdet i Uppsala (Unt, 2005-09-08) 53 Lingvistik I, 12 februari 2007

Fler exempel på översättningsproblem i Systran In our company register can you look for companies in Uppsala. You can look for an individual company or a sector and few result on a map. Applies for companies: I vårt företagsregister kan du söka efter företag i Uppsala. Du kan söka efter ett enskilt företag eller en bransch och få resultatet på en karta. Sök företag: 54 Lingvistik I, 12 februari 2007

Datorstödd språkinlärning CALL Computer-Assisted Language Learning Att utveckla datorprogram som hjälper eleven att lära sig ett språk, t.ex. m.h.a. lucktexter språkanvändningsexempel i korpusar automatisk syntaktisk analys av elevens språk talad och/eller skriven dialog med datorn Kombinerar pedagogik, lingvisitik, datavetenskap och kognitionsvetenskap 55 Lingvistik I, 12 februari 2007

För den som är intresserad Allmänt om språkteknologi: http://www.sprakteknologi.se Informationsextraktion: www.ask.com Talking heads: http://www.facems.com/examples/typeandtal k/index.php Textsammandrag: http://swesum.nada.kth.se/ Maskinöversättning: http://www.systransoft.com 56 Lingvistik I, 12 februari 2007