Grundläggande textanalys. Joakim Nivre

Relevanta dokument
Tekniker för storskalig parsning

Tekniker för storskalig parsning

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

Tekniker för storskalig parsning

Grundläggande textanalys, VT2013

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Introduktion till språkteknologi. Datorstöd för språkgranskning

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Språkteknologi och Open Source

Grammatik för språkteknologer

Grundläggande textanalys, VT2012

Kursplaneöversättaren. Lina Stadell

DAB760: Språk och logik

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Inlämningsuppgift: Pronomenidentifierare

Lingvistik I Delmoment: Datorlingvistik

Cristina Eriksson oktober 2001

MÖSG ht 2005 Maskinöversättningssystemet MATS

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Automater. Matematik för språkteknologer. Mattias Nilsson

729G09 Språkvetenskaplig databehandling

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Obesvarade frågor från F1

Meningssegmentering i SUC och Talbanken

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Lösningsförslag till tentamen i Språkteknologi 2D1418,

SPRÅKTEKNOLOGIPROGRAMMET

Tekniker för storskalig parsning: Grundbegrepp

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpuslingvistik vt 2007

Grammatik för språkteknologer

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Bootstrapping för substantivtaggning

Grundläggande textanalys, VT2013

Grammatik för språkteknologer

Lingvistik I Delmoment: Datorlingvistik

Matematiska metoder för språkvetare, 7,5 hp

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Word- sense disambiguation

SPRÅKTEKNOLOGIPROGRAMMET

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Statistisk Maskinöversättning eller:

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Lingvistiska grundbegrepp

- ett statistiskt fråga-svarsystem

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Datorlingvistisk grammatik

Parsningens olika nivåer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Parsningens olika nivåer

Lingvistiskt uppmärkt text

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Kungliga Tekniska Högskolan Patrik Dallmann

Ord och morfologi. Morfologi

Språkgranskningsverktyg. Grammatikkontroll i Word

SweLL Forskningsinfrastruktur för. svenska som andraspråk. Elena Volodina Göteborgs universitet, Språkbanken

Lingvistik I Delmoment: Datorlingvistik

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Språk, datorer och textbehandling

Språkgranskningsverktyg, vt 2009

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Introduktion till kursen och MATLAB

Frasstrukturgrammatik

Teoretisk lingvistik och datalingvistik. Robin Cooper

Grammatik för språkteknologer

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Språk, datorer och textbehandling

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Tentamen Marco Kuhlmann

Språkteknologiprogrammet

Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Språkpsykologi/psykolingvistik

Transkript:

Grundläggande textanalys Joakim Nivre

Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar för analys? Hur analyserar man ord (ur och i kontext)? Hur fungerar språkgranskning

Analys och generering Två språkteknologiska huvudproblem:! Analys språk in TEXT MEANING! Generering språk ut! MEANING TEXT Många tillämpningar kombinerar analys och generering Maskinöversättning Dialogsystem

Analys-pipeline MEANING Textnormalisering Normaliserad text Meningssegmentering Mening Tokenisering Token Pragmatisk analys Proposition Semantisk analys Sats Syntaktisk analys Ord Morfologisk analys

Analys-pipeline GTA MEANING Textnormalisering Normaliserad text Meningssegmentering Mening Tokenisering Token Pragmatisk analys Proposition Semantisk analys Sats Syntaktisk analys Ord Morfologisk analys

Varför pipeline? Divide and conquer Ett större problem delas upp i enklare delproblem Effektivt genom att sökrymden begränsas Exempel: Antag 4 nivåer med vardera 10 alternativ Total sökrymd: 10 4 = 10 x 10 x 10 x 10 = 10 000 Pipeline: 10 + 10 + 10 + 10 = 40 Komplikation: Utdata från en komponent blir indata till nästa Risk för felpropagering om delproblemen inte är oberoende

Alternativ till pipeline Holistisk analys: Alla delproblem behandlas samtidigt Möjliggör modellering av alla beroenden Oftast ohanterligt ur beräkningssynpunkt N-best pipeline: Varje delkomponent levererar de N mest sannolika analyserna Möjliggör modellering av vissa beroenden Kan alltid göras beräkningsbart genom att begränsa N (N 1) Kan kombineras med holistisk reranking Ställer krav på delkomponenterna (rankning av minst N alternativ)

Delproblem Textnormalisering Meningssegmentering Tokenisering Morfologisk analys Ordklasstaggning Språkmodellering delproblem i många komponenter Språkgranskning tillämpning av textanalys

Textnormalisering Text kan se ut på många sätt!!! Textnormalisering innebär bland annat: Separera text från andra element (bilder, uppmärkning, ) Regularisera avvikelser från normen (avstavning, sifferuttryck, ) Skapa enhetlig teckenkodning Normalisering måste anpassas till övriga komponenter

Meningssegmentering Textanalys förutsätter att texten delas upp i meningar Vad är en mening? Hur hittar man meningsgränser i text? Vanliga ledtrådar: Skiljetecken i slutet:.?! Stor bokstav i början Aldrig helt entydigt men statistiskt hög sannolikhet Många språk markerar inte meningsgränser alls

Tokenisering Textanalys förutsätter att meningar delas upp i ord Vad är ett ord? Hur hittar man ordgränser i text? Hur gör man med icke-ord (skiljetecken, siffror, symboler, )? Hur gör man med flerordsuttryck, t.ex. på grund av Vanliga ledtrådar: Mellanrum Skiljetecken Aldrig helt entydigt men statistiskt hög sannolikhet Många språk markerar inte ordgränser alls

Morfologisk analys Analysera ordens struktur Identifiera grundform (lemma) Identifiera grammatisk kategori (ordklass) Extrahera grammatiska särdrag (numerus, tempus, ) bilar = bil N utr plu ind nom!

Morfologisk analys Analysera ordens struktur Identifiera grundform (lemma) Identifiera grammatisk kategori (ordklass) Extrahera grammatiska särdrag (numerus, tempus, ) bilar = bil N utr plu ind nom! token

Morfologisk analys Analysera ordens struktur Identifiera grundform (lemma) Identifiera grammatisk kategori (ordklass) Extrahera grammatiska särdrag (numerus, tempus, ) bilar = bil N utr plu ind nom! token lemma

Morfologisk analys Analysera ordens struktur Identifiera grundform (lemma) Identifiera grammatisk kategori (ordklass) Extrahera grammatiska särdrag (numerus, tempus, ) bilar = bil N utr plu ind nom! token lemma ordklass

Morfologisk analys Analysera ordens struktur Identifiera grundform (lemma) Identifiera grammatisk kategori (ordklass) Extrahera grammatiska särdrag (numerus, tempus, ) bilar = bil N utr plu ind nom! token lemma ordklass särdrag

Morfologisk analys Analysera ordens struktur Identifiera grundform (lemma) Identifiera grammatisk kategori (ordklass) Extrahera grammatiska särdrag (numerus, tempus, ) bilar = bil N utr plu ind nom! token lemma ordklass särdrag Men hallå! Kan inte bilar vara ett verb också?

Finita automater Morfologisk analys görs ofta med finita automater Språklig ambiguitet = icke-determinism Icke-deterministiska automater kan determiniseras Morfologisk igenkänning kan göras med vanliga automater Morfologisk parsning kräver finita transduktorer

Ordklasstaggning Disambiguera ord i kontext Identifiera aktuell ordklass för orden i en mening Med eller utan grammatiska särdrag (numerus, tempus, ) Kan föregås av (icke-deterministisk) morfologisk analys De bilar med sina bilar.

Ordklasstaggning Disambiguera ord i kontext Identifiera aktuell ordklass för orden i en mening Med eller utan grammatiska särdrag (numerus, tempus, ) Kan föregås av (icke-deterministisk) morfologisk analys De bilar med sina bilar. DET eller PRON?

Ordklasstaggning Disambiguera ord i kontext Identifiera aktuell ordklass för orden i en mening Med eller utan grammatiska särdrag (numerus, tempus, ) Kan föregås av (icke-deterministisk) morfologisk analys De bilar med sina bilar. DET eller PRON? VERB eller NOUN?

Ordklasstaggning Disambiguera ord i kontext Identifiera aktuell ordklass för orden i en mening Med eller utan grammatiska särdrag (numerus, tempus, ) Kan föregås av (icke-deterministisk) morfologisk analys De bilar med sina bilar. DET eller PRON? VERB eller NOUN? PREP eller NOUN?

Ordklasstaggning Disambiguera ord i kontext Identifiera aktuell ordklass för orden i en mening Med eller utan grammatiska särdrag (numerus, tempus, ) Kan föregås av (icke-deterministisk) morfologisk analys De bilar med sina bilar. DET eller PRON? VERB eller NOUN? DET eller VERB? PREP eller NOUN?

Ordklasstaggning Disambiguera ord i kontext Identifiera aktuell ordklass för orden i en mening Med eller utan grammatiska särdrag (numerus, tempus, ) Kan föregås av (icke-deterministisk) morfologisk analys De bilar med sina bilar. DET eller PRON? VERB eller NOUN? VERB eller NOUN? DET eller VERB? PREP eller NOUN?

Ordklasstaggning Disambiguera ord i kontext Identifiera aktuell ordklass för orden i en mening Med eller utan grammatiska särdrag (numerus, tempus, ) Kan föregås av (icke-deterministisk) morfologisk analys De bilar med sina bilar. PRON VERB PREP DET NOUN Vad var det jag sa! Ibland är bilar ett verb?

Markov-modeller Ordklasstaggning görs ofta med Markov-modeller Markov-modell = finit automat med sannolikheter Lexikala sannolikheter P(bilar NOUN) kontra P(bilar VERB) Kontextuella sannolikheter P(NOUN DET) kontra P(VERB DET)

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen!

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en gång

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en gång en

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en gång en liten

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en gång en liten flicka

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en gång en liten flicka som

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en gång en liten flicka som kallades

Språkmodellering Let s play the Shannon Game! Gissa nästa ord i meningen! Det var en gång en liten flicka som kallades Rödluvan Hur kan en dator klara detta?

N-gram-modeller Statistiska språkmodeller Ger sannolikheten för nästa ord givet kontexten: P(wi w1,, wn) Ger varje sekvens av ord en sannolikhet: P(w1,, wn) Kan tillämpas på ord, ordklasser, bokstäver, N-gram-modeller Tar bara hänsyn till sekvenser av N ord Nästa ord förutsägs i kontexten av N-1 ord Modellens sannolikheter skattas från korpusdata Regularisering krävs för att hantera sparse data

Språkgranskning Granskning av texter med avseende på språkriktighet Stavningskontroll detektera och rätta stavfel (ordnivå) Grammatikkontroll detektera och rätta grammatikfel (meningsnivå) Språkgranskning förutsätter grundläggande textanalys: Meningssegmentering och tokenisering Morfologisk analys och ordklasstaggning N-gram-modeller på tecken- och ordnivå

Kursupplägg

Kursupplägg Föreläsningar: 1. Textsegmentering 2. Morfologisk analys 3. Ordklasstaggning 4. Markov-modeller 5. N-gram-modeller 6. Textanalys med XML 7. Språkgranskning 1 8. Språkgranskning 2

Kursupplägg Föreläsningar: 1. Textsegmentering 2. Morfologisk analys 3. Ordklasstaggning 4. Markov-modeller 5. N-gram-modeller 6. Textanalys med XML 7. Språkgranskning 1 8. Språkgranskning 2 Laborationer: 1. Textsegmentering 2. Ordklasstaggning 3. Språkgranskning

Kursupplägg Föreläsningar: 1. Textsegmentering 2. Morfologisk analys 3. Ordklasstaggning 4. Markov-modeller 5. N-gram-modeller 6. Textanalys med XML 7. Språkgranskning 1 8. Språkgranskning 2 Laborationer: 1. Textsegmentering 2. Ordklasstaggning 3. Språkgranskning Referat: 1. Muntligt 2. Skriftligt

Kursupplägg Föreläsningar: 1. Textsegmentering 2. Morfologisk analys 3. Ordklasstaggning 4. Markov-modeller 5. N-gram-modeller 6. Textanalys med XML 7. Språkgranskning 1 8. Språkgranskning 2 Laborationer: 1. Textsegmentering 2. Ordklasstaggning 3. Språkgranskning Referat: 1. Muntligt 2. Skriftligt

Kurslitteratur

Kurslitteratur Kursböcker: Markus Dickinson, Chris Brew and Detmar Meurers. 2013. Language and Computers. Wiley-Blackwell. Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing. Second Edition. Pearson Prentice-Hall.

Kurslitteratur Kursböcker: Markus Dickinson, Chris Brew and Detmar Meurers. 2013. Language and Computers. Wiley-Blackwell. Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing. Second Edition. Pearson Prentice-Hall. Övrig kurslitteratur: Artiklar och bokkapitel tillgängliga digitalt från kursens hemsida eller i kopierad form.

Kurslitteratur Kursböcker: Markus Dickinson, Chris Brew and Detmar Meurers. 2013. Language and Computers. Wiley-Blackwell. Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing. Second Edition. Pearson Prentice-Hall. Övrig kurslitteratur: Artiklar och bokkapitel tillgängliga digitalt från kursens hemsida eller i kopierad form. För referatuppgiften: Vetenskapliga artiklar tillgängliga digitalt från kursens hemsida.

Examination

Examination Inlämningsuppgifter (praktisk laboration + teori) 1. Textsegmentering och morfologisk analys 2. Ordklasstaggning och statistiska modeller 3. Språkgranskning

Examination Inlämningsuppgifter (praktisk laboration + teori) 1. Textsegmentering och morfologisk analys 2. Ordklasstaggning och statistiska modeller 3. Språkgranskning Referat Redovisas både muntligt och skriftligt

Uppgift 1 Laboration Skapa en egen meningssegmentering och tokenisering Utvärdera mot en annan automatisk segmentering Utvärdera mot manuellt rättad segmentering i korpus Teori Skapa finit automat för böjningsmorfologi

Uppgift 2 Laboration Träna statistisk ordklasstaggare på korpusdata Utvärdera mot manuellt annoterad korpus Teori Göra härledningar i Markov-modell Beräkna regulariserade sannolikheter i n-gram-modell

Uppgift 3 Laboration Utvärdera två existerande system för språkgranskning (MS Word och Granska) Teori Skapa egna regler för grammatikkontroll

Referatuppgift Läs och sammanfatta en vetenskaplig artikel Redovisa muntligt för klassen (5 10 min) Skriv ett kort skriftligt referat (1 2 sidor) Val av artikel Förslag på artiklar finns på kurshemsidan Egna förslag måste godkännas av lärarna Ange önskemål senast 24 april

Referatuppgift Frågor att beakta i referatet Vilket språkteknologiskt problem behandlas i artikeln? Vilken metod används för att tackla detta problem? Hur förhåller sig metoden till tidigare arbeten på området? Hur visar författarna att metoden fungerar? Vad lärde du dig av att läsa artikeln? Skulle du rekommendera andra att läsa artikeln/använda metoden?

Lärare och språk Kursen har tre lärare! Joakim Nivre Marie Dubremetz Eva Pettersson! Vi kommer att använda både svenska och engelska JN och EP undervisar på svenska, MD på engelska Kurslitteraturen är enbart på engelska Redovisningarna kan göras antingen på svenska eller engelska

Praktisk information All information finns på kursens hemsida:! Nås via studentportalen eller Joakim Nivres hemsida! För laborationer krävs licens för SUC:! http://stp.lingfil.uu.se/~nivre/stp/gta.html http://stp.lingfil.uu.se/lila/suc/ Fyll i och lämna/maila till Joakim Nivre