Korpuslingvistik vt 2007

Relevanta dokument
Korpuslingvistik vt 2007

729G09 Språkvetenskaplig databehandling

Tekniker för storskalig parsning

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Partiell parsning Parsning som sökning

Grammatik för språkteknologer

Tekniker för storskalig parsning

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Frasstrukturgrammatik

Tekniker för storskalig parsning

Grammatik för språkteknologer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Tekniker för storskalig parsning: Grundbegrepp

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Språkteknologi. Språkteknologi

Datorlingvistisk grammatik

Grundläggande textanalys. Joakim Nivre

Målet är att ge maskiner förmågan att plocka ut information ur

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Grundläggande textanalys, VT2013

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiskt uppmärkt text

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Grammatisk teori II Attributvärdesgrammatik

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References

Fraser, huvuden och bestämningar

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Grammatik för språkteknologer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Bootstrapping för substantivtaggning

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Datorlingvistisk grammatik

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Statistisk grammatikgranskning

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Grammatisk teori III Praktisk analys

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Språkteknologi och Open Source

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

TDDC89 LINGVISTIK måndag 20 oktober 2008

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Grammatik för språkteknologer

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

FL 6: Definite Clause Grammars (kap. 7)

Parsningens olika nivåer

Lingvistiska grundbegrepp

Lingvistik IV Konstituenter och frasstruktur

Annoteringsvägledning SWE-TIGER

Word- sense disambiguation

Introduktion till språkteknologi. Datorstöd för språkgranskning

Lingvistik I Delmoment: Datorlingvistik

Teoretisk lingvistik och datalingvistik. Robin Cooper

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Elementära verktyg för korpusbearbetning

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Automatisk igenkänning av nominalfraser i löpande text

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Neurolingvistik - Grammatik

De som (som) vi använder

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Världens språk, 7,5hp vt 2012

729G09 Språkvetenskaplig databehandling

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

ENGELSKA. Årskurs Mål att uppnå Eleven skall:

Inlämningsuppgift: Pronomenidentifierare

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi

Datum: Date: Provkodr: KTR1 Exam code:

Datorbaserade verktyg i humanistisk forskning


Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Språkets struktur och funktion, 7,5 hp

Struktur och funktion i satser en introduktion till satsträd Niklas Edenmyr (Inst. f. lingvistik & filologi)

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

Svenskans struktur, 7,5 hp Tentamensexempel 1

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Tentamen Del A. Marco Kuhlmann

Syntax Fras, sats, mening

Morfologi och syntax. Föreläsning 1 & 2

Konstituenter och frasstruktur. 729G49 16 April

för att komma fram till resultat och slutsatser

Lingvistiskt uppmärkt text

Språkteknologiprogrammet

Transkript:

Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1

Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys, lemmatisering ordklasstaggning chunkning syntaktisk parsning (frasstrukturer, dependensrelationer) 2

Rådande syntaktiska teorier 1 Frasstrukturgrammatik (Chomsky 1956-) NP, VP, AP, AdvP, PP bygger på hierarkisk konstituentstruktur Bygger på kontextfri grammatik (CFG) Head-Driven Phrase Structure Grammar (Pollard and Sag, 1994) Lexical Functional Grammar (Bresnan, 1982) 3

Rådande syntaktiska teorier 2 Dependensrelationer (Tesnier, Melcuk, 1950-) DG baseras på relationen mellan satsens element, mellan orden relationen mellan det styrande elementet, sk huvudet och dess dependenter, dvs det/de ord som är avhängiga av huvudet satsens struktur är ett system av sådana huvud-dependentrelationer verbet är satsens centrum/huvud/dominerande element och de övriga elementen är direkt eller indirekt avhängiga av verbet 4

Dependensrelationer kan åskådliggöras i trädstruktur där noderna är ord, bågarna är relationer och där huvudet dominerar sina dependenter. Huvud-dependentrelationen är binär och riktad. Ordningen mellan dependenter spelar ingen roll. Ordföljd markeras ej i ett dependensträd. Dependensrelationer kan åskådliggöras direkt på orden med hjälp av pilar från det dominerande till det avhängiga elementet. Constraint Grammar 5

Chunkning och parsning Metoder regelbaserade datadrivna 6

Chunking vs. Parsning Syntaktisk parsing: rekonstruera hela konstituentstrukturen eller dependensstrukturen av satsen/yttrandet Chunking: delproblem till syntaktisk parsning hitta de syntaktiskt relaterade, ej överlappande grupper av ord, s.k. chunk NP, VC, PP, ADVP, AP (Abney, 1991) orden sägs tillhöra den chunk som bestäms av baskonstituenten i parsträdet 7

Datadriven chunkning ett första steg till parsning hitta de syntaktiskt relaterade, ej överlappande grupper av ord, s.k.chunk (Abney, 1991) Chunk: bas fraskategori Nominalfras (NP) till huvudordet (en god lunch) Verbkluster (VC) (skulle vara) Adverbfras (AdvP) (otroligt) Adjektivfras (AP) (gott) Prepositionsfras (PP) (efter föreläsningen) 8

Tidigare arbeten om chunking Ramshaw & Marcus (1995) chunking som ett taggningsproblem hitta basnp i WSJ använder TBL BIO tagguppsättning B - första ordet i NPn I - inuti NP, O - utanför NP 93.5% recall and 93.1% precision 9

Tidigare arbeten om chunking Argamon et al (1998): NP och VP chunk som tränas på PoS sekvenser Veenstra (1999): NP, VP, PP chunks Buchholz et al. (1999) NP, VP, AP, AdjP + PP (+ gram. relationer) Brants (1999): Cascaded HMM, generera hela den interna strukturen av chunken 10

Tävling i chunking CoNLL-2000: tävling om chunking (2000) gemensam tränings- och testmängd WSJ, Träning: 211k; Test: 47k; Tagguppsättning: NP, VC, AP, AdvP, PP, ConjP, VPart, Interj, etc. PP = preposition NP = upp till huvudordet utan argument på RHS PoS betraktas som fraser: konjunktion = ConjP, interjektion = IntP, etc. 11

Shallow parsing Megyesi, 2002 9 typer of fraser: ADVP, AP, APMAX, NP, PP, NPMAX, VC, INFP, NUMP Varje typ representeras även med BIO taggar XB första ordet i fras X XI icke-initialt ord i fras X O utanför fras Varje ord annoteras med fraskategorier i en hierarkisk struktur 12

Representation Granskningen av uppsatsen skedde i november. Granskningen NPB NPMAXB av PPB NPMAXI uppsatsen NPB PPI NPMAXI skedde VCB i PPB november NPB PPI. O 13

Metod Träna klassificeraren på träningsdata genom att använda 4 typer av särdrag Ord Ord Ord-PoS PoS PoS-Fras (Tagger and Parser) Fras Fras Fras Testa varje klassificerare på samma test 14

Resultat Träning: 200k token, Test:117k token Typ Klass TBL TnT Ord (35.6k) PoS + Fras (2492) 72.8 72.2 Ord (35.6k) Fras (534) 75.1 72.8 Ord - PoS (37.9k) Fras (534) 83.3 79.9 PoS (141) Fras (534) 94.8 92.0 15

Korpuslingvistik vt 2007 Utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 16

Utvärdering Ett måste i NLP kan avse funktionalitet, pålitlighet, användbarhet, effektivitet, portabilitet, etc. de flesta NLP-system gör fel det gäller att beskriva hur mycket fel och av vilken/vilka typ(er) som uppstår för framtida användning prestandan (accuracy) beräknas på en oberoende testmängd (helst slumpad och så stor som möjlig) som är skilt från träningsmängden 17

Utvärdering: Metod Alltid separera träning och test! Använd validering om du förbättrar ett system och testa enbart sist på testmängden! Använd n-fold cross validation där det är möjligt och meningsfullt! Ange även baseline, det värde som systemet bör klara av utan någon explicit kunskap! Prestanda på taggare idag: accuracy = 95% - 97% 18

Utvärdering: mått Prestanda: procent korrekt Precision: true positives / (true positives + false positives) Recall: true positives / (true positives + false negatives) F-score: 2 * (Precision * Recall) / (Precision + Recall) 19

Utvärdering: Mått, exempel Vår analys av Nora såg en bra film på TV.: Nora/N såg/n en/d bra/adv film/n på/p TV/N./F Gold standard: Nora/N såg/v en/d bra/a film/n på/p TV/N./F Accuracy = 6/8 = 0.75 N: Precision = 3/4 = 0.75, Recall = 3/3 = 1.0 D: Precision = 1/1 = 1.0, Recall = 1/1 = 1.0 Adv: Precision = 0/1 = 0, Recall = 0/0 = P: Precision = 1/1 = 1.0, Recall = 1/1 = 1.0 F: Precision = 1/1 = 1.0, Recall = 1/1 = 1.0 A: Precision = 0/0 =, Recall = 0/1 = 0 20

Påverkande faktorer datamängd (ju mer data desto bättre) tagguppsättning (ju större taggset desto mer potentiell ambiguitet, desto svårare taggningsprocess) källan till tränings- och testdata okända ord (ju fler okända ord desto lägre performans) 21

Resultat för olika taggare för svenska Table 1: The tagging accuracy for all the words, and the accuracy of known and unknown words for each PoS tagger. Training and test set are disjoint, consisting of 100k tokens, respectively. Tagset includes 139 tags. ACCURACY MB ME TBL TNT Total (%) 89.28 91.20 89.06 93.55 Known (%) 92.85 93.34 94.35 95.50 Unknown (%) 68.65 78.85 58.52 82.29 22

De vanligaste felen Korrekt adjektiv (AQPNSNIS) partikel (QS) substantiv plural (NCNPNIS) adjektiv singular (A...S...) adverb (RG0S) Fel tagg adverb (RGPS) preposition (SPS) substantiv singular (NCNSNIS) adjektiv plural (A...P...) QS (partikel) 23

Utvärdering: Mått, parsning Labeled Precision och Labeled recall Jag såg en flicka med en kikare. Vår analys: S (NP(Pro) VP(V NP(Det N) PP(P NP(Det N)))) Korrekt analys (i gold standard): S (NP(Pro) VP(V NP(NP(Det N) PP(P NP(Det N))))) 24

Utvärdering: Mått, parsning Labeled Precision och Recall av konstituenter Precision: true positives / true positives + false positives Recall: true positives / true positives + false negatives F-score: 2 * (Precision * Recall) / (Precision + Recall) Precision = 6/6 = 1.0 Recall = 6/7 = 0.86 F-score = (2*1*0.86)/(1+0.86) = 0.92 25

Korpuslingvistik vt 2007 Sammanfattning Beata B. Megyesi bea@stp.lingfil.uu.se 26

Korpuslingvistik är mycket viktig inom såväl språkforskning som språkteknologi Språkforskning Korpusar är viktiga för empiriska studier av språk för objektiva slutsatser korpusbaserad lexikografi: konkordanser, korpusannotering, sökning, frekvensberäkningar, betydelsedisambiguering m.h.a. n-gram statistik talforskning: talkorpusar: parametrar (ålder, klass, genus, uppväxt), prosodi, intonation, genre (nyheter, sagor, intervjuer, fest) 27

korpusbaserad grammatik: empiriska data för att testa hypoteser som kommer från en grammatisk teori, t.ex. Cambridge Grammar of English Language (CGEL) semantik: bestämma betydelser av lingvistiska termer m.h.a. korpuskontext pragmatik och diskurs: studier om diskurs med autentiska data, London-Lund corpus: konversationskorpus historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker 28

Sammanfattning - Varför är korpusar viktiga i lingvistik? kvalitativa studier: stor variation av autentiska språkliga exempel, inga subjektiva (artificiella) data kvantitativa studier: objektiva slutsatser om lingvistiska teorier/hypoteser, sannolikhet istället för bestämda regler tillgänglighet: sökbara mängder med autentiska exempel annotering: lingvistisk information kan läggas till för att markera kategorier/mönster/fenomen, annoteringen är sökbart generalisering av lingvistiska mönster! 29

Korpusbaserad språkteknologi (empirisk NLP) Every time I fire a linguist the performance of the recognizer goes up (F. Jelinek, IBM Research Group, 80-tal) statistiska/datadrivna metoder föredras problem med regelbaserade system: språkliga konstruktioner accepteras eller inte inga preferensregler bland tvetydiga analyser 30

Problem eliminera flaskhalsar i språkteknologiskt systembyggande insamling och tolkning av språkliga data (analys) formulerande av språkliga generaliseringar disambiguering (preferens m.h.a. sannolikhet) detta vill man göra med maskininlärning 31

Fördelar med maskininlärning maskinen lär sig automatiskt inlärningsalgoritmer finns (färdigt implementerade) träningsdata är mer och mer tillgänglig datorer kan hantera stora datamängder utan större problem statistiska modeller är robusta (man får alltid ett svar) man måste inte kunna språk (?) 32

Nackdelar med maskininlärning statistiska metoder kräver stora mängder inlärningsmaterial disambiguerad träningsmaterial är dyrt att producera (delvis manuellt arbete) balansen/representativiteten kanske inte alltid prioriterad (man tager vad man haver) automatiskt inlärda modeller är svåra att förstå 33

Nackdelar med maskininlärning (forts) inlärda modeller är svåra att modifiera efter inlärningen det finns alltid en felprocent många inlärningsalgoritmer kräver goda kunskaper i matematik många som håller på med maskininlärning kan inte språk eller om språk... 34

Framtiden Hybrida system t.ex. datadriven metod i botten som kombineras med regelbaserade 35