Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1
Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys, lemmatisering ordklasstaggning chunkning syntaktisk parsning (frasstrukturer, dependensrelationer) 2
Rådande syntaktiska teorier 1 Frasstrukturgrammatik (Chomsky 1956-) NP, VP, AP, AdvP, PP bygger på hierarkisk konstituentstruktur Bygger på kontextfri grammatik (CFG) Head-Driven Phrase Structure Grammar (Pollard and Sag, 1994) Lexical Functional Grammar (Bresnan, 1982) 3
Rådande syntaktiska teorier 2 Dependensrelationer (Tesnier, Melcuk, 1950-) DG baseras på relationen mellan satsens element, mellan orden relationen mellan det styrande elementet, sk huvudet och dess dependenter, dvs det/de ord som är avhängiga av huvudet satsens struktur är ett system av sådana huvud-dependentrelationer verbet är satsens centrum/huvud/dominerande element och de övriga elementen är direkt eller indirekt avhängiga av verbet 4
Dependensrelationer kan åskådliggöras i trädstruktur där noderna är ord, bågarna är relationer och där huvudet dominerar sina dependenter. Huvud-dependentrelationen är binär och riktad. Ordningen mellan dependenter spelar ingen roll. Ordföljd markeras ej i ett dependensträd. Dependensrelationer kan åskådliggöras direkt på orden med hjälp av pilar från det dominerande till det avhängiga elementet. Constraint Grammar 5
Chunkning och parsning Metoder regelbaserade datadrivna 6
Chunking vs. Parsning Syntaktisk parsing: rekonstruera hela konstituentstrukturen eller dependensstrukturen av satsen/yttrandet Chunking: delproblem till syntaktisk parsning hitta de syntaktiskt relaterade, ej överlappande grupper av ord, s.k. chunk NP, VC, PP, ADVP, AP (Abney, 1991) orden sägs tillhöra den chunk som bestäms av baskonstituenten i parsträdet 7
Datadriven chunkning ett första steg till parsning hitta de syntaktiskt relaterade, ej överlappande grupper av ord, s.k.chunk (Abney, 1991) Chunk: bas fraskategori Nominalfras (NP) till huvudordet (en god lunch) Verbkluster (VC) (skulle vara) Adverbfras (AdvP) (otroligt) Adjektivfras (AP) (gott) Prepositionsfras (PP) (efter föreläsningen) 8
Tidigare arbeten om chunking Ramshaw & Marcus (1995) chunking som ett taggningsproblem hitta basnp i WSJ använder TBL BIO tagguppsättning B - första ordet i NPn I - inuti NP, O - utanför NP 93.5% recall and 93.1% precision 9
Tidigare arbeten om chunking Argamon et al (1998): NP och VP chunk som tränas på PoS sekvenser Veenstra (1999): NP, VP, PP chunks Buchholz et al. (1999) NP, VP, AP, AdjP + PP (+ gram. relationer) Brants (1999): Cascaded HMM, generera hela den interna strukturen av chunken 10
Tävling i chunking CoNLL-2000: tävling om chunking (2000) gemensam tränings- och testmängd WSJ, Träning: 211k; Test: 47k; Tagguppsättning: NP, VC, AP, AdvP, PP, ConjP, VPart, Interj, etc. PP = preposition NP = upp till huvudordet utan argument på RHS PoS betraktas som fraser: konjunktion = ConjP, interjektion = IntP, etc. 11
Shallow parsing Megyesi, 2002 9 typer of fraser: ADVP, AP, APMAX, NP, PP, NPMAX, VC, INFP, NUMP Varje typ representeras även med BIO taggar XB första ordet i fras X XI icke-initialt ord i fras X O utanför fras Varje ord annoteras med fraskategorier i en hierarkisk struktur 12
Representation Granskningen av uppsatsen skedde i november. Granskningen NPB NPMAXB av PPB NPMAXI uppsatsen NPB PPI NPMAXI skedde VCB i PPB november NPB PPI. O 13
Metod Träna klassificeraren på träningsdata genom att använda 4 typer av särdrag Ord Ord Ord-PoS PoS PoS-Fras (Tagger and Parser) Fras Fras Fras Testa varje klassificerare på samma test 14
Resultat Träning: 200k token, Test:117k token Typ Klass TBL TnT Ord (35.6k) PoS + Fras (2492) 72.8 72.2 Ord (35.6k) Fras (534) 75.1 72.8 Ord - PoS (37.9k) Fras (534) 83.3 79.9 PoS (141) Fras (534) 94.8 92.0 15
Korpuslingvistik vt 2007 Utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 16
Utvärdering Ett måste i NLP kan avse funktionalitet, pålitlighet, användbarhet, effektivitet, portabilitet, etc. de flesta NLP-system gör fel det gäller att beskriva hur mycket fel och av vilken/vilka typ(er) som uppstår för framtida användning prestandan (accuracy) beräknas på en oberoende testmängd (helst slumpad och så stor som möjlig) som är skilt från träningsmängden 17
Utvärdering: Metod Alltid separera träning och test! Använd validering om du förbättrar ett system och testa enbart sist på testmängden! Använd n-fold cross validation där det är möjligt och meningsfullt! Ange även baseline, det värde som systemet bör klara av utan någon explicit kunskap! Prestanda på taggare idag: accuracy = 95% - 97% 18
Utvärdering: mått Prestanda: procent korrekt Precision: true positives / (true positives + false positives) Recall: true positives / (true positives + false negatives) F-score: 2 * (Precision * Recall) / (Precision + Recall) 19
Utvärdering: Mått, exempel Vår analys av Nora såg en bra film på TV.: Nora/N såg/n en/d bra/adv film/n på/p TV/N./F Gold standard: Nora/N såg/v en/d bra/a film/n på/p TV/N./F Accuracy = 6/8 = 0.75 N: Precision = 3/4 = 0.75, Recall = 3/3 = 1.0 D: Precision = 1/1 = 1.0, Recall = 1/1 = 1.0 Adv: Precision = 0/1 = 0, Recall = 0/0 = P: Precision = 1/1 = 1.0, Recall = 1/1 = 1.0 F: Precision = 1/1 = 1.0, Recall = 1/1 = 1.0 A: Precision = 0/0 =, Recall = 0/1 = 0 20
Påverkande faktorer datamängd (ju mer data desto bättre) tagguppsättning (ju större taggset desto mer potentiell ambiguitet, desto svårare taggningsprocess) källan till tränings- och testdata okända ord (ju fler okända ord desto lägre performans) 21
Resultat för olika taggare för svenska Table 1: The tagging accuracy for all the words, and the accuracy of known and unknown words for each PoS tagger. Training and test set are disjoint, consisting of 100k tokens, respectively. Tagset includes 139 tags. ACCURACY MB ME TBL TNT Total (%) 89.28 91.20 89.06 93.55 Known (%) 92.85 93.34 94.35 95.50 Unknown (%) 68.65 78.85 58.52 82.29 22
De vanligaste felen Korrekt adjektiv (AQPNSNIS) partikel (QS) substantiv plural (NCNPNIS) adjektiv singular (A...S...) adverb (RG0S) Fel tagg adverb (RGPS) preposition (SPS) substantiv singular (NCNSNIS) adjektiv plural (A...P...) QS (partikel) 23
Utvärdering: Mått, parsning Labeled Precision och Labeled recall Jag såg en flicka med en kikare. Vår analys: S (NP(Pro) VP(V NP(Det N) PP(P NP(Det N)))) Korrekt analys (i gold standard): S (NP(Pro) VP(V NP(NP(Det N) PP(P NP(Det N))))) 24
Utvärdering: Mått, parsning Labeled Precision och Recall av konstituenter Precision: true positives / true positives + false positives Recall: true positives / true positives + false negatives F-score: 2 * (Precision * Recall) / (Precision + Recall) Precision = 6/6 = 1.0 Recall = 6/7 = 0.86 F-score = (2*1*0.86)/(1+0.86) = 0.92 25
Korpuslingvistik vt 2007 Sammanfattning Beata B. Megyesi bea@stp.lingfil.uu.se 26
Korpuslingvistik är mycket viktig inom såväl språkforskning som språkteknologi Språkforskning Korpusar är viktiga för empiriska studier av språk för objektiva slutsatser korpusbaserad lexikografi: konkordanser, korpusannotering, sökning, frekvensberäkningar, betydelsedisambiguering m.h.a. n-gram statistik talforskning: talkorpusar: parametrar (ålder, klass, genus, uppväxt), prosodi, intonation, genre (nyheter, sagor, intervjuer, fest) 27
korpusbaserad grammatik: empiriska data för att testa hypoteser som kommer från en grammatisk teori, t.ex. Cambridge Grammar of English Language (CGEL) semantik: bestämma betydelser av lingvistiska termer m.h.a. korpuskontext pragmatik och diskurs: studier om diskurs med autentiska data, London-Lund corpus: konversationskorpus historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker 28
Sammanfattning - Varför är korpusar viktiga i lingvistik? kvalitativa studier: stor variation av autentiska språkliga exempel, inga subjektiva (artificiella) data kvantitativa studier: objektiva slutsatser om lingvistiska teorier/hypoteser, sannolikhet istället för bestämda regler tillgänglighet: sökbara mängder med autentiska exempel annotering: lingvistisk information kan läggas till för att markera kategorier/mönster/fenomen, annoteringen är sökbart generalisering av lingvistiska mönster! 29
Korpusbaserad språkteknologi (empirisk NLP) Every time I fire a linguist the performance of the recognizer goes up (F. Jelinek, IBM Research Group, 80-tal) statistiska/datadrivna metoder föredras problem med regelbaserade system: språkliga konstruktioner accepteras eller inte inga preferensregler bland tvetydiga analyser 30
Problem eliminera flaskhalsar i språkteknologiskt systembyggande insamling och tolkning av språkliga data (analys) formulerande av språkliga generaliseringar disambiguering (preferens m.h.a. sannolikhet) detta vill man göra med maskininlärning 31
Fördelar med maskininlärning maskinen lär sig automatiskt inlärningsalgoritmer finns (färdigt implementerade) träningsdata är mer och mer tillgänglig datorer kan hantera stora datamängder utan större problem statistiska modeller är robusta (man får alltid ett svar) man måste inte kunna språk (?) 32
Nackdelar med maskininlärning statistiska metoder kräver stora mängder inlärningsmaterial disambiguerad träningsmaterial är dyrt att producera (delvis manuellt arbete) balansen/representativiteten kanske inte alltid prioriterad (man tager vad man haver) automatiskt inlärda modeller är svåra att förstå 33
Nackdelar med maskininlärning (forts) inlärda modeller är svåra att modifiera efter inlärningen det finns alltid en felprocent många inlärningsalgoritmer kräver goda kunskaper i matematik många som håller på med maskininlärning kan inte språk eller om språk... 34
Framtiden Hybrida system t.ex. datadriven metod i botten som kombineras med regelbaserade 35