Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(20)
Parsning Parsning Parsing (eng) Pars orationis (lat) Allmän betydelse: ta ut satsdelar Specialiserad betydelse inom datavetenskap/språkteknologi Mappningsproblem (jfr igenkänning): Indata: Språkligt uttryck (ord, sats, mening,... ) Utdata: Strukturell representation (sekvens, träd, graf,... ) Många olika typer av representationer: Linjära: morfem, ordklasstaggar, syntaktiska funktioner,... Hierarkiska: frasstrukturträd, dependensträd,... Tekniker för storskalig parsning 2(20)
De rödgröna knappar in Uppdaterat i dag. 09:42. Publicerat i dag. 09:11 De borgerliga partiernas ledning över de rödgröna minskar i DN/Synovates nya opinionsmätning. Vänsterpartiet ökar och närmar sig nu Miljöpartiet. De fyra borgerliga partierna får tillsammans 47,6 procent mot 45,8 för de tre oppositionspartierna. Det är ett övertag på endast 1,8 procentenheter, jämfört med 3,7 förra veckan. Läget är fortsatt jämnt mellan blocken, som det varit i samtliga mätningar efter sommaren, Men den borgerliga alliansen har varit i ledningen i fem mätningar i rad, så det är ändå ett systematiskt övertag, säger Synovates opinionsanalytiker Nicklas Källebring.... (DN.se, 2010-09-03) Tekniker för storskalig parsning 3(20)
Segmentering Dela upp texten i ord och meningar Ganska enkelt för svenska (och liknande språk): Ordgräns = mellanrum eller skiljetecken Meningsgräns = stort skiljetecken följt av stor bokstav Dock inte helt oproblematiskt: Rubriker utan skiljetecken: De rödgröna knappar in Skiljetecken i andra funktioner: 09:42, 47,6 Korrekturfel:... efter sommaren, Men... Ett eller två ord: DN/Synnovates Icke-trivialt problem för många skriftsystem (t.ex. kinesiska) Tekniker för storskalig parsning 4(20)
Morfologisk analys Identifiera ordens grundform och morfosyntaktiska särdrag De den PN UTR/NEU PLU DEF SUB DT UTR/NEU PLU DEF rödgröna rödgrön JJ POS UTR/NEU SIN DEF NOM JJ POS UTR/NEU PLU DEF NOM knappar knappa VB PRS AKT knapp NN UTR PLU IND NOM in in AB PL Kan delas upp i olika delproblem: Lemmatisering identifiera (möjliga) grundform(er) Morfologisk analys identifiera (möjliga) särdrag Disambiguering (kräver kontext) Tekniker för storskalig parsning 5(20)
Ordklasstaggning Identifiera ordens ordklass (och särdrag) i kontext De DT UTR/NEU PLU DEF rödgröna JJ POS UTR/NEU PLU DEF NOM knappar VB PRS AKT in PL Förenklad form av morfologisk analys: Ingen uttömmande (kontextoberoende) morfologisk analys Ingen lemmatisering Tekniker för storskalig parsning 6(20)
Namnigenkänning Identifiera (och kategorisera) namnuttryck i texten De borgerliga partiernas ledning över de rödgröna minskar i [DN]org/[Synovates]org nya opinionsmätning. [Vänsterpartiet]org ökar och närmar sig nu [Miljöpartiet]org. De fyra borgerliga partierna får tillsammans 47,6 procent mot 45,8 för de tre oppositionspartierna. Det är ett övertag på endast 1,8 procentenheter, jämfört med 3,7 förra veckan. Läget är fortsatt jämnt mellan blocken, som det varit i samtliga mätningar efter sommaren, Men den borgerliga alliansen har varit i ledningen i fem mätningar i rad, så det är ändå ett systematiskt övertag, säger [Synovates]org opinionsanalytiker [Nicklas Källebring]per. Tekniker för storskalig parsning 7(20)
Syntaktisk analys Analysera meningars syntaktiska struktur Två traditioner: Konstituentanalys dela upp meningen i mindre delar Dependensanalys identifiera relationer mellan ord Två varianter: Full parsning globalt uttömmande analys Partiell parsning underspecificerad analys Konstituens Dependens Full Frasstrukturparsning Dependensparsning Partiell Chunkning Funktionstaggning Tekniker för storskalig parsning 8(20)
Frasstrukturparsning Rekursiv uppdelning av meningar i fraser ända ner till ord S NP VP NP DT RG JJ NN VB AB RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 9(20)
Chunkning Segmentering av meningar i basfraser (ej rekursiva) [ DT RG JJ NN] NP [ VB] VB [ AB] AB [ RG NN De fyra borgerliga partierna får tillsammans 47,6 procent ] NP Tekniker för storskalig parsning 10(20)
Chunkning Segmentering av meningar i basfraser (ej rekursiva) S NP VP NP [ DT RG JJ NN] NP [ VB] VB [ AB] AB [ RG NN De fyra borgerliga partierna får tillsammans 47,6 procent ] NP Tekniker för storskalig parsning 10(20)
Dependensparsning Identifiering av funktionella relationer mellan ord i meningar DT DET DET OBJ ATT SBJ ADV RG JJ NN VB AB DET RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 11(20)
Funktionstaggning Identifiering av funktioner hos ord i meningar DET> DET> ATT> SBJ> MAIN <ADV DT> <OBJ DT RG JJ NN VB AB RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 12(20)
Funktionstaggning Identifiering av funktioner hos ord i meningar DET DET OBJ ATT SBJ ADV DET DET> DET> ATT> SBJ> MAIN <ADV DT> <OBJ DT RG JJ NN VB AB RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 12(20)
Semantisk analys På ordnivå: Disambiguering av ordbetydelser Exempel: [partiernas] ledning elkabel eller chefskap? På meningsnivå: Semantisk rollanalys predikat och argument Kompositionell semantik logiska operatorer Tekniker för storskalig parsning 13(20)
Semantisk rollanalys Proposition = Predikat + Argument Ej uttömmande segmentering eller hierarki Arg1 ArgM [De borgerliga partiernas ledning över de rödgröna] [minskar] [i DN/Synovates nya opinionsmätning]. [Vänsterpartiet] [ökar] och [närmar] [sig] [nu] [Miljöpartiet]. Arg1 ArgR Arg1 ArgM Arg2 Tekniker för storskalig parsning 14(20)
Hur kombinerar vi olika sorters analys? Vilka delar behövs? Vissa tillämpningar kräver inte fullständig analys Redundans mellan olika sorters analys Hur ser den optimala kombinationen ut? Är morfologisk analys en förutsättning för syntaktisk analys? Blir syntaktisk parsning lättare med namnigenkänning? Aktivt forskningsfält Tekniker för storskalig parsning 15(20)
Arkitekturer Klassisk pipeline varje steg avslutas innan nästa påbörjas Effektivt, enkelt att implementera Risk för felpropagering Holistisk integrering alla nivåer analyseras tillsammans Lättare att modellera beroenden mellan olika nivåer Svårt att implementera effektivt N-best pipeline varje steg levererar sina n bästa hypoteser Bättre avvägning mellan effektivitet och felpropagering? Tekniker för storskalig parsning 16(20)
Hur vet vi om det fungerar? Intrinsikal utvärdering Tillämpa systemet på representativ indata Jämför utdata med facit (gold standard) Diskutera: Hur hittar vi facit? Extrinsikal utvärdering Integrera systemet i en tillämpning Utvärdera tillämpningen före och efter (indirekt utvärdering) Intrinsikal och extrinsikal utvärdering kompletterar varandra Tekniker för storskalig parsning 17(20)
Täckning och precision Vanliga mått: Precision (P) = Antal korrekt analyserade fall Antal analyserade fall Täckning (R) = Antal korrekt analyserade fall Antal fall i facit Observera: P och R sammanfaller om antalet fall är givet (t.ex. taggning) P och R kan kombineras till F 1 (harmoniskt medelvärde): F 1 = 2 P R P + R Tekniker för storskalig parsning 18(20)
Exempel: Namnigenkänning Systemutdata: [DN/Synovates]org, [Miljöpartiet]org, [Synovates]org, [Nicklas]per Resultat: P = 0.5 R = 0.4 F1 = 0.44 De borgerliga partiernas ledning över de rödgröna minskar i [DN]org/[Synovates]org nya opinionsmätning. [Vänsterpartiet]org ökar och närmar sig nu [Miljöpartiet]org. De fyra borgerliga partierna får tillsammans 47,6 procent mot 45,8 för de tre oppositionspartierna. Det är ett övertag på endast 1,8 procentenheter, jämfört med 3,7 förra veckan. Läget är fortsatt jämnt mellan blocken, som det varit i samtliga mätningar efter sommaren, Men den borgerliga alliansen har varit i ledningen i fem mätningar i rad, så det är ändå ett systematiskt övertag, säger [Synovates]org opinionsanalytiker [Nicklas Källebring]per. Tekniker för storskalig parsning 19(20)
Korrekthet är inte allt Täckning och precision mäter korrekthet (accuracy) Andra viktiga utvärderingsaspekter: Robusthet hur ofta misslyckas parsningen? Disambiguering hur ofta får vi inte en entydig analys? Effektivitet hur mycket tid och minne går det åt? Diskutera: Är dessa aspekter oberoende av varandra? Tekniker för storskalig parsning 20(20)