Tekniker för storskalig parsning

Relevanta dokument
Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning

Grundläggande textanalys. Joakim Nivre

Tekniker för storskalig parsning

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Partiell parsning Parsning som sökning

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Parsningens olika nivåer

Grammatik för språkteknologer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Parsningens olika nivåer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Grammatik för språkteknologer

Tentamen Marco Kuhlmann

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Korpuslingvistik vt 2007

Tentamen Del A. Marco Kuhlmann

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Lingvistiska grundbegrepp

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Datorlingvistisk grammatik

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Ord och morfologi. Morfologi

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Datorlingvistisk grammatik

Linköpings universitet. Kognitionsvetenskap. Instutitionen för datavetenskap. Kandidatuppsats 15 ECTS. CogFLUX

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Neurolingvistik - Grammatik

Matematik för språkteknologer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Korpuslingvistik vt 2007

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Djupstruktur och ytstruktur

Introduktion till språkteknologi. Datorstöd för språkgranskning

Grammatik för språkteknologer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret Lektion 4

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Meningssegmentering i SUC och Talbanken

Frasstrukturgrammatik


Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Lingvistiskt uppmärkt text

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi.

Obesvarade frågor från F1

Kungliga Tekniska Högskolan Patrik Dallmann

Språkteknologi och Open Source

Datorlingvistisk grammatik

Linköpings universitet

Semantik och pragmatik

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Instruktioner - Datortentamen TDDE24 och TDDD73 Funktionell och imperativ programmering (i Python)

Språkgranskningsverktyg. Grammatikkontroll i Word

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Grammatisk teori III Praktisk analys

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Skåningarna om E6 och riksdagsvalet

Grundläggande logik och modellteori

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Föreläsning 6 HT-2013

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

FÖRELÄSNING 2, TDDC74, VT2018 BEGREPP PROBLEMLÖSNING MED HJÄLP AV FALLANALYS PROBLEMLÖSNING MED HJÄLP AV REKURSION

Lingvistiskt uppmärkt text

A. MENING OCH SANNINGSVÄRDE HOS IDENTITETSPÅSTÅENDE. antag att namn A står för objekt a och namn B står för objekt b antag att a och b är distinkta

Ansvarig lärare: Jörgen Larsson Mariann Bourghardt Telefonnummer:

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

VÄLJARBAROMETER FRÅN UNITED MINDS: Väljarna om Sverige och regeringsalternativen

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Institutionen för lingvistik och filologi HT 2007

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer

Grundläggande datalogi - Övning 9

DN/Ipsos väljarbarometer februari 2015 Stockholm, 24 februari Kontakt:

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Varför tror vi att Värmland lutar åt vänster? Knappast på grund av de stora författarna

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Bootstrapping för substantivtaggning

Grammatik för språkteknologer

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Problemlösning och funktioner Grundkurs i programmering med Python

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Föreläsning 9: NP-fullständighet

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

MÖSG ht 2005 Maskinöversättningssystemet MATS

Transkript:

Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(20)

Parsning Parsning Parsing (eng) Pars orationis (lat) Allmän betydelse: ta ut satsdelar Specialiserad betydelse inom datavetenskap/språkteknologi Mappningsproblem (jfr igenkänning): Indata: Språkligt uttryck (ord, sats, mening,... ) Utdata: Strukturell representation (sekvens, träd, graf,... ) Många olika typer av representationer: Linjära: morfem, ordklasstaggar, syntaktiska funktioner,... Hierarkiska: frasstrukturträd, dependensträd,... Tekniker för storskalig parsning 2(20)

De rödgröna knappar in Uppdaterat i dag. 09:42. Publicerat i dag. 09:11 De borgerliga partiernas ledning över de rödgröna minskar i DN/Synovates nya opinionsmätning. Vänsterpartiet ökar och närmar sig nu Miljöpartiet. De fyra borgerliga partierna får tillsammans 47,6 procent mot 45,8 för de tre oppositionspartierna. Det är ett övertag på endast 1,8 procentenheter, jämfört med 3,7 förra veckan. Läget är fortsatt jämnt mellan blocken, som det varit i samtliga mätningar efter sommaren, Men den borgerliga alliansen har varit i ledningen i fem mätningar i rad, så det är ändå ett systematiskt övertag, säger Synovates opinionsanalytiker Nicklas Källebring.... (DN.se, 2010-09-03) Tekniker för storskalig parsning 3(20)

Segmentering Dela upp texten i ord och meningar Ganska enkelt för svenska (och liknande språk): Ordgräns = mellanrum eller skiljetecken Meningsgräns = stort skiljetecken följt av stor bokstav Dock inte helt oproblematiskt: Rubriker utan skiljetecken: De rödgröna knappar in Skiljetecken i andra funktioner: 09:42, 47,6 Korrekturfel:... efter sommaren, Men... Ett eller två ord: DN/Synnovates Icke-trivialt problem för många skriftsystem (t.ex. kinesiska) Tekniker för storskalig parsning 4(20)

Morfologisk analys Identifiera ordens grundform och morfosyntaktiska särdrag De den PN UTR/NEU PLU DEF SUB DT UTR/NEU PLU DEF rödgröna rödgrön JJ POS UTR/NEU SIN DEF NOM JJ POS UTR/NEU PLU DEF NOM knappar knappa VB PRS AKT knapp NN UTR PLU IND NOM in in AB PL Kan delas upp i olika delproblem: Lemmatisering identifiera (möjliga) grundform(er) Morfologisk analys identifiera (möjliga) särdrag Disambiguering (kräver kontext) Tekniker för storskalig parsning 5(20)

Ordklasstaggning Identifiera ordens ordklass (och särdrag) i kontext De DT UTR/NEU PLU DEF rödgröna JJ POS UTR/NEU PLU DEF NOM knappar VB PRS AKT in PL Förenklad form av morfologisk analys: Ingen uttömmande (kontextoberoende) morfologisk analys Ingen lemmatisering Tekniker för storskalig parsning 6(20)

Namnigenkänning Identifiera (och kategorisera) namnuttryck i texten De borgerliga partiernas ledning över de rödgröna minskar i [DN]org/[Synovates]org nya opinionsmätning. [Vänsterpartiet]org ökar och närmar sig nu [Miljöpartiet]org. De fyra borgerliga partierna får tillsammans 47,6 procent mot 45,8 för de tre oppositionspartierna. Det är ett övertag på endast 1,8 procentenheter, jämfört med 3,7 förra veckan. Läget är fortsatt jämnt mellan blocken, som det varit i samtliga mätningar efter sommaren, Men den borgerliga alliansen har varit i ledningen i fem mätningar i rad, så det är ändå ett systematiskt övertag, säger [Synovates]org opinionsanalytiker [Nicklas Källebring]per. Tekniker för storskalig parsning 7(20)

Syntaktisk analys Analysera meningars syntaktiska struktur Två traditioner: Konstituentanalys dela upp meningen i mindre delar Dependensanalys identifiera relationer mellan ord Två varianter: Full parsning globalt uttömmande analys Partiell parsning underspecificerad analys Konstituens Dependens Full Frasstrukturparsning Dependensparsning Partiell Chunkning Funktionstaggning Tekniker för storskalig parsning 8(20)

Frasstrukturparsning Rekursiv uppdelning av meningar i fraser ända ner till ord S NP VP NP DT RG JJ NN VB AB RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 9(20)

Chunkning Segmentering av meningar i basfraser (ej rekursiva) [ DT RG JJ NN] NP [ VB] VB [ AB] AB [ RG NN De fyra borgerliga partierna får tillsammans 47,6 procent ] NP Tekniker för storskalig parsning 10(20)

Chunkning Segmentering av meningar i basfraser (ej rekursiva) S NP VP NP [ DT RG JJ NN] NP [ VB] VB [ AB] AB [ RG NN De fyra borgerliga partierna får tillsammans 47,6 procent ] NP Tekniker för storskalig parsning 10(20)

Dependensparsning Identifiering av funktionella relationer mellan ord i meningar DT DET DET OBJ ATT SBJ ADV RG JJ NN VB AB DET RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 11(20)

Funktionstaggning Identifiering av funktioner hos ord i meningar DET> DET> ATT> SBJ> MAIN <ADV DT> <OBJ DT RG JJ NN VB AB RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 12(20)

Funktionstaggning Identifiering av funktioner hos ord i meningar DET DET OBJ ATT SBJ ADV DET DET> DET> ATT> SBJ> MAIN <ADV DT> <OBJ DT RG JJ NN VB AB RG NN De fyra borgerliga partierna får tillsammans 47,6 procent Tekniker för storskalig parsning 12(20)

Semantisk analys På ordnivå: Disambiguering av ordbetydelser Exempel: [partiernas] ledning elkabel eller chefskap? På meningsnivå: Semantisk rollanalys predikat och argument Kompositionell semantik logiska operatorer Tekniker för storskalig parsning 13(20)

Semantisk rollanalys Proposition = Predikat + Argument Ej uttömmande segmentering eller hierarki Arg1 ArgM [De borgerliga partiernas ledning över de rödgröna] [minskar] [i DN/Synovates nya opinionsmätning]. [Vänsterpartiet] [ökar] och [närmar] [sig] [nu] [Miljöpartiet]. Arg1 ArgR Arg1 ArgM Arg2 Tekniker för storskalig parsning 14(20)

Hur kombinerar vi olika sorters analys? Vilka delar behövs? Vissa tillämpningar kräver inte fullständig analys Redundans mellan olika sorters analys Hur ser den optimala kombinationen ut? Är morfologisk analys en förutsättning för syntaktisk analys? Blir syntaktisk parsning lättare med namnigenkänning? Aktivt forskningsfält Tekniker för storskalig parsning 15(20)

Arkitekturer Klassisk pipeline varje steg avslutas innan nästa påbörjas Effektivt, enkelt att implementera Risk för felpropagering Holistisk integrering alla nivåer analyseras tillsammans Lättare att modellera beroenden mellan olika nivåer Svårt att implementera effektivt N-best pipeline varje steg levererar sina n bästa hypoteser Bättre avvägning mellan effektivitet och felpropagering? Tekniker för storskalig parsning 16(20)

Hur vet vi om det fungerar? Intrinsikal utvärdering Tillämpa systemet på representativ indata Jämför utdata med facit (gold standard) Diskutera: Hur hittar vi facit? Extrinsikal utvärdering Integrera systemet i en tillämpning Utvärdera tillämpningen före och efter (indirekt utvärdering) Intrinsikal och extrinsikal utvärdering kompletterar varandra Tekniker för storskalig parsning 17(20)

Täckning och precision Vanliga mått: Precision (P) = Antal korrekt analyserade fall Antal analyserade fall Täckning (R) = Antal korrekt analyserade fall Antal fall i facit Observera: P och R sammanfaller om antalet fall är givet (t.ex. taggning) P och R kan kombineras till F 1 (harmoniskt medelvärde): F 1 = 2 P R P + R Tekniker för storskalig parsning 18(20)

Exempel: Namnigenkänning Systemutdata: [DN/Synovates]org, [Miljöpartiet]org, [Synovates]org, [Nicklas]per Resultat: P = 0.5 R = 0.4 F1 = 0.44 De borgerliga partiernas ledning över de rödgröna minskar i [DN]org/[Synovates]org nya opinionsmätning. [Vänsterpartiet]org ökar och närmar sig nu [Miljöpartiet]org. De fyra borgerliga partierna får tillsammans 47,6 procent mot 45,8 för de tre oppositionspartierna. Det är ett övertag på endast 1,8 procentenheter, jämfört med 3,7 förra veckan. Läget är fortsatt jämnt mellan blocken, som det varit i samtliga mätningar efter sommaren, Men den borgerliga alliansen har varit i ledningen i fem mätningar i rad, så det är ändå ett systematiskt övertag, säger [Synovates]org opinionsanalytiker [Nicklas Källebring]per. Tekniker för storskalig parsning 19(20)

Korrekthet är inte allt Täckning och precision mäter korrekthet (accuracy) Andra viktiga utvärderingsaspekter: Robusthet hur ofta misslyckas parsningen? Disambiguering hur ofta får vi inte en entydig analys? Effektivitet hur mycket tid och minne går det åt? Diskutera: Är dessa aspekter oberoende av varandra? Tekniker för storskalig parsning 20(20)