Tekniker för storskalig parsning: Grundbegrepp

Relevanta dokument
Tekniker för storskalig parsning

Tekniker för storskalig parsning

Tekniker för storskalig parsning

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Partiell parsning Parsning som sökning

Matematik för språkteknologer

729G09 Språkvetenskaplig databehandling

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Datorlingvistisk grammatik

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Frasstrukturgrammatik

Språkteknologi och Open Source

Korpuslingvistik vt 2007

Föreläsning 8: Intro till Komplexitetsteori

Kontextfria grammatiker

Grundläggande textanalys. Joakim Nivre

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Grundläggande datalogi - Övning 9

PROV I MATEMATIK Automatateori och formella språk DV1 4p

Parsningens olika nivåer

Föreläsning 7+8: NP-problem. Begreppet effektiv algoritm är alltså synonymt med går i polynomisk tid i den här kursen. Är detta en rimlig uppdelning?

Språkets struktur och funktion, 7,5 hp

FL 6: Definite Clause Grammars (kap. 7)

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Övningsmästarprov 2 + några NP-reduktioner. Algoritmer, datastrukturer och komplexitet

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Objektorienterad modellering och diskreta strukturer. 13. Problem. Sven Gestegård Robertz. Datavetenskap, LTH

Kontextfri grammatik (CFG)

Föreläsning 12+13: Approximationsalgoritmer

Föreläsning 8+9: NP-problem. Begreppet effektiv algoritm är alltså synonymt med går i polynomisk tid i den här kursen. Är detta en rimlig uppdelning?

Tentamen Del A. Marco Kuhlmann

Introduktion till formella metoder Programmeringsmetodik 1. Inledning

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Filosofisk logik Kapitel 19. Robin Stenwall Lunds universitet

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB

Neurolingvistik - Grammatik

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT Lars Larsson Algoritmer 1

Algoritmer, datastrukturer och komplexitet

Programkonstruktion och Datastrukturer

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.

Parsningens olika nivåer

Algoritmer, datastrukturer och komplexitet

Grundläggande textanalys, VT2012

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Språk. Språkets natur. Kreativt

Datorlingvistisk grammatik

Programmering II (ID1019) :00-11:00

Lingvistiska grundbegrepp

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

PCP-satsen på kombinatoriskt manér

Algoritmer, datastrukturer och komplexitet

Relationer och funktioner

Avslutning. Vad? Hur? Anmärkningar inför tentan 2. Vad ska kunnas?

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Introduktion till programmering SMD180. Föreläsning 9: Tupler

Algoritmer, datastrukturer och komplexitet

7, Diskreta strukturer

Föreläsning 5 Innehåll

1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -

Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Programmering som språk

Huvudansatser för parsningsmetoder

Parade och oparade test

Algoritmer och effektivitet. Föreläsning 5 Innehåll. Analys av algoritmer. Analys av algoritmer Tidskomplexitet. Algoritmer och effektivitet

Föreläsning 9: NP-fullständighet

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Matematik för språkteknologer

Föreläsning 7: Syntaxanalys

Grammatik i Samtal I. Mathias Broth Lingvistik (729G08) ht -12

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

A B C D E F A B C D E F (3) Svar: Tabellen ger grafen:

Föreläsning 5 Innehåll. Val av algoritm och datastruktur. Analys av algoritmer. Tidsåtgång och problemets storlek

Inlämningsuppgift MiniPlotter

FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

Parsning. TDP007 Konstruktion av datorspråk Föreläsning 6. Peter Dalenius Institutionen för datavetenskap

Speciell användning av heltalsvariabler. Heltalsprogrammering. Antingen-eller-villkor: Exempel. Speciell användning av heltalsvariabler

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm

7, Diskreta strukturer

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 1. Introduktion. Vad är en algoritm?

Parsning I. Disposition. Parsning användingsområden. Vad menas med parsning inom språkteknologin? Top-down parsning. Parsning som sökning

Algoritmer, datastrukturer och komplexitet

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

DONALD DAVIDSON: MENINGSTEORI

Algoritmer, datastrukturer och komplexitet

Automater. Matematik för språkteknologer. Mattias Nilsson

Transkript:

Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Parsning Parsning Parsing (eng) Pars orationis (lat) Allmän betydelse: ta ut satsdelar Specialiserad betydelse inom datavetenskap/språkteknologi Mappningsproblem (jfr igenkänning): Indata: Språkligt uttryck (ord, sats, mening,... ) Utdata: Strukturell representation (sekvens, träd, graf,... ) Många olika typer av representationer: Linjära: morfem, ordklasstaggar, syntaktiska funktioner,... Hierarkiska: frasstrukturträd, dependensträd,... Tekniker för storskalig parsning: Grundbegrepp 2(17)

Två parsningsbegrepp Grammatikparsning: Exempel: CKY är en parsningsalgoritm för kontextfria grammatiker. Givet en grammatik G och en sträng x L(G), härled någon eller alla analyser för x enligt G Textparsning: Exempel: Projektet går ut på att utveckla en parser för svensk text. Givet en text T = x1,..., x n på språket L, härled den korrekta analysen för varje mening x i T Tekniker för storskalig parsning: Grundbegrepp 3(17)

En grammatik och två träd S NP VP PU VP VP PP VP VBD NP NP NP PP NP JJ NN NP JJ NNS PP IN NP PU. JJ Economic JJ little JJ financial NN news NN news NN effect NNS markets VBD had IN on S VP NP PP NP NP NP PU JJ NN VBD JJ NN IN JJ NNS Economic news had little effect on financial markets S VP VP PP NP NP NP PU JJ NN VBD JJ NN IN JJ NNS Economic news had little effect on financial markets.. Tekniker för storskalig parsning: Grundbegrepp 4(17)

Grammatikparsning Formellt väldefinierat (abstrakt) problem: Relation från indata till utdata definieras av formell grammatik Parsningsalgoritm beräknar denna relation Korrekthet bevisas utan att betrakta någon specifik indata: Sundhet: Endast korrekta analyser härleds (inga andra träd) Fullständighet: Alla korrekta analyser härleds (båda träden) Parsning implicerar igenkänning: Parse(G, x) är definierad endast om x L(G) Effektivitet karakteriseras med asymptotisk komplexitet: Tidskomplexiteten för CKY är O(n3 G ) Tekniker för storskalig parsning: Grundbegrepp 5(17)

Textparsning Problemet är inte formellt väldefinierat: Relation från indata till utdata saknar exakt definition Relationen kan studeras genom statistiska stickprov (korpusar) Korrekthet visas genom statistisk inferens: Stickprov av tolkade meningar = referenskorpus Korrekthet = överensstämmelse med referenskorpusen (träd 1) Parsning implicerar inte igenkänning: Ingen skarp gräns för det språk som accepteras Faktiskt förekommande meningar antas ingå i språket Parsningsrelationen är kontextberoende: En och samma mening kan tolkas olika i olika texter Tekniker för storskalig parsning: Grundbegrepp 6(17)

Strategier för textparsning Grammatikdriven textparsning: Textparsning genom grammatikparsning Datadriven textparsning: Textparsning genom statistisk inferens OBS: De två strategierna går att förena Tekniker för storskalig parsning: Grundbegrepp 7(17)

Grammatikdriven textparsning Metod: Utveckla grammatik G så att L(G) L Använd grammatikparsningsalgoritm för textparsning: Parse(x) = Parse(G, x) Potentiella problem: Robusthet Disambiguering Korrekthet Effektivitet Tekniker för storskalig parsning: Grundbegrepp 8(17)

Robusthet Vad händer när x L(G)? Två fall: x L bristande täckning x L robusthet i snäv mening Svår gränsdragning: Jag har inte sett honom Jag har inte sett han Jag har sett inte han Jag inte sett han Tekniker: Övergenererande grammatiker (constraint relaxation) Partiell parsning Tekniker för storskalig parsning: Grundbegrepp 9(17)

Disambiguering Vad händer när Parse(G, x) > 1? Två fall: Genuin ambiguitet (x har flera möjliga strukturer i L) G övergenererar Svår gränsdragning (jfr frasstrukturträd) Tekniker: Undergenererande grammatiker (för specifika domäner) Heuristiska regler för disambiguering Statistisk modell för disambiguering Tekniker för storskalig parsning: Grundbegrepp 10(17)

Korrekthet och effektivitet Korrekthet: Hur ofta får vi den korrekta analysen i slutänden? Grammatik garanterar lingvistiskt rimlig analys? Beroende av robusthet och disambiguering Effektivitet: Beroende på typ av grammatik Påverkas av tekniker för robusthet och disambiguering Tekniker för storskalig parsning: Grundbegrepp 11(17)

Datadriven textparsning Metod: Korpus av text T = x1,..., x n från L Formell modell M definierar möjliga analyser för x L Statistisk inferens över T rangordnar analyser för x L Princip: Inferens från (ändligt) stickprov T till (oändlig) population L Approximering: Inf [T ] L Potentiella problem: Robusthet Disambiguering Korrekthet Effektivitet Tekniker för storskalig parsning: Grundbegrepp 12(17)

Robusthet och disambiguering Datadrivna modeller är inte med nödvändighet mer robusta Statistisk inferens möjliggör radikal övergenerering: L(Inf [T ]) = Σ Disambigueringsproblemet ofta värre för datadrivna modeller Statistisk inferens med rangordning ger principiell metod: Jag har inte sett honom > Jag har inte sett han > Jag har sett inte han > Jag inte sett han Tekniker för storskalig parsning: Grundbegrepp 13(17)

Korrekthet och effektivitet Korrekthet: Hur ofta får vi den korrekta analysen i slutänden? Statistisk inferens garanterar sannolik analys? Avsaknad av grammatik tillåter orimlig analys? Effektivitet: Beroende på typ av representation och statistisk inferens Påverkas av tekniker för robusthet och disambiguering Tekniker för storskalig parsning: Grundbegrepp 14(17)

Utvärderingskriterier för textparsning Robusthet: Minst en analys per mening Disambiguering: Högst en analys per mening Korrekthet: Korrekt analys för varje mening Effektivitet: Rimlig tids- och minnesåtgång Tekniker för storskalig parsning: Grundbegrepp 15(17)

Optimeringsstrategier Kriterierna måste optimeras tillsammans Varför? Två extrema strategier: Grammatikdriven textparsning: Utgå från god korrekthet Förbättra robusthet och disambiguering Datadriven textparsning: Utgå från god robusthet och disambiguering Förbättra korrekthet I båda fallen: Bemästra effektivitet Tekniker för storskalig parsning: Grundbegrepp 16(17)

Textparsning Parsning: Indatarymd: X Utdatarymd: Y Mappning: X Y Parsningsmodell: Generativ komponent: GEN(x) = {y 1,..., y k } [x X, y i Y] Kan (men måste inte) vara en grammatik Evaluerande komponent: EVAL(y) R [y GEN(x)] Kan (men måste inte) bygga på statistisk inferens Tekniker för storskalig parsning: Grundbegrepp 17(17)