Parsningsalgoritmer. Parsningsalgoritmer: inledning. OH-serie 1: introduktion. Parsningalgoritmer I. Algoritmer. Vad är parsning? Vad är en algoritm?

Relevanta dokument
Kontextfri grammatik (CFG)

Datorlingvistisk grammatik I

Frasstrukturgrammatik

Grammatik för språkteknologer

Frasstrukturgrammatik

Datastrukturer och algoritmer

Genomsnittligt sökdjup i binära sökträd

Analys av algoritmer. Beräkningsbar/hanterbar. Stora Ordo. O(definition) Datastrukturer och algoritmer. Varför analysera algoritmer?

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

Jag läser kursen på. Halvfart Helfart

Föreläsning 10: Kombinatorik

REGULJÄRA SPRÅK (8p + 6p) 1. DFA och reguljära uttryck (6 p) Problem. För följande NFA över alfabetet {0,1}:

Borel-Cantellis sats och stora talens lag

1. Test av anpassning.

Systemdesign fortsättningskurs

DEL I. Matematiska Institutionen KTH

Föreläsning G04: Surveymetodik

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

Föreläsning F3 Patrik Eriksson 2000

Remiss Remissvar lämnas i kolumnen Tillstyrkes term och Tillstyrkes def(inition) och eventuella synpunkter skrivs i kolumnen Synpunkter.

Kompletterande kurslitteratur om serier

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

Tentamen i Elektronik, ESS010, del 2 den 14 dec 2009 klockan 14:00 19:00.

Design mönster. n n n n n n. Command Active object Template method Strategy Facade Mediator

Ca m 3 = ton. Masshantering Sven Brodin. Dessa mängder ska Stockholms Stad transportera varje månad.

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Innehåll Grafräknaren och diskret matematik...1 Vad handlar diskret matematik om?...1 Permutationer och kombinationer...3 Något om heltalsräkning...

Visst kan man faktorisera x 4 + 1

Kontrakt baserad design. Design by contract

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

Uppgifter 3: Talföljder och induktionsbevis

Induktion och Binomialsatsen. Vi fortsätter att visa hur matematiska påståenden bevisas med induktion.

Tentamenskrivning, , kl SF1625, Envariabelanalys för CINTE1(IT) och CMIEL1(ME ) (7,5hp)

1. Hur gammalt är ditt barn?

x 1 x 2 x 3 x 4 x 5 x 6 HL Z x x x

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

Digital signalbehandling Fönsterfunktioner

101. och sista termen 1

b 1 och har för olika värden på den reella konstanten a.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Örserumsviken. Förorenade områden Årsredovisning. Ansvar för sanering av förorenade områden. Årsredovisningslagen och god redovisningssed

Identfiera orsaker och ge förslag på åtgärder och resultatmått Åtgärdstyp Ska risken åtgärdas genom att orsaken: Bakomliggande orsaker

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Digitalteknik F6. Några sammansatta digitala komponenter och lite designmetodik. Digitalteknik F6 bild 1

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Databaser - Design och programmering. Programutveckling. Programdesign, databasdesign. Kravspecifikation. ER-modellen. Begrepps-modellering

Databaser - Design och programmering. Databasdesign. Kravspecifikation. Begrepps-modellering. Design processen. ER-modellering

Bilaga 1 Formelsamling

Resultatet av kryssprodukten i exempel 2.9 ska vara följande: Det vill säga att lika med tecknet ska bytas mot ett plustecken.

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

TRIBECA Finansutveckling

Produsert for bevegelses hemmede, og er det mest fleksible og variasjonrike alternativ på markedet. Tilpasnings-mulighetene er nesten ubegrensede.

Föreskrift. om publicering av nyckeltal för elnätsverksamheten. Utfärdad i Helsingfors den 2. december 2005

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

RESTARITMETIKER. Avsnitt 4. När man adderar eller multiplicerar två tal som t ex

Webprogrammering och databaser. Begrepps-modellering. Exempel: universitetsstudier Kravspec. ER-modellen. Exempel: kravspec forts:

Cartesisk produkt. Multiplikationsprincipen Ï Ï Ï

Konsoliderad version av. Styrelsens för ackreditering och teknisk kontroll föreskrifter (STAFS 1993:18) om EEG-märkning av färdigförpackade varor

Mätbar vetskap om nuläget och tydliga målbilder om framtiden. Genomför en INDICATOR självvärdering och nulägesanalys inom tre veckor

F10 ESTIMATION (NCT )

2. Konfidensintervall för skillnaden mellan två proportioner.

1. BERÄKNING AV GRÄNSVÄRDEN ( då x 0 ) MED HJÄLP AV MACLAURINUTVECKLING. n x

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Detaljplan Ekedal södra. Behovsbedömning 1/5. Sektor samhällsbyggnad

Trigonometriska polynom

PTKs stadgar. Fastställda vid stämman

Lösningar och kommentarer till uppgifter i 1.1

Multiplikationsprincipen

Befolkning per födelseland Reviderad metod vid framskrivningar. Version: 2

TRIBECA Finansutveckling

1. Hur gammalt är ditt barn?

1. Hur gammalt är ditt barn?

Doktorandernas uppfattningar om sin forskarutbildning vid Uppsala universitet

Digital signalbehandling Alternativa sätt att se på faltning

god stiftelsepraxis

Fourierserien. fortsättning. Ortogonalitetsrelationerna och Parsevals formel. f HtL g HtL t, där T W ã 2 p, PARSEVALS FORMEL

Introduktion till statistik för statsvetare

= (1 1) + (1 1) + (1 1) +... = = 0

Föreläsning 2: Punktskattningar

a) Beräkna E (W ). (2 p)

Tentamen i Kunskapsbaserade system, 5p, Data 3

SveTys. Affärskultur i Tyskland. Vad är det? Och vad ska jag tänka på?

Tentamen i Matematisk statistik för V2 den 28 maj 2010

Markanvisningsavtal för och försäljning av fastigheten Gesällen 25

Universitetet: ER-diagram e-namn

1. Ange myndighet och kontaktperson

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

Tommy Färnqvist, IDA, Linköpings universitet

4. Uppgifter från gamla tentor (inte ett officiellt urval) 6

Leica Lino. Noggranna, självavvägande punkt- och linjelasers

DELRAPPORT LÖNEKARTLÄGGNING

Handbok i materialstyrning - Del F Prognostisering

Efter tentamen För kurser med fler än 60 examinerande meddelas resultatet SENAST 20 arbetsdagar efter examinationen annars 15 arbetsdagar.

7 Sjunde lektionen. 7.1 Digitala filter

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Transkript:

Parsigsalgoritmer OH-serie 1: itroduktio http://stp.ligfil.uu.se/~matsd/uv/uv12/pa/ Mats Dahllöf Istitutioe för ligvistik och filologi April 2012 Parsigsalgoritmer: iledig Vad är parsig? Vad är e algoritm? Allmäa aspekter hos algoritmer för sytaktisk aalys: Represetatio av grammatiska utsagor operatioer som bygger dem. Modell av språket (t.ex. grammatik, statistisk modell). trategier för läsig och strukturkostruktio. Öskvärda egeskaper Tillämpigar 1 2 Algoritmer e systematisk procedur som i ett ädligt atal steg ager hur ma utför e beräkig eller löser ett givet problem (NE). De abstrakta pricipe bakom ett program. E algoritm ka implemeteras på olika sätt. De ses oftast som ermiistiska: de väljer i varje läge ett bestämt ästa steg. Iblad räkas äve icke-ermiistiska system som algoritmer (exempel på kurse: trasitiossystem). Blir ermiistiska i kombiatio med e styrade mekaism. Parsigalgoritmer I Parsig egelska or för satslösig. Tekisk bemärkelse i sveska: sytaktisk aalys i dator, både av aturligt och artificiellt språk. Parsigsalgoritm: E algoritm som givet e typ av grammatisk aalys, räkar ut e mägd aalyser (typiskt sytaxträd) av e give sträg av symboler. Ka t.ex. bygga på e formell grammatik eller e statistisk modell. 3 4

Parsigsalgoritmer II Olika urval aalyser: alla (om grammatike tillåter ambiguitet), bästa (utifrå ågo ragordig), e eda, etc. Måga parsigsalgoritmer beskrivs i icke-ermiistiska termer: de tillåter då olika vägar till olika aalyser (vid ambiguitet) eller till e och samma aalys. (Exempel: shift-reduce-algoritmera som vi skall se på lägre fram.) Recogitio är ma bara får ett ja eller ej till fråga om grammatike ka geerera sträge. Tillämpigar av parsig Måga språktekologiska tillämpigar ikluderar parsig: pråkgraskig (stavig, grammatik, stil etc.) Dokumetsökig Iformatiosextraktio Maskiöversättig Talsytes ytaktisk iformatio är ästa alltid värdefull. Fråga är om de är värd priset i tid/datorkraft och kostade för själva parser. 5 6 Parsig: två problem/förtjäster Parsigskompoeter i tillämpigar, typiska öskemål: Ma vill alltid ha e aalys: Om ma haterar autetiskt språk stöter ma på tidigare ej sedda feome. Robusthet: systemet gör ågot vettigt med allt hittar. Ma vill ite ha måga aalyser: pråk är geuit flertydigt och ofta artficiellt (och mågfaldigt) flertydigt givet e grammatik. Disambiguerig: ystemet väljer e eda aalys att gå vidare med (på ågot smart sätt). Grammatiker Formella deklarativa grammatiker: e typ av regelsystem. Valigt iom DL/T: CFG. Iblad kompletterade med särdrag. E grammatik är ett (mycket komplext) villkor på hur grammatiska strukturer får se ut. De grammatiska formalisme begräsar hur ta villkor får se ut. Idirekt tillåts/förbjuds strägar av termialsymboler (ord). CFG är kategoriskt tillåtade/förbjudade. 7 8

Iterpreterade parsigsalgoritmer Kompilerade parsigsalgoritmer grammatik sträg algoritm sytaxträd grammatik kompilator Grammatike: deklarativ och läses som de är som e resurs i e databas. sträg parser sytaxträd Algoritme är geerell för e viss typ av grammatik. Grammatike kompileras, och ses ite mer av parser. Abstrakt algoritm och grammatik sammavävs. 9 10 eparatio mella grammatik och algoritm Både iterpreterade och kompilerade parsig håller grammatik och algoritm åtskilda. Fördel: Grammatik och parsigsmjukvara ka utvecklas, avädas, köpas och säljas oberoede av varadra. Detta arbetssätt stödjer och förutsätter stadardiserig (i elighet med valda grammatikformalismer). Grammatike ka asluta till aat språkveteskapligt arbete. tatistisk parsig Parsigsalgoritmer ka äve bygga på statistiska modeller, t.ex. av e klassificerare som bedömer vilke operatio som är smartast att göra i varje givet läge (beskrivet av lämpliga särdrag). Bakomliggade resurser: icke-ermiistisk parser (trasitiossystem) data i form av parsade uttryck (trädbak) maskiilärigsalgoritmer 11 12

Klassifikatio/aalys av parsigsalgoritmer Parsigsalgoritmer ka beskrivas ur ett atal syviklar. Priciper för regeltillämpig. Djupet eller bredde först? Alterativhaterig. Läsordig (i praktike ästa alltid väster-höger). Miesutyttjade. Vi förutsätter fortsättigsvis att grammatike är e CFG. Regelapplikatio top-dow Top-dow/prediktivt/förvätasdrivet. Vi bygger träde uppifrå; vi börjar med startsymbolsode. När vi läser iputord så får de e bestämd (hypotetisk) plats i meige. Vi tillämpar regler utifrå vilke kategori vi letar efter. (Vi ser på regleras västerled.) T.ex. om vi söker efter e och har regel, så letar vi utifrå de efter e och e (vid e give plats i iput). 13 14 Top-dow. Först rote, märkt med startsymbole. Buffert: e studet såg e hud. Top-dow. Expaderar med. Buffert: e studet såg e hud. (Dea exempelparsig förutsätter att grammatike iehåller de regler och lexikoigågar vi tillämpar. De förutsätter också att vi i varje läge väljer rätt i först väda.) 15 16

Top-dow. Expaderar med. Buffert: e studet såg e hud. Top-dow. er att e är e. Buffert: studet såg e hud. e 17 18 Top-dow. er att studet är e. Buffert: såg e hud. Top-dow. Expaderar med vtr. Buffert: såg e hud. vtr e studet e studet 19 20

Top-dow. er att såg är e vtr. Buffert: e hud. Top-dow. Expaderar med. Buffert: e hud. vtr vtr e studet såg e studet såg 21 22 Top-dow. er att e är e. Top-dow. er att hud är e. Buffert: hud. Buffert:. vtr vtr e studet såg e studet såg e e hud 23 24

Top-dow. Trä termierat (med rot märkt.) Buffert:. Bufferte tom! vtr e studet såg Regelapplikatio top-dow Top-dow/prediktivt/förvätasdrivet. Vid regelapplikatio top-dow ka givetvis grammatike leverera flera möjliga regler, t.ex. om vi skall expadera e -od kaske vi har både p.. Parsige ka då välja fel och processe måste kaske gå tillbaka och expadera utifrå rätt regel. e hud 25 26 Top-dow. Exempel som tidigare, me med applikatio av fel regel. Buffert: e studet såg e hud. Top-dow. Expaderar med p. Buffert: e studet såg e hud. p 27 28

Top-dow. Vi ka varke expadera p eller matcha de mot ord i bufferte. Vi ka omöjligt bygga vidare ett sytaxträd som täcker bufferte. Buffert: e studet såg e hud. Top-dow. Vi gör seaste expasio ogjord (backtrackig). Buffert: e studet såg e hud. p 29 30 Top-dow. Vi expaderar istället med. Buffert: e studet såg e hud. eda ka vi fortsätta som i tidigare exempel. Regelapplikatio bottom-up Bottom-up, datadrivet. Vi bygger träde edifrå; vi börjar med orde. Träde är lokalt fullstädiga. Vi har e sekves av färdiga fraser. Vi applicerar regler utifrå de kostitueter vi lyckats verifiera i iputsträge. (Vi ser på regleras högerled.) T.ex. om vi fuit e och e (i direkt följd) och har regel så ka vi dra slutsatse att de bildar e. 31 32

Djup eller bredd först? Djupet-först : Bygga så mycket av trä som går ia ma går vidare i iputsträge. Djupet-först blir (så gott som) automatiskt följde av e top-dow strategi. (Ma ka ite avgöra vilke del av iput e prediktio borde avse förrä föregåede kostituet är verifierad.) Bredde-först : Bygga struktur på bredde. ( Bottom-up mer flexibelt.) Alterativhaterig Vid alterativa möjligheter, t.ex. är två regler ka tillämpas, eller två lexikoigågar fis: Determiistisk strategi: Gör ett val, och struta i alterative. Backtrackig : pröva första bästa alterativ, och gå tillbaka seare (om behövs). Parallellprocessig : Udersök alla vägar, som jämbördiga möjlligheter. Look ahead : Välj geom att kika framåt. 33 34 ystemets sätt att mias vad gjort Miimalt mie : edast träd som är uder uppbyggad hålls i miet. T.ex. vid backtrackig där avvisade delträd ite sparas. Problem: risk för dubbelarbete. Delaalyser bokförs i s.k. (välformade) delsträgstabeller eller charts (diagram). Chartparsig : alla täkbara delaalyser lagras. Problem: viss kostad för lagrig och åtkomst. Värderig av parsigssystem Korrekthet: Aalysera bör stämma med aktuell grammatisk teori. Effektivitet, m.a.p. tid och mieskrav. (Komplexitet: Hur påverkas tidsåtgåge av lägre iput?) Praktiska spekter: töd för ligvistiskt utveckligsarbete. Begriplighet. Möjlighet att utyttja befitliga aalyser, etc. Tillgåg på implemetatioer och verktyg. 35 36

Parsig av artificiella språk Parsig är också viktigt för tillämpigar som programspråk, HTML-tolkig, TEX-kompilerig. Etydiga språk, apassade för datorbearbetig. Typiskt utformade så att alterativa aalyser elimieras sabbt. Gör dem sabbparsade. Krav på att stora texter skall bearbetas o-lie. Adra typer av algoritmer aväds ä för DL/T. Mycket sabba. Behöver ej hatera ambiguitet, t.ex. 37