Tekniker för storskalig parsning

Relevanta dokument
Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning

Tekniker för storskalig parsning

Grundläggande textanalys. Joakim Nivre

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Kursplan för kurs på grundnivå

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Matematiska metoder för språkvetare, 7,5 hp

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

INSTITUTIONEN FÖR SVENSKA SPRÅKET

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SVENSKA SPRÅKET

SSA122, Svenska som andraspråk, fortsättningskurs, 30,0 högskolepoäng Swedish as a Second Language, Intermediate Course, 30.0 higher education credits

Morfologiska och syntaktiska strukturer, 7,5 hp LIN200, LIN202

Språkvetenskapliga och psykologiska perspektiv inom logopedi, 15 hp

SVEK11, Svenska: Språklig inriktning - kandidatkurs, 30 högskolepoäng Swedish Language: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle

PSYKOLOGISKA INSTITUTIONEN

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

FÖRETAGSEKONOMISKA INSTITUTIONEN

ÄSAD11, Svenska som andraspråk 1, 30 högskolepoäng Swedish as a Second Language 1, 30 credits Grundnivå / First Cycle

INSTITUTIONEN FÖR GLOBALA STUDIER

Engelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av. Fastställandedatum. Revideringsdatum

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

PSYKOLOGISKA INSTITUTIONEN

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

TYSK02, Tyska: Kandidatkurs, 30 högskolepoäng German: BA Course, 30 credits Grundnivå / First Cycle

PSYKOLOGISKA INSTITUTIONEN

FÖRETAGSEKONOMISKA INSTITUTIONEN

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

INSTITUTIONEN FÖR LITTERATUR, IDÉHISTORIA OCH RELIGION

LSP110 Spanska för lärare 1, 30 högskolepoäng

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Svenska språket GR (A), Svenska som andraspråk A2, 7,5 hp

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Kursplan för kurs på grundnivå

Engelska B Eller: Engelska 6 (Områdesbehörighet 2/A2 med ett eller flera undantag)

Spanska (1-30 hp) Programkurs 30 hp Spanish (1-30 cr) 93SP17 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Kursplan för kurs på grundnivå

Betygskriterier. CT120U, Svenska som andraspråk för gymnasielärare, 90 hp. Ingår i Lärarlyftet II.

SPRÅKTEKNOLOGIPROGRAMMET

Franska (31-55 hp) Programkurs 25 hp French (31-55) 92FR31 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap

INSTITUTIONEN FÖR SOCIALT ARBETE

Webbdesign med multimedia, 5p Kurskod Kurstillfälle Hösten 2007 Kursansvarig lärare Ulf Larsson, Rum 3047

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Datum Förkunskapskrav och andra villkor för tillträde till kursen Sh A samt Eng B

FÖRETAGSEKONOMISKA INSTITUTIONEN

Kursplan. Kursens benämning: Militärteknik, Metod och självständigt arbete. Engelsk benämning: Military-Technology, Methods and Thesis

Språkteknologi och Open Source

G1N, Grundnivå, har endast gymnasiala förkunskapskrav

KURSPLAN Matematik för gymnasielärare, hp, 30 högskolepoäng

Engelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap

ENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle

Fastställande. Allmänna uppgifter. Samhällsvetenskapliga fakulteten

PSYKOLOGISKA INSTITUTIONEN

SGEK03, Samhällsgeografi: Kandidatkurs, 30 högskolepoäng Human Geography: Bachelor Thesis, 30 credits Grundnivå / First Cycle

Kursplan för kurs på grundnivå

AVDELNINGEN FÖR HANDELSHÖGSKOLANS EKONOMPROGRAM

Svenska som främmande språk Förberedande kurs 30 högskolepoäng

Fastställande. Allmänna uppgifter. Kursens mål

BETYGSKRITERIER OCH BETYGSÄTTNING

Kursbeskrivning med litteraturlista HT-13

Termin Innehåll Lärandemål Aktivitet Examination

INSTITUTIONEN FÖR LITTERATUR, IDÉHISTORIA OCH RELIGION

Studiehandbok 1FE196 Introduktion till ekonomistyrning, 7,5

PSYKOLOGISKA INSTITUTIONEN

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

PSYKOLOGISKA INSTITUTIONEN

Elektroteknik GR (C), Examensarbete för högskoleingenjörsexamen, 15 hp

SVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle

Kriminologi GR (C), Forskningsmetodik II, 15 hp

INSTITUTIONEN FÖR JOURNALISTIK, MEDIER OCH KOMMUNIKATION

A N V I S N I N G A R. till delkurs P E R S O N L I G H E T S T E O R I. 7,5 högskolepoäng

Behörighetsgivande kurs i svenska 30 högskolepoäng

Spanska (1-27,5 hp) Programkurs 27.5 hp Spanish (1-27.5) 92SP11 Gäller från: Fastställd av. Fastställandedatum. Revideringsdatum

FÖRETAGSEKONOMISKA INSTITUTIONEN

Spanska (1-27,5 hp) Programkurs 27,5 hp Spanish (1-27,5 cr) 92SP11 Gäller från: Fastställd av. Fastställandedatum.

SOAN33, Socialt arbete med barn och unga, 15 högskolepoäng Social Work with Children and Young People, 15 credits Avancerad nivå / Second Cycle

LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet

ÄSVA11, Svenska 1, 30 högskolepoäng Swedish 1, 30 credits Grundnivå / First Cycle

Kursplanen är fastställd av Styrelsen för centrum för mellanösternstudier att gälla från och med , höstterminen 2018.

BIOR85, Biologi: Immunologi, 15 högskolepoäng Biology: Immunology, 15 credits Avancerad nivå / Second Cycle

Industriellt byggande, 7,5 hp

KURSPLAN Engelska, hp, 30 högskolepoäng

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Transkript:

Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18)

Kursöversikt Kursnamn: Tekniker för storskalig parsning Kurskod: 5LN450 Undervisning: Tider: Vecka 36 43, i huvudsak måndag och onsdag 13 15 Lokal: Turing (9-2042) Lärare: Joakim Nivre (joakim.nivre@lingfil.uu.se) Kurshemsida: http://stp.lingfil.uu.se/ nivre/5ln450/ Tekniker för storskalig parsning 2(18)

Kursplan lärandemål Kursen tar upp regelbaserade och datadrivna metoder för storskalig automatisk morfologisk och syntaktisk analys av naturliga språk. Efter avslutad kurs skall studenten för att förtjäna betyget Godkänd minst kunna: redogöra för problem som uppstår vid storskalig grammatisk analys; redogöra för och i någon mån tillämpa standardmetoder för automatisk morfologisk analys inklusive ordklasstaggning samt utvärdera dessa; redogöra för och i någon mån tillämpa standardmetoder för automatisk syntaxanalys inklusive chunkning, ytsyntaktisk parsning och fullständig parsning samt utvärdera dessa; redogöra för skillnaden mellan regelbaserade och datadrivna modeller för analys av naturligt språk, samt ge exempel på båda typerna för morfologisk och syntaktisk analys och diskutera för- och nackdelar med respektive typ; formulera och avgränsa problemställningar inom automatisk morfologisk och syntaktisk analys samt lösa problem och skriftligt och muntligt redogöra för dessa på ett vetenskapligt korrekt sätt. Tekniker för storskalig parsning 3(18)

Kursplan litteratur Två böcker: Jurafsky and Martin, Speech and Language Processing Kübler, McDonald, and Nivre, Dependency Parsing [PDF] Fyra artiklar: Nivre, On Statistical Methods in Natural Language Processing [PDF] Nivre, Two Notions of Parsing [PDF] Nivre, Two Strategies for Text Parsing [PDF] Nivre, Statistical Parsing [PDF] Ett bokkapitel: Roark and Sproat, Computational Approaches to Morphology and Syntax, Kapitel 1 [Kopia] Tekniker för storskalig parsning 4(18)

Kursens uppläggning Teoridel (bredd): Översikt av regelbaserade och datadrivna metoder för morfologisk och syntaktisk parsning Individuella uppgifter Projektdel (djup): Utveckling av en robust dependensparser for obegränsad svensk text med hjälp av datadrivna metoder Grupparbete Tekniker för storskalig parsning 5(18)

Teorikursen Föreläsningar: Grundbegrepp (F1 F3) Dependensparsning (F4 F5) Probabilistiska grammatiker och modeller (F7, F9, F11) Finita automater för morfologisk och syntaktisk analys (F13) Litteratur: Två böcker [1 PDF] Fyra artiklar [PDF] Ett bokkapitel [Kopia] Inlämningsuppgifter: Frågor som besvaras skriftligt till varje delområde Särskilda VG-uppgifter Sista inlämningsdag: 7 november Tekniker för storskalig parsning 6(18)

Projektdelen Laborationer: Grundläggande optimeringsmetodik och preparering av data Grundläggande särdrag Särdragsinteraktion Utvärdering av korrekthet och effektivitet Resurser: MaltParser (http://maltparser.org) Swedish Treebank Diverse hjälpprogram för utvärdering och datapreparering Redovisning: Muntlig redovisning i vecka 42 43 (R14 R15) Skriftlig rapport (ca 5 sidor) senast 7 november Särskilda VG-uppgifter Tekniker för storskalig parsning 7(18)

Examination Kursen examineras genom skriftliga inlämningsuppgifter på kurslitteraturen, ett projektarbete som redovisas muntligt och skriftligt. I båda fallen finns obligatoriska uppgifter för betyget godkänt (G), frivilliga uppgifter varav minst två tredjedelar måste fullgöras för betyget väl godkänt (VG). Sista inlämningsdag för alla uppgifter är 7 november. Tekniker för storskalig parsning 8(18)

Kursvärderingar Kursen har getts en gång tidigare (HT 2009). Överlag positiv utvärdering: Helhetsintryck: 4,6 Övriga aspekter: 4,2 4,8 Specifika synpunkter: För många inlämningsuppgifter? Differentiering av projektuppgiften Tekniker för storskalig parsning 9(18)

Storskalig parsning en introduktion Tekniker för storskalig parsning 10(18)

Vad menar vi med storskalig parsning? Parsning: Indata: Text (eller tal) Utdata: Strukturell analys Flera nivåer: Morfologi (lemmatisering, ordklasstaggning) Syntax (frasstruktur, dependensstruktur) Olika typer av storskalighet: Täcka en stor del av språket obegränsad text Analysera stora mängder text Tekniker för storskalig parsning 11(18)

Vad är problemet? Antag att vi har ett småskaligt system: En kontextfri grammatik med ett tjugotal regler En effektiv parsningsalgoritm, t.ex. CKY eller Earley Fungerar utmärkt för ett fragment av språket Varför kan vi inte bara lägga till fler regler? Svårt att täcka hela språket problem med robusthet Fler regler ökar flertydigheten problem med disambiguering Fler regler ökar komplexiteten problem med effektivitet Tekniker för storskalig parsning 12(18)

Begrepp och notation Formell grammatik: G = grammatiken L(G) = det (sträng)språk som definieras av G Parse(G, x) = parseträd för x enligt G Observera: Parse(G, x) = om x / L(G) Naturligt språk: L = det naturliga språket (t.ex. svenska) Parse(L, x) = parseträd för x i L Diskutera: Hur känner vi Parse(L, x)? Grammatiken approximerar det naturliga språket: L(G) L Parse(G, x) Parse(L, x) Diskutera: Hur bra kan approximationen bli? Hur vet vi det? Tekniker för storskalig parsning 13(18)

Robusthet Vad händer när x L(G)? x L bristande täckning x L robusthet i snäv mening Svår gränsdragning: Hon har inte sett honom. Hon har inte sett han. Hon inte har sett honom. Hon inte sett honom. Hon har inte sett honnom. Hon har inte setthonom. Diskutera: Hur vill vi att en parser ska hantera dessa fall? Tekniker för storskalig parsning 14(18)

Disambiguering Vad händer när Parse(G, x) > 1? Parse(L, x) > 1 genuin ambiguitet Parse(L, x) < Parse(G, x) övergenerering Observationer: Övergenerering ökar drastiskt med grammatikens storlek Praktiska tillämpningar kräver normalt disambiguering Genuin ambiguitet är sällsynt i kontext Diskutera: Hur vill vi att en parser ska hantera dessa fall? Tekniker för storskalig parsning 15(18)

Effektivitet Parsningstid bestäms av tre faktorer: Parsningsalgoritmens komplexitet, t.ex. O(n3 G ) Meningens längd = n Grammatikens storlek = G Observationer: Parsningstiden ökar linjärt med grammatikens storlek Parsningstiden enligt ovan inkluderar inte disambiguering Diskutera: Hur lång tid får det ta att parsa en mening? Tekniker för storskalig parsning 16(18)

Så vad kan vi göra? Robusthet: Öka täckningsgraden om möjligt Lätta på kraven (soft constraints) Disambiguering: Eliminera omöjliga (eller osannolika) analyser Rangordna kvarvarande analyser (ofta statistiskt) Effektivitet: Reducera komplexiteten om möjligt Använda approximeringsalgoritmer Tekniker för storskalig parsning 17(18)

Och vad tar vi upp på kursen? Grundbegrepp: Representationer, arkitekturer och utvärdering (F2) Modeller, algoritmer och tekniker (F3) Dependensparsning fördjupning i projekt Transitionsbaserad parsning (F4) Grafbaserad parsning (F5) Probabilistiska grammatiker och modeller Probabilistiska kontextfria grammatiker (F7) Generativa modeller (F9) Diskriminativa modeller (F11) Finita automater för morfologisk och syntaktisk analys (F13) Tekniker för storskalig parsning 18(18)