Lingvistiskt uppmärkt text

Relevanta dokument
Lingvistiskt uppmärkt text

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Lingvistiska grundbegrepp

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Grammatik för språkteknologer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Grammatik för språkteknologer

Datorlingvistisk grammatik

Tekniker för storskalig parsning

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Frasstrukturgrammatik

Karp. Övningar Språkbankens höstworkshop oktober 2017

Karp. Övningar Språkbankens höstworkshop oktober 2016

729G09 Språkvetenskaplig databehandling

Fraser, huvuden och bestämningar

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Ord och morfologi. Morfologi

grammatik Ordklasser, nominalfraser, substantiv

SUBSTANTIV = namn på saker, personer, känslor

Meningssegmentering i SUC och Talbanken

Grammatik för språkteknologer

ORDKLASSERNA I SVENSKA SPRÅKET

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Grammatisk teori II Attributvärdesgrammatik

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Språk, datorer och textbehandling

PAROLE TAGSET <

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Tentamen Marco Kuhlmann

Så, ska det taggas som adverb?

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Datorbaserade verktyg i humanistisk forskning

Satslära introduktion

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Svensk minigrammatik

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Tentamen Del A. Marco Kuhlmann

Elementära verktyg för korpusbearbetning

Word- sense disambiguation

Ordklasser och satsdelar

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Grammatikprov åk 8 ORDKLASSER

Facit för diagnostiska provet i grammatik

Kungliga Tekniska Högskolan Patrik Dallmann

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Världens språk, 7,5hp vt 2012

Morfologi och syntax. Föreläsning 1 & 2

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Fyll i ditt namn, adress och telefonnummer: Namn: Adress: Tfn:

Välkommen till den första delkursen i svenska!

Svenskans struktur, 7,5 hp Tentamensexempel 1

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

LATIN I,1, DELKURS 1

ORDKLASSERNA I. Ett sätt att sortera våra ord

Datum: Date: Provkodr: KTR1 Exam code:

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Statistisk grammatikgranskning

Svenska språket. Grammatik.

Träningshäfte ordklasser (Venus)

Olika typer av satser

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Svensk grammatik Ordklasser!

729G09 Språkvetenskaplig databehandling

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Träningshäfte ordklasser facit

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

Resultatrapport. Utvärdering. Anbudslämnare. Utvärderingskriterium

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Datum: Date: Provkodr: KTR1 Exam code:

Korp. Övningar Språkbankens höstworkshop oktober 2016

7 Bordsspel. Förberedelser för ordklasspel (7A) och satsdelsspel (7B)

Inlämningsuppgift: Pronomenidentifierare

Mål idag. Mål. Läsa och öva 9/9/2013. F5: Grammatik Syntax I Ordklasser

Lexikon: ordbildning och lexikalisering

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Ord, ordbildning och ordklasser

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Ordklasser. Varför ordklasser? Morfologi. Litet test: Ange ordklasser. Klassificeringsprinciper. Litet test: Ange ordklasser

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Ordbok arabiska - svenska. Denna ordboks webbadress är:

Transkript:

729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap

Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform NOUN 3 nmod 3 införs införa VERB 0 root 4 individuell individuell ADJ 5 amod 5 beskattning beskattning NOUN 3 nsubjpass 6 ( ( PUNCT 5 punct 7 särbeskattning särbeskattning NOUN 5 appos 8 ) ) PUNCT 5 punct 9 av av ADP 10 case 10 arbetsinkomster arbetsinkomst NOUN 5 nmod 11.. PUNCT 3 punct

Vad finns i en korpus? graford lemma ordklass huvudord grammatisk funktion morfologiska egenskaper betydelse skattereformen skattereform substantiv (NN) ord nummer 3 i meningen (införs) nominalattribut (NMOD) utrum, singular, definit, nominativ skattereform..nn.1

Graford och ordtyper Rose is a rose is a rose is a rose. Gertrude Stein (1874 1946) Korpus Antal graford Antal ordtyper Shakespeare ca. 884,000 ca. 31,000 Riksmöte 2012/2013 4,645,560 96,114 Google Ngrams 1,176,470,663 13,588,391

Många olika typer av ord Begreppet ord kan syfta på ett graford eller en ordtyp. Rose is a rose is a rose is a rose. Begreppet lexem betecknar en mängd ordformer som representerar samma grundläggande betydelse. ordformer tanke, tanken, tankar, tankarna, tankarnas lexem tanke Begreppet lemma betecknar den form av ett lexem som brukar användas för att representera lexemet i t.ex. en ordbok. för substantiv: nominativ singularis (tanke), för verb: infinitiv (att tanka)

Skolans nio ordklasser tagg kategori exempel VB verb kasta NN substantiv pudding PN pronomen hon JJ adjektiv glad AB adverb inte KN konjunktion och PP preposition över RG räkneord tre IN interjektion aj

Finkornighet i beskrivningen Varje korpus måste bestämma sig för ett system med vars hjälp de lingvistiska datan ska beskrivas. 9 ordklasser eller 22? Förutom själva korpusen måste det därför finnas en definition av de kategorier som använts. ofta tillsammans med konkreta exempel

Ordklasser i SUC (1) tagg kategori exempel NN substantiv pudding VB verb kasta PP preposition över AB adverb inte JJ adjektiv glad PN pronomen hon DT determinerare denna KN konjunktion och PM egennamn Mats

Ordklasser i SUC (2) tagg kategori exempel PC particip utsänd SN subjunktion att RG räkneord (grundtal) tre HP frågande/relativt pronomen som IE infinitivmärke att PL partikel ut SUC manual: http://spraakbanken.gu.se/parole/docs/suc2.0-manual.pdf

Ordklasser i SUC (3) tagg kategori exempel PS possessivt pronomen hennes HA frågande/relativt adverb när UO utländskt ord the RO räkneord (ordningstal) tredje IN interjektion ja HD frågande/relativt determinerare vilken HS frågande/relativt possessivt pronomen vars SUC manual: http://spraakbanken.gu.se/parole/docs/suc2.0-manual.pdf

Syntaktiska dependensträd

Utvalda grammatiska funktioner tagg DT ES IP OA OO PA SS grammatisk funktion determinerare logiskt subjekt interpunktion objektsadverbial direkt objekt komplement till en preposition annat subjekt Dokumentation till Swedish Treebank: Swedish Treebank

Hur representeras korpusdata? tabulerade data Extensible Markup Language (XML) JavaScript Object Notation (JSON)

Tabulerade data (CoNLL-format) 1 Genom genom PP 2 case 2 skattereformen skattereform NN 3 nmod 3 införs införa VB 0 root 4 individuell individuell JJ 5 amod 5 beskattning beskattning NN 3 nsubjpass 6 ( ( PAD 5 punct 7 särbeskattning särbeskattning NN 5 appos 8 ) ) PAD 5 punct 9 av av PP 10 case 10 arbetsinkomster arbetsinkomst NN 5 nmod 11.. MAD 3 punct

Tabulerade data Filen struktureras i rader och kolumner. Rader skiljs åt med ett nyrad-tecken. Kolumner skiljs åt med ett separatortecken. tabulator, komma Används t.ex. i CoNLL-X, Comma-Separated Values (CSV).

Vilken information finns i vilken kolumn? ID FORM LEMMA POS HEAD DEPREL 1 Genom genom PP 2 case 2 skattereformen skattereform NN 3 nmod 3 införs införa VB 0 root 4 individuell individuell JJ 5 amod 5 beskattning beskattning NN 3 nsubjpass 6 ( ( PAD 5 punct 7 särbeskattning särbeskattning NN 5 appos 8 ) ) PAD 5 punct 9 av av PP 10 case 10 arbetsinkomster arbetsinkomst NN 5 nmod 11.. MAD 3 punct

Hur man läser av dependensträd En syntaktisk dependens går från ett huvud till en dependent. För att läsa av ett ords huvud går man till respektive rad och tittar i HEAD-kolumnen, som anger huvudordets position. Den grammatiska funktionen som ordet har gentemot huvudordet (t.ex. subjekt, objekt) anges i kolumnen DEPREL.

CoNLL-format CoNLL-formatet har använts i flera tävlingar i samband med International Conference for Natural Language Learning. Formatet representerar en lista med meningar. Slutet på en mening markeras med en blankrad.

Extensible Markup Language (XML) <sentence id="8f74-8115"> <w pos="pp" lemma=" genom " ref="01" dephead="03" deprel="aa">genom</w> <w pos="nn" lemma=" skattereform " ref="02" dephead="01" deprel="pa">skattereformen</w> <w pos="vb" lemma=" införa " dephead="" deprel="root">införs</w> <w pos="jj" lemma=" individuell " ref="04" dephead="05" deprel="at">individuell</w> <w pos="nn" lemma=" beskattning " ref="05" dephead="03" deprel="ss">beskattning</w> <w pos="pad" lemma=" " ref="06" dephead="05" deprel="ir">(</w> <w pos="nn" lemma=" särbeskattning " ref="07" dephead="05" deprel="an">särbeskattning</w> <w pos="pad" lemma=" " ref="08" dephead="05" deprel="jr">)</w> <w pos="pp" lemma=" av " ref="09" dephead="05" deprel="et">av</w> <w pos="nn" lemma=" arbetsinkomst " ref="10" dephead="09" deprel="pa">arbetsinkomster</w> <w pos="mad" lemma=" " ref="11" dephead="03" deprel="ip">.</w> </sentence>

Extensible Markup Language Information struktureras hierarkiskt med hjälp av element. Ett element består av en starttagg och en sluttagg. <w>särbeskattning</w> Varje element kan dessutom ha ett antal attribut värde-par. <w pos="nn">särbeskattning</w> har ett attribut pos med värdet NN Ett element kan innehålla såväl text som andra element.

Hur ett XML-element är uppbyggt starttagg <w>skattereformen</w> sluttagg Som specialform förekommer även tomma element, t.ex. <br/>.

Fördelar och nackdelar Tabulerade data enkelt och platseffektivt implicit representation För att ta ut en POS-tagg behöver man veta vilken kolumn den ligger i. Extensible Markup Language (XML) komplext och platskrävande explicit representation För att ta ut en POS-tagg kan man direkt efterfråga motsvarande attribut.