Lingvistiskt uppmärkt text

Relevanta dokument
Lingvistiskt uppmärkt text

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiska grundbegrepp

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Fraser, huvuden och bestämningar

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Frasstrukturgrammatik

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Grammatik för språkteknologer

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi

Grammatik för språkteknologer

Karp. Övningar Språkbankens höstworkshop oktober 2016

729G09 Språkvetenskaplig databehandling

Datorlingvistisk grammatik

Olika typer av satser

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Karp. Övningar Språkbankens höstworkshop oktober 2017

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Ord och morfologi. Morfologi

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Tekniker för storskalig parsning

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)


LABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Grammatisk teori II Attributvärdesgrammatik

Statistisk grammatikgranskning

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

SUBSTANTIV = namn på saker, personer, känslor

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grundläggande textanalys. Joakim Nivre

Grammatik för språkteknologer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Språk, datorer och textbehandling

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Morfologi och syntax. Föreläsning 1 & 2

ORDKLASSERNA I SVENSKA SPRÅKET

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Meningssegmentering i SUC och Talbanken

Så, ska det taggas som adverb?

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Svenskans struktur, 7,5 hp Tentamensexempel 1

Perl. ~ Redovisning. Alla filer som behövs för att lösa uppgifterna finns dels på ~martin/pubperl/ på mumin, samt på

Elementära verktyg för korpusbearbetning

Ordklasser och satsdelar

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Välkommen till den första delkursen i svenska!

Facit för diagnostiska provet i grammatik

Tekniker för storskalig parsning

Ordförråd och Ordbildning

grammatik Ordklasser, nominalfraser, substantiv

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

729G09 Språkvetenskaplig databehandling

Träningshäfte ordklasser facit

Bootstrapping för substantivtaggning

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Word- sense disambiguation

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Datorbaserade verktyg i humanistisk forskning

En snabb titt på XML LEKTION 6

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Tentamen Marco Kuhlmann

Inlämningsuppgift: Pronomenidentifierare

729G09 Språkvetenskaplig databehandling

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Kungliga Tekniska Högskolan Patrik Dallmann

Grammatikprov åk 8 ORDKLASSER

RoboLinguistics. Ett textförståelseprogram. Henrik Palmér, d01hp

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Svensk minigrammatik

Datum: Date: Provkodr: KTR1 Exam code:

Satslära introduktion

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

PAROLE TAGSET <

Träningshäfte ordklasser (Venus)

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Textbearbetning i skalet och man-sidor

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

Pre-editering och maskinöversättning. Convertus AB

7 Bordsspel. Förberedelser för ordklasspel (7A) och satsdelsspel (7B)

Mål idag. Mål. Läsa och öva 9/9/2013. F5: Grammatik Syntax I Ordklasser

ORDKLASSERNA I. Ett sätt att sortera våra ord

Grammatisk teori III Praktisk analys

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Transkript:

729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap

Från form till betydelse pragmatik semantik analys generering syntax morfologi

Skolans nio ordklasser tagg kategori exempel VB verb kasta NN substantiv pudding PN pronomen hon JJ adjektiv glad AB adverb inte KN konjunktion och PP preposition över RG räkneord tre IN interjektion aj

Syntaktiska dependensträd nsubj xcomp nmod cpd aux mark case 1 2 3 4 5 6 7 8 Cray Computer has applied to trade on Nasdaq PTB section 00, document 18, item 026; Stanford dependencies (basic)

Denna föreläsning Korpusdata Bearbeta korpusdata med Unix-verktyg Bearbeta korpusdata med Python

Korpusdata

Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform NOUN 3 nmod 3 införs införa VERB 0 root 4 individuell individuell ADJ 5 amod 5 beskattning beskattning NOUN 3 nsubjpass 6 ( ( PUNCT 5 punct 7 särbeskattning särbeskattning NOUN 5 appos 8 ) ) PUNCT 5 punct 9 av av ADP 10 case 10 arbetsinkomster arbetsinkomst NOUN 5 nmod 11.. PUNCT 3 punct

Vad finns i en korpus? graford lemma ordklass huvudord grammatisk funktion morfologiska egenskaper betydelse skattereformen skattereform substantiv (NN) ord nummer 3 i meningen (införs) nominalattribut (NMOD) utrum, singular, definit, nominativ skattereform..nn.1

Finkornighet i beskrivningen Varje korpus måste bestämma sig för ett system med vars hjälp de lingvistiska datan ska beskrivas. 14 ordklasser eller 22? Förutom själva korpusen måste det därför finnas en definition av de kategorier som använts. ofta tillsammans med konkreta exempel I Universal Dependencies-projektet finns universella och språkspecifika kategorier. Språkspecifika kategorier kan alltid ersättas med universella kategorier.

Universella ordklasser (öppna klasser) tagg kategori exempel ADJ adjektiv glad ADV adverb inte INTJ interjektion ja NOUN substantiv pudding PROPN proper noun Ingmar VERB verb kasta Universal Dependencies: http://universaldependencies.github.io/docs/

Universella ordklasser (slutna klasser) tagg kategori exempel ADP adposition (preposition, postposition) över AUX hjälpverb har CONJ konjunktion och DET determinerare denna NUM räkneord för grundtal tre PART partikel ut PRON pronomen hon SCONJ subjunktion att

Ordklasser i SUC (1) tagg kategori exempel NN substantiv pudding VB verb kasta PP preposition över AB adverb inte JJ adjektiv glad PN pronomen hon DT determinerare denna KN konjunktion och PM egennamn Mats

Ordklasser i SUC (2) tagg kategori exempel PC particip utsänd SN subjunktion att RG räkneord (grundtal) tre HP frågande/relativt pronomen som IE infinitivmärke att PL partikel ut SUC manual: http://spraakbanken.gu.se/parole/docs/suc2.0-manual.pdf

Ordklasser i SUC (3) tagg kategori exempel PS possessivt pronomen hennes HA frågande/relativt adverb när UO utländskt ord the RO räkneord (ordningstal) tredje IN interjektion ja HD frågande/relativt determinerare vilken HS frågande/relativt possessivt pronomen vars SUC manual: http://spraakbanken.gu.se/parole/docs/suc2.0-manual.pdf

Hur representeras korpusdata? tabulerade data Extensible Markup Language (XML) JavaScript Object Notation (JSON)

Tabulerade data (CoNLL-format) 1 Genom genom PP 2 case 2 skattereformen skattereform NN 3 nmod 3 införs införa VB 0 root 4 individuell individuell JJ 5 amod 5 beskattning beskattning NN 3 nsubjpass 6 ( ( PAD 5 punct 7 särbeskattning särbeskattning NN 5 appos 8 ) ) PAD 5 punct 9 av av PP 10 case 10 arbetsinkomster arbetsinkomst NN 5 nmod 11.. MAD 3 punct

Tabulerade data Filen struktureras i rader och kolumner. Rader skiljs åt med ett nyrad-tecken. Kolumner skiljs åt med ett separatortecken. tabulator, komma Används t.ex. i CoNLL-U, Comma-Separated Values (CSV).

Vilken information finns i vilken kolumn? ID FORM LEMMA POS HEAD DEPREL 1 Genom genom PP 2 case 2 skattereformen skattereform NN 3 nmod 3 införs införa VB 0 root 4 individuell individuell JJ 5 amod 5 beskattning beskattning NN 3 nsubjpass 6 ( ( PAD 5 punct 7 särbeskattning särbeskattning NN 5 appos 8 ) ) PAD 5 punct 9 av av PP 10 case 10 arbetsinkomster arbetsinkomst NN 5 nmod 11.. MAD 3 punct

CoNLL-format CoNLL-formatet har använts i flera tävlingar i samband med International Conference for Natural Language Learning. Formatet representerar en lista med meningar. Slutet på en mening markeras med en blankrad. Rader som börjar på ett nummertecken (#) är kommentarer. Det finns flera varianter av detta format; den senaste varianten (CoNLL-U) används av Universal Dependencies-projektet. http://universaldependencies.org/format.html

Extensible Markup Language (XML) <sentence id="8f74-8115"> <w pos="pp" lemma=" genom " ref="01" dephead="03" deprel="aa">genom</w> <w pos="nn" lemma=" skattereform " ref="02" dephead="01" deprel="pa">skattereformen</w> <w pos="vb" lemma=" införa " dephead="" deprel="root">införs</w> <w pos="jj" lemma=" individuell " ref="04" dephead="05" deprel="at">individuell</w> <w pos="nn" lemma=" beskattning " ref="05" dephead="03" deprel="ss">beskattning</w> <w pos="pad" lemma=" " ref="06" dephead="05" deprel="ir">(</w> <w pos="nn" lemma=" särbeskattning " ref="07" dephead="05" deprel="an">särbeskattning</w> <w pos="pad" lemma=" " ref="08" dephead="05" deprel="jr">)</w> <w pos="pp" lemma=" av " ref="09" dephead="05" deprel="et">av</w> <w pos="nn" lemma=" arbetsinkomst " ref="10" dephead="09" deprel="pa">arbetsinkomster</w> <w pos="mad" lemma=" " ref="11" dephead="03" deprel="ip">.</w> </sentence>

Extensible Markup Language Information struktureras hierarkiskt med hjälp av element. Ett element består av en starttagg och en sluttagg. <w>särbeskattning</w> Varje element kan dessutom ha ett antal attribut värde-par. <w pos="nn">särbeskattning</w> har ett attribut pos med värdet NN Ett element kan innehålla såväl text som andra element.

Hur ett XML-element är uppbyggt starttagg <w>skattereformen</w> sluttagg Som specialform förekommer även tomma element, t.ex. <br/>.

Fördelar och nackdelar Tabulerade data enkelt och platseffektivt implicit representation För att ta ut en POS-tagg behöver man veta vilken kolumn den ligger i. Extensible Markup Language (XML) komplext och platskrävande explicit representation För att ta ut en POS-tagg kan man direkt efterfråga motsvarande attribut.

Denna föreläsning Korpusdata Bearbeta korpusdata med Unix-verktyg Bearbeta korpusdata med Python

Exempeluppgifter på en uppmärkt korpus Sök alla förekomster av ett givet ord, lemma eller n-gram. Bestäm frekvensen för ett givet ord, lemma eller n-gram. Bestäm fördelningen av ett givet ord över ordklasser. Bestäm alla subjekt eller objekt till ett givet verb.

Bearbeta korpusar med Unix-verktyg

Unix-verktyg för textfiler program head tail less wc funktion visar de första raderna visar de sista raderna visar innehållet; tillåter att man scrollar upp och ner räknar antalet ord, rader, tecken och bytes grep letar efter mönster och skriver ut matchande rader

Unix-verktyg för textfiler program cut paste sort uniq funktion extraherar kolumner sätter ihop kolumner sorterar rader (alfabetiskt eller numeriskt) slår ihop dubletter; används ofta efter sort sed utför substitutioner och andra redigeringsoperationer

Omdirigering i Unix mönster kommando < infil kommando > utfil kommando >! utfil kommando >> utfil effekt läs indata till kommando från filen infil skriv utdata från kommando till filen utfil skriv över utfil om det redan finns tillfoga i slutet av utfil k1 k2 pipe; utdata från kommando k1 blir indata till k2

Denna föreläsning Korpusdata Bearbeta korpusdata med Unix-verktyg Bearbeta korpusdata med Python

Bearbeta korpusar med Python

Skriv ut alla rader import sys with open(sys.argv[1]) as f: for line in f: print(line.rstrip())

Skriv ut alla ordformer import sys with open(sys.argv[1]) as f: for line in f: line = line.rstrip() if len(line) > 0: columns = line.split() print(columns[1])

Räkna förekomster av olika ordklasser import sys from collections import Counter with open(sys.argv[1]) as f: counter = Counter() for line in f: line = line.rstrip() if len(line) > 0: columns = line.split() counter[columns[3]] += 1 print(counter)