Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Relevanta dokument
Språk, datorer och textbehandling

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Elementära verktyg för korpusbearbetning

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Tekniker för storskalig parsning

Grundläggande textanalys. Joakim Nivre

Datorbaserade verktyg i humanistisk forskning

Lingvistiskt uppmärkt text

Datorbaserade verktyg i humanistisk forskning

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Tekniker för storskalig parsning

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Korpuslingvistik vt 2007

Grammatik för språkteknologer

Grammatik för språkteknologer

Lingvistik I Delmoment: Datorlingvistik

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv)

ANNEX BILAGA. till. förslag till rådets beslut

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

15410/17 MLB/cc DGC 1A

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.

BILAGA. till. förslaget till rådets beslut

Meningssegmentering i SUC och Talbanken

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

I Nationalbibliografin redovisad utgivning (monografier)

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Lingvistiska grundbegrepp

Lingvistiskt uppmärkt text

Korpusuppbyggnad Från textsamling till korpus

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References

I Nationalbibliografin redovisad utgivning (monografier)

Grammatik för språkteknologer

I Nationalbibliografin redovisad utgivning (monografier)

Maskinöversättning möjligheter och gränser

On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

Etiopiska språk Fisksätra bibliotek 42 Etiopiska språk Nacka Forum bibliotek 7 Etiopiska språk Orminge bibliotek 3 Fang Saltsjöbadens bibliotek 1

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

17196/09 akb/ell/am 1 DQPG

Språk, datorer och textbehandling

Love Peace and Understandning

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

EUROPEISKA MILJÖBYRÅN ANSÖKNINGSBLANKETT

Sveriges internationella överenskommelser

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning: Grundbegrepp

Grammatik för språkteknologer

Fraser, huvuden och bestämningar

Lösningsförslag till tentamen i Språkteknologi 2D1418,

995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8

Förslag till RÅDETS BESLUT

Europeiska unionens råd Bryssel den 11 september 2017 (OR. en) Jordi AYET PUIGARNAU, direktör, för Europeiska kommissionens generalsekreterare

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Kort presentation av Korp, Sveriges nationalkorpus

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Lingvistik I Delmoment: Datorlingvistik

FÖRETRÄDARNA FÖR REGERINGARNA I EUROPEISKA GEMENSKAPENS MEDLEMSSTATER, FÖRSAMLADE I RÅDET, HAR ENATS OM FÖLJANDE

Teoretisk lingvistik och datalingvistik. Robin Cooper

Pre-editering och maskinöversättning. Convertus AB

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

729G09 Språkvetenskaplig databehandling

Introduktion till språkteknologi. Datorstöd för språkgranskning

Datorlingvistisk grammatik

BILAGA. till. förslag till rådets beslut

BILAGA. till ändrat förslag till. rådets beslut

Lingvistik I Delmoment: Datorlingvistik

EUROPEISKA GEMENSKAPERNAS KOMMISSION

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

BILAGA. till. Förslag till rådets beslut

Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige

En pilotstudie för automatisk analys av elevtexter

KOMMISSIONENS GENOMFÖRANDEBESLUT. av den

MEDDELANDE OM ALLMÄNNA UTTAGNINGSPROV (2011/C 206 A/02)

Statsminister Matti Vanhanen

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

7115/15 KSM/cc 1 DGD 1

Karp. Övningar Språkbankens höstworkshop oktober 2016

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

KONVENTIONEN OM REPUBLIKEN TJECKIENS, REPUBLIKEN ESTLANDS, REPUBLIKEN CYPERNS, REPUBLIKEN LETTLANDS, REPUBLIKEN LITAUENS, REPUBLIKEN UNGERNS,

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

BILAGA. till. förslag till rådets beslut

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Situationen i Sverige

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

MÖSG ht 2005 Maskinöversättningssystemet MATS

WiFi4EU-kontrollfunktion. Vägledning v1.0

Språk, datorer och textbehandling

Transkript:

Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31)

Förra gången Att bygga en korpus sampling uppmärkning annotering Korpusannotering 2(31)

Ämnen idag Lingvistisk annotering: taggning, parsning Trädbanker, Treebanks Parallella corpora Korpusannotering 3(31)

Typ av annotering Extratextuell information (Metadata) Rubrik, författare, datum, språk, genre Ortografisk information Lingvistisk information ordklass, part-of-speech (PoS tagging) lemma syntaktisk information, syntactic annotation (parsing) semantisk annotering fonetisk Länkning, Alignment Korpusannotering 4(31)

Lingvistisk information Standardannotering: Ordklasser, morfologisk analys. Vilka ordklasser? 9? 23? 60-70? Syntax Vilken syntaktisk teori? Korpusannotering 5(31)

Morfosyntaktiskt annoterade korpora Denna typ av korpora innehåller annotering av ordklass och morfologisk analys för varje ord i materialet. Detta är den allra vanligaste typen av annotering. Annoteringen görs automatiskt med gott resultat (ca 97% korrekt). Språkteknologin har försett oss med goda verktyg att göra detta arbete. För analys av enkla lingvistiska drag (t.ex. undersökning av aktiva/passiva verb) är morfosyntaktisk annotering helt tillräcklig. Korpusannotering 6(31)

Ordklasstaggning, Part-of-Speech (PoS) tagging Mål: att annotera orden med dess unika ordklass såg: verb eller substantiv, kontexten styr PoS: substantiv, verb, adjektiv, pronomen, preposition, adverb, konjunktion, particip, artikel Tagguppsättning (Tagset): en tagg representerar ordklassinformation med eller utan morfologiska särdrag 87 taggar i Brown corpus (Francis, 1979) 45 taggar i Penn Treebank (Marcus et al., 1993) Korpusannotering 7(31)

Ordklasstaggning Exempel: The/DT grand/jj jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. Input: sträng med ord och en specificerad tagguppsättning Output: den korrekta och unika taggen för ordet i en viss kontext Korpusannotering 8(31)

Tagguppsättning beror på korpus och språktyp kriterier: morfologiska, syntaktiska och semantiska tagguppsättning för engelska: 50-100 taggar tagguppsättning för svenska: SUC - 167 taggar for språk med komplex morfologi är tagguppsättningen mycket större Korpusannotering 9(31)

Tagset size Comparisons in the morphologically tagged MULTEXT-East corpora (Hajic, 2000) Language Tagset size English 139 Czech 970 Estonian 476 Hungarian 401 Romanian 486 Slovene 1033 Korpusannotering 10(31)

Tagguppsättning Taggar kan se olika ut olika standarder som används för olika språk t.ex. parole - suc Korpusannotering 11(31)

Syntaktiskt annoterade korpora Syntaktiskt annoterade korpora innehåller texter som är annoterade med någon form av syntaktisk analys, t.ex.: Frasstrukturanalys (S, NP, VP, AP, PP, AdvP) Dependensstruktur (huvud-dependent relationer) Syntaktiska funtioner (subjekt, objekt, attribut, adverbial) Eftersom man annoterar syntaktiska träd kallas dessa typer av korpora för Trädbanker. Korpusannotering 12(31)

Syntaktiskt annoterade korpora forts. Syntaktiskt annoterade korpora kan användas till en helt annan typ av undersökningar än det morfosyntaktiskt annoterade materialet. I t.ex. en undersökning av olika verb, kan vi i en korpus annoterad med syntaktiska funktioner direkt (och automatiskt) ta fram vilka subjekt ett visst verb har. Generellt kan vi söka på alla typer av relationer inom en sats. Syntaktisk analys är mer problematisk att göra automatiskt än morfosyntaktisk analys (ca 70-85% korrekt, beroende på hur/vad man utvärderar). Annoteringen inbegriper avsevärt mer manuellt arbete. Korpusannotering 13(31)

Material Trädbanker har ofta vuxit fram ur redan (ordklass)taggade korpusar En trädbank består ofta av en delmängd av en (ordklass)taggad korpus (p g a annotationskostnader) Många korpusar består till stor del av tidningstext Skrift och/eller talspråk, skriftspråk är mycket vanligare, mer undersökt Få trädbank innehåller talspråk Korpusannotering 14(31)

Talbanken P10120048001 0000 << GM 046 P10120048002 *DESSUTOM ABOC +A 046 P10120048003 KOMMER KVPS FV 046 P10120048004 EN EN SSDT 046 P10120048005 ENSAMSTÅENDE AJ SS SSAT 046 P10120048006 FOLKPENSIONÄR NN HS SS 046 P10120048007 ATT IM IM 046 P10120048008 KUNNA QVIV IV 046 P10120048009 HA HVIV IX 046 P10120048010 EN EN OODT 046 P10120048011 INKOMST NN OO 046 P10120048024. IP IP 046 Korpusannotering 15(31)

Svensk Trädbank Swedish Treebank http://stp.lingfil.uu.se/ nivre/swedish treebank/ En svensk trädbank bestående av Talbanken och SUC. Ca 100 000 token från den ursprungliga Talbanken. Hela SUC parsad, en guldstandard om drygt 20 000 token manuellt korrigerad....för att kunna söka i en trädbank behöver man naturligtvis ett sökverktyg anpassat för syntaktisk sökning. Korpusannotering 16(31)

Svensk trädbank 1 Individuell JJ JJ POS UTR SIN IND NOM 2 AT 2 beskattning NN NN UTR SIN IND NOM 0 ROOT 3 av PP PP 2 ET 4 arbetsinkomster NN NN UTR PLU IND NOM 3 PA Korpusannotering 17(31)

Exempel Penn Treebank utgör en del av Wall Street Journal (WSJ) Switchboard i Penn treebank (Taylor et al 2003), engelska SUSANNE corpus (Sampson, 1995), en delmängd av Brown Swedish Treebank (Nivre et al., 2009) NEGRA (Saarbrücken) Prague Dependency Treebank (Hajic et al) Tübingen Treebanker av talad tyska, engelska, japanska (Hinrichs et al 2000) Spoken Dutch Corpus (CGN) (Wouden et al 2002) CHRISTINE corpus (Sampson 2003): engelska Korpusannotering 18(31)

Flerspråkiga korpora Översättningar av samma text till flera språk. Översättningskorpus (t.ex. Aijmer och Altenberg, 1996), Parallellkorpus (t.ex. McEnery och Wilson, 1996). Subkorpora på olika språk samplade på samma sätt (t.ex. samma typ av skönlitteratur etc). Parallellkorpus (t.ex. Aijmer och Altenberg, 1996), Jämförbara korpora (t.ex. McEnery och Wilson, 1996). Vi använder termerna Parallellkorpus och Jämförbara korpora i samma betydelser som McEnery och Wilson. Korpusannotering 19(31)

Användningsområden Parallella och jämförbara korpora kan användas i olika typer av komparativa studier av olika språk samt översättningsstudier. Används till: att studera typologiska och kulturella skillnader, språkliga universalier. att studera skillnader mellan källtext och översättning, mellan texter på originalspråk och översatta texter. praktiska tillämpningar som lexikografi, språkundervisning, översättning. Korpusannotering 20(31)

Jämförbara korpora Olika språk Samma proportioner av material över samma genrer, inom samma domäner från samma tidsperioder. Ekonomitext från 2010 på flera språk. Kan beskrivas som att man samlar material från olika språk enligt samma insamlingskriterier. Korpusannotering 21(31)

Parallella korpora Samma texter översatta till annat språk. Det är möjligt att textens ursprungsspråk är ett annat än de språk som ingår i parallellkorpusen. Parallella korpora tenderar att vara specialiserade eftersom det är mycket svårt att samla ihop en balanserad korpus av parallella texter på flera språk. Korpusannotering 22(31)

EUROPARL European Parliament Proceedings Parallel Corpus: http://www.statmt.org/europarl/ Parallellkorpus, monitorkorpus, meningslänkad Europaparlamentstexter från perioden 1996-2003, ny version 2010 Inkluderar 21 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska, bulgariska, tjeckiska, estniska, ungerska, lettiska, litauiska, polska, rumänska, slovakiska, och slovenska upp till 55 milj ord/språk (2011). Uppmärkt med dokument-id, information om talare samt information om stycke. Korpusannotering 23(31)

JRC-Acquis Parallellkorpus, monitorkorpus: http://langtech.jrc.it/jrc-acquis.html EU-lagtexter Över en miljard ord totalt. Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska Korpusannotering 24(31)

Meningslänkning Att para ihop meningar i källspråket (originaldokumentet) med motsvarande meningar i målspråket (den översatta texten) Kan göras automatiskt med mycket hög korrekthet Ex. på ledtrådar som datorn utnyttjar: styckeindelning, meningslängd, lexikon, sifferuttryck och liknande, som inte förändras mellan två språk. Inte alltid ett ett-till-ett-förhållande mellan meningar på de olika språken Korpusannotering 25(31)

Meningslänkning Korpusannotering 26(31)

Ordlänkning Att para ihop ord och fraser i källspråket (originaldokumentet) med motsvarande ord och fraser i målspråket (den översatta texten) Svårare att uppnå hög korrekthet automatiskt än för meningslänkning Ex. på ledtrådar som datorn utnyttjar Stränglikhet Samförekomst Ordklassuppmärkning Lexikon Korpusannotering 27(31)

SMULTRON Liten svensk parallell trädbank (ca 1000 meningar) utvecklad på Stockholms universitet. Skönlitteratur och ekonomitext: Sofies värld (2 kap). SEB årsredovisning 2004. ABB:s kvartalsredovisning Q2 2005. Rainforest alliance banancertifieringsprogram. Flerspråkig: svenska, engelska, tyska Korpusannotering 28(31)

SMULTRON Korpusannotering 29(31)

Tillämpningar, flerspråkiga korpusar Språkvetenskap: Komparativa undersökningar mellan olika språk, typologi. Språkundervisning, exempel till studenter. Översättningsstudier. Språkteknologi: T.ex. Maskinöversättning. Extrahera frekventa översättningspar. Inlärning av sannolikhetsbaserad maskinöversättning. Korpusannotering 30(31)

Nästa gång Labb 4: Korpussökning och annotering (inlämning: 14/3 till Bengt) Föreläsning: Mats Dahllöf om korpusbaserade undersökningar: historiska material, politik och kön Muntliga presentationer: referat (14/3 10-12) Korpusannotering 31(31)