Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31)

Förra gången Att bygga en korpus sampling uppmärkning annotering Korpusannotering 2(31)

Ämnen idag Lingvistisk annotering: taggning, parsning Trädbanker, Treebanks Parallella corpora Korpusannotering 3(31)

Typ av annotering Extratextuell information (Metadata) Rubrik, författare, datum, språk, genre Ortografisk information Lingvistisk information ordklass, part-of-speech (PoS tagging) lemma syntaktisk information, syntactic annotation (parsing) semantisk annotering fonetisk Länkning, Alignment Korpusannotering 4(31)

Lingvistisk information Standardannotering: Ordklasser, morfologisk analys. Vilka ordklasser? 9? 23? 60-70? Syntax Vilken syntaktisk teori? Korpusannotering 5(31)

Morfosyntaktiskt annoterade korpora Denna typ av korpora innehåller annotering av ordklass och morfologisk analys för varje ord i materialet. Detta är den allra vanligaste typen av annotering. Annoteringen görs automatiskt med gott resultat (ca 97% korrekt). Språkteknologin har försett oss med goda verktyg att göra detta arbete. För analys av enkla lingvistiska drag (t.ex. undersökning av aktiva/passiva verb) är morfosyntaktisk annotering helt tillräcklig. Korpusannotering 6(31)

Ordklasstaggning, Part-of-Speech (PoS) tagging Mål: att annotera orden med dess unika ordklass såg: verb eller substantiv, kontexten styr PoS: substantiv, verb, adjektiv, pronomen, preposition, adverb, konjunktion, particip, artikel Tagguppsättning (Tagset): en tagg representerar ordklassinformation med eller utan morfologiska särdrag 87 taggar i Brown corpus (Francis, 1979) 45 taggar i Penn Treebank (Marcus et al., 1993) Korpusannotering 7(31)

Ordklasstaggning Exempel: The/DT grand/jj jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. Input: sträng med ord och en specificerad tagguppsättning Output: den korrekta och unika taggen för ordet i en viss kontext Korpusannotering 8(31)

Tagguppsättning beror på korpus och språktyp kriterier: morfologiska, syntaktiska och semantiska tagguppsättning för engelska: 50-100 taggar tagguppsättning för svenska: SUC - 167 taggar for språk med komplex morfologi är tagguppsättningen mycket större Korpusannotering 9(31)

Tagset size Comparisons in the morphologically tagged MULTEXT-East corpora (Hajic, 2000) Language Tagset size English 139 Czech 970 Estonian 476 Hungarian 401 Romanian 486 Slovene 1033 Korpusannotering 10(31)

Tagguppsättning Taggar kan se olika ut olika standarder som används för olika språk t.ex. parole - suc Korpusannotering 11(31)

Syntaktiskt annoterade korpora Syntaktiskt annoterade korpora innehåller texter som är annoterade med någon form av syntaktisk analys, t.ex.: Frasstrukturanalys (S, NP, VP, AP, PP, AdvP) Dependensstruktur (huvud-dependent relationer) Syntaktiska funtioner (subjekt, objekt, attribut, adverbial) Eftersom man annoterar syntaktiska träd kallas dessa typer av korpora för Trädbanker. Korpusannotering 12(31)

Syntaktiskt annoterade korpora forts. Syntaktiskt annoterade korpora kan användas till en helt annan typ av undersökningar än det morfosyntaktiskt annoterade materialet. I t.ex. en undersökning av olika verb, kan vi i en korpus annoterad med syntaktiska funktioner direkt (och automatiskt) ta fram vilka subjekt ett visst verb har. Generellt kan vi söka på alla typer av relationer inom en sats. Syntaktisk analys är mer problematisk att göra automatiskt än morfosyntaktisk analys (ca 70-85% korrekt, beroende på hur/vad man utvärderar). Annoteringen inbegriper avsevärt mer manuellt arbete. Korpusannotering 13(31)

Material Trädbanker har ofta vuxit fram ur redan (ordklass)taggade korpusar En trädbank består ofta av en delmängd av en (ordklass)taggad korpus (p g a annotationskostnader) Många korpusar består till stor del av tidningstext Skrift och/eller talspråk, skriftspråk är mycket vanligare, mer undersökt Få trädbank innehåller talspråk Korpusannotering 14(31)

Talbanken P10120048001 0000 << GM 046 P10120048002 *DESSUTOM ABOC +A 046 P10120048003 KOMMER KVPS FV 046 P10120048004 EN EN SSDT 046 P10120048005 ENSAMSTÅENDE AJ SS SSAT 046 P10120048006 FOLKPENSIONÄR NN HS SS 046 P10120048007 ATT IM IM 046 P10120048008 KUNNA QVIV IV 046 P10120048009 HA HVIV IX 046 P10120048010 EN EN OODT 046 P10120048011 INKOMST NN OO 046 P10120048024. IP IP 046 Korpusannotering 15(31)

Svensk Trädbank Swedish Treebank http://stp.lingfil.uu.se/ nivre/swedish treebank/ En svensk trädbank bestående av Talbanken och SUC. Ca 100 000 token från den ursprungliga Talbanken. Hela SUC parsad, en guldstandard om drygt 20 000 token manuellt korrigerad....för att kunna söka i en trädbank behöver man naturligtvis ett sökverktyg anpassat för syntaktisk sökning. Korpusannotering 16(31)

Svensk trädbank 1 Individuell JJ JJ POS UTR SIN IND NOM 2 AT 2 beskattning NN NN UTR SIN IND NOM 0 ROOT 3 av PP PP 2 ET 4 arbetsinkomster NN NN UTR PLU IND NOM 3 PA Korpusannotering 17(31)

Exempel Penn Treebank utgör en del av Wall Street Journal (WSJ) Switchboard i Penn treebank (Taylor et al 2003), engelska SUSANNE corpus (Sampson, 1995), en delmängd av Brown Swedish Treebank (Nivre et al., 2009) NEGRA (Saarbrücken) Prague Dependency Treebank (Hajic et al) Tübingen Treebanker av talad tyska, engelska, japanska (Hinrichs et al 2000) Spoken Dutch Corpus (CGN) (Wouden et al 2002) CHRISTINE corpus (Sampson 2003): engelska Korpusannotering 18(31)

Flerspråkiga korpora Översättningar av samma text till flera språk. Översättningskorpus (t.ex. Aijmer och Altenberg, 1996), Parallellkorpus (t.ex. McEnery och Wilson, 1996). Subkorpora på olika språk samplade på samma sätt (t.ex. samma typ av skönlitteratur etc). Parallellkorpus (t.ex. Aijmer och Altenberg, 1996), Jämförbara korpora (t.ex. McEnery och Wilson, 1996). Vi använder termerna Parallellkorpus och Jämförbara korpora i samma betydelser som McEnery och Wilson. Korpusannotering 19(31)

Användningsområden Parallella och jämförbara korpora kan användas i olika typer av komparativa studier av olika språk samt översättningsstudier. Används till: att studera typologiska och kulturella skillnader, språkliga universalier. att studera skillnader mellan källtext och översättning, mellan texter på originalspråk och översatta texter. praktiska tillämpningar som lexikografi, språkundervisning, översättning. Korpusannotering 20(31)

Jämförbara korpora Olika språk Samma proportioner av material över samma genrer, inom samma domäner från samma tidsperioder. Ekonomitext från 2010 på flera språk. Kan beskrivas som att man samlar material från olika språk enligt samma insamlingskriterier. Korpusannotering 21(31)

Parallella korpora Samma texter översatta till annat språk. Det är möjligt att textens ursprungsspråk är ett annat än de språk som ingår i parallellkorpusen. Parallella korpora tenderar att vara specialiserade eftersom det är mycket svårt att samla ihop en balanserad korpus av parallella texter på flera språk. Korpusannotering 22(31)

EUROPARL European Parliament Proceedings Parallel Corpus: http://www.statmt.org/europarl/ Parallellkorpus, monitorkorpus, meningslänkad Europaparlamentstexter från perioden 1996-2003, ny version 2010 Inkluderar 21 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska, bulgariska, tjeckiska, estniska, ungerska, lettiska, litauiska, polska, rumänska, slovakiska, och slovenska upp till 55 milj ord/språk (2011). Uppmärkt med dokument-id, information om talare samt information om stycke. Korpusannotering 23(31)

JRC-Acquis Parallellkorpus, monitorkorpus: http://langtech.jrc.it/jrc-acquis.html EU-lagtexter Över en miljard ord totalt. Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska Korpusannotering 24(31)

Meningslänkning Att para ihop meningar i källspråket (originaldokumentet) med motsvarande meningar i målspråket (den översatta texten) Kan göras automatiskt med mycket hög korrekthet Ex. på ledtrådar som datorn utnyttjar: styckeindelning, meningslängd, lexikon, sifferuttryck och liknande, som inte förändras mellan två språk. Inte alltid ett ett-till-ett-förhållande mellan meningar på de olika språken Korpusannotering 25(31)

Meningslänkning Korpusannotering 26(31)

Ordlänkning Att para ihop ord och fraser i källspråket (originaldokumentet) med motsvarande ord och fraser i målspråket (den översatta texten) Svårare att uppnå hög korrekthet automatiskt än för meningslänkning Ex. på ledtrådar som datorn utnyttjar Stränglikhet Samförekomst Ordklassuppmärkning Lexikon Korpusannotering 27(31)

SMULTRON Liten svensk parallell trädbank (ca 1000 meningar) utvecklad på Stockholms universitet. Skönlitteratur och ekonomitext: Sofies värld (2 kap). SEB årsredovisning 2004. ABB:s kvartalsredovisning Q2 2005. Rainforest alliance banancertifieringsprogram. Flerspråkig: svenska, engelska, tyska Korpusannotering 28(31)

SMULTRON Korpusannotering 29(31)

Tillämpningar, flerspråkiga korpusar Språkvetenskap: Komparativa undersökningar mellan olika språk, typologi. Språkundervisning, exempel till studenter. Översättningsstudier. Språkteknologi: T.ex. Maskinöversättning. Extrahera frekventa översättningspar. Inlärning av sannolikhetsbaserad maskinöversättning. Korpusannotering 30(31)

Nästa gång Labb 4: Korpussökning och annotering (inlämning: 14/3 till Bengt) Föreläsning: Mats Dahllöf om korpusbaserade undersökningar: historiska material, politik och kön Muntliga presentationer: referat (14/3 10-12) Korpusannotering 31(31)