Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1
Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla grundläggande kunskaper om datasystem och databehandling som bas för språkvetenskapliga studier och behandlar grundläggande tekniker för språkvetenskaplig bearbetning av stora textsamlingar (korpusar). Fokus ligger på praktisk användning av verktyg för korpusanalys. 2
Kursplan Innehåll och upplägg Begreppen operativsystem och filsystem och deras användning, med praktiska övningar i de datormiljöer som används i utbildningen. Representation och bearbetning i datasystem av text och textelement: teckenrepresentationer och dokumentbeskrivningsspråk. Konstruktion av enkla program för textbearbetning. Introduktion till Internet och WWW. 3
Kursplan Innehåll och upplägg Befintliga språkvetenskapliga korpusar. Separering av ord (tokenisering). Olika kvantitativa analyser. Grammatisk analys och uppmärkning av korpusar. Användning av parallella korpusar (där texter på olika språk som är varandras översättningar ställs jämte varandra). 4
Examination Kunskapskontroll sker genom: obligatoriska labbrapporter seminarier projektuppgift Betyget på kursen bestäms av: den muntliga och skriftliga presentationen av labbarna och projektuppgiften 5
Kurslitteratur och hemsida McEnery, Tony & Andrew Wilson (2001) Corpus linguistics, 2nd edition. Edinburgh: Edinburgh University Press. alt. Tony McEnery, Richard Xiao och Ykiou Tono, 2006. Corpus-Based Language Studies an advanced resource book. Routledge Applied Linguistics Kurssida: http://stp.lingfil.uu.se/~evapet/undervisning/sdt07/ Kompletterande litteratur, läsrekommendationer och diverse intressanta länkar finns på kurssidan! 6
Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering Korpustyper Exempel på korpusar 7
Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: textmängd som är föremål för språkvetenskapligt studium Samling språkliga data som: består av en samling skrivna texter eller transkriptioner av talspråk är mer eller mindre representativt för språket i fråga lagras elektroniskt Internet = Världens största korpus! 8
Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: När började man skriva ''mejl'' istället för ''mail''? Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet) 9
Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker 10
Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: representativt urval begränsad storlek (inte alltid) elektronisk form standardreferens 11
Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) 12
Korpusar som standardreferens Korpusar används som standardreferens för jämförande studier: jämför speciell språkanvändning med en standardreferens (korpus) 13
Korpusannotering Att märka upp korpusen med lingvistisk information, ex: Ordklass (part-of-speech) Böjningsinformation (morfo-syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) - transkription Semantik Annoteringen kan göras för hand eller automatiskt. 14
Ordklasser Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverbindelning och skillnad mellan grundtal och ordningstal 15
Böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt) 16
Syntax Grammatisk analys Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser Satsdelar subjekt, objekt, adverbial etc. 17
Semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: Ordbetydelse Semantiska relationer (agent, patient etc.) 18
Korpustyper Skriftspråkskorpusar Talspråkskorpusar Balanserade korpusar Består av olika texttyper i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk. Monitorkorpusar Korpusen växer ständigt. Möjliggör studier av hur språkbruket förändras över tiden. 19
Fler korpustyper Trädbanker (Grammatiskt uppmärkta korpusar) Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Specialkorpusar Korpusar som utvecklats för att studera en viss språktyp, t.ex. ungdomsspråk eller fornengelska. 20
Välkända korpusar Engelska BNC (British National Corpus, 100 milj ord) Brown corpus (1 milj ord) Svenska SUC (Stockholm-Umeå Corpus, 1 milj ord) PAROLE (19 milj ord) Flerspråkiga Hansard (Kanadensiska parlamentstexter på engelska och franska) EUROPARL (Europaparlamentstexter på EU-språk) JRC-Acquis (Lagtexter från EU) 21
Exempel på korpusar 22
SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation 23
Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose 24
Exempel ur SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 25
SUC (ordklasser) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 26
SUC (böjningsinformation) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 27
SUC (lemma) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 28
BNC British National Corpus http://www.natcorp.ox.ac.uk/ Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt 29
Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 30
BNC: ordklasser och böjning <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 31
Talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) 1,5 miljoner inspelade ord Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) http://khnt.hit.uib.no/icame/manuals/londlund/ 500 000 ord Talad, brittisk engelska Transkriberad 32
Monitorkorpusar Språkbanken (Göteborgs universitet) http://spraakbanken.gu.se/ Bank of English (COBUILD) Talad och skriven engelska 33
EUROPARL European Parliament Proceedings Parallel Corpus http://people.csail.mit.edu/koehn/publications/europarl/ Parallellkorpus Europaparlamentstexter från perioden 1996-2003 Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare 34
JRC-Acquis http://langtech.jrc.it/jrc-acquis.html Parallellkorpus (monitorkorpus) EU-lagtexter Ca 8 000 dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska 35
Länkning Metod för att hitta översättningsrelationer i parallellkorpusar Ett datorprogram parar automatiskt ihop segment i det ena språket med segment i det andra språket meningslänkning ordlänkning 36
Meningslänkning Att para ihop meningar i källspråket (originaldokumentet) med motsvarande meningar i målspråket (den översatta texten) Kan göras automatiskt med mycket hög korrekthet Ex. på ledtrådar som datorn utnyttjar: styckeindelning, meningslängd, lexikon, sifferuttryck och liknande, som inte förändras mellan två språk. Inte alltid ett ett-till-ett-förhållande mellan meningar på de olika språken 37
Meningslänkning, exempel 1:1 I didn't know what to say. Jag visste inte vad jag skulle säga. 2:3 Her brother said to her, ''Why does Ras always say 'longwedge' for - 'language', he talks about African 'longwedges'? Sounds so funny.'' ''Hur kommer det sig att Ras alltid säger 'sprak' i stället för 'språk'? Han talar om afrikanska 'sprak'. Det låter så roligt.'' 2:1 ''Go to hell.'' Emanuelle sat up straight. ''Dra åt skogen!'' sade Emanuelle och satte sig kapprak. 38
Ordlänkning Att para ihop ord och fraser i källspråket (originaldokumentet) med motsvarande ord och fraser i målspråket (den översatta texten) Svårare att uppnå hög korrekthet automatiskt än för meningslänkning Ex. på ledtrådar som datorn utnyttjar stränglikhet samförekomst ordklassuppmärkning lexikon 39
Trädbanker Penn Treebank Engelsk tidningstext (Wall Street Journal) Talbanken En av världens äldsta trädbanker (70-talet) Talad och skriven svenska 40
Exempel ur Talbanken P10120048001 0000 << GM 046 P10120048002 *DESSUTOM ABOC +A 046 P10120048003 KOMMER KVPS FV 046 P10120048004 EN EN SSDT 046 P10120048005 ENSAMSTÅENDE AJ SS SSAT 046 P10120048006 FOLKPENSIONÄR NN HS SS 046 P10120048007 ATT IM IM 046 P10120048008 KUNNA QVIV IV 046 P10120048009 HA HVIV IX 046 P10120048010 EN EN OODT 046 P10120048011 INKOMST NN OO 046 P10120048012 OM PR OOETPR 046 P10120048013 1500 RO OOETDT 046 P10120048014 KR NN OOET 046 P10120048015 VID PR AAPR 046 P10120048016 SIDAN ID AAPR 046 P10120048017 AV ID AAPR 046 P10120048018 FOLKPENSIONEN NNDDSS AA 046 P10120048019 1000 +F +F 046 P101200480201000 OCH ++ ++ 046 P101200480211000 ÄNDOCK ABMN +B 046 P101200480221000 BLI BVIV FV 046 P101200480231000 SKATTEFRI AJ SP 046 P10120048024. IP IP 046 41
ASU-korpusen Andraspråkets StrukturUtveckling Specialkorpus inriktad mot studier av svenskt inlärarspråk i dess utvecklingsfaser och jämförelser mellan inlärares och inföddas språkbruk Inspelade samtal och skrivna texter från vuxna inlärare av svenska Kompletterad med jämförbart material från infödda svenskar 490 000 löpord (415 000 ord samtal och 75 000 ord skrift) 42
Nästa gång Mer om korpusannotering Textkodning Textnormalisering 43