Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se
Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering och exempel på korpusar Korpusdistributörer Upphovsrätt
Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: text eller texter som är föremål för språkvetenskapliga studier, i synnerhet med hjälp av dator Samling språkliga data som: o består av en samling skrivna texter eller transkriptioner av talspråk o är mer eller mindre representativt för språket i fråga o lagras elektroniskt Internet = Världens största korpus!
Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet)
Vilken information kan man få fram ur en korpus? Sökningar i korpusen visar hur språket faktiskt används och har använts i verkliga livet (inga lösa teorier), t.ex: o Används konjunktivformer (vore, måtte, funnes) i svenska språket idag? o Säger man bättre än jag eller bättre än mig? o Säger man det kommer bli roligt eller det kommer att bli roligt? o När började man skriva mej istället för mig i skrift?
Svaren... 205 konjunktivformer i SUC-korpusen: vore, vare och måtte överlägset vanligast övriga: må, leve, bevare, tillkomme, tröste, månde, bleve, varde, varen, såge PAROLE-korpusen: bättre än jag: 40 träffar bättre än mig: en träff SUC-korpusen: kommer + verb i infinitiv: en träff kommer + att + verb i infinitiv: 423 träffar
Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker
Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: o representativt urval o begränsad storlek (inte alltid) o elektronisk form o standardreferens
Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: o definiera populationen ( sampling frame ) o fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung o bestäm storleken (vad är den optimala storleken?)
Balanserade korpusar Balanserade korpusar består av olika texttyper i bestämda proportioner Proportionerna är avvägda så att korpusen speglar språket i fråga alternativt en viss aspekt av språket i fråga
Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, ex: o Ordklass (part-of-speech) o Böjningsinformation (morfo-syntaktisk information) o Lemma (grundform, d.v.s. uppslagsord i lexikon) o Syntax o Fonetik (uttal) transkription o Semantik Annoteringen kan göras för hand eller automatiskt.
Ordklasstaggning Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverb-indelning och skillnad mellan grundtal och ordningstal
Uppmärkning av böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt)
SUC (Stockholm Umeå Corpus) Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation
Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose
Annotering i SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM <b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s>
SUC i användarvänligt format Språkbanken: http://spraakbanken.gu.se/parole/ Webbsida som samlat ett flertal svenska, elektroniskt sökbara lexikon och korpusar Visar resultatet i konkordansform Möjliggör sökning efter: o specifika ord (alla förekomster av ordformen tysktalande) o specifika ordklasser (alla förekomster av ordklassen adjektiv) o delsträngar (alla ord som slutar på -ande) o kombinationer av ovanstående (alla ord som slutar på -ande och som är adjektiv)
Konkordanser
Konkordanssökning för spanska Corpus del Espanol 100 miljoner ord från 1200-talet och fram till 1900-talet http://www.corpusdelespanol.org/ Spanish On-Line (SOL) Ca 2 900 000 ord nutidsspanska Tillgänglig från http://spraakbanken.gu.se/konk/rom2/
BNC British National Corpus http://www.natcorp.ox.ac.uk/ Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt
Uppmärkning i BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters
Uppmärkning av syntax Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser etc Satsdelar subjekt, objekt, adverbial etc
Trädbanker (syntaktiskt uppmärkta korpusar) Penn Treebank o Engelsk tidningstext (Wall Street Journal) Talbanken o En av världens äldsta trädbanker (70-talet) o Talad och skriven svenska
Dependensuppmärkning i Talbanken <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare PR komplement till preposition SUB subjekt IP interpunktion DET determinerare
Uppmärkning av fonetisk information Alla korpusar beskriver inte skrivet språk Talspråkskorpusar utgörs av inspelade samtal Transkriberas Ska man märka upp skratt, tvekanden etc? Bidrar det till samtalet?
Exempel på talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) o 1,5 miljoner inspelade ord o Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) http://khnt.hit.uib.no/icame/manuals/londlund/ o 500 000 ord o Talad, brittisk engelska o Transkriberad
Uppmärkning av semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: oordbetydelse: synonymi, hyponymi etc. osemantiska relationer: agent, patient etc.
Ur Svenskt Ordnät av Åke Viberg: Grundläggande semantiska relationer i ordnät
Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Exempel på flerspråkiga korpusar: Hansard (kanadensiska parlamentstexter på engelska och franska) EUROPARL (europeiska parlamentstexter) JRC-ACQUIS (europeiska lagtexter)
EUROPARL European Parliament Proceedings Parallel Corpus http://www.statmt.org/europarl/ Parallellkorpus Europaparlamentstexter från perioden 1996-2003 Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare
JRC-Acquis http://langtech.jrc.it/jrc-acquis.html Parallellkorpus (monitorkorpus) EU-lagtexter Ca 8 000 dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska
Korpusdistributörer Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu o stödjer språkrelaterad forskning, utbildning och teknologi genom att skapa och distribuera lingvistiska resurser: data, verktyg och standarder o distribuerar korpusar (text och tal för många olika språk), lexikon etc. Oxford Text Archive (OTA): http://ota.ahds.ac.uk/ o samlar in, katalogiserar och bevarar elektroniska texter av hög kvalitet för forskning och undervisning o distribuerar mer än 2000 resurser för över 20 språk.
Korpusdistributörer European Language Resources Association (ELRA): http://www.elra.info/ Evaluations and Language Resources Distribution Agency (ELDA): http://www.elda.org o Distribuerar, producerar, standardiserar och utvärderar språkresurser (lexikon, korpusar etc) o Organiserar konferenser: The Language Resources and Evaluation Conference, LREC o Ger underlag för utvärdering av olika applikationer
Korpusdistributörer International Computer Archive of Modern English (ICAME): http://nora.hd.uib.no/whatis.html osamordnar och underlättar distribution av korpusar oorganiserar konferens, ger ut tidskriften ICAME Journal TELRI: http://www.telri.de osamlar in och distribuerar en- och flerspråkiga språkresurser med speciellt fokus på central- och östeuropeiska språk.
Användbara länkar för den korpusintresserade CORPORA-listan: http://nora.hd.uib.no/fileserv.html oelektronisk mejlinglista för alla som är intresserade av korpusar ohär kan man få tips och svar på frågor ACL SIGLEX: http://www.clres.com/siglex.html Special Interest Group on the Lexicon of the Association for Computational Linguistics olänkar till elektroniska lexikon, korpusar etc.
Tänk på upphovsrätten! Vilka lagar gäller för material som man hittar på nätet? Bara för att en text är publicerad på Internet, så betyder det inte att den är fri att använda och sprida vidare! Upphovsrätt till ett verk gäller intill utgången av sjuttionde året efter det år då upphovsmannen avled eller [...] efter den sist avlidne upphovsmannens dödsår. Många korpusar som finns på Internet kräver licens för att man ska få tillgång till dem
Vad säger lagen? Du kan alltid ladda hem ett verk som finns tillgängligt på Internet, kopiera från digital till digital form och/eller skriva ut det om du endast gör det för ditt privata bruk. Förlagan du kopierar från får inte vara en olovlig förlaga (piratkopia). Du får inte sprida det kopierade exemplaret utanför din närmaste familj eller vänkrets. Du får aldrig, inte ens för privat bruk, kopiera datorprogram eller databaser.
Upphovsrätt på Internet Problem med lagtolkningen: Internet är internationellt, medan upphovsrättslagarna ser olika ut i olika länder Indien: Ett verk är skyddat i 60 år efter upphovsmannens död (jmf Sverige 70 år) Internationella överenskommelser om upphovsrätt, t.ex. Bernkonventionen Kuba: Har ej skrivit under Bernkonventionen, upphovsrätten inget skydd
Korpussamlingar Gutenberg: http://www.gutenberg.org/ o innehåller ca 20 000 fritt nedladdbara e-böcker o när författaren har varit död i 70 år skyddas verket inte längre av upphovsrättslagarna Runeberg: http://runeberg.org/ o som Gutenberg, fast för nordisk litteratur o skapat av Linköpings universitet Gallica: http://gallica.bnf.fr/ o fransk motsvarighet
Nästa gång Föreläsning: Introduktion till WordSmith Labb: Bearbetning av egna data i WordSmith Labbinstruktioner: http://stp.lingfil.uu.se/~evapet/undervisning/datorverktyg07/wordsmith. html