Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se

Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering och exempel på korpusar Korpusdistributörer Upphovsrätt

Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: text eller texter som är föremål för språkvetenskapliga studier, i synnerhet med hjälp av dator Samling språkliga data som: o består av en samling skrivna texter eller transkriptioner av talspråk o är mer eller mindre representativt för språket i fråga o lagras elektroniskt Internet = Världens största korpus!

Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet)

Vilken information kan man få fram ur en korpus? Sökningar i korpusen visar hur språket faktiskt används och har använts i verkliga livet (inga lösa teorier), t.ex: o Används konjunktivformer (vore, måtte, funnes) i svenska språket idag? o Säger man bättre än jag eller bättre än mig? o Säger man det kommer bli roligt eller det kommer att bli roligt? o När började man skriva mej istället för mig i skrift?

Svaren... 205 konjunktivformer i SUC-korpusen: vore, vare och måtte överlägset vanligast övriga: må, leve, bevare, tillkomme, tröste, månde, bleve, varde, varen, såge PAROLE-korpusen: bättre än jag: 40 träffar bättre än mig: en träff SUC-korpusen: kommer + verb i infinitiv: en träff kommer + att + verb i infinitiv: 423 träffar

Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker

Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: o representativt urval o begränsad storlek (inte alltid) o elektronisk form o standardreferens

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: o definiera populationen ( sampling frame ) o fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung o bestäm storleken (vad är den optimala storleken?)

Balanserade korpusar Balanserade korpusar består av olika texttyper i bestämda proportioner Proportionerna är avvägda så att korpusen speglar språket i fråga alternativt en viss aspekt av språket i fråga

Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, ex: o Ordklass (part-of-speech) o Böjningsinformation (morfo-syntaktisk information) o Lemma (grundform, d.v.s. uppslagsord i lexikon) o Syntax o Fonetik (uttal) transkription o Semantik Annoteringen kan göras för hand eller automatiskt.

Ordklasstaggning Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverb-indelning och skillnad mellan grundtal och ordningstal

Uppmärkning av böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt)

SUC (Stockholm Umeå Corpus) Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation

Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose

Annotering i SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>absärskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM smygrustning</w> <w n=70>vad<ana><ps>havad</w> <w n=71>gäller<ana><ps>vb<m>prs AKTgälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOMmissil</w> <w n=73>oroar<ana><ps>vb<m>prs AKToroa</w> <d n=74>.<ana><ps>mad.</d> </s>

SUC i användarvänligt format Språkbanken: http://spraakbanken.gu.se/parole/ Webbsida som samlat ett flertal svenska, elektroniskt sökbara lexikon och korpusar Visar resultatet i konkordansform Möjliggör sökning efter: o specifika ord (alla förekomster av ordformen tysktalande) o specifika ordklasser (alla förekomster av ordklassen adjektiv) o delsträngar (alla ord som slutar på -ande) o kombinationer av ovanstående (alla ord som slutar på -ande och som är adjektiv)

Konkordanser

Konkordanssökning för spanska Corpus del Espanol 100 miljoner ord från 1200-talet och fram till 1900-talet http://www.corpusdelespanol.org/ Spanish On-Line (SOL) Ca 2 900 000 ord nutidsspanska Tillgänglig från http://spraakbanken.gu.se/konk/rom2/

BNC British National Corpus http://www.natcorp.ox.ac.uk/ Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt

Uppmärkning i BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters

Uppmärkning av syntax Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser etc Satsdelar subjekt, objekt, adverbial etc

Trädbanker (syntaktiskt uppmärkta korpusar) Penn Treebank o Engelsk tidningstext (Wall Street Journal) Talbanken o En av världens äldsta trädbanker (70-talet) o Talad och skriven svenska

Dependensuppmärkning i Talbanken <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare PR komplement till preposition SUB subjekt IP interpunktion DET determinerare

Uppmärkning av fonetisk information Alla korpusar beskriver inte skrivet språk Talspråkskorpusar utgörs av inspelade samtal Transkriberas Ska man märka upp skratt, tvekanden etc? Bidrar det till samtalet?

Exempel på talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) o 1,5 miljoner inspelade ord o Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) http://khnt.hit.uib.no/icame/manuals/londlund/ o 500 000 ord o Talad, brittisk engelska o Transkriberad

Uppmärkning av semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: oordbetydelse: synonymi, hyponymi etc. osemantiska relationer: agent, patient etc.

Ur Svenskt Ordnät av Åke Viberg: Grundläggande semantiska relationer i ordnät

Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Exempel på flerspråkiga korpusar: Hansard (kanadensiska parlamentstexter på engelska och franska) EUROPARL (europeiska parlamentstexter) JRC-ACQUIS (europeiska lagtexter)

EUROPARL European Parliament Proceedings Parallel Corpus http://www.statmt.org/europarl/ Parallellkorpus Europaparlamentstexter från perioden 1996-2003 Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare

JRC-Acquis http://langtech.jrc.it/jrc-acquis.html Parallellkorpus (monitorkorpus) EU-lagtexter Ca 8 000 dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska

Korpusdistributörer Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu o stödjer språkrelaterad forskning, utbildning och teknologi genom att skapa och distribuera lingvistiska resurser: data, verktyg och standarder o distribuerar korpusar (text och tal för många olika språk), lexikon etc. Oxford Text Archive (OTA): http://ota.ahds.ac.uk/ o samlar in, katalogiserar och bevarar elektroniska texter av hög kvalitet för forskning och undervisning o distribuerar mer än 2000 resurser för över 20 språk.

Korpusdistributörer European Language Resources Association (ELRA): http://www.elra.info/ Evaluations and Language Resources Distribution Agency (ELDA): http://www.elda.org o Distribuerar, producerar, standardiserar och utvärderar språkresurser (lexikon, korpusar etc) o Organiserar konferenser: The Language Resources and Evaluation Conference, LREC o Ger underlag för utvärdering av olika applikationer

Korpusdistributörer International Computer Archive of Modern English (ICAME): http://nora.hd.uib.no/whatis.html osamordnar och underlättar distribution av korpusar oorganiserar konferens, ger ut tidskriften ICAME Journal TELRI: http://www.telri.de osamlar in och distribuerar en- och flerspråkiga språkresurser med speciellt fokus på central- och östeuropeiska språk.

Användbara länkar för den korpusintresserade CORPORA-listan: http://nora.hd.uib.no/fileserv.html oelektronisk mejlinglista för alla som är intresserade av korpusar ohär kan man få tips och svar på frågor ACL SIGLEX: http://www.clres.com/siglex.html Special Interest Group on the Lexicon of the Association for Computational Linguistics olänkar till elektroniska lexikon, korpusar etc.

Tänk på upphovsrätten! Vilka lagar gäller för material som man hittar på nätet? Bara för att en text är publicerad på Internet, så betyder det inte att den är fri att använda och sprida vidare! Upphovsrätt till ett verk gäller intill utgången av sjuttionde året efter det år då upphovsmannen avled eller [...] efter den sist avlidne upphovsmannens dödsår. Många korpusar som finns på Internet kräver licens för att man ska få tillgång till dem

Vad säger lagen? Du kan alltid ladda hem ett verk som finns tillgängligt på Internet, kopiera från digital till digital form och/eller skriva ut det om du endast gör det för ditt privata bruk. Förlagan du kopierar från får inte vara en olovlig förlaga (piratkopia). Du får inte sprida det kopierade exemplaret utanför din närmaste familj eller vänkrets. Du får aldrig, inte ens för privat bruk, kopiera datorprogram eller databaser.

Upphovsrätt på Internet Problem med lagtolkningen: Internet är internationellt, medan upphovsrättslagarna ser olika ut i olika länder Indien: Ett verk är skyddat i 60 år efter upphovsmannens död (jmf Sverige 70 år) Internationella överenskommelser om upphovsrätt, t.ex. Bernkonventionen Kuba: Har ej skrivit under Bernkonventionen, upphovsrätten inget skydd

Korpussamlingar Gutenberg: http://www.gutenberg.org/ o innehåller ca 20 000 fritt nedladdbara e-böcker o när författaren har varit död i 70 år skyddas verket inte längre av upphovsrättslagarna Runeberg: http://runeberg.org/ o som Gutenberg, fast för nordisk litteratur o skapat av Linköpings universitet Gallica: http://gallica.bnf.fr/ o fransk motsvarighet

Nästa gång Föreläsning: Introduktion till WordSmith Labb: Bearbetning av egna data i WordSmith Labbinstruktioner: http://stp.lingfil.uu.se/~evapet/undervisning/datorverktyg07/wordsmith. html