Datorbaserade verktyg i humanistisk forskning

Relevanta dokument
Elementära verktyg för korpusbearbetning

Datorbaserade verktyg i humanistisk forskning

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Lingvistik I Delmoment: Datorlingvistik

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik

Grammatik för språkteknologer

Korpuslingvistik vt 2007

Lingvistiskt uppmärkt text

Språk, datorer och textbehandling

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Grammatik för språkteknologer

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Grammatik för språkteknologer

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

Karp. Övningar Språkbankens höstworkshop oktober 2016

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Ordklasser och satsdelar

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Grammatisk teori II Attributvärdesgrammatik

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Facit för diagnostiska provet i grammatik

Korpusuppbyggnad Från textsamling till korpus

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

SUBSTANTIV = namn på saker, personer, känslor

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Lingvistiskt uppmärkt text

Kort presentation av Korp, Sveriges nationalkorpus

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.

Love Peace and Understandning

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv)

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

15410/17 MLB/cc DGC 1A

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.

ANNEX BILAGA. till. förslag till rådets beslut

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

BILAGA. till. förslaget till rådets beslut

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Meningssegmentering i SUC och Talbanken

Språk, datorer och textbehandling

Välkommen till den första delkursen i svenska!

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN

Datorlingvistisk grammatik

Datorlingvistisk grammatik

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

ANDREAS ISSA SVENSKA SPRÅKET

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

ORDKLASSERNA I SVENSKA SPRÅKET

grammatik Ordklasser, nominalfraser, substantiv

Svensk minigrammatik

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8

Grundläggande textanalys. Joakim Nivre

17196/09 akb/ell/am 1 DQPG

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Satslära introduktion

729G09 Språkvetenskaplig databehandling

Svensk nationell datatjänst, SND BAS Online

729G09 Språkvetenskaplig databehandling

Fraser, huvuden och bestämningar

ORDKLASSERNA I. Ett sätt att sortera våra ord

Språk, datorer och textbehandling

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Datorlingvistisk grammatik

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

Att undersöka språkmöten med datorn

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språk, datorer och textbehandling

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

I Nationalbibliografin redovisad utgivning (monografier)

Kursbeskrivning med litteraturlista HT-13

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Korpusmått, korpusbalans och korpusrepresentativitet

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Grammatisk teori III Praktisk analys

Grammatik för språkteknologer

Sveriges internationella överenskommelser

tot tot

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Transkript:

Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se

Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering och exempel på korpusar Korpusdistributörer Upphovsrätt

Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: text eller texter som är föremål för språkvetenskapliga studier, i synnerhet med hjälp av dator Samling språkliga data som: o består av en samling skrivna texter eller transkriptioner av talspråk o är mer eller mindre representativt för språket i fråga o lagras elektroniskt Internet = Världens största korpus!

Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet)

Vilken information kan man få fram ur en korpus? Sökningar i korpusen visar hur språket faktiskt används och har använts i verkliga livet (inga lösa teorier), t.ex: o Används konjunktivformer (vore, måtte, funnes) i svenska språket idag? o Säger man bättre än jag eller bättre än mig? o Säger man det kommer bli roligt eller det kommer att bli roligt? o När började man skriva mej istället för mig i skrift?

Svaren... 205 konjunktivformer i SUC-korpusen: vore, vare och måtte överlägset vanligast övriga: må, leve, bevare, tillkomme, tröste, månde, bleve, varde, varen, såge PAROLE-korpusen: bättre än jag: 40 träffar bättre än mig: en träff SUC-korpusen: kommer + verb i infinitiv: en träff kommer + att + verb i infinitiv: 423 träffar

Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker

Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: o representativt urval o begränsad storlek (inte alltid) o elektronisk form o standardreferens

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: o definiera populationen ( sampling frame ) o fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung o bestäm storleken (vad är den optimala storleken?)

Balanserade korpusar Balanserade korpusar består av olika texttyper i bestämda proportioner Proportionerna är avvägda så att korpusen speglar språket i fråga alternativt en viss aspekt av språket i fråga

Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, ex: o Ordklass (part-of-speech) o Böjningsinformation (morfo-syntaktisk information) o Lemma (grundform, d.v.s. uppslagsord i lexikon) o Syntax o Fonetik (uttal) transkription o Semantik Annoteringen kan göras för hand eller automatiskt.

Ordklasstaggning Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverb-indelning och skillnad mellan grundtal och ordningstal

Uppmärkning av böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt)

SUC (Stockholm Umeå Corpus) Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation

Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose

Annotering i SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM <b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s>

SUC i användarvänligt format Språkbanken: http://spraakbanken.gu.se/parole/ Webbsida som samlat ett flertal svenska, elektroniskt sökbara lexikon och korpusar Visar resultatet i konkordansform Möjliggör sökning efter: o specifika ord (alla förekomster av ordformen tysktalande) o specifika ordklasser (alla förekomster av ordklassen adjektiv) o delsträngar (alla ord som slutar på -ande) o kombinationer av ovanstående (alla ord som slutar på -ande och som är adjektiv)

Konkordanser

Konkordanssökning för spanska Corpus del Espanol 100 miljoner ord från 1200-talet och fram till 1900-talet http://www.corpusdelespanol.org/ Spanish On-Line (SOL) Ca 2 900 000 ord nutidsspanska Tillgänglig från http://spraakbanken.gu.se/konk/rom2/

BNC British National Corpus http://www.natcorp.ox.ac.uk/ Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt

Uppmärkning i BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters

Uppmärkning av syntax Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser etc Satsdelar subjekt, objekt, adverbial etc

Trädbanker (syntaktiskt uppmärkta korpusar) Penn Treebank o Engelsk tidningstext (Wall Street Journal) Talbanken o En av världens äldsta trädbanker (70-talet) o Talad och skriven svenska

Dependensuppmärkning i Talbanken <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare PR komplement till preposition SUB subjekt IP interpunktion DET determinerare

Uppmärkning av fonetisk information Alla korpusar beskriver inte skrivet språk Talspråkskorpusar utgörs av inspelade samtal Transkriberas Ska man märka upp skratt, tvekanden etc? Bidrar det till samtalet?

Exempel på talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) o 1,5 miljoner inspelade ord o Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) http://khnt.hit.uib.no/icame/manuals/londlund/ o 500 000 ord o Talad, brittisk engelska o Transkriberad

Uppmärkning av semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: oordbetydelse: synonymi, hyponymi etc. osemantiska relationer: agent, patient etc.

Ur Svenskt Ordnät av Åke Viberg: Grundläggande semantiska relationer i ordnät

Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Exempel på flerspråkiga korpusar: Hansard (kanadensiska parlamentstexter på engelska och franska) EUROPARL (europeiska parlamentstexter) JRC-ACQUIS (europeiska lagtexter)

EUROPARL European Parliament Proceedings Parallel Corpus http://www.statmt.org/europarl/ Parallellkorpus Europaparlamentstexter från perioden 1996-2003 Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare

JRC-Acquis http://langtech.jrc.it/jrc-acquis.html Parallellkorpus (monitorkorpus) EU-lagtexter Ca 8 000 dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska

Korpusdistributörer Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu o stödjer språkrelaterad forskning, utbildning och teknologi genom att skapa och distribuera lingvistiska resurser: data, verktyg och standarder o distribuerar korpusar (text och tal för många olika språk), lexikon etc. Oxford Text Archive (OTA): http://ota.ahds.ac.uk/ o samlar in, katalogiserar och bevarar elektroniska texter av hög kvalitet för forskning och undervisning o distribuerar mer än 2000 resurser för över 20 språk.

Korpusdistributörer European Language Resources Association (ELRA): http://www.elra.info/ Evaluations and Language Resources Distribution Agency (ELDA): http://www.elda.org o Distribuerar, producerar, standardiserar och utvärderar språkresurser (lexikon, korpusar etc) o Organiserar konferenser: The Language Resources and Evaluation Conference, LREC o Ger underlag för utvärdering av olika applikationer

Korpusdistributörer International Computer Archive of Modern English (ICAME): http://nora.hd.uib.no/whatis.html osamordnar och underlättar distribution av korpusar oorganiserar konferens, ger ut tidskriften ICAME Journal TELRI: http://www.telri.de osamlar in och distribuerar en- och flerspråkiga språkresurser med speciellt fokus på central- och östeuropeiska språk.

Användbara länkar för den korpusintresserade CORPORA-listan: http://nora.hd.uib.no/fileserv.html oelektronisk mejlinglista för alla som är intresserade av korpusar ohär kan man få tips och svar på frågor ACL SIGLEX: http://www.clres.com/siglex.html Special Interest Group on the Lexicon of the Association for Computational Linguistics olänkar till elektroniska lexikon, korpusar etc.

Tänk på upphovsrätten! Vilka lagar gäller för material som man hittar på nätet? Bara för att en text är publicerad på Internet, så betyder det inte att den är fri att använda och sprida vidare! Upphovsrätt till ett verk gäller intill utgången av sjuttionde året efter det år då upphovsmannen avled eller [...] efter den sist avlidne upphovsmannens dödsår. Många korpusar som finns på Internet kräver licens för att man ska få tillgång till dem

Vad säger lagen? Du kan alltid ladda hem ett verk som finns tillgängligt på Internet, kopiera från digital till digital form och/eller skriva ut det om du endast gör det för ditt privata bruk. Förlagan du kopierar från får inte vara en olovlig förlaga (piratkopia). Du får inte sprida det kopierade exemplaret utanför din närmaste familj eller vänkrets. Du får aldrig, inte ens för privat bruk, kopiera datorprogram eller databaser.

Upphovsrätt på Internet Problem med lagtolkningen: Internet är internationellt, medan upphovsrättslagarna ser olika ut i olika länder Indien: Ett verk är skyddat i 60 år efter upphovsmannens död (jmf Sverige 70 år) Internationella överenskommelser om upphovsrätt, t.ex. Bernkonventionen Kuba: Har ej skrivit under Bernkonventionen, upphovsrätten inget skydd

Korpussamlingar Gutenberg: http://www.gutenberg.org/ o innehåller ca 20 000 fritt nedladdbara e-böcker o när författaren har varit död i 70 år skyddas verket inte längre av upphovsrättslagarna Runeberg: http://runeberg.org/ o som Gutenberg, fast för nordisk litteratur o skapat av Linköpings universitet Gallica: http://gallica.bnf.fr/ o fransk motsvarighet

Nästa gång Föreläsning: Introduktion till WordSmith Labb: Bearbetning av egna data i WordSmith Labbinstruktioner: http://stp.lingfil.uu.se/~evapet/undervisning/datorverktyg07/wordsmith. html