Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41)

Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs. kvalitativa metoder Korpuslingvistik Lexikala databaser Korpusar 2(41)

Innehåll Befintliga språkresurser: textsamlingar, taldabaser, korpusar, trädbanker, parallella korpusar, parallella trädbanker Olika typer av korpora samt deras användning inom språkvetenskaplig forskning Olika typer av kvantitativa analyser såsom t.ex. ordfrekvens, meningslängd och nyckelordsanalys Att bygga en korpus: datainsamling, scanning, formatering, uppmärkning, annotering Befintliga verktyg för korpusuppbyggnad och analys Korpusar 3(41)

Lärandemål översiktligt redogöra för grundläggande begrepp inom korpuslingvistik; översiktligt redogöra för olika slags korpusar, inklusive parallella korpusar; redogöra för och i viss mån behärska tekniker för elementär kvantitativ analys av korpusar; översiktligt redogöra för grammatisk uppmärkning av korpusar och dess innebörd; exemplifiera och redogöra för en- eller flerspråkiga lexikala databaser och deras lingvistiska organisation. Korpusar 4(41)

Examination Fyra laborationer varav två med skriftlig redovisning Korpusar och korpusuppbyggnad Korpussökning med Webcorp Wordsmith Tools: 20/10 Korp: 27/10 Fördjupningsuppgift: referat av artikel (max 3 per grupp) Skriftlig rapport på 2 A4 sidor senast 4/11 till Bea Muntlig presentation, ca 10 minuter/grupp Dugga på alla begrepp som tagits upp på föreläsningarna Korpusar 5(41)

Litteratur och hemsida Baker, Paul (2006) Using Corpora in Discourse Analysis. London & New York: Continuum. Artiklar för fördjupningsuppgifter får gärna väljas ur: McCarthy, Michael, och O Keeffe Anne (2009) The Routledge Handbook of Corpus Linguistics, London och New York: Routledge. Course page: http://stp.lingfil.uu.se/~mats/uv/uv11/sdt/ Korpusar 6(41)

Innehåll Studiet av språk Korpuslingvistik Korpusar: definition och innehåll Arkiv och distribution Laboration Korpusar 7(41)

Studiet av språk Intuitionsbaserad traditionell hitta på exempel för analys representerar inte nödvändigtvis typisk språkanvändning vad som är acceptabelt är individuellt bör användas med försiktighet; kan påverkas av ens dialekt, sociolekt resultat som baseras på introspektion är inte observerbar och är svårt att verifiera Korpusar 8(41)

Studiet av språk Korpusbaserad undersöka språket genom att använda autentiska exempel som tas från textssamlingar, en korpus vad vi ser i en korpus är i stort sett grammatiskt och/eller acceptabelt en korpus kan ge tillförlitlig kvantitativ data Korpusar 9(41)

Kvinnospråk, Cederschiöld 1899 Naturligtvis skulle det säkraste och fullständigaste resultatet vinnas genom antecknande, granskande och jämförande af det språkliga material, som ett stort antal individer af hvartdera könet faktiskt vid bestämda tillfällen användt, - alltså genom vetenskaplig induktion enligt den vanliga, godkända metoden. Denna väg är emellertid mycket lång och besvärlig. Det insamlade materialet måste blifva ofantligt rikhaltigt och omfattande för att kunna tjäna till säker grundval för undersökningen. Också kommer det utan tvifvel att dröja länge, innan någon forskare underkastar sig mödan att göra dylika materialsamlingar. Korpusar 10(41)

Cederschiölds mål Att uppvisa, hvad som är karakteristiskt för kvinnornas språk i motsats till männens, hvad som konstituerar kvinnospråket. Att undersöka olika gruppers språk och försöka se vad som karakteriserar respektive grupps språk. Hur speglar språket identitet och grupptillhörighet? Korpusar 11(41)

Korpuslingvistik - Corpus linguistics Termen lanserades först på 1980-talet (Leech) Metoden användes redan på 20-talet Förr: texter på papper, manuell bearbetning Empiriskt, analysen baseras på observerad men liten mängd data Korpusar 12(41)

Vad är korpuslingvistik? Studera språket genom att studera en viss mängd av språket - en korpus! Gammal idé att upprätta en speciell mängd data språkliga data (dialektstudier, studier av utdöda språk, komparativ lingvistik, deskriptiv grammatik) förverkligad genom modern teknik (började på 60-talet, vanligt sedan 80-talet) Korpuslingvistik är empirisk lingvistik Jämför med s.k. fåtöljlingvistik där den egna intuitionen utgör måttstock. Korpusar 13(41)

Korpuslingvistik? hårt kritiserad av Chomsky... real language is riddled with performance-related errors, thus requiring careful analysis of small speech samples obtained in a highly controlled laboratory setting... Kombinera insamling av texter med modern datateknik Korpusar 14(41)

Studiet av språk Neither the corpus linguist of the 1950s, who rejected intuition, nor the general linguist of the 1960s, who rejected corpus data, was able to achieve the interaction of data coverage and the insight that characterise the many successful corpus analyses of recent years. (Leech, 1991) Korpusar 15(41)

Varför använda datorer? The immense scope of a modern corpus, and the range of computing resources that are available for exploiting it, make up a powerful force for deepening our awareness and understanding of language. (M.A.K. Halliday) Korpusar 16(41)

Varför använda datorer? lätt att söka, sortera, formatera data snabbt, konsekvent och (oftast) korrekt mer pålitliga resultat jämfört med människor kan annoteras automatiskt för att berika den lingvistiska analysen Korpusar 17(41)

Varför korpuslingvistik? Objektiv lingvistik genom att undersöka språk som det används i verkligheten Enda sättet att undersöka frekvens i språkbruket Två grenar av korpuslingvistik: språkvetenskap kontra språkteknologi Olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter Empirisk språkforskning kontra (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar Korpusar 18(41)

Språkvetenskap Bakgrund: empirisk lingvistik Syfte: traditionell språkforskning Verktyg: konkordans/ordlista/statistikprogram Konferenser: t.ex. Tidskrifter: t.ex. Conference of the Int. Computer Archive of Modern/Mediaeval English (ICAME) Teaching and Language Corpora Conference (TALC) International Journal of Corpus Linguistics Korpusar 19(41)

Språkteknologi Bakgrund: datalogi, matematisk lingvistik Syfte: maskininlärning Verktyg: taggare, parser, länkningsverktyg Konferenser: t.ex. Tidskrifter: t.ex. Int. Conf. on Computational Linguistics (COLING) Meetings of the ACL (ACL, EACL, NAACL) Empirical Methods in NLP (EMNLP) Computational Linguistics, Journal of Natural Language Engineering Korpusar 20(41)

Vad är en korpus? (1) Term: korpus/korpusar vs corpus/corpora Definition: samling autentiska språkliga data (texter eller transkriptioner av talspråk) som är hopsamlad/samplad för att vara mer eller mindre representativ för språket i fråga och som lagras elektroniskt i databas Mål: Med hjälp av en korpus kan man upprätta och verifiera hypoteser om naturligt språk, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion används. Eftersom korpora är elektroniskt lagrade och sökbara, kan man raskt få fram alla förekomster av en viss företeelse. Korpusar 21(41)

Vad är en korpus? (2) A body of naturally occurring text Korpusar är (stora) textsamlingar eller transkriptioner av taldata, sammanställda för att vara en representativ samling av ett viss språk eller språkvariant ofta begränsad storlek och annoterade med ett syfte i åtanke Korpusar 22(41)

Vad är en korpus? (3) It should be added that computer corpora are rarely haphazard collections of textual material: They are generally assembled with particular purposes in mind, and are often assembled to be (informally speaking) representative of some language or text type. (Leech, 1992) A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (Sinclair, 1996) Korpusar 23(41)

Korpus: exempel SUC (Stockholm Umeå Corpus): 1 miljon ord (skrift) PAROLE corpus from Språkbanken: 19 miljon ord (skrift) BNC (Brittish National Corpus): 100 miljon ord (skrift/tal) London-Lund corpus: 0,5 miljon ord (tal) Korpusar 24(41)

... (stora) textsamlingar (2) Ett språk eller flera språk Parallella korpusar (t.ex. EuroParl) Synkronisk eller diakronisk Historisk Modern Diakronisk (Vad behöver man tänka på för att korpusen verkligen skall lämpa sig för diakroniska studier?). Korpusar 25(41)

... sammanställda Korpussammanställning är precis som opinionsundersökningar: Man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population... för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen Det är alltså mycket viktigt att planera hur stickprovet görs! Korpusar 26(41)

... och annoterade Textmetadata Strukturmärkning Lingvistisk annotering Ordklasstaggning Syntaxanalys (trädbank) Semantisk information Länkade på menings- och ordnivå (parallellkorpusar) Korpusar 27(41)

... med ett syfte i åtanke Korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vagt Korpusar kan ofta vara användbara för andra syften också t.ex. diakroniska korpusar: empiriska undersökningar av språkförändringar t.ex. parallella korpusar: inlärning av översättningsparametrar fär översättningssystem Korpusar kan vara standardrefererens för komparativa studier Korpusar 28(41)

Korpusar en korpus i modern lingvistik är inte bara en eller flera texter utgör också ett representativt urval (vad är det?) har en begränsad storlek (inte alltid) är maskinläsbar används som standardreferens Korpusar 29(41)

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) med ett syfte i åtanke Biber ( Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) - genre, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) Korpusar 30(41)

Korpustyper: parametrar modalitet: text, tal, tecknat, multimodalt material språktyp, genre, etc. språk: ett, två, många relation mellan språken (jämförbar, parallell,...) storlek: finit storlek (undantag: monitorkorpusar) analyserat, disambiguerat, typ av annotering Korpusar 31(41)

Korpustyper ett språk (monolingual corpus) eller flera språk (multilingual corpus) translation: original text and dess översättning till olika språk comparable: jämförbara originaltexter i olika språk, där texterna i varje språk har valts ut utifrån samma kriterier (genre, innehåll, publikation, datum, etc) parallel: översättningskorpus särkilt formaterad så att texterna är länkade (e.g. EuroParl) synkronisk, diakronisk, historisk eller modern Korpusar 32(41)

Typ av (annoterings)information Extra-textuell information (Metadata) Titel, författare, datum, språk, domän Ortografisk information Lingvistisk information Ordklass (part-of-speech) Lemma Semantisk uppmärkning Textlingvistisk annotering (t.ex. pragmatisk-retorisk, stilanalys) Fonetik Länkning (alignment) Korpusar 33(41)

Korpusar - ett par exempel SUC: allmänsvenskt skriftspråk från 1990-talet 500 texter, 2000 token per text 9 genrer, med subkategorier, t.ex. K - imaginative prose KK - general fiction KL - science fiction KN - light reading KR - humour info om lemma, ordklass (part-of-speech), namnuttryck (named entities) Korpusar 34(41)

Example: SUC <text id=suctext-aa01c> <body> <div type= sucdiv > <HEAD> <s id=aa01c-001> <w lem= sovjetisk msd= AQPNSNIS n=1952>sovjetiskt</w> <w lem= pansar msd= NCNSN@IS n=1953>pansar</w> <w lem= i msd= SPS n=1954>i</w> <NAME TYPE=PLACE> <w lem= Vilnius msd= NP00N@0S n=1955>vilnius</w> </NAME> </s> </HEAD> <BYLINE> <s id=aa01c-002> <w lem= av msd= SPS n=1956>av</w> <NAME TYPE=PERSON> <w lem= Michael msd= NP00N@0S n=1957>michael</w> <w lem= Winiarski msd= NP00N@0S n=1958>winiarski</w> </NAME> </s> <BYLINE> Korpusar 35(41)

Brown corpus Brown University Corpus (Brown corpus) 1964: http://helmer.aksis.uib.no/icame/brown/bcm.html släkt med SUC amerikansk engelska balanserad over 1 miljon ord 500 sampel med 2000 i varje ordklasstaggad (82 tags) W. Nelson Francis and Henry Kucera, 1964-1979 Korpusar 36(41)

Example: Brown THE AT A01001001E1 *FULTON NP-TL A01001002E1 *COUNTY NN-TL A01001003E1 *GRAND JJ-TL A01001004E1 *JURY NN-TL A01001005E1 SAID VBD A01001006E1 *FRIDAY NR A01001007E1 AN AT A01001008E1 INVESTIGATION NN A01001009E1 OF IN A01002001E1 *ATLANTA S NP A01002002E1 RECENT JJ A01002003E1 PRIMARY NN A01002004E1 ELECTION NN A01002005E1 PRODUCED VBD A01002006E1 NO AT A01002007E1 EVIDENCE NN A01002008E1 THAT CS A01002009E1 ANY DTI A01003001E1 IRREGULARITIES NNS A01003002E1 TOOK VBD A01003003E1 PLACE NN A01003004E1.. A01003005E1 Korpusar 37(41)

LOB LOB (Lancaster-Oslo/Bergen) Corpus: http://khnt.hit.uib.no/icame/manuals/lob/index.htm åstadkomma Brown för brittisk engelska 500 texter med 2000 ord i varje version med eller utan PoS taggar PoS taggad, taggarna är från Brown med viss modifikation Eric Atwell, Roger Garside, Stig Johansson, Geoffrey Leech, 1970-1978 Korpusar 38(41)

Sammanfattning En korpus kan se ut på många olika sätt men alla har de gemensamt att de består av autentisk text, är systematiskt hopsamlade (samplade), är representativa för sitt område, och är elektroniskt lagrade. Olika typer av korpora har kommit att bli ett mycket viktigt redskap inom språkforskningen. Korpusar 39(41)

Sammanfattning Använder man sig av korpora är det alltid viktigt att man som användare vet hur de är uppbyggda. Hur väl passar korpusmaterialet min frågeställning? Vad kan jag förvänta mig av min korpus avseende olika skevheter? Korpora är ett effektivt sätt att nå längre än till sin egen intuition... men de kan ge missvisande (eller snarare feltolkade) resultat om inte användaren är noga med att sätta sig in i data. Korpusar 40(41)

Laboration 1 Sök i korpusarkiv. Hitta och välj två korpusar som du är intresserad av och jämför dessa. Anteckna n ågra punkter om de viktigaste dragen och jämförelserna mellan de tv å korpusarna. Korpusar 41(41)