Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Korpusanalyser och Lab 4 729G09 Språkvetenskaplig databehandling 2014-05-21

Laborationens syfte Öva användningen av webbaserade korpusar och korpusverktyg frekvensberäkningar konkordanser kollokationsverktyg Ge insikter om hur korpusar kan användas för undersökningar av språkbruk och kulturella värderingar i språkbruket.

Kvantitativ analys vid korpusarbete Räkna och jämföra frekvenser absoluta frekvenser relativa frekvenser Hitta oväntade händelser samförekomstmått Rangordna, t.ex. efter frekvens eller samförekomstmått

Kvalitativa analyser Viktigt att veta vad vi räknar Ordtyper, Lemman, Ordklassetiketter, Se upp för flertydiga ord! man som pronomen vs. man som nomen Gruppera data i (relevanta) kategorier Tolka data (med omdöme och försiktighet) Förklaringarna finns inte i korpusen!

lemgram-sökning i Korp ger träffar även på mannen, män,...

Frekvensstatistik i Korp absolut frekvens relativ frekvens (antal / miljon)

Information om valda korpusar (inkl. antal tokens)

Relativ frekvens Relativ frekvens (eller proportion) för ett ord/fras i en korpus beräknas med f/n där f är den absoluta frekvensen för ordet, och N är det totala antalet ord i korpusen. För stora N är relativ frekvens en vanlig uppskattning av sannolikheten för ett visst ord.

Jämföra frekvenser Olikheter i frekvens kan visa på olikheter i språkbruk, t.ex. vad gäller genrer kön epok Därför är det viktigt att bestämma om skillnaden är slumpmässig eller signifikant. Ofta kan signifikans avgöras med ögat, men i svårare fall kan man använda signifikanstest.

Signifikanstest Signifikanstest är statistiska test som ger oss information om hur säker vi kan vara på en viss slutsats, I korpusanalyser t.ex. slutsatser av typen... observerade frekvenser talar emot hypotesen att två ord används lika mycket i olika genrer, eller vid olika tidpunkter observerade frekvenser talar emot hypotesen att ett ordpar t.ex. blå ögon eller nytt program utgör en kollokation

Ett exempel Vilka av de tre engelska orden diary, novel och story är vanligast? Är dessa ord lika vanliga idag som för femtio år sedan?

Plottade frekvenser från Google ngrams (1950-2005) story novel diary

Relativa frekvenser 1950 vs 2000 (från Google books) diary novel story 1950 0,0000154 0,0000324 0,000151 2000 0,0000164 0,0000534 0,000178 Hur avgöra om ökningen för orden är signifikant?

Signifikanstest t-test, antar underliggande normalfördelning χ 2 -test mutual information (MI) Alla test bygger på idén att ett beräknat värde jämförs med ett teoretiskt värde, som utgår från en antagen nollhypotes. Om avvikelsen är större än ett tröskelvärde kan vi dra slutsatsen att den alternativa hypotesen är korrekt med en viss sannolikhet.

χ 2 -test (Chi-squre) χ 2 -test O ij står för observerade värden E ij står för förväntade värden Förväntade värden kan beräknas utifrån ett antagande om att korpusarna är dragna från samma population χ 2 = Σ (O ij E ij ) 2 / E ij i,j

Chi-2 tillämpat på exemplet (en term) diary story O = 164, E = 154, (O-E) 2 = 10 2 = 100 χ 2 = 100/154 0,65 O = 1780, E = 1510, (O-E) 2 = 270 2 = 72900 χ 2 = 72900/1510 500 Tröskelvärdet för χ 2 med ett 95%-igt signifikansområde och en frihetsgrad är 3,841 χ 2 = (O E) 2 / E

Att jämföra alternativa ordformer Exempel 1: ska ~ skall Observerade värden (O ij ) (Data från Språkbankens tidningskorpusar) ska skall N Press 65 336 2006 991,000 Press 98 18141 7495 9,239,000 Totals 18477 9501 10,230,000

Signifikans Om vi har många observationer och stora skillnader I relativ frekvens, (eller relativ kvot) kan vi vara säkra på att skillnaden är signifikant. I Press 65 är förhållandet mellan ska och skall ca 1:6. I Press 98 är förhållandet ca 2:1 Vi kan med säkerhet säga att användningen av ska och skall skiljer sig åt mellan korpusarna. En annan sak är att förklara den.

Att jämföra alternativa ordformer Exempel 2: rom ~ zigenare Hur kan vi besvara följande frågor med korpusar? När började tidningar använda ordet rom? När blev rom vanligare än zigenare?

Kollokationer När två eller flera ord tenderar att samförekomma oftare än vad man kan förvänta sig talar vi om en kollokation. Ett samförekomstmått ger ett mätvärde för samförekomst. Sådana mått utgår ofta från en fyrfältstabell och korpusstorleken N: ord2 annat ord ord1 a b annat ord c d a: antal förekomster av paret 'ord1 ord2' a+b: antal förekomster av ord1 a+c: antal förekomster av ord2

Kollokationer Om a är stort i jämförelse med en kombination av alla parametrar kan vi dra slutsatsen att vi har en kollokation. Förväntad förekomst vid oberoende: (a+b)*(a+c)/n 2 p(ord1)p(ord2) Enkelt mått: Dice = 2a/(2a+b+c) ord2 annat ord ord1 a b annat ord c d

Kollokationer Med t.ex. χ 2 kan vi undersöka om en kollokation är statistiskt signifikant, men man vill också ha mått som genererar kollokationer. Ett sådant mått är Pointwise Mutual Information (I). I(x,y) = log 2 [p(x,y) / p(x)p(y)] I blir stort om x och y samförekommer ofta I ligger nära 0 om X och Y samförekommer slumpartat p(x) uppskattas med relativa frekvensen för ordet x (a+b)/n p(y) uppskattas med relativa frekvensen för ordet y (a+c)/n p(x,y) uppskattas med relativa frekvensen för samförekomster av x och y: a/n

BYU search panel Mutual information används här som mått på relevans sorteringsordning för träffar

'blue N' jämfört med 'green N' i BYU Corpus of American English

Kollokationer I BYU-systemet kallas ordning efter samförekomstmått för relevans. Jämför t.ex (data från SUC, N = ca 1,000,000) blå ögon, 3 förekomster, p = 0,000003 blå, 67 förekomster, p = 0,000067 ögon, 130 förekomster p = 0,000130 p(blå ögon) = om oberoende antas = 0,0000000087, dvs förväntad förekomst 0. I(blå,ögon) = log (0,000003 / 0,0000000087) = log (3000 / 8,7) log 345 8,3

Om skillnader mellan vad som sägs och vad som antyds (eller tas för givet) Sverige har fällts i Europadomstolen för mänskliga rättigheter för MR-kränkningar hela 47 gånger under perioden 1952-2012. ECB vägrar inse att portugisiska statspapper är skräp. Illegala invandrare får billigare sjukvård än svenska pensionärer.

Om skillnader mellan vad som sägs och vad som antyds Jämför (från Hunston, sid 115). Several firms have closed their factories Factories have been closed Factories have closed A writer who consistently chooses the intransitive option in examples such as these presents economic events as if they were natural events, outside human control. A writer who consistently chooses the transitive, action option tends to stress the responsibility borne by people who take decisions to do things like close factories.

Upprepning kan antas förstärka våra uppfattningar Marknaden reagerade positivt på Europeiska centralbankens besked om räntesänkning.

Om ideologiska och kulturella drag (Hunston) Inom s.k. kritisk lingvistik studeras relationen mellan språk och ideologi: särskilt språkets roll för att forma och överföra antaganden om hur världen är och borde vara, samt språkets roll för att upprätthålla (eller utmana) befintliga maktrelationer. (Susan Hunston, Corpora in Applied Linguistics, p. 109) Två antaganden: Det finns föreställningar som finns kodade implicit, bakom faktiska påståenden. Det går att utmana givna föreställningar genom att peka ut att någonting skulle kunna representerats på något annat sätt, med en annan innebörd.

Ideologi i specialiserade korpusar partiprogram, tidningsledare, politiska tal, inlägg från lobbyorganisationer etc. nyckelord sätts -- medvetet eller omedvetet -- i sammanhang som ger dem en viss semantisk prosodi den siste brittiske Hongkongguvernören Pattens tal präglades av en positiv prosodi för ord som individ och individuell, liksom för orden economy-economic (positiva sammanhang och samförekommer med choice, freedom, fairness, cherfulness, growth, good health ) (många fler exempel i Hunstons artikel)

Semantisk prosodi Om ett ord har flera kollokationer där det andra ordet ofta tillhör en viss semantisk kategori talar man om semantisk prosodi. Exempel kan vara... negativa vs. positiva värderingar, framgång vs. motgång, styrka vs. svaghet, fest vs. vardag

Ideologi i allmänna korpusar Allmänna korpusar som studieobjekt Arkiv med kulturell och ideologisk information Stubbs kulturella nyckelord: The main concept is that words occur in characteristic collocations, which show the associations and connotations they have, and therefore the assumptions which they embody. Illegal immigrant Intellectual, blind, deaf rent beskrivande eller värderande?

Laboration 4 Uppgiften är att undersöka och jämföra användningen av ord som refererar till kön, dvs. ord som hon/han, kvinna/man, flicka/pojke, manlig/kvinnlig, etc. kvantifiera och beskriva sådana skillnader, och söka förklaringar Uppgiften omfattar både svenska och engelska Uppgift 1: frekvensanalys, Uppgift 2: kollokationer, Uppgift 3: ordningen I samordningar VG-uppgift: när framhävs könet (kvinnlig vd vs. manlig vd)?

Laboration 4: Verktyg För svenska Korp För engelska Mark Davies webbsystem (BYU) American corpus BNC (British National Corpus) Google Ngrams OBS! Alla dessa finns på webben!

Uppgift 1. Frekvenssökningar och genreskillnader Har orden han, hon, ungefär samma frekvens i (a) bloggtexter, (b) generellt? Om det finns skillnader, är de signifikanta? Finns det skillnader över tid? Hur används ordet hen?

Uppgift 2. Kollokationer Finns det egenskaper som i språket oftare kopplas till manligt än kvinnligt (och tvärtom)? Undersök både amerikansk och brittisk engelska Använd möjligheterna till kontextvillkor och relevansrankning i BYU http://corpus.byu.edu/

Tips för uppgift 2 Fokusera på adjektiv (som typiska ord för egenskaper). Försök gruppera resultaten i olika semantiska kategorier. T.ex. ålder utseende etnicitet (ursprung) positiva egenskaper negativa egenskaper Finns det några mönster? Gör en djupare undersökning av någon hypotes om mönster.

Uppgift 3. Ordningen i samordningar När vi refererar individer av båda könen använder vi samordningar som män och kvinnor, (men and women) flickor och pojkar, (girls and boys) pappa och mamma, (father and mother), Uppgiften är att undersöka sådana samordningar och se om det finns mönster när det gäller ordningen mellan det manliga och det kvinnliga ordet. Är ordningen slumpmässig eller väljs det ena regelmässigt före det andra? Uppför sig alla sådana samordningar likadant när det gäller vilket kön som kommer först? Om det finns skillnader, kan de förklaras?

Några tips för uppgift 3. I Korp använder man utökad sökning för att söka på ordsekvenser I BYU kan man söka på alla varianter på en gång genom att använda hakparenteser: [girl] and [boy] betyder att sökmotorn söker efter alla böjningsvarianter av girl och boy

VG-uppgift. När framhävs någon som kvinnlig eller manlig? Det här är en fri uppgift där vi vill att ni försöker fundera över uttryck som: kvinnlig VD/manlig VD kvinnlig hockeyspelare/manlig hockeyspelare manlig förskollärare/kvinnlig förskollärare tvåbarnsmamma/tvåbarnspappa kvinnlig författare/manlig författare Fundera över vad uttrycken står för. Vilket borde vara vanligast i samhället i stort? T.ex. finns det fler kvinnliga direktörer än manliga och speglas detta i vilket uttryck som är vanligast? Hur kan korpusverktygen användas för att pröva hypoteser?

Förbereda inför första tillfället Läs igenom labbinstruktionen och planera. Läs utdraget från Hunstons bok. Registrera er (en per par räcker) på BYU-sajten så snart som möjligt.

Redovisning Laborationen redovisas genom Separata redovisningar för varje uppgift En separat sammanfattning där ni diskuterar om de hypoteser som tas upp i Hunstons artikel ( corpus evidence for disadvantage ) kan förklara era data. Redovisa elektroniskt. Datasammanställningar kan lämnas i bilagor. Skicka till Lars!