Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Relevanta dokument
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Uppgift 1. Produktmomentkorrelationskoefficienten

Korp. Övningar Språkbankens höstworkshop oktober 2016

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

729G09 Språkvetenskaplig databehandling

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Konventionaliserade fraser i en akademisk ordlista

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Föreläsning G60 Statistiska metoder

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

FÖRELÄSNING 8:

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

OBS! Vi har nya rutiner.

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning G60 Statistiska metoder

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Flickor, pojkar och samma MöjliGheter

Språk, datorer och textbehandling

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Språk, datorer och textbehandling

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Introduktion till statistik för statsvetare

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

OBS! Vi har nya rutiner.

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Datorbaserade verktyg i humanistisk forskning

Välkomna till DIT012 IPGO. Tyvärr en bug i Google Docs: Sidnummer stämmer inte alltid. Alla anteckningar börjar på sidan 1.

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Korpussökning och korpusmått 1(44)

Chapter 1 : Who do you think you are?

Språk, datorer och textbehandling


7.5 Experiment with a single factor having more than two levels

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Statistik 1 för biologer, logopeder och psykologer

HYPOTESPRÖVNING sysselsättning

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

samhälle Susanna Öhman

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Välkomna till DIT012 IPGO

Vetenskaplig metodik

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Korpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder

Kvantitativ samhällsanalys med språkteknologiska metoder.

Introduktion till språkteknologi

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

F9 SAMPLINGFÖRDELNINGAR (NCT

Laboration 3 Inferens fo r andelar och korstabeller

SOPA62 - Kunskapsproduktion i socialt arbete

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

1. Mänskliga rättigheter

OBS! Vi har nya rutiner.

Datorövning 1: Fördelningar

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

HUR SKRIVER MAN EN LABORATIONSRAPPORT OCH VARFÖR?

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Inlämningsuppgift: Pronomenidentifierare

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

English. Things to remember

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

ÖVNINGSUPPGIFTER KAPITEL 10

Rektorernas roll i förskolans förändrade uppdrag

Kort presentation av Korp, Sveriges nationalkorpus

Digitalisering i välfärdens tjänst

för att komma fram till resultat och slutsatser

MÅL ATT UPPNÅ (FRÅN SKOLVERKET)

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

χ 2 -test χ 2 -test med skattade parametrar små talens lag (Bortkiewicz) homogenitetstest oberoendetest

Checklista för systematiska litteraturstudier 3

Subjektiva sannolikheter. Helge Malmgren Filosofidagarna, Umeå 2007

Unit course plan English class 8C

VÄGLEDNING för litteraturöversikt om

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Lektion 3. Anteckningar

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

WORLD AIDS DAY. Hur kan man arbeta med World Aids Day i undervisningen?

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Formuleringar som kan förbise, kränka eller diskriminera

Exempel på gymnasiearbete inom humanistiska programmet språk

Transkript:

Korpusanalyser och Lab 4 729G09 Språkvetenskaplig databehandling 2014-05-21

Laborationens syfte Öva användningen av webbaserade korpusar och korpusverktyg frekvensberäkningar konkordanser kollokationsverktyg Ge insikter om hur korpusar kan användas för undersökningar av språkbruk och kulturella värderingar i språkbruket.

Kvantitativ analys vid korpusarbete Räkna och jämföra frekvenser absoluta frekvenser relativa frekvenser Hitta oväntade händelser samförekomstmått Rangordna, t.ex. efter frekvens eller samförekomstmått

Kvalitativa analyser Viktigt att veta vad vi räknar Ordtyper, Lemman, Ordklassetiketter, Se upp för flertydiga ord! man som pronomen vs. man som nomen Gruppera data i (relevanta) kategorier Tolka data (med omdöme och försiktighet) Förklaringarna finns inte i korpusen!

lemgram-sökning i Korp ger träffar även på mannen, män,...

Frekvensstatistik i Korp absolut frekvens relativ frekvens (antal / miljon)

Information om valda korpusar (inkl. antal tokens)

Relativ frekvens Relativ frekvens (eller proportion) för ett ord/fras i en korpus beräknas med f/n där f är den absoluta frekvensen för ordet, och N är det totala antalet ord i korpusen. För stora N är relativ frekvens en vanlig uppskattning av sannolikheten för ett visst ord.

Jämföra frekvenser Olikheter i frekvens kan visa på olikheter i språkbruk, t.ex. vad gäller genrer kön epok Därför är det viktigt att bestämma om skillnaden är slumpmässig eller signifikant. Ofta kan signifikans avgöras med ögat, men i svårare fall kan man använda signifikanstest.

Signifikanstest Signifikanstest är statistiska test som ger oss information om hur säker vi kan vara på en viss slutsats, I korpusanalyser t.ex. slutsatser av typen... observerade frekvenser talar emot hypotesen att två ord används lika mycket i olika genrer, eller vid olika tidpunkter observerade frekvenser talar emot hypotesen att ett ordpar t.ex. blå ögon eller nytt program utgör en kollokation

Ett exempel Vilka av de tre engelska orden diary, novel och story är vanligast? Är dessa ord lika vanliga idag som för femtio år sedan?

Plottade frekvenser från Google ngrams (1950-2005) story novel diary

Relativa frekvenser 1950 vs 2000 (från Google books) diary novel story 1950 0,0000154 0,0000324 0,000151 2000 0,0000164 0,0000534 0,000178 Hur avgöra om ökningen för orden är signifikant?

Signifikanstest t-test, antar underliggande normalfördelning χ 2 -test mutual information (MI) Alla test bygger på idén att ett beräknat värde jämförs med ett teoretiskt värde, som utgår från en antagen nollhypotes. Om avvikelsen är större än ett tröskelvärde kan vi dra slutsatsen att den alternativa hypotesen är korrekt med en viss sannolikhet.

χ 2 -test (Chi-squre) χ 2 -test O ij står för observerade värden E ij står för förväntade värden Förväntade värden kan beräknas utifrån ett antagande om att korpusarna är dragna från samma population χ 2 = Σ (O ij E ij ) 2 / E ij i,j

Chi-2 tillämpat på exemplet (en term) diary story O = 164, E = 154, (O-E) 2 = 10 2 = 100 χ 2 = 100/154 0,65 O = 1780, E = 1510, (O-E) 2 = 270 2 = 72900 χ 2 = 72900/1510 500 Tröskelvärdet för χ 2 med ett 95%-igt signifikansområde och en frihetsgrad är 3,841 χ 2 = (O E) 2 / E

Att jämföra alternativa ordformer Exempel 1: ska ~ skall Observerade värden (O ij ) (Data från Språkbankens tidningskorpusar) ska skall N Press 65 336 2006 991,000 Press 98 18141 7495 9,239,000 Totals 18477 9501 10,230,000

Signifikans Om vi har många observationer och stora skillnader I relativ frekvens, (eller relativ kvot) kan vi vara säkra på att skillnaden är signifikant. I Press 65 är förhållandet mellan ska och skall ca 1:6. I Press 98 är förhållandet ca 2:1 Vi kan med säkerhet säga att användningen av ska och skall skiljer sig åt mellan korpusarna. En annan sak är att förklara den.

Att jämföra alternativa ordformer Exempel 2: rom ~ zigenare Hur kan vi besvara följande frågor med korpusar? När började tidningar använda ordet rom? När blev rom vanligare än zigenare?

Kollokationer När två eller flera ord tenderar att samförekomma oftare än vad man kan förvänta sig talar vi om en kollokation. Ett samförekomstmått ger ett mätvärde för samförekomst. Sådana mått utgår ofta från en fyrfältstabell och korpusstorleken N: ord2 annat ord ord1 a b annat ord c d a: antal förekomster av paret 'ord1 ord2' a+b: antal förekomster av ord1 a+c: antal förekomster av ord2

Kollokationer Om a är stort i jämförelse med en kombination av alla parametrar kan vi dra slutsatsen att vi har en kollokation. Förväntad förekomst vid oberoende: (a+b)*(a+c)/n 2 p(ord1)p(ord2) Enkelt mått: Dice = 2a/(2a+b+c) ord2 annat ord ord1 a b annat ord c d

Kollokationer Med t.ex. χ 2 kan vi undersöka om en kollokation är statistiskt signifikant, men man vill också ha mått som genererar kollokationer. Ett sådant mått är Pointwise Mutual Information (I). I(x,y) = log 2 [p(x,y) / p(x)p(y)] I blir stort om x och y samförekommer ofta I ligger nära 0 om X och Y samförekommer slumpartat p(x) uppskattas med relativa frekvensen för ordet x (a+b)/n p(y) uppskattas med relativa frekvensen för ordet y (a+c)/n p(x,y) uppskattas med relativa frekvensen för samförekomster av x och y: a/n

BYU search panel Mutual information används här som mått på relevans sorteringsordning för träffar

'blue N' jämfört med 'green N' i BYU Corpus of American English

Kollokationer I BYU-systemet kallas ordning efter samförekomstmått för relevans. Jämför t.ex (data från SUC, N = ca 1,000,000) blå ögon, 3 förekomster, p = 0,000003 blå, 67 förekomster, p = 0,000067 ögon, 130 förekomster p = 0,000130 p(blå ögon) = om oberoende antas = 0,0000000087, dvs förväntad förekomst 0. I(blå,ögon) = log (0,000003 / 0,0000000087) = log (3000 / 8,7) log 345 8,3

Om skillnader mellan vad som sägs och vad som antyds (eller tas för givet) Sverige har fällts i Europadomstolen för mänskliga rättigheter för MR-kränkningar hela 47 gånger under perioden 1952-2012. ECB vägrar inse att portugisiska statspapper är skräp. Illegala invandrare får billigare sjukvård än svenska pensionärer.

Om skillnader mellan vad som sägs och vad som antyds Jämför (från Hunston, sid 115). Several firms have closed their factories Factories have been closed Factories have closed A writer who consistently chooses the intransitive option in examples such as these presents economic events as if they were natural events, outside human control. A writer who consistently chooses the transitive, action option tends to stress the responsibility borne by people who take decisions to do things like close factories.

Upprepning kan antas förstärka våra uppfattningar Marknaden reagerade positivt på Europeiska centralbankens besked om räntesänkning.

Om ideologiska och kulturella drag (Hunston) Inom s.k. kritisk lingvistik studeras relationen mellan språk och ideologi: särskilt språkets roll för att forma och överföra antaganden om hur världen är och borde vara, samt språkets roll för att upprätthålla (eller utmana) befintliga maktrelationer. (Susan Hunston, Corpora in Applied Linguistics, p. 109) Två antaganden: Det finns föreställningar som finns kodade implicit, bakom faktiska påståenden. Det går att utmana givna föreställningar genom att peka ut att någonting skulle kunna representerats på något annat sätt, med en annan innebörd.

Ideologi i specialiserade korpusar partiprogram, tidningsledare, politiska tal, inlägg från lobbyorganisationer etc. nyckelord sätts -- medvetet eller omedvetet -- i sammanhang som ger dem en viss semantisk prosodi den siste brittiske Hongkongguvernören Pattens tal präglades av en positiv prosodi för ord som individ och individuell, liksom för orden economy-economic (positiva sammanhang och samförekommer med choice, freedom, fairness, cherfulness, growth, good health ) (många fler exempel i Hunstons artikel)

Semantisk prosodi Om ett ord har flera kollokationer där det andra ordet ofta tillhör en viss semantisk kategori talar man om semantisk prosodi. Exempel kan vara... negativa vs. positiva värderingar, framgång vs. motgång, styrka vs. svaghet, fest vs. vardag

Ideologi i allmänna korpusar Allmänna korpusar som studieobjekt Arkiv med kulturell och ideologisk information Stubbs kulturella nyckelord: The main concept is that words occur in characteristic collocations, which show the associations and connotations they have, and therefore the assumptions which they embody. Illegal immigrant Intellectual, blind, deaf rent beskrivande eller värderande?

Laboration 4 Uppgiften är att undersöka och jämföra användningen av ord som refererar till kön, dvs. ord som hon/han, kvinna/man, flicka/pojke, manlig/kvinnlig, etc. kvantifiera och beskriva sådana skillnader, och söka förklaringar Uppgiften omfattar både svenska och engelska Uppgift 1: frekvensanalys, Uppgift 2: kollokationer, Uppgift 3: ordningen I samordningar VG-uppgift: när framhävs könet (kvinnlig vd vs. manlig vd)?

Laboration 4: Verktyg För svenska Korp För engelska Mark Davies webbsystem (BYU) American corpus BNC (British National Corpus) Google Ngrams OBS! Alla dessa finns på webben!

Uppgift 1. Frekvenssökningar och genreskillnader Har orden han, hon, ungefär samma frekvens i (a) bloggtexter, (b) generellt? Om det finns skillnader, är de signifikanta? Finns det skillnader över tid? Hur används ordet hen?

Uppgift 2. Kollokationer Finns det egenskaper som i språket oftare kopplas till manligt än kvinnligt (och tvärtom)? Undersök både amerikansk och brittisk engelska Använd möjligheterna till kontextvillkor och relevansrankning i BYU http://corpus.byu.edu/

Tips för uppgift 2 Fokusera på adjektiv (som typiska ord för egenskaper). Försök gruppera resultaten i olika semantiska kategorier. T.ex. ålder utseende etnicitet (ursprung) positiva egenskaper negativa egenskaper Finns det några mönster? Gör en djupare undersökning av någon hypotes om mönster.

Uppgift 3. Ordningen i samordningar När vi refererar individer av båda könen använder vi samordningar som män och kvinnor, (men and women) flickor och pojkar, (girls and boys) pappa och mamma, (father and mother), Uppgiften är att undersöka sådana samordningar och se om det finns mönster när det gäller ordningen mellan det manliga och det kvinnliga ordet. Är ordningen slumpmässig eller väljs det ena regelmässigt före det andra? Uppför sig alla sådana samordningar likadant när det gäller vilket kön som kommer först? Om det finns skillnader, kan de förklaras?

Några tips för uppgift 3. I Korp använder man utökad sökning för att söka på ordsekvenser I BYU kan man söka på alla varianter på en gång genom att använda hakparenteser: [girl] and [boy] betyder att sökmotorn söker efter alla böjningsvarianter av girl och boy

VG-uppgift. När framhävs någon som kvinnlig eller manlig? Det här är en fri uppgift där vi vill att ni försöker fundera över uttryck som: kvinnlig VD/manlig VD kvinnlig hockeyspelare/manlig hockeyspelare manlig förskollärare/kvinnlig förskollärare tvåbarnsmamma/tvåbarnspappa kvinnlig författare/manlig författare Fundera över vad uttrycken står för. Vilket borde vara vanligast i samhället i stort? T.ex. finns det fler kvinnliga direktörer än manliga och speglas detta i vilket uttryck som är vanligast? Hur kan korpusverktygen användas för att pröva hypoteser?

Förbereda inför första tillfället Läs igenom labbinstruktionen och planera. Läs utdraget från Hunstons bok. Registrera er (en per par räcker) på BYU-sajten så snart som möjligt.

Redovisning Laborationen redovisas genom Separata redovisningar för varje uppgift En separat sammanfattning där ni diskuterar om de hypoteser som tas upp i Hunstons artikel ( corpus evidence for disadvantage ) kan förklara era data. Redovisa elektroniskt. Datasammanställningar kan lämnas i bilagor. Skicka till Lars!