Korpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder

Relevanta dokument
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Korp. Övningar Språkbankens höstworkshop oktober 2016

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Korpussökning och korpusmått 1(44)

Sofie Johansson Kokkinakis

Statistik 1 för biologer, logopeder och psykologer

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Föreläsninsanteckningar till föreläsning 3: Entropi

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

2 Dataanalys och beskrivande statistik

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Ready for Academic Vocabulary?

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

SF1901 Sannolikhetsteori och statistik I

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Filoson bakom Bayesiansk statistik med tillämpningar inom hjärnavbildning och budgivningar på ebay

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

för att komma fram till resultat och slutsatser

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Att skriva en språkvetenskaplig uppsats. Ingmar Söhrman

Riktlinjer för bedömning av examensarbeten

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

Konventionaliserade fraser i en akademisk ordlista

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Språkliga uttrycks mening

En typisk medianmorot

TMS136. Föreläsning 5

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Om Sverige. En kvantitativ textanalys av ett material för samhällsorientering med fokus på ordförråd och läsbarhet ur ett andraspråksperspektiv

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

TMS136. Föreläsning 5

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Datainsamling Hur gör man, och varför?

Ontologier. Cassandra Svensson

BLOCK 1. 1A. Att komma igång

Språk, datorer och textbehandling

SF1901: Sannolikhetslära och statistik

Statistik 1 för biologer, logopeder och psykologer

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Textstil/tonalitet med Acrolinx

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Statistik 1 för biologer, logopeder och psykologer

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Vägda medeltal och standardvägning

Anvisningar för presentation och opponering. En liten guide för presentation och opponering av kandidat- och magisteruppsatser

Klustring av svenska tidningsartiklar

Hur kan vi söka och värdera vetenskaplig information på Internet?

Föreläsning G60 Statistiska metoder

Forskarutbildningen i Beteendevetenskapliga

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

ENGK01: Engelska kandidatkurs, 30 högskolepoäng Studiebeskrivning

Grundläggande textanalys. Joakim Nivre

Om transfer i tredjespråksinlärning

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Fragment, ellipser och informationsberikade konstituenter

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Arbetsdokument Nationella riktlinjer för rörelseorganens sjukdomar

Språkteknologi. Språkteknologi

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Föreläsning 3: Mer om utvärdering, Inspektionsmetoder kan man utvärdera utan användare?

REV Dnr: 1-563/ Sid: 1 / 8

Språk, datorer och textbehandling

Relationer, samordningar och retorik på Språkbanken. Swe-Clarin workshop 17 april 2015 Nina Tahmasebi

TDDD02 Föreläsning 7 HT-2013

CLT CLT CLT CLT. SVALex: Till att börja med... Vem behöver ordlistor? Alternativ till SVALex. en andraspråksordlista graderad enligt CEFR-nivåer

VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Objektorienterad Programmering (TDDC77)

Pass 4: Metadatastandarder

Textforskningen och dess metoder idag

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Probabilistisk logik 2

Lite Kommentarer om Gränsvärden

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 12 november 2005, kl

Språk, datorer och textbehandling

Vetenskaplig metodik

Kommuntexters tillgänglighet för personer med svenska som andraspråk

Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg

Kort presentation av Korp, Sveriges nationalkorpus

BLOCK 2. Att lära sig ett nytt språk

Läs och skrivsvårigheter är inte synonymt med dyslexi. Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg

Arkitektur och Regelverk Definition av kodverk och klassifikation. Version 1.0

LMA201/LMA521: Faktorförsök

OBS! Vi har nya rutiner.

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Kapitel 1 - bekanta dig med din målgrupp

Föreläsning 3, Matematisk statistik Π + E

En dansk version av detta dokument kan laddas ned här: people/hagerman/retningslinjer.pdf (pdf, 500 kb)

Syfte med undervisningen Genom undervisningen i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

Transkript:

Korpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder Richard Johansson richard.johansson@svenska.gu.se 18 oktober 2013

dagens föreläsning: att räkna ord metodologiska förmaningar lite statistik: ordfrekvenser associationsmått kvantitativa analysmått jämförelser korpusbaserad representation av betydelse något om datorverktyg

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

metodologi 1. före undersökningen: hur ska jag formulera mitt problem? 2. själva undersökningen: vilken teknik ska jag använda? 3. efter undersökningen: är mina resultat rimliga?

problemformuleringen problemet (forskningsfrågan) måste reduceras/omformas till något som mekaniskt kan mätas kvantitativt annorlunda uttryckt: Problemet måste operationaliseras i kvantitativa termer och operationaliseringen måste motiveras explicit och trovärdigt. alltså krävs normalt en diskussion av hur (aspekter av) problemet och de numeriska variablerna förväntas hänga ihop eftersom de problem som kan uttryckas direkt i de numeriska variablerna sällan är särskilt intressanta

problemformuleringen, forts. OBS: även om problemet till synes är uttryckt numeriskt, är det inte säkert att det uttrycker något som går att mäta direkt mekaniskt (Hur svår är texten på en skala från 1 till 10?), åtminstone inte utan att man först kan behöva göra en rejäl begreppsutredning (Hur stort ordförråd har den här läroboken?).

resultatet Det är viktigt att man tolkar och bedömer resultatet (och att man är kompetent att tolka det) Är resultatet rimligt? Orimligheter kan slå åt båda hållen; resultatet kan i princip bli både bra men fel och dåligt men fel. Speciellt viktigt är det att fastställa vad som saknas/inte uppfylls: Finns det något i resultatet som jag inte hade förväntat mig att se? Saknas det något i resultatet som jag hade förväntat mig att se? Stöder resultatet min hypotes?

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

vad kan man räkna i korpusar? texter, tecken, bokstäver (i en speciell mekanisk betydelse), meningar, stycken ord? morfem? ord av en viss ordklass? med en viss syntaktisk funktion?

terminologi: ord och ordtyper skilj på begreppen ord och ordtyp! (typetoken distinction) en korpus består av ord (word tokens) en vokabulär består av ordtyper (word types)

hur denierar vi ord? Alla amatörboxare boxas i röda eller blå linnen, liksom röda eller blå handskar. Alla eller alla? ska vi normalisera till grundform? handske eller handskar? hur gör vi med skiljetecknen? ta bort? räkna separat? vad är ett ord egentligen, t.ex. i kinesiska?

en frekvenstabell Alla amatörboxare boxas i röda eller blå linnen, liksom röda eller blå handskar. ordtyp frekvens alla 1 amatörboxare 1 boxas 1 i 1 röda 2 eller 2 blå 2 linnen 1, 1 liksom 1 handskar 1. 1 texten har 15 ord (inklusive skiljetecken); vokabulären 12 ordtyper

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

ordfrekvensers fördelning korpusen domineras av vanliga ordtyper de 50 vanligaste ordtyperna täcker ungefär 41% av Språkbankens korpusar vokabulären domineras av ovanliga ordtyper av de 11927698 observerade ordtyperna förekommer 7881083 endast en gång (hapax legomena) några referenser: Baayen, R.H. 2001. Word frequency distributions. Kluwer. Baroni, M. 2009. Distributions in text. In Corpus linguistics: An international handbook, Volume 2. Mouton de Gruyter.

de vanligaste ordtyperna i Språkbankens korpusar. 48916423, 30327069 och 23409697 i 20758463 att 18048988 det 16608363 på 14154875 är 13838372 en 13211904 jag 12926890 som 12725864 med 9284238 för 9215228 av 8022920 har 7985448! 7876510 till 7797144 inte 7613206 den 6735133 @ 6350265 så 6130540 om 6098332 " 5942262 : 5331133 de 5210738 men 5195146 ett 5070062 var 4560176? 4457832 vi 4319575 ) 4288080 ( 3848677 han 3765998 man 3678687-3236858 nu 3235206 kan 3186193 från 2982384 ska 2982055 när 2709589 sig 2688665 mig 2273255... 2272059 här 2189189 du 2146576 # 2104158 eller 2098193 hon 1940216 där 1865114 då 1855499 lite 1820025

exempel på frekvensband 1 7881083 cytomegalovirusreaktivering, gävlegeniet, dörrsäljare 10 65359 proteinbomb, nätdemokrati, avlöjade 100 1356 sockerskål, obenägen, barnskratt 1000 38 livlös, husmor, Markaryd 10000 Glenn, stek, stryk 100000 absolut, prata, kvinna 1000000 detta, två, säger 10000000 med, jag, har

Zipfs lag Zipfs lag: en ordtyps frekvens är omvänt proportionell mot dess rang detta är inte en lag utan en tendens enligt lagen borde därmed den vanligaste ordtypen ha ungefär dubbelt så hög frekvens som den näst vanligaste den 100:e typen ha dubbelt så hög frekvens som den 200:e... denna tendens har också observerats för andra språkliga fenomen, t.ex. ordbetydelser

ordfrekvenser i Språkbankens korpusar 6 1e7 5 observerade Zipf ordtypens frekvens 4 3 2 1 0 0 50 100 150 200 ordtypens rang

ordfrekvenser i Språkbankens korpusar 10 8 10 7 observerade Zipf 10 6 frekvens 10 5 10 4 10 3 10 2 10 1 10 0 10 1 10 2 10 3 10 4 10 5 10 6 10 7 ordrang

ordfrekvenser i Moby Dick

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

kvantitativa textanalysmått som ett alternativ till en kvalitativ analys kan vi använda översiktliga mått som enkelt kan beräknas i stor skala vanligen tumregler med ytlig analys och motivering exempel på tillämpningar: hur förändras språket för den som drabbas av Alzheimers sjukdom? Hirst & Wei Feng: Changes in Style in Authors with Alzheimer's Disease, English Studies 93:3, 2012 vilka stildrag är typiska för översatt text? Volansky et al.: On the Features of Translationese, Literary and Linguistic Computing vilka stildrag från L1 kan vi se i L2? Tetreault et al.: A Report on the First Native Language Identication Shared Task, WS on Innovative Use of NLP for Building Educational Applications för en bra översikt inriktad på läsbarhetsmått, se K. Heimann Mühlenbock, I see what you mean, avhandling från i våras

genomsnittlig meningslängd antal ord antal meningar 0.09 0.08 0.07 Läkartidningen (18.28) Läsbart (10.85) Samhällsvetenskap (20.02) 0.06 relativ frekvens 0.05 0.04 0.03 0.02 0.01 0.00 0 20 40 60 80 100 meningslängd

typetoken ratio en enkel idé: om texten är mer avancerad så nns ett större antal ordtyper i förhållande till antalet ord typetoken ratio denieras: TTR = antal ordtyper antal ord TTR är mycket populärt, t.ex. vid studier av t.ex. barns språkutveckling eller eekten av en stroke

problem med typetoken ratio trots sin popularitet är TTR riskabelt en text på 2000 ord har normalt inte dubbelt så stor vokabulär som en på 1000 ord! (gränsfall: texten består av 1 ord) med andra ord: om du jämför två texter och dessa är olika långa så får du missvisande resultat! se t.ex. B.J. Richards (1987): Type/Token Ratios: What Do They Tell Us? J. of Child Language 14:201-9.

bättre TTR om problemet är skillnad i textstorlek, se till att texterna är lika stora en lösning: dela upp texten i bitar, räkna ut TTR för varje bit, och ta medelvärdet ordvariationsindex OVIX: OVIX = log(antal ord) antal typer log(2 antal ord )

exempel på läsbarhetsmått populärt för engelska: FleschKincaid: antal ord FC = 206.835 1.015 antal meningar för svenska nns läsbarhetsindexet LIX: 84.6 antal stavelser antal ord LIX = antal ord antal meningar + 100 antal ord med längd > 6 antal ord < 25: mycket lättläst (t.ex. barnböcker)... > 60: mycket svårläst (t.ex. vetenskaplig text)

andra mått... lexikal täthet (lexical density): LD = antal innehållsord antal ord frekvenser för de vanligaste funktionsorden

exempel: stilförändringar hos författare med Alzheimers sjukdom I se Hirst & Wei Feng: Alzheimer's Disease, Changes in Style in Authors with English Studies 93:3, 2012

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

att mäta samförekomst: associationsmått med associationsmått kan vi upptäcka samband mellan språkliga enheter... t.ex samband mellan ord idiom, stående uttryck, frasem, klichéer, kollokationer,... grundidé: kolla om två ordtyper x och y samförekommer oväntat ofta dvs, oftare än vad man kan vänta sig av x och y betraktade var för sig samma idé som κ från förra föreläsningen en grundlig översikt: Evert, S. 2005. The statistics of word cooccurrences: Word pairs and collocations. IMS, Stuttgart.

ett associationsmått: PMI PMI (Pointwise Mutual Information) PMI = log p(x, y) antal xy korpusstorlek = log p(x) p(y) antal x antal y om vi bara är intresserade av relativa jämförelser så kan vi förenkla: antal xy antal x antal y PMI kan ha en tendens att överrepresentera ovanliga ord; Adam Kilgarri har föreslagit en PMI-variant som han kallar Lexicographer's Mutual Information LMI = antal xy log p(x, y) p(x) p(y)

ordbilden i Korp Korp använder LMI för att hitta t.ex. starkt associerade verbobjekt-par:

exempel: ordpar i Twitter, PMI och LMI nyga nyga jipa jipa @olssonemilia astrologen tarara tarara santa- @01shadowblow helveteför helveteför @izzueislam @izzuezerss fjällhöga nord horace engdahl tuntz tuntz rimdals förfalskade @mediotiempo @innovasport hummana hummana qoola qvinnor #marathonradio @mnmbe hämdaktioner poststölder idrariman idari!! det är när man så jävla för att just nu mitt liv ett videoklipp världens bästa, men inte ens så mycket den här?? det var vill ha :) ) när jag första gången hela tiden

exempel: samförekommande ord i Twitter http://demo.spraakdata.gu.se/cgi-bin/richard/tweetstats

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

att jämföra texter eller korpusar hur olika är två korpusar? eller två texter? är de signikant olika? för en ordentlig statistisk genomgång se A. Kilgarri: Comparing Corpora, International Journal of Corpus Linguistics, 6:1, 2001.

geometrisk jämförelse av frekvenstabeller D1 D2 D3 fotboll 5 2 3 tårta 1 3 4 cos(θ) = 5 2+1 3 5 5+1 1 2 2+3 3 = 0.71

exempel: Federalist Papers

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

distributionell semantik J. R. Firth: you shall know a word by the company it keeps ett ords betydelse avspeglas i de sammanhang det förekommer... så vi kan använda korpusar t.ex. för att hitta ord med liknande betydelser se t.ex. M. Sahlgrens avhandling: The Word-Space Model (Stockholms universitet, 2006) idé: betrakta ord geometriskt enklast: konstruera ett dokument för ordet genom att samla de ord det samförekommer med det nns också en hel del andra metoder syfte: vi kan då jämföra ords betydelser med ett avståndsmått t.ex. cosinus

intuition från Korp

exempel http://demo.spraakdata.gu.se/cgi-bin/richard/distr

översikt metodologi ordräkning ordfrekvensers egenskaper ytliga kvantitativa textanalysmått associationssmått jämförelser distributionella metoder datorverktyg

Korp frekvenser

Korp samförekomster (ordbild)

AntConc

N-gram statistics package Ted Pedersens N-gram statistics package innehåller ett stort antal associationsmått (t.ex. PMI,... ) erstegsprocess: konvertera textler till listor av N-gram (t.ex. ordpar) räkna ut associationsmått för varje N-gram rangordna tyvärr saknas ett användargränssnitt...

generella statistikverktyg för statistisk analys nns ett ertal verktyg SPSS, R,...

gensim och word2vec för distributionella metoder nns ett antal datorverktyg t.ex. gensim (innehåller ett ertal metoder) också Googles verktyg word2vec

nästa föreläsning syntaktiskt annoterade korpusar: trädbanker