Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Relevanta dokument

NORDISKE STUDIER I LEKSIKOGRAFI

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

SFI-KURS C OCH D. ALKOHOL I SVERIGE. Ung och alkohol. Detta är ett utdrag från Så påverkas vi av alkohol, ett utbildningsmaterial på lätt svenska.

1 Börja samtalet med tjejerna idag! EnRigtigMand.dk. Äger alla rättigheter

Sagan om Nallen Nelly

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Tentamen Marco Kuhlmann

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Det visar sig att hon har fått diabetes. Pappa tittar ner på Moa som är ledsen.! -Moa du kan inte ha kalas i morgon. Säger pappa.! -Va? Säger Moa.!

Facit Spra kva gen B tester

Träna ordföljd Ett övningshäfte där du tränar rak ordföljd och omvänd ordföljd. Namn:

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

De fem främjar- och härskarteknikerna

Prov svensk grammatik

En samling övningar för att komma igång med samtal

Faktorer av betydelse för en flerspråkig utveckling. Sociala faktorer. Språkliga faktorer. Pedagogiska faktorer

Lärarhandledning Billie: Du är bäst

Vägledning till Från bild till ord (Dimodimage)

Att hantera två eller flera språk

Reglerna för när man sätter punkt och när man kan eller måste sätta kommatecken

Att bygga en stark klubbkänsla!

Nivå 1 ANKOMST. Har du bagage? Ja, jag har en ryggsäck och en stor väska. Ok, Jag tar väskan och du tar ryggsäcken, okay?

Träningshäfte ordklasser (Venus)

Föräldramöte i Kramfors skolor. Material med frågor och svar att användas på föräldramöten från förskola till åk 9 ÅK7-ÅK9

Ord och fraser. Vi pratar om väder. Uttal. Väder-kommentarer. Grammatik:

Kapitel 2 -Brevet Två dagar senare. Så såg jag och min BFF ett brev som låg under dörren. På brevet stod det

Kapitel 1 hej Hej jag heter Trulle jag har ett smeknamn de är Bulle. Min skola heter Washinton Capitals jag går i klass 3c de är en ganska bra klass.

Titta! säger Maja. Nu har det hänt

Frasstrukturgrammatik

Introduktion till statistik för statsvetare

KAPITEL 6. Verb: preteritum. *imperativ som slutar på p, k, s, t eller x +te. Special (it-verb och oregelbundna verb) T ex: gå-gick, drick-drack

OK Nolaskogsarnas - Kom ihåg vid orienteringstävling ver

Jag undrar vad Linus vill hitta på idag? säger Ellen när de stiger på bussen. Vad tror du?

Noa går på taket. Han leker att han flyger. En takpanna lossnar. Noa ramlar. Hjälp! ropar Noa. ISBN HEGAS

Skolår 2 Läsförståelse Svarshäfte

INNEHÅLL. Sid 1 Presentation av redaktionen. Sid 2. BISA. Sid 3. Intervju med Ms Ekholm. Sid 4 Månadens bild. Sid 5 Vilken ungdomstidning är bäst?

Sagan om Karin och skräpet i havet

Vad äter kvinnor och män? Gun Roos SIFO Statens institutt for forbruksforskning

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi.

. 13. Publicerat med tillstånd Om jag bara inte råkat byta ut tant Doris hund Text Ingelin Angerborn Tiden 2003

MC resa med HIMCC till Tyskland Det var vi som var på Tysklandsresa

Kungliga Tekniska Högskolan Patrik Dallmann

BRÅKA SMARTARE Om praktisk konflikthantering i skolans vardag

Boktips år 3-5. Vem är du? En bok om tolerans av Pernilla Stalfelt, Rabén & Sjögren, 2012

Svenska från början 3

Unga killar om alkoholkonsumtion, öl och inköpskanaler

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Men Zackarina hade inte tid, för hon var upptagen med sin cykel. Hon försökte göra ett

Svenska GRAMMATIK ÖVNINGAR OCH SVAR

Föreläsning 13 Innehåll

Bussarna kommer gå (allting rullar på). Dagen då mitt hjärta slutar slå. Bussarna kommer gå (allting rullar på). Dagen då mitt hjärta slutar slå.

Manual för återrapportering (tidsregistrering) i T9k, Tolkvyn

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

les verbes irréguliers dans tous les temps; *imparfait; subjonctif ; version en désordre ; corrigé

Svenska 3 ANSWER KEY MÅL Fraser. 1. a) trevligt 1. b) detsamma 3. när 4. intressant 5. tycker. 2 - Ordföljd

Diskussionsfrågor <3mig.nu. - Om Internet, trakasserier och livet IRL

Framtidens kompetenser

Den räta linjens ekvation

Satssemantik. Semantik: Föreläsning 4 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

En bra kompis. - sagan om den goda förpackningen

Böcker för barn 3 år. Låna böcker gratis på biblioteket. Köp dem i bokhandeln. På nätet. I mataffären. Barn älskar böcker

Den räta linjens ekvation

Säg STOPP! Ett samarbete mellan Kulturskolan, föreningen DuD och barn och ungdomsprojektet i Katrineholms kommun

MITT LIV SOM DIABETIKER

Pragmatisk och narrativ utveckling

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

studerar vid musikinstitut tycker om att promenera i skogen surfar på nätet över två timmar per dag

Den stora katastrofen

RESEBERÄTTELSE TYSKLAND-HOLLAND.

MONICA WEIKERT. I sjukdom och nöd. Offerkyrkoseden i Sverige från 1600-tal till 1800-tal. With an English summary

Antagning till utbildning på forskarnivå

Svensk maffia, TV4, , kl , inslag om bland annat gängmedlemmen NN; fråga om respekt för privatlivet

UPPGIFT 1 KANINER. Håkan Strömberg 1 Pär Söderhjelm

jonas karlsson det andra målet

Veronica s. Dikt bok 2

Att bana väg för nyanlända elevers lärande genom kartläggning. Göteborg 1 sept 2016 Anniqa Sandell Ring

ADJEKTIV. En cykel kan t ex vara: stor, svart, snabb, gammal, bra, fin flerväxlad och rostig. Alla dessa ord är adjektiv.

Tekniker för storskalig parsning

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Tekniker för storskalig parsning

Barnfattigdom. Arbetsplan för en studiecirkel

Idag ska jag till djurparken! Wow vad kul det ska bli. Det var 2 år sedan jag var där sisst? Hur gammal var Rut då?

Barn, barndom och barns rättigheter. Ann Quennerstedt Lektor i pedagogik, Örebro universitet

Skriven och förlöst av: Uwe Spillman Illustrerad av: Inga Kamieth

Kapitel 1 Resan. - Oj nu börjar det bli mörkt sa jag till Sergio.

Samverkande Expertnät

Kom och tita! Världens enda indiska miniko. 50 cent titen.

KAW's Filmturné, Redovisning

Fakta om Marta LÄSFÖRSTÅELSE SIDAN 1. Elevmaterial. Namn: En lång resa Frågor på raden (Du hittar svaret på raden, direkt i texten.

Tältning vid Boserups scoutstuga juni

Inlämningsuppgift: Pronomenidentifierare

UNIVERSITETSRANKNINGEN FRÅN TIMES HIGHER EDUCATION 2016

Stall Flitige Lise. Resan. Boende

Måndag 27 december. Publicerat med tillstånd Vingmuttern - min allra bästa vän Text Viveca Lärn Bild Eva Eriksson Rabén & Sjögren 2007

Svenska GRAMMATIK

Lärarmaterial. Rosa och Sally. Vem handlar böckerna om? Vad tas upp i böckerna? Vem passar böckerna för? Mål att arbeta med utifrån Lgr11

TÖRSTSLÄCKAREN NUMMER ETT VATTEN

Kom i form med oss på Mallorca

Transkript:

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Karin Cavallin karin.cavallin@gu.se Institutionen för filosofi, lingvistik och vetenskapsteori Göteborgs universitet 12. konferanse om leksikografi i Norden - Oslo 13e augusti, 2013

Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning

Distributionell variation i korpora =? Indikation på semantisk förändring

Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning

I Språkbanken.gu.se Litteraturbanken* Parole Stor-SUC Press 65 och Press 95

II Litteraturbanken tagga - TnT (HunPos) parsa - MaltParser lemmatisera - olika automatiska metoder samt manuellt

III Lit. bank Parole Suc-Novels Press65 Press95 Time span 19th cent. 1 1976-1997 1990-1994 1965 1995 Tok. 10.129.994 7.959.094 4.653.801 1.120.332 7.684.066 Sent. 520.643 553.654 330.281 53.629 515.062 NN 1.917.375 1.368.975 701.000 230.675 1.578.013 VB 1.452.009 1.265.527 796.810 154.398 1.102.836 PN 812.060 636.588 485.106 56.061 360.937 PM 470.764 401.792 140.945 49.379 553.043 Table : Summary of corpus data features, part-of-speech features etc. 1 Late 18th and 19th century

Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning

Utvidgad betydelse (Widening/Broadening) Inskränkt betydelse (Narrowing) Neologismer och arkaismer

Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning

- Lexical sets I Exempelkorpus: Det är sommar. Lisa är svettig. Hon köper en glass. Hon dricker även en svalkande läsk. Men den var inte så god så hon slängde läsken. I eftermiddag tar hon bilen till landet. Hennes bror har köpt ett hus. Hon har köpt en ryggsäck till resan. Hon köpte även vin och tre liter vatten och en glass till sin bror. Ikväll ska de dricka vatten, vin och öl. Barnen får dricka mjölk. Hunden tog en promenad och kastade vatten innan de begav sig iväg.

- Lexical sets II mängd: {köpa glass, dricka läsk, slänga läsk, ta bil, köpa hus, köpa ryggsäck, köpa vin, köpa vatten, köpa glass, dicka vatten, dricka vin, dricka öl, dricka mjölk, ta promenad, kasta vatten}

- Lexical sets III - lexical sets. köpa: glass, ryggsäck, hus, vatten dricka: läsk, öl, vatten, vin, mjölk ta: bil, promenad glass: köpa läsk: dricka, slänga öl: dricka vatten: dricka, kasta bil: ta promenad: ta

mängden - verb-objektparen Lit. bank Parole Suc-Novels Press65 Press95 Tok. 10.129.994 7.959.094 4.653.801 1.120.332 7.684.066 VOTokens 290.878 482.221 303.098 40.908 500.954 VOTypes 157.869 96.997 61.437 21.960 95.846 (54,27%) (20,11%) (20,27%) (53,68%) (19,13%) Table : Summary of corpus data features, verb-object types

Typer och förekomster (Type-Token) Jämföra rankning Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning

Typer och förekomster (Type-Token) Jämföra rankning Vilka verb och vilka objekt har vi? Hur många är de? Hur förhåller de sig till varandra? Samförekommer de eller förekommer de bara i vissa kontexter?

Typer och förekomster (Type-Token) Jämföra rankning Types och Tokens Typer och förekomster - types och tokens typ - antal olika varianter av förekomster förekomst - antal förekomster

Typer och förekomster (Type-Token) Jämföra rankning Log-likelihood ratio Nollhypotes: Alla ord har samma samförekomstfrekvens (n) Alt. hypotes: Den faktiska samförekomstfrekvensen (m) Log-likelihoodratio = 2 [n11 log( n11 m11 )+ n12 log( n12 m12 )+ n21 log( n21 m21 )+ n22 log( n22 m22 )]

Typer och förekomster (Type-Token) Jämföra rankning Jämföra rankning I Spearmans rankningskoefficient -1 : ingen likhet mellan rankningarna 1 : identisk likhet mellan rankningen r Rx R y = N R xi R yi ( R xi )( R yi ) [N Rxi 2 ( R xi ) 2 ][N Ryi 2 ( R yi ) 2 ]

Typer och förekomster (Type-Token) Jämföra rankning Jämföra rankning II LB Stor-SUC ORD RANK #PAR ORD RANK #PAR lösa 463 10 ha 93 659 förenkla 8427 1 lösa 115 99 intrassla 8973 1 ta 311 18 debattera 8973 1 vålla 1149 9 utgöra 9390 3 lägga 1869 1 genomtänka 9411 1 göra 2175 1 analysera 10767 1 finnas 3050 24 begrunda 13411 1 uppstå 3652 5 diskutera 15544 1 se 3746 1 grubbla 15888 1 attackera 3753 3 således 16407 1 säga 5002 1 kalla 19225 2 få 5857 41 rymma 19450 1 hantera 7094 3 studera 22387 1 vidgå 7843 1 ordna 25443 1 dra 8466 1 förklara 25772 1 anförtro 9719 2 avbryta 26407 1 analysera 10089 2 måste 33299 1 intellektualisera 10517 1 söka 37004 1 komma 11538 1 svara 37663 1 skoja 11883 1 ha 39699 1 ytterligare 11883 1 sätta 41233 1 du 13656 1 lägga 42560 1 undanröja 14302 1 föra 44005 1 kringgå 14302 1 Karin Cavallin karin.cavallin@gu.seinstitutionen ge 52132 1 förklara filosofi, Automatisk lingvistik identifiering och 14743 vetenskapsteorigöteborgs av semantisk 3 förändring universitet med hjälp av d

Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning

Betydligt fler förekomster av ett ord i den ena datamängden än den andra Fler typer i den ena lexikala mängden än den andra Olik rangordning för ett givet verb-objektpar i de olika datamängderna. (Log-likelihood) Olik rangordning för respektive lexikal mängd. (Spearman)

POTENTIAL WIDENING utökad typ- och tokenförekomst, samt varierad rangordning POTENTIAL NARROWING minskad typ- och tokenförekomst, samt varierad rangordning. POTENTIAL ARCHAIMS minimal typ- och tokenförekomst i den ena datamängden men inte i den andra. POTENTIAL NEOLOGISM minimal typ- och tokenförekomst i den ena datamängden men inte i den andra.

Pot.WIDEN Pot.NARROW Pot.ARCHAISM Pot.NEOLOGISM rätt?för konung far råd hjärta anlete statsminister problem natur hop skit nummer hustru själv sig kurs?vår grevinna kollega syster sällhet grej händelse majestät bomb karl fröjd statsråd tro tycke värdering karaktär skald styck vagn?före relation vila *skön aktivitet förtroende maka identitet fröken?skrev cykel ära?*göra kilometer figur anmärkning film lek underrättelse motor bana bölja handflata förmiddag håg kille storm ryggsäck Table : Ord som skiljer sig åt väsentligt i datamängderna.

Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning

Identifiera distributionell variationer som kan vara indikation på semantisk variation. Få ut en lista att ge *någon* som vill kartlägga semantisk förändring mellan olika tidpunkter (eller semantisk variation mellan olika discipliner) Oändligt svårt att dra gränsen mellan samhällelig och semantisk förändring. Något kan helt enkelt vara inne, utan att ha förändrat betydelse. Identifiera och därmed korrigera och förbättra materialet och förbättra taggning och parsningsverktyg. plockar ut exempel, betydligt enklare än att sitta med två material från olika tidpunkter och fundera över om något kan ha förändrats... upp till lexikografen att avgöra om exemplen är bra eller ej.

Tack för uppmärksamheten!