Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Karin Cavallin karin.cavallin@gu.se Institutionen för filosofi, lingvistik och vetenskapsteori Göteborgs universitet 12. konferanse om leksikografi i Norden - Oslo 13e augusti, 2013
Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning
Distributionell variation i korpora =? Indikation på semantisk förändring
Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning
I Språkbanken.gu.se Litteraturbanken* Parole Stor-SUC Press 65 och Press 95
II Litteraturbanken tagga - TnT (HunPos) parsa - MaltParser lemmatisera - olika automatiska metoder samt manuellt
III Lit. bank Parole Suc-Novels Press65 Press95 Time span 19th cent. 1 1976-1997 1990-1994 1965 1995 Tok. 10.129.994 7.959.094 4.653.801 1.120.332 7.684.066 Sent. 520.643 553.654 330.281 53.629 515.062 NN 1.917.375 1.368.975 701.000 230.675 1.578.013 VB 1.452.009 1.265.527 796.810 154.398 1.102.836 PN 812.060 636.588 485.106 56.061 360.937 PM 470.764 401.792 140.945 49.379 553.043 Table : Summary of corpus data features, part-of-speech features etc. 1 Late 18th and 19th century
Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning
Utvidgad betydelse (Widening/Broadening) Inskränkt betydelse (Narrowing) Neologismer och arkaismer
Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning
- Lexical sets I Exempelkorpus: Det är sommar. Lisa är svettig. Hon köper en glass. Hon dricker även en svalkande läsk. Men den var inte så god så hon slängde läsken. I eftermiddag tar hon bilen till landet. Hennes bror har köpt ett hus. Hon har köpt en ryggsäck till resan. Hon köpte även vin och tre liter vatten och en glass till sin bror. Ikväll ska de dricka vatten, vin och öl. Barnen får dricka mjölk. Hunden tog en promenad och kastade vatten innan de begav sig iväg.
- Lexical sets II mängd: {köpa glass, dricka läsk, slänga läsk, ta bil, köpa hus, köpa ryggsäck, köpa vin, köpa vatten, köpa glass, dicka vatten, dricka vin, dricka öl, dricka mjölk, ta promenad, kasta vatten}
- Lexical sets III - lexical sets. köpa: glass, ryggsäck, hus, vatten dricka: läsk, öl, vatten, vin, mjölk ta: bil, promenad glass: köpa läsk: dricka, slänga öl: dricka vatten: dricka, kasta bil: ta promenad: ta
mängden - verb-objektparen Lit. bank Parole Suc-Novels Press65 Press95 Tok. 10.129.994 7.959.094 4.653.801 1.120.332 7.684.066 VOTokens 290.878 482.221 303.098 40.908 500.954 VOTypes 157.869 96.997 61.437 21.960 95.846 (54,27%) (20,11%) (20,27%) (53,68%) (19,13%) Table : Summary of corpus data features, verb-object types
Typer och förekomster (Type-Token) Jämföra rankning Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning
Typer och förekomster (Type-Token) Jämföra rankning Vilka verb och vilka objekt har vi? Hur många är de? Hur förhåller de sig till varandra? Samförekommer de eller förekommer de bara i vissa kontexter?
Typer och förekomster (Type-Token) Jämföra rankning Types och Tokens Typer och förekomster - types och tokens typ - antal olika varianter av förekomster förekomst - antal förekomster
Typer och förekomster (Type-Token) Jämföra rankning Log-likelihood ratio Nollhypotes: Alla ord har samma samförekomstfrekvens (n) Alt. hypotes: Den faktiska samförekomstfrekvensen (m) Log-likelihoodratio = 2 [n11 log( n11 m11 )+ n12 log( n12 m12 )+ n21 log( n21 m21 )+ n22 log( n22 m22 )]
Typer och förekomster (Type-Token) Jämföra rankning Jämföra rankning I Spearmans rankningskoefficient -1 : ingen likhet mellan rankningarna 1 : identisk likhet mellan rankningen r Rx R y = N R xi R yi ( R xi )( R yi ) [N Rxi 2 ( R xi ) 2 ][N Ryi 2 ( R yi ) 2 ]
Typer och förekomster (Type-Token) Jämföra rankning Jämföra rankning II LB Stor-SUC ORD RANK #PAR ORD RANK #PAR lösa 463 10 ha 93 659 förenkla 8427 1 lösa 115 99 intrassla 8973 1 ta 311 18 debattera 8973 1 vålla 1149 9 utgöra 9390 3 lägga 1869 1 genomtänka 9411 1 göra 2175 1 analysera 10767 1 finnas 3050 24 begrunda 13411 1 uppstå 3652 5 diskutera 15544 1 se 3746 1 grubbla 15888 1 attackera 3753 3 således 16407 1 säga 5002 1 kalla 19225 2 få 5857 41 rymma 19450 1 hantera 7094 3 studera 22387 1 vidgå 7843 1 ordna 25443 1 dra 8466 1 förklara 25772 1 anförtro 9719 2 avbryta 26407 1 analysera 10089 2 måste 33299 1 intellektualisera 10517 1 söka 37004 1 komma 11538 1 svara 37663 1 skoja 11883 1 ha 39699 1 ytterligare 11883 1 sätta 41233 1 du 13656 1 lägga 42560 1 undanröja 14302 1 föra 44005 1 kringgå 14302 1 Karin Cavallin karin.cavallin@gu.seinstitutionen ge 52132 1 förklara filosofi, Automatisk lingvistik identifiering och 14743 vetenskapsteorigöteborgs av semantisk 3 förändring universitet med hjälp av d
Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning
Betydligt fler förekomster av ett ord i den ena datamängden än den andra Fler typer i den ena lexikala mängden än den andra Olik rangordning för ett givet verb-objektpar i de olika datamängderna. (Log-likelihood) Olik rangordning för respektive lexikal mängd. (Spearman)
POTENTIAL WIDENING utökad typ- och tokenförekomst, samt varierad rangordning POTENTIAL NARROWING minskad typ- och tokenförekomst, samt varierad rangordning. POTENTIAL ARCHAIMS minimal typ- och tokenförekomst i den ena datamängden men inte i den andra. POTENTIAL NEOLOGISM minimal typ- och tokenförekomst i den ena datamängden men inte i den andra.
Pot.WIDEN Pot.NARROW Pot.ARCHAISM Pot.NEOLOGISM rätt?för konung far råd hjärta anlete statsminister problem natur hop skit nummer hustru själv sig kurs?vår grevinna kollega syster sällhet grej händelse majestät bomb karl fröjd statsråd tro tycke värdering karaktär skald styck vagn?före relation vila *skön aktivitet förtroende maka identitet fröken?skrev cykel ära?*göra kilometer figur anmärkning film lek underrättelse motor bana bölja handflata förmiddag håg kille storm ryggsäck Table : Ord som skiljer sig åt väsentligt i datamängderna.
Disposition Introduktion Typer och förekomster (Type-Token) Jämföra rankning
Identifiera distributionell variationer som kan vara indikation på semantisk variation. Få ut en lista att ge *någon* som vill kartlägga semantisk förändring mellan olika tidpunkter (eller semantisk variation mellan olika discipliner) Oändligt svårt att dra gränsen mellan samhällelig och semantisk förändring. Något kan helt enkelt vara inne, utan att ha förändrat betydelse. Identifiera och därmed korrigera och förbättra materialet och förbättra taggning och parsningsverktyg. plockar ut exempel, betydligt enklare än att sitta med två material från olika tidpunkter och fundera över om något kan ha förändrats... upp till lexikografen att avgöra om exemplen är bra eller ej.
Tack för uppmärksamheten!