Random Indexing för vektorbaserad semantisk analys

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "Random Indexing för vektorbaserad semantisk analys"

Transkript

1 Random Indexing för vektorbaserad semantisk analys ScandSum 23

2 Vektorbaserad semantisk analys Ord (-betydelser) som vektorer i en mångdimensionell rymd y gitarr luta ScandSum 23 x tuba

3 Vektorbaserad semantisk analys Kontextvektorerna genereras från samförekomststatistik: D D2 D3 D4 D5 D6 D7 D8 D9 spam bacon egg 2 ScandSum 23

4 Vektorbaserad semantisk analys ScandSum 23 Representerar ords samförekomstmönster Liknande samförekomstmönster = liknande vektorer Distributionshypotesen: Ord som har liknande samförekomstmönster (distribution) har liknande betydelser Beräkna semantisk likhet

5 ScandSum 23 Latent Semantic Analysis (LSA) D9 D8 D7 graph trees 2 system user computer interface human D6 D5 D4 D3 D2 D {F} =

6 Latent Semantic Analysis (LSA) Singular Value Decomposition (SVD): {F} = {T} {S} {D} = ScandSum 23 Optimal vid 3 dimensioner

7 ScandSum 23 Latent Semantic Analysis (LSA) D D D graph trees system user computer interface human D6 D5 D4 D3 D2 D {~F} (approximerad rekonstruktion) =

8 {F} = Hyperspace Analogue to Language (HAL) The horse raced past the barn fell barn fell horse past raced the barn fell horse 5 past raced 5 4 ScandSum 23 the varians

9 Hyperspace Analogue to Language (HAL) Kolumnvarians: behåll endast kolumner med hög varians Optimal vid 2 dimensioner ScandSum 23

10 Problem Frekvensmatrisens dimensionalitet: Effektivitet Skalbarhet Dimensionsreducering är kostsam! Ny data ScandSum 23

11 Random Indexing ScandSum 23 Distribuerade representationer: mångdimensionella glesa slumpvektorer K = -... K2 = -... K3 = +... K4 = +... där Kn är en given kontext (ord eller dokument) Dimensionalitet: tusental Gleshet: få (,2%,4%) nollskilda element (+ och -) Slumpade: nollskilda elementen slumpvist distribuerade

12 Random Indexing Dokumentträning (LSA): Tilldela en mångdimensionell gles slumpvektor indexvektor till varje dokument: ScandSum 23 = + 2 = - 3 = -+ 4 = +

13 Random Indexing Varje gång ett ord förekommer: addera dokumentets indexvektor till ordets kontextvektor ord ord ord = + + ord = {,+,-4,,+2,+3,,-34,+,,-,+5,,-9,+33 ScandSum 23

14 Random Indexing Kontextvektor = summan av ett ords förekomster Inte glesa! Kontextvektorernas dimensionalitet = indexvektorernas dimensionalitet ScandSum 23

15 Random Indexing Fönsterträning (HAL) Tilldela en indexvektor till varje ord: this = parrot = +... is = +... no = more = ScandSum 23

16 Random Indexing Varje gång ett ord förekommer: addera de n närmaste ordens indexvektorer till ordets kontextvektor [o n-2 o n- ] f n [o n+ o n+2 ] This parrot is no more ScandSum 23 {- } + {+ } + {+ } + {-+ } is =

17 Random Indexing ScandSum 23 Unära vektorer: K =... K2 =... K3 =... K4 =... Samma metod genererar en vanlig frekvensmatris F Unära vektorer är ortogonala Indexvektorerna är nästan ortogonala

18 Random Indexing ScandSum 23 Samla indexvektorerna i matris S Samla kontextvektorerna i matris K: K = FS SS T kan uttryckas: SS T I e där e kan tolkas som brus Högre dimensionalitet = mindre brus K och F innehåller ungefär samma information: F KS T e

19 Random Indexing Matrisstorlek: Vokabulär: 5 Dokument: 3 LSA: 5 3 (matris F ) HAL: 5 5 (matris F 2 ) RI: 5 2 (matris K) ScandSum 23

20 Random Indexing ScandSum 23 Minimerar matrisens storlek dimensionsreduceringen är inbyggd Inget behov av dimensionsreduceringsfras: effektiv! Uppdateringsbar: flexibel! Större vokabulär betyder inte större vektorer: skalbar!

21 Random Indexing Representera betydelser Beräkna semantisk likhet Automatiskt genererade lexikon Frågeexpansion Klassificeringsproblem IR ScandSum 23

22 Exempel ScandSum 23 Oxford Freiburg, Stanford, Yale, Harvard, Cornell leg wing, hand, shoulder, arm, ventricle France Russia, Spain, Germany, great, Italy Sweden Denmark, Finland, Harald, Iceland, postmarked Iraq Afghanistan, Syria, Lebanon, Turkey, Israel stupid silly, funny, dumb, foolish, nice fly run, flutter, wander, roll, turn bank check, government, depositor, customer, loan

23 TOEFL (Test Of English as a Foreign Language) ScandSum 23 Standardiserat synonymtest 8 flervalsfrågor 4 alternativ RI: 67% 72% (lemmatisering) LSA: 64,4% (65% våra experiment) : 64,5%

24 Frågeexpansion ScandSum 23 Vokabulärproblemet: informationsbehov kan uttryckas på många sätt! Addera termer till en fråga: När dog Elvis? när stopord!? dog avled gick_bort Elvis Presley The_King

25 Frågeexpansion Använd Random Indexing för att hitta liknande ord: För varje (icke stop-) ord, addera de n närmaste grannarna (dvs de n ord som har mest lika kontextvektorer) ScandSum 23

26 CLEF 22 ScandSum 23 Lemmatisering Random Indexing: 8-dimensionella vektorer 8 nollskilda element Kontextfönster: [,25,5 ] ord [,5,25] För varje ord, addera de 5 ord vars kontextvektorer är mest lika frågeordets kontextvektor

27 CLEF 22 ScandSum 23 Sämre resultat med expansion Bättre med kombineradekörningar! Vilka ord bör expanderas? Personnamn? Marie Claude Pierre Gabin Harlow Francios Platsnamn? Finland Norge Danmark Sverige Österrike Island Expandera inte termer - expandera en frågevektor!

28 Flerspråkig frågeexpansion Flerspråkig alignad textdata Random Indexing - dokument ord ord +- wrd wrd ScandSum 23 ord + = {+2,-9,+23 } {+9,-5,+6 } = wrd

29 Flerspråkig frågeexpansion ScandSum 23 Expansion och översättning: Byt ut varje ord i frågan med de 5 ord i det andra språket vars kontextvektorer är mest lika frågeordets CLEF 2 Franska Engelska Svenska Engelska NTCIR 22 Engelska Japanska