Random Indexing för vektorbaserad semantisk analys ScandSum 23
Vektorbaserad semantisk analys Ord (-betydelser) som vektorer i en mångdimensionell rymd y gitarr luta ScandSum 23 x tuba
Vektorbaserad semantisk analys Kontextvektorerna genereras från samförekomststatistik: D D2 D3 D4 D5 D6 D7 D8 D9 spam bacon egg 2 ScandSum 23
Vektorbaserad semantisk analys ScandSum 23 Representerar ords samförekomstmönster Liknande samförekomstmönster = liknande vektorer Distributionshypotesen: Ord som har liknande samförekomstmönster (distribution) har liknande betydelser Beräkna semantisk likhet
ScandSum 23 Latent Semantic Analysis (LSA) D9 D8 D7 graph trees 2 system user computer interface human D6 D5 D4 D3 D2 D {F} =
Latent Semantic Analysis (LSA) Singular Value Decomposition (SVD): {F} = {T} {S} {D} = ScandSum 23 Optimal vid 3 dimensioner
ScandSum 23 Latent Semantic Analysis (LSA).85.66 -.5.9.2 -.4 -.9 D9.98.77 -.2.2.9 -. -.6 D8.69.55 -.5.8.6 -.7 -.2 D7.3.2 -.3 -.5.34 -.6 graph.24.4 -.27 -.4.23 -.6 trees -.7.56.27.5.23.45 system.3.39.7.6.84.26 user.2.24.4.36.5.5 computer -.3.6.4.33.37.4 interface -.5.8.47.38.4.6 human D6 D5 D4 D3 D2 D {~F} (approximerad rekonstruktion) =
{F} = Hyperspace Analogue to Language (HAL) The horse raced past the barn fell barn fell horse past raced the barn 2 4 3 6 fell 5 3 2 4 horse 5 past 4 5 3 raced 5 4 ScandSum 23 the 3 5 4 2 varians 3.47. 2.9 4.33.88.67
Hyperspace Analogue to Language (HAL) Kolumnvarians: behåll endast kolumner med hög varians Optimal vid 2 dimensioner ScandSum 23
Problem Frekvensmatrisens dimensionalitet: Effektivitet Skalbarhet Dimensionsreducering är kostsam! Ny data ScandSum 23
Random Indexing ScandSum 23 Distribuerade representationer: mångdimensionella glesa slumpvektorer K = -... K2 = -... K3 = +... K4 = +... där Kn är en given kontext (ord eller dokument) Dimensionalitet: tusental Gleshet: få (,2%,4%) nollskilda element (+ och -) Slumpade: nollskilda elementen slumpvist distribuerade
Random Indexing Dokumentträning (LSA): Tilldela en mångdimensionell gles slumpvektor indexvektor till varje dokument: ScandSum 23 = + 2 = - 3 = -+ 4 = +
Random Indexing Varje gång ett ord förekommer: addera dokumentets indexvektor till ordets kontextvektor ord ord ord = + + ord = {,+,-4,,+2,+3,,-34,+,,-,+5,,-9,+33 ScandSum 23
Random Indexing Kontextvektor = summan av ett ords förekomster Inte glesa! Kontextvektorernas dimensionalitet = indexvektorernas dimensionalitet ScandSum 23
Random Indexing Fönsterträning (HAL) Tilldela en indexvektor till varje ord: this = -+... parrot = +... is = +... no = +-... more = -+... ScandSum 23
Random Indexing Varje gång ett ord förekommer: addera de n närmaste ordens indexvektorer till ordets kontextvektor [o n-2 o n- ] f n [o n+ o n+2 ] This parrot is no more ScandSum 23 {- } + {+ } + {+ } + {-+ } is = +--++-+++
Random Indexing ScandSum 23 Unära vektorer: K =... K2 =... K3 =... K4 =... Samma metod genererar en vanlig frekvensmatris F Unära vektorer är ortogonala Indexvektorerna är nästan ortogonala
Random Indexing ScandSum 23 Samla indexvektorerna i matris S Samla kontextvektorerna i matris K: K = FS SS T kan uttryckas: SS T I e där e kan tolkas som brus Högre dimensionalitet = mindre brus K och F innehåller ungefär samma information: F KS T e
Random Indexing Matrisstorlek: Vokabulär: 5 Dokument: 3 LSA: 5 3 (matris F ) HAL: 5 5 (matris F 2 ) RI: 5 2 (matris K) ScandSum 23
Random Indexing ScandSum 23 Minimerar matrisens storlek dimensionsreduceringen är inbyggd Inget behov av dimensionsreduceringsfras: effektiv! Uppdateringsbar: flexibel! Större vokabulär betyder inte större vektorer: skalbar!
Random Indexing Representera betydelser Beräkna semantisk likhet Automatiskt genererade lexikon Frågeexpansion Klassificeringsproblem IR ScandSum 23
Exempel ScandSum 23 Oxford Freiburg, Stanford, Yale, Harvard, Cornell leg wing, hand, shoulder, arm, ventricle France Russia, Spain, Germany, great, Italy Sweden Denmark, Finland, Harald, Iceland, postmarked Iraq Afghanistan, Syria, Lebanon, Turkey, Israel stupid silly, funny, dumb, foolish, nice fly run, flutter, wander, roll, turn bank check, government, depositor, customer, loan
TOEFL (Test Of English as a Foreign Language) ScandSum 23 Standardiserat synonymtest 8 flervalsfrågor 4 alternativ RI: 67% 72% (lemmatisering) LSA: 64,4% (65% våra experiment) : 64,5%
Frågeexpansion ScandSum 23 Vokabulärproblemet: informationsbehov kan uttryckas på många sätt! Addera termer till en fråga: När dog Elvis? när stopord!? dog avled gick_bort Elvis Presley The_King
Frågeexpansion Använd Random Indexing för att hitta liknande ord: För varje (icke stop-) ord, addera de n närmaste grannarna (dvs de n ord som har mest lika kontextvektorer) ScandSum 23
CLEF 22 ScandSum 23 Lemmatisering Random Indexing: 8-dimensionella vektorer 8 nollskilda element Kontextfönster: 3 + 3 [,25,5 ] ord [,5,25] För varje ord, addera de 5 ord vars kontextvektorer är mest lika frågeordets kontextvektor
CLEF 22 ScandSum 23 Sämre resultat med expansion Bättre med kombineradekörningar! Vilka ord bör expanderas? Personnamn? Marie Claude Pierre Gabin Harlow Francios Platsnamn? Finland Norge Danmark Sverige Österrike Island Expandera inte termer - expandera en frågevektor!
Flerspråkig frågeexpansion Flerspråkig alignad textdata Random Indexing - dokument ord ord +- wrd wrd ScandSum 23 ord + = {+2,-9,+23 } {+9,-5,+6 } = wrd
Flerspråkig frågeexpansion ScandSum 23 Expansion och översättning: Byt ut varje ord i frågan med de 5 ord i det andra språket vars kontextvektorer är mest lika frågeordets CLEF 2 Franska Engelska Svenska Engelska NTCIR 22 Engelska Japanska