Random Indexing för vektorbaserad semantisk analys

Relevanta dokument
Värmeväxlare - Terminologi. Heat exchangers -Terminology

CogSum. Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

Lågrangsapproximation exempel. Singulärvärden och tillämpningar

Random Indexing. - med större korpus. Olof Stange & Claes Toll Handledare: Johan Boye DD Språkteknologi

Distributionell karaktär hos vissa kategorier av ord

EasyReader (FriendlyReader)

SVENSK STANDARD SS-EN

Användning av Self Organizing Maps som en metod att skapa semantiska representationer ur text Per Fallgren

SVENSK STANDARD SS-EN ISO

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

SVENSK STANDARD SS-EN 175

Vågar du prata om kulturella skillnader i ledarskapet?

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO

Utträdesåldern från arbetslivet. ett internationellt perspektiv

SVENSK STANDARD SS-EN 1045

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Nätkostnader ur ett internationellt perspektiv. Sweco för Villaägarna,


SS-ISO Hållbar Upphandling - Vägledning. En översikt av standarden GreenS

SVENSK STANDARD SS-EN ISO 140-7

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO 11987

SVENSK STANDARD SS-EN ISO 9706

SVENSK STANDARD SS-EN

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO 9876

SVENSK STANDARD SS-EN ISO /A1:2016

SVENSK STANDARD SS-EN ISO

7RWDOXQGHUV NQLQJDY6YHULJHVKRWHOOVWXJE\DUYDQGUDUKHP RFKFDPSLQJSODWVHU. (WWEUDnUI UVDPWOLJDERHQGHIRUPHU

SVENSK STANDARD SS-EN

Regnskab"i"2015"presenterades."Återstående"rapport"från"FreiburgWprojektet"hade"kommit"och" presenterades."

SVENSK STANDARD SS-EN ISO 8733

Dimensionsreducerande vektorrumsmetoder för språkbehandling

SVENSK STANDARD SS-EN ISO 308

SVENSK STANDARD SS-EN 978

SVENSK STANDARD SS-EN ISO 14534

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN 299

SVENSK STANDARD SS-EN 828

SVENSK STANDARD SS-EN ISO

Calculate check digits according to the modulus-11 method

SVENSK STANDARD SS-EN ISO 11409

SVENSK STANDARD SS-EN ISO 11341

SVENSK STANDARD SS-EN ISO 14889

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO

Termoventiler 4H_SE.indd H-SERIEN

SVENSK STANDARD SS-EN

Det ekonomiska läget i Europa - Maj Jan Bergstrand

Dokumentrekommendationssystem och intranät

SVENSK STANDARD SS-EN

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO 11734

SVENSK STANDARD SS-EN Mobile access and working towers Rules and guidelines for the preparation of an instruction manual

SVENSK STANDARD SS-EN 179

SVENSK STANDARD SS-EN ISO

a-kassan MYTER, FAKTA OCH FÖRSLAG

SVENSK STANDARD SS-ENV

Marknadsstatistik & Trähusnytt #1 16 januari 2014

Veckoblad 4, Linjär algebra IT, VT2010

14 medlemsbolag. Digital projektion. Björn Gregfelt Biografen Rio Eskilstuna Tisdagen den 19 oktober 2010

Kodning av ansiktstextur med oberoende komponenter

Mötesplats Open Access april 2007

SVENSK STANDARD SS-EN :2005/A1:2014

SVENSK STANDARD SS-EN /AC:2010

Allt som krävs för en ren, säker och effektiv fordonsverkstad

SVENSK STANDARD SS-EN ISO

Kommunikation. Kunna redovisa ett arbete muntligt så att innehållet framgår och är begripligt

SVENSK STANDARD SS-EN ISO 2739

SVENSK STANDARD SS-EN

Finska näringslivets syn på kvaliteten i tekniska universitetens verksamhet

Lön, lönekostnad och arbetskraftskostnader i olika länder för arbetare inom tillverkningsindutrin år

Cristina Eriksson oktober 2001

Automatisk tesauruskonstruktion med latent semantisk indexering

Kan datorn lära sig ordkunskap automatiskt?

Lösningsförslag till övningsuppgifter, del V

SVENSK STANDARD SS-EN

NYHET. NYHET: Megamat RS LÄTTGÅENDE SKJUTDÖRR. PATERNOSTERVERK Ett kompaktlager, som spar utrymme, tid och pengar! AUTOMATISK KEDJESPÄNNARE

Delårsinformation HL Display-koncernen januari - juni 2012


SVENSK STANDARD SS-EN

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

Att lära av Pisa-undersökningen

Vad är svensk integrationspolitik? Henrik Emilsson

Arbetstidsförlängning en ny trend?

5.7. Ortogonaliseringsmetoder

Transkript:

Random Indexing för vektorbaserad semantisk analys ScandSum 23

Vektorbaserad semantisk analys Ord (-betydelser) som vektorer i en mångdimensionell rymd y gitarr luta ScandSum 23 x tuba

Vektorbaserad semantisk analys Kontextvektorerna genereras från samförekomststatistik: D D2 D3 D4 D5 D6 D7 D8 D9 spam bacon egg 2 ScandSum 23

Vektorbaserad semantisk analys ScandSum 23 Representerar ords samförekomstmönster Liknande samförekomstmönster = liknande vektorer Distributionshypotesen: Ord som har liknande samförekomstmönster (distribution) har liknande betydelser Beräkna semantisk likhet

ScandSum 23 Latent Semantic Analysis (LSA) D9 D8 D7 graph trees 2 system user computer interface human D6 D5 D4 D3 D2 D {F} =

Latent Semantic Analysis (LSA) Singular Value Decomposition (SVD): {F} = {T} {S} {D} = ScandSum 23 Optimal vid 3 dimensioner

ScandSum 23 Latent Semantic Analysis (LSA).85.66 -.5.9.2 -.4 -.9 D9.98.77 -.2.2.9 -. -.6 D8.69.55 -.5.8.6 -.7 -.2 D7.3.2 -.3 -.5.34 -.6 graph.24.4 -.27 -.4.23 -.6 trees -.7.56.27.5.23.45 system.3.39.7.6.84.26 user.2.24.4.36.5.5 computer -.3.6.4.33.37.4 interface -.5.8.47.38.4.6 human D6 D5 D4 D3 D2 D {~F} (approximerad rekonstruktion) =

{F} = Hyperspace Analogue to Language (HAL) The horse raced past the barn fell barn fell horse past raced the barn 2 4 3 6 fell 5 3 2 4 horse 5 past 4 5 3 raced 5 4 ScandSum 23 the 3 5 4 2 varians 3.47. 2.9 4.33.88.67

Hyperspace Analogue to Language (HAL) Kolumnvarians: behåll endast kolumner med hög varians Optimal vid 2 dimensioner ScandSum 23

Problem Frekvensmatrisens dimensionalitet: Effektivitet Skalbarhet Dimensionsreducering är kostsam! Ny data ScandSum 23

Random Indexing ScandSum 23 Distribuerade representationer: mångdimensionella glesa slumpvektorer K = -... K2 = -... K3 = +... K4 = +... där Kn är en given kontext (ord eller dokument) Dimensionalitet: tusental Gleshet: få (,2%,4%) nollskilda element (+ och -) Slumpade: nollskilda elementen slumpvist distribuerade

Random Indexing Dokumentträning (LSA): Tilldela en mångdimensionell gles slumpvektor indexvektor till varje dokument: ScandSum 23 = + 2 = - 3 = -+ 4 = +

Random Indexing Varje gång ett ord förekommer: addera dokumentets indexvektor till ordets kontextvektor ord ord ord = + + ord = {,+,-4,,+2,+3,,-34,+,,-,+5,,-9,+33 ScandSum 23

Random Indexing Kontextvektor = summan av ett ords förekomster Inte glesa! Kontextvektorernas dimensionalitet = indexvektorernas dimensionalitet ScandSum 23

Random Indexing Fönsterträning (HAL) Tilldela en indexvektor till varje ord: this = -+... parrot = +... is = +... no = +-... more = -+... ScandSum 23

Random Indexing Varje gång ett ord förekommer: addera de n närmaste ordens indexvektorer till ordets kontextvektor [o n-2 o n- ] f n [o n+ o n+2 ] This parrot is no more ScandSum 23 {- } + {+ } + {+ } + {-+ } is = +--++-+++

Random Indexing ScandSum 23 Unära vektorer: K =... K2 =... K3 =... K4 =... Samma metod genererar en vanlig frekvensmatris F Unära vektorer är ortogonala Indexvektorerna är nästan ortogonala

Random Indexing ScandSum 23 Samla indexvektorerna i matris S Samla kontextvektorerna i matris K: K = FS SS T kan uttryckas: SS T I e där e kan tolkas som brus Högre dimensionalitet = mindre brus K och F innehåller ungefär samma information: F KS T e

Random Indexing Matrisstorlek: Vokabulär: 5 Dokument: 3 LSA: 5 3 (matris F ) HAL: 5 5 (matris F 2 ) RI: 5 2 (matris K) ScandSum 23

Random Indexing ScandSum 23 Minimerar matrisens storlek dimensionsreduceringen är inbyggd Inget behov av dimensionsreduceringsfras: effektiv! Uppdateringsbar: flexibel! Större vokabulär betyder inte större vektorer: skalbar!

Random Indexing Representera betydelser Beräkna semantisk likhet Automatiskt genererade lexikon Frågeexpansion Klassificeringsproblem IR ScandSum 23

Exempel ScandSum 23 Oxford Freiburg, Stanford, Yale, Harvard, Cornell leg wing, hand, shoulder, arm, ventricle France Russia, Spain, Germany, great, Italy Sweden Denmark, Finland, Harald, Iceland, postmarked Iraq Afghanistan, Syria, Lebanon, Turkey, Israel stupid silly, funny, dumb, foolish, nice fly run, flutter, wander, roll, turn bank check, government, depositor, customer, loan

TOEFL (Test Of English as a Foreign Language) ScandSum 23 Standardiserat synonymtest 8 flervalsfrågor 4 alternativ RI: 67% 72% (lemmatisering) LSA: 64,4% (65% våra experiment) : 64,5%

Frågeexpansion ScandSum 23 Vokabulärproblemet: informationsbehov kan uttryckas på många sätt! Addera termer till en fråga: När dog Elvis? när stopord!? dog avled gick_bort Elvis Presley The_King

Frågeexpansion Använd Random Indexing för att hitta liknande ord: För varje (icke stop-) ord, addera de n närmaste grannarna (dvs de n ord som har mest lika kontextvektorer) ScandSum 23

CLEF 22 ScandSum 23 Lemmatisering Random Indexing: 8-dimensionella vektorer 8 nollskilda element Kontextfönster: 3 + 3 [,25,5 ] ord [,5,25] För varje ord, addera de 5 ord vars kontextvektorer är mest lika frågeordets kontextvektor

CLEF 22 ScandSum 23 Sämre resultat med expansion Bättre med kombineradekörningar! Vilka ord bör expanderas? Personnamn? Marie Claude Pierre Gabin Harlow Francios Platsnamn? Finland Norge Danmark Sverige Österrike Island Expandera inte termer - expandera en frågevektor!

Flerspråkig frågeexpansion Flerspråkig alignad textdata Random Indexing - dokument ord ord +- wrd wrd ScandSum 23 ord + = {+2,-9,+23 } {+9,-5,+6 } = wrd

Flerspråkig frågeexpansion ScandSum 23 Expansion och översättning: Byt ut varje ord i frågan med de 5 ord i det andra språket vars kontextvektorer är mest lika frågeordets CLEF 2 Franska Engelska Svenska Engelska NTCIR 22 Engelska Japanska