Utvärdering av nyhetsbevakningssystem Eriks Sneiders eriks@dsv.su.se 24-1-12 Nyhetsbevakning och Information Retrieval Applikationsnivå Nyhetsbevakning att hitta intressanta artiklar i flödet Tekniknivå Information Retrieval (IR) man menar Text Retrieval vanligtvis. IR-system söker inom en samling av och hämtar till en användarfråga Utvärdering av nyhetsbevakningssystem vi utvärderar IR-system E. Sneiders 2 Syfte med IR-system Vilket system är bättre? och icke- (a) (b) hämta sortera på webben E. Sneiders 3 - relevant - icke-relevant E. Sneiders 4 Vad utvärderar vi? (1) Hämtar systemet alla? (2) Hämtar systemet enbart? (3) Hämtar systemet skräp om det inte finns? (1) och (2) anses viktigast Mängder: i en samling samling E. Sneiders 5 E. Sneiders 6 1
Hämtade,, & Hämtade,, & samling & ( ) samling () () vi mäter storleken på snittet ( ) E. Sneiders 7 vi mäter storleken på snittet ( ) E. Sneiders 8 Hämtade,, & samling mäter andel av som är : samling () I P = () vi mäter storleken på snittet ( ) & ( ) E. Sneiders E. Sneiders 1 Täckning (recall) Täckning (recall) Täckning mäter andel av som blev : R = I samling () Hur vet vi hur många finns? Kontrollera manuellt samling Lita på prövade system () & ( ) & ( ) E. Sneiders 11 E. Sneiders 12 2
1% Exempel 1% täckning samling samling 1% precision & täckning samling 7 P = 64% 11 7 R = 78% 1% precision E. Sneiders 13 E. Sneiders 14 Flytta på skärlinjen Flytta på skärlinjen 5 P = 83% 6 5 R = 56% 7 P = 64% 11 7 R = 78% E. Sneiders 15 E. Sneiders 16 Flytta på skärlinjen -täckningskurva P = 53% 17 8 7 6 R = 1% % 5 4 3 2 1 1 2 3 4 5 6 7 8 1 Recall % E. Sneiders 17 E. Sneiders 18 3
Average precision-recall -täckningskurva 1% % 8% 7% Jämförelse mellan Kanoodle och Teoma En kurva beskriver andel när skärlinjen flyttas för en fråga % 6% 5% 4% 3% 2% 1% % % 1% 2% 3% 4% 5% 6% 7% 8% % 1% 1,8 Google,6 AltaVista,4,2,2,4,6,8 1 1,2 Recall Kanoodle Teoma 8 Recall % 7 Avarege Interpolated Precison Recall Graph % 6 5 4 3 2 1 1 2 3 4 5 6 7 8 1 Recall % E. Sneiders 1 1,,8 Jämförelse av sökmotorer,,7 medelkurvor,6 Google,5 Altavista (3 frågor per sökmotor),4 Lycos,3,2 Inlupp1 på *:66,1,1,2,3,4,5,6,7,8, 1 E. Sneiders Recall 2 Kvalité av IR-systemet och precision-täckningskurva viktig i webbmiljö -täckningsregioner orealistiskt system 1% täckning och precision mycket bra system viktig om man vill hitta fullständig information genomsnittssystem dåligt system Täckning E. Sneiders 21 Täckning low-recall mid-recall high-recall (engelska) E. Sneiders 22 Pooling Pooling hitta delmängd D q Föreställ att vi har 5 frågor och 5 D det skulle kräva 25 bedömningar Vi tar en delmängd D q D med de flesta och manuellt evaluerar D q Hur hittar man D q? Vi tar n texthämtningssystem, kör fråga q och tar k topp från varje system Riktiga testfall har n = 3, k = 1 eller k = 2 D q är topp k från n system Nu behöver vi max n k = 3 1 = 3 manuella bedömningar per fråga, inte 5 E. Sneiders 23 E. Sneiders 24 4
Exempel Standardtäckningsvärden medeltemperatur stockholm Google, Lycos, Kanoodle Pooling 3 precision-täckningskurvor Föreställ att vi vill jämföra två IR-system Standardtäckningsvärden är 1, 2, 1% - recall graf för google 1% 8% Q1 6% Q2 4% Q3 2% Q4 % % 2% 4% 6% 8% 1% 12% Recall Men vi har inga precisionsmått vid täckning.1, 1. Endast vid konstiga 1, 58, 82, etc. % E. Sneiders 25 E. Sneiders 26 Interpolerad precision för standardtäckningsvärden Enkelvärden - högst närmast till höger Harmonic mean (F-värde) P R F = 2 P + R E-värde där precision och täckning är olika viktiga 2 1+ b E = 2 b R + 1 P om b = 1 så får vi F-värde E. Sneiders 27 E. Sneiders 28 TREC (Text REtrieval Conferences) TREC Testbed för IR-system Sedan 12 organiserad av NIST (National Institute of Standards and Technology) Document collection, många gigabytes Example information requests (topics) Relevant Documents for Each Information Request Pooling används Tracks: ad-hoc retrieval text filtering novelty track question answering video track etc. http://trec.nist.gov/tracks.html E. Sneiders 2 E. Sneiders 3 5
Standardsamlingar CACM (computer science): 324 utdrag, 64 frågor CF (medicine): 123 utdrag, 1 frågor CISI (library science): 146 utdrag, 112 frågor Cranfield (aeronautics): 14 utdrag, 225 frågor LISA (library science): 64 utdrag, 35 frågor Time (newspaper): 423 utdrag, 83 frågor Ohsumed (medicine): 348 566 utdrag, 16 frågor http://www.cs.utk.edu/~lsi/corpa.html Internet Information Search Techniques *:66 / 2I152 / 2I417 VT5, weeks 13-21 http://www.dsv.su.se/~eriks/66/ E. Sneiders 31 E. Sneiders 32 6