Statistik från webbplatser virtuella besök eller levererade sidor? Ulf Kronman Karolinska Institutet Universitetsbiblioteket Föredragets huvuddelar Frågorna och motfrågorna Vilka frågor ställer chefen, BIBSAM och ISO? Varför ställer webmastern krångliga motfrågor? Tekniken bakom webben Webbens funktion och webbsidornas uppbyggnad Nätets komponenter och komplikationer Diskussion av begrepp Besökare, besök och sida Vad gör vi nästa år? Hur levererar vi de uppgifter BIBSAM och ISO vill ha?
Frågorna från ledningen och BIBSAM Chefen Hur många besökare hade vår webbplats under förra året? BIBSAM Rapportera "Virtuella besök per år, i tusental" ISO (ISO 2789:2001) Collect, if possible, the number of virtual visits "A virtual visit is defined as a user's requestof the library web site from outside the library premises regardless of the number of pages or elements viewed." Webbmasterns motfrågor Vad är en besökare? Webbservern ser inga människor bara IP-adresser Vad är ett besök? Webbservern ser inga besök bara hämtade datafiler Vad är en sida? Webbservern ser inga sidor bara datafiler
Tekniken bakom World Wide Web Besökare Dator IP-adress 194.16.52.164 HTTP-anrop GET /index.html HTTP/1.1 Host: vision.kib.ki.se Svar + datafil HTTP/1.1 200 OK Server: Microsoft-IIS/5.0 Date: Fri, 10 May 2002 04:37:11 GMT Connection: close Content-Type: text/html DNS-namn vision.kib.ki.se IP-adress 130.237.122.58 Webbserver Transaktionslogg En rad per förfrågan (levererad fil) 2002-04-03 17:10:14 194.16.52.164 - GET /index.html- 200 Mozilla/4.0 http://mail.student.lu.se/frame.html 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/css/vision2001.css - 200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/images/vision_logo_transp1.gif -200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/images/stair_rail.jpg- 200 Mozilla/4.0 ) http://vision.kib.ki.se/ 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/images/osynlig.gif- 200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:15 194.16.52.164 - GET /_elements/images/squares.gif- 200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:26 194.16.52.164 - GET /favicon.ico -200 Mozilla/4.0 - Webbsidans uppbyggnad En webbsida är vanligen uppbyggd av en rad olika datafiler <html> <head> <title>vision</title> <link rel="stylesheet" href="_elements/css/vision_2002.css" type="text/css"> <script type="text/javascript" src="_elements/scripts/display.js" charset="iso-8859-1"></script> </head> <body> <table background="_elements/images/background.jpg"> <tr> <td><a href="index_se.html"> <img src="_elements/images/vision_2002.jpg"></a></td> <td><img src="_elements/images/spacer.gif" alt="" width="2"></td> </tr> Varje leverans av en datafil blir en rad i transaktionsloggen
och proxyservrar komplicerar Webbtjänst Brandmur Proxyserver Databas Cookies identifierar webbläsarna En cookie är en liten textfil som lagras av webbläsaren n skickar med cookien vid varje förfrågan till servern Permanenta cookies kan identifiera en webbläsare Även bakom brandmurar och proxyservrar Temporära cookies kan skapa sessioner Användning av cookies är komplicerad Hantering av cookies kräver någon form av programmering Registrering av cookies kräver utvidgad transaktionslogg Analys av cookies kräver avancerade och kommersiella program
Vad är en besökare? IP-besökare (datorbesökare) En identifierad IP-adress finns i webbserverns transaktionslogg Många personer får samma IP-adress bakom en proxyserver Webbläsarbesökare Använd cookies för att identifiera webbläsarprogram Kräver cookiehantering, utvidgad transaktionslogg och avancerat analysprogram Söktjänsternas insamlingsprogram är inte besökare Över 300 olika insamlingsprogram kan avläsas med uppgiften user agent i en utvidgad transaktionslogg Vad är ett besök? En svit av leveranser av datafiler till samma besökare Ett uppehåll mer än 30 minuter avslutar besöket IP-besök (datorbesök) Svit av datafiler levererade till samma IP-adress Problem med att olika personers besök blandas av proxyservrar Webbläsarbesök Svit av datafiler levererade till samma webbläsare Kräver cookiehantering, utvidgad transaktionslogg och avancerat analysprogram Leveranser till söktjänsternas insamlingsprogram ska inte räknas som besök Kräver utvidgad transaktionslogg med user agent
Vad är en sida? Vår uppfattning av sidor och webbserverns data skiljer sig åt I webbserverns transaktionslogg representeras varje sida av en rad leveranser av datafiler (anrop) Bara en av datafilerna representerar själva innehållet Sortera bort datafiler som inte är innehåll Bilder, stilmallar, JavaScript, ramar (framesets) Räkna inte sidor levererade till söktjänsternas insamlingsprogram Kräver utvidgad transaktionslogg med user agent Relation besökare besök sidor - anrop BIBSAMs och ISOs verklighet Webbteknikerns verklighet Besökare Besök Sidor Anrop
Vilken statistik är mest rättvisande? IP-besök relativt enkelt, men missvisande Långt ifrån bilden av en besökande person Webbläsarbesök rättvisande, men komplicerat Mycket närmare bilden av en besökande person Kräver cookiehantering och avancerad analys Sidleveranser enkelt och rättvisande Ingen cookiehantering och enkel analys Se webbtjänsterna som system för dokumentleveranser Vad ska forskningsbiblioteken göra? Rapportera "virtuella besök" enligt ISO? Välj mellan felvisande IP-besök eller komplicerade webbläsarbesök Rapportera sidleveranser i strid med ISO? BIBSAM tillåter detta mått under en övergångsperiod Kan vi få ISO att ändra sig?
Frågor & diskussion Åhörarkopior av föredraget http://vision.kib.ki.se/portfolio/statistics/ Vad kan BIBSAM göra? Ta fram omräkningstal Omräkning mellan IP-besök, webbläsarbesök och sidleveranser Omräkning mellan uppgifter med/utan insamlingsprogram Ta fram en centraliserad lösning? Danska biblioteksstyrelsen planerar att samla in statistik på en central server (år 2003?) Bearbeta ISO! Kan vi få ISO att betrakta webbtjänsterna som system för dokumentleveranser snarare än virtuella biblioteksbyggnader?