Statistik från webbplatser



Relevanta dokument
Statistik från webbplatser

Modul 6 Webbsäkerhet

Hur hänger det ihop? För att kunna kommunicera krävs ett protokoll tcp/ip, http, ftp För att veta var man skall skicka

Webbservrar, severskript & webbproduktion

Webbteknik II. Föreläsning 4. Watching the river flow. John Häggerud, 2011

Webbteknik II. Föreläsning 5. Restless farewell. John Häggerud, 2011

Webbteknik. Innehåll. Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender. En kort introduktion

Skärmbilden i Netscape Navigator

Medieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor

Datakommunika,on på Internet

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, Internet började med ARPANET

WWW. Exempel på klientsidan. Överföring av en html-fil. Snyggare variant. Verkligt format. Meddelandeformat för begäran HTTP

SQUID. och andra cachelösningar

Vad säger lagen om cookies och andra frågor och svar

Metoder och redskap för framtagning av webbstatistik för BIBSAM Ulf Kronman, Karolinska Institutets Bibliotek

Webbprogrammering. Sahand Sadjadee

Grundläggande datavetenskap, 4p

Microsajt vaccinplus.se, endast speglande information i IGM godkända "snabbguiden"

Säkrare hemsida med.se

Denna Sekretesspolicy gäller endast för webbsidor som direkt länkar till denna policy när du klickar på "Sekretesspolicy" längst ner på webbsidorna.

E12 "Evil is going on"

Repetition. Hypertext. Internet HTTP. Server och klient Text försedd med länkar till andra texter. Många sammankopplade nät

Repetition. Hypertext. Internet HTTP. Server och klient Föreläsning 2. Text försedd med länkar till andra texter. Många sammankopplade nät

FrontPage Express. Ämne: Datorkunskap (Internet) Handledare: Thomas Granhäll

Datakommunika,on på Internet

SGH-A400 WAP Browser Användarhandbok

Integritetspolicy SwedOffice.se

Plus500UK Limited. Sekretesspolicy

Litteratur. Nätverk, Internet och World Wide Web. Olika typer av nätverk. Varför nätverk? Anne Diedrichs Medieteknik Södertörns högskola

Introduktion till programmering

Webbpublicering. Teknikintroduktion 1 Jody Foo (jodfo@ida.liu.se)

Internets historia Tillämpningar

IT för personligt arbete F2

Att bygga enkla webbsidor

INTEGRITETSPOLICY FÖR Svanefors Textil AB

Webbens grundbegrepp. Introduktion till programmering. Ytterligare exempel. Exempel på webbsida. Föreläsning 5

Språk för webben introduk4on 4ll HTML

Optimering av webbsidor

Internet. Internet hur kom det till? Internets framväxt. Ett hierarkiskt uppbyggt telenät Kretskopplat/circuit switching

Arbetsmaterial HTML pass 1 - Grunder

Stockholm Skolwebb. Information kring säkerhet och e-legitimation för Stockholm Skolwebb. skolwebb.stockholm.se

Steg 5 Webbsidor One.com och OpenOffice Writer Mac OS X

TNMK30 - Elektronisk publicering

1 PROTOKOLL. Nätverk. Agenda. Jonas Sjöström

Integritetspolicy. Zhipster AB Gäller från

Policy för kakor. Policydokument

IP-baserade program. Telnet

Webbserver och HTML-sidor i E1000 KI

Program för skrivarhantering

ASP.NET Thomas Mejtoft

Objektorienterad Programkonstruktion. Föreläsning 10 7 dec 2015

Google Analy+cs. Umeå universitet

Hja lp till Mina sidor

Integritetspolicy och samtycke

TDDD80. Mobila och sociala applikationer Introduktion HTTP,SaaS. Anders Fröberg Institutionen för Datavetenskap (IDA)

Tillämpad programmering CASE 1: HTML. Ditt namn

Mattias Wiggberg 1. Orientera på Internet. IP-adress. IP-adresserna räcker inte... Mer om IP-adresser

Vad är en personuppgift och vad menas med behandling av personuppgifter

Kort om World Wide Web (webben)

Prova på-laboration i PHP Johan Sjöholm johsj@ida.liu.se Institutionen för datavetenskap, Linköpings universitet

Systemkrav och tekniska förutsättningar

Nätverk och Java, grunder Föreläsning 0: 0: Introduktion till Internet

Behandling av personuppgifter innefattar all hantering av personuppgifter såsom insamling, registrering och lagring.

Sekretesspolicy Salestack

Webbsidor och webbservrar

Lathund Automatisk inloggning

I denna dataskyddspolicy beskrivs vilka uppgifter om dig som vi samlar in och använder, varför vi gör detta och hur vi skyddar dina uppgifter.

Tentamen i Datorkommunikation den 10 mars 2014

Användarhandledning. edwise Webbläsarinställningar

Surfning. Webbklienter och webbservrar. Specialskrivna webbservrar. Kommunikation med sockets

Christer Scheja TAC AB

SICS Swedish Institute of Computer Science

Det är en Internet läser son gör det bekvämt för os ute på Internet. som t.ex Internet Explorer, firefox.

Undervisningen i ämnet webbutveckling ska ge eleverna förutsättningar att utveckla följande:

INTEGRITETSPOLICY FÖR ACG GRUPPEN AB

Föreläsning 4. CSS Stilmallar för webben

Programmeringteknik. Planering MÅL LABB: MOMENT LAB4 HTML - EXEMPEL HTML. Webbdelen

ITK:P2 F1. Hemsidor med HTML HTML. FTP, HTTP, HTML, XML och XHTML

Uniform Resource Locator (URL) JavaServer Pages - JSP. Webbklienter. Webbserver. Hypertext Transfer Protocol (HTTP) HTTP Request

Proxy. Krishna Tateneni Översättare: Stefan Asserhäll

Allmänna villkor Allmänna användarvillkor för Yobeeda AB, Senast ändrade

Sekretesspolicy Målsättning och ansvarig Grundläggande uppgifter om behandling av data Inhämtning, behandling och användning av personuppgifter

DNS-test. Patrik Fältström. Ulf Vedenbrant.

Innehålls förteckning

Läs denna sekretesspolicy innan du använder AbbVies webbplatser, eller skickar personlig information till oss.

KONFIDENTIALITETSPOLICY

INTEGRITETSPOLICY FÖR ENERVENT OY:S WEBBPLATS

21/01/2016. Stilmallar. styra utseendet av webbplatsen DEL 1. Karin Fahlquist. index.html. recept.html frukt.html grönsaker.html

Avancerade Webbteknologier

Grundläggande nätverksteknik. F2: Kapitel 2 och 3

Kakor. Krishna Tateneni Jost Schenck Översättare: Stefan Asserhäll

Integritetspolicy Mono Light Lab AB

Teknisk plattform för version 3.7

Sekretessmeddelande Kelly Services AB Innehåll

SKOLFS. beslutade den XXX 2017.

XML-produkter. -Registret över verkliga huvudmän (RVH) Teknisk handledning för webbtjänst mot RVH (Web Services) Datum: Version: 1.

SOM dataskydd. Dataskyddsbestämmelser. Version SomnoMed AG Baarerstrasse Zug, Schweiz

Idag. Webben, HTML och CSS. Live demo. Webbens funktion

Xhtml och CSS.Tillämpad fysik och elektronik Per Kvarnbrink (redigering Ulf Holmgren 2011)

Lilly garanterar och förbehåller sig alla ideella rättigheter.

Transkript:

Statistik från webbplatser problem och möjligheter Ulf Kronman Föredragets huvuddelar Frågorna och motfrågorna Vilka frågor ställer chefen, BIBSAM och ISO? Varför ställer webmastern krångliga motfrågor? Tekniken bakom webben Webbens funktion och webbsidornas uppbyggnad Nätets komponenter och komplikationer Definition av kvantitetsmått Besökare, besök och sida Vad kan mätas? Hur ska man mäta?

Frågorna från ledningen och BIBSAM Chefen Hur många besökare hade vår webbplats under förra året? Varifrån kom besökarna? Hur många sidor tittade de på vid varje besök? Vilka sidor efterfrågades mest? BIBSAM Rapportera "Virtuella besök per år, i tusental" ISO (ISO 2789:2001) Collect, if possible, the number of virtual visits Problemen webbmasterns motfrågor Vad är en besökare? Webbservern ser inga människor bara datorer Vad menas med varifrån? Webbservern ser inga platser bara adresser på nätet Vad är ett besök? Webbservern ser inga besök bara efterfrågade datafiler Vad är en sida? Webbservern ser inga sidor bara levererade datafiler Vad menas med vår webbplats? Vilka servrar och tjänster ska räknas?

Tekniken bakom World Wide Web Besökare Dator IP-adress 194.16.52.164 HTTP-anrop GET /index.html HTTP/1.1 Host: vision.kib.ki.se Svar + datafil HTTP/1.1 200 OK Server: Microsoft-IIS/5.0 Date: Fri, 10 May 2002 04:37:11 GMT Connection: close Content-Type: text/html DNS-namn vision.kib.ki.se IP-adress 130.237.122.58 Webbserver Transaktionslogg En rad per förfrågan (levererad datafil) 2002-04-03 17:10:14 194.16.52.164 - GET /index.html - 200 Mozilla/4.0 http://mail.student.lu.se/frame.html 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/css/vision2001.css - 200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/images/vision_logo_transp1.gif -200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/images/stair_rail.jpg - 200 Mozilla/4.0 ) http://vision.kib.ki.se/ 2002-04-03 17:10:14 194.16.52.164 - GET /_elements/images/osynlig.gif - 200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:15 194.16.52.164 - GET /_elements/images/squares.gif - 200 Mozilla/4.0 http://vision.kib.ki.se/ 2002-04-03 17:10:26 194.16.52.164 - GET /favicon.ico -200 Mozilla/4.0 - HTTP hypertext transport protocol Protokollet HTTP är tillståndslöst (stateless) Inga uppkopplingar sessioner bevaras mellan överföringarna av filerna och webbserver kopplar upp och ned en förbindelse för varje levererad datafil Bristen på sessioner ger problem vid insamling av besökarstatistik Tekniskt sett finns det inga "besök" Sessioner (besök) kan konstrueras med hjälp av så kallade cookies

Webbsidans uppbyggnad En webbsida är vanligen uppbyggd av flera olika datafiler <html> <head> <title>vision</title> <link rel="stylesheet" href="_elements/css/vision_2002.css" type="text/css"> <script type="text/javascript" src="_elements/scripts/display.js" charset="iso-8859-1"></script> </head> <body> <table background="_elements/images/background.jpg"> <tr> <td><a href="index_se.html"> <img src="_elements/images/vision_2002.jpg"></a></td> <td><img src="_elements/images/spacer.gif" alt="" width="2"></td> </tr> Varje leverans av en datafil genererar en rad i transaktionsloggen och proxyservrar komplicerar Person Person Webbtjänst Person Brandmur Person Proxyserver Person Databas

Cookies identifierar webbläsarna En cookie är en liten textfil som lagras av webbläsaren n skickar med cookien till servern vid varje förfrågan Permanenta cookies kan identifiera en webbläsare Även bakom brandmurar och proxyservrar Temporära cookies kan skapa sessioner (besök) Användning av cookies är komplicerad Hantering av cookies kräver någon form av programmering Registrering av cookies kräver utvidgad transaktionslogg Analys av cookies kräver avancerade och kommersiella program Kan vi nu besvara webmasterns frågor? Vad är en besökare? Var befinner besökaren sig? Vad menas med ett besök? Vad menas med en sida?

Problem med begreppet besökare Vi vill identifiera personer men har bara IP-adresser Mellan personen och IP-adressen finns webbläsare och dator Ibland även brandmur och proxyserver Proxyservrar gör att många besökare får samma IP-adresser Med en cookie kan man identifiera en webbläsare Relationen personer och webbläsare är dock inte entydig En publik webbläsare kan användas av många personer En person kan använda flera olika webbläsare Hemma, på arbetet, på publika datorer Inloggning är det säkraste sättet att identifiera personer Inte realistiskt att kräva inloggning på en publik webbplats Definition av webbplatsbesökare IP-besökare (datorbesökare) En identifierad IP-adress finns i webbserverns transaktionslogg Många personer får samma IP-adress bakom en proxyserver Webbläsarbesökare Använd cookies för att identifiera webbläsarprogram Kräver cookiehantering, utvidgad transaktionslogg och avancerat analysprogram Söktjänsternas insamlingsprogram är inte besökare Över 300 olika insamlingsprogram kan avläsas med uppgiften user agent i en utvidgad transaktionslogg

Var befinner besökaren sig? För att bli meningsfulla måste IP-adresser översättas till domännamn av en DNS-server Exempel: 130.237.122.58 -> vision.kib.ki.se Domännamnet visar i vilken organisation en dator finns ibland även land Runt 20% av IP-adresserna går inte att koppla till ett domännamn Domännamn måste registreras manuellt Besökare med adresser i domäner som.com,.org,.netoch.nu kan befinna sig varsomhelst i världen En brandmur/proxyserver mellan besökaren och servern gör att webbservern bara ser proxyserverns IP-adress och domännamn Vad är ett besök? En svit av leveranser av datafiler till samma besökare Ett uppehåll mer än 30 minuter avslutar besöket IP-besök (datorbesök) Svit av datafiler levererade till samma IP-adress Problem med att olika personers besök blandas i proxyservrar Webbläsarbesök Svit av datafiler levererade till samma webbläsare Kräver cookiehantering, utvidgad transaktionslogg och avancerat analysprogram Leveranser till söktjänsternas insamlingsprogram ska inte räknas som besök Kräver utvidgad transaktionslogg med user agent

Vad är en sida? Vår uppfattning av sidor och webbserverns data skiljer sig åt I webbserverns transaktionslogg representeras varje sida av en rad leveranser av datafiler (anrop) Bara en av datafilerna representerar själva innehållet Sortera bort datafiler som inte är innehåll Bilder, stilmallar, JavaScript, ramar (framesets) Räkna inte sidor levererade till söktjänsternas insamlingsprogram Kräver utvidgad transaktionslogg med user agent Relation besökare besök sidor - anrop Ledningens verklighet Webbteknikerns verklighet Besökare Besök Sidor Anrop

Summering: Förslag till definitioner Webbläsarbesökare / IP-besökare En unik webbläsare / IP-adress, använd av en fysisk person, som hämtat filer från webbplatsen inom mätperioden Webbläsarbesök / IP-besök Ett antal sidor levererade med mindre uppehåll än 30 minuter till samma webbläsare / IP-adress använd av en fysisk person Sidor (pageviews, impressions) Innehållsfiler levererade till en fysisk person Dekorationselement och navigationsdelar oräknade Anrop (hits, requests) Antal datafiler som efterfrågats och levererats Främst ett mått på hur mycket webbservern arbetar Vilken statistik är mest rättvisande? IP-besök relativt enkelt, men missvisande Långt ifrån bilden av en besökande person Webbläsarbesök rättvisande, men komplicerat Mycket närmare bilden av en besökande person Kräver cookiehantering och avancerad analys Sidleveranser enkelt och relativt rättvisande Ingen cookiehantering och enkel analys Se webbtjänsterna som system för dokumentleveranser

Möjligheterna vad kan vi mäta? Det chefen och BIBSAM frågar efter finns inte i loggfilen Vi kan inte säkert se mänskliga besökare, deras besök eller var de finns Vi kan räkna datorer eller webbläsare och konstruera besök Vi får stora felmarginaler på grund av proxyservrar och cache Möjliga kvantitetsmått Antal webbläsarbesökare och webbläsarbesök Antal IP-besökare och IP-besök (felmarginal för proxyservrar) Antal levererade sidor (felmarginal för cache) Antal levererade sidor per IP-besök eller webbläsarbesök Besökarnas organisationshemvist Räkna med 20-30% felmarginal Vi kan ofta inte se besökarnas fysiska placering Mer möjligheter vad bör vi studera? Kvalitetsmått Vilka sidor och delar av webbplatsen som används mest och minst Från vilka webbplatser besökarna kommit (refererande webbplatser) Vilka sökord besökarna använt för att hitta webbplatsen Hur besökarna navigerat genom webbplatsen (path analysis) Hur besökarna söker inom den egna webbplatsen Teknisk information Efterfrågade sidor som inte finns (trasiga länkar) Svarstider och mängd levererad data Besökarnas webbläsare och operativsystem

Hur ska man mäta? Ställ realistiska frågor Fråga inte efter personer, platser eller "virtuella besök" Fråga efter levererade sidor och relativa kvalitetsmått Planera för statistik helst när webbplatsen skapas Webbplats och webbservar måste anpassas innan man börjar efterfråga statistik Ställ in webbservrarna för utvidgad transaktionsloggning Uteslut insamlingsprogram och registrera refererande webbplats Skaffa ett analysredskap Analog gratis och kraftfullt. Mäter ej besök. Webalizer gratis. Mäter IP-besök. WebTrends bra och billigt för en webbserver (runt 6000 kr) 123 Log Analyzer sägs vara bra ($150) Frågor & diskussion Dagens föredrag http://vision.kib.ki.se/portfolio/statistics/libraries/