Web Crawlers. TDTS09, Datornät och internetprotokoll. Denis Golubovic Fredrik Salin Linköpings universitet Linköping 2011-02-23

Web Crawlers TDTS09, Datornät och internetprotokoll Denis Golubovic Fredrik Salin Linköpings universitet Linköping 2011-02-23

Omslagsbild: Spider robot Google 3d model Källa: turbosquid.com

Sammanfattning Syftet med den här rapporten är att undersöka utformning och funktionalitet av programmen som kallas Web crawlers. Vad programmen kan användas till och vad det finns för problem samt lösningar till problemen kommer också att behandlas och utredas. Web crawlers söker igenom av användaren specificerade URL:er och undersöker vilka hemsidor dessa är länkade till och/eller deras innehåll. Denna information är mycket viktig för t.ex. sökmotorer som använder dessa program i stor utsträckning. Med tanke på Internets storlek och kontinuerliga tillväxt är det nödvändigt att kunna begränsa informationsflödet och Web crawlers är ett effektivt verktyg för detta ändamål.

Innehåll Inledning... 1 1.1 Syfte... 1 1.2 Metod... 1 1.3 Frågeställningar och avgränsningar... 1 2 Beskrivning av nätspindlar... 2 2.1 Uppbyggnad... 2 2.1.1 Urvalsprincipen... 2 2.1.2 Återbesökningsprincipen... 3 2.1.3 Hövlighetsprincipen... 3 2.1.4 Parallellisationsprincipen... 3 2.2 Funktionalitet... 4 3 Användningsområden... 5 3.1 Sökmotorer... 5 4 Problem och svårigheter... 6 4.1 Relevanta sökningar... 6 4.2 Förändringsproblem... 6 5 Lösningar till programmens problem... 7 5.1 Focused och topical crawling... 7 5.2 Aktualiseringsmetoder... 7 6 Slutsats och diskussion... 8 7 Referenser... 9 Tryckta... 9 Elektroniska... 9

Inledning Antalet hemsidor och information på internet har ökat i rasande fart sedan dess grundande. Internet har mer eller mindre blivit som en stor uppslagsbok där man i princip kan hitta allt så länge man vet hur, och var, man ska söka efter denna. Web crawlers, eller nätspindlar som vi kommer kalla dessa i rapporten, utvecklades som ett effektivt hjälpmedel då dessa kan leta sig igenom hemsidor och spara sidornas webbadresser samt skapa index för att göra olika sökfunktioner mer effektiva. Nätspindlar har använts i stor utsträckning av söksidor för att hitta sammanhängande sidor eller vad de innehåller. De kan även användas till en rad andra funktioner. Bland annat kan marknadsundersökningar göras på t.ex. olika trender inom en given marknad eller så kan språkvetare undersöka vilka ord som är vanliga idag. Nätspindlar behövs för att inhämta information och se till att den informationen vi letar efter är aktuell. De är viktiga eftersom det varje dag skapas ett stort antal nya webbsidor samtidigt som många sidor uppdateras och innehållet ändras. 1.1 Syfte Vi vill med rapporten utreda hur nätspindlar fungerar och vad de kan användas till. Vi vill även ta reda på eventuella problem och svårigheter som kan uppstå vid användandet av dessa program. 1.2 Metod Underlaget till vår rapport är i huvudsak skriftliga källor, dels från Internet, dels från böcker. De källor som vi fick störst nytta utav var doktorsavhandlingar och forskningar kring nätspindlar. Vi valde att använda dessa källor främst för att dessa personer är erkända inom sina respektive områden, med stor erfarenhet inom ämnet vilket givetvis talar för att det är ett pålitligt material. De har även bidragit med egna tillämpningar och förbättringsförslag som har fört utvecklingen av nätspindlar mot en positiv riktning. Vi valde dessa källor också för att de var de som var mest anpassade till vår kunskapsnivå och skulle ge oss mest relevant information. 1.3 Frågeställningar och avgränsningar Vi kommer fokusera på funktionaliteten hos dessa program och kommer inte gå särskilt djupt in på hur Web crawlers skapas eller underhålls. Det är följande frågeställningar vi kommer att behandla: Vad är en Web Crawler och hur fungerar den? Vad kan den användas till? 1

Hur använder sökmotorerna dessa program för att inhämta information och hur distribueras sedan denna information till användarna? Vad finns det för problem/svårigheter med dessa program? 2 Beskrivning av nätspindlar I det här kapitlet kommer vi att redogöra hur en nätspindel är uppbyggd samt hur den fungerar i praktiken. 2.1 Uppbyggnad När man skapar en nätspindel kan man bestämma dess beteende beroende på dessa fyra följande principer: En urvalsprincip En återbesökningsprincip En hövlighetsprincip En parallellisationsprincip 2.1.1 Urvalsprincipen Om man ser på Internets storlek som den är idag så kommer även de största sökmotorerna bara att täcka en liten del av allt som finns. De flesta känner till sökmotorer så som Google och vet hur stort det är, men enligt vissa undersökningar visade det sig att det inte fanns någon sökmotor som täckte en femtedel av hela webben. Detta kan ge en god inblick över hur mycket som verkligen finns. Med tanke på att nätspindlarna enbart söker igenom och samlar in liten del av hemsidorna är det högst önskevärt att det material som är mest relevant sparas. Om man inte kan kontrollera det en nätspindel samlar in så är risken att för många oönskade hemsidor tar upp för mycket lagringsutrymme och att man även slösar tid på att hämta sidor man inte är i behov utav. (Menczer m.fl. 2004; Michelsen m.fl. 2002) Att avgöra om en hemsida är önskevärd eller inte kan bestämmas på olika sätt. Dels så kan det bestämmas genom att man ser hur ofta hemsidan är besökt och hur många gånger den är refererad till. Man kan även bestämma önskvärdheten genom att man söker igenom hemsidor som har likheter med den hemsida som man har frågat om. Detta kallas focused crawling eller topical crawlers eftersom denna typ av nätspindel laddar ner hemsidor som är relevanta till ett eller flera bestämda ämnen. Detta medför att man slipper få oanvändbara hemsidor genomsökta och sparade vilket gör processen mer effektiv om man ser till kapacitetsanvändande och tid. Moderna nätspindlar utvecklas inte för att söka igenom så många sidor som möjligt, utan tvärtom, söka igenom så få sidor som möjligt men fortfarande få ut bra resultat ur sökningen. (Castillo, 2004; Chakrabarti m.fl. 1999) 2

2.1.2 Återbesökningsprincipen Det finns två mer kända återbesökningspinciper, Uninform policy och proportional policy. Uninform policy säger att man ska återbesöka alla hemsidor i samlingen lika ofta, oavsett hur snabbt och ofta dessa hemsidor förändras. Proportional policy däremot säger att man ska återbesöka de hemsidor som förändras oftare. Att den kallas Proportional Policy är just för att återbesökningsfrekvensen ska vara proportionell mot förändringsfrekvensen hos hemsidan. (Michelsen m.fl. 2002) 2.1.3 Hövlighetsprincipen Trots dess stora nytta kommer nätspindlar påverka allmänheten på olika sätt. Nätverkets resurser är begränsade och nätspindlar tar mycket plats vilket kommer att leda till att man kan uppleva internet som segare. Nätspindlar som är dåligt kodade kan krascha servrar, routrar och hemsidor de inte lyckas ladda ner. Även personliga nätspindlar kan förstöra nätverk och servrar om för många använder dem. För att denna princip ska fungera på ett bra sätt används bl.a. ett protokoll som sätter en standard för vilka delar av administratörernas servrar nätspindlarna inte ska ha tillgång till. (Castillo, 2004; Michelsen m.fl. 2002) 2.1.4 Parallellisationsprincipen En annan typ av nätspindel är en parallell nätspindel. Denna nätspindel kör flera processer samtidigt för att maximera insamlingen samtidigt som man minskar antalet hemsidor man laddar ner flera gånger. För att lyckas med att inte spara samma hemsida flera gånger måste nätspindeln kunna hantera den nya URL:en den upptäcker under processen. Detta eftersom varje nätspindel kan hitta samma hemsida under sina processer. Det finns framför allt två principer som förklarar hur detta ska uppnås, Dynamic assignment och Static assignment. Dynamic assignment Denna princip säger att man ska ha en central server som delar ut nya URL:er till olika nätspindlar. På så vis kommer denna server att kunna balansera lasten varje nätspindel tar. Något som är typiskt för denna princip är att systemen även kan lägga till eller ta bort nerladdningsprocesser. Detta kommer att leda till att serven blir flaskhalsen och då måste arbetet distribueras. Allt detta sker dynamiskt. Man kan dela in sättet nätspindlarna arbetar på i två olika kategorier. 3

Dels finns den s.k. lilla konfigurationen av nätspindlar vilket medför att det finns en central DNS som tar beslut, och ett centralt kösystem, för hemsidorna. Där distribueras endast nedladdningarna. Den andra typen är den stora konfigurationen där DNS:en och köerna också är distribuerade. Static assignment Med denna princip finns det en bestämd regel som definierar hur man ger ut nya URL:er till nätspindlarna. Man kan sammankoppla den URL:en man vill skicka och nätspindelns process med ett index. Då kommer inte en annan nätspindel att få samma URL eftersom den redan är sammankopplad med en annan process. (Castillo 2004; Michelsen m.fl. 2002) 2.2 Funktionalitet När man initierar ett nätspindelprogram får programmet en lista som innehåller obesökta URL:er (Uninform Resource Locator) som kan beskrivas som en To-do-list, dvs. en lista som beskriver vad nätspindeln ska göra. Denna lista kan nätspindeln få från en användare eller från ett annat program. En så kallad Crawling-loop börjar med att programmet väljer en URL att söka igenom, och hämtar alla sidor som URL:en är länkad med genom HTTP. Den samlar då information från sidan och lägger alla obesökta sidor i en så kallad frontier som kan beskrivas som ett arkiv som innehåller To-do-listan. Innan en URL läggs till i frontieren kan den få en viss prioritet beroende på dess nytta. Om nätspindeln ska påbörja en ny sökning av URL:en men då frontiern är tom så kommer den att sluta eftersom det inte finns några nya hemsidor att hämta. Man kan också välja att nätspindeln t ex bara ska söka igenom ett givet antal URL:er innan den slutar. Hela denna processen kan ses som att nätspindeln börjar på en hemsida och jobbar sig igenom alla URL:er som är länkade till denna hemsida tills den kommer till nästa sida, denna process fortsätter sedan kontinuerligt. Vissa nätspindlar kan man styra och manipulera till att följa en viss väg beroende på t ex ämne. (Höglund, 2007; Michelsen m.fl. 2002) 4

Figur 1. Crawling loop. Källa: Castillo (2004). 3 Användningsområden 3.1 Sökmotorer Nätspindlar har en central roll i sökmotorer som t.ex. Google. Dessa har mycket stor användning av nätspindlar för att ta reda på hur sidor är länkade till varandra och vilka sidor som relaterar till varandra. Det är även viktigt att sökmotorerna vet vilken information som är tillgänglig på en given sida för att kunna ge bästa möjliga och mest relevanta sökresultat till sina användare. För sökmotorer är det livsviktigt att informationen som distribueras till användaren är aktuell och användbar och därför använder de nätspindlar för att kunna leverera denna information till användarna. Nätspindlar används främst av sökmotorer för att skapa en kopia av tidigare besökta sidor för senare användning. Denna information använder sökmotorerna för att kunna ge snabbare sökresultat. De nätspindlar som sökmotorerna använder läser sidornas innehåll och registrerar nyckelord eller nyckelfraser som sedan kan användas för att fastställa vad sidans information vill upplysa om. Sidan läggs sedan till i sökmotorns databas och i ett rankningssystem, allt för att ge snabbare sökresultat. (Castillo, 2004; Chakrabarti m.fl. 1999; Menczer m.fl. 2004) 5

Nätspindlarna kan ha stora ekonomiska betydelser för sökmotorer. Företag vill att kunder lätt ska kunna hitta deras webbsidor de och kunna ta del av aktuell information som kontinuerligt läggs upp och uppdateras på företagets hemsida. För att denna information ska kunna hittas av sökmotorerna måste de ha effektiva och väl fungerande nätspindlar som är bra på att hitta specificerad information på olika hemsidor. Får företagets hemsida fler träffar kan det bero på att de ses relevanta av söksidornas nätspindlar och på så sätt hittas när kunder söker på ord kopplade till deras hemsida. Dessa programs algoritmer och utformning hålls som marknadshemligheter p.g.a. deras stora betydelse. (Castillo, 2004; Menczer m.fl. 2004) 4 Problem och svårigheter Det finns i huvudsak två viktiga särdrag med internet som gör det svårt för nätspindlar att fungera på ett så effektivt sätt som möjligt. Det första är Internets enorma storlek och det andra är dess förändringshastighet, varje dag skapas, ändras och tas tusentals sidor bort från detta medium. Internets storlek gör att nätspindeln bara kan söka igenom en viss procent av de hemsidor den ska söka igenom under en viss tid. Detta medför att den måste konstrueras så att den kan prioritera sidor som den ska söka igenom. (Menczer m.fl. 2004) 4.1 Relevanta sökningar Någonting som utvecklas mer och mer är nätspindlarnas egenskap att söka efter specifik, relevant information, och att bara leta igenom sidor kopplat till t.ex. ett sökord. Ett problem med detta är att när man använder focused crawling eller topical crawling måste man först ha en hemsida insamlad för att kunna hitta likheter på ett bra sätt. Man skulle vilja förutse innehållet på en sida innan man har laddat ner denna, men det är det väldigt svårt att göra. För att denna typ av nätspindel ska fungera bra krävs det många länkar till det ämne man vill söka igenom, samt att sökmotorerna förser programmet en bra utgångspunkt. (Castillo, 2004; Chakrabarti m.fl. 1999) 4.2 Förändringsproblem Som nämnt innan tar det väldigt lång tid för nätspindlarna att söka sig genom Internet. Denna tid brukar mätas i veckor eller t.o.m. månader vilket medför att väldigt mycket kan ske, under tiden, med de genomsökta sidorna innan hela genomsökningen är klar. Detta vill man givetvis undvika. Endast är sidor som nyligen har blivit genomsökta är aktuella, eftersom de sidor den tidigare sökte igenom kan ha blivit ändrade eller t o m borttagna. 6

Skapar man en ny hemsida kommer denna inte vara synlig för allmänheten på en gång. För att en hemsida ska synas på webben så måste minst en uppdatering av sidan ske. Detta kan medföra att det tar längre tid för nätspindeln att upptäcka den nya hemsidan. En uppdatering på en hemsida kan ha olika karaktär och det kan vara svårt att avgöra om en sådan har skett. Det kan vara en liten ändring så som att man har lagt till eller ändrat en mening vilket betyder att hemsidan i princip kommer se likadan ut och dess referenser kommer fortfarande att gälla. Men det kan även ske stora uppdateringar vilket medför att referenserna inte längre kommer att gälla. En hemsida klassas som borttagen då den inte längre finns på webben eller då alla länkar till den hemsidan är borttagna. Det senare kommer dock att vara ett problem då länkarna fortfarande är synliga för nätspindlarna och en nätspindel inte kan avgöra om länkarna den hittar är aktuella eller inte. Även detta kommer medföra problem för nätspindeln eftersom den kommer söka igenom hemsidor som egentligen inte finns. (Castillo, 2004; Michelsen m.fl. 2002) 5 Lösningar till programmens problem 5.1 Focused och topical crawling Att utveckla metoderna focused crawling och topical crawling gör att man kan få bättre sökresultat och även att man använder mindre resurser. Att utveckla dessa är en väldigt komplex uppgift men det är något man satsar på idag just p.g.a. fördelarna man kan få ut av arbetet. När man använder dessa program tillsammans med databaser som RDBMS (relational database management system), kan man få ut en rad användbara funktioner. Man kan bl.a. ranka sidor efter relevans, koppla olika sökord till specifika hemsidor. Detta kan man sedan använda om och om igen vilket ger snabbare sökningar. Det går också att få funktioner som t.ex. att om man söker på flera sökord får man en mer precis sökning. (Chakrabarti m.fl. 1999; Michelsen m.fl. 2002) 5.2 Aktualiseringsmetoder För att avgöra om en hemsida är gällande kan man använda sig utav några olika metoder. Man kan mäta freshness vilket visar om den lokala kopian är riktig eller inte. Denna metod görs binärt. Man kan även mäta age vilket visar hur gammal den lokala kopian av hemsidan är. Målet är givetvis att antingen hålla värdet på freshness så högt som möjligt eller värdet på age:en så lågt som möjligt. Skillnaden på dessa två metoder är 7

att med freshness så kollar nätspindeln hur många sidor som är gamla medans den med age kollar hur gamla de lokala kopiorna av hemsidorna är. (Castillo, 2004) Det ultimata för att hitta en bra balans mellan Proportional policy och uniform policy. Om man applicerar uniform policy kommer alla sidor i en given URL-lista att besökas lika många gånger, och det kan göra att sidor som uppdateras ofta kanske inte nätspindeln kan ge den mest aktuella informationen om. Om Proportional policy används i huvudsak kan nätspindeln lägga ner för mycket energi på att ladda ner sidor som frekvent ändras, trots att ändringarna kanske är mycket små och inte har så stor betydelse för sidans sammanhang. Ingen av dessa principer är optimala men enligt undersökningar är uniform policy att föredra i praktiken. Den optimala metoden för att hålla en hög freshness skulle vara att inkludera en funktion som ignorerar sidor som ändras för ofta, och det optimala för att hålla age:en på en låg nivå skulle vara att linjärt öka nätspindelns besökningsgrad i förhållande till en sidas förändringshastighet. I verkligheten är inte alla sidor lika viktiga och därför skulle framtida, utvecklade nätspindlar på ett mer framgångsrikt sätt kunna bedöma kvalitén på en given webbsida. (Michelsen m.fl. 2002; Castillo, 2004) 6 Slutsats och diskussion Internets komplexitet och ständiga förändring gör det väldigt svårt att utforma effektiva nätspindlar som inte kräver särskilt mycket kapacitet av nätverket. Trots det finns det stora möjligheter vid användande av dessa program. Nätspindlar har en stor funktionalitet hos sökmotorer och utvecklingen av dessa har möjliggjort de snabba och relativt adekvata sökresultat vi kan få ut av våra sökningar på Internet idag. En intressant aspekt i ämnet är framtiden för dessa program. Som redovisas i rapporten finns det stora användninenligsområden och möjligheter till utveckling inom området. Man kan med största sannolikhet specialisera nätspindlarna och göra att de lättare kan hitta specifik information och på så sätt fungera på ett bättre sätt för t ex sökmotorer. Man kan också spekulera i optimeringen av deras nätanvändning. Som det ser ut idag tar de upp stor bandbredd vilket även gör att de begränsas. Vi kom fram till att det är bäst att satsa på att utveckla focused och topical crawlers eftersom dessa frambringar de mest adekvata resultaten för t.ex. en sökning gjord av en sökmotor. Att utveckla dessa ger inte bara bättre och snabbare sökresultat utan kräver också mindre nätanvändning vilket gör att de inte kommer att begränsas eller skapa komplikationer vid interagerande med ett givet nätverk. Vi anser att nätspindlar är någonting värt att satsa resurser på att utveckla och förbättra. Görs detta kommer olika sökfunktioner att fungera effektivare vilket kommer leda till att t.ex. sökmotorer kommer att kunna tillhandahålla mer relevant information 8

till användarna. Detta kommer alltså att underlätta för sökmotorerna i deras tjänster, men bättre sökresultat kommer också att hjälpa företagen. Om företagens tjänster och erbjudanden lättare kan hittas kommer även dessa att stimuleras och vi får då en generell förbättringskedja med positiv utveckling. 7 Referenser Tryckta Höglund, Patrik (2007). Information extraction and Normalisation of Data from Semistructured Web Pages. Linköpings universitet. Linköping. Elektroniska Castillo, Carlos (2004). Effective Web Crawling. [pdf] <http://www.chato.cl/papers/crawling_thesis/effective_web_crawling.pdf> Hämtat 2011-02-16. Chakrabarti, Soumen, m.fl.(1999). Focused crawling: a new approach to topic-specific Web resource discovery. [pdf] <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=fc4a229646cfe3086b8 F8C174CA5BE97?doi=10.1.1.83.9370&rep=rep1&type=pdf> Hämtat 2011-02-10. Menczer, Filippo; Pant, Gautam; Srinivasan, Padmini (2004). Crawling the web. [pdf] <http://dollar.biz.uiowa.edu/~pant/papers/crawling.pdf> Hämtat 2011-02-15. Michelsen, Rolf; Risvik, Knut (2002). Search Engines and Web Dynamics. [pdf] <http://www.idi.ntnu.no/~algkon/generelt/se-dynamicweb1.pdf> Hämtat 2011-02-16. Turbosquid (2010). Spider robot Google 3d model. [jpg] <http://www.turbosquid.com/3d-models/spider-robot-google-3d-model/518362> Hämtat 2011-02-21. 9