Projekt Intelligent Indexering

Relevanta dokument
Beskrivning av gesällprov RMI Chat Mikael Rydmark

Dags för en ny söktjänst på KTH


Palmbaserad datainsamling och databassynkronisering. Projektpresentation. 2D1954 Programutvecklingsprojekt Projektgruppen Harald

NYHETER I KARNOV. Senast uppdaterad:

Sökmotoroptimering. Google Search Console

Compose Connect. Hosted Exchange

Projektpresentation Gängbildning

Internets historia Tillämpningar

Proxy. Krishna Tateneni Översättare: Stefan Asserhäll

VIDA CONFIGURATION VIDA ALL-IN-ONE

VERSION 5.1/5.2 SNABBINTRODUKTION TILL WEBACCESS HTML 3

FLEX Personalsystem. Uppdateringsanvisning

INSTALLATION AV KLIENT

1 Introduktion 3. 2 Behörighet Base Receptionist Site admin 3. 3 Startsida Positionskarta 4. 3.

Handbok Nepomuk-WebMiner. Jörg Ehrichs Översättare: Stefan Asserhäll

Användarhandledning - Sökning av Säkerhetsdatablad i Logistikportalen baserad på SharePoint 2013

ANVÄNDARMANUAL. handdatorer i ängs- och betesmarksinventeringen. för

PROJEKT- PRESENTATION

Projektpresentation. Uppdragsgivare: Alex Olwal

Det här dokumentet är till för att ge en översikt över ASP.NET MVC samt hur WCF Services används från.net applikationer.


Det svenska sökbeteendet 2012

Uppdatera Mobilus Professional till version * Filen MpUpdate.exe får inte köras när du startar denna uppdatering.

En introduktion i sökmotoroptimering för besöksnäringen i Västsverige

Innehåll. Dokumentet gäller från och med version

Parallella jobb ctrl-z emacs & more README ctrl-z jobs. %<jobnr>

Forms and Favorites. Version 5.2. Administratörshandbok

Internetsökning. Går det att hitta vad man söker?

Rev AdmiQ Snabb Guide Uppdaterad version

INSTALLATION AV KLIENT

ANVÄNDARMANUAL. handdatorer i ängs- och betesmarksinventeringen. för

BaraTrav Prenumeration och Installation Version 1.3.4

Startanvisning för Bornets Internet

INSTALLATION AV KLIENT

INSTALLATION AV KLIENT

emopluppen Användning av "Ant" Niklas Backlund Version: 1.4 ( 2002/04/26 07:27:52 UTC)

SORSELE KOMMUN. Handbok OEW. 28 sept 2012 Mari-Anne Englund Barbro Olofsson. Sorsele kommun Version , rev (19)

Manual Sportident Onlinekontroll via GPRS

Norman Endpoint Protection (NPRO) installationsguide

LEX INSTRUKTION LEX LDAP

Nya Klartext Dokumentsök Söker blixtsnabbt igenom alla era dokument!

Sökmotoroptimering i e-line

Näsgård Pocket är i princip en miniversion av Näsgård Management och kan köra på en handdator och telefon med Windows operativsystem.

Grupputvärdering Gängbildning

Office 365 Kompetens 2014 / MB

Byggsektorns Miljöberäkningsverktyg Användarmanual

Vitec Fastighet - Dokumentarkiv

Introduktion Office 365

Instruktion till. PigWin PocketPigs. Del 1 - Installation

Telia Connect för Windows

6. Nytt kalenderår. Nytt kalenderår i Access Nytt kalenderår i SQL

Manual för ansökan till Stiftelsen Kjellbergska Flickskolans Donationer

Nero AG SecurDisc Viewer

Uppstart Agda PS Hosting

Integration med Vitec Express

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Använda Internet. med hjälp av Internet Explorer. Nybörjarguide

Mumble FAQ. Jack-Benny Persson 2 maj 2012

Innehållsförteckning. Användarmanual för Lockbee Backup Databas 2009

Efterstudie. Redaktör: Jenny Palmberg Version 1.0. Status. LiTH Fordonssimulator. Granskad Godkänd. TSRT71 Jenny Palmberg

Web Crawlers. TDTS09, Datornät och internetprotokoll. Denis Golubovic Fredrik Salin Linköpings universitet Linköping

Alla filer som bearbetar PHP script ska avslutas med ändelsen.php, exempelvis ska en indexsida till en hemsida heta index.php

PM Dokumentation

Medieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor

Office 365 MB. Innehåll. Inledning / Inställningar Outlook (e-post) Kalender Personer (kontakter)... 5 OneDrive molnet... 5.

TES Mobil. Användarmanual. Användarmanual TES Mobil Dok.nr v8

Skapa mappar, spara och hämta dokument

Att köpa webb En guide till en värld i daglig förändring.

KTH Programutvecklingsprojekt med mjukvarukonstruktion 2D1362. Projektpresentation

Uppdatering till Windows 8.1 steg för steg-guide

Användarhandbok. Nero BackItUp. Ahead Software AG

WEBB365.SE. Hur skriver man sökmotoroptimerade texter

ANVÄNDAR MANUAL. SESAM 800 RX MC Manager

Restaurang Example. ( Analys av nuvarande hemsida. Av Kharma Concept

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual

ABT Tel: Fax: Org nr CR Fastighetsteknik AB Östra Trädal Ytterby Sweden

INSTALLATION...3 ATT KOMMA IGÅNG...3 PROGRAMMETS DESIGN...4 LÄGGA TILL TABELL...4 EDITERA TABELL...4 EDITERA RELATION...5 SPARA OCH AVSLUTA...

Wordpress och Sociala medier av Sanna Ohlander Guide till hur du skapar och förändrar inlägg och sidor på staffanstorp.se

Installation och setup av Net-controller AXCARD DS-202

Programportalen på Falkenbergs kommun

Starta Egenrapportering automatiskt i Windows

Utvärdering av projektet

Kristoffer Eriksson Christer Oscarsson Andreas Dahlberg Martin Bengtsson

Kort om World Wide Web (webben)

Installationsguide för FAR Komplett Offline 2.1.2

Preliminär specifikation av projekt

PayEx Mobil FAQ Fungerar PayEx Mobil på alla mobiltelefoner? Är PayEx Mobil verkligen säkert?

Datorn som Pedagogiskt Verktyg

Byråanstånd i Hogia Skatt vid koppling till Hogia Point

Lathund Projektmedlem Jönköpingsprojektplats

Installera widgetshop på Facebook

Komma igång med Qlikview

På servern För att registrera och köra en Topocad 17 nätverkslicens krävs att man installerar den senaste Licensservern

Uppdatering till Windows 8.1 steg för steg-guide

Din guide till. Byte av databas. Från MSDE till SQL Express

SGH-A400 WAP Browser Användarhandbok

LexMeeting för IOS. En användarintroduktion (version 1.2)

Transkript:

Projekt Intelligent Indexering Uppdragsgivare: Harald Kjellin, Institutionen för Data och Systemvetenskap, KTH Deltagare i projektgruppen: Biörklund, Mathias webside ansvarig Erneholm, Mattias vice projektledare Gustrin, Mattias projektledare Mankert, Lotta sekreterare Pettersson, Ove dokumentansvarig Widén, Jacob dokumentansvarig www-dokumentation: http://www.nada.kth.se/projects/proj01/intdex/

INNEHÅLLSFÖRTECKNING PROJEKTSAMMANFATTNING...3 PROJEKTPRESENTATION...4 BAKGRUND...4 Problembeskrivning...4 Syfte...4 SAMARBETE OCH ROLLER...4 FUNKTION AV APPLIKATION...6 Datormiljö...6 Användare...6 ANVÄNDARGRÄNSSNITT...7 Huvudfönster...7 Settings...8 KÖREXEMPEL...9 2 (9)

Projektsammanfattning Sökmotorernas utveckling är avgörande för Internets utveckling. För att finna vad man söker krävs effektiva sökhjälpmedel. Idag finns flera olika typer av sökmotorer. Ingen av dessa hjälper dock användaren effektivt i sökandet om denne inte har god kännedom om de nyckelord som finns dokumenten som eftersöks. Applikationen Intdex löser framtida indexeringsproblem. Detta projekt har utmynnat i en applikation som indexerar sajter efter diskriminerande ord och par av dessa. Programmet är tänkt att användas av sökmotorer på Internet. Utvecklingsarbetet inom projektgruppen har fungerat mycket bra. Projektet delades in i tre faser och gruppen i tre delgrupper där respektive delgrupp var huvudinriktade på att arbeta med en av faserna. Även samarbetet med uppdragsgivaren har fungerat bra. I början av projektet gjorde vi en riskanalys där vi värderad hr stor sannolikheten var att riskerna skulle inträffa och hur effekt detta skulle kunna tänkas få rå projektarbetet. Ingen av de risker vi tog med i riskanalysen inträffade. Däremot fick vi ett helt oförutsätt problem då någon en lördagskväll tog sig in på projektarean och raderade hela projektet. Det fanns som tur var säkerhetskopior. Applikationen består av två funktioner. Den ena är en crawler som börjar med att samla in alla nåbara URL-adresser som kan nås från en angiven start-url. Den andra funktionen indexerar de funna URLerna och dessa data ligger sedan till grund för klassificering av ett dokument som diskriminerande med avseende på ordparen. Ordparen sparas på fil tillsammans med det diskriminerande värdet och URL-adressen till respektive dokument. Applikationen är tänkt att användas av olika sökmotorer och presumtiva användare kan vara domäners eller hemsidors sökfunktioner. 3 (9)

Bakgrund Vi lever i sökmotorernas tid. Dessa är en av grundförutsättningarna för Internets utveckling. För att finna den information man söker bland den astronomiska mängd information som finns på Internet behövs effektiva sökmotorer. Hur dessa utvecklas kommer att effektivisera användandet av Internet oerhört. Problembeskrivning Idag finns det flera olika sökmotorer som var för sig fungerar bra för vissa typer av sökningar. Exempel på sådana är AltaVista, Yahoo och Infoseek. Det finns emellertid ingen sökmotor som är särskilt intelligent och som stöder användaren i dennes sökning. Om användaren inte har tillräcklig kännedom om vilka nyckelord som finns i de dokument denne letar efter, får han/hon ofta ett dåligt resultat. I dessa fall skulle en intelligent sökmotor var lösningen. index Syfte Syftet med detta projekt går ut på att programmera en crawler som gör en indexering av diskriminerande ord i dokument. Av dess bildas sedan par av ord och även dessa indexeras. Ordparens diskriminerande värde anger därefter hur viktigt dokumentet är med avseende på dessa par av ord. Indexeringen är tänkt att användas i sökmotorer för Internet. Samarbete och roller Samarbetet inom gruppen har fungerat mycket bra. Vi har haft många, regelbundna möten där vi noggrant diskuterat problem, vad som bör göras och hur vi ligger till tidsmässigt i förhållande till tidplanen. Då vårt projekt tydligt kunde delas in i tre relativt självständiga moduler, delade vi även in gruppen i tre delgrupper. Tanken med detta var att underlätta förståelsen för projektproblemet. Varje delgrupp specialiserade sig på en fas och redogjorde för resterande gruppmedlemmar vad som skulle ske i fasen. Detta sätt att arbeta fungerade mycket bra och därför beslöt vi oss för att fortsätta arbeta med dessa delgrupper. Under så gott som hela projektarbetet har dessa delgrupper varit mer eller mindre tydliga. 4 (9)

Tidig under projektets gång kom vi överens om respektive projektmedlems ansvarsområde (se ovan). Dessa ansvarsområden har fungerat mycket bra. Även om varje person inte arbetat mest med sitt ansvarsområde har han/hon sett till att det genomförts. Samtliga gruppmedlemmar var eniga om att satsa mycket på arbetet med detta projekt. Vi hoppades på att bli klara tidigt, men ville även gardera oss tidsmässigt och satsade på att ha tid över om vi skulle få något stort problem. Samarbetet med vår uppdragsgivare och handledare Harald Kjellin har fungerat alldeles utmärkt. Vi har haft regelbundna möten och mellan dessa har vi kommunicerat via e-post. I början av projektet gjorde vi en analys över vilka risker vi ansåg att projektet hade. För dessa risker angav vi hur stor sannolikheten var att de inträffade och hur stor effekt de skulle ha. Vi delade in dem i en skala på tre delar, L = låg, M = medel och H = hög. Nedan följer de risker vi ansåg vara viktiga. Risk Sannolikhet Effekt Tidsbrist M H Inlärning av ny teknik M H Svårare än vi först trodde M M Svårt att sätta ihop modulerna L H Problem med projektledarens frånvaro L M Under projektets gång har vi inte haft några större problem med någon av de risker vi förutsett. Däremot har vi märkt att det fanns andra risker som vi inte beaktat. I början saknade vi back-up på vårt projektarbete vilket visade sig ha kunnat vara ett stort misstag. Under en helg var någon person inne på vår projektarea och raderade hela vårt arbete. I och med detta hade vi kunnat förlora flera dagars arbete. Som tur var görs en back-up automatiskt av servrarna och det var möjligt att få tillbaka allt det vi förlorade. 5 (9)

Funktion av applikation Applikationen Intdex består av två funktioner som kan antingen köras separat eller i en sekventiell följd. Den ena funktionen, crawler funktionen, samlar in URL-adresser. Den börjar från en angiven start-url och samlar sedan in alla nåbara URLer som den hittar. Det går att begränsa crawlern genom att ange inom vilken domän den ska hålla sig. Den andra funktionen indexerar de URLer som hittats av crawler funktionen. Den börjar med att räkna orden i domänen och i varje enskilt dokument. Denna information ligger sedan till grund för beräkningar som klassificerar ett antal ord i varje dokument som diskriminerande. Varje ord knyts också till ett värde som anger hur diskriminerande ordet är i dokumentet. Att ett ord är diskriminerande betyder att ordet förekommer mer frekvent i dokumentet i jämförelse med resten av dokumenten i domänen. När alla ord är klassificerade bildas par av orden. Paren utgörs av diskriminerande ord som står nära varandra i en mening. För varje par beräknas också ett nytt gemensamt diskriminerande värde. Det nya värdet anger hur viktigt dokumentet är med avseende på detta par av ord. Ordparen sparas till sist på fil tillsammans med värdet och URL-adressen till dokumentet. Denna information är den som är tänkt att användas av sökmotorer på bland annat Internet. Datormiljö Applikationen är skriven i Java 2.0, vilket innebär att den kan köras på de vanligaste operativsystemen. Användare Applikationen är tänkt att användas av olika sökmotorer som behöver en intelligent indexering av dokument. Andra presumtiva användare kan tänkas vara domäners eller hemsidors sökfunktioner. Detta för att underlätta sökningen som annars kan vara en besvärlig del i att navigera och hitta rätt på Internet. 6 (9)

Användargränssnitt Huvudfönster När applikationen startas öppnas huvudfönstret, se figur 1. Här anges vilken URL man vill utföra indexeringen ifrån. Här finns även möjlighet att ange inom vilken domän man vill utföra indexeringen på. För att sätt igång indexeringen trycker man sedan på Start. För att göra inställningar trycker man på knappen Settings, då öppnas ett inställningsfönster, se bild 2 på nästa sida. Figur 1. 7 (9)

Settings Inställningsfönstret består av fyra olika delar, se figur 2. Proxysetting, index and crawl, constants och files. I proxysettings kan man ange ifall man använder en proxyserver och i sådana fall vilken adress och port den använder. Index och crawl anger ifall man endast vill göra en crawl eller indexering eller både och. I Constants finns möjligheten att ange diskrimineringskonstanten och den generella faktorn vilket avgränsar indexeringen av ordparen. I Files anges sökväg och namn på filerna för URLer och Ordparsindexeringen. Settings har en grundinställning när man kör det för första gången. Ifall man ändrar inställningarna kommer dessa att sparas till nästa gång applikationen används. Figur 2 8 (9)

Körexempel Vid körning av applikationen kommer man först att få upp fönstret som visas i figur 1. För att starta en crawl och indexering anger man en start URL och domän där sökning av URLer skall genomföras sedan trycker man på knappen Start. Ifall man vill göra speciella inställningar går man in i inställningar. Figur 3 visar fönstret när crawlern har satts igång. I fönstret visas sökresultat av URLer och en statustext. Figur 3 9 (9)