Teknisk rapport. IS-projektet. Om de tekniska lösningarna

Storlek: px
Starta visningen från sidan:

Download "Teknisk rapport. IS-projektet. Om de tekniska lösningarna"

Transkript

1 Teknisk rapport IS-projektet Om de tekniska lösningarna

2 Bakom IS-projektet står styrgruppen för IS, i samverkan med forskning.se. Den tekniska rapporten är skriven av Anders Flodell, tekniskt ansvarig på forskning.se.

3 Innehåll 1. Teknisk bakgrund Problem Förutsättningar Mål Teknik före IS-projektet Forskning.se:s pilotprojekt Teknik inom IS-projektet Strategi för val av teknik Tekniska målsättningar Översikt av tekniskt genomförande Ramverktyget FORSIS Forskning.se:s sökmodul Nya söktjänster forskning.se Återstående utveckling ramverktyget FORSIS Riktlinjer för sökbarhet på internet IS-projektets erfarenheter av riktlinjer IS-projektets framtagna riktlinjer Erfarenheter Förändring av internetpublicering Google:s påverkan Nya funktioner i FORSIS Förändring av lastkajskonceptet

4 1. Teknisk bakgrund 1.1 Problem Decentraliserat Ingen överblick Inga riktlinjer för sökbarhet 1.2 Förutsättningar 1.3 Mål Låg materialkvalitet för sökmotorer Hitta allt hitta rätt (Google vs forskning.se) Låg nivå av standardisering och riktlinjer Samla in all svensk forskningsinformation på nätet Gör sökbar Ge feedback till förbättringar av sökbarhet och kvalitet hos lärosätena Skapa kringtjänster 2. Teknik före IS-projektet 2.1 Forskning.se:s pilotprojekt Översikt 2006 startade forskning.se ett pilotprojekt för att testa och utvärdera möjligheten att använda sig av modern sökteknologi för att göra svensk forskningsinformation, publicerad på Internet, sökbar från forskning.se:s egen webbplats. Projektets målsättning var att samla in projektdatabaser från ett urval av lärosäten i Sverige. Vid inhämtning skulle även en kategorisering ske av innehållet. Kategoriseringen skulle baseras på det inhämtade materialet Teknisk lösning Autonomy Pilotprojektet använde Autonomy som sökmotor. Autonomy hanterade indexering av webbsidor, automatisk kategorisering av webbsidor samt sökning i webbsidor. Autonomy fanns inköpt för Vetenskapsrådets räkning sedan tidigare och blev därför ett naturligt val för pilotprojektet. Med Autonomy följde en demowebb kallad Portal-in-a-box. Denna webb användes dels för att testa sökning och dels för att skapa speciella kategorier för de inhämtade webbsidorna. FSESearchProxy För att underlätta inhämtning av endast relevant forskningsinformation användes en egen utvecklad Java-komponent kallad FSESearchProxy. Komponentens 4

5 uppgift var att filtrera bort sidor på den webbplats/källa som skulle göras sökbar på forskning.se: s webbplats. En anledning till att en sådan komponent utvecklades berodde på att Autonomys egen inhämtningskomponent inte var så flexibel och lättarbetad vad gäller att filtrera bort irrelevanta sidor, som man inte ville göra sökbara. En annan anledning var att kunna hämta in webbsidor som är generellt svåra för sökmotorer att ta sig igenom. T ex webbsidor som endast ger åtkomst av forskningsinformation via en sökruta. Med hjälp av FSESearchProxy kunde Autonomy gå till en speciell webbsida, skapad av FSESearchProxy, och hämta en lista av webbsidor som redan hämtats via Java-komponenten. Ytterligare en anledning var att ha möjlighet till byte av sökmotor ifall behov skulle uppstå. I och med att FSESearchProxy komponenten skapade s k återanvändbara lastkajer med forskningsinformation skulle detta underlätta vid ett eventuellt framtida byte av sökmotor. I FSESearchProxy-komponenten användes även en open-source komponent kallad HTMLParser. HTMLParsers uppgift var att gå igenom en webbplats för att hitta vilka sidor som skulle läggas på lastkajen. FSESearchProxy var därmed en slags samordnare av ett antal HTMLParser jobb. Varje HTMLParser jobb skapade en lastkaj utifrån jobbets inställningar. Inställningarna lagrades i en fil tillsammans med FSESearchProxy Erfarenheter från pilotprojektet Språkkodning av webbsidor En extra komponent för omkodning av webbsidor behövde byggas eftersom det förekom webbsidor i pilotprojektets källor som hade blandad språkkodning. Denna blandning av hur en webbsida var språkkodad ställde till problem för Autonomys inhämtningskomponent. För att lösa problemet, tills Autonomy hade hunnit komma ut med en ny förbättrad version av inhämtningskomponenten, byggdes omkodningskomponenten. Begränsningar i FSESearchProxy Ändringar och tillägg i inställningsfilen för komponenten krävde administrativ tillgång till den server som kör komponenten. HTMLParser komponenten krävde väldig teknisk insikt för att kunna inhämta mer komplicerade webbsidor. HTMLParser hade även svårt att hämta sidor som använde sig av s k webbsessioner, vilket innebar att HTMLParser behövde lagra sessionsdata temporärt för varje sidhämtning den gjorde, om inte så dirigerades HTMLParser tillbaka till webbplatsens startsida och tappade därmed möjligheten att gå igenom alla sidorna. Java-koden växte ur sin funktion genom att fler och fler källor gick att hämta in via FSESearchProxy-komponenten. För varje källa som inte matchade något som tidigare hade använts i komponenten krävdes tillägg av ytterligare Java-kod för att hantera den nya typen av inhämtad källa. Lastkajernas placering och Autonomy FSESearchProxy komponenten placerade lastkajerna endast som filer på serverns katalogstruktur. Den kände aldrig till att filerna sedan används av en 5

6 webbserver för att göra dem tillgänglig för inhämtning via Autonomys inhämtningskomponent. Bättre stöd för inhämtningar via öppen källkod Det finns andra komponenter som är mer lättarbetade vad gäller att filtrera och skapa lastkajer i FSESearchProxy. Tester visade att man skulle kunna nå betydligt längre genom att gå från HTMLParser till WebHarvest vid inhämtningen av webbsidorna. 3. Teknik inom IS-projektet 3.1 Strategi för val av teknik IS-projektets budget för teknisk utveckling har varit relativt liten. Detta har avspeglats i val av teknisk plattform. IS-projektet ansåg att tiden var mogen för att använda open-source teknik för att skapa stödverktyget FORSIS. Open-source teknik hade redan funnits ett antal år, vid starten av FORSIS-utvecklingen 2007, och den hade även byggts på med ett antal olika ramverk för att snabbt kunna bygga webbbaserade system. Ett av dessa ramverk, kallat Spring Framework, hade i princip blivit standard när det handlade om att bygga flexibla och utbyggbara webblösningar i programmeringsspråket Java. Spring hade redan alla förutsättningar, bl. a. användarhantering och schemaläggning, inbyggda som ISprojektet såg som viktiga funktioner som behövde finnas i stödverktyget FORSIS. Därför beslutades det att FORSIS skulle byggas med hjälp Spring ramverk och att programmeringsspråket skulle vara Java. Java hade redan tidigare använts för att skapa inhämtningskomponenten FSESearchProxy och var därför lämpligt att även ligga till grund för FORSIS eftersom man kunde återanvända en stor del av den Java-kod som redan tidigare hade utvecklats. En annan aspekt av val av teknik har varit att open-source som koncept innebär att koden är publikt tillgänglig utan dyra licenskostnader, vilket har gjort att man inom IS-projektet har kunnat lägga mer pengar på själva utvecklingen av FORSIS. Man har även ansett att detta leder till att fler utvecklare kan använda och lära sig den teknik som stödverktyget har utvecklats med. Även här har mognaden av Java-programmering och kunskapen om open-source tagits med vid val av teknik. Vid starten av FORSIS-utvecklingen 2007 var Java, Spring och open-source väl fungerande tekniker och paradigm för utveckling av webbbaserade verktyg. Under perioden då pilotprojektet använde en egenutvecklad inhämtningskompent kallad FSESearchProxy testades ett antal olika s k web scraping komponenter i kombination med FSESearchProxy. Web scraping är en teknik för att programmeringsmässigt hämta information från webbplatser genom att gå ut på internet och simulera en webbläsares beteende för att kunna surfa till olika webbplatser. Denna erfarenhet ledde fram till att FORSIS använder en web scraping komponent kallad WebHarvest. WebHarvest är utvecklad under open-source licens kan både användas som inbyggd komponent i FORSIS och som fristående testverktyg för en person som vill testa att hämta och analysera webbsidor från en viss webbplats. 6

7 Under 2010 har FORSIS fått tillgång till ytterligare en web scraping komponent, kallad HtmlUnit. HtmlUnit används framför allt i samband med testdriven webbapplikationsutveckling. Anledningen till införandet av HtmlUnit är att WebHarvest inte har klarat av att hantera webbplatser som använder ett publiceringsverktyg som kräver att varje sida som en webbläsare besöker på webbplatsen lagras i en s k session. WebHarvest har för närvarande inte någon sådan funktion inbyggd utan kräver att de webbplatser som komponenten används på kan leverera webbsidor som inte kräver sessionslagring i webbläsaren. Under 2010 hade open-source komponenten HtmlUnit kommit så långt att den kunde hantera dessa temporära sessioner. Efter en kort testperiod implementerades HtmlUnit som ett komplement till inhämtningskomponenten WebHarvest. Detta har medfört att FORSIS som stödverktyg för inhämtning av webbsidor har blivit mer komplett och kan klara att hämta de flesta typer av webbsidor som finns på internet. 3.2 Tekniska målsättningar Följande mål låg till grund för utvecklingen inom IS-projektet: Skapa ett stödverktyg för den administrativa hanteringen av inhämtning av källor. Skapa ett stödverktyg som tillåter internetbaserad administration och inloggning av olika roller. Skapa ett stödverktyg som ger möjlighet till feedback och analys av de källor som verktyget hanterar. Skapa ett stödverktyg som tar till vara på de erfarenheter som finns från tidigare pilotprojekt. 3.3 Översikt av tekniskt genomförande Koncepttest av ny teknik, struktur och ramverk IS-projektets pilotprojekt visade att konceptet med lastkajer fungerade. Dock fanns det andra sätt att gå vidare med konceptet. För att visa att ett bättre stödverktyg kunde byggas utifrån samma koncept började vi testa konceptet med hjälp av moderna och öppna Java-komponenter. Testet innebar att en första version av ramverktyget FORSIS utvecklades. I testet ingick även en övergång till en mer lättarbetad komponent för inhämtning av webbsidor Utveckling FORSIS Efter koncepttestet av nytt ramverktyg påbörjades en design- och utvecklingsfas där forskning.se tog hjälp av användbarhets- och utvecklingskonsulter för att bygga ett ramverktyg som skulle underlätta inhämtning av webbsidor på internet Förvaltning FORSIS 2010 övergick utvecklingen av ramverktyget FORSIS till att mestadels handla om förvaltning och användning av det verktyg som hade byggts. FORSIS tillåter nu att en inloggad användare kan administrera källor som ska hämtas in till forskning.se: s sökmotor. Under 2010 har en person arbetat med att lägga till nya källor och aktivera inhämtning av de nya källorna till sökmotorn. Personen som har gjort detta har dels arbetat med att tekniskt analysera webbsidors HTML-kod för att därefter skapa en inhämtning av källor till ramverktygets lastkajer. Hittills 7

8 har det krävts, av personer som arbetar med FORSIS, en förståelse inom HTMLkod och XML för att kunna slutföra en inhämtning av källor till FORSIS. Det har även krävts lite extra Java-programmeringskunskap för vissa källor. Dessa källor har varit svåra att hämta med den inhämtningskomponent som används generellt i FORSIS. Därför har utvecklarna av FORSIS infört en kompletterande inhämtningskomponent för de svårare källorna, dock kräver denna komponent viss Java-kunskap. Men det har istället lett fram till ett mer fulländat verktyg för att underlätta inhämtning av webbsidor till forskning.se: s sökmotor Förbättring av befintlig sökmodul Sedan 2007 har forskning.se helt använt Autonomy som sökmotor. Under tiden IS-projektet har pågått har forskning.se även arbetat med att förbättra, anpassa och utnyttja den befintliga sökmodul (se 3.5) som togs fram för vårt publiceringssystem SiteVision Nya söktjänster på forskning.se Den sökmodul som forskning.se och IS-projektet använder för att få ut sökresultat från inhämtade källor i FORSIS är byggd på ett sätt som tillåter användning utöver den gällande söksidan på forskning.se. Det har medfört att ISprojektet har kunnat testa andra typer av sökfunktioner som finns i Autonomy för att förhöja sökupplevelsen på forskning.se. Några av dessa test har blivit permanenta delar av webbplatsen i form av relaterat material rutan för pressmeddelanden och sökmolnet på den avancerade söksidan Genomförda analysrapporter När utvecklingen av FORSIS hade gått över i förvaltning 2010 påbörjades även en översyn av de inhämtade källor som för närvarande gick att söka i via forskning.se. Översynen av externt inhämtat material från lärosäten och forskningsaktörer, visade ett behov hos lärosäten och forskningsaktörer av att få konkreta förslag på hur dessa aktörer skulle kunna förbättra sina webbplatser för sökning av forskningsinformation. Därför beslutade IS-projektet att genomföra en analys av en utvald webbplats med forskningsinformation. Dels för att ge feedback till webbansvariga för webbplatsen men även för att kunna testa vad en sådan analys borde innehålla. IS-projektet valde att analysera webbplatsen för Stiftelsen för Strategisk Forskning (SSF) och specifikt deras publicerade forskningsdatabas Förvaltning av Autonomy och annan teknik Under IS-projektets gång har den använda sökmotorn Autonomy blivit uppgraderad. Driftmiljön och driftorganisationen hos Vetenskapsrådet har även den blivit förändrad. Detta har medfört att vissa administrativa uppgifter har behövt genomföras för att hålla system och verktyg aktuella och uppgraderade. 3.4 Ramverktyget FORSIS Status FORSIS juni 2010 I detta läge används FORSIS av forskning.se: s redaktion för att förenkla och administrera inhämtning av forskningsinformation från källor på internet. FORSIS är förberett för att klara inhämtning av alla typer av källor. Beroende på avgränsning och resurstillgång inom IS-projektet valde man att börja hämta källor från lärosäten och forskningsfinansiärers projektdatabaser. Därför finns 8

9 det fortfarande källor som hämtas in till sökmotorn Autonomy som inte går först via FORSIS. Exempel på detta är sökning i forskning.se: s pressmeddelanden och i de faktalänkar och frågelådor som forskning.se refererar till. För närvarande ligger cirka 30 st. källor i FORSIS. Samtliga hämtar webbsidor från ett lärosäte eller forskningsfinansiärs publika projektdatabas alternativt projektbeskrivningssidor Interna koncept i FORSIS Jobblistekonceptet: - FORSIS hanterar ett obegränsat antal jobb. Varje jobb kan schemaläggas. - Ett jobb innehåller en lista av aktioner som jobbet ska genomföra när det aktiveras av FORSIS. - Varje aktionslista kan i sig bestå av flera olika aktioner och som körs enligt en bestämd ordning och som definieras för varje aktionslista. - En aktion gör en specifik sak, t ex hämtar webbsidor, skickar e-post eller skapar en analysrapport. En aktion kan återanvändas och ingå i flera aktionslistor. - En aktion är kopplad till en aktionskonfiguration. Konfigurationen bestämmer vad som ska ske inom aktionen. T ex så bestämmer aktionskonfigurationen vilken startsida som en inhämtningsaktion ska utgå ifrån när den påbörjar en inhämtning av webbsidor till FORSIS. - FORSIS känner av om en aktionskonfiguration har valt att ange parametrar som ska vara återanvändbara och utbytbara. T ex skulle en parameter kunna vara vilken startsida som aktionskonfigurationen ska använda vid inhämtning av webbsidor. Om så är fallet kräver FORSIS administrativa sidor att parametern fylls i för varje gång ett nytt jobb skapas och som använder aktionskonfigurationen. - Ett jobb kan välja olika aktionslistor beroende på val av kategorier. T ex så kan kategorin typ av källa = Forskningsdatabas leda till att en viss aktionslista måste genomföras då jobbet schemaläggs eller körs direkt av FORSIS. Lastkajskonceptet: - Varje inhämtad källa i FORSIS genererar en eller flera HTML-sidor som är sammanlänkade med varandra. - På dessa HTML-sidor finns de sidor som ska indexeras av en sökmotor inlagda som HTML-länkar. En länk går till en sida från källan. T ex kan en länk motsvara en sida hos ett lärosäte som presenterar ett forskningsprojekt. - En sökmotor kan gå direkt till källans lastkajsida i FORSIS och där hämta alla relevanta sidor som källan har att erbjuda. En sökmotor behöver därmed inte hantera filtrering av skräpsidor och irrelevanta sidor, detta sker i FORSIS när lastkajen skapas Gemensam hantering av källor I FORSIS kan man direkt få en överblick över de källor som IS-projektet har valt att hämta in till sin sökmotor. Verktyget presenterar detta som en lista över inlagda källor med viss tilläggsinformation för varje källa, t ex typ av källa, status och organisation varifrån källan hämtas. För varje källa som presenteras i FORSIS kan man se en detaljsida som presenterar information om källan. Denna sida visar vad källan har för kategorisering i FORSIS och även en status på den senaste körningen av jobbet som hämtar in källan. Det går även att testa och köra en full inhämtning av sidor 9

10 från källan. Ifall källan redan har körts av ett jobb så finns det en länk till en lastkajsida som jobbet har skapat dynamiskt för varje gång jobbet körs. Denna lastkajsida innehåller inget grafiskt förutom en text som talar om hur många sidor som senast hämtats samt en lista av HTML-länkar till varje relevant sida hos källan som jobbet har för avsikt att hämta. Man kan direkt på startsidan, som man når efter inloggning i FORSIS, välja att skapa en ny källa. Denna process resulterar i att källan kopplas till ett inhämtningsjobb i FORSIS. Vid skapandet av källan kan man direkt testa och se om de inställningar man valt, t ex källans webbadress, verkligen stämmer och fungerar att hämta ifrån innan den slutligen sparas i FORSIS Gemensam inhämtning av källor För att en källa ska kunna skapas i FORSIS krävs vissa förutsättningar. En förutsättning är att administratören sedan tidigare har lagt till en särskild inhämtningskonfiguration som används vid inhämtning av en viss typ av källa. Denna konfiguration, tillsammans med ytterligare data för att följa jobblistekonceptet som används i FORSIS, se kapitel (3.4.2), leder fram till att en redaktör kan lägga till en ny källa som använder en viss konfiguration enligt en viss jobblista i FORSIS. Varje källa kan därmed ha olika konfigurationer men även återanvända redan befintliga konfigurationer för att hämta in sidor från webbplatser på internet. Inhämtningskonfigurationerna är ändringsbara direkt i FORSIS för en inloggad administratör. Detta betyder att man kan förändra varje källa i FORSIS ifall källans webbplatsstruktur har förändrats. När en källa körs påbörjar FORSIS en inhämtning av källans relevanta webbsidor. Webbsidorna lagras i en s k lastkaj, se även (3.4.2) för detta, där endast webbsidornas webbadresser sparas i form av HTML-länkar. Denna last kan sedan användas av godtycklig sökmotor, i forskning.se: s fall Autonomy, för att göra informationen sökbar Feedback och analysmöjligheter Eftersom FORSIS bygger på ett jobblistekoncept, se kapitel (3.4.2), så finns redan möjligheten att bygga på med e-postfunktionalitet. Detta betyder att det finns redan förberett ett jobb som kan skicka ut e-post i olika form direkt från verktyget. Ett exempel där detta kan användas är status för en inhämtad källa i FORSIS som kan skickas direkt till källans ägare. E-posten kan skickas varje gång en ny inhämtning har genomförts. Innehållet skulle kunna vara förslag till förbättringar av sökbarheten i källan eller statistik över hur många sidor som har hämtats in respektive hur många sidor som inte har hämtats av olika anledningar. FORSIS använder sig av komponenter för att skicka e-post och för att gå igenom webbsidor. Det innebär att ramverktyget FORSIS har obegränsade möjligheter till att skapa olika typer av analyser och rapporter som granskar innehållet i webbsidor och därefter, om behov finns, skickar dessa via e-post till intresserade personer. Förutom källor finns några speciella inhämtningsjobb i FORSIS. Eftersom FORSIS är utvecklat för att klara flera typer av inhämtningar enligt ett jobblistekoncept, kan jobb skapas i FORSIS som gör andra saker än att specifikt hämta webbsidor till sökmotorn. I och med detta har det därför lagts till ett jobb som gör en analys av hur många FoU-aktörer i Sverige som har en webbplats med direktlänk till forskningsinformation. Det finns även ett jobb som kontaktar Autonomy för att skapa en sammanställning av de sökord som i realtid söks på via sökrutan på forskning.se. 10

11 3.4.6 Användarhantering FORSIS har från början inbyggd hantering av användare och användarkonton. Tanken är att verktyget ska kunna hantera olika typer av användare och därmed presentera olika funktioner för dessa. För närvarande kan en användare som loggar in göra allt som finns inlagt i verktyget, d v s skapa källor och köra inhämtningsjobb av källor. I framtiden ska det gå att dela upp funktioner efter användare eller roll, t ex så skulle en producent kunna ange bara var och hur en källa ska hämtas medan en redaktör hos forskning.se skulle kunna bedöma om källan har relevant forskningsinformation och administratören skulle kunna bedöma om de uppgifter som lämnats av producenten är tillräckliga för att en inhämtning av källan ska bli genomförbar Schemalagd inhämtning av källor Varje källa i FORSIS går att schemalägga enligt olika intervall. För närvarande finns tre olika intervall: - För att köras en gång vid en framtida tidpunkt - För att köras en gång per dag - För att köras en gång per vecka Väljer man ett intervall och sparar det för en källa i FORSIS kommer det att automatiskt köras en inhämtning av webbsidor från källan enligt det valda intervallet. FORSIS är uppbyggt för att klara en parallell körning av schemalagda inhämtningar av källor. 3.5 Forskning.se:s sökmodul Forskning.se: s webbplats använder för närvarande ett publiceringsverktyg som heter SiteVision. I SiteVision finns möjligheten att integrera externa komponenter enligt Portlet-standarden, även kallat moduler. Forskning.se har därför utvecklat en sökmodul som kopplar ihop SiteVision med Autonomy. Detta medför att forskning.se: s webbplats kan presentera sökbart innehåll som finns inhämtat i Autonomys sökmotor. Det innebär också att andra webbplatser som använder SiteVision eller följer Portlet-standarden skulle kunna återanvända forskning.se: s sökmodul. Se även kapitel 3.6 för konkreta användningsområden av sökmodulen på forskning.se Genomförda förbättringar Under IS-projektet senare del har denna sökmodul förbättrats på ett antal punkter. Bl. a har modulen fått en generell hantering av felmeddelanden som kan visas i olika form på forskning.se: s webbplats då modulen av olika anledningar inte kan nå Autonomy för att få ut en träfflista baserad på en sökning som gjorts via forskning.se: s söksidor. Modulen har även blivit förbättrad med avseende på hur SiteVision har valt att följa Portlet-standarden. 3.6 Nya söktjänster forskning.se Avancerad söksida Sedan tidigare har forskning.se en avancerad söksida som aktiveras direkt från vänstermenyn: s sökruta eller via fliken Söktjänster överst i forskning.se. Denna 11

12 sida gör det möjligt att filtrera sökningen efter forskning.se: s fastställda kategorier för det material som presenteras på webbplatsen. För att visa söksidan har forskning.se utvecklat en egen SiteVision-modul som integrerar Autonomy med SiteVision. Modulen använder sig av Java-teknik och följer Portletstandarden som används av SiteVision Relaterat material ruta En funktion som finns med i Autonomy är att skapa sökresultat som bygger på jämförelser mellan den webbsida som användaren tittar på och andra inhämtade webbsidor i Autonomy. Denna jämförelse kan leda fram till förslag på andra webbsidor som är intressanta att besöka. Autonomy jämför webbsidans textinnehåll med andra sidors textinnehåll och gör en beräkning av sannolikheten för att dessa liknar varandra. Denna funktion används på forskning.se: s webbplats och kallas för Relaterat material. Förslag på liknande sidor i Autonomy visas i en separat ruta som finns med på forskning.se: s pressmeddelande- och temasidor. I rutan visas förslag på relaterat material hämtat från tre typer av kategorier: - Alternativa pressmeddelanden via forskning.se - Tidskrifter som forskning.se hämtar in i Autonomy - Forskningsprojekt som forskning.se hämtar in i Autonomy Sökmoln (Autonomy Query Guidance) På forskning.se: s avancerade söksida finns en extra funktion kallad sökmoln som bygger på en funktion i Autonomy som heter Autonomy Query Guidance (AQG). Funktionen tar fram de mest förekommande begreppen och orden inom ett sökresultat. Det innebär att funktionen är aktiv först efter att en besökare på forskning.se: s avancerade söksida har sökt efter något och därmed fått fram en lista av sökträffar. Med hjälp av detta sökmoln kan man få förslag på ord och begrepp som kan leda besökaren fram till mer avgränsade och därmed mer relevanta sökträffar. 3.7 Återstående utveckling ramverktyget FORSIS Efter omprioriteringar av utvecklingen av FORSIS under 2009 valdes viss användarvänlighet bort från FORSIS för att man istället skulle kunna slutföra utvecklingen av FORSIS som ett fungerande administrativt verktyg för forskning.se: s redaktion och framförallt för de personer som arbetar med ISprojektet. Följande funktioner har därför blivit nedprioriterade och återstår fortfarande att genomföra för att verktyget ska anses vara färdigutvecklat med avseende på de inledande målsättningarna Användare och roller FORSIS saknar en mer avancerad hantering av användare och roller. Verktyget kräver att man loggar in men därefter finns inga funktioner för att presentera olika sidor utifrån användare eller roller. Ytterligare utveckling skulle innebära att administratören kan tilldela olika roller, t ex redaktör eller granskare, och avgöra vem som får skapa och administrera källor i FORSIS. 12

13 3.7.2 Förenklad hantering av nya källor En tanke med FORSIS var att generalisera inhämtningen av källor på ett sådant sätt att producenter av forskningsinformation själva skulle kunna logga in och ange exakt vad på en webbplats som ska hämtas till FORSIS. Detta skulle ske genom att producenterna gick igenom en s k wizard där de fick svara på ett antal frågor angående den källa de ville få inhämtad av FORSIS. För att en sådan wizard skulle fungera behövdes ett antal generella inhämtningsmallar som kunde användas beroende på vilken typ av webbplatsstruktur man angivit i wizarden. De generella mallarna skulle byggas med avseende på hur FORSIS inhämtningskomponent arbetade. Denna inhämtningskomponent, WebHarvest, hade några få utvecklare kunskap om i början av utvecklingen av FORSIS. Dock var komponenten väldigt enkel att sätta sig in i, genom att den var utvecklad som en open-source komponent och för att den hade en ganska lättförståelig manual. Detta medförde att IS-projektet valde att inte försöka generalisera användandet av inhämtningskomponenten i FORSIS och därmed skapa den förenklade wizarden. Istället valde man att via FORSIS och dess inhämtningskomponent hämta ett stort antal källor utan att gå via en enkel wizard. Detta har inneburit ett visst tekniskt förfarande för att hämta varje ny källa. Detta förfarande har varit något mer tidskrävande men har istället lett fram till att fler källor har kunnat hämtas in via FORSIS Automatisering av feedback och analysfunktioner Funktioner för olika typer av feedback till de som producerar forskningsinformationen som hämtas in av FORSIS har ännu inte implementerats. Det har skapats några rapporter som använder FORSIS för att analysera hur de inhämtade webbplatsernas sökbarhet ser ut. T ex så har en rapport skapats som räknar hur många webbplatser som har en direktlänk till forskning. Dock går dessa rapporter inte ut automatiskt via e-post från FORSIS. Verktyget har även haft en ansats att kunna bedöma och betygsätta en inhämtad webbplats sidor utifrån forskning.se: s riktlinjer för sökbarhet. Detta finns förberett i FORSIS men har ännu inte testats mer än i tidigare nämnd direktlänksrapport. FORSIS är förberett och testat för att kunna hantera flera typer av jobb. Det jobb som är implementerat är det som hämtar webbsidorna till en lastkaj i FORSIS. Det som återstår är alltså att få igång ett jobb av typen e-postutskick. När detta har testats går det att kombinera inhämtnings- och e-postutskicksjobb för en källa i FORSIS. Det betyder att när en webbplats har hämtats in och gjorts till en lastkaj i FORSIS går det därefter ut ett automatiskt e-post med möjlighet att informera producenterna av webbplatsen statusen på det som har inhämtats till FORSIS. I denna statusinformation kan även diverse rapporter och analyser av det inhämtade ingå. 13

14 4. Riktlinjer för sökbarhet på internet 4.1 IS-projektets erfarenheter av riktlinjer Producenter av forskningsprojektbeskrivningar behöver inte längre skapa innehållet via en databas utan kan direkt skapa innehåll i ett publiceringsverktyg. Detta har påverkat de riktlinjer som IS-projektet skrev i början av projektet. Riktlinjerna har varit baserade på att lärosäten och andra forskningsaktörer har byggt eller kommer att bygga upp en forskningsdatabas med information om exempelvis pågående forskning och göra den publik på internet. Allteftersom ISprojektet har fortlöpt har gränsen mellan publik forskningsdatabas på internet och en webbplats med publicerad forskningsinformation suddats ut. Många webbplatser som tidigare hade separerat forskningsdatabasen och webbplatsen har gjort om sin webbplats på ett sådant sätt att forskningsdatabasen är integrerad i den befintliga webbplatsen. Detta talar för att de riktlinjer för sökbarhet som forskning.se tar fram kommer att ses som en levande process där revideringar av tidigare riktlinjer kommer krävas utifrån var och hur forskningsinformation presenteras på internet, nu och i framtiden. Exempel på nya revideringar som behöver göras för IS-projektets riktlinjer: - Ta med intressanta delar från Googles riktlinjer för webbansvariga - Ta med intressanta delar från arbete som gjorts för Semantic Web Ta med intressanta delar från tillgänglighetsriktlinjer som WAI och WCAG - Lägga till riktlinjer för hantering av pdf dokument på internet - Lägga till riktlinjer för hantering av webbsidor som använder Adobe Flash 4.2 IS-projektets framtagna riktlinjer Projektet har tagit fram riktlinjer som bygger på internetstandarderna XHTML, Dublin Core Metadata och Open Archive Initiative (OAI). Dessa riktlinjer försöker visa på de olika nivåer av sökbarhet som finns för sökmotorer på internet. Riktlinjerna visar också vad man bör tänka på när man bygger upp en webbplats, både gällande innehållet och hur man strukturerar en webbplats. XHTML är viktig för att webbsidor enkelt ska gå att hantera på samma sätt som information skapad i XML-format. XML är ett enkelt sätt att garantera att information och data går att avgränsa i egna element. Ett element kan exempelvis vara ett namn, telefonnummer eller projektrubrik. Det XHTML bl. a. tillför till vanlig standard-html är ett krav på att HTML-taggar ska gå att använda som egna XML-element. Detta medför att det blir enklare för sökmotorer att hitta specifika element, t ex rubrik, ingress eller brödtext, eftersom de då kan avgöra var ett elements innehåll börjar och slutar. Dublin Core är en standard för att metadatamärka webbsidor. Med hjälp av denna standard går det att beskriva kortfattat vad en viss webbsida innehåller utan att behöva läsa igenom den först. Exempel på Dublin Core metadata är skapat datum, rubrik och författare för en webbsida. OAI är en standard för att skapa öppna publika arkiv som kan interagera med varandra via internet. Exempelvis skulle ett lärosätes projektdatabas kunna 14

15 utbyta information med ett annat lärosätes projektdatabas om båda har följt rekommendationer från OAI för att skapa interoperabilitet. 5. Erfarenheter 5.1 Förändring av internetpublicering Publicering på internet har förändrats sedan 2006 då IS-projektets pilot påbörjades. Då fanns det många webbplatser hos lärosätena som ännu inte hade gått över till ett modernt publiceringsverktyg, t ex EpiServer, SiteVision eller Polopoly. Många lärosäten hade påbörjat processen men hade fått lov att avvakta byte av publiceringsverktyg tills deras interna processer och arbetssätt hade anpassats efter hur man använder publiceringsverktyg. I vissa fall hade lärosätet en redan publicerad projektdatabas men inte någon enhetlig webbplats i övrigt. I andra fall var lärosätets centrala webbplats lanserad men man saknade en funktion för att presentera pågående forskning, t ex en projektdatabas, via webben. Detta ledde fram till att många lärosäten hamnade i en situation där kompromisser var nödvändiga för att dels kunna presentera information om lärosätet och dels kunna presentera den forskning som bedrivs. Redan tidigt stötte IS-projektet på dessa kompromisser i samband med att projektets uppgift var att hämta in webbsidor som beskriver lärosätenas forskning. Även betydelsen av begreppet forskningsdatabas som IS-projektet använder har förändrats. I och med att publiceringsverktygen har utvecklats har även strukturen på många webbplatser ändrats. Från att ha haft en separat del där forskningsdatabasen presenteras, har databaserna istället blivit mer integrerade i webbplatserna. Exempelvis behöver inte producenter av forskningsprojektbeskrivningar skapa innehållet via en databas utan kan direkt skapa innehållet i ett publiceringsverktyg. Publiceringsverktygen har oftast en egen databas som lagrar innehållet för den webbplats som skapas genom verktyget. Utveckling av ramverktyget FORSIS innebär att det i princip går att hoppa över Autonomys inhämtningskomponent helt och direkt indexera sidor från FORSIS in i Autonomy. Detta betyder att det även går att använda FORSIS som grund för att indexera till andra sökmotorer också. Detta är inget som har gjorts i dagsläget men med en ganska begränsad insats skulle FORSIS kunna utvecklas åt detta håll. Det skulle betyda att FORSIS i framtiden skulle kunna agera middleware-produkt för indexering av webbplatser i godtycklig sökmotor. 5.2 Google:s påverkan I och med införandet av Google Translate på forskning.se går det nu att även få söksidan översatt till annat språk. Dock bara för de sökträffar som visas på söksidans första visade träffar. Och det går inte att översätta ett sökord till ett annat språk och förvänta sig att forskning.se: s söksida ska förstå att man vill ha träffar på det nya språket. 15

16 Detta har lett fram till tankar på att eventuellt låta ramverktyget FORSIS samverka med Google Translate på ett sådant sätt att t ex alla inhämtade forskningsprojekt kan bli sökbara på andra språk än svenska på forskning.se: s söksida. Idén bygger på att Autonomy går till FORSIS lastkaj för en källa och programmatiskt översätter, med hjälp av Google Translate, varje sida som hämtas från lastkajen samtidigt som man anger för Autonomy att detta material ska lagras i sökmotorn med en markering att det är översatt till ett annat språk. 5.3 Nya funktioner i FORSIS Skapa källor via simulerad webbläsare En idé som uppstod under IS-projektets utveckling av FORSIS var att låta producenter av forskningsinformation själva ange vilka webbsidor och vilket innehåll på dessa som ska hämtas in i en sökmotor. För detta krävs det ett enkelt intuitivt sätt att låta producenterna visa de olika källornas startsidor för FORSIS. Ett sätt att lösa detta på skulle vara att använda befintliga open-source komponenter som kan integreras som s k plugin:s i dagens webbläsare. En sådan plugin skulle kunna spela in ett flöde av länkklickningar och knapptryckningar som görs för att en webbläsare ska nå fram till en viss sida på internet. Detta inspelade flöde skulle senare kunna spelas upp i FORSIS genom att integrera tekniken bakom webbläsarpluginen i FORSIS. Idén är att kunna uppnå ett enkelt webbgränssnitt där en producent kan starta inspelningen, surfa som vanligt till den sida på en webbplats som motsvarar startsida för inhämtning till FORSIS och för en sida som ska hämtas till FORSIS markera mellan vilka textblock eller sidlayouter som rubrik, ingress och brödtext finns. Därefter skulle FORSIS kunna spela upp denna information för att hitta en startpunkt för inhämtning av webbsidor samt även veta vilka element i webbsidan som motsvarar rubrik, ingress och brödtext. Tester av olika typer av webbplugins har gjorts under ISprojektet och visar att detta är möjligt. Den främsta pluginkandidaten för att göra detta heter WebTestRecorder och ingår som ett verktyg för en open-source komponent som heter Canoo WebTest. 5.4 Förändring av lastkajskonceptet Ramverktyget FORSIS används för att hämta in källor i filtrerad och komprimerad form via en s k lastkaj som sedan en sökmotor indexerar. FORSIS skapar för närvarande lastkajerna som fysiskt placerade HTML-sidor, en för varje källa i ramverktyget. Dessa HTML-sidor skulle kunna tas bort helt i en framtida version av FORSIS genom att man hoppar över steget att skapa HTMLsidorna helt och låter de sidor från källorna som ligger länkade i lastkajerna gå direkt in i sökmotorn. Detta är möjligt genom att programmera ett s k jobblistejobb (se 3.4.2) som för varje källa går igenom dess relevanta sidor och direkt indexerar dem i sökmotorn. 16

Bevarande av webbsidor

Bevarande av webbsidor Bevarande av webbsidor Ett gemensamt projekt mellan LTU och LDB-centrum 2008-2009 Lena Lindbäck LDB-centrum 2009-09-04 1. INLEDNING...- 3-2. BAKGRUND...- 4-2.1 SYFTE OCH MÅL... - 4-2.2 METOD... - 5-2.3

Läs mer

Dokumentet får spridas fritt i sin helhet, digitalt eller i tryckt format till alla användare av EPiServer CMS.

Dokumentet får spridas fritt i sin helhet, digitalt eller i tryckt format till alla användare av EPiServer CMS. Copyright Detta dokument skyddas av upphovsrättslagen. Förändringar av innehåll eller delvis kopiering av innehåll får ej ske utan tillstånd från upphovsrättsinnehavaren. Dokumentet får spridas fritt i

Läs mer

Utveckling av webbaserade e-handelssystem i små företag

Utveckling av webbaserade e-handelssystem i små företag 2004:044 SHU EXAMENSARBETE Utveckling av webbaserade e-handelssystem i små företag HENRIK FRISK PERNILLA SELBERG Samhällsvetenskapliga och ekonomiska utbildningar SYSTEMVETENSKAPLIGA PROGRAMMET C-NIVÅ

Läs mer

Handboken får spridas fritt, i sin helhet, digitalt eller i tryckt format till alla användare av EPiServer CMS.

Handboken får spridas fritt, i sin helhet, digitalt eller i tryckt format till alla användare av EPiServer CMS. Copyright Denna handbok skyddas av upphovsrättslagen. Förändringar av innehåll eller delvis kopiering av innehåll får ej ske utan tillstånd från upphovsrättsinnehavaren. Handboken får spridas fritt, i

Läs mer

Utvärdering av e-handelssystemet oscommerce

Utvärdering av e-handelssystemet oscommerce Institutionen för Informatik EKONOMIHÖGSKOLAN VID Kandidatuppsats LUNDS UNIVERSITET Januari 2005 Utvärdering av e-handelssystemet oscommerce Handledare Lars Fernebro Författare Sebastian Howe Suzana Ivkovic

Läs mer

UTBILDNINGSFÖRVALTNINGEN IKT-FUNKTIONEN

UTBILDNINGSFÖRVALTNINGEN IKT-FUNKTIONEN UTBILDNINGSFÖRVALTNINGEN IKT-FUNKTIONEN UTREDNING Projekt: Författare: Version: Elever i behov av särskilt IT-stöd v3.3.017 Förvaltning/avdelning: Godkänd av beställare: Senast ändrad: Utbildningsförvaltningen,

Läs mer

Handboken får spridas fritt, i sin helhet, digitalt eller i tryckt format till alla användare av EPiServer CMS.

Handboken får spridas fritt, i sin helhet, digitalt eller i tryckt format till alla användare av EPiServer CMS. Copyright Denna handbok skyddas av upphovsrättslagen. Förändringar av innehåll eller delvis kopiering av innehåll får ej ske utan tillstånd från upphovsrättsinnehavaren. Handboken får spridas fritt, i

Läs mer

Barnhack! Kom igång med programmering. Anders Thoresson Kom igång med Wordpress

Barnhack! Kom igång med programmering. Anders Thoresson Kom igång med Wordpress Anders Thoresson Kom igång med Wordpress förord 2 kapitel 1 att bygga en webbplats 3 Det här är Wordpress 3 Domännamn visar vägen på internet 4 kapitel 2 kom i gång med wordpress.com 6 Registrera ett konto

Läs mer

Sammanfattning i Sammanfattning

Sammanfattning i Sammanfattning Sammanfattning i Sammanfattning Ett ärendehanteringssystem är ett komplett system vars mål är att effektivisera och koordinera processer av olika slag. Ett exempel på ärendehantering är försäkringsbolag

Läs mer

Vägledningen 24-timmarswebben 2.0

Vägledningen 24-timmarswebben 2.0 04:01 Vägledningen 24-timmarswebben 2.0 Denna version av Vägledningen 24-timmarswebben gavs ut av E-nämnden 2004. E-nämndens arbete har tagits över av Verva, Verket för förvaltningsutveckling. För en aktuell

Läs mer

Gemensam plattform för digitala folkbibliotek

Gemensam plattform för digitala folkbibliotek Gemensam plattform för digitala folkbibliotek Utredningsrapport juni 2014 Mottagare: Svensk Biblioteksförening SAMMANFATTNING Rapporten beskriver resultatet av en utredning om förutsättningarna för att

Läs mer

FRÅN POSTORDER TILL E-HANDEL

FRÅN POSTORDER TILL E-HANDEL FRÅN POSTORDER TILL E-HANDEL UTVECKLING AV E-HANDELSPLATS MED ASP.NET Tobias Henning Johan Kraner EXAMENSARBETE 2003 Information & Medieteknik FRÅN POSTORDER TILL E-HANDEL FROM MAIL ORDER TO E-COMMERCE

Läs mer

Teknisk Review av K-samsök. Rapport

Teknisk Review av K-samsök. Rapport Teknisk Review av K-samsök Rapport 1(22) Sammanfattning Riksantikvarieämbetet har genomfört en oberoende utvärdering av systemet K-samsök som syftat till att identifiera styrkor och svagheter i systemet

Läs mer

Skapa en webbplats med Joomla

Skapa en webbplats med Joomla Nils Eriksson, Jonathan Bourque Olivegren och Sven-Åke E klund Skapa en webbplats med Joomla En guide om hur du bygger en webbplats med publiceringsverktyget Joomla Skapa en webbplats med Joomla.SE:s Internetguide,

Läs mer

användarvänliga webbgränssnitt

användarvänliga webbgränssnitt Riktlinjer för användarvänliga webbgränssnitt Användarvänlig design skapas genom en ständig process där användarens behov och upplevelse är det centrala. Denna process skall ses ur ett helhetsperspektiv

Läs mer

Webbaserat ordersystem samt CRM Webbased ordersystem and CRM

Webbaserat ordersystem samt CRM Webbased ordersystem and CRM Webbaserat ordersystem samt CRM Webbased ordersystem and CRM Zlatan Filipusic EXAMENSARBETE 2011 ÄMNE Datateknik Postadress: Besöksadress: Telefon: Box 1026 Gjuterigatan 5 036 10 10 00 (vx) 551 11 Jönköping

Läs mer

Optimering av hemsidor

Optimering av hemsidor Optimering av hemsidor - Interaktionsförbättringsarbete på hemsidor Webpage optimization - Interaction improvement work on webpage s Raban Ebrahimzade Jonas Petersson Handledare Alan B Carlsson Kandidatuppsats

Läs mer

Hur ligger Sverige till i förhållande till WCAG 2.0 nivå AA

Hur ligger Sverige till i förhållande till WCAG 2.0 nivå AA Lägesanalys: Hur ligger Sverige till i förhållande till WCAG 2.0 nivå AA Funka Nu AB Döbelnsgatan 21, 111 40 Stockholm 08-555 770 60 kontakt@funkanu.se Fakta om rapporten Beställare: Utförd av: Vår referens:

Läs mer

Institutionen för datavetenskap Department of Computer and Information Science

Institutionen för datavetenskap Department of Computer and Information Science Institutionen för datavetenskap Department of Computer and Information Science Examensarbete Mobilen först Framställning av en design för Östgötatrafikens mobila hemsida med fokus på användarna av Anna

Läs mer

Designerrollen i en webbdesignprocess

Designerrollen i en webbdesignprocess Designerrollen i en webbdesignprocess Erik Hjelm Minica Kraft Andreas Nilsson Institutionen för informatik Digital medieproduktion Examensarbete på kandidatnivå, 15 hp SPB 2014.22 Abstract This study investigates

Läs mer

EXAMENSARBETE. Utveckling av mobilapplikation. Med återanvändning av programkod. Patric Sjöö 2015. Filosofie kandidatexamen Systemvetenskap

EXAMENSARBETE. Utveckling av mobilapplikation. Med återanvändning av programkod. Patric Sjöö 2015. Filosofie kandidatexamen Systemvetenskap EXAMENSARBETE Utveckling av mobilapplikation Med återanvändning av programkod Patric Sjöö 2015 Filosofie kandidatexamen Systemvetenskap Luleå tekniska universitet Institutionen för system- och rymdteknik

Läs mer

Konferenspapper: Solidarisk E-publicering

Konferenspapper: Solidarisk E-publicering Konferenspapper: Solidarisk E-publicering Denna konferens arrangerades av Världsbiblioteket som ett led i dess arbete för en mer öppen och solidarisk syn på elektronisk och digital publicering. Föreläsningarna

Läs mer

Lära ut matematik med hjälp av laborativ problemlösning

Lära ut matematik med hjälp av laborativ problemlösning Lära ut matematik med hjälp av laborativ problemlösning En fallstudie av hur en lärare arbetar med mattegömmor i årskurs 3. Therese Fredriksson Institutionen för matematikämnets och naturvetenskapsämnenas

Läs mer

Framgångsfaktorer för lyckad e-handel

Framgångsfaktorer för lyckad e-handel Kandidatuppsats, 15 högskolepoäng, INFK01 i informatik Framlagd: Juni 2009 Författare: Henrik Johnsson Erik Nilsson Handledare: Lars Fernebro Examinatorer: Agneta Olerup, Anders Svensson Abstrakt Titel:

Läs mer

Manual. WebPublish Version 4.1. Artologik. Artisan Global Software

Manual. WebPublish Version 4.1. Artologik. Artisan Global Software Projekthantering Tidsredovisning Enkäthantering E-posthantering HelpDesk Publiceringsverktyg Bokningssystem Manual Artologik WebPublish Version 4.1 Artisan Global Software Manual Artologik WebPublish Med

Läs mer

LAGRAD PROCEDUR MOT DATABASAPPLIKATION EFFEKTIVITET OCH FUNKTIONALITET

LAGRAD PROCEDUR MOT DATABASAPPLIKATION EFFEKTIVITET OCH FUNKTIONALITET LAGRAD PROCEDUR MOT DATABASAPPLIKATION EFFEKTIVITET OCH FUNKTIONALITET Examensarbete Systemarkitekturutbildningen Andreas Boldizar Tobias Johansson VT 2012:KSAI03 Systemarkitekturutbildningen är en kandidatutbildning

Läs mer

Fallstudie av designuppdrag för bridgeförbundshemsida

Fallstudie av designuppdrag för bridgeförbundshemsida Fallstudie av designuppdrag för bridgeförbundshemsida En studie i hur man kan hantera ett designuppdrag åt en förening med många olika användare. William Hernebrink Linköpings Universitet Vårterminen 2013

Läs mer

Web services En integration av CRM och kundzon

Web services En integration av CRM och kundzon Beteckning: Akademin för teknik och miljö Web services En integration av CRM och kundzon Tobias Leetmaa Maj 2010 Examensarbete, 15 högskolepoäng, B Datavetenskap Ingenjör Online Examinator: Jonas Boustedt

Läs mer

SuperBooky. - modernt webbaserat bokföringsprogram för småföretag

SuperBooky. - modernt webbaserat bokföringsprogram för småföretag SuperBooky - modernt webbaserat bokföringsprogram för småföretag Kandidatarbete inom Data- och Informationsteknik DŽENAN BAŽDAREVIĆ DANIEL CHINIQUY ENGSTRÖM ISABELLE FRÖLICH JAKOB CSÖRGEI GUSTAVSSON ALEXANDRA

Läs mer

Mamut Academy Grundkurs Hemsida och E-handel

Mamut Academy Grundkurs Hemsida och E-handel Grundkurs Hemsida och E-handel Mamut Academy 2002 Mamut AB. Alla rättigheter förbehålles. Mamut AB och Mamut Business Software är registrerade varumärken för Mamut ASA. Manualen är producerad vid MamutPress

Läs mer