Dags för en ny söktjänst på KTH
Agenda 1. Varför ett nytt sökprojekt? 2. Krav 3. Urvalsprocess 4. Frågebatteri 5. Lite teknik 6. Demo
GSA
GSS
Krav och behov 1. Tjänsten ska kunna driftas i molnet och lokalt 2. Tjänsten ska kunna användas till att söka i inloggningsskyddat material 3. Tjänsten ska ha ett väldefinierat sök-api så att KTH kan bygga ett eget användargränssnitt 4. Tjänsten ska hantera relevans 5. Tjänsten ska klara svensk och engelsk stemming 6. Tjänsten ska hantera stoppord, synonymer och nyckelord 7. Tjänsten ska kunna crawla innehåll och samla in metadata i samband med det 8. Tjänsten ska ha stöd för facettering 9. Tjänsten ska ha stöd för autocomplete kategoriserat på valfria kategorier 10. Tjänsten ska hantera indexering av dokument 11. Tjänsten ska hantera duplicerat innehåll (samma sidor som nås på skilda adresser) 12. Tjänsten ska ha ett konfigurerbart regelverk för hur index kan avgränsas (kollektioner) 13. Tjänsten ska hantera uteslutande av specifikt innehåll i indexerade dokument
Tjänster på marknaden Algolia Lucidworks ViaSearch/ViaSuggest (VirtualWorks) Google.com Cludo Bing Search API i3 (Findwise) * Google Site Search (GSS) Google Custom Search (CSE) Swiftype Mindbreeze * Google Search Appliance (GSA) * användes som referens
Urvalsprocess i 7 steg 1. Ingen reklam 2. Inga utgående produkter 3. Ingen hårdvara 4. Egen design och bestämmanderätt 5. Crawler skall ingå 6. Respons/intresse från leverantör 7. Inte bygga från scratch
Frågeunderlag efter urval - allmänt Går den att köra i molnet och lokalt? Vilket programmeringsspråk är produkten byggd på? Hur ser licensmodellen ut? Vad är den årlig licensavgiften? Uppstartskostnad - Uppskattad kostnad att få upp tjänsten och få in data för att börja arbeta Konsultuppdrag - Kostnad per timme Uppskattad kostnad på x år (Årlig licenskostnad * X + uppstartskostnad)
Frågeunderlag efter urval Crawler Enkel att komma igång med? Håller den sig inom vald domän? Tas metadata med? Hanteras dokument? Kan crawlfrekvens konfigureras? Push / Feeds Kan man pusha innehåll till tjänsten? Kan man ta bort innehåll via push? Autocomplete Finns det en sk. autocomplete-funktion? Är den enkel att sätta upp? När tas innehåll bort ur index?
Frågeunderlag efter urval Search API Finns det ett API att ställa sökfrågor till? Finns det dokumentation för detta som vi kan titta på? Frontend Facetter Finns det en funktion för facetter? Kan man facettera på dokument? Kan man utvinna facetter via crawling? Kan vi bygga en egen frontend-applikation med egen design?
Frågeunderlag efter urval Språkstöd Innehåller tjänsten svensk stemming? Kan tjänsten föreslå rättstavningar? Har tjänsten stöd för fonetisk sökning? Hur hanteras regelrätta sökfrågor som innehåller många ord? Ranking / Relevans Går den att testa vid produktdemo? Kan vi påverka ranking m.h.a. feedback till söktjänsten? Kan man bygga in personlig relevans? Har tjänsten stöd för nyckelord, stoppord och synonymer?
Frågeunderlag efter urval Referenser Vilka referenser finns? Vad säger dessa? a. Fråga leverantören b. Fråga referensen c. Jämför a & b Vad säger andra befintliga kunder om respektive tjänst/leverantör?
Tjänster på marknaden Algolia Lucidworks ViaSearch/ViaSuggest (VirtualWorks) Google.com Cludo Bing Search API i3 (Findwise) * Google Site Search (GSS) Google Custom Search (CSE) Swiftype Mindbreeze * Google Search Appliance (GSA) * användes som referens
Hur får vi in data? KTH-system export report CMS LMS POST DELETE (PUT) (GET) Innehåll eller URL REST API SQL Connector ViaSuggest ViaSearch Sökindex Connector Index... Crawler Index Crawling
Hur får ut in data? Export Report Förslagfråga ViaSuggest KTH Sök Förslagsresultat Auto-complete -resultat Connector Index Sökresultat Sökresultat Sökfråga ViaSearch Sökfråga Auto-complete -fråga Crawler Index Sökindex
DEMO Vad vore en presentation av ett system utan en demo?
Bilder Photo by Nelson Santos Jr on Unsplash Photo by Gabriel Garcia Marengo on Unsplash http://knowyourmeme.com/photos/971132-smug-frog Photo by Joshua Smith on Unsplash http://www.clipartpanda.com/clipart_images/spider-man-clipart-5472906 https://pixabay.com/en/check-mark-tick-mark-check-correct-1292787/