Automatisk nyckelfrasextraktion ur html-sidor

Transkript

1 Automatisk nyckelfrasextraktion ur html-sidor DANIEL WENNLUND Examensarbete Stockholm, Sverige 2005 TRITA-NA-E05083

2 Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science Stockholm Royal Institute of Technology SE Stockholm, Sweden Automatisk nyckelfrasextraktion ur html-sidor DANIEL WENNLUND TRITA-NA-E05083 Examensarbete i datalogi om 20 poäng vid Programmet för datateknik, Kungliga Tekniska Högskolan år 2005 Handledare på Nada var Jonas Sjöbergh Examinator var Stefan Arnborg

3 Automatisk nyckelfrasextraktion ur html-sidor Sammanfattning Denna rapport beskriver mitt examensarbete utfört vid Jajja Communications AB och KTH Nada. Arbetet gick ut på att automatiskt extrahera nyckelfraser från html-dokument. De i forskningen vanligaste metoderna för att extrahera nyckelfraser implementerades och undersöktes. Dessutom togs en metod baserad på html-taggar och en metod baserad på lingvistik fram. Metoderna utvärderades och en ny metod togs fram utifrån resultatet från dessa utvärderingar. Denna nya metod jämfördes i en mänskligutvärderingmed två andra system för automatisk nyckelfrasextraktion, KEA och en modifierad version av KEA. Mitt system extraherade fler bra fraser än de båda andra systemen men också väldigt många dåliga fraser. För att få ner antalet dåliga fraser som systemet extraherade borde hemspindlingen av html-sidor och parsningen av texten från sidorna förbättras. Metoderna som byggde på htmltaggar och lingvistik extraherade för många fraser. Förslag på hur dessa skulle kunna förfinas togs fram. Automatic keyphrase extraction from html pages Abstract This master s thesis is a part of my master s project conducted at Jajja Communications AB and KTH Nada. The main focus of the thesis has been on automatic keyphrase extraction from web pages. I have implemented and evaluated the most common methods in research today for automatic keyphrase extraction. Moreover I also developed two new methods for keyphrase extraction, one method based on html tags and one method based on linguistics. I have also constructed a new method based on the evaluation of the other methods. This method was compared to two other systems for automatic keyphrase extraction, KEA and a modified version of KEA. My system extracted more good phrases than both the other systems, but it also extracted many bad phrases. To reduce the number of bad phrases that are beingextracted more focus has to be given to retrieveingand parsingthe web pages. The two methods based on html tags and linguistics extracted too many phrases and ideas on how to redesign them were given.

4 Förord Detta examensarbete har utförts på Jajja Communications AB och på institutionen för numerisk analys och datalogi, Nada, på Kungliga Tekniska Högskolan. Jag vill tacka min handledare Jonas Sjöbergh på Nada för hans snabba svar på frågor och engagemang i detta examensarbete. Jag vill även passa på att tacka Martin Blombergför intressanta och givande diskussioner och bollande av idéer. Tack också till uppdragsgivaren Jajja Communications AB och min handledare där, Mikael Krantz. Daniel Wennlund Stockholm, Mars 2005

5 Innehåll 1 Inledning Uppdragsgivare Bakgrund Syfte Problembeskrivning Avgränsningarochmål Metod Dispositionavrapporten Teori Kandidatfrasutplockning Statistiskmetod Lingvistiskametoder Ordstamsuppdelning Ordklasstaggning Regelbaseradordklasstaggare Stokastiskordklasstaggare Stoppord Uppdelningavord Urvalavnyckelfraser Självlärande system GenEx KEA Hulth LatentSemanticAnalysis,LSA Resultatmätning Nyckelfrasextraktion Genomförande Urvalochnedspindlingavhemsidor Parsningavhtml-sidor Analysavnyckelfraserochsökfraser AnalysavJajjasnyckelfraser Analysavreferrerloggar... 15

6 3.4 Identifieringavkandidatfraser Ordstamsuppdelning Ordklasstaggning Stoppordlista Splittringav sammansatta ord Urvalavnyckelfraser Termfrekvensen Inversadokumentfrekvensen Positionitexten Metodbaseradpåhtml-taggar Lingvistiskmetod Kombinationsmetod Denbästametoden Textlängd Statistik över html- och ling vistiska metoden Överlappmellandeolikametoderna Framtagning avdenbästametoden Nyckelfraser för en hel webbplats KEA och Martin Blombergs modifierade versionavkea Överlapp mellan Jajjas fraser och fraserna från referrerloggarna Utvärderingavresultat Jajjasnyckelfraser Referrerloggar Utvärderingmedmänniskor Resultat Jajjas fraser med på webbplats TestmängdmedJajjasfraser Testmängdutifråntextlängd Webbplatser med referrerloggar Mänskligutvärdering Muntlig frågestund efter utvärdering Slutsatser Metodbaseradpåhtml-taggar Metodbaseradpålingvistik Metodbaseradpåpositionitexten Ordlängd på de webbplatser med flest antal brafraser Utvärderingsmetoder Allmänt Mänskliga utvärderingen... 41

7 5.8 Vikterförolikaordklasstaggar Framtida förbättringar Identifieringavkandidatfraser Stoppordlista Idf-mapp Ordstamsuppdelare Nedspindlingavhemsidor Parsningavtext LSA,LSI Sammanställningav nyckelfraser för en hel webbplats Poängsättning avfraser Utökningavlingvistiskmetod Splittringav ord Referenser 47 A Manual för utvärdering 49

8 Kapitel 1 Inledning Denna exjobbsrapport är skriven för att redovisa mitt examensarbete vid institutionen för numerisk analys och datalogi, Nada, vid Kungliga Tekniska Högskolan, KTH, i Stockholm. Examensarbetet utfördes på Jajja Communications under perioden september 2004 till mars Handledare på Jajja Communcations var Mikael Krantz. Handledare på Nada var Jonas Sjöbergh och examinator på Nada var Stefan Arnborg. 1.1 Uppdragsgivare Jajja Communications är ett marknadsföringsföretag som grundades år Jajja Communications är en av Nordens ledande leverantörer av trafik från sökmotorer. De är specialister på sökmotorpositioneringoch webbaserade verktygför marknadsföringoch försäljningsmarknadsföringpå Internet. 1.2 Bakgrund För företag idag är det väldigt viktigt att komma högt upp i olika sökmotorers träfflistor när personer söker på för företaget viktiga nyckelord eller nyckelfraser. Genom att vara högt upp i träfflistorna får företagen fler besökare till sin hemsida och genom det också förhoppningsvis fler kunder. Jajja Communications tillhandahåller olika tjänster för att se till att företagen hamnar högre upp i träfflistorna och dessutom att det ökade antalet besökare förvandlas till kunder. När en kund kommer till Jajja Communications idagoch vill köpa denna tjänst går personer på Jajja Communications manuellt igenom kundens hemsida för att välja ut nyckelord eller nyckelfraser som är viktiga för just den kunden. Detta arbete är tidsödande, enformigt och vinstmarginalerna är små eftersom flertalet av Jajja Communications kunder är små företagsom inte betalar så mycket för tjänsterna. Jajja Communications vill därför i framtiden automatisera så mycket som möjligt när det gäller nyckelfrasextraktionen från hemsidorna. Alla förbättringar som underlättar detta arbete är av intresse för Jajja Communications. 1

9 1.3 Syfte Syftet med detta examensarbete var att utreda vilka heuristiker, egenskaper hos texterna på html-sidorna och metoder som är bra att använda sigav för att kunna automatisera nyckelfrasextraktionen från dessa. Arbetet syftade också till att utreda vilka metoder och heuristiker som är mindre lämpliga att använda sig av. 1.4 Problembeskrivning Texten på html-sidor är ofta kortare än de texter som används vid forskninginom nyckelfrasextraktion. Samtidigt innehåller texten mer information än vanliga texter tack vare metadatan i de olika html-taggarna. Uppgiften i detta exjobb har varit att undersöka hur pass bra de i forskningen vanligaste metoderna för att extrahera nyckelfraser ur texter fungerar på html-sidor. Den har också varit att undersöka om det går att använda sig av metadatan i html-taggarna vid nyckelfrasextraktion. I uppgiften ingick det också att undersöka möjligheten att använda sig av lingvistiska metoder för att konstruera en heuristik för att extrahera nyckelfraser. Ett problem vid nyckelfrasextraktion är att det är svårt att veta hur resultatet ska utvärderas. De metoder som används inom forskningen idag bygger på att det till varje text finns ett antal fraser som anses vara korrekta och som resultatet jämförs mot. Det går att diskutera hur pass objektivt det är att utvärdera resultatet på detta sätt eftersom dessa korrekta fraser valts ut på något sätt. En av uppgifterna i detta exjobb har varit att undersöka alternativa utvärderingssätt. 1.5 Avgränsningar och mål Fokus i detta examensarbete har varit att utreda vilka heuristiker, egenskaper hos texterna och vilka metoder som är lämpliga att använda sig av för att automatisera nyckelfrasextraktionen på Jajja Communications. Det ingick inte i arbetet att implementera ett färdigt system som klarar av att automatiskt extrahera nyckelfraser ur texter. Jajja Communications är i princip intresserade av alla lösningar som underlättar deras arbete idag. Målet var därför att satsa på att få hög täckning på de fraser som plockas ut. Tanken var att programmet skulle extrahera många olika fraser som sedan tittas igenom manuellt och rensas bland. 1.6 Metod Uppgiften löstes genom att först implementera de i forskningen vanligaste metoderna för att extrahera nyckelfraser ur texter. Två andra metoder baserade på html-taggar och ordklasstaggmönster togs också fram. Alla metoder utvärderades sedan genom 2

10 körningar mot en testmängd med webbplatser. Dessa webbplatser hade nyckelfraser tilldelade av Jajja som resultatet jämfördes mot. Resultatet utvärderades och en bästa metod togs fram utifrån statistiken från resultatet. Denna metod jämfördes sedan med två andra system för nyckelfrasextraktion. Jämförelsen av systemen gjordes genom en mänsklig utvärdering av fraserna som de olika systemen extraherade. 1.7 Disposition av rapporten För att läsaren lättare ska kunna orientera sigi rapporten följer här en kort beskrivning av rapportens struktur och upplägg. I kapitel 2 beskrivs generella metoder och algoritmer som används inom språkteknologi. Här presenteras också tre olika självlärande system som konstruerats för automatisk nyckelfrasextraktion. I efterföljande kapitel beskrivs vilka metoder som har använts i detta arbete och hur utvärderingen av resultatet har gått till. I kapitel 4 presenteras resultatet från utvärderingarna. Kapitel 5 handlar om de slutsatser jaghar kommit fram till i detta arbete. Rapporten avslutas sedan med ett kapitel om möjliga förbättringar. 3

11 Kapitel 2 Teori För att kunna använda sigav olika heuristiker och kunna utnyttja egenskaper hos texten som det ska extraheras nyckelfraser ur krävs det i många fall att texten bearbetas med olika språkverktyg. Genom att bearbeta texten görs texten också mer lättbehandlad och bättre resultat uppnås ofta. Detta kapitel beskriver generella metoder och hur olika språkverktygfungerar som används vid nyckelfrasextraktion. I detta kapitel beskrivs också det självlärande system som använts i jämförelsen med mitt program. 2.1 Kandidatfrasutplockning När nyckelfraser ska extraheras ur texter gäller det först att ta fram alla lämpliga nyckelfraskandidater. Det finns olika metoder för att göra den identifieringen. Här nedan följer en beskrivningav tre olika metoder, en statistisk metod som kallas för n-gram metoden och två lingvistiska metoder Statistisk metod I n-gram-metoden plockas alla n-gram i texten ut. Om n exempelvis är satt till tre plockas alla uni-, bi- och trigram ut ur texten som undersöks. Alla fraser som består av ett, två eller tre ord plockas alltså ut. Fraserna kan inte sträcka sigöver meningsavskiljare. Efter att dessa kandidatfraser har plockats ut rensas det bort fraser som inte är lämpliga som kandidatfraser. Ofta filtreras fraser som börjar eller slutar på stoppord bort. Stoppord är ord som förekommer frekvent i texter och som inte kan användas för att särskilja texter åt. Orden i fraserna ordstamsuppdelas ofta och bokstäverna i orden görs om till små bokstäver. N-gram-metoden ger bra täckning men dålig precision. N-gram-metoden tar alltså fram många kandidatfraser och på så sätt täcks de flesta lämpliga nyckelfraserna in (Hulth 2004; Frank et al. 1999B). 4

12 2.1.2 Lingvistiska metoder Det går också att använda sig av lingvistiska metoder för att identifiera nyckelfraskandidater. Två sådana metoder är NP-chunk-metoden och en metod som baseras på ordklasstaggmönster eller ordklasstaggsekvenser. NP-chunk-metoden går ut på att nominalfraser plockas ut ur texten. En nominalfras är en fras där ett substantiv eller ett pronomen är huvudord i frasen. Ett exempel på en nominalfras är Katten som sitter i trädet. I metoden som bygger på ordklasstaggmönster förutsätts det att det finns en träningsmängd som det redan extraherats bra nyckelfraser från. De vanligaste förekommande ordklasstaggmönstren som dessa nyckelfraser är uppbyggda av analyseras. Ordklasstaggmönsterna används sedan för att identifiera nyckelfraskandidaterna. Dessa lingvistiska metoder för att identifiera kandidatfraser plockar ut färre kandidatfraser än vad n-gram-metoden gör. Enligt Hulth missar dock NPchunk metoden fler av de manuellt tilldelade nyckelfraserna än vad n-gram-metoden gör. Metoden som använder sig av ordklasstaggmönster ger färre kandidater och hittar fler av de manuellt tilldelade nyckelfraserna än vad n-gram-metoden gör (Hulth 2004). 2.2 Ordstamsuppdelning För att lättare kunna analysera texter används ofta verktygsom identifierar från vilken ordstam ett visst ord härstammar. Anledningen till att ord ersätts med dess ordstam är att annars skulle exempelvis pluralformen av ett ord behandlas som ett annat ord än singularformen av samma ord. Orden boll, bollar, bollen och bollarna ska alla behandlas som samma ord, boll. På detta sätt minskas antalet specifika ord i en text. I Porter (1980) skriver författaren hur han genom att ordstamsuppdela orden i en engelsk text minskade antalet specifika ord från till De flesta ordstamsuppdelarna för engelska som används är baserade på Porters algoritm eller Lovins algoritm. Porters algoritm är uppbygd kring en mängd regler om hur ändelser på ord ska tas bort eller ändras för att få fram ordstammen av ordet. Reglerna är uppdelade i flera delmängder och tillämpas i en uttänkt ordning så att ändelserna till slut stämmer överens med de rätta ordstammarna till orden. Ordet generalization går till exempel igenom följande förändring genom algoritmen: generalization generalize general gener Porters algoritm klarar inte av att ordstamsuppdela en text så att ordstammarna stämmer till 100%. Den ger dock tillräckligt bra resultat för att den ska vara användbar. De olika reglerna i Porters algoritm är starkt beroende av varandra. Genom att lägga till fler regler försämras ofta precisionen för algoritmen totalt även om precisionen ökar för just den ordgruppen som de nytillagda reglerna behandlar (Porter 1980). 5

13 Lovins algoritm bygger på regler, ordändelser och transformationer. Algoritmen är större än Porters algoritm men är ändå snabbare tidsmässigt. Anledningen till det är att Lovins algoritm kräver två iterationer medan Porters kräver åtta iterationer innan ordet är helt ordstamsuppdelat. I första iterationen i Lovins algoritm tas den längsta ordändelsen bort utifrån en mängd olika villkor. I nästa steg tillämpas olika transformationsregler som ändrar på ändelsen. Alla villkor, transformationer och ändelser finns på hemsidan för språkprojektet Snowball (Porter 2004 A). Det går också att använda sig av en ordlista där varje ord slås upp för att få reda på dess ordstam. Denna ordlista kan konstrueras med hjälp av ovanstående algoritmer. 2.3 Ordklasstaggning Ordklasstaggning innebär att den ordklass ett ord tillhör ska identifieras. Det finns en mängd olika standarder för hur ordklasstaggarna ska se ut och hur många olika taggar som ska användas. Beroende på hur avancerat taggsetet är kan olika detaljerad information om orden och relationerna mellan orden i en text erhållas. När en text ska ordklasstaggas uppstår ofta problem med att ordet som ska ordklasstaggas är mångtydigt. Ett exempel på ett sådant ord är ordet såg som både kan vara ett verb och ett substantiv. Det är sådana mångtydiga ord som en bra ordklasstaggare måste klara av att hantera. En ordklasstaggare kan konstrueras på en hel del olika sätt. En del modeller kräver att det finns en träningsmängd med texter som redan är korrekt taggade. Exempel på olika modeller för ordklasstaggning är regelbaserad och stokastisk. Modellerna beskrivs nedan Regelbaserad ordklasstaggare I en regelbaserad ordklasstaggare finns en mängd regler för hur mångtydiga ord ska taggas. Reglerna kan baseras på kontextuell information, hur orden runtomkring det aktuella ordet är taggat. Ett exempel på en sådan regel kan vara att om det mångtydiga ordet som ska taggas föregås av ett substantiv och ett verb ska ordet taggas som ett substantiv. Reglerna kan också baseras på ordets morfologi, hur ordet är uppbyggt, dess böjningsmönster och dess grammatiska egenskaper. Ett exempel på en möjlig regel är om ordet som ska taggas i en text på engelska har ändelsen -ing ska det taggas som ett verb Stokastisk ordklasstaggare Stokastiska ordklasstaggare använder sig av statistik när de ska ordklasstagga ord. Det enklaste sättet att konstruera en stokastisk ordklasstaggare är att tagga ordet med den vanligaste förekommande taggen för just det ordet i träningsmängden. För 6

14 att få fram statistik görs en enkel frekvensanalys över hur just det ordet är taggat i träningsmängden. Denna modell kan byggas ut så att taggaren istället tittar på en sekvens av ord och dessas taggar. Då tittar taggaren på sannolikheten att sekvensen är taggad på ett visst sätt och försöker maximera sannolikheten för att få en så bra taggning som möjligt. Den vanligaste algoritmen som används när det gäller denna metod är Viterbis algoritm som bygger på dynamisk programmering (van Guilder 1995). För att konstruera en stokastisk ordklasstaggare används ofta Hidden Markov Model, HMM. Denna modell bygger på två antaganden, dels att ordet som ska taggas enbart beror på sin tagg och alltså är okorrelerad med alla andra ord och deras ordklasstaggar och dels att taggen enbart beror på de N stycken föregående taggarna. Dessa två antaganden gör att problemet med att tagga en text kan ställas upp som en produkt av sannolikheter som sedan ska maximeras (van Guilder 1995; Carlberger, Kann 1999). 2.4 Stoppord Ett stoppord är ett ord som är vanligt förekommande i texter och som inte kan användas för att särskilja texter från varandra. De ger därför heller inte tillräckligt med information för att på ett bra sätt kunna användas som en nyckelfras för att sammanfatta en text. Stoppord är ofta prepositioner, konjunktioner, interjektioner och siffror (Dalianis 2003). Exempel på stoppord är: och, eller, men, att, inte, en, han, hon o.s.v. En vanligsvensk text består av ungefär 43 % stoppord, 25 % substantiv, 17 % verb och 15 % adverb och adjektiv (Dalianis 2002). I engelskan är stoppord ännu vanligare och står för ca 50 % av alla ord i en genomsnittlig text (Corne, Sinka 2003). Ett enkelt sätt att ta fram en stoppordlista är att använda sigav termviktningsmodellen och dess mått tf och idf. Tf är ett mått på hur många gånger en term eller ett ord förekommer i ett dokument och står för termfrekvens. Idf är den inverterade dokumentfrekvensen. Den räknas ut genom att först räkna ut di, som är hur många dokument totalt i dokumentsamlingen som ordet förekommer minst en gång i. Sedan delas antalet dokument totalt med di för att få fram idf. tf = idf = Antalet förekomster av ordet i dokumentet Antalet ord totalt i dokumentet Antalet dokument totalt Antalet dokument ordet förekommer i Om värdet på idf för ett ord är högt innebär det att ordet är ovanligt i just den dokumentsamlingen. Genom att multiplicera tf och idf med varandra erhålls ett bra 7

15 mått på ordets signifikans eller betydelse. Stopporden kommer alltså att få låga värden på tf*idf och kan på så sätt identifieras. Egentligen räcker det med att använda sigav värdet på idf för att kunna identifiera stopporden. Ord som finns med i många dokument och därmed har ett lågt värde på idf är med stor sannolikhet stoppord. För att inte dokumentets längd ska ha för stor betydelse för tf*idf-värdet normeras ofta värdet på tf*idf mot dokumentets längd. I Dalianis (2002) beskriver författaren hur detta görs genom att dividera tf*idf med roten ur tf. I Hulth (2004) beräknas värdet på idf lite annorlunda, där tas istället logaritmen av idf. Det finns situationer när det inte går att använda sig av tf*idf för att hitta stoppord. Om dokumentsamlingen består av få dokument som dessutom är väldigt långa kommer tf väga väldigt tungt. Risken är då att tf*idf-värdena för stopporden blir höga. Ord som är viktiga riskeras att plockas bort om de ord med lågt värde på tf*idf tas bort. 2.5 Uppdelning av ord Svenskan skiljer sig från många andra naturliga språk i det avseendet att svenskan innehåller väldigt många sammansatta ord. I många andra språk skrivs inte orden ihop utan dessa är särskrivna eller med ett bindestreck emellan. Om texterna som nyckelfraserna ska extraheras från är förhållandevis korta och innehåller lite information kan det vara ett bra grepp att slå isär sammansatta ord för att på så sätt få ut mer information från texten. Exempel på en situation där det är lämpligt att slå isär sammansatta ord är en text som handlar om bilmotorer, mopedmotorer, gräsklipparmotorer och andra motorer. De enskilda orden ger då inte så mycket information om vad texten handlar om, men slås orden isär märks det att ordet motorer verkar relevant eftersom det förekommer frekvent i texten. Det vanligaste sättet att slå isär sammansatta ord är att använda sig av en ordlista och slå upp i den vilka olika delar det sammansatta ordet består av. Ofta kan sammansatta ord slås isär på flera olika sätt. Det finns olika metoder för att hantera denna mångtydighet och för att splittra ordet på ett korrekt sätt. En variant är att försöka slå isär ordet på så sätt att antalet delar blir så få som möjligt. Om det blir lika mellan två olika tolkningar väljs den tolkning som innebär att slutdelen blir så långsom möjligt. Det går också att använda sig av information om orden och texten runtomkring det sammansatta ordet och basera splittringen av ordet på de olika orddelarnas förekomst i denna text. Ju närmare en orddel befinner sigdet sammansatta ordet desto högre viktning får det. Sedan väljs den splittring av ordet som ger högst sammanlagd poäng för de olika orddelarna. 8

16 En metod som bygger på statistik är att titta på frekvensen för olika startoch slutdelar av ordet. Metoden använder sigav en korpus där statistik för olika startoch slutdelar i sammansatta ord först sammanställs. En korpus är en textmassa som kan användas vid språkstudier. Den uppdelningen som väljs är den med de vanligaste startoch slutdelarna enligt statistiken från korpusen. Det finns en speciell egenskap hos sammansatta ord som det också går att använda sigav. Ordklassen som ett sammansatt ord i det svenska språket tillhör bestäms av dess slutdel. Metoden går ut på att låta en ordklasstaggare bestämma vilken ordklass det sammansatta ordet tillhör genom att titta på orden runtomkring utan att lämna ut information om det sammansatta ordet. Sedan väljs den splittringav ordet som ger rätt ordklasstagg på den sista av orddelarna. Ordklasstaggaren kan också användas på ett annat sätt. Splittring av ordet kan baseras på sannolikheten för vilka ordklasser som de olika delarna i ordet hör till. Detta görs genom att ordklasstagga startoch slutdelen av ordet och beräkna sannolikheten för att ett sammansatt ord är konstruerat på detta sätt. Det krävs då att det finns statistik över hur sammansatta ord är uppbyggda när det gäller orddelarna och ordklasserna dessa tillhör. Det går också att titta på olika bokstavskombinationer på gränsen mellan startoch slutdelen i det sammansatta ordet. Vissa bokstavskombinationer som förekommer i sammansatta ord förekommer aldrig i vanliga ord, andra är väldigt ovanliga men förekommer ofta i sammansatta ord. Genom att ta fram statistik för bokstavskombinationer i sammansatta ord kan orden slås isär på det stället där det är mest sannolikt att splittringen ska ske enligt statistiken. Denna metod bygger på att det finns en ordlista med sammansatta ord (Sjöbergh, Kann 2004). 2.6 Urval av nyckelfraser För att göra urvalet av lämpliga nyckelfraser från sina nyckelfraskandidater kan många olika metoder användas. Ett vanligt urvalssätt är att använda sig av tf*idf, termfrekvens och inverterad dokumentfrekvens, och position i texten för en viss fras (Hulth 2004; Frank et al. 1999A; Turney 1999; Turney 2000). Det går också att använda sig av egenskaper i texten som bygger på hur författare till artiklar väljer att framhäva viktiga fraser eller ord i sina artiklar. Genom att titta på exempelvis akronymer, rubriker för stycken, listor, diagram-, tabell- och figurtitlar kan bra nyckelfraser väljas ut (Krulwich 1995). På html-sidor kodas alla dessa olika exempel med hjälp av html-taggar. Detta gör det lätt att identifiera dessa specifika ord och fraser. Metoder som väljer att titta på html-taggar kan motiveras ytterliggare genom att se hur sökmotorer på Internet indexerar sidor. Exempelvis 9

17 Google ger högre poäng till ord som är fetstilta eller kursiva när den indexerar sidor, gör dem sökbara via deras sökmotor (Brin, Page 1998). 2.7 Självlärande system Mycket forskninghar gjorts inom området automatisk nyckelfrasutplockningur texter. Det finns många exempel på program för automatisk nyckelfrasutplockning som använder sigav självlärande system. Exempel på sådana system är de tre nedanstående GenEx GenEx är ett system som utvecklats av Peter Turney vid National Research Council i Kanada. GenEx är ett självlärande system som består av två olika delar, Extractor plockar ut nyckelfraser ur dokument och Genitor är en genetisk algoritm som används för att träna och ställa in Extractor. Turney använder sigav 12 olika egenskaper hos texten, som han valt ut genom att testa 110 olika egenskaper hos texten, för att bedöma om en fras är en bra nyckelfras eller inte. Den genetiska algoritmen används bara under träningen och behövs inte efter att träningen är genomförd. Ordstamsuppdelningen i GenEx är väldigt aggressiv. Programmet tar som en parameter hur många bokstäver användaren vill ska vara med i ordstammen. Själva ordstamsuppdelningen går sedan till så att orden helt enkelt klipps av efter det antalet bokstäver. Denna typ av ordstamsuppdelningkallas trunkering(turney 1999) KEA I KEA som är skapat av Frank et al. (1999A) används naiv Bayesiansk klassificering för att extrahera nyckelfraser ur texter. Naiv Bayesiansk klassificering bygger på Bayes sats om betingad sannolikhet med det extra antagandet att de olika attributen i modellen är oberoende av varandra. Kandidatfraserna plockas ut genom att alla fraser bestående av ett, två eller tre ord identifieras. Kandidatfraserna minskas sedan genom att exempelvis alla fraser som börjar eller slutar på ett stoppord plockas bort. Två olika egenskaper räknas ut för kandidatfraserna, tf*idf och positionen för första förekomsten av frasen i texten. Dessa egenskaper används för att identifiera nyckelfraser. Systemet tränas utifrån en träningsmängd som består av texter med redan tilldelade nyckelfraser. För att kunna använda sigav KEA krävs det också att användaren har tillgång till en korpus för att kunna räkna ut statistik för fraserna Hulth I sin doktorsavhandlingbeskriver Hulth hur hon med hjälp av övervakad maskininlärningtränar ett system för att automatiskt plocka ut nyckelfraser ur texter. Hon använder sigav RDS, Rule Discovery System, och recursive partitioning, som är en slags divide and conquer-algoritm. Hulth använder sig av tre olika egenskaper för att 10

18 välja ut nyckelfraserna ur kandidatfraserna, termfrekvensen, den inversa dokumentfrekvensen och positionen för den första förekomsten av en fras i texten. De texter hon använder som träningsmängd och testmängd är abstracten från 2000 artiklar ur vetenskapliga tidskrifter från åren (Hulth 2004). 2.8 Latent Semantic Analysis, LSA I interaktionen mellan människa och dator uppstår det ofta problem. Informationssökning är inget undantag. Det är svårt för en dator att tolka de ord eller fraser som en människa söker på. Vi människor använder olika synonymer för att beskriva samma sak och ord kan dessutom vara mångtydiga. För att försöka förbättra resultatet av informationssökningen kan sökmotorerna konstrueras så att de automatiskt expanderar sökfrågor. De söker då även på fraser som är relaterade till den aktuella sökfrasen. En metod som då kan användas är Latent Semantic Analysis, LSA, eller Latent Sematic Indexing, LSI, som det kallas när LSA används för att automatiskt expandera sökfrågor. Genom att expandera sökfrågan automatiskt erhålls förhoppningsvis bättre täckning på resultatet av sökningen och träffarna har högre relevans. Tanken med att använda sigav LSA för en automatisk expansion av sökfrågorna är att texter eller dokument som även innehåller ord som är relaterade till orden i sökfrågan ska hittas. Det är ett försök till att förstå språkbeteendet hos oss människor. LSA bygger på att en term-kontext-matris skapas, där kontext ofta är ett dokument eller en text. I denna matris räknas ord som förekommer i samma kontext som relaterade och kontext som innehåller samma ord som relaterade. Denna matris innehåller kontextinformation men är väldigt gles. Därför dimensionsreduceras denna matris med hjälp av singulärvärdesfaktorisering, singular-value decomposition, SVD. På så sätt projiceras term-kontext-matrisen på ett underrum så att kvadratavståndet för vektorerna i ursprungsmatrisen minimeras. Ursprungsmatrisen kan sedan approximeras genom linjärkombination av vektorerna. Vid en sökfråga används sökfrasen för att identifiera en punkt i vektorrummet. Sedan undersöks vilka vektorer som ligger nära den punkten genom att beräkna cosinus eller skalärprodukten. Detta ger ett mått på hur pass relaterade vektorerna är och alltså vilka dokument som matchar sökfrågan. LSA kan användas till fler saker än för att automatiskt expandera sökfrågor till sökmotorer. Bland annat kan LSA användas för att hitta synonymer till ord, för att undersöka texters koherens, hur väl de hänger ihop, och för att underlätta inlärning av nya språk genom att automatiskt ge ordförslag (Dumais et al. 1988). 2.9 Resultatmätning För att kunna jämföra resultatet av olika försök används ofta måtten precision och täckning, precision och recall (Jurafsky et al. 2000). Precisionen definieras som an- 11

19 talet manuellt utplockade nyckelfraser som valts ut automatiskt delat med totala antalet automatiskt utplockade nyckelfraser. Detta är ett bra mått på träffsäkerheten hos ens algoritm. Precision = # automatiskt utplockade fraser bland de manuellt utplockade # automatiskt utplockade fraser Täckningdefinieras som antalet manuellt utplockade nyckelfraser som valts ut automatiskt delat med totala antalet manuellt utplockade nyckelfraser i dokumentet. Detta är ett bra mått på hur många av det totala antalet manuellt tilldelade nyckelfraser som hittats automatiskt. Täckning = #manuellt utplockade fraser bland de automatiskt utplockade # manuellt utplockade fraser Ovanstående mått bygger på att det finns en testmängd bestående av texter med korrekta nyckelfraser. Dessa mått kan kritiseras utifrån att det faktiskt är någon som har bestämt att vissa nyckelfraser är korrekta för en viss text. Vem det är som godkänt orden och hur de valts ut påverkar i allra högsta grad vilka nyckelfraser det är som bedöms som korrekta. Bedömningen blir subjektiv och måtten kanske inte är helt lyckade att använda sigav för att mäta resultatet av försöken Nyckelfrasextraktion Nästan all forskningnär det gäller automatisk nyckelfrasextraktion som skett hitintills är gjord på engelska texter. Väldigt lite av forskningen är gjord på svenska texter. Ofta kan dock samma metoder och principer användas när nyckelfraser ska extraheras ur svenska texter. Däremot består det svenska språket av många sammansatta ord vilket inte engelskan gör. Forskningen bedrivs också oftast på artiklar och forskningsrapporter eller sammanfattningar på sådana. Dessa texter är ofta betydligt längre än texterna som bearbetas i detta arbete. Det gäller därför att försöka extrahera så mycket information som möjligt från texterna på html-sidorna. 12

20 Kapitel 3 Genomförande Detta kapitel beskriver de metoder och språkverktygsom tillämpades i praktiken för att extrahera nyckelfraser från hemsidorna och för att utvärdera resultatet. 3.1 Urval och nedspindling av hemsidor För att ha webbplatser att köra och testa mot skapades det en testmängd bestående av 20 webbplatser och en träningsmängd bestående av 32 webbplatser. De webbplatser som finns med i testmängden är nya kunder till Jajja Communciations där kunderna ännu inte har hunnit göra de modifieringar av sidorna på webbplatsen som Jajja rekommenderat. Däremot har Jajja redan hunnit tilldela webbplatsen nyckelfraser som Jajja använder sigav när de optimerar webbplatsen för sökmotorerna. Anledningen till att testmängden består av nya kunders webbplatser är att ett av utvärderingssätten bygger på att resultatet utvärderas mot de nyckelfraser Jajja har tilldelat webbplatsen. Om kunden redan hunnit modifiera hemsidorna innebär det att detta utvärderingssätt blir missvisande. En av modifieringarna av webbplatsen som Jajja rekommenderar är nämligen att införa en title-tagg i alla dokument på webbplatsen. Title-taggen ska gärna innehålla ett visst antal av nyckelfraserna. Alla dokument på webbplatsen kommer alltså innehålla ett visst antal av nyckelfraserna som tilldelats. Genom att testköra programmet mot nya kunders webbplatser blir testningen mer realistisk. Det är mot nya kunder som Jajja har tänkt sig att använda sigav en vidareutvecklingav detta program i framtiden. Det skapades också en mängd av webbplatser där Jajja hade tillgång till webbplatsernas referrerloggar. Eftersom Jajja inte har tillgång till så många av sina kunders referrerloggar har urvalet av vilka webbplatser som användes inte kunnat slumpas fram. Alla de webbplatser där Jajja har tillgång till referrerloggarna har helt enkelt valts. Själva hemsidorna spindlades hem med hjälp av Unix-kommandot wget. För att inte få hem för många sidor från varje webbplats skickades olika flaggor med till 13

21 wget. Exempelvis spindlades bara de sidor hem som ligger på max djupet tre från index-sidan. Kommandot som användes och dess flaggor ser ut så här: wget header= Accept-Charset: iso header= Accept-Language: sv htmlextension recursive level=3 convert-links random-wait -R gif,gif,png,jpg,jpeg,js,css,swf,pdf,pdf,mp3,css,doc,tif,wmw,zip,exe Vad flaggorna betyder står i Nik(2001). Sidorna som spindlades hem kontrollerades sedan manuellt så att inget förutom html-sidor spindlades hem av misstag. Dessutom togs alla webbplatser som spindlats hem men som inte tillhörde test- eller träningsmängden bort. De sidor som spindlades hem genom att wget följde externa länkar rensades alltså bort. 3.2 Parsning av html-sidor För att läsa in texterna från alla hemspindlade sidor och för att formatera texten på ett bra sätt användes en färdightml-parser. Den går att få tagi på följande hemsida: Analys av nyckelfraser och sökfraser Under denna rubrik motiveras beslutet att enbart identifiera kandidatfraser som består av upp till tre ord. Dessutom motiveras användandet av en lingvistisk metod för att göra urvalet av lämpliga nyckelfraser Analys av Jajjas nyckelfraser De nyckelfraser som Jajja Communications har tilldelat de olika webbplatserna analyserades för att ta fram statistik över antalet ord i fraserna och fraserna uppbyggnad. Resultatet från detta redovisas i tabell 3.1. Antalet fraser total var 880 fördelat på 71 olika webbplatser. Genom att välja ut alla uni-, bi- och trigram borde alltså 99,6% av alla nyckelfraser komma med. N-gram Antal Procent Unigram: Bigram: Trigram: 44 5,0 Övriga: 4 0,45 Tabell 3.1. Statistik över antalet ord Jajjas tilldelade nyckelfraser består av. 14

22 Fraserna analyserades också med en ordklasstaggare för att analysera de vanligaste uppbyggnaderna av fraserna. Denna information användes sedan i en lingvistisk metod för att göra urvalet av nyckelfraser. Statistiken för detta presenteras i tabell 3.2. Ordklasstaggen nn innebär att ordet är ett substantiv, pm står för egennamn, jj för adjektiv och pp för preposition. PoS-tag-sekvens Antal Procent nn: pm: 71 8,1 jj nn: 41 4,7 nn nn: 26 3,0 nn pp nn: 21 2,4 nn pm: 11 1,3 Övriga: 69 7,8 Tabell 3.2. Nyckelfrasernas ordklasstaggar Analys av referrerloggar Analysen av referrerloggarna skedde med hjälp av ett verktyg som heter Webalizer. Detta verktyggår att hitta på: Verktyget analyserar referrerloggarna från webbservern och genererar html-sidor med statistik från loggarna. I referrerloggen loggas all statistik för trafiken till webbplatsen. I statistiken visas det bland annat om folk har kommit till sidan genom att söka på någon sökmotor. I konfigurationsfilen till Webalizer kan användaren ange från vilka sökmotorer programmet ska hämta sökfraser som folk har sökt på. Följande sökmotorer, vilka kan anses vara de största och vanligaste, angavs i konfigurationsfilen till programmet: yahoo.com, altavista.com, se.altavista.com, google.com, google.se, eureka.com, lycos.com, hotbot.com, msn.com, infoseek.com, webcrawler, excite, netscape.com, mamma.com, alltheweb.com, northernlight.com Från dessa html-sidor plockades sedan alla sökfraser som folk sökt på för att hamna på sidan ut. Antalet sökfraser som undersöktes totalt var Antalet webbplatser som referrerloggarna undersöktes på var sju. Den sammanlagda storleken på dessa referrerloggar var 0.98 GB. Sökfraserna taggades också med en ordklasstaggare för att få fram statistik för sökfrasernas ordklasstaggar. Ordklasstaggen nn står för substantiv, pm för egennamn, jj för adjektiv, vb för verb och mad för punkt. Statistiken i tabell 3.3 och 3.4 är inte helt tillförlitlig. Dels undersöktes bara referrerloggarna från de 7 olika webbplatser där Jajja hade tillgång till referrerloggarna 15

23 och dels redovisas bara de sökfraser som verkligen gav en träff på just denna webbplats hos någon sökmotor i referrerloggarna. Detta ger alltså ingen bra statistik för sökbeteendet hos folk i allmänhet. Antal ord i sökfrasen Antal Procent Ett: Två: Tre: 467 3,6 Fyra: 51 0,39 Fler än fyra: 7 0,054 Tabell 3.3. Antalet ord i sökfraserna från referrerloggarna. PoS-tag-sekvens Antal Procent nn: ,0 pm: ,5 nn nn: 875 6,73 pm nn: 337 2,59 jj nn: 319 2,45 pm pm: 268 2,06 nn mad vb: 224 1,72 pm pm pm: 196 1,51 Övriga: 585 4,50 Tabell 3.4. PoS-taggar för sökfraserna från referrerloggarna. 3.4 Identifiering av kandidatfraser Kandidatfraserna identifierades genom att använda n-gram-metoden. Först delades texten upp efter alla meningsavskiljare. Alla bokstäver gjordes om till små bokstäver och siffror som stod separat i texten togs bort. Sedan skapades kandidatfraserna genom att alla möjliga uni-, bi- och trigram bildades. De fraser som började eller slutade på ett stoppord togs bort. Fraserna ordstamsuppdelades sedan och samtidigt sparades ursprungsfraserna undan för att kunna användas vid presentationen av resultatet. 3.5 Ordstamsuppdelning För att ordstamsuppdela orden i texterna användes den ordstamsuppdelaren som finns på språkprojektet Snowballs hemsida. Den ordstamsuppdelaren är uppbyggd kring några få enkla regler för hur suffix på ord ska tas bort (Porter 2004B). 16

24 3.6 Ordklasstaggning För att ordklasstagga texter användes en taggare som ligger på servern skrutten.nada.kth.se. Taggaren som ligger på skrutten är den som används i programmet Granska, Nadas grammatikgranskningsprogram. Taggaren i Granska använder sig av Hidden Markov Model för att ordklasstagga texter. Programmet använder sig alltså av statistik för hur ordet kan taggas och dessutom sannolikheten att en sekvens av ord är taggade på ett visst sätt. Programmet kan också gissa okända ords ordklasstagg genom att titta på taggsekvensen runt ordet och kombinera detta med en morfologisk analys av ordet. I den morfologiska analysen undersöks ändelsen på ordet och jämförs med andra kända ords ändelser för att gissa en tagg till det okända ordet. Taggaren tittar också på om första bokstaven i ordet är en stor bokstav. I sådant fall är sannolikheten att ordet är ett egennamn högre. Dessutom försöker programmet slå isär okända ord för att se om ordet är sammansatt och om slutledet går att tagga för att på så sätt gissa taggen till hela ordet. För kända ord taggar ordklasstaggaren i Granska rätt i 98 % av fallen, och vid okända ord 93 %. Ordklasstaggaren använder sig av 140 olika taggar som är baserade på SUC:s taggset (Stockholm-Umeå Corpus). Taggaren i Granska ger mycket mer information om texten den undersöker än bara ordklasstaggarna, men i detta arbete utnyttjades bara ordklasstaggningen. Taggaren kan exempelvis också hitta lemman till ord (Carlberger et al. 2002; Knutsson 1997). 3.7 Stoppordlista Den stoppordlista som användes är den stoppordlista som används i SweSum, ett verktygför automatisk textsammanfattningutvecklat på Nada. Den består av över olika ord. Dessutom kompletterades listan med våra vanligaste måttenheter som kg, mm, m, cm, kvm, mil, sek och även dig, ditt, nr, st, ca, obs och kr. Även ickebokstäver som,, «,,», -, &, /, <, >, (, ), [, ], {, } och * lades till. Listan finns att tillgå på hemsidan: d00-dwe/exjobb/stop.txt 3.8 Splittring av sammansatta ord För att kunna slå isär sammansatta ord användes ett språkprogram som ligger på skrutten.nada.kth.se. Denna ordsplittrare använder sigav olika metoder och regler för att slå isär sammansatta ord. Den tittar på hur ordleden förekommer i texten runtomkringdet sammansatta ordet, frekvensen av de olika ordleden (hur vanliga de är i sammansättningar), hur bokstavskombinationen vid gränsen mellan startoch slutdelarna ser ut samt ordklasstaggarna för de olika orddelarna. Dessutom kastar den alla förslagtill ordsplittringsom innehåller fler ordled än det förslagsom har minst antal ordled. 17

25 För att veta om det är meningsfullt att använda sig av ordsplittraren i detta specifika problem lades en extra kontroll av de splittrade orden till. Om slutordet var ett adjektiv bedömdes inte de olika delarna i splittringen som intressanta. Exempel på ett sådant ord kan vara supersnabb eller jättestor. Om orddelarna däremot var exempelvis substantiv bedömdes dessa som intressanta. Exempel på sådana ord kan vara bilmotor, prinsesstårta och måleributik. 3.9 Urval av nyckelfraser Efter det att alla möjliga nyckelfraser hade skapats med hjälp av n-gram-metoden gällde det att på något sätt extrahera de fraser som är bäst lämpade som nyckelfraser för texten. Denna utplockning eller urval kan göras på många olika sätt och kan baseras på olika egenskaper hos texterna eller ske med hjälp av heuristiker. För de metoder som plockade ut ett fixerat antal ord varierades den övre gränsen för hur många ord som maximalt plockades ut mellan 20, 40 och 60 ord. Detta gällde alltså alla metoder utom metoden baserad på html-taggar och den lingvistiska metoden Termfrekvensen Ett enkelt sätt att göra detta urval på är att basera det på termfrekvensen för frasen. En fras som förekommer ofta i en text kan antas vara viktigför texten och därför vara lämpligsom nyckelfras. En av de metoder som användes var baserad på just termfrekvensen Inversa dokumentfrekvensen Ett annat statistiskt sätt att välja ut lämpliga nyckelfraser på som också användes är idf, den inversa dokumentfrekvensen. En fras som förekommer i texten men som inte förekommer i så många andra dokument kan antas beskriva texten bättre än en fras som förekommer i flera dokument. För att kunna använda sig av idf byggdes en träningsmängd upp bestående av alla dokument från 32 av webbplatserna från Jajja. Vilka 32 webbplatser som ingick i träningsmängden slumpades fram ur de 71 webbplatser som totalt erhölls från Jajja. Dokumenten från de webbplatser som tillhör träningsmängden innehöll sammanlagt ca 8 MB text och antalet unika ordstamsuppdelade fraser var Position i texten En av metoderna som användes för att göra urvalet av nyckelfraser bygger på frasens position i texten. Fraser som förekommer tidigt i texten antas mer relevanta än de som förekommer senare i texten. Om en fras förekommer på flera ställen i en text räknas den position där den först förekommer. De fraser med lägst position, det vill säga de som kommer tidigt i texten, valdes ut. 18

26 3.9.4 Metod baserad på html-taggar Metoden som byggde på html-taggar valde ut de ord ur texten som var taggade med html-taggar på ett visst sätt. De html-taggar som metoden tittade på var de som formaterar texten på något sätt. Följande taggar tog metoden hänsyn till: <abbr>, <acronym>, <address>, <b>, <basefront>, <big>, <blockquote>, <cite>, <code>, <dfn>, <em>, <font>, <h1>, <h2>, <h3>, <h4>, <h5>, <h6>, <i>, <ins>, <label>, <legend>, <link>, <pre>, <q>, <samp>, <small>, <span>, <strong>, <style>, <sub>, <sup>, <tfoot>, <th>, <thead>, <title> och <var>. Denna metod hade ingen gräns för hur många ord den valde ut. De olika htmltaggarna värderades alla lika högt och hade ingen prioritetsordning. Det räckte med att något ord i en fras var taggad med en av ovanstående html-tagg för att hela frasen betraktades som taggad med den taggen Lingvistisk metod När det gäller urvalet av nyckelfraser användes även ett lingvistiskt angreppssätt. Det lingvistiska angreppssättet byggde på en analys av de nyckelfraser Jajja tilldelat webbplatserna i tränings- och testmängden. Denna analys visade att 72,8% av fraserna bestod av ett substantiv och 8,1% av fraserna av ett egennamn. Genom att plocka ut alla substantiv och egennamn ur dokumenten borde alltså täckning kunna bli uppemot 80%. Denna metod kan också motiveras ytterliggare genom att titta på analysen av sökorden från referrerloggarna. Referrerloggarna visar vilka ord folk har sökt på i verkligheten för att komma till sidan. Där stod substantiv för 68,0% och egennamn för 10,5% av alla sökfraser. Nackdelen med detta lingvistiska angreppssätt var att väldigt många fraser valdes ut. En svensk text består i genomsnitt av 25% substantiv (Dalianis 2002). För html-sidor med lite text på kan det däremot tänkas att denna metod lämpar sig bättre än de andra Kombinationsmetod Alla de ovanstående metoderna kombinerades också ihop till en enda metod. I denna metod röstade alla metoder om vilka fraser som skulle väljas ut. Varje röst var värd lika mycket och viktades alltså inte på något sätt. Denna metod valde sedan ut de fraser som fått flest röster Den bästa metoden Efter att alla ovanstående metoder hade körts på alla dokument i testmängden och resultatet hade utvärderats mot Jajjas tilldelade nyckelfraser togs det fram en kombination av ovanstående metoder som var så bra som möjligt. Denna metod 19

27 byggde alltså på analysen av resultatet från en första körning. Det var denna metod som sedan jämfördes med KEA och Martin Blombergs modifierade version av KEA i utvärderingen som utfördes av personer på Jajja. Martin Blomberg gjorde också sitt exjobb på Jajja Communications kringnyckelfrasextraktion ur html-sidor. Hur denna metod konstruerades beskrivs senare i rapporten Textlängd Ett rimligt antagande var att metoderna var olika bra beroende på längden av texten i dokumenten. Om något tydligt mönster fanns när det gällde detta skulle den informationen kunna användas vid konstruktionen av den bästa metoden. Metoden skulle då kunna implementeras så att sättet fraserna valdes ut på varierade beroende på textlängden. Antalet dokument totalt i testmängden var 491. I genomsnitt var det 190 antal ord per dokument. Antalet dokument totalt bland webbplatserna med referrerloggfiler var 217. I genomsnitt var det 346 antal ord per dokument. Statistik togs fram över fördelningen av antalet ord per dokument för att försöka hitta bra tröskelvärden för vad som skulle räknas som ett kort, medellångt och långt dokument. Det fanns tyvärr inga tydliga mönster när det gällde detta. Det gick dock att se att många dokument innehöll färre än 100 ord. Det var också ganska många dokument som innehöll ord. Därför sattes tröskelvärdet för korta texter vid 100 ord och långa texter vid 250 ord. Däremellan räknades dokumentet som medellångt Statistik över html- och lingvistiska metoden När det gällde metoderna som baserades på html-taggar och frasernas ordklasstaggar, html-metoden och lingvistiska metoden, fanns det ingen övre gräns för hur många fraser dessa metoder valde ut. För att kunna göra en rättvis jämförelse mellan dessa metoder och de andra metoderna behövdes det information om hur många fraser dessa metoder valde ut. Om deras höga täckning endast berodde på att de valde ut samtliga fraser från ett dokument var metoderna i sig kanske inte så bra. Precisionen för dessa metoder gav en ledtråd om hur många fraser som valdes ut. Det togs även fram statistik för hur många fraser dessa metoder i genomsnitt valde ut per dokument. Statistiken togs fram ur testmängden och från webbplatserna med referrerloggar. Resultat testmängd Totala antalet fraser: Totala antalet dokument: 491 Antal fraser i genomsnitt: 136,3 20

Visa mer