Automatisk nyckelfrasextraktion ur html-sidor
|
|
- Emilia Viklund
- för 6 år sedan
- Visningar:
Transkript
1 Automatisk nyckelfrasextraktion ur html-sidor DANIEL WENNLUND Examensarbete Stockholm, Sverige 2005 TRITA-NA-E05083
2 Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science Stockholm Royal Institute of Technology SE Stockholm, Sweden Automatisk nyckelfrasextraktion ur html-sidor DANIEL WENNLUND TRITA-NA-E05083 Examensarbete i datalogi om 20 poäng vid Programmet för datateknik, Kungliga Tekniska Högskolan år 2005 Handledare på Nada var Jonas Sjöbergh Examinator var Stefan Arnborg
3 Automatisk nyckelfrasextraktion ur html-sidor Sammanfattning Denna rapport beskriver mitt examensarbete utfört vid Jajja Communications AB och KTH Nada. Arbetet gick ut på att automatiskt extrahera nyckelfraser från html-dokument. De i forskningen vanligaste metoderna för att extrahera nyckelfraser implementerades och undersöktes. Dessutom togs en metod baserad på html-taggar och en metod baserad på lingvistik fram. Metoderna utvärderades och en ny metod togs fram utifrån resultatet från dessa utvärderingar. Denna nya metod jämfördes i en mänskligutvärderingmed två andra system för automatisk nyckelfrasextraktion, KEA och en modifierad version av KEA. Mitt system extraherade fler bra fraser än de båda andra systemen men också väldigt många dåliga fraser. För att få ner antalet dåliga fraser som systemet extraherade borde hemspindlingen av html-sidor och parsningen av texten från sidorna förbättras. Metoderna som byggde på htmltaggar och lingvistik extraherade för många fraser. Förslag på hur dessa skulle kunna förfinas togs fram. Automatic keyphrase extraction from html pages Abstract This master s thesis is a part of my master s project conducted at Jajja Communications AB and KTH Nada. The main focus of the thesis has been on automatic keyphrase extraction from web pages. I have implemented and evaluated the most common methods in research today for automatic keyphrase extraction. Moreover I also developed two new methods for keyphrase extraction, one method based on html tags and one method based on linguistics. I have also constructed a new method based on the evaluation of the other methods. This method was compared to two other systems for automatic keyphrase extraction, KEA and a modified version of KEA. My system extracted more good phrases than both the other systems, but it also extracted many bad phrases. To reduce the number of bad phrases that are beingextracted more focus has to be given to retrieveingand parsingthe web pages. The two methods based on html tags and linguistics extracted too many phrases and ideas on how to redesign them were given.
4 Förord Detta examensarbete har utförts på Jajja Communications AB och på institutionen för numerisk analys och datalogi, Nada, på Kungliga Tekniska Högskolan. Jag vill tacka min handledare Jonas Sjöbergh på Nada för hans snabba svar på frågor och engagemang i detta examensarbete. Jag vill även passa på att tacka Martin Blombergför intressanta och givande diskussioner och bollande av idéer. Tack också till uppdragsgivaren Jajja Communications AB och min handledare där, Mikael Krantz. Daniel Wennlund Stockholm, Mars 2005
5 Innehåll 1 Inledning Uppdragsgivare Bakgrund Syfte Problembeskrivning Avgränsningarochmål Metod Dispositionavrapporten Teori Kandidatfrasutplockning Statistiskmetod Lingvistiskametoder Ordstamsuppdelning Ordklasstaggning Regelbaseradordklasstaggare Stokastiskordklasstaggare Stoppord Uppdelningavord Urvalavnyckelfraser Självlärande system GenEx KEA Hulth LatentSemanticAnalysis,LSA Resultatmätning Nyckelfrasextraktion Genomförande Urvalochnedspindlingavhemsidor Parsningavhtml-sidor Analysavnyckelfraserochsökfraser AnalysavJajjasnyckelfraser Analysavreferrerloggar... 15
6 3.4 Identifieringavkandidatfraser Ordstamsuppdelning Ordklasstaggning Stoppordlista Splittringav sammansatta ord Urvalavnyckelfraser Termfrekvensen Inversadokumentfrekvensen Positionitexten Metodbaseradpåhtml-taggar Lingvistiskmetod Kombinationsmetod Denbästametoden Textlängd Statistik över html- och ling vistiska metoden Överlappmellandeolikametoderna Framtagning avdenbästametoden Nyckelfraser för en hel webbplats KEA och Martin Blombergs modifierade versionavkea Överlapp mellan Jajjas fraser och fraserna från referrerloggarna Utvärderingavresultat Jajjasnyckelfraser Referrerloggar Utvärderingmedmänniskor Resultat Jajjas fraser med på webbplats TestmängdmedJajjasfraser Testmängdutifråntextlängd Webbplatser med referrerloggar Mänskligutvärdering Muntlig frågestund efter utvärdering Slutsatser Metodbaseradpåhtml-taggar Metodbaseradpålingvistik Metodbaseradpåpositionitexten Ordlängd på de webbplatser med flest antal brafraser Utvärderingsmetoder Allmänt Mänskliga utvärderingen... 41
7 5.8 Vikterförolikaordklasstaggar Framtida förbättringar Identifieringavkandidatfraser Stoppordlista Idf-mapp Ordstamsuppdelare Nedspindlingavhemsidor Parsningavtext LSA,LSI Sammanställningav nyckelfraser för en hel webbplats Poängsättning avfraser Utökningavlingvistiskmetod Splittringav ord Referenser 47 A Manual för utvärdering 49
8 Kapitel 1 Inledning Denna exjobbsrapport är skriven för att redovisa mitt examensarbete vid institutionen för numerisk analys och datalogi, Nada, vid Kungliga Tekniska Högskolan, KTH, i Stockholm. Examensarbetet utfördes på Jajja Communications under perioden september 2004 till mars Handledare på Jajja Communcations var Mikael Krantz. Handledare på Nada var Jonas Sjöbergh och examinator på Nada var Stefan Arnborg. 1.1 Uppdragsgivare Jajja Communications är ett marknadsföringsföretag som grundades år Jajja Communications är en av Nordens ledande leverantörer av trafik från sökmotorer. De är specialister på sökmotorpositioneringoch webbaserade verktygför marknadsföringoch försäljningsmarknadsföringpå Internet. 1.2 Bakgrund För företag idag är det väldigt viktigt att komma högt upp i olika sökmotorers träfflistor när personer söker på för företaget viktiga nyckelord eller nyckelfraser. Genom att vara högt upp i träfflistorna får företagen fler besökare till sin hemsida och genom det också förhoppningsvis fler kunder. Jajja Communications tillhandahåller olika tjänster för att se till att företagen hamnar högre upp i träfflistorna och dessutom att det ökade antalet besökare förvandlas till kunder. När en kund kommer till Jajja Communications idagoch vill köpa denna tjänst går personer på Jajja Communications manuellt igenom kundens hemsida för att välja ut nyckelord eller nyckelfraser som är viktiga för just den kunden. Detta arbete är tidsödande, enformigt och vinstmarginalerna är små eftersom flertalet av Jajja Communications kunder är små företagsom inte betalar så mycket för tjänsterna. Jajja Communications vill därför i framtiden automatisera så mycket som möjligt när det gäller nyckelfrasextraktionen från hemsidorna. Alla förbättringar som underlättar detta arbete är av intresse för Jajja Communications. 1
9 1.3 Syfte Syftet med detta examensarbete var att utreda vilka heuristiker, egenskaper hos texterna på html-sidorna och metoder som är bra att använda sigav för att kunna automatisera nyckelfrasextraktionen från dessa. Arbetet syftade också till att utreda vilka metoder och heuristiker som är mindre lämpliga att använda sig av. 1.4 Problembeskrivning Texten på html-sidor är ofta kortare än de texter som används vid forskninginom nyckelfrasextraktion. Samtidigt innehåller texten mer information än vanliga texter tack vare metadatan i de olika html-taggarna. Uppgiften i detta exjobb har varit att undersöka hur pass bra de i forskningen vanligaste metoderna för att extrahera nyckelfraser ur texter fungerar på html-sidor. Den har också varit att undersöka om det går att använda sig av metadatan i html-taggarna vid nyckelfrasextraktion. I uppgiften ingick det också att undersöka möjligheten att använda sig av lingvistiska metoder för att konstruera en heuristik för att extrahera nyckelfraser. Ett problem vid nyckelfrasextraktion är att det är svårt att veta hur resultatet ska utvärderas. De metoder som används inom forskningen idag bygger på att det till varje text finns ett antal fraser som anses vara korrekta och som resultatet jämförs mot. Det går att diskutera hur pass objektivt det är att utvärdera resultatet på detta sätt eftersom dessa korrekta fraser valts ut på något sätt. En av uppgifterna i detta exjobb har varit att undersöka alternativa utvärderingssätt. 1.5 Avgränsningar och mål Fokus i detta examensarbete har varit att utreda vilka heuristiker, egenskaper hos texterna och vilka metoder som är lämpliga att använda sig av för att automatisera nyckelfrasextraktionen på Jajja Communications. Det ingick inte i arbetet att implementera ett färdigt system som klarar av att automatiskt extrahera nyckelfraser ur texter. Jajja Communications är i princip intresserade av alla lösningar som underlättar deras arbete idag. Målet var därför att satsa på att få hög täckning på de fraser som plockas ut. Tanken var att programmet skulle extrahera många olika fraser som sedan tittas igenom manuellt och rensas bland. 1.6 Metod Uppgiften löstes genom att först implementera de i forskningen vanligaste metoderna för att extrahera nyckelfraser ur texter. Två andra metoder baserade på html-taggar och ordklasstaggmönster togs också fram. Alla metoder utvärderades sedan genom 2
10 körningar mot en testmängd med webbplatser. Dessa webbplatser hade nyckelfraser tilldelade av Jajja som resultatet jämfördes mot. Resultatet utvärderades och en bästa metod togs fram utifrån statistiken från resultatet. Denna metod jämfördes sedan med två andra system för nyckelfrasextraktion. Jämförelsen av systemen gjordes genom en mänsklig utvärdering av fraserna som de olika systemen extraherade. 1.7 Disposition av rapporten För att läsaren lättare ska kunna orientera sigi rapporten följer här en kort beskrivning av rapportens struktur och upplägg. I kapitel 2 beskrivs generella metoder och algoritmer som används inom språkteknologi. Här presenteras också tre olika självlärande system som konstruerats för automatisk nyckelfrasextraktion. I efterföljande kapitel beskrivs vilka metoder som har använts i detta arbete och hur utvärderingen av resultatet har gått till. I kapitel 4 presenteras resultatet från utvärderingarna. Kapitel 5 handlar om de slutsatser jaghar kommit fram till i detta arbete. Rapporten avslutas sedan med ett kapitel om möjliga förbättringar. 3
11 Kapitel 2 Teori För att kunna använda sigav olika heuristiker och kunna utnyttja egenskaper hos texten som det ska extraheras nyckelfraser ur krävs det i många fall att texten bearbetas med olika språkverktyg. Genom att bearbeta texten görs texten också mer lättbehandlad och bättre resultat uppnås ofta. Detta kapitel beskriver generella metoder och hur olika språkverktygfungerar som används vid nyckelfrasextraktion. I detta kapitel beskrivs också det självlärande system som använts i jämförelsen med mitt program. 2.1 Kandidatfrasutplockning När nyckelfraser ska extraheras ur texter gäller det först att ta fram alla lämpliga nyckelfraskandidater. Det finns olika metoder för att göra den identifieringen. Här nedan följer en beskrivningav tre olika metoder, en statistisk metod som kallas för n-gram metoden och två lingvistiska metoder Statistisk metod I n-gram-metoden plockas alla n-gram i texten ut. Om n exempelvis är satt till tre plockas alla uni-, bi- och trigram ut ur texten som undersöks. Alla fraser som består av ett, två eller tre ord plockas alltså ut. Fraserna kan inte sträcka sigöver meningsavskiljare. Efter att dessa kandidatfraser har plockats ut rensas det bort fraser som inte är lämpliga som kandidatfraser. Ofta filtreras fraser som börjar eller slutar på stoppord bort. Stoppord är ord som förekommer frekvent i texter och som inte kan användas för att särskilja texter åt. Orden i fraserna ordstamsuppdelas ofta och bokstäverna i orden görs om till små bokstäver. N-gram-metoden ger bra täckning men dålig precision. N-gram-metoden tar alltså fram många kandidatfraser och på så sätt täcks de flesta lämpliga nyckelfraserna in (Hulth 2004; Frank et al. 1999B). 4
12 2.1.2 Lingvistiska metoder Det går också att använda sig av lingvistiska metoder för att identifiera nyckelfraskandidater. Två sådana metoder är NP-chunk-metoden och en metod som baseras på ordklasstaggmönster eller ordklasstaggsekvenser. NP-chunk-metoden går ut på att nominalfraser plockas ut ur texten. En nominalfras är en fras där ett substantiv eller ett pronomen är huvudord i frasen. Ett exempel på en nominalfras är Katten som sitter i trädet. I metoden som bygger på ordklasstaggmönster förutsätts det att det finns en träningsmängd som det redan extraherats bra nyckelfraser från. De vanligaste förekommande ordklasstaggmönstren som dessa nyckelfraser är uppbyggda av analyseras. Ordklasstaggmönsterna används sedan för att identifiera nyckelfraskandidaterna. Dessa lingvistiska metoder för att identifiera kandidatfraser plockar ut färre kandidatfraser än vad n-gram-metoden gör. Enligt Hulth missar dock NPchunk metoden fler av de manuellt tilldelade nyckelfraserna än vad n-gram-metoden gör. Metoden som använder sig av ordklasstaggmönster ger färre kandidater och hittar fler av de manuellt tilldelade nyckelfraserna än vad n-gram-metoden gör (Hulth 2004). 2.2 Ordstamsuppdelning För att lättare kunna analysera texter används ofta verktygsom identifierar från vilken ordstam ett visst ord härstammar. Anledningen till att ord ersätts med dess ordstam är att annars skulle exempelvis pluralformen av ett ord behandlas som ett annat ord än singularformen av samma ord. Orden boll, bollar, bollen och bollarna ska alla behandlas som samma ord, boll. På detta sätt minskas antalet specifika ord i en text. I Porter (1980) skriver författaren hur han genom att ordstamsuppdela orden i en engelsk text minskade antalet specifika ord från till De flesta ordstamsuppdelarna för engelska som används är baserade på Porters algoritm eller Lovins algoritm. Porters algoritm är uppbygd kring en mängd regler om hur ändelser på ord ska tas bort eller ändras för att få fram ordstammen av ordet. Reglerna är uppdelade i flera delmängder och tillämpas i en uttänkt ordning så att ändelserna till slut stämmer överens med de rätta ordstammarna till orden. Ordet generalization går till exempel igenom följande förändring genom algoritmen: generalization generalize general gener Porters algoritm klarar inte av att ordstamsuppdela en text så att ordstammarna stämmer till 100%. Den ger dock tillräckligt bra resultat för att den ska vara användbar. De olika reglerna i Porters algoritm är starkt beroende av varandra. Genom att lägga till fler regler försämras ofta precisionen för algoritmen totalt även om precisionen ökar för just den ordgruppen som de nytillagda reglerna behandlar (Porter 1980). 5
13 Lovins algoritm bygger på regler, ordändelser och transformationer. Algoritmen är större än Porters algoritm men är ändå snabbare tidsmässigt. Anledningen till det är att Lovins algoritm kräver två iterationer medan Porters kräver åtta iterationer innan ordet är helt ordstamsuppdelat. I första iterationen i Lovins algoritm tas den längsta ordändelsen bort utifrån en mängd olika villkor. I nästa steg tillämpas olika transformationsregler som ändrar på ändelsen. Alla villkor, transformationer och ändelser finns på hemsidan för språkprojektet Snowball (Porter 2004 A). Det går också att använda sig av en ordlista där varje ord slås upp för att få reda på dess ordstam. Denna ordlista kan konstrueras med hjälp av ovanstående algoritmer. 2.3 Ordklasstaggning Ordklasstaggning innebär att den ordklass ett ord tillhör ska identifieras. Det finns en mängd olika standarder för hur ordklasstaggarna ska se ut och hur många olika taggar som ska användas. Beroende på hur avancerat taggsetet är kan olika detaljerad information om orden och relationerna mellan orden i en text erhållas. När en text ska ordklasstaggas uppstår ofta problem med att ordet som ska ordklasstaggas är mångtydigt. Ett exempel på ett sådant ord är ordet såg som både kan vara ett verb och ett substantiv. Det är sådana mångtydiga ord som en bra ordklasstaggare måste klara av att hantera. En ordklasstaggare kan konstrueras på en hel del olika sätt. En del modeller kräver att det finns en träningsmängd med texter som redan är korrekt taggade. Exempel på olika modeller för ordklasstaggning är regelbaserad och stokastisk. Modellerna beskrivs nedan Regelbaserad ordklasstaggare I en regelbaserad ordklasstaggare finns en mängd regler för hur mångtydiga ord ska taggas. Reglerna kan baseras på kontextuell information, hur orden runtomkring det aktuella ordet är taggat. Ett exempel på en sådan regel kan vara att om det mångtydiga ordet som ska taggas föregås av ett substantiv och ett verb ska ordet taggas som ett substantiv. Reglerna kan också baseras på ordets morfologi, hur ordet är uppbyggt, dess böjningsmönster och dess grammatiska egenskaper. Ett exempel på en möjlig regel är om ordet som ska taggas i en text på engelska har ändelsen -ing ska det taggas som ett verb Stokastisk ordklasstaggare Stokastiska ordklasstaggare använder sig av statistik när de ska ordklasstagga ord. Det enklaste sättet att konstruera en stokastisk ordklasstaggare är att tagga ordet med den vanligaste förekommande taggen för just det ordet i träningsmängden. För 6
14 att få fram statistik görs en enkel frekvensanalys över hur just det ordet är taggat i träningsmängden. Denna modell kan byggas ut så att taggaren istället tittar på en sekvens av ord och dessas taggar. Då tittar taggaren på sannolikheten att sekvensen är taggad på ett visst sätt och försöker maximera sannolikheten för att få en så bra taggning som möjligt. Den vanligaste algoritmen som används när det gäller denna metod är Viterbis algoritm som bygger på dynamisk programmering (van Guilder 1995). För att konstruera en stokastisk ordklasstaggare används ofta Hidden Markov Model, HMM. Denna modell bygger på två antaganden, dels att ordet som ska taggas enbart beror på sin tagg och alltså är okorrelerad med alla andra ord och deras ordklasstaggar och dels att taggen enbart beror på de N stycken föregående taggarna. Dessa två antaganden gör att problemet med att tagga en text kan ställas upp som en produkt av sannolikheter som sedan ska maximeras (van Guilder 1995; Carlberger, Kann 1999). 2.4 Stoppord Ett stoppord är ett ord som är vanligt förekommande i texter och som inte kan användas för att särskilja texter från varandra. De ger därför heller inte tillräckligt med information för att på ett bra sätt kunna användas som en nyckelfras för att sammanfatta en text. Stoppord är ofta prepositioner, konjunktioner, interjektioner och siffror (Dalianis 2003). Exempel på stoppord är: och, eller, men, att, inte, en, han, hon o.s.v. En vanligsvensk text består av ungefär 43 % stoppord, 25 % substantiv, 17 % verb och 15 % adverb och adjektiv (Dalianis 2002). I engelskan är stoppord ännu vanligare och står för ca 50 % av alla ord i en genomsnittlig text (Corne, Sinka 2003). Ett enkelt sätt att ta fram en stoppordlista är att använda sigav termviktningsmodellen och dess mått tf och idf. Tf är ett mått på hur många gånger en term eller ett ord förekommer i ett dokument och står för termfrekvens. Idf är den inverterade dokumentfrekvensen. Den räknas ut genom att först räkna ut di, som är hur många dokument totalt i dokumentsamlingen som ordet förekommer minst en gång i. Sedan delas antalet dokument totalt med di för att få fram idf. tf = idf = Antalet förekomster av ordet i dokumentet Antalet ord totalt i dokumentet Antalet dokument totalt Antalet dokument ordet förekommer i Om värdet på idf för ett ord är högt innebär det att ordet är ovanligt i just den dokumentsamlingen. Genom att multiplicera tf och idf med varandra erhålls ett bra 7
15 mått på ordets signifikans eller betydelse. Stopporden kommer alltså att få låga värden på tf*idf och kan på så sätt identifieras. Egentligen räcker det med att använda sigav värdet på idf för att kunna identifiera stopporden. Ord som finns med i många dokument och därmed har ett lågt värde på idf är med stor sannolikhet stoppord. För att inte dokumentets längd ska ha för stor betydelse för tf*idf-värdet normeras ofta värdet på tf*idf mot dokumentets längd. I Dalianis (2002) beskriver författaren hur detta görs genom att dividera tf*idf med roten ur tf. I Hulth (2004) beräknas värdet på idf lite annorlunda, där tas istället logaritmen av idf. Det finns situationer när det inte går att använda sig av tf*idf för att hitta stoppord. Om dokumentsamlingen består av få dokument som dessutom är väldigt långa kommer tf väga väldigt tungt. Risken är då att tf*idf-värdena för stopporden blir höga. Ord som är viktiga riskeras att plockas bort om de ord med lågt värde på tf*idf tas bort. 2.5 Uppdelning av ord Svenskan skiljer sig från många andra naturliga språk i det avseendet att svenskan innehåller väldigt många sammansatta ord. I många andra språk skrivs inte orden ihop utan dessa är särskrivna eller med ett bindestreck emellan. Om texterna som nyckelfraserna ska extraheras från är förhållandevis korta och innehåller lite information kan det vara ett bra grepp att slå isär sammansatta ord för att på så sätt få ut mer information från texten. Exempel på en situation där det är lämpligt att slå isär sammansatta ord är en text som handlar om bilmotorer, mopedmotorer, gräsklipparmotorer och andra motorer. De enskilda orden ger då inte så mycket information om vad texten handlar om, men slås orden isär märks det att ordet motorer verkar relevant eftersom det förekommer frekvent i texten. Det vanligaste sättet att slå isär sammansatta ord är att använda sig av en ordlista och slå upp i den vilka olika delar det sammansatta ordet består av. Ofta kan sammansatta ord slås isär på flera olika sätt. Det finns olika metoder för att hantera denna mångtydighet och för att splittra ordet på ett korrekt sätt. En variant är att försöka slå isär ordet på så sätt att antalet delar blir så få som möjligt. Om det blir lika mellan två olika tolkningar väljs den tolkning som innebär att slutdelen blir så långsom möjligt. Det går också att använda sig av information om orden och texten runtomkring det sammansatta ordet och basera splittringen av ordet på de olika orddelarnas förekomst i denna text. Ju närmare en orddel befinner sigdet sammansatta ordet desto högre viktning får det. Sedan väljs den splittring av ordet som ger högst sammanlagd poäng för de olika orddelarna. 8
16 En metod som bygger på statistik är att titta på frekvensen för olika start- och slutdelar av ordet. Metoden använder sigav en korpus där statistik för olika startoch slutdelar i sammansatta ord först sammanställs. En korpus är en textmassa som kan användas vid språkstudier. Den uppdelningen som väljs är den med de vanligaste start- och slutdelarna enligt statistiken från korpusen. Det finns en speciell egenskap hos sammansatta ord som det också går att använda sigav. Ordklassen som ett sammansatt ord i det svenska språket tillhör bestäms av dess slutdel. Metoden går ut på att låta en ordklasstaggare bestämma vilken ordklass det sammansatta ordet tillhör genom att titta på orden runtomkring utan att lämna ut information om det sammansatta ordet. Sedan väljs den splittringav ordet som ger rätt ordklasstagg på den sista av orddelarna. Ordklasstaggaren kan också användas på ett annat sätt. Splittring av ordet kan baseras på sannolikheten för vilka ordklasser som de olika delarna i ordet hör till. Detta görs genom att ordklasstagga start- och slutdelen av ordet och beräkna sannolikheten för att ett sammansatt ord är konstruerat på detta sätt. Det krävs då att det finns statistik över hur sammansatta ord är uppbyggda när det gäller orddelarna och ordklasserna dessa tillhör. Det går också att titta på olika bokstavskombinationer på gränsen mellan startoch slutdelen i det sammansatta ordet. Vissa bokstavskombinationer som förekommer i sammansatta ord förekommer aldrig i vanliga ord, andra är väldigt ovanliga men förekommer ofta i sammansatta ord. Genom att ta fram statistik för bokstavskombinationer i sammansatta ord kan orden slås isär på det stället där det är mest sannolikt att splittringen ska ske enligt statistiken. Denna metod bygger på att det finns en ordlista med sammansatta ord (Sjöbergh, Kann 2004). 2.6 Urval av nyckelfraser För att göra urvalet av lämpliga nyckelfraser från sina nyckelfraskandidater kan många olika metoder användas. Ett vanligt urvalssätt är att använda sig av tf*idf, termfrekvens och inverterad dokumentfrekvens, och position i texten för en viss fras (Hulth 2004; Frank et al. 1999A; Turney 1999; Turney 2000). Det går också att använda sig av egenskaper i texten som bygger på hur författare till artiklar väljer att framhäva viktiga fraser eller ord i sina artiklar. Genom att titta på exempelvis akronymer, rubriker för stycken, listor, diagram-, tabell- och figurtitlar kan bra nyckelfraser väljas ut (Krulwich 1995). På html-sidor kodas alla dessa olika exempel med hjälp av html-taggar. Detta gör det lätt att identifiera dessa specifika ord och fraser. Metoder som väljer att titta på html-taggar kan motiveras ytterliggare genom att se hur sökmotorer på Internet indexerar sidor. Exempelvis 9
17 Google ger högre poäng till ord som är fetstilta eller kursiva när den indexerar sidor, gör dem sökbara via deras sökmotor (Brin, Page 1998). 2.7 Självlärande system Mycket forskninghar gjorts inom området automatisk nyckelfrasutplockningur texter. Det finns många exempel på program för automatisk nyckelfrasutplockning som använder sigav självlärande system. Exempel på sådana system är de tre nedanstående GenEx GenEx är ett system som utvecklats av Peter Turney vid National Research Council i Kanada. GenEx är ett självlärande system som består av två olika delar, Extractor plockar ut nyckelfraser ur dokument och Genitor är en genetisk algoritm som används för att träna och ställa in Extractor. Turney använder sigav 12 olika egenskaper hos texten, som han valt ut genom att testa 110 olika egenskaper hos texten, för att bedöma om en fras är en bra nyckelfras eller inte. Den genetiska algoritmen används bara under träningen och behövs inte efter att träningen är genomförd. Ordstamsuppdelningen i GenEx är väldigt aggressiv. Programmet tar som en parameter hur många bokstäver användaren vill ska vara med i ordstammen. Själva ordstamsuppdelningen går sedan till så att orden helt enkelt klipps av efter det antalet bokstäver. Denna typ av ordstamsuppdelningkallas trunkering(turney 1999) KEA I KEA som är skapat av Frank et al. (1999A) används naiv Bayesiansk klassificering för att extrahera nyckelfraser ur texter. Naiv Bayesiansk klassificering bygger på Bayes sats om betingad sannolikhet med det extra antagandet att de olika attributen i modellen är oberoende av varandra. Kandidatfraserna plockas ut genom att alla fraser bestående av ett, två eller tre ord identifieras. Kandidatfraserna minskas sedan genom att exempelvis alla fraser som börjar eller slutar på ett stoppord plockas bort. Två olika egenskaper räknas ut för kandidatfraserna, tf*idf och positionen för första förekomsten av frasen i texten. Dessa egenskaper används för att identifiera nyckelfraser. Systemet tränas utifrån en träningsmängd som består av texter med redan tilldelade nyckelfraser. För att kunna använda sigav KEA krävs det också att användaren har tillgång till en korpus för att kunna räkna ut statistik för fraserna Hulth I sin doktorsavhandlingbeskriver Hulth hur hon med hjälp av övervakad maskininlärningtränar ett system för att automatiskt plocka ut nyckelfraser ur texter. Hon använder sigav RDS, Rule Discovery System, och recursive partitioning, som är en slags divide and conquer-algoritm. Hulth använder sig av tre olika egenskaper för att 10
18 välja ut nyckelfraserna ur kandidatfraserna, termfrekvensen, den inversa dokumentfrekvensen och positionen för den första förekomsten av en fras i texten. De texter hon använder som träningsmängd och testmängd är abstracten från 2000 artiklar ur vetenskapliga tidskrifter från åren (Hulth 2004). 2.8 Latent Semantic Analysis, LSA I interaktionen mellan människa och dator uppstår det ofta problem. Informationssökning är inget undantag. Det är svårt för en dator att tolka de ord eller fraser som en människa söker på. Vi människor använder olika synonymer för att beskriva samma sak och ord kan dessutom vara mångtydiga. För att försöka förbättra resultatet av informationssökningen kan sökmotorerna konstrueras så att de automatiskt expanderar sökfrågor. De söker då även på fraser som är relaterade till den aktuella sökfrasen. En metod som då kan användas är Latent Semantic Analysis, LSA, eller Latent Sematic Indexing, LSI, som det kallas när LSA används för att automatiskt expandera sökfrågor. Genom att expandera sökfrågan automatiskt erhålls förhoppningsvis bättre täckning på resultatet av sökningen och träffarna har högre relevans. Tanken med att använda sigav LSA för en automatisk expansion av sökfrågorna är att texter eller dokument som även innehåller ord som är relaterade till orden i sökfrågan ska hittas. Det är ett försök till att förstå språkbeteendet hos oss människor. LSA bygger på att en term-kontext-matris skapas, där kontext ofta är ett dokument eller en text. I denna matris räknas ord som förekommer i samma kontext som relaterade och kontext som innehåller samma ord som relaterade. Denna matris innehåller kontextinformation men är väldigt gles. Därför dimensionsreduceras denna matris med hjälp av singulärvärdesfaktorisering, singular-value decomposition, SVD. På så sätt projiceras term-kontext-matrisen på ett underrum så att kvadratavståndet för vektorerna i ursprungsmatrisen minimeras. Ursprungsmatrisen kan sedan approximeras genom linjärkombination av vektorerna. Vid en sökfråga används sökfrasen för att identifiera en punkt i vektorrummet. Sedan undersöks vilka vektorer som ligger nära den punkten genom att beräkna cosinus eller skalärprodukten. Detta ger ett mått på hur pass relaterade vektorerna är och alltså vilka dokument som matchar sökfrågan. LSA kan användas till fler saker än för att automatiskt expandera sökfrågor till sökmotorer. Bland annat kan LSA användas för att hitta synonymer till ord, för att undersöka texters koherens, hur väl de hänger ihop, och för att underlätta inlärning av nya språk genom att automatiskt ge ordförslag (Dumais et al. 1988). 2.9 Resultatmätning För att kunna jämföra resultatet av olika försök används ofta måtten precision och täckning, precision och recall (Jurafsky et al. 2000). Precisionen definieras som an- 11
19 talet manuellt utplockade nyckelfraser som valts ut automatiskt delat med totala antalet automatiskt utplockade nyckelfraser. Detta är ett bra mått på träffsäkerheten hos ens algoritm. Precision = # automatiskt utplockade fraser bland de manuellt utplockade # automatiskt utplockade fraser Täckningdefinieras som antalet manuellt utplockade nyckelfraser som valts ut automatiskt delat med totala antalet manuellt utplockade nyckelfraser i dokumentet. Detta är ett bra mått på hur många av det totala antalet manuellt tilldelade nyckelfraser som hittats automatiskt. Täckning = #manuellt utplockade fraser bland de automatiskt utplockade # manuellt utplockade fraser Ovanstående mått bygger på att det finns en testmängd bestående av texter med korrekta nyckelfraser. Dessa mått kan kritiseras utifrån att det faktiskt är någon som har bestämt att vissa nyckelfraser är korrekta för en viss text. Vem det är som godkänt orden och hur de valts ut påverkar i allra högsta grad vilka nyckelfraser det är som bedöms som korrekta. Bedömningen blir subjektiv och måtten kanske inte är helt lyckade att använda sigav för att mäta resultatet av försöken Nyckelfrasextraktion Nästan all forskningnär det gäller automatisk nyckelfrasextraktion som skett hitintills är gjord på engelska texter. Väldigt lite av forskningen är gjord på svenska texter. Ofta kan dock samma metoder och principer användas när nyckelfraser ska extraheras ur svenska texter. Däremot består det svenska språket av många sammansatta ord vilket inte engelskan gör. Forskningen bedrivs också oftast på artiklar och forskningsrapporter eller sammanfattningar på sådana. Dessa texter är ofta betydligt längre än texterna som bearbetas i detta arbete. Det gäller därför att försöka extrahera så mycket information som möjligt från texterna på html-sidorna. 12
20 Kapitel 3 Genomförande Detta kapitel beskriver de metoder och språkverktygsom tillämpades i praktiken för att extrahera nyckelfraser från hemsidorna och för att utvärdera resultatet. 3.1 Urval och nedspindling av hemsidor För att ha webbplatser att köra och testa mot skapades det en testmängd bestående av 20 webbplatser och en träningsmängd bestående av 32 webbplatser. De webbplatser som finns med i testmängden är nya kunder till Jajja Communciations där kunderna ännu inte har hunnit göra de modifieringar av sidorna på webbplatsen som Jajja rekommenderat. Däremot har Jajja redan hunnit tilldela webbplatsen nyckelfraser som Jajja använder sigav när de optimerar webbplatsen för sökmotorerna. Anledningen till att testmängden består av nya kunders webbplatser är att ett av utvärderingssätten bygger på att resultatet utvärderas mot de nyckelfraser Jajja har tilldelat webbplatsen. Om kunden redan hunnit modifiera hemsidorna innebär det att detta utvärderingssätt blir missvisande. En av modifieringarna av webbplatsen som Jajja rekommenderar är nämligen att införa en title-tagg i alla dokument på webbplatsen. Title-taggen ska gärna innehålla ett visst antal av nyckelfraserna. Alla dokument på webbplatsen kommer alltså innehålla ett visst antal av nyckelfraserna som tilldelats. Genom att testköra programmet mot nya kunders webbplatser blir testningen mer realistisk. Det är mot nya kunder som Jajja har tänkt sig att använda sigav en vidareutvecklingav detta program i framtiden. Det skapades också en mängd av webbplatser där Jajja hade tillgång till webbplatsernas referrerloggar. Eftersom Jajja inte har tillgång till så många av sina kunders referrerloggar har urvalet av vilka webbplatser som användes inte kunnat slumpas fram. Alla de webbplatser där Jajja har tillgång till referrerloggarna har helt enkelt valts. Själva hemsidorna spindlades hem med hjälp av Unix-kommandot wget. För att inte få hem för många sidor från varje webbplats skickades olika flaggor med till 13
21 wget. Exempelvis spindlades bara de sidor hem som ligger på max djupet tre från index-sidan. Kommandot som användes och dess flaggor ser ut så här: wget header= Accept-Charset: iso header= Accept-Language: sv htmlextension recursive level=3 convert-links random-wait -R gif,gif,png,jpg,jpeg,js,css,swf,pdf,pdf,mp3,css,doc,tif,wmw,zip,exe Vad flaggorna betyder står i Nik(2001). Sidorna som spindlades hem kontrollerades sedan manuellt så att inget förutom html-sidor spindlades hem av misstag. Dessutom togs alla webbplatser som spindlats hem men som inte tillhörde test- eller träningsmängden bort. De sidor som spindlades hem genom att wget följde externa länkar rensades alltså bort. 3.2 Parsning av html-sidor För att läsa in texterna från alla hemspindlade sidor och för att formatera texten på ett bra sätt användes en färdightml-parser. Den går att få tagi på följande hemsida: Analys av nyckelfraser och sökfraser Under denna rubrik motiveras beslutet att enbart identifiera kandidatfraser som består av upp till tre ord. Dessutom motiveras användandet av en lingvistisk metod för att göra urvalet av lämpliga nyckelfraser Analys av Jajjas nyckelfraser De nyckelfraser som Jajja Communications har tilldelat de olika webbplatserna analyserades för att ta fram statistik över antalet ord i fraserna och fraserna uppbyggnad. Resultatet från detta redovisas i tabell 3.1. Antalet fraser total var 880 fördelat på 71 olika webbplatser. Genom att välja ut alla uni-, bi- och trigram borde alltså 99,6% av alla nyckelfraser komma med. N-gram Antal Procent Unigram: Bigram: Trigram: 44 5,0 Övriga: 4 0,45 Tabell 3.1. Statistik över antalet ord Jajjas tilldelade nyckelfraser består av. 14
22 Fraserna analyserades också med en ordklasstaggare för att analysera de vanligaste uppbyggnaderna av fraserna. Denna information användes sedan i en lingvistisk metod för att göra urvalet av nyckelfraser. Statistiken för detta presenteras i tabell 3.2. Ordklasstaggen nn innebär att ordet är ett substantiv, pm står för egennamn, jj för adjektiv och pp för preposition. PoS-tag-sekvens Antal Procent nn: pm: 71 8,1 jj nn: 41 4,7 nn nn: 26 3,0 nn pp nn: 21 2,4 nn pm: 11 1,3 Övriga: 69 7,8 Tabell 3.2. Nyckelfrasernas ordklasstaggar Analys av referrerloggar Analysen av referrerloggarna skedde med hjälp av ett verktyg som heter Webalizer. Detta verktyggår att hitta på: Verktyget analyserar referrerloggarna från webbservern och genererar html-sidor med statistik från loggarna. I referrerloggen loggas all statistik för trafiken till webbplatsen. I statistiken visas det bland annat om folk har kommit till sidan genom att söka på någon sökmotor. I konfigurationsfilen till Webalizer kan användaren ange från vilka sökmotorer programmet ska hämta sökfraser som folk har sökt på. Följande sökmotorer, vilka kan anses vara de största och vanligaste, angavs i konfigurationsfilen till programmet: yahoo.com, altavista.com, se.altavista.com, google.com, google.se, eureka.com, lycos.com, hotbot.com, msn.com, infoseek.com, webcrawler, excite, netscape.com, mamma.com, alltheweb.com, northernlight.com Från dessa html-sidor plockades sedan alla sökfraser som folk sökt på för att hamna på sidan ut. Antalet sökfraser som undersöktes totalt var Antalet webbplatser som referrerloggarna undersöktes på var sju. Den sammanlagda storleken på dessa referrerloggar var 0.98 GB. Sökfraserna taggades också med en ordklasstaggare för att få fram statistik för sökfrasernas ordklasstaggar. Ordklasstaggen nn står för substantiv, pm för egennamn, jj för adjektiv, vb för verb och mad för punkt. Statistiken i tabell 3.3 och 3.4 är inte helt tillförlitlig. Dels undersöktes bara referrerloggarna från de 7 olika webbplatser där Jajja hade tillgång till referrerloggarna 15
23 och dels redovisas bara de sökfraser som verkligen gav en träff på just denna webbplats hos någon sökmotor i referrerloggarna. Detta ger alltså ingen bra statistik för sökbeteendet hos folk i allmänhet. Antal ord i sökfrasen Antal Procent Ett: Två: Tre: 467 3,6 Fyra: 51 0,39 Fler än fyra: 7 0,054 Tabell 3.3. Antalet ord i sökfraserna från referrerloggarna. PoS-tag-sekvens Antal Procent nn: ,0 pm: ,5 nn nn: 875 6,73 pm nn: 337 2,59 jj nn: 319 2,45 pm pm: 268 2,06 nn mad vb: 224 1,72 pm pm pm: 196 1,51 Övriga: 585 4,50 Tabell 3.4. PoS-taggar för sökfraserna från referrerloggarna. 3.4 Identifiering av kandidatfraser Kandidatfraserna identifierades genom att använda n-gram-metoden. Först delades texten upp efter alla meningsavskiljare. Alla bokstäver gjordes om till små bokstäver och siffror som stod separat i texten togs bort. Sedan skapades kandidatfraserna genom att alla möjliga uni-, bi- och trigram bildades. De fraser som började eller slutade på ett stoppord togs bort. Fraserna ordstamsuppdelades sedan och samtidigt sparades ursprungsfraserna undan för att kunna användas vid presentationen av resultatet. 3.5 Ordstamsuppdelning För att ordstamsuppdela orden i texterna användes den ordstamsuppdelaren som finns på språkprojektet Snowballs hemsida. Den ordstamsuppdelaren är uppbyggd kring några få enkla regler för hur suffix på ord ska tas bort (Porter 2004B). 16
24 3.6 Ordklasstaggning För att ordklasstagga texter användes en taggare som ligger på servern skrutten.nada.kth.se. Taggaren som ligger på skrutten är den som används i programmet Granska, Nadas grammatikgranskningsprogram. Taggaren i Granska använder sig av Hidden Markov Model för att ordklasstagga texter. Programmet använder sig alltså av statistik för hur ordet kan taggas och dessutom sannolikheten att en sekvens av ord är taggade på ett visst sätt. Programmet kan också gissa okända ords ordklasstagg genom att titta på taggsekvensen runt ordet och kombinera detta med en morfologisk analys av ordet. I den morfologiska analysen undersöks ändelsen på ordet och jämförs med andra kända ords ändelser för att gissa en tagg till det okända ordet. Taggaren tittar också på om första bokstaven i ordet är en stor bokstav. I sådant fall är sannolikheten att ordet är ett egennamn högre. Dessutom försöker programmet slå isär okända ord för att se om ordet är sammansatt och om slutledet går att tagga för att på så sätt gissa taggen till hela ordet. För kända ord taggar ordklasstaggaren i Granska rätt i 98 % av fallen, och vid okända ord 93 %. Ordklasstaggaren använder sig av 140 olika taggar som är baserade på SUC:s taggset (Stockholm-Umeå Corpus). Taggaren i Granska ger mycket mer information om texten den undersöker än bara ordklasstaggarna, men i detta arbete utnyttjades bara ordklasstaggningen. Taggaren kan exempelvis också hitta lemman till ord (Carlberger et al. 2002; Knutsson 1997). 3.7 Stoppordlista Den stoppordlista som användes är den stoppordlista som används i SweSum, ett verktygför automatisk textsammanfattningutvecklat på Nada. Den består av över olika ord. Dessutom kompletterades listan med våra vanligaste måttenheter som kg, mm, m, cm, kvm, mil, sek och även dig, ditt, nr, st, ca, obs och kr. Även ickebokstäver som,, «,,», -, &, /, <, >, (, ), [, ], {, } och * lades till. Listan finns att tillgå på hemsidan: d00-dwe/exjobb/stop.txt 3.8 Splittring av sammansatta ord För att kunna slå isär sammansatta ord användes ett språkprogram som ligger på skrutten.nada.kth.se. Denna ordsplittrare använder sigav olika metoder och regler för att slå isär sammansatta ord. Den tittar på hur ordleden förekommer i texten runtomkringdet sammansatta ordet, frekvensen av de olika ordleden (hur vanliga de är i sammansättningar), hur bokstavskombinationen vid gränsen mellan start- och slutdelarna ser ut samt ordklasstaggarna för de olika orddelarna. Dessutom kastar den alla förslagtill ordsplittringsom innehåller fler ordled än det förslagsom har minst antal ordled. 17
25 För att veta om det är meningsfullt att använda sig av ordsplittraren i detta specifika problem lades en extra kontroll av de splittrade orden till. Om slutordet var ett adjektiv bedömdes inte de olika delarna i splittringen som intressanta. Exempel på ett sådant ord kan vara supersnabb eller jättestor. Om orddelarna däremot var exempelvis substantiv bedömdes dessa som intressanta. Exempel på sådana ord kan vara bilmotor, prinsesstårta och måleributik. 3.9 Urval av nyckelfraser Efter det att alla möjliga nyckelfraser hade skapats med hjälp av n-gram-metoden gällde det att på något sätt extrahera de fraser som är bäst lämpade som nyckelfraser för texten. Denna utplockning eller urval kan göras på många olika sätt och kan baseras på olika egenskaper hos texterna eller ske med hjälp av heuristiker. För de metoder som plockade ut ett fixerat antal ord varierades den övre gränsen för hur många ord som maximalt plockades ut mellan 20, 40 och 60 ord. Detta gällde alltså alla metoder utom metoden baserad på html-taggar och den lingvistiska metoden Termfrekvensen Ett enkelt sätt att göra detta urval på är att basera det på termfrekvensen för frasen. En fras som förekommer ofta i en text kan antas vara viktigför texten och därför vara lämpligsom nyckelfras. En av de metoder som användes var baserad på just termfrekvensen Inversa dokumentfrekvensen Ett annat statistiskt sätt att välja ut lämpliga nyckelfraser på som också användes är idf, den inversa dokumentfrekvensen. En fras som förekommer i texten men som inte förekommer i så många andra dokument kan antas beskriva texten bättre än en fras som förekommer i flera dokument. För att kunna använda sig av idf byggdes en träningsmängd upp bestående av alla dokument från 32 av webbplatserna från Jajja. Vilka 32 webbplatser som ingick i träningsmängden slumpades fram ur de 71 webbplatser som totalt erhölls från Jajja. Dokumenten från de webbplatser som tillhör träningsmängden innehöll sammanlagt ca 8 MB text och antalet unika ordstamsuppdelade fraser var Position i texten En av metoderna som användes för att göra urvalet av nyckelfraser bygger på frasens position i texten. Fraser som förekommer tidigt i texten antas mer relevanta än de som förekommer senare i texten. Om en fras förekommer på flera ställen i en text räknas den position där den först förekommer. De fraser med lägst position, det vill säga de som kommer tidigt i texten, valdes ut. 18
26 3.9.4 Metod baserad på html-taggar Metoden som byggde på html-taggar valde ut de ord ur texten som var taggade med html-taggar på ett visst sätt. De html-taggar som metoden tittade på var de som formaterar texten på något sätt. Följande taggar tog metoden hänsyn till: <abbr>, <acronym>, <address>, <b>, <basefront>, <big>, <blockquote>, <cite>, <code>, <dfn>, <em>, <font>, <h1>, <h2>, <h3>, <h4>, <h5>, <h6>, <i>, <ins>, <label>, <legend>, <link>, <pre>, <q>, <samp>, <small>, <span>, <strong>, <style>, <sub>, <sup>, <tfoot>, <th>, <thead>, <title> och <var>. Denna metod hade ingen gräns för hur många ord den valde ut. De olika htmltaggarna värderades alla lika högt och hade ingen prioritetsordning. Det räckte med att något ord i en fras var taggad med en av ovanstående html-tagg för att hela frasen betraktades som taggad med den taggen Lingvistisk metod När det gäller urvalet av nyckelfraser användes även ett lingvistiskt angreppssätt. Det lingvistiska angreppssättet byggde på en analys av de nyckelfraser Jajja tilldelat webbplatserna i tränings- och testmängden. Denna analys visade att 72,8% av fraserna bestod av ett substantiv och 8,1% av fraserna av ett egennamn. Genom att plocka ut alla substantiv och egennamn ur dokumenten borde alltså täckning kunna bli uppemot 80%. Denna metod kan också motiveras ytterliggare genom att titta på analysen av sökorden från referrerloggarna. Referrerloggarna visar vilka ord folk har sökt på i verkligheten för att komma till sidan. Där stod substantiv för 68,0% och egennamn för 10,5% av alla sökfraser. Nackdelen med detta lingvistiska angreppssätt var att väldigt många fraser valdes ut. En svensk text består i genomsnitt av 25% substantiv (Dalianis 2002). För html-sidor med lite text på kan det däremot tänkas att denna metod lämpar sig bättre än de andra Kombinationsmetod Alla de ovanstående metoderna kombinerades också ihop till en enda metod. I denna metod röstade alla metoder om vilka fraser som skulle väljas ut. Varje röst var värd lika mycket och viktades alltså inte på något sätt. Denna metod valde sedan ut de fraser som fått flest röster Den bästa metoden Efter att alla ovanstående metoder hade körts på alla dokument i testmängden och resultatet hade utvärderats mot Jajjas tilldelade nyckelfraser togs det fram en kombination av ovanstående metoder som var så bra som möjligt. Denna metod 19
27 byggde alltså på analysen av resultatet från en första körning. Det var denna metod som sedan jämfördes med KEA och Martin Blombergs modifierade version av KEA i utvärderingen som utfördes av personer på Jajja. Martin Blomberg gjorde också sitt exjobb på Jajja Communications kringnyckelfrasextraktion ur html-sidor. Hur denna metod konstruerades beskrivs senare i rapporten Textlängd Ett rimligt antagande var att metoderna var olika bra beroende på längden av texten i dokumenten. Om något tydligt mönster fanns när det gällde detta skulle den informationen kunna användas vid konstruktionen av den bästa metoden. Metoden skulle då kunna implementeras så att sättet fraserna valdes ut på varierade beroende på textlängden. Antalet dokument totalt i testmängden var 491. I genomsnitt var det 190 antal ord per dokument. Antalet dokument totalt bland webbplatserna med referrerloggfiler var 217. I genomsnitt var det 346 antal ord per dokument. Statistik togs fram över fördelningen av antalet ord per dokument för att försöka hitta bra tröskelvärden för vad som skulle räknas som ett kort, medellångt och långt dokument. Det fanns tyvärr inga tydliga mönster när det gällde detta. Det gick dock att se att många dokument innehöll färre än 100 ord. Det var också ganska många dokument som innehöll ord. Därför sattes tröskelvärdet för korta texter vid 100 ord och långa texter vid 250 ord. Däremellan räknades dokumentet som medellångt Statistik över html- och lingvistiska metoden När det gällde metoderna som baserades på html-taggar och frasernas ordklasstaggar, html-metoden och lingvistiska metoden, fanns det ingen övre gräns för hur många fraser dessa metoder valde ut. För att kunna göra en rättvis jämförelse mellan dessa metoder och de andra metoderna behövdes det information om hur många fraser dessa metoder valde ut. Om deras höga täckning endast berodde på att de valde ut samtliga fraser från ett dokument var metoderna i sig kanske inte så bra. Precisionen för dessa metoder gav en ledtråd om hur många fraser som valdes ut. Det togs även fram statistik för hur många fraser dessa metoder i genomsnitt valde ut per dokument. Statistiken togs fram ur testmängden och från webbplatserna med referrerloggar. Resultat testmängd Totala antalet fraser: Totala antalet dokument: 491 Antal fraser i genomsnitt: 136,3 20
Automatisk extraktion av nyckelfraser ur webbplatser genom Bayesiansk klassificering
Automatisk extraktion av nyckelfraser ur webbplatser genom Bayesiansk klassificering MARTIN BLOMBERG Examensarbete Stockholm, Sverige 2005 TRITA-NA-E05101 Numerisk analys och datalogi Department of Numerical
Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Titel Mall för Examensarbeten (Arial 28/30 point size, bold)
Titel Mall för Examensarbeten (Arial 28/30 point size, bold) SUBTITLE - Arial 16 / 19 pt FÖRFATTARE FÖRNAMN OCH EFTERNAMN - Arial 16 / 19 pt KTH ROYAL INSTITUTE OF TECHNOLOGY ELEKTROTEKNIK OCH DATAVETENSKAP
Word- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
TDDD02 Föreläsning 7 HT-2013
TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Bootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Tentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång
FriendlyReader Språkteknologi för sammanfattningar och ökad läsbarhet Mål:! Öka den digitala delaktigheten genom att underlätta för personer med lässvårigheter att tillgodogöra sig textuellt baserad information
Klustring av svenska tidningsartiklar
Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/ Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier
Statistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Kort om World Wide Web (webben)
KAPITEL 1 Grunder I det här kapitlet ska jag gå igenom allmänt om vad Internet är och vad som krävs för att skapa en hemsida. Plus lite annat smått och gott som är bra att känna till innan vi kör igång.
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Tentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Språkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Tillämpad programmering CASE 1: HTML. Ditt namn
Tillämpad programmering CASE 1: HTML Ditt namn 18 [HTML] Din handledare vill se din skicklighet i att använda HTML-koden. Du ska utveckla en webbplats om ditt intresse, inriktning eller gymnasiearbete.
2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan 2004-10-17 SÖKMOTOROPTIMERING. Av Erik Lindgren 810110-8218 soft@kth.se
2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan 2004-10-17 SÖKMOTOROPTIMERING Av Erik Lindgren 810110-8218 soft@kth.se SAMMANFATTNING Föreliggande uppsats behandlar ämnet sökmotoroptimering.
Gränssnitt för FakeGranska. Lars Mattsson
Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken
Snabbguide till Cinahl
Christel Olsson, BLR 2008-09-26 Snabbguide till Cinahl Vad är Cinahl? Cinahl Cumulative Index to Nursing and Allied Health Literature är en databas som innehåller omvårdnad, biomedicin, alternativ medicin
Optimering av webbsidor
1ME323 Webbteknik 3 Lektion 7 Optimering av webbsidor Rune Körnefors Medieteknik 1 2019 Rune Körnefors rune.kornefors@lnu.se Agenda Optimering SEO (Search Engine Optimization) Sökmotor: index, sökrobot
Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter
Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger
Klustring av svenska texter P E T E R J O H A N S S O N
Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete Stockholm, Sverige 2006 Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete i datalogi om 20 poäng vid Programmet
Examensarbeten på dataingenjörsprogrammet
Examensarbeten på dataingenjörsprogrammet Den här texten riktar sig till studenter på Di-programmet. Syftet är att sammanfatta rutinerna för examensarbete vid institutionen för systemteknik. Inlämning
Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning
Grim. Några förslag på hur du kan använda Grim. Version 0.8
Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,
Algoritm för automatiserad generering av metadata. Algorithm for Automated Generation of Metadata
Algoritm för automatiserad generering av metadata Algorithm for Automated Generation of Metadata FREDRIK BERG & FREDRIK KARLSSON Examensarbete inom Datorteknik, Grundnivå, 15 hp Handledare på KTH: Reine
Cristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Innehåll. Informationssökning språkteknologiska hjälpmedel
Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,
Partiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Kravspecifikation Fredrik Berntsson Version 1.3
Kravspecifikation Fredrik Berntsson Version 1.3 Status Granskad FB 2017-01-27 Godkänd FB 2017-01-27 Dokumenthistorik Version Datum Utförda ändringar Utförda av Granskad 1.0 2014-01-15 Första versionen
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord
Språkteknologiska stöd Språkteknologiska stöd Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd
Hur man hjälper besökare hitta på en webbplats
Forskare vid Stockholms Universitet ger råd Hur man hjälper besökare hitta på en webbplats Av: Jacob Palme Filnamn:URL: http://dsv.su.se/jpalme/web-structure/hitta-webben.pdf Senast ändrad: 04-02-19 11.43
Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering
Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)
Kungl. Tekniska högskolan NADA Grundformer med Stava
Kungl. Tekniska högskolan NADA Grundformer med Stava Språkteknologi 2D1418 Höstterminen 2004 Författare: Andreas Pettersson az@kth.se 1. Bakgrund Om man automatiskt ska plocka ut de informationsbärande
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Genetisk programmering i Othello
LINKÖPINGS UNIVERSITET Första versionen Fördjupningsuppgift i kursen 729G11 2009-10-09 Genetisk programmering i Othello Kerstin Johansson kerjo104@student.liu.se Innehållsförteckning 1. Inledning... 1
Introduktion till språkteknologi
Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.
Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts.
Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts. Berkant Savas Tillämpad matematik i natur och teknikvetenskap, TNA5 Institutionen för teknik och naturvetenskap Linköpings universitet
Grammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
extensible Markup Language
Datavetenskap Opponenter: Björn Olsson Andreas Svensson Respondenter: Sanaa Al-abuhalje Afrah Al-abuhalje XML extensible Markup Language Oppositionsrapport, C-nivå 2007:06 1 Sammanfattat omdöme av examensarbetet
Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:
Business Intelligence Vad är r Business Intelligence? Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Intelligence är ett tvetydigt ord Både förmåga och underrättelse Hercules
TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen
Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier
Arv Fundamental objekt-orienterad teknik arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Programmeringsmetodik -Java 165 Grafisk respresentation: Arv
Webbutveckling Laboration 1: HTML5 och CSS3.
Institutionen för 2015-11-30 Tillämpad fysik och elektronik Karin Fahlquist Webbutveckling Laboration 1: HTML5 och CSS3. Målsättning Att skapa en webbplats genom att först skapa en Lo-fi prototyp och sedan
Vad kan statistik avslöja om svenska sammansättningar?
Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar
Sö ka artiklar öch annan litteratur
1 Sö ka artiklar öch annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur. Sökrutan är nästan det första du lägger märke till. Bakom denna sökruta döljer sig en databrunn och
Syns ni på sökmotorerna?
Syns ni på sökmotorerna? Internet är en av de snabbast växande reklamkanalerna just nu och allt fler företag riktar nu en allt större del av sin marknadsföring mot detta medie. Detta innebär att konkurrensen
Så vinner du fajten på Google
Så vinner du fajten på Google Så vinner du fajten på Google Sökmotoroptimeringens grunder Kunskapen som gör att ni kan börja arbeta med er synlighet redan idag. Innehållet viktigare än någonsin SEO = Content
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
grammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Automatisk textsammanfattning
Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
So ka artiklar och annan litteratur
1 So ka artiklar och annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur vare sig du letar efter böcker eller artiklar. Sökrutan är nästan det första du lägger märke till. Bakom
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Skriv! Hur du enkelt skriver din uppsats
Skriv! Hur du enkelt skriver din uppsats Josefine Möller och Meta Bergman 2014 Nu på gymnasiet ställs högra krav på dig när du ska skriva en rapport eller uppsats. För att du bättre ska vara förberedd
Random Indexing för vektorbaserad semantisk analys
Random Indexing för vektorbaserad semantisk analys ScandSum 23 Vektorbaserad semantisk analys Ord (-betydelser) som vektorer i en mångdimensionell rymd y gitarr luta ScandSum 23 x tuba Vektorbaserad semantisk
PubMed gratis Medline på Internet 1946-
Klicka på 1. SÖK i E-biblioteket 2. Flik Databaser 3. PubMed PubMed gratis Medline på Internet 1946- www.ebiblioteket.vgregion.se Fritextsökning Skriv in de ord du vill söka på (AND läggs automatiskt in
GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!
GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV! GRATIS SEO, SÖKOPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV! INNEHÅLL Introduktion 3 Varför det är nödvändigt att tänka på SEO 4 SEO-tips för planering
Random Indexing. - med större korpus. Olof Stange & Claes Toll Handledare: Johan Boye DD2418 - Språkteknologi
- med större korpus Olof Stange & Claes Toll - Språkteknologi Innehållsförteckning Inledning s. 3 Bakgrund s. 3 Metod s. 3-4 Problem s. 4 Resultat s. 4-5 Analys s. 6-8 Sammanfattning s. 8 Källförteckning
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.
Sid 1 (6) Skriva för webb Att skriva för webben handlar om att skriva kort och enkelt för att fånga läsaren. Relevant innehåll Fundera över vad läsaren vill veta. Skriv för målgruppen. Sovra i materialet.
Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi
Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med
Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.
Euroling SiteSeeker Sökning som en tjänst för webbplatser, intranät och e-handel. Euroling and SiteSeeker SiteSeeker högpresterande sökplattform Webbplatser, intranät och e-handel som en Appliance eller
HI1024 Programmering, grundkurs TEN
HI1024 Programmering, grundkurs TEN2 2016-12-22 KTH STH Flemingsberg 8.15-13.00 Tillåtna hjälpmedel: Kursboken C PROGRAMMING A Modern Approach K. N. King helt utan anteckningar Alternativt C från början
Att skriva rapporten för examensarbetet & sammanfattning av IMRAD. Ville Jalkanen TFE, UmU
Att skriva rapporten för examensarbetet & sammanfattning av IMRAD Ville Jalkanen TFE, UmU 2017-04-20 1 Att skriva och presentera rapporter http://www.teknat.umu.se/digitalassets/50/50357_att_skriva_rapport_umth_klar.pdf
Instruktioner. Innehåll: 1. Vad är Kimsoft Control (SIDA 2) 3. Hem (SIDA 2)
1 Instruktioner Innehåll: 1. Vad är Kimsoft Control (SIDA 2) 2. Logga in (SIDA 2) 3. Hem (SIDA 2) 4. Skapa/redigera sidor (SIDA 3) 41. Lägg till ny sida (SIDA 3) 42. Avancerat (SIDA 4) 5. Texteditor (SIDA
Kampanjtaggning. Lathund. Google Analytics. Erik Nettelbrandt Sida 1 av 7
Lathund Kampanjtaggning Google Analytics Erik Nettelbrandt 2017-02-07 Sida 1 av 7 Innehåll 1 Upptaggning av länkar för externa kampanjer... 3 1.1 Varför taggning?... 3 1.2 Hur fungerar det?... 3 1.3 Att
I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.
CINAHL Vad innehåller CINAHL? I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med. Fritextsökning Fritextsökning innebär att du söker i alla
FÖA110 Informationssökningsövningar facit
FÖA110 Informationssökningsövningar facit Övningar i boksökning 1. Sök någon av böckerna i din kurslitteraturlista i bibliotekets katalog. Tips: Sök på ISBN-numret eller sök på något eller några ord t.ex.
INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket
INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1 Medicinska biblioteket www.ub.umu.se IDAG SKA VI TITTA PÅ: Förberedelser för att söka vetenskaplig artikel: o Formulera en sökfråga o Välja ut bra sökord
UB:s sö ktjä nst - Söka artiklar och annan litteratur
1 UB:s sö ktjä nst - Söka artiklar och annan litteratur Innehåll Börja här... 2 Logga in... 2 Mitt konto... 3 Adressändring... 3 Spara sökresultat... 4 Sökhistorik & litteraturbevakning... 5 Söka, välja,
Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se
Tänk kreativt! Informationssökning Ha ett kritiskt förhållningssätt! Informationssökning steg för steg Innan du börjar behöver du formulera en fråga. Vad vill du hitta information om? Att utgå från: -
SU publikationer och ESI klasser: citeringsgrad och andel högt citerade publikationer
SU publikationer och ESI klasser: citeringsgrad och andel högt citerade publikationer Per Ahlgren, avd. för e-resurser, Stockholms universitetsbibliotek 1 Inledning I föreliggande rapport redogörs för
STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar
STRÄNGAR En av de mest avancerade av de normala datatyperna är. Här skall vi grundläggande gå igenom hur den datatypen fungerar och vidare flertalet funktioner som hör till datatypen. Låt oss kasta oss
Kursinformation och schema för Lingvistik 6 hp 729G08
LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga programmet 2012-10-29 Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2012 Lärare: Mathias Broth (281851)
Det här dokumentet är till för att ge en översikt över ASP.NET MVC samt hur WCF Services används från.net applikationer.
Informationsinfrastruktur 7.5 hp Mattias Nordlindh Inledning Det här dokumentet är till för att ge en översikt över ASP.NET MVC samt hur WCF Services används från.net applikationer. Dokumentet består av
Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
KUNGLIGA TEKNISKA HÖGSKOLAN KISTA. Lego Linefollower. Få en robot att följa linjen på golvet!
KUNGLIGA TEKNISKA HÖGSKOLAN KISTA Lego Linefollower Få en robot att följa linjen på golvet! Felix Ringberg 2012-08-09 felixri@kth.se Introduktionskurs i datateknik II1310 Sammanfattning I den här laborationen
Titel på examensarbetet. Dittnamn Efternamn. Examensarbete 2013 Programmet
Titel på examensarbetet på två rader Dittnamn Efternamn Examensarbete 2013 Programmet Titel på examensarbetet på två rader English title on one row Dittnamn Efternamn Detta examensarbete är utfört vid
Dependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?
Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins
Svensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Project Specification: Analysis of voting algorithms
Project Specification: Analysis of voting algorithms Mikael Falgard Jon Nilsson Computer Science Royal Institute of Technology 12 februari 2012 Introduktion Det är av stor betydelse för demokratin hur
Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt.
Kunskapsgraf Fredrik Åkerberg j.f.akerberg@gmail.com Tommy Kvant tommy.kvant@gmail.com 1 Introduktion Målet med projektet var att undersöka huruvida DBpedia.org, kan användas för att besvara frågor på
SEO Sökmotoroptimering
SEO Sökmotoroptimering Aaron Axelsson Presentation Head of SEO på Brath sedan 3 år Tidigare flera byråer i Sverige Head of SEO inom gambling Började som pokerskribent 2007 SEO sedan 2010 Sökmotoroptimering
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn: