Klustring av svenska texter P E T E R J O H A N S S O N
|
|
- Malin Hermansson
- för 8 år sedan
- Visningar:
Transkript
1 Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete Stockholm, Sverige 2006
2 Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete i datalogi om 20 poäng vid Programmet för teknisk fysik Kungliga Tekniska Högskolan år 2006 Handledare på CSC var Hercules Dalianis Examinator var Stefan Arnborg TRITA-CSC-E 2006:008 ISRN-KTH/CSC/E--06/008--SE ISSN Kungliga tekniska högskolan Skolan för datavetenskap och kommunikation KTH CSC Stockholm URL:
3 Sammanfattning Att klustra texter är att automatiskt kategorisera en samling texter efter innehållsmässig likhet. Det vill säga att ur en mängd texter skapas ett antal delmängder i vilka texterna läggs efter ordlikhet. Detta examensarbete undersöker hur väl klustring fungerar då klustringen sker efter ordens grundform och nominalfraser i svenska texter. Två textsamlingar undersöks KTH News Corpus och Karolinska Institutets medicinska textsamling. Ur dessa två textsamlingar plockas nominalfraser och ordens grundformer ut som sedan klustras. KTH:s News Corpus klustras med hjälp av ett program utvecklat av doktoranden Magnus Rosell vid Nada, KTH. Textsamlingen från Karolinska Institutet klustras med det kommersiella verktyget Semio. Förbehandling av svenska texter ger bättre resultat för Semio än utan förbehandling.
4 Clustering of Swedish texts Abstract To cluster texts is to automatically categorise a collection of texts after similarity according to word content. It means that from a set of texts create a number of subsets in which the texts are put after similarity. This thesis investigates how well clustering works when clustering is based on the words base form as well as nominal phrases on Swedish texts. Two collections of texts have been investigated KTH (Royal Institute of Technology) News Corpus and a medical collection of texts from Karolinska Institutet. From these two collections of texts the nominal phrases and the words base forms are extracted. These extracted outputs are used to cluster the texts. KTH News Corpus is clustered using a programme developed by Magnus Rosell a graduate student at Nada, KTH. The collection of texts from Karolinska Institutet is clustered with the commercial tool Semio. The preprocessing of Swedish improves the results from Semio compared to without pre-processing.
5 Förord Jag har gjort detta examensarbete inom Språkteknologigruppen på Institutionen för Numerisk Analys och Datalogi (NADA) vid Kungliga Tekniska Högskolan i Stockholm. Min handledare har varit docent Hercules Dalianis vilken jag vill passa på att tacka för den hjälp och vägledning jag har fått. Mitt tack går även till övriga i språkteknologigruppen som har hjälpt till särskilt professor Viggo Kann som gjort denna uppsats möjlig och Magnus Rosell för all hjälp och råd jag har fått under arbetets gång.
6 Innehållsförteckning 1 Inledning 1 2 Bakgrund och tidigare arbeten Bakgrund Klustring Tidigare arbeten Utvärderingsmått. 6 3 Utförande Implementation Klustring med Rosells program Klustring med Semio 10 4 Utvärdering 12 5 Slutord 14 6 Litteraturförteckning 15 A Ordlista 17 B Nominalfraser 18 C Exempel 19
7 1 Inledning Uppgiften för detta examensarbete var att klustra svenska medicinska artiklar och texter åt Karolinska Institutet och Språkteknologigruppen på Nada, KTH med hjälp av Semio[18] för att sedan klustra samma material med hjälp Magnus Rosells klustringsimplementation[3] och utvärdera resultatet. Arbetet utfördes inom ramen för Infomat-projektet på NADA, som finansieras av Vetenskapsrådet. Magnus Rosell har tidigare inom språkgruppen på NADA undersökt klustring av svenska tidningsartiklar genom uppdelning av ord i ordstammar och ordled. I detta examensarbete undersöks klustring av svenska artiklar med hjälp av nominalfraser (se appendix) och lemmatiserade ord, vilket tidigare inte gjorts. Ett lemmatiserat ord är ett ord i dess grundform (normalform). 1
8 2 Bakgrund och tidigare arbeten 2.1 Bakgrund I dagens ökande informationsflöde behövs det verktyg för att kategorisera och dela upp texter efter innehåll. I bibliotek är böcker indelade efter kategorier, underkategorier och till slut i bokstavsordning för att göra det lättare för människor att hitta det de söker. Tidningar brukar vara sorterade på något sätt för att vara överskådliga, t.ex. inrikes-, utrikes-, ekonomi- och sportnyheter. Tänk dig Dagens Nyheter med artiklarna utan någon indelning, att hitta det man är intresserad av skulle vara tidsödande. Informationen på Internet är inte sorterad på något sätt utan för att hitta informationen man är intresserad krävs en sökmotor eller att man känner till adressen till den sökta informationen. 2.2 Klustring Med kategorisering menas att man låter föra dokument till på förhand uppgjorda kategorier, när man talar om automatisk kategorisering menas att man låter en dator göra denna uppgift. Klustring innebär att man låter datorn finna naturliga grupperingar (kategorier) bland t.ex. texter/dokument. Klustring lämpar sig alltså inte för exempelvis tidningar med förutbestämda kategorier. Kluster kan beskrivas på följande två sätt [9]. Element i ett och samma kluster skall uppvisa så stor likhet som möjligt, det vill säga dokumenten i ett kluster bör ligga nära varandra. Element i olika kluster skall uppvisa så stor olikhet som möjligt, det vill säga olika kluster bör ligga långt ifrån varandra. 2.3 Tidigare arbeten Datorstödda klustringsmetoder har förekommit sedan mitten av sjuttiotalet inom en mängd områden. Anledningen till att man började använda datorer var att det var tidskrävande att sortera in materialet man vill gruppera för hand. Givetvis finns det även områden där man vill upptäcka dolda strukturer i sitt material. Fram till och med i början av 90-talet så var informationssökning och klustring ett smalt forskningsområde som mest fick intresse från bibliotek och informationssökningsexperter. I och med Internets (World Wide Web) uppkomst, uppstod ett enormt behov av att söka information på detta medium varför forskningen kring informationssökning och klustring har ökat markant. Dokumentklustring har traditionellt i huvudsak använts som ett medel att förbättra sökmotorers prestation genom att förklustra hela korpuset [2]. En korpus är en textsamling (dokumentmängd) sammanställd för vetenskapliga undersökningar. Det vanligaste sättet att klustra textdokument är genom att jämföra dokumenten efter något likhetsmått. Det vill säga att två dokument ur samma kluster ska vara mer lika varandra än två dokument ur olika kluster. Hur dokumenten representeras och hur likhet mellan olika dokument definieras skiljer sig mycket mellan olika tillämpningar. 2
9 Vivisimo[10] är en sökmotor som funnits sen år 2000 som använder sig av klustringsteknik. Den tillverkar ett hierarkiskt kluster när frågan ställs av de 200 första träffarna, inte av hela dokumentsamlingen. Traditionellt sett har sökmotorer förklustrat korpus men då Internet inte är statiskt så är det inte optimalt att ha fördefinierade kluster. En annan sökmotor som tidigare använt klustring är Northern Light [11]. Sökmotorer som AltaVista och Google använder andra tekniker som sidrankning m.m. Alla sökmotorer innehåller dock alltid tre delar [5]: En spindel (eng. spider, crawler) som letar igenom nätet och hämtar hem sidorna. En indexerare går igenom sidan och indexerar innehållet (orden). En sökmodul som söker i indexet. Att klustra texter används inom informationssökningstekniken som ett led i att förbättra resultaten. De andra leden brukar vara borttagning av stoppord, stemming, viktning av ord, (t.ex. orden i titeln antas vara viktigare än andra etc.) skapa index och normalisering. Normaliseringen av texterna görs under indexeringen och stemming ingår i normaliseringen [3][7]. Dokumentlängden brukar också ofta normaliseras. Det förekommer många olika sätt att förbättra resultaten inom området. De stora sökmotorerna på Internet använder idag inte dessa metoder överhuvudtaget utan indexerar alla termer i dokumentet. Förespråkarna för detta pekar på enkelheten och att det bättre speglar syntaxen i sökfrågorna att indexera alla ord i texterna. Trots detta pekar all forskning på att t.ex. stemming förbättrar sökresultaten. Anledningen till att de stora sökmotorerna inte använder dessa metoder är den stora dokumentmängden, exempelvis Google lagrar ungefär 1,3 miljarder webbsidor[19]. Representationen av texter görs ofta med den s.k. Vektormodellen[1] (eng. Vector Model). Det måste påpekas att detta gäller för mindre sökmotorer som är väldokumenterade, då de säljs tills kunder. De stora sökmotorerna på Internet är betydligt mer restriktiva då det gäller att dokumentera och därmed avslöja sin teknologi. Texterna representeras som ordvektorer ofta sorterade efter bokstavsordning med ett index som beror på hur frekvent ordet är i texten. Varje dokument ges med andra ord av en vektor: d = ( w 1, j, w 2, j,, w t, j ) t antalet termer, j värdet på termen. Antalet dokument i korpuset är D och d D. Mängden av texter representeras i ett flerdimensionellt rum med lika många dimensioner som antalet ord i textmängden. Rummet spänns upp av ordvektorerna, men alla linjärkombinationer av ordvektorer ger inte upphov till en existerande ordvektor. Alla dimensionerna är dessutom inte likvärdiga. Trots detta betraktar man rummet på vanligt geometriskt vis och gör geometriska tolkningar vad gäller avståndet mellan ordvektorerna [3]. Inom informationssökning representeras frågor som ett (kort) dokument och jämförs sedan med dokumenten i korpuset för att hitta de mest närliggande dokumenten. Det finns många sätt att beräkna likhet mellan dokument, ett vanligt sätt är att beräkna vinkeln mellan dokumenten med hjälp av cosinus [1]. 3
10 d1 d 2 cos( d 1, d 2 ) = = d1 * d 2 d * d 1 2 Ju mindre vinkeln är desto mer liknar dokumenten varandra, denna metod kräver att vektorerna är normaliserade. I facklitteratur ersätts ofta cosinus med beteckningen sim ( d 1, d 2 ) där sim står för engelskans similarity (likhet). Bland andra klassiska representationer av texter finns Booleanska modeller och sannolikhetsmodeller där den Booleanska modellen anses vara den svagaste då den inte kan finna partiala samband [1]. Modellerna delas in i tre huvudgrupper teoretiska modeller, algebraiska modeller och sannolikhetsmodeller. I den teoretiska gruppen ingår den Booleanska modellen, Fuzzy set och extended Boolean men ingen av dessa mängd teoretiska modelleringsmetoder har blivit populär inom informationssökningsområdet [1]. Bland de algebraiska modellerna finns en generaliserad Vektorrymdsmodell (eng. Vector Space Model), Latent Semantic Indexing Model (LSI) och Neural Network Model. LSI är en metod som bygger på vektormodellen. Det man försöker göra är att gruppera ihop dokument som har många gemensamma ord, på detta sätt kan man hitta dokument med liknande innehåll även om man inte använder samma ord och termer. Huvudidén med LSI är att projicera varje dokument till ett lägre antal dimensioner med t.ex. Single value decomposition (SVD) [12]. Då man projicerar så kommer en del vektorer att inte bli särskiljbara och väljer man de nya basvektorerna lämpligt så kommer de stora skillnaderna att kvarstå medan de mindre skillnaderna att försvinna. På detta sätt kan man klustra korpus och även hitta synonymer t.ex. om man söker efter båtsbygge så kommer man antagligen hitta dokument om skeppsbygge eftersom många av orden i dokumenten troligen är lika. Single value decomposition (SVD) är ett av många namn på liknande metoder för att projicera mångdimensionella data till ett mindre antal dimensioner. Metoden är nära besläktad med bland annat egenanalys och spektralanalys [12]. En metod att minska antalet dimensioner ytterligare är att använda en approximation av LSI/LSA kallad Random Indexing [13]. LSA står för Latent Semantic Analysis och är detsamma som Latent Semantic Indexing. Tanken bakom Neural Network Model eller Neuronnätsmodellen är att försöka efterlikna en hjärnas uppbyggnad [4]. Ett artificiellt neuronnät består av ett antal noder som ska efterlikna hjärnans neuroner och vikter emellan dessa noder. När en nod skickar ut en signal mottas signalen av andra noder viktade via kopplingen mellan noderna, sedan fortsätter signalen att fortplanta sig från dessa noder osv. så länge inte signalstyrkan blir lägre än ett visst tröskelvärde [4]. Neuronnätsmodellen har inte blivit testad ingående på stora korpusar och har inte fått något stort genomslag inom informationssökningsområdet, sökmotorn Autonomy[15] bygger på denna teknik. Inom sannolikhetsmodellerna är Bayesian Networks dominerande. Ett Bayesiskt nätverk är en Directed Acyclic Graph (DAG). Inom denna modell finns en variant kallad Interference Network Model som blivit implementerad i Inquery Retrieval System [14]. 4
11 Klustring kan göras på många olika sätt, ofta delar man upp klustringsalgoritmerna i hierarkisk och icke-hierarkisk klustring. Figur 1. En enkel klassifikation av klustringalgoritmer [8]. Hierarkisk klustring innebär som namnet betyder att man skapar en hierarki av kluster. Denna hierarki kan man åskådliggöra som ett träd, där klustret högst upp i trädet motsvarar roten och innefattar alla andra kluster. Klusterna i den lägsta nivån motsvarar trädets löv och innefattar givetvis inga andra kluster. Det finns två typer av hierarkisk klustring. Vanligast är sammanfogande algoritmer (agglomerativa) där alla texter är varsitt kluster från början. Sedan slås klusterna samman iterativt nerifrån och upp om dessa uppfyller ett visst kriterium. Den mest använda algoritmen i denna kategori kallas Group Average Link. Det finns även uppdelande-algoritmer (divisiva). Då börjar man med ett enda kluster och med hjälp av ett utvärderingsmått delar man upp texterna i flera kluster iterativt. Uppdelande algoritmer arbetar alltså uppifrån och ner till skillnad från de sammanfogande. Med Monothetic i figuren menas algoritmer som bara tar med exempelvis titeln när de klustrar, medan Polythetic tar med mer information. Således ger den senare bättre resultat men är långsammare. Hierarkisk klustring tenderar ofta till att bli mycket beräkningsintensiv då det sker en fullständig uppdelning i olika kluster på varje nivå av hierarkin när den byggs upp. Klustringen kräver också mycket minne då man måste ha en avståndsmatris mellan varje dokumentpar i korpuset [6]. Dessutom kan det vara svårt att få en bra överblick över hierarkin om man inte har en väldigt liten hierarki [8]. Icke-hierarkiska algoritmer har som namnet antyder ingen hierarki utan klusterna ligger på en nivå utan någon inbördes ordning/relation. Dessa algoritmer är ofta mycket mindre beräkningsintensiva än de hierarkiska. Icke-hierarkiska ligger ofta mellan O(n) och O(n 2 ) i komplexitet medan de hierarkiska ligger mellan O(n 2 ) och O(n 3 ) [8]. 5
12 2.4 Utvärderingsmått Det är brukligt att utvärdera implementationer och nya arbeten även inom klustringsområdet. Det är svårt att avgöra om en klustring är bra, en utvärderingsmetod kan ge ett bra värde och en annan ett dåligt. Om man har en känd indelning kan man jämföra den aktuella klustringens uppdelning med denna. Detta kallas för yttre mått och de vanligaste är precision och täckning (recall) [1]. Precision = Täckning = antalet korrekta texter i klustret antal texter i klustret antalet korrekta texter i klustret totala antalet korrekta texter Ett annat mått är entropi, ju lägre entropi ett system har desto mer ordnat är det. En välordnad klustring är vad man söker [3]. För ett enskilt kluster beräknas entropin i detta examensarbete i likhet med Rosells [3] enligt: E j = - i p log p ij ij Där p ij är sannolikheten att text i i kluster j tillhör klassen (kända indelningen) i. Sannolikheten beräknas genom att dividera antalet texter som tillhör klass i i kluster j med totala antalet texter i klustret j. Den totala entropin för klustringen beräknas sedan som summan av de enskilda klustringsentropierna viktade med storleken på de enskilda klustren. m njej E kluster = n j=1 Där m är totala antalet kluster, n j är antalet texter i den enskilda klustren och n är totala antalet texter i korpusen. Ett annat mått som använts i detta examensarbete är standardavvikelse. Detta ger ett spridningsmått (jämfört med medelvärdet som är ett lägesmått) på avståndet mellan text och typen av text innehållsmässigt. Definitionen på standardavvikelse (s) för en enskild text är följande: s 2 = (t i t) 2 där t i är den enskilda textens värde och t värdet på kategorin i vilken t i ingår. 6
13 Saknar man en känd indelning kan man använda statistiska eller geometriska iakttagelser av uppdelningen för att utvärdera klustringen. Detta kallas då för inre mått. 7
14 3 Utförande I det här kapitlet förklaras de olika modulerna (programmen) som använts i detta examensarbete och hur de arbetar tillsammans. 3.1 Implementation Inputfiler NP- -Extraktor Granska Rosells klustrare Outputfiler Semio Figur 2. Kommunikationen mellan applikationerna och filerna. Figur 2 ovan visar ett enkelt diagram över kommunikationen mellan NP-Extraktorn som utvecklats inom ramen för detta examensarbete i programspråket Java och övriga program/filer. NP-Extraktorn använder Granska [17] för att extrahera nominalfraser (eng. nominal phrases) och lemmatiserade ord ur inputfilerna (indata). Ett lemmatiserat ord är ett ord i dess grundform, för en utförlig förklaring av nominalfraser se appendix. Granska är ett program för datorstödd språkgranskning som har utvecklas på KTH i Stockholm. Inputfiler i diagrammet nedan är filerna som ska bearbetas vilket är det första som läses in. Då programmet har läst in en fil måste denna fil analyseras (eng. parse) beroende på filtypen. De olika typer av filer som behövde analyseras i detta examensarbete var text- och HTMLfiler och Karolinska Institutets egna filformat för sina medicinska texter. Det som sker under analysen är att allt utom text som tillhör artikeln tas bort. Det som tas bort är taggar m.m.. När detta är klart skickas filen till en version av Granska som körs på en av Nadas servrar. Granska svarar genom att skicka tillbaka en XML-fil (Extensible Markup Language) där texten är grammatiskt granskad. Från denna fil extraheras nominalfraserna och de lemmatiserade orden. Outputfilerna består av Granskas XML-fil, en fil med nominalfraserna och en fil med de lemmatiserade orden. Nominalfraserna och de lemmatiserade orden kan även fås genom att anropa metoder i programmet vilket förenklade och optimerade klustringen med Rosells klustrare. 8
15 3.2 Klustring med Rosells program Magnus Rosells uppgift i sitt examensarbete[3] var att konstruera, analysera och implementera en klustringsalgoritm för textfiler. För detaljer kring detta arbete hänvisas till rapporten [3]. Då både denna och min NP-Extraktorn gjordes i Java medgav detta direkt kommunikation mellan programmen vilket förenklade arbetet. De texter som klustrats på är tidningsartiklar från KTH:s News Corpus som även användes av Rosell. Dessa filer är på html-format och efter att texterna som skulle ingå i klustringarna bearbetats (se kap. 3.1) gjordes flera olika klustringar. De olika klustringarna gjordes på följande: De lemmatiserade orden. Nominalfraserna. Kombinationen av dessa två. Kombinationen med dubbelt så hög vikt på nominalfraserna. Magnus Rosells behandling av de svenska texterna: 1. Ta bort html-taggar och dela upp i ord 2. Ta bort stoppord 3. Generera ordled och ta bort vissa av dem 4. Stemma orden 5. Ta bort låg- och högfrekventa ord i korpusen 6. Ta bort texter med få ord 7. Vikta ord i titel och fetstil 8. Vikta orden efter hur frekventa de är 9. Normalisera texterna 10. Genomföra klustringen 9
16 3.3 Klustring med Semio Karolinska Institutet (KI) har en stor mängd medicinska texter och artiklar skrivna på svenska. Tidigare har KI klustrat sin medicinska korpus efter orden i denna med Semio. Semio är ett paket av klustrings- och indexeringsprogram utvecklat av Entrieva[18]. Grunden i paketet utgörs av Semio Tagger som samlar in text från de filer som klustringen ska byggas på och extraherar fraser ur dessa filer. Dessa fraser anser Semio vara representativa för innehållet i texterna. Dessa filer kan hämtas från en stor mängd olika källor databaser [18]. Fraserna som Semio Tagger har extraherat kan visas grafiskt i Semio Map (se figur 3 nedan). I denna visas sambandet fraserna har till varandra och hänsyn tas till frekvens (vikt) i textmängden. Då Semio är utvecklat för engelska kunde den inte bearbeta de svenska orden utan dessa fick bli i samma form som i texterna, detta ger förstås inte en vidare bra kategorisering. Uppgiften i detta examensarbete blev att klustra korpuset efter nominalfraserna i titlarna, sammanfattningarna och nyckelorden. Semios behandling av de engelska texterna: 1. Läsa in filerna 2. Konvertera olika filformat 3. Frasextraktion (inkl. stopplistor m.m.) 4. Fraskategorisering 5. Frasviktning 6. Dokumentkategorisering 7. Dokumentviktning 8. Genomföra klustringen Arbetsgången för de svenska texterna är densamma, skillnaden är att filerna som Semio läser in är output-filerna från NP-Extraktorn. Semio skapar en s.k. CBF (Categorized Bundle File) som innehåller följande information om dokumentet: Dokumentets ursprungliga text Metadata associerade med dokumentet Extraherade fraser från dokumentet Kategorier och vikter av fraser och dokument Detta är all information som skapas om dokumenten. Tyvärr är informationen i CBF-filerna krypterade så det går inte att jämföra och utvärdera resultaten från Semio med resultatet från Rosells klustrare. Bilden nedan visar hur gränssnittet ser ut för Semio. 10
17 Figur 3. Skärmdump från Semio med resultat från examensarbetet. 11
18 4 Utvärdering Textmängden som klustrades med Rosells klustrare var 2500 nyhetsartiklar från KTH News Corpus, spridda över fem kategorier Ekonomi, Nöje, Sport, Inrikes- och Utrikesnyheter. Textmängderna klustrades fyra gånger med avseende på lemman, nominalfraser, lemman och nominalfraser och slutligen lemman och nominalfraser där nominalfraserna har givits dubbel vikt. Entropi Standardavvikelse Bara lemma Bara nominalfraser Lemma och nominalfraser Lemma och nominalfraser med dubbel vikt Tabell 1 resultat från klustring med nominalfraser och lemman. I tabell 1 ses att enbart lemman och lemman kombinerat med nominalfraser ger bäst resultat. Lemman kombinerat med nominalfraser ger marginellt lägre entropi men har däremot högre standardavvikelse. Klustringen med enbart nominalfraser ger en markant högre entropi och även högre standardavvikelse. Anledningen till detta borde vara att relativt mycket information i texterna försvinner när nominalfraserna extraheras. Att lemman ger bättre resultat än nominalfraser är inget förvånande då klustring efter lemman baseras på ords grundformer. Klustring efter grundformen är i en mening mer strikt än om klustringen skulle ha skett efter obehandlade ord i texterna, med detta menas att ändelser och tidsformer (presens, imperfekt m.fl.) försvinner och ersätts med grundformen i klustringen. Detta borde även vara anledningen till att entropin och standardavvikelsen är högre när klustringen görs på nominalfraser då betydelsebärande ord som substantiv klustras med ändelser och tidsformer. I nominalfraser ingår givetvis även prepositioner, konjunktioner osv. vilket ger ett brus i klustringen som återspeglas i högre entropi och standardavvikelse. En annan viktig faktor för resultaten är att i klustringen med lemman togs vanligt förekommande ord bort efter en stopplista, vilket inte kunde användas med nominalfraserna då dessa fraser skulle ha blivit obegripliga om ord togs bort i dem. Karolinska Institutets medicinska textsamling klustrades enbart på nominalfraser som extraherades från artiklarnas rubriker och nyckelord. Denna klustring gjordes med Semio vilken KI tidigare gjort en klustring med på textsamlingen utan att på förhand bearbeta texterna. Denna tidigare klustring gjordes på ord efter ord i texterna och behövde förbättras för att vara till någon hjälp för forskarna på KI att hitta dolda samband i texterna m.m. Dessvärre gick det inte att jämföra matematiskt de olika klustringarna som gjorts i Semio eller mellan Semio och Rosells klustrare. Trots det gick det så att säga visuellt avgöra att klustringen med nominalfraser i Semio var utan tvivel mycket bättre än den tidigare med 12
19 obearbetade ord. Detta faktum att det inte gick att jämföra resultaten från Semio före och efter förbehandlingen gjorde det omöjligt att få siffror på förbättringen som nominalfraser visuellt gav. Anledningen till att det inte gick att jämföra dessa resultat är att Semio krypterar sina filer, detta för att inte avslöja sin klustringsteknologi. Tid gavs inte till en klustring efter lemman vilket säkerligen skulle ha givit ett ännu bättre resultat. Dessutom var textsamlingen förorenad av främmande ord på andra språk vilket försämrade resultatet. 13
20 5 Slutord En av idéerna bakom klustring från början var att det kunde förbättra resultaten från sökmotorer, vilket känns naturligt att från en fråga leta upp det kluster som bäst överensstämmer med den specifika frågan. Dock har inte denna teknik visat sig förbättra resultaten nämnvärt, vilket inte behöver innebära att metoden ska uteslutas inom informationssökning i framtiden. Idag handlar mycket av klusterforskningen om att utveckla och förbättra möjligheten att hitta dolda samband och utforska texter, det är inom denna kategori detta arbete återfinns. Att hitta dolda samband i stora textsamlingar som den medicinska från Karolinska Institutet som undersökts i detta examensarbete är ett område som det kommer att forskas mycket på framöver. Förhoppningsvis har denna rapport inom detta intressanta område gett eller kommer att ge något för framtida forskning. Detta kan vara att hitta samband mellan vissa levnadsvanor och sjukdomar eller ärftliga faktorer. Dessa kan t.ex. undersökas från Karolinska Institutets världsunika tvillingregister eller i andra texter som Språkteknologigruppen på Nada, KTH och Rosell arbetar med. 14
21 6 Litteraturförteckning [1] R. Baeza-Yates & B. Ribeiro-Neto (1999), Modern Information Retrieval, Addison- Wesley, ISBN X [2] C.J. Van Rijsbergen (1979), Information Retrieval, Butterworths, ( ) [3] M. Rosell (2002) Klustring av svenska tidningsartiklar, Examensarbete (20p), Numerisk Analys och Datalogi, Kungliga Tekniska Högskolan, Stockholm, ( ) [4] S. Haykin (1994), Neural Networks a Comprehensive Foundation 2 nd ed., Prentice Hall, ISBN [5] D. Stolpe (2003), Högre kvalite med automatisk textbehandling, Examensarbete (20p), Numerisk Analys och Datalogi, Kungliga Tekniska Högskolan, Stockholm, ( ) [6] G. Fung (2001) A Comprehensive Overview of Basic Clustering Algorithms, University of Wisconsin, ( ) [7] K. Bäckström (2000), Marknadsundersökning och utvärdering av indexeringsprogram, Examensarbete (20p) Institutionen för lingvistik, Uppsala universitet, ( ) [8] G. M. Downs och J. M. Barnard (1995), Hierarchical and non-hierarchical Clustering., Daylight EUROMUG meeting, Stevenage UK., ( ) [9] J. Dewe (1998), En prototyp för att klassificera dokument från WWW med avseende på genre och ämne, Examensarbete (20p), Numerisk Analys och Datalogi, Kungliga Tekniska Högskolan, Stockholm, ( ) [10] Vivisimo Document Clustering, ( ) [11] Northern Light Search, ( ) [12] A. Gabrielsson (2000), Dokumentrekommendationssystem och intranät, Examensarbete (20p) Institutionen för lingvistik, Uppsala universitet, ( ) [13] M. Sahlgren SICS, ( ) 15
22 [14] J.P. Callan, W.B. Croft och S.M. Hardin (1992), The INQUERY Retrieval System, in Proceedings of the 3rd International Conference on Database and Expert Systems, ( ) [15] Autonomy Systems, ( ) [16] G. Colliander, Kurs i elementär svensk grammatik 2000, Institutionen för nordiska språk, Stockholms universitet, ( ) [17] Granska, Språkteknologigruppen, Nada, KTH, ( ) [18] Semio, Entrieva, ( ) [19] Google, ( ) 16
23 A Ordlista Lemma: Ett lemma eller lemmatiserat ord är ett ord i dess grundform. T.ex är cykel grundform till cyklar, cykeln, cyklarnas. Ordled: Med ordled menas en uppdelning av sammansatta ord i deras enskilda ord. De enskilda orden ingår sedan när klustringen utförs. Dock kan sammansatta ord delas upp som inte bör delas upp t.ex. upp-tagen och miss-förstånd. För att inte dessa ord ska användas kan även en stopplista för ordled användas. Stemming: Vid stemming tas böjningarna på orden bort. Stemming är en enklare form av lemmatisering som inte kräver lika mycket datorkraft. Dock riskerar ord med olika mening att få samma stam. Stoppord: Stopporden är så kallade vanligt förekommande icke-betydelse bärande ord. T.ex. och, eller, på, under, genom, med etc. Stopporden filtreras bort från texter med hjälp av en stoppordlista eller stopplista. Ofta ligger stoppordens andel på cirka 40% av orden i texter. Taggning: Med taggning menas att en tagg sätts på varje ord i texten som bearbetas och som beskriver vilken ordklass ordet tillhör. Detta är viktigt av flera anledningar t.ex. böjningar och då olika ordklasser ges olika vikt i texter. 17
24 B Nominalfraser Med termen fras avses vanligen en språklig enhet som består av mer än ett ord, men en grammatisk fras kan också bestå av endast ett ord. Varje fras består av ett huvudord och eventuellt en eller flera bestämningar. Ex på olika fraser: arga katter, katter med rivet skinn, katter med rivet skinn dansa tango, mycket trevlig oerhört länge. En fras bildar på något sätt en sammanhängande logisk helhet. När ett substantiv (eller pronomen) är huvudord i en fras, kallas frasen nominalfras. I litteraturen förkortas nominalfrasen NP efter engelskans Noun Phrase. Nominalfrasen är en viktig del av satsen, där den kan inta olika funktioner såsom subjekt, objekt m m. Speciellt med NP är att den kan byggas ut på olika sätt med många olika bestämningar till huvudordet. Bestämningarna i en nominalfras kallas attribut. I följande tabell finner du exempel på NP:n med olika attribut. Själva huvudordet är markerat med fetstil och attributen omarkerade: Attributtyper adjektivattribut adverbattribut prepositionsattribut genitivattribut infinitivattribut bisats relativsats: Nominalfraser en liten katt trädet därborta damen med hunden Kalles kaviar Konsten att ljuga Frågan vad han tjänade Katten som sitter i trädet Detta appendix är taget från Gunilla Collianders kurs i elementär svensk grammatik [16]. 18
25 C Exempel Texter kan skrivas på många olika format. Exempel på format är HTML för Internet, textfiler etc. Formatet som KI använder i sin medicinska korpus finns nedan:..la:swe..dt:artikel..si:spriline *** BRS DOCUMENT BOUNDARY ***..UI: AU:Berleen, Göran..TT:Spri-studie om invandrares sjukvårdskonsumtion... I detta till synes kryptiska format genomfördes klustringen efter bl.a. TT vilket är titeln på artikeln. En HTML-fil ser ut enligt nedan: <html> <head> <title> Danskt stridsflygplan störtade i Nordsjön </title> </head> <body> Olyckan inträffade när planet var ute på ett träningsuppdrag över Nordsjön. </body> </html> 19
26 Då denna text bearbetas tas först HTML-taggarna bort och texten blir som nedan. Danskt stridsflygplan störtade Nordsjön Olyckan inträffade planet träningsuppdrag Nordsjön. Därefter skapas nominalfraserna och lemman se kap Dansk strid flygplan störta Nordsjön Olycka in träff plan träning uppdrag Nordsjön Då bearbetningen kommit hit genomförs steg som viktning av orden, borttagning av ord i texterna efter en stopplista. Dessa ord kan vara prepositioner, konjunktioner, hög- och lågfrekventa ord. När detta är genomfört klustras till slut textmängden. 20
27 TRITA-CSC-E 2006:008 ISRN-KTH/CSC/E--06/008--SE ISSN
Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring
Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är
Läs merKlustring av svenska tidningsartiklar
Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/ Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier
Läs merBilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering
Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merSYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till. o Ofta fogas
Läs merGrim. Några förslag på hur du kan använda Grim. Version 0.8
Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs merDet första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.
Sökexempel - Hälsovägledare Hälsovägledning med inriktning mot olika folkhälsoproblem som t ex rökning, tips på hur man går tillväga för att göra en datasökning och hur man även kontrollerar om artiklarna
Läs merInlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Läs merFöreläsning 3.1: Datastrukturer, en översikt
Föreläsning.: Datastrukturer, en översikt Hittills har vi i kursen lagt mycket fokus på algoritmiskt tänkande. Vi har inte egentligen ägna så mycket uppmärksamhet åt det andra som datorprogram också består,
Läs merSammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08.
Sammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08. Inledning BLR (Bibliotek & läranderesurser) vid Högskolan
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merArtiklar via UB:s sö ktja nst
1 Artiklar via UB:s sö ktja nst UBs startsida har fått ett nytt utseende. I centrum finns nu UBs söktjänst. Istället för tre sökrutor möts du nu som användare av en sökruta där det är meningen att du kan
Läs merStudie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen
LINKÖPINGS UNIVERSITET Institutionen för Datavetenskap Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen Namn E-mail Evelina Rennes evere305@student.liu.se INNEHÅLL INNEHÅLL
Läs merInnehåll. Informationssökning språkteknologiska hjälpmedel
Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,
Läs mer1284_omslag.qxd 2005-10-11 11:13 Sida 1 ECDL START OFFICE 2003 Allmän IT Windows XP Word 2003 Outlook 2003
ECDL START OFFICE 2003 Allmän IT Windows XP Word 2003 Outlook 2003 5 Arbeta med mappar och filer I Windows finns det två sätt att arbeta med de olika enheterna i systemet. Vilket du väljer beror på personligt
Läs merLathund till PsycINFO (OVID)
Lathund till PsycINFO (OVID) PsycINFO innehåller referenser till artiklar inom psykologi och angränsande ämnesområden, som medicin, psykiatri, sociologi m.m. Databasen indexerar tidskrifter från 1806 och
Läs merMicrosoft Windows 10 Grunder
WINDOWS 10 Grunder INLEDNING Mål och förkunskaper...5 Pedagogiken...5 Hämta övningsfiler...6 1 INTRODUKTION TILL WINDOWS Grundläggande om operativsystem...7 Starta och avsluta Windows 10...8 Välja kommandon...10
Läs merMicrosoft Windows 8 Grunder
WINDOWS 8 GRUNDER Inledning Mål och förkunskaper...5 Pedagogiken...5 Hämta övningsfiler...6 Del 1 1 Introduktion till Windows Grundläggande om operativsystem...7 Starta och avsluta Windows 8...8 Välja
Läs merLathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality
Lathund till PEP Databasen PEP (Psychoanalytic Electronic Publishing) innehåller 59 tidskrifter och 96 klassiska böcker inom psykoanalys. Dessutom innehåller PEP fulltext och redaktörskommentarer till
Läs merLaborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker
Sid 1 Laborationer i kursmomentet Datoranvändning E1 http://www.etek.chalmers.se/~hallgren/eda/ : Mer om FrameMaker 1996, 1997 Magnus Bondesson 1998 och 99-09-22 Thomas Hallgren 1 Introduktion I Laboration
Läs merHantera informationspaket i system för bevarande
Kompetensutveckling har erbjudits deltagare inom projektet Elektroniskt bevarande i form av en kurs i XML. Kursen har genomförts av Riksarkivet och haft en praktisk inriktning. Ett 10-tal personer deltog
Läs merAndelen personal som har en utbildning på forskarnivå fortsätter att öka
UF 23 SM 1601 Universitet och högskolor Personal vid universitet och högskolor 2015 Higher Education. Employees in Higher Education 2015 I korta drag Andelen personal som har en utbildning på forskarnivå
Läs merDesign och underhåll av databaser
Design och underhåll av databaser 1. Modell av verkligheten 2. Normalformer 3. Introduktion till DDL 4. Skapa databaser 5. Skapa tabeller 6. Skapa index 7. Restriktioner 8. Ta bort databaser, tabeller
Läs merChapter 3: Using Classes and Objects
Chapter 3: Using Classes and Objects I dessa uppgifter kommer du att lära dig om hur man använder klasser och metoder från java biblioteket. Du kommer inte att förstå allt som händer bakom metod anrop
Läs merCogSum. Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte
CogSum Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte Mimi Axelsson, Erica Bergenholm, Bertil Carlsson, Gro Dahlbom,
Läs merHandledning Miljömanualen på webben
Handledning Miljömanualen på webben Välkommen till Miljömanualen på webben. Det här dokumentet beskriver hur man använder Miljömanualen. Inloggning Börja med att logga in i avsedda fält uppe till höger
Läs merLilla PubMed-lathunden
Lilla PubMed-lathunden Om databasen PubMed PubMed är en databas som produceras av National Center for Biotechnology Information (NCBI) vid National Library of Medicine (NLM) i USA. Det är den största databasen
Läs merhjälp av SAS Text Miner
Enterprise Intelligence Customer Intelligence Supplier Intelligence Organizational Intelligence Intelligence Architecture Identifiera stora gömda värden i textbaserad information med hjälp av SAS Text
Läs merFritextsökning på studera.nu
Utarbetad av Anna Ekegren Version 1.0 Senast redigerad 2010-06-04 Fritextsökning på studera.nu POSTADRESS BESÖKSADRESS TELEFON TELEFAX Verket för högskoleservice Karlavägen 108, plan 8 08-725 96 00 08-725
Läs merKungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Läs merMANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen
SELMA MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen 4. SÖK I SELMA 4.1 Allmänt om sökningar 4.2 Valfria sökord 4.2.1 Utökad sökning (högertrunkering) 4.2.2 Kombinerad sökning (boolska operatorer)
Läs merHögskolebiblioteket vid Mälardalens högskola
Högskolebiblioteket vid Mälardalens högskola Biblioteksenkät 2009 1 Innehåll Innehåll... 2 Inledning... 3 Metod... 3 Redovisningen... 3 Antal svar... 4 Förhållandet mellan orterna... 4 Användarkategorier...
Läs merEtt exempel på hur man kan använda Discovery. Ulrika Nilsson Viktor Öman
Ett exempel på hur man kan använda Discovery Ulrika Nilsson Viktor Öman Innan vi börjar söka väljer vi Search Options och sedan Advanced Search. Discovery Discovery Discovery är förinställt på att söka
Läs merFORMALIA EXAMENSARBETE
FORMALIA EXAMENSARBETE - FÖR UTBILDNINGAR VID NORRLANDS YRKESHÖGSKOLA Skolgatan 52 903 27 Umeå Tel: 090-77 86 00 www.nyhs.se INNEHÅLLSFÖRTECKNING 1. KÄLLHÄNVISNING/FOTNOTER... 3 2. KÄLLFÖRTECKNING... 3
Läs merInnehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation
Innehåll Föreläsning 11 Trie Sökträd Trie och Sökträd 356 357 Trie Ytterligare en variant av träd. Vi har tidigare sett: Oordnat träd där barnen till en nod bildar en mängd Ordnat träd där barnen till
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merGrupparbete om PBL Problembaserat Lärande
TÄRNA FOLKHÖGSKOLA Grupparbete om PBL Problembaserat Lärande 2009-09-18 - 2 - Innehåll Bakgrund... - 3 - Syfte... - 4 - Metod... - 4 - Fakta... - 5 - Resultat... - 7 - Diskussion... - 9 - Referenser...-
Läs merUng och utlandsadopterad
Institutionen för samhälls- och välfärdsstudier ISV LiU Norrköping Ung och utlandsadopterad En intervjustudie om problembilden kring utlandsadopterade ungdomar Maria Persson Uppsats på grundläggande nivå
Läs merGrafisk visualisering av en spårbarhetslösning
Datavetenskap Opponenter Johan Kärnell och Linnea Hjalmarsson Respondenter Agni Rizk och Tobias Eriksson Grafisk visualisering av en spårbarhetslösning Oppositionsrapport, C-nivå Report 2011:06 1. Generell
Läs merNÄR DU SÖKER FAKTA OM
Hersby gymnasium Biblioteket NÄR DU SÖKER FAKTA OM EN HJÄLP VID INFORMATIONSSÖKNING 1 Det första Du söker information i är förmodligen ett allmänt uppslagsverk, bara för att få en uppfattning om ämnet
Läs merProjektrapport - Live commentary
Projektrapport - Live commentary Linnéa Åberg - la222pp Beskrivning Vision och översiktlig beskrivning Det är en applikation för den som vill skapa intressanta diskussioner för live event eller program
Läs merGrafer. 1 Grafer. Grunder i matematik och logik (2015) 1.1 Oriktade grafer. Marco Kuhlmann
Marco Kuhlmann 1 En graf är en struktur av prickar förbundna med streck. Ett tidsenligt exempel på en sådan struktur är ett social nätverk, där prickarna motsvarar personer och en streck mellan två prickar
Läs merEn snabb titt på XML LEKTION 6
LEKTION 6 En snabb titt på XML Bokstaven x i Ajax står för XML, ett mycket användbart beskrivningsspråk som gör det möjligt för Ajax-tillämpningar att hantera komplex strukturerad information. I den här
Läs merWINDOWS 8.1. Grunder
WINDOWS 8.1 Grunder EXCEL 2013 Grunder INLEDNING Mål och förkunskaper...5 Pedagogiken...5 Hämta övningsfiler...6 1 INTRODUKTION TILL WINDOWS Grundläggande om operativsystem...7 Starta och avsluta Windows
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merQlikView - Lathund för Flödesmodellen bas
QlikView - Lathund för Flödesmodellen bas För att komma åt en applikation i QlikView (hädanefter QV) krävs QV-pluginlicens samt behörighet till applikationen. Beställning av både licens och behörighet
Läs merHands-On Math. Matematikverkstad. Förskolans nya läroplan 1 juli 2011. Matematik är en abstrakt och generell vetenskap
Hands-On Math Matematikverkstad 09.00 10.30 & 10.45 12.00 Elisabeth.Rystedt@ncm.gu.se Lena.Trygg@ncm.gu.se eller ett laborativt arbetssätt i matematik Laborativ matematikundervisning vad vet vi? Matematik
Läs merEn handledning för studerande på Högskolan Kristianstad
Använda kurskonferenser i FirstClass En handledning för studerande på Åsa Kronkvist, augusti 2005 Innehåll Introduktion...3 Webbklient eller FirstClassklient?...3 Allt ligger online...3 Hitta rätt...4
Läs merMarie Andersson, IKT-centrum E-post: iktcentrum@mdh.se 2012-06-10 (Bb Learn 9.1.8) Wikis i Blackboard
Marie Andersson, IKT-centrum E-post: iktcentrum@mdh.se 2012-06-10 (Bb Learn 9.1.8) Wikis i Blackboard Innehåll Om Wiki- funktionen... 1 Skapa en Wiki... 1 Lägg till/ redigera innehåll i en Wiki... 3 Läsa/skriva
Läs merSkriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10
Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10 Maria Björklund (Bibliotek & IKT) & Fredrik von Wowern (Kursansvariga termin 10), reviderad 2014-06-30 Introduktion till
Läs merFår jag be om ordet!
Får jag be om ordet! Får jag be om ordet är ett datorprogram för läs- och skrivutveckling, utvecklat av logoped Bitte Rydeman. Det innehåller åtta olika delprogram, där man på olika sätt arbetar med ordbilder,
Läs merORDNA DINA BILDER. Var finns bilderna Var bör de finnas
ORDNA DINA BILDER Var finns bilderna Var bör de finnas VAR ÄR MINA BILDER? Några råd till dej som inte kan hitta dina dokument och bilder eller som tycker att de finns på flera ställen och ändå vet du
Läs merObjektorienterad programmering
Objektorienterad programmering Emil Ahlqvist (c10eat@cs.umu.se) Didrik Püschel (dv11dpl@cs.umu.se) Johan Hammarström (c08jhm@cs.umu.se) Hannes Frimmel Moström (c10hml@cs.umu.se) 1 1. Introduktion 1.1 Objektorienterad
Läs merLathund till Nursing & Allied Health Source
Lathund till Nursing & Allied Health Source Databasen Nursing & Allied Health Source riktar sig såväl till forskare och studenter på högskolor/universitet som till forskare aktiva inom klinisk verksamhet.
Läs merHandledning för publicering av avhandlingar och andra vetenskapliga publikationer i DiVA
Handledning för publicering av avhandlingar och andra vetenskapliga publikationer i DiVA Innehållsförteckning Instruktion för att lägga in din avhandling i DiVA... 2 Publicera avhandlingen... 2 Publicering
Läs merLathund till Academic Search Complete
Lathund till Academic Search Complete Academic Search Complete är en databas som bl.a. innehåller samhällsvetenskap, humaniora, pedagogik, omvårdnad och medicin. Databasen innehåller mer än 8 500 tidskrifter
Läs merVetenskaplig teori och metod II Att hitta vetenskapliga artiklar
Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar Sjuksköterskeprogrammet T3 Maj 2015 Camilla Persson camilla.persson@umu.se Idag tittar vi på: Repetition av sökprocessen: förberedelser
Läs merProjektarbete 2: Interaktiv prototyp
Projektarbete 2: Interaktiv prototyp Jonatan Hilmarch (Grupp 13) 880427-5595 hilmarch@skip.chalmers.se Kurs: Människa-Datorinteraktion TIG061 HT 2010 Projekt 1 - en tillbakablick Enligt projektets systemdefinition
Läs merCoridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter
Datavetenskap Opponenter: Daniel Jansson Mikael Jansson Respondenter: Mats Almgren Erik Hansen Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter Oppositionsrapport,
Läs merversion 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg
version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg Introduktion till kursbyggarverktyg Contento Svenska AB Hornsgatan 103 117 28 Stocholm Table of Contents KAPITEL 1 Introduktion 2 Begrepp
Läs merOmvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter
Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,
Läs merHur man importerar referenser från olika databaser/databasvärdar
2013-02-05 Karlstads universitetsbibliotek Hur man importerar referenser från olika databaser/databasvärdar Import av referenser från American Chemical Society Gör en sökning i ACS. Markera relevanta poster.
Läs merLåt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten.
Till läraren om kopieringsunderlag: Ledtrådar och bevis Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten. 1. De börjar med att titta på rubriker och bilder.
Läs mer============================================================================
Begränsat/avdelat nätverk Postad av Marcus - 31 jul 2015 17:26 Hejsan! Har en ADLS anslutning och kombinerat modem/router idag, men vill ha en anslutning på en av Ethernet portarna som har tillgång till
Läs merIT för personligt arbete F2
IT för personligt arbete F2 Nätverk och Kommunikation DSV Peter Mozelius Kommunikation i nätverk The Network is the Computer Allt fler datorer är sammankopplade i olika typer av nätverk En dators funktionalitet
Läs merSkolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt
Linköpings universitet Grundskollärarprogrammet, 1-7 Linda Irebrink Skolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt Examensarbete 10 poäng Handledare:
Läs merPYC. ett program för att utbilda föräldrar
PYC ett program för att utbilda föräldrar Föräldrar med intellektuella funktionshinder: erfarenheter av att pröva och införa ett föräldrastödsprogram i Sverige Detta är en sammanställning på enkel svenska.
Läs merForma komprimerat trä
Forma komprimerat trä - maskinell bearbetning av fria former Peter Conradsson MÖBELSNICKERI Carl Malmsten Centrum för Träteknik & Design REG NR: LiU-IEI-TEK-G 07/0025 SE Oktober 2007 Omslagsbild: Stol
Läs merKontrollerade ämnesord, egna sökord i fritext och keywords. Örebro universitetsbibliotek Birgitta Hansson och Monica Norr
Kontrollerade ämnesord, egna sökord i fritext och keywords Örebro universitetsbibliotek Birgitta Hansson och Monica Norr Ämnesord För att göra en bra sökning är det viktigt att söka med rätt termer. De
Läs mer1 Skapa Tabell...2. 2 Skapa Relationer...20. 3 Redigera Relationer...24. 4 Redigera Fält i Tabell...26. 5 Lägga till Poster i Tabell...
Kapitel 5 Tabell 1 Skapa Tabell...2 1.1 Tabellfönstret... 4 1.2 Fältegenskaper... 8 1.3 Primärnyckel... 11 1.4 Spara Tabell... 12 1.5 Tabellguiden... 12 2 Skapa Relationer...20 3 Redigera Relationer...24
Läs merKLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter
*Skatteverket 1(10) KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter Våra webbtexter, liksom alla texter vi producerar för externt bruk på Skatteverket, ska vara skrivna på ett sätt som gör att läsaren
Läs merTingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens
Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens Formalia Enkäter Öppna föreläsningar Stöd via sociala medier facebook.com/peter.t.ryden
Läs merDnr: 2008-311-76. Statliga pensioner trender och tendenser
Dnr: 2008-311-76 Statliga pensioner trender och tendenser Framtida pensionsavgångar 2008-2017 Innehållsförteckning Förord 2 Sammanfattning av trender & tendenser 3 1. Pensionsavgångar inom statsförvaltningen
Läs merSveriges Arkitekter Swedish Association of Architects. Lönestatistik. Från 2014 års löneenkät
Sveriges Arkitekter Swedish Association of Architects Lönestatistik Från 2014 års löneenkät 2 Löneenkät 2014 Innehåll Inledning 4 Ingångslöner 5 Privat sektor 6 Kommunal sektor 11 Statlig sektor 13 Chefer
Läs merALEPH ver. 16 Sökning
Fujitsu, Westmansgatan 47, 582 16 Linköping INNEHÅLLSFÖRTECKNING 1. INLEDNING... 1 2. SÖK... 1 2.1 Avancerad sökning... 2 2.2 CCL flera databaser... 2 2.3 Flera fält... 3 2.4 Regler för sökning... 4 2.5
Läs merIncitamentsprogram svenska börsnoterade bolag Studie genomförd 2015 KPMG i Sverige
Incitamentsprogram i svenska börsnoterade bolag Studie genomförd 2015 KPMG i Sverige KPMG.se Innehåll Inledning... 3 Nya program under perioden... 5 Program per bransch... 6 Program per storlek... 7 Lösenkurs,
Läs merRyska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat
Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på
Läs merSkatteNytt, skrivregler
SkatteNytt, skrivregler ISSN: 0346-1254 Utgivning: 10 häften per år, varav två dubbelhäften Ämne: Skatterätt, redovisningsrätt, finansrätt, skatteekonomi Förlag: Skattenytt Förlags AB c/o eddy.se ab Box
Läs merLexikon: ordbildning och lexikalisering
Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke
Läs merFärgklövern. Färgklövern är gjord 1998 i samarbete mellan Datateket i Linköping och Hargdata AB i Linköping.
Färgklövern I Färgklövern kan du leka med färger, på lite olika sätt i de olika delprogrammen. Bestäm själv vilka och hur många färger du vill färglägga med. Alla dina målade bilder kan även skrivas ut
Läs merNedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
Läs merKOMMUNENS KVALITET I KORTHET. KKiK-presentationer 2015 ÅRS UNDERSÖKNING. KKiK-presentationer 1
KOMMUNENS KVALITET I KORTHET KKiK-presentationer 2015 ÅRS UNDERSÖKNING KKiK-presentationer 1 KKiK-presentationer 2 KKiK-presentationer 2015 års undersökning Sveriges Kommuner och Landsting, 2015 Text:
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merUtskrift av inspelat samtal hos Arbetsförmedlingen
BJÖRN L BERGLUND UTSKRIFT AV SAMTAL HOS AF 1 (9) Utskrift av inspelat samtal hos Arbetsförmedlingen Samtalet ägde rum hos Arbetsförmedlingen i Sollentuna tisdag 13 juni 2006 kl. 11.00 Inspelningen är cirka
Läs merAllt fler kvinnor bland de nyanställda
STATISTISK ANALYS 1(8) Avdelning Datum/ löpunmmer 2013-09-10 / 7 Analysavdelningen Universitetskanslersämbetets statistiska analyser är en Handläggare av formerna för att löpande redovisa utvecklingen
Läs merTingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens
Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens ÖPPEN FÖRELÄSNING INFORMATIONSSÖKNING MAJ 2012 STÖD VIA SOCIALA
Läs merLåt mig inledningsvis citera en dikt av Bengt Bratt:
1 Tal av Ragnwi Marcelind vid konferensen "Kulturen har en plats i vård och behandling på Smålands musik och teater i Jönköping den 13 oktober 2009. Tack Tack för att jag blivit inbjuden att tala vid den
Läs merNyheter och förändringar i advantum release 3.0
1(5) Fastighetsavdelning 2007-04-03 Nyheter och förändringar i advantum release 3.0 Nedan följer en mer detaljerad förteckning över de nyheter och förändringar som genomförts i den nya releasen av advantum.
Läs merFörberedelse-PM Examensarbete för Byggteknik
Förberedelse-PM Examensarbete för Byggteknik Introduktion Examensarbetet är ingenjörsutbildningarnas avslutande kurs (härefter kallad exjobbs-kursen) där du skall tillämpa kunskaper och färdigheter från
Läs merAnvändarhandledning Rapportgenerator Version: 1.1
Användarhandledning Rapportgenerator Version: 1.1 Umefast AB 2008 www.umefast.se Innehåll 1. Rapportgenerator... 2 1.1. Syfte och avgränsningar... 2 1.2. Wizards... 2 1.3. Förutsättningar för arbete med
Läs merDesignmönster - EMW. Kent Petersson epost1: kentp@cs.chalmers.se epost2: kent.petersson@emw.ericsson.se URL: http://www.cs.chalmers.
Designmönster - EMW Kent Petersson epost1: kentp@cs.chalmers.se epost2: kent.petersson@emw.ericsson.se URL: http://www.cs.chalmers.se/~kentp arbetar på Inst. för Datavetenskap, Cth & Gu, 50% och Software
Läs merLaboration: Att inhägna ett rektangulärt område
Laboration: Att inhägna ett rektangulärt område Du har tillgång till ett hoprullat staket som är 30 m långt. Med detta vill du inhägna ett område och använda allt staket. Du vill göra inhägnaden rektangelformad.
Läs merClassfronter Vägledning för Studenter (version 1.1)
Classfronter Vägledning för Studenter (version 1.1) 1. LOGGA IN. VÄLJA RUM/KURS 4 3. SKRIVA IN INFORMATION OCH ÄNDRA PERSONLIGA UPPGIFTER. 4 4. ANVÄNDA HJÄLP-SYSTEMET 5 5. LÄSA MEDDELANDEN. 5 6. DELTA
Läs merFöreläsning 11. Giriga algoritmer
Föreläsning 11 Giriga algoritmer Föreläsning 11 Giriga algoritmer Användning Växelproblemet Kappsäcksproblemet Schemaläggning Färgläggning Handelsresandeproblemet Uppgifter Giriga algoritmer (Greedy algorithms)
Läs merRiktlinjer för Gymnasiearbete skriftlig rapport. Titel. Titeln får inte vara för lång, högst fem ord.
Riktlinjer för Gymnasiearbete skriftlig rapport Titel Titeln får inte vara för lång, högst fem ord. Eventuell undertitel Undertitel ska ej upprepa vad som sägs i huvudtiteln. Högst två rader Namn/klass
Läs merInvandrarföretagare i Sverige och Europa. Farbod Rezania, Ahmet Önal Oktober 2009
Invandrarföretagare i Sverige och Europa Farbod Rezania, Ahmet Önal Oktober 2009 Sammanfattning 1 Sammanfattning I denna rapport har möjligheter och hinder för företagandet i Sverige jämförts med motsvarande
Läs merDe interaktiva kuddarna Textil som kommunikationsredskap
De interaktiva kuddarna Textil som kommunikationsredskap Linda Melin, Interactive Institute, PLAY Research www.interactiveinstitute.se Abstract in English This work is about combining textile design and
Läs merAnvändarmanual HOIF.org
Användarmanual HOIF.org HOIF.org 2013-05-21 37 sidor Användarmanual för HOIF.org Introduktion Det här är en manual till alla användare på hemsidan HOIF.org Hur får jag ett användarkonto? För att kunna
Läs merUniversitet och högskolor. Doktorander och examina på forskarnivå 2011. Flest doktorandnybörjare inom medicin och hälsovetenskap
UF 21 SM 1201 Universitet och högskolor. Doktorander och examina på forskarnivå 2011 Doctoral students and degrees at third cycle studies 2011 I korta drag Flest doktorandnybörjare inom medicin och hälsovetenskap
Läs mer