Klustring av svenska texter P E T E R J O H A N S S O N

Storlek: px
Starta visningen från sidan:

Download "Klustring av svenska texter P E T E R J O H A N S S O N"

Transkript

1 Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete Stockholm, Sverige 2006

2 Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete i datalogi om 20 poäng vid Programmet för teknisk fysik Kungliga Tekniska Högskolan år 2006 Handledare på CSC var Hercules Dalianis Examinator var Stefan Arnborg TRITA-CSC-E 2006:008 ISRN-KTH/CSC/E--06/008--SE ISSN Kungliga tekniska högskolan Skolan för datavetenskap och kommunikation KTH CSC Stockholm URL:

3 Sammanfattning Att klustra texter är att automatiskt kategorisera en samling texter efter innehållsmässig likhet. Det vill säga att ur en mängd texter skapas ett antal delmängder i vilka texterna läggs efter ordlikhet. Detta examensarbete undersöker hur väl klustring fungerar då klustringen sker efter ordens grundform och nominalfraser i svenska texter. Två textsamlingar undersöks KTH News Corpus och Karolinska Institutets medicinska textsamling. Ur dessa två textsamlingar plockas nominalfraser och ordens grundformer ut som sedan klustras. KTH:s News Corpus klustras med hjälp av ett program utvecklat av doktoranden Magnus Rosell vid Nada, KTH. Textsamlingen från Karolinska Institutet klustras med det kommersiella verktyget Semio. Förbehandling av svenska texter ger bättre resultat för Semio än utan förbehandling.

4 Clustering of Swedish texts Abstract To cluster texts is to automatically categorise a collection of texts after similarity according to word content. It means that from a set of texts create a number of subsets in which the texts are put after similarity. This thesis investigates how well clustering works when clustering is based on the words base form as well as nominal phrases on Swedish texts. Two collections of texts have been investigated KTH (Royal Institute of Technology) News Corpus and a medical collection of texts from Karolinska Institutet. From these two collections of texts the nominal phrases and the words base forms are extracted. These extracted outputs are used to cluster the texts. KTH News Corpus is clustered using a programme developed by Magnus Rosell a graduate student at Nada, KTH. The collection of texts from Karolinska Institutet is clustered with the commercial tool Semio. The preprocessing of Swedish improves the results from Semio compared to without pre-processing.

5 Förord Jag har gjort detta examensarbete inom Språkteknologigruppen på Institutionen för Numerisk Analys och Datalogi (NADA) vid Kungliga Tekniska Högskolan i Stockholm. Min handledare har varit docent Hercules Dalianis vilken jag vill passa på att tacka för den hjälp och vägledning jag har fått. Mitt tack går även till övriga i språkteknologigruppen som har hjälpt till särskilt professor Viggo Kann som gjort denna uppsats möjlig och Magnus Rosell för all hjälp och råd jag har fått under arbetets gång.

6 Innehållsförteckning 1 Inledning 1 2 Bakgrund och tidigare arbeten Bakgrund Klustring Tidigare arbeten Utvärderingsmått. 6 3 Utförande Implementation Klustring med Rosells program Klustring med Semio 10 4 Utvärdering 12 5 Slutord 14 6 Litteraturförteckning 15 A Ordlista 17 B Nominalfraser 18 C Exempel 19

7 1 Inledning Uppgiften för detta examensarbete var att klustra svenska medicinska artiklar och texter åt Karolinska Institutet och Språkteknologigruppen på Nada, KTH med hjälp av Semio[18] för att sedan klustra samma material med hjälp Magnus Rosells klustringsimplementation[3] och utvärdera resultatet. Arbetet utfördes inom ramen för Infomat-projektet på NADA, som finansieras av Vetenskapsrådet. Magnus Rosell har tidigare inom språkgruppen på NADA undersökt klustring av svenska tidningsartiklar genom uppdelning av ord i ordstammar och ordled. I detta examensarbete undersöks klustring av svenska artiklar med hjälp av nominalfraser (se appendix) och lemmatiserade ord, vilket tidigare inte gjorts. Ett lemmatiserat ord är ett ord i dess grundform (normalform). 1

8 2 Bakgrund och tidigare arbeten 2.1 Bakgrund I dagens ökande informationsflöde behövs det verktyg för att kategorisera och dela upp texter efter innehåll. I bibliotek är böcker indelade efter kategorier, underkategorier och till slut i bokstavsordning för att göra det lättare för människor att hitta det de söker. Tidningar brukar vara sorterade på något sätt för att vara överskådliga, t.ex. inrikes-, utrikes-, ekonomi- och sportnyheter. Tänk dig Dagens Nyheter med artiklarna utan någon indelning, att hitta det man är intresserad av skulle vara tidsödande. Informationen på Internet är inte sorterad på något sätt utan för att hitta informationen man är intresserad krävs en sökmotor eller att man känner till adressen till den sökta informationen. 2.2 Klustring Med kategorisering menas att man låter föra dokument till på förhand uppgjorda kategorier, när man talar om automatisk kategorisering menas att man låter en dator göra denna uppgift. Klustring innebär att man låter datorn finna naturliga grupperingar (kategorier) bland t.ex. texter/dokument. Klustring lämpar sig alltså inte för exempelvis tidningar med förutbestämda kategorier. Kluster kan beskrivas på följande två sätt [9]. Element i ett och samma kluster skall uppvisa så stor likhet som möjligt, det vill säga dokumenten i ett kluster bör ligga nära varandra. Element i olika kluster skall uppvisa så stor olikhet som möjligt, det vill säga olika kluster bör ligga långt ifrån varandra. 2.3 Tidigare arbeten Datorstödda klustringsmetoder har förekommit sedan mitten av sjuttiotalet inom en mängd områden. Anledningen till att man började använda datorer var att det var tidskrävande att sortera in materialet man vill gruppera för hand. Givetvis finns det även områden där man vill upptäcka dolda strukturer i sitt material. Fram till och med i början av 90-talet så var informationssökning och klustring ett smalt forskningsområde som mest fick intresse från bibliotek och informationssökningsexperter. I och med Internets (World Wide Web) uppkomst, uppstod ett enormt behov av att söka information på detta medium varför forskningen kring informationssökning och klustring har ökat markant. Dokumentklustring har traditionellt i huvudsak använts som ett medel att förbättra sökmotorers prestation genom att förklustra hela korpuset [2]. En korpus är en textsamling (dokumentmängd) sammanställd för vetenskapliga undersökningar. Det vanligaste sättet att klustra textdokument är genom att jämföra dokumenten efter något likhetsmått. Det vill säga att två dokument ur samma kluster ska vara mer lika varandra än två dokument ur olika kluster. Hur dokumenten representeras och hur likhet mellan olika dokument definieras skiljer sig mycket mellan olika tillämpningar. 2

9 Vivisimo[10] är en sökmotor som funnits sen år 2000 som använder sig av klustringsteknik. Den tillverkar ett hierarkiskt kluster när frågan ställs av de 200 första träffarna, inte av hela dokumentsamlingen. Traditionellt sett har sökmotorer förklustrat korpus men då Internet inte är statiskt så är det inte optimalt att ha fördefinierade kluster. En annan sökmotor som tidigare använt klustring är Northern Light [11]. Sökmotorer som AltaVista och Google använder andra tekniker som sidrankning m.m. Alla sökmotorer innehåller dock alltid tre delar [5]: En spindel (eng. spider, crawler) som letar igenom nätet och hämtar hem sidorna. En indexerare går igenom sidan och indexerar innehållet (orden). En sökmodul som söker i indexet. Att klustra texter används inom informationssökningstekniken som ett led i att förbättra resultaten. De andra leden brukar vara borttagning av stoppord, stemming, viktning av ord, (t.ex. orden i titeln antas vara viktigare än andra etc.) skapa index och normalisering. Normaliseringen av texterna görs under indexeringen och stemming ingår i normaliseringen [3][7]. Dokumentlängden brukar också ofta normaliseras. Det förekommer många olika sätt att förbättra resultaten inom området. De stora sökmotorerna på Internet använder idag inte dessa metoder överhuvudtaget utan indexerar alla termer i dokumentet. Förespråkarna för detta pekar på enkelheten och att det bättre speglar syntaxen i sökfrågorna att indexera alla ord i texterna. Trots detta pekar all forskning på att t.ex. stemming förbättrar sökresultaten. Anledningen till att de stora sökmotorerna inte använder dessa metoder är den stora dokumentmängden, exempelvis Google lagrar ungefär 1,3 miljarder webbsidor[19]. Representationen av texter görs ofta med den s.k. Vektormodellen[1] (eng. Vector Model). Det måste påpekas att detta gäller för mindre sökmotorer som är väldokumenterade, då de säljs tills kunder. De stora sökmotorerna på Internet är betydligt mer restriktiva då det gäller att dokumentera och därmed avslöja sin teknologi. Texterna representeras som ordvektorer ofta sorterade efter bokstavsordning med ett index som beror på hur frekvent ordet är i texten. Varje dokument ges med andra ord av en vektor: d = ( w 1, j, w 2, j,, w t, j ) t antalet termer, j värdet på termen. Antalet dokument i korpuset är D och d D. Mängden av texter representeras i ett flerdimensionellt rum med lika många dimensioner som antalet ord i textmängden. Rummet spänns upp av ordvektorerna, men alla linjärkombinationer av ordvektorer ger inte upphov till en existerande ordvektor. Alla dimensionerna är dessutom inte likvärdiga. Trots detta betraktar man rummet på vanligt geometriskt vis och gör geometriska tolkningar vad gäller avståndet mellan ordvektorerna [3]. Inom informationssökning representeras frågor som ett (kort) dokument och jämförs sedan med dokumenten i korpuset för att hitta de mest närliggande dokumenten. Det finns många sätt att beräkna likhet mellan dokument, ett vanligt sätt är att beräkna vinkeln mellan dokumenten med hjälp av cosinus [1]. 3

10 d1 d 2 cos( d 1, d 2 ) = = d1 * d 2 d * d 1 2 Ju mindre vinkeln är desto mer liknar dokumenten varandra, denna metod kräver att vektorerna är normaliserade. I facklitteratur ersätts ofta cosinus med beteckningen sim ( d 1, d 2 ) där sim står för engelskans similarity (likhet). Bland andra klassiska representationer av texter finns Booleanska modeller och sannolikhetsmodeller där den Booleanska modellen anses vara den svagaste då den inte kan finna partiala samband [1]. Modellerna delas in i tre huvudgrupper teoretiska modeller, algebraiska modeller och sannolikhetsmodeller. I den teoretiska gruppen ingår den Booleanska modellen, Fuzzy set och extended Boolean men ingen av dessa mängd teoretiska modelleringsmetoder har blivit populär inom informationssökningsområdet [1]. Bland de algebraiska modellerna finns en generaliserad Vektorrymdsmodell (eng. Vector Space Model), Latent Semantic Indexing Model (LSI) och Neural Network Model. LSI är en metod som bygger på vektormodellen. Det man försöker göra är att gruppera ihop dokument som har många gemensamma ord, på detta sätt kan man hitta dokument med liknande innehåll även om man inte använder samma ord och termer. Huvudidén med LSI är att projicera varje dokument till ett lägre antal dimensioner med t.ex. Single value decomposition (SVD) [12]. Då man projicerar så kommer en del vektorer att inte bli särskiljbara och väljer man de nya basvektorerna lämpligt så kommer de stora skillnaderna att kvarstå medan de mindre skillnaderna att försvinna. På detta sätt kan man klustra korpus och även hitta synonymer t.ex. om man söker efter båtsbygge så kommer man antagligen hitta dokument om skeppsbygge eftersom många av orden i dokumenten troligen är lika. Single value decomposition (SVD) är ett av många namn på liknande metoder för att projicera mångdimensionella data till ett mindre antal dimensioner. Metoden är nära besläktad med bland annat egenanalys och spektralanalys [12]. En metod att minska antalet dimensioner ytterligare är att använda en approximation av LSI/LSA kallad Random Indexing [13]. LSA står för Latent Semantic Analysis och är detsamma som Latent Semantic Indexing. Tanken bakom Neural Network Model eller Neuronnätsmodellen är att försöka efterlikna en hjärnas uppbyggnad [4]. Ett artificiellt neuronnät består av ett antal noder som ska efterlikna hjärnans neuroner och vikter emellan dessa noder. När en nod skickar ut en signal mottas signalen av andra noder viktade via kopplingen mellan noderna, sedan fortsätter signalen att fortplanta sig från dessa noder osv. så länge inte signalstyrkan blir lägre än ett visst tröskelvärde [4]. Neuronnätsmodellen har inte blivit testad ingående på stora korpusar och har inte fått något stort genomslag inom informationssökningsområdet, sökmotorn Autonomy[15] bygger på denna teknik. Inom sannolikhetsmodellerna är Bayesian Networks dominerande. Ett Bayesiskt nätverk är en Directed Acyclic Graph (DAG). Inom denna modell finns en variant kallad Interference Network Model som blivit implementerad i Inquery Retrieval System [14]. 4

11 Klustring kan göras på många olika sätt, ofta delar man upp klustringsalgoritmerna i hierarkisk och icke-hierarkisk klustring. Figur 1. En enkel klassifikation av klustringalgoritmer [8]. Hierarkisk klustring innebär som namnet betyder att man skapar en hierarki av kluster. Denna hierarki kan man åskådliggöra som ett träd, där klustret högst upp i trädet motsvarar roten och innefattar alla andra kluster. Klusterna i den lägsta nivån motsvarar trädets löv och innefattar givetvis inga andra kluster. Det finns två typer av hierarkisk klustring. Vanligast är sammanfogande algoritmer (agglomerativa) där alla texter är varsitt kluster från början. Sedan slås klusterna samman iterativt nerifrån och upp om dessa uppfyller ett visst kriterium. Den mest använda algoritmen i denna kategori kallas Group Average Link. Det finns även uppdelande-algoritmer (divisiva). Då börjar man med ett enda kluster och med hjälp av ett utvärderingsmått delar man upp texterna i flera kluster iterativt. Uppdelande algoritmer arbetar alltså uppifrån och ner till skillnad från de sammanfogande. Med Monothetic i figuren menas algoritmer som bara tar med exempelvis titeln när de klustrar, medan Polythetic tar med mer information. Således ger den senare bättre resultat men är långsammare. Hierarkisk klustring tenderar ofta till att bli mycket beräkningsintensiv då det sker en fullständig uppdelning i olika kluster på varje nivå av hierarkin när den byggs upp. Klustringen kräver också mycket minne då man måste ha en avståndsmatris mellan varje dokumentpar i korpuset [6]. Dessutom kan det vara svårt att få en bra överblick över hierarkin om man inte har en väldigt liten hierarki [8]. Icke-hierarkiska algoritmer har som namnet antyder ingen hierarki utan klusterna ligger på en nivå utan någon inbördes ordning/relation. Dessa algoritmer är ofta mycket mindre beräkningsintensiva än de hierarkiska. Icke-hierarkiska ligger ofta mellan O(n) och O(n 2 ) i komplexitet medan de hierarkiska ligger mellan O(n 2 ) och O(n 3 ) [8]. 5

12 2.4 Utvärderingsmått Det är brukligt att utvärdera implementationer och nya arbeten även inom klustringsområdet. Det är svårt att avgöra om en klustring är bra, en utvärderingsmetod kan ge ett bra värde och en annan ett dåligt. Om man har en känd indelning kan man jämföra den aktuella klustringens uppdelning med denna. Detta kallas för yttre mått och de vanligaste är precision och täckning (recall) [1]. Precision = Täckning = antalet korrekta texter i klustret antal texter i klustret antalet korrekta texter i klustret totala antalet korrekta texter Ett annat mått är entropi, ju lägre entropi ett system har desto mer ordnat är det. En välordnad klustring är vad man söker [3]. För ett enskilt kluster beräknas entropin i detta examensarbete i likhet med Rosells [3] enligt: E j = - i p log p ij ij Där p ij är sannolikheten att text i i kluster j tillhör klassen (kända indelningen) i. Sannolikheten beräknas genom att dividera antalet texter som tillhör klass i i kluster j med totala antalet texter i klustret j. Den totala entropin för klustringen beräknas sedan som summan av de enskilda klustringsentropierna viktade med storleken på de enskilda klustren. m njej E kluster = n j=1 Där m är totala antalet kluster, n j är antalet texter i den enskilda klustren och n är totala antalet texter i korpusen. Ett annat mått som använts i detta examensarbete är standardavvikelse. Detta ger ett spridningsmått (jämfört med medelvärdet som är ett lägesmått) på avståndet mellan text och typen av text innehållsmässigt. Definitionen på standardavvikelse (s) för en enskild text är följande: s 2 = (t i t) 2 där t i är den enskilda textens värde och t värdet på kategorin i vilken t i ingår. 6

13 Saknar man en känd indelning kan man använda statistiska eller geometriska iakttagelser av uppdelningen för att utvärdera klustringen. Detta kallas då för inre mått. 7

14 3 Utförande I det här kapitlet förklaras de olika modulerna (programmen) som använts i detta examensarbete och hur de arbetar tillsammans. 3.1 Implementation Inputfiler NP- -Extraktor Granska Rosells klustrare Outputfiler Semio Figur 2. Kommunikationen mellan applikationerna och filerna. Figur 2 ovan visar ett enkelt diagram över kommunikationen mellan NP-Extraktorn som utvecklats inom ramen för detta examensarbete i programspråket Java och övriga program/filer. NP-Extraktorn använder Granska [17] för att extrahera nominalfraser (eng. nominal phrases) och lemmatiserade ord ur inputfilerna (indata). Ett lemmatiserat ord är ett ord i dess grundform, för en utförlig förklaring av nominalfraser se appendix. Granska är ett program för datorstödd språkgranskning som har utvecklas på KTH i Stockholm. Inputfiler i diagrammet nedan är filerna som ska bearbetas vilket är det första som läses in. Då programmet har läst in en fil måste denna fil analyseras (eng. parse) beroende på filtypen. De olika typer av filer som behövde analyseras i detta examensarbete var text- och HTMLfiler och Karolinska Institutets egna filformat för sina medicinska texter. Det som sker under analysen är att allt utom text som tillhör artikeln tas bort. Det som tas bort är taggar m.m.. När detta är klart skickas filen till en version av Granska som körs på en av Nadas servrar. Granska svarar genom att skicka tillbaka en XML-fil (Extensible Markup Language) där texten är grammatiskt granskad. Från denna fil extraheras nominalfraserna och de lemmatiserade orden. Outputfilerna består av Granskas XML-fil, en fil med nominalfraserna och en fil med de lemmatiserade orden. Nominalfraserna och de lemmatiserade orden kan även fås genom att anropa metoder i programmet vilket förenklade och optimerade klustringen med Rosells klustrare. 8

15 3.2 Klustring med Rosells program Magnus Rosells uppgift i sitt examensarbete[3] var att konstruera, analysera och implementera en klustringsalgoritm för textfiler. För detaljer kring detta arbete hänvisas till rapporten [3]. Då både denna och min NP-Extraktorn gjordes i Java medgav detta direkt kommunikation mellan programmen vilket förenklade arbetet. De texter som klustrats på är tidningsartiklar från KTH:s News Corpus som även användes av Rosell. Dessa filer är på html-format och efter att texterna som skulle ingå i klustringarna bearbetats (se kap. 3.1) gjordes flera olika klustringar. De olika klustringarna gjordes på följande: De lemmatiserade orden. Nominalfraserna. Kombinationen av dessa två. Kombinationen med dubbelt så hög vikt på nominalfraserna. Magnus Rosells behandling av de svenska texterna: 1. Ta bort html-taggar och dela upp i ord 2. Ta bort stoppord 3. Generera ordled och ta bort vissa av dem 4. Stemma orden 5. Ta bort låg- och högfrekventa ord i korpusen 6. Ta bort texter med få ord 7. Vikta ord i titel och fetstil 8. Vikta orden efter hur frekventa de är 9. Normalisera texterna 10. Genomföra klustringen 9

16 3.3 Klustring med Semio Karolinska Institutet (KI) har en stor mängd medicinska texter och artiklar skrivna på svenska. Tidigare har KI klustrat sin medicinska korpus efter orden i denna med Semio. Semio är ett paket av klustrings- och indexeringsprogram utvecklat av Entrieva[18]. Grunden i paketet utgörs av Semio Tagger som samlar in text från de filer som klustringen ska byggas på och extraherar fraser ur dessa filer. Dessa fraser anser Semio vara representativa för innehållet i texterna. Dessa filer kan hämtas från en stor mängd olika källor databaser [18]. Fraserna som Semio Tagger har extraherat kan visas grafiskt i Semio Map (se figur 3 nedan). I denna visas sambandet fraserna har till varandra och hänsyn tas till frekvens (vikt) i textmängden. Då Semio är utvecklat för engelska kunde den inte bearbeta de svenska orden utan dessa fick bli i samma form som i texterna, detta ger förstås inte en vidare bra kategorisering. Uppgiften i detta examensarbete blev att klustra korpuset efter nominalfraserna i titlarna, sammanfattningarna och nyckelorden. Semios behandling av de engelska texterna: 1. Läsa in filerna 2. Konvertera olika filformat 3. Frasextraktion (inkl. stopplistor m.m.) 4. Fraskategorisering 5. Frasviktning 6. Dokumentkategorisering 7. Dokumentviktning 8. Genomföra klustringen Arbetsgången för de svenska texterna är densamma, skillnaden är att filerna som Semio läser in är output-filerna från NP-Extraktorn. Semio skapar en s.k. CBF (Categorized Bundle File) som innehåller följande information om dokumentet: Dokumentets ursprungliga text Metadata associerade med dokumentet Extraherade fraser från dokumentet Kategorier och vikter av fraser och dokument Detta är all information som skapas om dokumenten. Tyvärr är informationen i CBF-filerna krypterade så det går inte att jämföra och utvärdera resultaten från Semio med resultatet från Rosells klustrare. Bilden nedan visar hur gränssnittet ser ut för Semio. 10

17 Figur 3. Skärmdump från Semio med resultat från examensarbetet. 11

18 4 Utvärdering Textmängden som klustrades med Rosells klustrare var 2500 nyhetsartiklar från KTH News Corpus, spridda över fem kategorier Ekonomi, Nöje, Sport, Inrikes- och Utrikesnyheter. Textmängderna klustrades fyra gånger med avseende på lemman, nominalfraser, lemman och nominalfraser och slutligen lemman och nominalfraser där nominalfraserna har givits dubbel vikt. Entropi Standardavvikelse Bara lemma Bara nominalfraser Lemma och nominalfraser Lemma och nominalfraser med dubbel vikt Tabell 1 resultat från klustring med nominalfraser och lemman. I tabell 1 ses att enbart lemman och lemman kombinerat med nominalfraser ger bäst resultat. Lemman kombinerat med nominalfraser ger marginellt lägre entropi men har däremot högre standardavvikelse. Klustringen med enbart nominalfraser ger en markant högre entropi och även högre standardavvikelse. Anledningen till detta borde vara att relativt mycket information i texterna försvinner när nominalfraserna extraheras. Att lemman ger bättre resultat än nominalfraser är inget förvånande då klustring efter lemman baseras på ords grundformer. Klustring efter grundformen är i en mening mer strikt än om klustringen skulle ha skett efter obehandlade ord i texterna, med detta menas att ändelser och tidsformer (presens, imperfekt m.fl.) försvinner och ersätts med grundformen i klustringen. Detta borde även vara anledningen till att entropin och standardavvikelsen är högre när klustringen görs på nominalfraser då betydelsebärande ord som substantiv klustras med ändelser och tidsformer. I nominalfraser ingår givetvis även prepositioner, konjunktioner osv. vilket ger ett brus i klustringen som återspeglas i högre entropi och standardavvikelse. En annan viktig faktor för resultaten är att i klustringen med lemman togs vanligt förekommande ord bort efter en stopplista, vilket inte kunde användas med nominalfraserna då dessa fraser skulle ha blivit obegripliga om ord togs bort i dem. Karolinska Institutets medicinska textsamling klustrades enbart på nominalfraser som extraherades från artiklarnas rubriker och nyckelord. Denna klustring gjordes med Semio vilken KI tidigare gjort en klustring med på textsamlingen utan att på förhand bearbeta texterna. Denna tidigare klustring gjordes på ord efter ord i texterna och behövde förbättras för att vara till någon hjälp för forskarna på KI att hitta dolda samband i texterna m.m. Dessvärre gick det inte att jämföra matematiskt de olika klustringarna som gjorts i Semio eller mellan Semio och Rosells klustrare. Trots det gick det så att säga visuellt avgöra att klustringen med nominalfraser i Semio var utan tvivel mycket bättre än den tidigare med 12

19 obearbetade ord. Detta faktum att det inte gick att jämföra resultaten från Semio före och efter förbehandlingen gjorde det omöjligt att få siffror på förbättringen som nominalfraser visuellt gav. Anledningen till att det inte gick att jämföra dessa resultat är att Semio krypterar sina filer, detta för att inte avslöja sin klustringsteknologi. Tid gavs inte till en klustring efter lemman vilket säkerligen skulle ha givit ett ännu bättre resultat. Dessutom var textsamlingen förorenad av främmande ord på andra språk vilket försämrade resultatet. 13

20 5 Slutord En av idéerna bakom klustring från början var att det kunde förbättra resultaten från sökmotorer, vilket känns naturligt att från en fråga leta upp det kluster som bäst överensstämmer med den specifika frågan. Dock har inte denna teknik visat sig förbättra resultaten nämnvärt, vilket inte behöver innebära att metoden ska uteslutas inom informationssökning i framtiden. Idag handlar mycket av klusterforskningen om att utveckla och förbättra möjligheten att hitta dolda samband och utforska texter, det är inom denna kategori detta arbete återfinns. Att hitta dolda samband i stora textsamlingar som den medicinska från Karolinska Institutet som undersökts i detta examensarbete är ett område som det kommer att forskas mycket på framöver. Förhoppningsvis har denna rapport inom detta intressanta område gett eller kommer att ge något för framtida forskning. Detta kan vara att hitta samband mellan vissa levnadsvanor och sjukdomar eller ärftliga faktorer. Dessa kan t.ex. undersökas från Karolinska Institutets världsunika tvillingregister eller i andra texter som Språkteknologigruppen på Nada, KTH och Rosell arbetar med. 14

21 6 Litteraturförteckning [1] R. Baeza-Yates & B. Ribeiro-Neto (1999), Modern Information Retrieval, Addison- Wesley, ISBN X [2] C.J. Van Rijsbergen (1979), Information Retrieval, Butterworths, ( ) [3] M. Rosell (2002) Klustring av svenska tidningsartiklar, Examensarbete (20p), Numerisk Analys och Datalogi, Kungliga Tekniska Högskolan, Stockholm, ( ) [4] S. Haykin (1994), Neural Networks a Comprehensive Foundation 2 nd ed., Prentice Hall, ISBN [5] D. Stolpe (2003), Högre kvalite med automatisk textbehandling, Examensarbete (20p), Numerisk Analys och Datalogi, Kungliga Tekniska Högskolan, Stockholm, ( ) [6] G. Fung (2001) A Comprehensive Overview of Basic Clustering Algorithms, University of Wisconsin, ( ) [7] K. Bäckström (2000), Marknadsundersökning och utvärdering av indexeringsprogram, Examensarbete (20p) Institutionen för lingvistik, Uppsala universitet, ( ) [8] G. M. Downs och J. M. Barnard (1995), Hierarchical and non-hierarchical Clustering., Daylight EUROMUG meeting, Stevenage UK., ( ) [9] J. Dewe (1998), En prototyp för att klassificera dokument från WWW med avseende på genre och ämne, Examensarbete (20p), Numerisk Analys och Datalogi, Kungliga Tekniska Högskolan, Stockholm, ( ) [10] Vivisimo Document Clustering, ( ) [11] Northern Light Search, ( ) [12] A. Gabrielsson (2000), Dokumentrekommendationssystem och intranät, Examensarbete (20p) Institutionen för lingvistik, Uppsala universitet, ( ) [13] M. Sahlgren SICS, ( ) 15

22 [14] J.P. Callan, W.B. Croft och S.M. Hardin (1992), The INQUERY Retrieval System, in Proceedings of the 3rd International Conference on Database and Expert Systems, ( ) [15] Autonomy Systems, ( ) [16] G. Colliander, Kurs i elementär svensk grammatik 2000, Institutionen för nordiska språk, Stockholms universitet, ( ) [17] Granska, Språkteknologigruppen, Nada, KTH, ( ) [18] Semio, Entrieva, ( ) [19] Google, ( ) 16

23 A Ordlista Lemma: Ett lemma eller lemmatiserat ord är ett ord i dess grundform. T.ex är cykel grundform till cyklar, cykeln, cyklarnas. Ordled: Med ordled menas en uppdelning av sammansatta ord i deras enskilda ord. De enskilda orden ingår sedan när klustringen utförs. Dock kan sammansatta ord delas upp som inte bör delas upp t.ex. upp-tagen och miss-förstånd. För att inte dessa ord ska användas kan även en stopplista för ordled användas. Stemming: Vid stemming tas böjningarna på orden bort. Stemming är en enklare form av lemmatisering som inte kräver lika mycket datorkraft. Dock riskerar ord med olika mening att få samma stam. Stoppord: Stopporden är så kallade vanligt förekommande icke-betydelse bärande ord. T.ex. och, eller, på, under, genom, med etc. Stopporden filtreras bort från texter med hjälp av en stoppordlista eller stopplista. Ofta ligger stoppordens andel på cirka 40% av orden i texter. Taggning: Med taggning menas att en tagg sätts på varje ord i texten som bearbetas och som beskriver vilken ordklass ordet tillhör. Detta är viktigt av flera anledningar t.ex. böjningar och då olika ordklasser ges olika vikt i texter. 17

24 B Nominalfraser Med termen fras avses vanligen en språklig enhet som består av mer än ett ord, men en grammatisk fras kan också bestå av endast ett ord. Varje fras består av ett huvudord och eventuellt en eller flera bestämningar. Ex på olika fraser: arga katter, katter med rivet skinn, katter med rivet skinn dansa tango, mycket trevlig oerhört länge. En fras bildar på något sätt en sammanhängande logisk helhet. När ett substantiv (eller pronomen) är huvudord i en fras, kallas frasen nominalfras. I litteraturen förkortas nominalfrasen NP efter engelskans Noun Phrase. Nominalfrasen är en viktig del av satsen, där den kan inta olika funktioner såsom subjekt, objekt m m. Speciellt med NP är att den kan byggas ut på olika sätt med många olika bestämningar till huvudordet. Bestämningarna i en nominalfras kallas attribut. I följande tabell finner du exempel på NP:n med olika attribut. Själva huvudordet är markerat med fetstil och attributen omarkerade: Attributtyper adjektivattribut adverbattribut prepositionsattribut genitivattribut infinitivattribut bisats relativsats: Nominalfraser en liten katt trädet därborta damen med hunden Kalles kaviar Konsten att ljuga Frågan vad han tjänade Katten som sitter i trädet Detta appendix är taget från Gunilla Collianders kurs i elementär svensk grammatik [16]. 18

25 C Exempel Texter kan skrivas på många olika format. Exempel på format är HTML för Internet, textfiler etc. Formatet som KI använder i sin medicinska korpus finns nedan:..la:swe..dt:artikel..si:spriline *** BRS DOCUMENT BOUNDARY ***..UI: AU:Berleen, Göran..TT:Spri-studie om invandrares sjukvårdskonsumtion... I detta till synes kryptiska format genomfördes klustringen efter bl.a. TT vilket är titeln på artikeln. En HTML-fil ser ut enligt nedan: <html> <head> <title> Danskt stridsflygplan störtade i Nordsjön </title> </head> <body> Olyckan inträffade när planet var ute på ett träningsuppdrag över Nordsjön. </body> </html> 19

26 Då denna text bearbetas tas först HTML-taggarna bort och texten blir som nedan. Danskt stridsflygplan störtade Nordsjön Olyckan inträffade planet träningsuppdrag Nordsjön. Därefter skapas nominalfraserna och lemman se kap Dansk strid flygplan störta Nordsjön Olycka in träff plan träning uppdrag Nordsjön Då bearbetningen kommit hit genomförs steg som viktning av orden, borttagning av ord i texterna efter en stopplista. Dessa ord kan vara prepositioner, konjunktioner, hög- och lågfrekventa ord. När detta är genomfört klustras till slut textmängden. 20

27 TRITA-CSC-E 2006:008 ISRN-KTH/CSC/E--06/008--SE ISSN

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är

Läs mer

Klustring av svenska tidningsartiklar

Klustring av svenska tidningsartiklar Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/ Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier

Läs mer

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till. o Ofta fogas

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan. Sökexempel - Hälsovägledare Hälsovägledning med inriktning mot olika folkhälsoproblem som t ex rökning, tips på hur man går tillväga för att göra en datasökning och hur man även kontrollerar om artiklarna

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Föreläsning 3.1: Datastrukturer, en översikt

Föreläsning 3.1: Datastrukturer, en översikt Föreläsning.: Datastrukturer, en översikt Hittills har vi i kursen lagt mycket fokus på algoritmiskt tänkande. Vi har inte egentligen ägna så mycket uppmärksamhet åt det andra som datorprogram också består,

Läs mer

Sammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08.

Sammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08. Sammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08. Inledning BLR (Bibliotek & läranderesurser) vid Högskolan

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Artiklar via UB:s sö ktja nst

Artiklar via UB:s sö ktja nst 1 Artiklar via UB:s sö ktja nst UBs startsida har fått ett nytt utseende. I centrum finns nu UBs söktjänst. Istället för tre sökrutor möts du nu som användare av en sökruta där det är meningen att du kan

Läs mer

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen LINKÖPINGS UNIVERSITET Institutionen för Datavetenskap Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen Namn E-mail Evelina Rennes evere305@student.liu.se INNEHÅLL INNEHÅLL

Läs mer

Innehåll. Informationssökning språkteknologiska hjälpmedel

Innehåll. Informationssökning språkteknologiska hjälpmedel Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,

Läs mer

1284_omslag.qxd 2005-10-11 11:13 Sida 1 ECDL START OFFICE 2003 Allmän IT Windows XP Word 2003 Outlook 2003

1284_omslag.qxd 2005-10-11 11:13 Sida 1 ECDL START OFFICE 2003 Allmän IT Windows XP Word 2003 Outlook 2003 ECDL START OFFICE 2003 Allmän IT Windows XP Word 2003 Outlook 2003 5 Arbeta med mappar och filer I Windows finns det två sätt att arbeta med de olika enheterna i systemet. Vilket du väljer beror på personligt

Läs mer

Lathund till PsycINFO (OVID)

Lathund till PsycINFO (OVID) Lathund till PsycINFO (OVID) PsycINFO innehåller referenser till artiklar inom psykologi och angränsande ämnesområden, som medicin, psykiatri, sociologi m.m. Databasen indexerar tidskrifter från 1806 och

Läs mer

Microsoft Windows 10 Grunder

Microsoft Windows 10 Grunder WINDOWS 10 Grunder INLEDNING Mål och förkunskaper...5 Pedagogiken...5 Hämta övningsfiler...6 1 INTRODUKTION TILL WINDOWS Grundläggande om operativsystem...7 Starta och avsluta Windows 10...8 Välja kommandon...10

Läs mer

Microsoft Windows 8 Grunder

Microsoft Windows 8 Grunder WINDOWS 8 GRUNDER Inledning Mål och förkunskaper...5 Pedagogiken...5 Hämta övningsfiler...6 Del 1 1 Introduktion till Windows Grundläggande om operativsystem...7 Starta och avsluta Windows 8...8 Välja

Läs mer

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality Lathund till PEP Databasen PEP (Psychoanalytic Electronic Publishing) innehåller 59 tidskrifter och 96 klassiska böcker inom psykoanalys. Dessutom innehåller PEP fulltext och redaktörskommentarer till

Läs mer

Laborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker

Laborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker Sid 1 Laborationer i kursmomentet Datoranvändning E1 http://www.etek.chalmers.se/~hallgren/eda/ : Mer om FrameMaker 1996, 1997 Magnus Bondesson 1998 och 99-09-22 Thomas Hallgren 1 Introduktion I Laboration

Läs mer

Hantera informationspaket i system för bevarande

Hantera informationspaket i system för bevarande Kompetensutveckling har erbjudits deltagare inom projektet Elektroniskt bevarande i form av en kurs i XML. Kursen har genomförts av Riksarkivet och haft en praktisk inriktning. Ett 10-tal personer deltog

Läs mer

Andelen personal som har en utbildning på forskarnivå fortsätter att öka

Andelen personal som har en utbildning på forskarnivå fortsätter att öka UF 23 SM 1601 Universitet och högskolor Personal vid universitet och högskolor 2015 Higher Education. Employees in Higher Education 2015 I korta drag Andelen personal som har en utbildning på forskarnivå

Läs mer

Design och underhåll av databaser

Design och underhåll av databaser Design och underhåll av databaser 1. Modell av verkligheten 2. Normalformer 3. Introduktion till DDL 4. Skapa databaser 5. Skapa tabeller 6. Skapa index 7. Restriktioner 8. Ta bort databaser, tabeller

Läs mer

Chapter 3: Using Classes and Objects

Chapter 3: Using Classes and Objects Chapter 3: Using Classes and Objects I dessa uppgifter kommer du att lära dig om hur man använder klasser och metoder från java biblioteket. Du kommer inte att förstå allt som händer bakom metod anrop

Läs mer

CogSum. Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte

CogSum. Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte CogSum Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte Mimi Axelsson, Erica Bergenholm, Bertil Carlsson, Gro Dahlbom,

Läs mer

Handledning Miljömanualen på webben

Handledning Miljömanualen på webben Handledning Miljömanualen på webben Välkommen till Miljömanualen på webben. Det här dokumentet beskriver hur man använder Miljömanualen. Inloggning Börja med att logga in i avsedda fält uppe till höger

Läs mer

Lilla PubMed-lathunden

Lilla PubMed-lathunden Lilla PubMed-lathunden Om databasen PubMed PubMed är en databas som produceras av National Center for Biotechnology Information (NCBI) vid National Library of Medicine (NLM) i USA. Det är den största databasen

Läs mer

hjälp av SAS Text Miner

hjälp av SAS Text Miner Enterprise Intelligence Customer Intelligence Supplier Intelligence Organizational Intelligence Intelligence Architecture Identifiera stora gömda värden i textbaserad information med hjälp av SAS Text

Läs mer

Fritextsökning på studera.nu

Fritextsökning på studera.nu Utarbetad av Anna Ekegren Version 1.0 Senast redigerad 2010-06-04 Fritextsökning på studera.nu POSTADRESS BESÖKSADRESS TELEFON TELEFAX Verket för högskoleservice Karlavägen 108, plan 8 08-725 96 00 08-725

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen

MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen SELMA MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen 4. SÖK I SELMA 4.1 Allmänt om sökningar 4.2 Valfria sökord 4.2.1 Utökad sökning (högertrunkering) 4.2.2 Kombinerad sökning (boolska operatorer)

Läs mer

Högskolebiblioteket vid Mälardalens högskola

Högskolebiblioteket vid Mälardalens högskola Högskolebiblioteket vid Mälardalens högskola Biblioteksenkät 2009 1 Innehåll Innehåll... 2 Inledning... 3 Metod... 3 Redovisningen... 3 Antal svar... 4 Förhållandet mellan orterna... 4 Användarkategorier...

Läs mer

Ett exempel på hur man kan använda Discovery. Ulrika Nilsson Viktor Öman

Ett exempel på hur man kan använda Discovery. Ulrika Nilsson Viktor Öman Ett exempel på hur man kan använda Discovery Ulrika Nilsson Viktor Öman Innan vi börjar söka väljer vi Search Options och sedan Advanced Search. Discovery Discovery Discovery är förinställt på att söka

Läs mer

FORMALIA EXAMENSARBETE

FORMALIA EXAMENSARBETE FORMALIA EXAMENSARBETE - FÖR UTBILDNINGAR VID NORRLANDS YRKESHÖGSKOLA Skolgatan 52 903 27 Umeå Tel: 090-77 86 00 www.nyhs.se INNEHÅLLSFÖRTECKNING 1. KÄLLHÄNVISNING/FOTNOTER... 3 2. KÄLLFÖRTECKNING... 3

Läs mer

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation Innehåll Föreläsning 11 Trie Sökträd Trie och Sökträd 356 357 Trie Ytterligare en variant av träd. Vi har tidigare sett: Oordnat träd där barnen till en nod bildar en mängd Ordnat träd där barnen till

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Grupparbete om PBL Problembaserat Lärande

Grupparbete om PBL Problembaserat Lärande TÄRNA FOLKHÖGSKOLA Grupparbete om PBL Problembaserat Lärande 2009-09-18 - 2 - Innehåll Bakgrund... - 3 - Syfte... - 4 - Metod... - 4 - Fakta... - 5 - Resultat... - 7 - Diskussion... - 9 - Referenser...-

Läs mer

Ung och utlandsadopterad

Ung och utlandsadopterad Institutionen för samhälls- och välfärdsstudier ISV LiU Norrköping Ung och utlandsadopterad En intervjustudie om problembilden kring utlandsadopterade ungdomar Maria Persson Uppsats på grundläggande nivå

Läs mer

Grafisk visualisering av en spårbarhetslösning

Grafisk visualisering av en spårbarhetslösning Datavetenskap Opponenter Johan Kärnell och Linnea Hjalmarsson Respondenter Agni Rizk och Tobias Eriksson Grafisk visualisering av en spårbarhetslösning Oppositionsrapport, C-nivå Report 2011:06 1. Generell

Läs mer

NÄR DU SÖKER FAKTA OM

NÄR DU SÖKER FAKTA OM Hersby gymnasium Biblioteket NÄR DU SÖKER FAKTA OM EN HJÄLP VID INFORMATIONSSÖKNING 1 Det första Du söker information i är förmodligen ett allmänt uppslagsverk, bara för att få en uppfattning om ämnet

Läs mer

Projektrapport - Live commentary

Projektrapport - Live commentary Projektrapport - Live commentary Linnéa Åberg - la222pp Beskrivning Vision och översiktlig beskrivning Det är en applikation för den som vill skapa intressanta diskussioner för live event eller program

Läs mer

Grafer. 1 Grafer. Grunder i matematik och logik (2015) 1.1 Oriktade grafer. Marco Kuhlmann

Grafer. 1 Grafer. Grunder i matematik och logik (2015) 1.1 Oriktade grafer. Marco Kuhlmann Marco Kuhlmann 1 En graf är en struktur av prickar förbundna med streck. Ett tidsenligt exempel på en sådan struktur är ett social nätverk, där prickarna motsvarar personer och en streck mellan två prickar

Läs mer

En snabb titt på XML LEKTION 6

En snabb titt på XML LEKTION 6 LEKTION 6 En snabb titt på XML Bokstaven x i Ajax står för XML, ett mycket användbart beskrivningsspråk som gör det möjligt för Ajax-tillämpningar att hantera komplex strukturerad information. I den här

Läs mer

WINDOWS 8.1. Grunder

WINDOWS 8.1. Grunder WINDOWS 8.1 Grunder EXCEL 2013 Grunder INLEDNING Mål och förkunskaper...5 Pedagogiken...5 Hämta övningsfiler...6 1 INTRODUKTION TILL WINDOWS Grundläggande om operativsystem...7 Starta och avsluta Windows

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

QlikView - Lathund för Flödesmodellen bas

QlikView - Lathund för Flödesmodellen bas QlikView - Lathund för Flödesmodellen bas För att komma åt en applikation i QlikView (hädanefter QV) krävs QV-pluginlicens samt behörighet till applikationen. Beställning av både licens och behörighet

Läs mer

Hands-On Math. Matematikverkstad. Förskolans nya läroplan 1 juli 2011. Matematik är en abstrakt och generell vetenskap

Hands-On Math. Matematikverkstad. Förskolans nya läroplan 1 juli 2011. Matematik är en abstrakt och generell vetenskap Hands-On Math Matematikverkstad 09.00 10.30 & 10.45 12.00 Elisabeth.Rystedt@ncm.gu.se Lena.Trygg@ncm.gu.se eller ett laborativt arbetssätt i matematik Laborativ matematikundervisning vad vet vi? Matematik

Läs mer

En handledning för studerande på Högskolan Kristianstad

En handledning för studerande på Högskolan Kristianstad Använda kurskonferenser i FirstClass En handledning för studerande på Åsa Kronkvist, augusti 2005 Innehåll Introduktion...3 Webbklient eller FirstClassklient?...3 Allt ligger online...3 Hitta rätt...4

Läs mer

Marie Andersson, IKT-centrum E-post: iktcentrum@mdh.se 2012-06-10 (Bb Learn 9.1.8) Wikis i Blackboard

Marie Andersson, IKT-centrum E-post: iktcentrum@mdh.se 2012-06-10 (Bb Learn 9.1.8) Wikis i Blackboard Marie Andersson, IKT-centrum E-post: iktcentrum@mdh.se 2012-06-10 (Bb Learn 9.1.8) Wikis i Blackboard Innehåll Om Wiki- funktionen... 1 Skapa en Wiki... 1 Lägg till/ redigera innehåll i en Wiki... 3 Läsa/skriva

Läs mer

Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10

Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10 Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10 Maria Björklund (Bibliotek & IKT) & Fredrik von Wowern (Kursansvariga termin 10), reviderad 2014-06-30 Introduktion till

Läs mer

Får jag be om ordet!

Får jag be om ordet! Får jag be om ordet! Får jag be om ordet är ett datorprogram för läs- och skrivutveckling, utvecklat av logoped Bitte Rydeman. Det innehåller åtta olika delprogram, där man på olika sätt arbetar med ordbilder,

Läs mer

ORDNA DINA BILDER. Var finns bilderna Var bör de finnas

ORDNA DINA BILDER. Var finns bilderna Var bör de finnas ORDNA DINA BILDER Var finns bilderna Var bör de finnas VAR ÄR MINA BILDER? Några råd till dej som inte kan hitta dina dokument och bilder eller som tycker att de finns på flera ställen och ändå vet du

Läs mer

Objektorienterad programmering

Objektorienterad programmering Objektorienterad programmering Emil Ahlqvist (c10eat@cs.umu.se) Didrik Püschel (dv11dpl@cs.umu.se) Johan Hammarström (c08jhm@cs.umu.se) Hannes Frimmel Moström (c10hml@cs.umu.se) 1 1. Introduktion 1.1 Objektorienterad

Läs mer

Lathund till Nursing & Allied Health Source

Lathund till Nursing & Allied Health Source Lathund till Nursing & Allied Health Source Databasen Nursing & Allied Health Source riktar sig såväl till forskare och studenter på högskolor/universitet som till forskare aktiva inom klinisk verksamhet.

Läs mer

Handledning för publicering av avhandlingar och andra vetenskapliga publikationer i DiVA

Handledning för publicering av avhandlingar och andra vetenskapliga publikationer i DiVA Handledning för publicering av avhandlingar och andra vetenskapliga publikationer i DiVA Innehållsförteckning Instruktion för att lägga in din avhandling i DiVA... 2 Publicera avhandlingen... 2 Publicering

Läs mer

Lathund till Academic Search Complete

Lathund till Academic Search Complete Lathund till Academic Search Complete Academic Search Complete är en databas som bl.a. innehåller samhällsvetenskap, humaniora, pedagogik, omvårdnad och medicin. Databasen innehåller mer än 8 500 tidskrifter

Läs mer

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar Sjuksköterskeprogrammet T3 Maj 2015 Camilla Persson camilla.persson@umu.se Idag tittar vi på: Repetition av sökprocessen: förberedelser

Läs mer

Projektarbete 2: Interaktiv prototyp

Projektarbete 2: Interaktiv prototyp Projektarbete 2: Interaktiv prototyp Jonatan Hilmarch (Grupp 13) 880427-5595 hilmarch@skip.chalmers.se Kurs: Människa-Datorinteraktion TIG061 HT 2010 Projekt 1 - en tillbakablick Enligt projektets systemdefinition

Läs mer

Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter

Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter Datavetenskap Opponenter: Daniel Jansson Mikael Jansson Respondenter: Mats Almgren Erik Hansen Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter Oppositionsrapport,

Läs mer

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg Introduktion till kursbyggarverktyg Contento Svenska AB Hornsgatan 103 117 28 Stocholm Table of Contents KAPITEL 1 Introduktion 2 Begrepp

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Hur man importerar referenser från olika databaser/databasvärdar

Hur man importerar referenser från olika databaser/databasvärdar 2013-02-05 Karlstads universitetsbibliotek Hur man importerar referenser från olika databaser/databasvärdar Import av referenser från American Chemical Society Gör en sökning i ACS. Markera relevanta poster.

Läs mer

Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten.

Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten. Till läraren om kopieringsunderlag: Ledtrådar och bevis Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten. 1. De börjar med att titta på rubriker och bilder.

Läs mer

============================================================================

============================================================================ Begränsat/avdelat nätverk Postad av Marcus - 31 jul 2015 17:26 Hejsan! Har en ADLS anslutning och kombinerat modem/router idag, men vill ha en anslutning på en av Ethernet portarna som har tillgång till

Läs mer

IT för personligt arbete F2

IT för personligt arbete F2 IT för personligt arbete F2 Nätverk och Kommunikation DSV Peter Mozelius Kommunikation i nätverk The Network is the Computer Allt fler datorer är sammankopplade i olika typer av nätverk En dators funktionalitet

Läs mer

Skolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt

Skolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt Linköpings universitet Grundskollärarprogrammet, 1-7 Linda Irebrink Skolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt Examensarbete 10 poäng Handledare:

Läs mer

PYC. ett program för att utbilda föräldrar

PYC. ett program för att utbilda föräldrar PYC ett program för att utbilda föräldrar Föräldrar med intellektuella funktionshinder: erfarenheter av att pröva och införa ett föräldrastödsprogram i Sverige Detta är en sammanställning på enkel svenska.

Läs mer

Forma komprimerat trä

Forma komprimerat trä Forma komprimerat trä - maskinell bearbetning av fria former Peter Conradsson MÖBELSNICKERI Carl Malmsten Centrum för Träteknik & Design REG NR: LiU-IEI-TEK-G 07/0025 SE Oktober 2007 Omslagsbild: Stol

Läs mer

Kontrollerade ämnesord, egna sökord i fritext och keywords. Örebro universitetsbibliotek Birgitta Hansson och Monica Norr

Kontrollerade ämnesord, egna sökord i fritext och keywords. Örebro universitetsbibliotek Birgitta Hansson och Monica Norr Kontrollerade ämnesord, egna sökord i fritext och keywords Örebro universitetsbibliotek Birgitta Hansson och Monica Norr Ämnesord För att göra en bra sökning är det viktigt att söka med rätt termer. De

Läs mer

1 Skapa Tabell...2. 2 Skapa Relationer...20. 3 Redigera Relationer...24. 4 Redigera Fält i Tabell...26. 5 Lägga till Poster i Tabell...

1 Skapa Tabell...2. 2 Skapa Relationer...20. 3 Redigera Relationer...24. 4 Redigera Fält i Tabell...26. 5 Lägga till Poster i Tabell... Kapitel 5 Tabell 1 Skapa Tabell...2 1.1 Tabellfönstret... 4 1.2 Fältegenskaper... 8 1.3 Primärnyckel... 11 1.4 Spara Tabell... 12 1.5 Tabellguiden... 12 2 Skapa Relationer...20 3 Redigera Relationer...24

Läs mer

KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter

KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter *Skatteverket 1(10) KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter Våra webbtexter, liksom alla texter vi producerar för externt bruk på Skatteverket, ska vara skrivna på ett sätt som gör att läsaren

Läs mer

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens Formalia Enkäter Öppna föreläsningar Stöd via sociala medier facebook.com/peter.t.ryden

Läs mer

Dnr: 2008-311-76. Statliga pensioner trender och tendenser

Dnr: 2008-311-76. Statliga pensioner trender och tendenser Dnr: 2008-311-76 Statliga pensioner trender och tendenser Framtida pensionsavgångar 2008-2017 Innehållsförteckning Förord 2 Sammanfattning av trender & tendenser 3 1. Pensionsavgångar inom statsförvaltningen

Läs mer

Sveriges Arkitekter Swedish Association of Architects. Lönestatistik. Från 2014 års löneenkät

Sveriges Arkitekter Swedish Association of Architects. Lönestatistik. Från 2014 års löneenkät Sveriges Arkitekter Swedish Association of Architects Lönestatistik Från 2014 års löneenkät 2 Löneenkät 2014 Innehåll Inledning 4 Ingångslöner 5 Privat sektor 6 Kommunal sektor 11 Statlig sektor 13 Chefer

Läs mer

ALEPH ver. 16 Sökning

ALEPH ver. 16 Sökning Fujitsu, Westmansgatan 47, 582 16 Linköping INNEHÅLLSFÖRTECKNING 1. INLEDNING... 1 2. SÖK... 1 2.1 Avancerad sökning... 2 2.2 CCL flera databaser... 2 2.3 Flera fält... 3 2.4 Regler för sökning... 4 2.5

Läs mer

Incitamentsprogram svenska börsnoterade bolag Studie genomförd 2015 KPMG i Sverige

Incitamentsprogram svenska börsnoterade bolag Studie genomförd 2015 KPMG i Sverige Incitamentsprogram i svenska börsnoterade bolag Studie genomförd 2015 KPMG i Sverige KPMG.se Innehåll Inledning... 3 Nya program under perioden... 5 Program per bransch... 6 Program per storlek... 7 Lösenkurs,

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

SkatteNytt, skrivregler

SkatteNytt, skrivregler SkatteNytt, skrivregler ISSN: 0346-1254 Utgivning: 10 häften per år, varav två dubbelhäften Ämne: Skatterätt, redovisningsrätt, finansrätt, skatteekonomi Förlag: Skattenytt Förlags AB c/o eddy.se ab Box

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

Färgklövern. Färgklövern är gjord 1998 i samarbete mellan Datateket i Linköping och Hargdata AB i Linköping.

Färgklövern. Färgklövern är gjord 1998 i samarbete mellan Datateket i Linköping och Hargdata AB i Linköping. Färgklövern I Färgklövern kan du leka med färger, på lite olika sätt i de olika delprogrammen. Bestäm själv vilka och hur många färger du vill färglägga med. Alla dina målade bilder kan även skrivas ut

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

KOMMUNENS KVALITET I KORTHET. KKiK-presentationer 2015 ÅRS UNDERSÖKNING. KKiK-presentationer 1

KOMMUNENS KVALITET I KORTHET. KKiK-presentationer 2015 ÅRS UNDERSÖKNING. KKiK-presentationer 1 KOMMUNENS KVALITET I KORTHET KKiK-presentationer 2015 ÅRS UNDERSÖKNING KKiK-presentationer 1 KKiK-presentationer 2 KKiK-presentationer 2015 års undersökning Sveriges Kommuner och Landsting, 2015 Text:

Läs mer

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer

Läs mer

Utskrift av inspelat samtal hos Arbetsförmedlingen

Utskrift av inspelat samtal hos Arbetsförmedlingen BJÖRN L BERGLUND UTSKRIFT AV SAMTAL HOS AF 1 (9) Utskrift av inspelat samtal hos Arbetsförmedlingen Samtalet ägde rum hos Arbetsförmedlingen i Sollentuna tisdag 13 juni 2006 kl. 11.00 Inspelningen är cirka

Läs mer

Allt fler kvinnor bland de nyanställda

Allt fler kvinnor bland de nyanställda STATISTISK ANALYS 1(8) Avdelning Datum/ löpunmmer 2013-09-10 / 7 Analysavdelningen Universitetskanslersämbetets statistiska analyser är en Handläggare av formerna för att löpande redovisa utvecklingen

Läs mer

Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens

Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens ÖPPEN FÖRELÄSNING INFORMATIONSSÖKNING MAJ 2012 STÖD VIA SOCIALA

Läs mer

Låt mig inledningsvis citera en dikt av Bengt Bratt:

Låt mig inledningsvis citera en dikt av Bengt Bratt: 1 Tal av Ragnwi Marcelind vid konferensen "Kulturen har en plats i vård och behandling på Smålands musik och teater i Jönköping den 13 oktober 2009. Tack Tack för att jag blivit inbjuden att tala vid den

Läs mer

Nyheter och förändringar i advantum release 3.0

Nyheter och förändringar i advantum release 3.0 1(5) Fastighetsavdelning 2007-04-03 Nyheter och förändringar i advantum release 3.0 Nedan följer en mer detaljerad förteckning över de nyheter och förändringar som genomförts i den nya releasen av advantum.

Läs mer

Förberedelse-PM Examensarbete för Byggteknik

Förberedelse-PM Examensarbete för Byggteknik Förberedelse-PM Examensarbete för Byggteknik Introduktion Examensarbetet är ingenjörsutbildningarnas avslutande kurs (härefter kallad exjobbs-kursen) där du skall tillämpa kunskaper och färdigheter från

Läs mer

Användarhandledning Rapportgenerator Version: 1.1

Användarhandledning Rapportgenerator Version: 1.1 Användarhandledning Rapportgenerator Version: 1.1 Umefast AB 2008 www.umefast.se Innehåll 1. Rapportgenerator... 2 1.1. Syfte och avgränsningar... 2 1.2. Wizards... 2 1.3. Förutsättningar för arbete med

Läs mer

Designmönster - EMW. Kent Petersson epost1: kentp@cs.chalmers.se epost2: kent.petersson@emw.ericsson.se URL: http://www.cs.chalmers.

Designmönster - EMW. Kent Petersson epost1: kentp@cs.chalmers.se epost2: kent.petersson@emw.ericsson.se URL: http://www.cs.chalmers. Designmönster - EMW Kent Petersson epost1: kentp@cs.chalmers.se epost2: kent.petersson@emw.ericsson.se URL: http://www.cs.chalmers.se/~kentp arbetar på Inst. för Datavetenskap, Cth & Gu, 50% och Software

Läs mer

Laboration: Att inhägna ett rektangulärt område

Laboration: Att inhägna ett rektangulärt område Laboration: Att inhägna ett rektangulärt område Du har tillgång till ett hoprullat staket som är 30 m långt. Med detta vill du inhägna ett område och använda allt staket. Du vill göra inhägnaden rektangelformad.

Läs mer

Classfronter Vägledning för Studenter (version 1.1)

Classfronter Vägledning för Studenter (version 1.1) Classfronter Vägledning för Studenter (version 1.1) 1. LOGGA IN. VÄLJA RUM/KURS 4 3. SKRIVA IN INFORMATION OCH ÄNDRA PERSONLIGA UPPGIFTER. 4 4. ANVÄNDA HJÄLP-SYSTEMET 5 5. LÄSA MEDDELANDEN. 5 6. DELTA

Läs mer

Föreläsning 11. Giriga algoritmer

Föreläsning 11. Giriga algoritmer Föreläsning 11 Giriga algoritmer Föreläsning 11 Giriga algoritmer Användning Växelproblemet Kappsäcksproblemet Schemaläggning Färgläggning Handelsresandeproblemet Uppgifter Giriga algoritmer (Greedy algorithms)

Läs mer

Riktlinjer för Gymnasiearbete skriftlig rapport. Titel. Titeln får inte vara för lång, högst fem ord.

Riktlinjer för Gymnasiearbete skriftlig rapport. Titel. Titeln får inte vara för lång, högst fem ord. Riktlinjer för Gymnasiearbete skriftlig rapport Titel Titeln får inte vara för lång, högst fem ord. Eventuell undertitel Undertitel ska ej upprepa vad som sägs i huvudtiteln. Högst två rader Namn/klass

Läs mer

Invandrarföretagare i Sverige och Europa. Farbod Rezania, Ahmet Önal Oktober 2009

Invandrarföretagare i Sverige och Europa. Farbod Rezania, Ahmet Önal Oktober 2009 Invandrarföretagare i Sverige och Europa Farbod Rezania, Ahmet Önal Oktober 2009 Sammanfattning 1 Sammanfattning I denna rapport har möjligheter och hinder för företagandet i Sverige jämförts med motsvarande

Läs mer

De interaktiva kuddarna Textil som kommunikationsredskap

De interaktiva kuddarna Textil som kommunikationsredskap De interaktiva kuddarna Textil som kommunikationsredskap Linda Melin, Interactive Institute, PLAY Research www.interactiveinstitute.se Abstract in English This work is about combining textile design and

Läs mer

Användarmanual HOIF.org

Användarmanual HOIF.org Användarmanual HOIF.org HOIF.org 2013-05-21 37 sidor Användarmanual för HOIF.org Introduktion Det här är en manual till alla användare på hemsidan HOIF.org Hur får jag ett användarkonto? För att kunna

Läs mer

Universitet och högskolor. Doktorander och examina på forskarnivå 2011. Flest doktorandnybörjare inom medicin och hälsovetenskap

Universitet och högskolor. Doktorander och examina på forskarnivå 2011. Flest doktorandnybörjare inom medicin och hälsovetenskap UF 21 SM 1201 Universitet och högskolor. Doktorander och examina på forskarnivå 2011 Doctoral students and degrees at third cycle studies 2011 I korta drag Flest doktorandnybörjare inom medicin och hälsovetenskap

Läs mer