Klustring av svenska tidningsartiklar

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "Klustring av svenska tidningsartiklar"

Transkript

1 Klustring av svenska tidningsartiklar Magnus Rosell rosell/

2 Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier Klustring dela in en mängd texter i kluster (grupper) efter innehåll, så att texterna inom ett kluster är mer lika varandra än texter i andra kluster. Detta skapar en (okänd) klassificering. Klustring har tidigare (missvisande) kallats Automatic Classification

3 Representation Representation av texter som i informationssökning; vector space model med tf- och idf-viktning Likhetsmått, tex cosine measure Ett kluster kan representeras med en vektor i samma rum. Denna kan kallas centroid eller klustercentrum och beräknas tex som medelvärdet (komponentvis) av alla de i klustret ingående texterna.

4 Utvärdering Hur ser en bra indelning av texter ut? Inre mått använder inte yttre information. Yttre mått använder yttre information, tex en färdig kategorisering.

5 Inre mått Likhetsmåttet kan användas till utvärdering. Ju mer lika klustren är sig själva desto mer samlade"är de. Problemet med inre mått är att de beror av representationen. Klustringar med olika representation kan inte jämföras med varandra.

6 Yttre mått Yttre mått litar till yttre information. Vad är en bra indelning? Precision, P, och täckning, R, ger värde för varje enskilt kluster: P ij = n ij /n i R ij = n ij /n j där n i är antalet texter i kluster i, n j antalet texter i kategori j och n ij är antalet texter ur kategori j iklusteri.

7 Yttre mått (forts) F-measure (högre bättre): F ij = 2P ijr ij P ij + R ij F-measure för hela klustringen (hierarkisk): F = i n i n max {F ij } j där max är taget över alla kluster på alla nivåer och n är totala antalet texter

8 Yttre mått (forts) Entropi (lägre bättre, mer ordnat) är det mått jag främst använt. Sannolikhet : p ij = n ij n i där n ij är antalet texter ur kategori j i kluster i och n i är antalet texter i kluster i.

9 Yttre mått (forts) Entropi för kluster i: E i = j p ij log p ij Entropi för hela klustringen: E tot = i n i n E i

10 Två algoritmer K-mean (icke hierarkisk, partionerande) Snabb: O(n) textjämförelser, n antal texter Agglomerativ klustring (hierarkisk) Långsam: O(n 2 ) textjämförelser Det finns många varianter av dessa båda. Jag beskriver dem enkelt och generellt.

11 K-mean Skapa k kluster med centroider (ta tex slumpmässigt k texter och låt dessa bilda var sitt kluster) Gå igenom alla texter och för varje text till det kluster den är mest lik Beräkna de nya centroiderna Upprepa 2 och 3 tills ett stoppkriterie uppfyllts

12 Agglomerativ klustring Låt alla texter bli ett eget kluster Beräkna likhet mellan alla kluster Slåihopdetvåmestlikaklustren Uppdatera likheterna mellan klustren Upprepa 3 och 4 tills ett stoppkriterie uppfyllts

13 Vilken av algoritmerna är bäst? Agglomerativ klustring har länge ansetts bättre än k-mean, men Steinbach et al visar med tester att k-mean är bättre för textklustring. De ger också en trolig förklaring: två texter kan ligga närmast varandra i representationsrummet utan att tillhöra samma klass. K-mean fångar globala tendenser medan agglomerativ klustring arbetar lokalt.

14 Feature reduction (Särdragsreduktion?) LSI Latent Semantic Indexing Reducera rummet till n dimensioner (mha SVD Singular Value Decomposition). Representera texterna i detta nya rum (global projektion). Tar lång tid. Trunkering spar bara de m viktigaste termerna i varje text (lokal projektion). Schütze et al visar med tester att trunkering ger lika bra resultat som LSI. Det räcker att trunkera centroiderna.

15 Svenska Stemming förbättrar klustringsresultat (entropi) med ungefär 10% i snitt (OBS uppskattning) Uppdelning av sammansatta ord förbättrar också resultatet.

16 Uppdelning av sammansatta ord Om man söker efter minister"vill man (kanske) även hitta försvarsminister". Bättre på engelska minister of defence". En sökning efter försvarsministerger goda resultat. Sämre på engelska träffar även enbart ministeröch defence". I klustring vill man att texter som handlar om liknande saker ska bli lika varandra.

17 Uppdelning av sammansatta ord (forts) Rättstavningsprogrammet STAVA (http://www.nada.kth.se/ viggo/stava/) delar upp sammansatta ord i ordled och kontrollerar dessa var för sig. Vissa ord som inte bör delas upp (ur ett "informationsperspektiv) delas upp: miss+förstånd, efter+gift, god+tar, rätt+visa, för+råda, till+dra, stor+slagen, upp+tagen Stopplista med ord som inte bör delas upp.

18 Uppdelning av sammansatta ord (forts) Vissa delord har väldigt liten betydelse: topp+form, upp+dela, ner+slagen, för+historia, till+fråga Stopplista för vissa ordled: miss, för, upp etc.

19 Uppdelning av sammansatta ord (forts) Hur ska orden och ordleden viktas?

20 Tidningsartikelspecifikt (ett sammansatt ord!) Tidningsartiklar har titlar och fetstil. Jag har försökt vikta ord som förekom i titel och fetstil högre. Det gav tyvärr ingen förbättring. Jag klustrade på bara titlarna. Det gav dåliga resultat.

21 Exempel KTH News Corpus Dagens Nyheter och Aftonbladet är indelade i kategorier (Inrikes, Sport, Kultur, Ekonomi etc)

22 Några referenser A Comparison of Document Clustering Techniques Michael Steinbach, George Karypis, Vipin Kumar Projections for Efficient Document Clustering Henrich Schütze, Craig Silverstein Scatter/Gather: A Cluster-based Approch to Browsing Large Document Collections Douglass R. Cutting, David R. Karger, Jan O. Pedersen, John W. Tukey Information Retrieval C.J. Van Rijsbergen Klustring av svenska tidningsartiklar (exjobb) Magnus Rosell

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är

Läs mer

Klustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi)

Klustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi) Klustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi) Magnus Rosell Handledare: Viggo Kann Examinator: Stefan Arnborg 8 mars 2002 Sammanfattning En klustringsalgoritm

Läs mer

Klustring av svenska texter P E T E R J O H A N S S O N

Klustring av svenska texter P E T E R J O H A N S S O N Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete Stockholm, Sverige 2006 Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete i datalogi om 20 poäng vid Programmet

Läs mer

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska

Läs mer

Innehåll. Informationssökning språkteknologiska hjälpmedel

Innehåll. Informationssökning språkteknologiska hjälpmedel Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,

Läs mer

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Dimensionsreducerande vektorrumsmetoder för språkbehandling

Dimensionsreducerande vektorrumsmetoder för språkbehandling Läskurs: Dimensionsreducerande vektorrumsmetoder för språkbehandling Magnus Rosell KTH Nada SE-100 44 Stockholm, Sweden rosell@nada.kth.se Jonas Sjöbergh KTH Nada SE-100 44 Stockholm, Sweden jsh@nada.kth.se

Läs mer

(1/5) David Södermark (dv02sdd@cs.umu.se) Data Mining

(1/5) David Södermark (dv02sdd@cs.umu.se) Data Mining (1/5) David Södermark (dv02sdd@cs.umu.se) Data Mining Data mining handlar om att med automatiska metoder få fram information ur stora datamassor. Det kan handla om att hitta relevant information i stora

Läs mer

Eulercykel. Kinesiska brevbärarproblemet. Kinesiska brevbärarproblemet: Metod. Kinesiska brevbärarproblemet: Modell. Definition. Definition.

Eulercykel. Kinesiska brevbärarproblemet. Kinesiska brevbärarproblemet: Metod. Kinesiska brevbärarproblemet: Modell. Definition. Definition. Eulercykel Definition En Eulercykel är en cykel som använder varje båge exakt en gång. Definition En nods valens är antalet bågar som ansluter till noden. Kinesiska brevbärarproblemet En brevbärartur är

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Automatisk tesauruskonstruktion med latent semantisk indexering

Automatisk tesauruskonstruktion med latent semantisk indexering MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:40 ISSN 1404-0891 Automatisk tesauruskonstruktion med latent semantisk indexering

Läs mer

Påverkar Dag 0 express däckförsäljningen?

Påverkar Dag 0 express däckförsäljningen? Påverkar Dag 0 express däckförsäljningen? Utvärdering av hierarkiska klustringsmetoder med försäljningsdata & Enkätundersökning om efterfrågan på expressleverans Nadia Mena & Yun-ji Agnes Lee C-uppsats

Läs mer

Variator Automatisk synonymvariering av text

Variator Automatisk synonymvariering av text Variator Automatisk synonymvariering av text Magnus Rosell 27 mars 2006 Sammanfattning Detta är en rapport om min individuella uppgift i kursen Språkgranskningsverktyg inom GSLT. Den beskriver ett litet

Läs mer

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord Språkteknologiska stöd Språkteknologiska stöd Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd

Läs mer

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 7 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Fortsättning envägs-anova Scheffes test (kap 11.4) o Tvåvägs-ANOVA Korsade faktorer (kap 12.1, 12.3) Randomiserade blockförsök

Läs mer

Concept description genom klustring

Concept description genom klustring MAGISTERUPPSATS (41-60 P) I INFORMATIK VID INSTITUTIONEN FÖR DATA OCH AFFÄRSVETENSKAP 2007:MI02 Concept description genom klustring Evy Rydin VT 2007 Svensk titel: Concept description genom klustring Engelsk

Läs mer

WEBBKLUSTRING SLUTRAPPORT

WEBBKLUSTRING SLUTRAPPORT Arne Jönsson 2014-01-09 WEBBKLUSTRING SLUTRAPPORT 1. Inledning Inom projektet har vi utvecklat teknik som gör det möjligt att identifiera webbsidors innehåll och därefter klustra (gruppera) dem så att

Läs mer

Lilla PubMed-lathunden

Lilla PubMed-lathunden Lilla PubMed-lathunden Om databasen PubMed PubMed är en databas som produceras av National Center for Biotechnology Information (NCBI) vid National Library of Medicine (NLM) i USA. Det är den största databasen

Läs mer

Rekommendationssystem. med fördjupning på collaborative filtering

Rekommendationssystem. med fördjupning på collaborative filtering Rekommendationssystem med fördjupning på collaborative filtering, majsc331 870325-1929 729G11 Artificiell Intelligens II Linköpings Universitet HT 2009 Innehållsförteckning Inledning... 1 Bakgrund...

Läs mer

Dokumentrekommendationssystem och intranät

Dokumentrekommendationssystem och intranät Dokumentrekommendationssystem och intranät Anders Gabrielsson anders@stp.ling.uu.se Examensarbete 20p Språkteknologiprogrammet Institutionen för lingvistik Uppsala universitet Handledare: Lars Borin och

Läs mer

Information Retrieval. Information Retrieval (IR)

Information Retrieval. Information Retrieval (IR) Information Retrieval Johan Boye, KTH Information Retrieval (IR) Att hitta relevantinformation i en stor mängd texter (och/eller bilder, audio, video, programkod, biomedicinsk data, ) Användaren ger en

Läs mer

EXJOBBSOPPOSITION. Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh

EXJOBBSOPPOSITION. Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh EXJOBBSOPPOSITION Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh Rapportens titel: Domän-Webb-Applikations-Fuzzer(DWAP) introduktion och implementation Opponent: Viktor Gummesson Var det

Läs mer

E-biblioteket en tjänst från sjukhusbiblioteken

E-biblioteket en tjänst från sjukhusbiblioteken E-biblioteket en tjänst från sjukhusbiblioteken Snabbsök Innebär att du söker samtidigt i flera förvalda grupper av databaser. Snabbsök är i första hand avsett för att ge en första orientering i ämnet.

Läs mer

Kan man lära datorer att läsa? NIKLAS LUNDBORG

Kan man lära datorer att läsa? NIKLAS LUNDBORG Kan man lära datorer att läsa? NIKLAS LUNDBORG Examensarbete Stockholm, Sverige 2011 Kan man lära datorer att läsa? NIKLAS LUNDBORG Examensarbete i medieteknik om 15 högskolepoäng vid Programmet för medieteknik

Läs mer

Algoritmer och Komplexitet ht 08. Övning 5. Flöden. Reduktioner. Förändrat flöde

Algoritmer och Komplexitet ht 08. Övning 5. Flöden. Reduktioner. Förändrat flöde Algoritmer och Komplexitet ht 08. Övning 5 Flöden. Reduktioner Förändrat flöde a) Beskriv en effektiv algoritm som hittar ett nytt maximalt flöde om kapaciteten längs en viss kant ökar med en enhet. Algoritmens

Läs mer

Projektion av träningsdata på aktuell underrum av dim 1. Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts.

Projektion av träningsdata på aktuell underrum av dim 1. Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts. Projektion av träningsdata på aktuell underrum av dim Föreläsning : Klassificering, minsta kvadratproblem, SVD, forts. Berkant Savas Tillämpad matematik i natur och teknikvetenskap, TNA Institutionen för

Läs mer

Rocchio, Ide, Okapi och BIM En komparativ studie av fyra metoder för relevance feedback

Rocchio, Ide, Okapi och BIM En komparativ studie av fyra metoder för relevance feedback MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2008:45 ISSN 1654-0247 Rocchio, Ide, Okapi och BIM En komparativ studie

Läs mer

Vinjetter TDDC91 Datastrukturer och algoritmer

Vinjetter TDDC91 Datastrukturer och algoritmer Vinjetter TDDC91 Datastrukturer och algoritmer 17 augusti 2015 2 Scenario 1 Man har inom Posten Logistik AB skrivit programvara för sortering av kundinformation och vill standardisera användningen av sorteringsalgoritmer.

Läs mer

Föreläsning 4: Giriga algoritmer. Giriga algoritmer

Föreläsning 4: Giriga algoritmer. Giriga algoritmer Föreläsning 4: Giriga algoritmer Giriga algoritmer Denna typ av algoritmer arbetar efter följande princip: Gör i varje situation det som är lokalt optimalt, d.v.s. bäst för stunden. Några exempel vi redan

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan och att en inblandning mellan 10% och 40% är bra. För att

Läs mer

Att söka information (med betoning på Internet)

Att söka information (med betoning på Internet) Att söka information (med betoning på Internet) - en sökguide för distansstuderande 1. Var finns informationen? 2. Hur söker man? Sökstrategier 3. Olika informationskällor, hjälpmedel vid informationssökning

Läs mer

Objektorienterad programmering Föreläsning 8. Copyright Mahmud Al Hakim Agenda (halvdag)

Objektorienterad programmering Föreläsning 8. Copyright Mahmud Al Hakim  Agenda (halvdag) Objektorienterad programmering Föreläsning 8 Copyright Mahmud Al Hakim mahmud@webacademy.se www.webacademy.se Agenda (halvdag) Objektorienterad programutveckling Algoritmer Algoritmkonstruktionerna Relationer

Läs mer

Snabbguide till Cinahl

Snabbguide till Cinahl Christel Olsson, BLR 2008-09-26 Snabbguide till Cinahl Vad är Cinahl? Cinahl Cumulative Index to Nursing and Allied Health Literature är en databas som innehåller omvårdnad, biomedicin, alternativ medicin

Läs mer

Genom undervisning i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

Genom undervisning i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att: Pedagogisk planering Engelska årskurs 8, vecka 45-49 Television Broadcast och oregelbundna verb Varför: Genom undervisning i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla

Läs mer

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE SÖKMOTOROPTIMERING FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE INLEDNING De flesta som har en webb-sida funderar då och då på hur de ska få sidan att komma så högt som möjligt i Google och andra

Läs mer

DN/Ipsos: Valvinden samt väljarnas betyg på regeringen och alliansen

DN/Ipsos: Valvinden samt väljarnas betyg på regeringen och alliansen DN/Ipsos: Valvinden samt väljarnas betyg på regeringen och alliansen 3 april 20 Ipsos: David Ahlin, david.ahlin@ipsos.com 20 Ipsos Färre tror att Moderaterna kommer att leda nästa regering Tror du att

Läs mer

Uppsats i MDI En reflektion över designarbetet i tidigare inlämningsuppgift

Uppsats i MDI En reflektion över designarbetet i tidigare inlämningsuppgift Uppsats i MDI En reflektion över designarbetet i tidigare inlämningsuppgift Personlig uppsats i kursen Människa-datorinteraktion Magisterprogrammet MDI/ID 2003 11 03 Mattias Ludvigsson it3luma@ituniv.se

Läs mer

Identifying tomorrow s leaders today. Executive Search Management Assessment Board Value

Identifying tomorrow s leaders today. Executive Search Management Assessment Board Value Identifying tomorrow s leaders today Executive Search Management Assessment Board Value Lisberg finner morgondagens ledare idag Lisberg är experter på Executive Search, Management Assessment och Board

Läs mer

En fråga som ibland dyker upp är den om illamående och kräkningar. Kan man med någon omvårdnadsintervention göra det lättare för patienten.

En fråga som ibland dyker upp är den om illamående och kräkningar. Kan man med någon omvårdnadsintervention göra det lättare för patienten. Sökexempel - EBM Sjuksköterskor En fråga som ibland dyker upp är den om illamående och kräkningar. Kan man med någon omvårdnadsintervention göra det lättare för patienten. Även om man bör börja med att

Läs mer

Föreläsning 5: Grafer Del 1

Föreläsning 5: Grafer Del 1 2D1458, Problemlösning och programmering under press Föreläsning 5: Grafer Del 1 Datum: 2006-10-02 Skribent(er): Henrik Sjögren, Patrik Glas Föreläsare: Gunnar Kreitz Den här föreläsningen var den första

Läs mer

Titel: Ett träningsbart verktyg för att klassificera nyhetstexter (A learnable tool for classifying news texts)

Titel: Ett träningsbart verktyg för att klassificera nyhetstexter (A learnable tool for classifying news texts) Examensarbete vid NADA, KTH Av Erik Herou Titel: Ett träningsbart verktyg för att klassificera nyhetstexter (A learnable tool for classifying news texts) Examensarbete inom datalogi Handledare: Anders

Läs mer

Speciell användning av heltalsvariabler. Heltalsprogrammering. Antingen-eller-villkor: Exempel. Speciell användning av heltalsvariabler

Speciell användning av heltalsvariabler. Heltalsprogrammering. Antingen-eller-villkor: Exempel. Speciell användning av heltalsvariabler Heltalsprogrammering Speciell användning av heltalsvariabler max z = då c j x j j= a ij x j b i j= x j 0 x j heltal i =,..., m j =,..., n j =,..., n ofta x j u j j =,..., n Oftast c, A, b heltal. Ibland

Läs mer

Uppgift 1 - programmet, Uppg6.m, visade jag på föreläsning 1. Luftmotståndet på ett objekt som färdas genom luft ges av formeln

Uppgift 1 - programmet, Uppg6.m, visade jag på föreläsning 1. Luftmotståndet på ett objekt som färdas genom luft ges av formeln Matlab-föreläsning (4), 10 september, 015 Innehåll m-filer (script) - fortsättning från föreläsning 1 In- och utmatning Sekvenser, vektorer och matriser Upprepning med for-slingor (inledning) Matlab-script

Läs mer

hjälp av SAS Text Miner

hjälp av SAS Text Miner Enterprise Intelligence Customer Intelligence Supplier Intelligence Organizational Intelligence Intelligence Architecture Identifiera stora gömda värden i textbaserad information med hjälp av SAS Text

Läs mer

Den svenska bloggosfären i ett ögonkast Slutrapport

Den svenska bloggosfären i ett ögonkast Slutrapport Den svenska bloggosfären i ett ögonkast Slutrapport Olof Görnerup olofg@sics.se 1 Introduktion I följande rapport sammanfattar jag vad som har gjorts i projektet, gör en utvärdering av hur projektet har

Läs mer

Föreläsningsanteckningar F6

Föreläsningsanteckningar F6 Föreläsningsanteckningar F6 Martin Andersson & Patrik Falkman Kortaste vägen mellan en nod och alla andra noder Detta problem innebär att givet en graf G = (E,V) hitta den kortaste vägen över E från en

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad för att man skall

Läs mer

KLUSTRING & PRESENTATION

KLUSTRING & PRESENTATION KLUSTRING & PRESENTATION I TRANSPORTSEKTORN Examensarbete Systemarkitekturutbildningen Andreas Westberg Johan Dahlberg VT 2013:KSAI04 Systemarkitekturutbildningen är en kandidatutbildning med fokus på

Läs mer

Föreläsning Datastrukturer (DAT036)

Föreläsning Datastrukturer (DAT036) Föreläsning Datastrukturer (DAT036) Nils Anders Danielsson 2013-11-27 Idag Balanserade sökträd Splayträd Skipplistor AVL-träd AVL-träd Sökträd Invariant (för varje nod): Vänster och höger delträd har samma

Läs mer

NÄR DU SÖKER FAKTA OM

NÄR DU SÖKER FAKTA OM Hersby gymnasium Biblioteket NÄR DU SÖKER FAKTA OM EN HJÄLP VID INFORMATIONSSÖKNING 1 Det första Du söker information i är förmodligen ett allmänt uppslagsverk, bara för att få en uppfattning om ämnet

Läs mer

Bildbaskontoret. Bruksanvisning. Handitek. anpassar tekniken till människan BRUX\...\809082 BILDBASKONTORET

Bildbaskontoret. Bruksanvisning. Handitek. anpassar tekniken till människan BRUX\...\809082 BILDBASKONTORET Bildbaskontoret Bruksanvisning Handitek BRUX\...\809082 BILDBASKONTORET anpassar tekniken till människan Innehållsförteckning Introduktion... 3 Datorkrav...3 Om bildbaser... 4 Vad är en bildbas?...4 Varför

Läs mer

Linjära avbildningar. Definition 1 En avbildning mellan två vektorrum, F : V U, kallas linjär om. EX. Speglingar, rotationer, projektioner i R 3.

Linjära avbildningar. Definition 1 En avbildning mellan två vektorrum, F : V U, kallas linjär om. EX. Speglingar, rotationer, projektioner i R 3. Linjära avbildningar Definition 1 En avbildning mellan två vektorrum, F : V U, kallas linjär om F (v +v ) = F (v)+f (v ) och F (cv) = cf (v) för alla v, v V och alla skalärer c. EX. Speglingar, rotationer,

Läs mer

Project Specification: Analysis of voting algorithms

Project Specification: Analysis of voting algorithms Project Specification: Analysis of voting algorithms Mikael Falgard Jon Nilsson Computer Science Royal Institute of Technology 12 februari 2012 Introduktion Det är av stor betydelse för demokratin hur

Läs mer

En komparativ litteraturstudie av olika termkällor för query expansion

En komparativ litteraturstudie av olika termkällor för query expansion MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:80 ISSN 1404-0891 En komparativ litteraturstudie av olika termkällor för query

Läs mer

Kan datorn lära sig ordkunskap automatiskt?

Kan datorn lära sig ordkunskap automatiskt? Kan datorn lära sig ordkunskap automatiskt? Arbetsseminarium 23/11-2004 Leif Grönqvist GSLT, MSI@VxU & ling@gu Vad? Hur? Varför? min avhandling skall handla om att få fram användbara semantiska vektormodeller

Läs mer

Krav: * Filen MpUpdate.exe får inte köras när du startar denna uppdatering.

Krav: * Filen MpUpdate.exe får inte köras när du startar denna uppdatering. Uppdatera Mobilus Professional till version 3.1.2 Krav: * Filen MpUpdate.exe får inte köras när du startar denna uppdatering. Mobilus Digital Rehab AB * Filen MP.exe (Mobilus programmet) får inte användas

Läs mer

Passage Retrieval En studie av index

Passage Retrieval En studie av index MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:36 ISSN 1404-0891 Passage Retrieval En studie av index LARS BJÖRKLUND LINDA BÄCKMAN

Läs mer

Statistisk mönsterigenkänning

Statistisk mönsterigenkänning Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning

Läs mer

Automatiserad fukthaltsmätning vid bränslemottagning

Automatiserad fukthaltsmätning vid bränslemottagning Automatiserad fukthaltsmätning vid bränslemottagning Mikael Karlsson Bestwood Panndagarna 2009-02-04--05 1 Innehåll NIR (kortfattat) Bakgrund till analysen Nuvarande metod (ugnsmetoden) Mottagningsmätning

Läs mer

Riktlinjer för Gymnasiearbete skriftlig rapport. Titel. Titeln får inte vara för lång, högst fem ord.

Riktlinjer för Gymnasiearbete skriftlig rapport. Titel. Titeln får inte vara för lång, högst fem ord. Riktlinjer för Gymnasiearbete skriftlig rapport Titel Titeln får inte vara för lång, högst fem ord. Eventuell undertitel Undertitel ska ej upprepa vad som sägs i huvudtiteln. Högst två rader Namn/klass

Läs mer

Kvalitativ Analys. Utvärderingsmetoder inom MDI DH2408

Kvalitativ Analys. Utvärderingsmetoder inom MDI DH2408 Kvalitativ Analys Utvärderingsmetoder inom MDI DH2408 Inlämningsuppgift 2 Era gruppinlämningar ligger här framme, leta reda på er egen!!! Jag har godtyckligt gett er ett gruppnummer, referera till det

Läs mer

HI1024 Programmering, grundkurs TEN

HI1024 Programmering, grundkurs TEN HI1024 Programmering, grundkurs TEN2 2014-10-27 KTH STH Haninge 13.15-18.00 Tillåtna hjälpmedel: En A4 handskriven på ena sidan med egna anteckningar Kursboken C PROGRAMMING A Modern Approach K. N. King

Läs mer

Data mining. Ett analysverktyg för att upptäcka mönster i stora mängder data. Linköpings universitet Artificiell intelligens II 729G11 HT 2010

Data mining. Ett analysverktyg för att upptäcka mönster i stora mängder data. Linköpings universitet Artificiell intelligens II 729G11 HT 2010 Linköpings universitet Artificiell intelligens II 729G11 HT 2010 Data mining Ett analysverktyg för att upptäcka mönster i stora mängder data 840515 4009 karfr294@student.liu.se Innehållsförteckning 1 Inledning...

Läs mer

Bilaga 1: GPS-teknik, en liten ordlista

Bilaga 1: GPS-teknik, en liten ordlista Bilaga 1: GPS-teknik, en liten ordlista SATELLITSYSTEM GPS Global Positioning System. Amerikanskt satellitbaserat navigationssystem uppbyggt av USA:s försvarsmakt. Systemet är globalt täckande och används

Läs mer

Föreläsning 9 Exempel

Föreläsning 9 Exempel Föreläsning 9 Exempel Intervallhalveringsmetoden DA2001 (Föreläsning 9) Datalogi 1 Hösten 2013 1 / 24 Föreläsning 9 Exempel Intervallhalveringsmetoden Newton-Raphsons metod DA2001 (Föreläsning 9) Datalogi

Läs mer

Algoritmer, datastrukturer och komplexitet

Algoritmer, datastrukturer och komplexitet Algoritmer, datastrukturer och komplexitet Övning 7 Anton Grensjö grensjo@csc.kth.se 14 oktober 2015 Anton Grensjö ADK Övning 7 14 oktober 2015 1 / 28 Översikt Kursplanering Ö6: Algoritmkonstruktion F19:

Läs mer

Uppdatera Mobilus Professional till version 3.2.1. * Filen MpUpdate.exe får inte köras när du startar denna uppdatering.

Uppdatera Mobilus Professional till version 3.2.1. * Filen MpUpdate.exe får inte köras när du startar denna uppdatering. Uppdatera Mobilus Professional till version 3.2.1 Krav: * Filen MpUpdate.exe får inte köras när du startar denna uppdatering. Mobilus Digital Rehab AB * Filen MP.exe (Mobilus programmet) får inte användas

Läs mer

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med

Läs mer

Rapportgranskning, Rapport 1

Rapportgranskning, Rapport 1 Rapportgranskning, Rapport 1 GPS systemet av Mohammad Abd Al karem et i rapporten var överlag bra. Man fick en övergripande bild av hur GPS är uppbyggt och fungerar, de delarna som togs upp kändes väsentliga.

Läs mer

Regressions- och Tidsserieanalys - F8

Regressions- och Tidsserieanalys - F8 Regressions- och Tidsserieanalys - F8 Klassisk komponentuppdelning, kap 7.1.-7.2. Linda Wänström Linköpings universitet November 26 Wänström (Linköpings universitet) F8 November 26 1 / 23 Klassisk komponentuppdelning

Läs mer

Kravspecifikation Fredrik Berntsson Version 1.3

Kravspecifikation Fredrik Berntsson Version 1.3 Kravspecifikation Fredrik Berntsson Version 1.3 Status Granskad FB 2017-01-27 Godkänd FB 2017-01-27 Dokumenthistorik Version Datum Utförda ändringar Utförda av Granskad 1.0 2014-01-15 Första versionen

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

http://www.youtube.com/watch?v=jpenfwiqdx8

http://www.youtube.com/watch?v=jpenfwiqdx8 http://www.youtube.com/watch?v=jpenfwiqdx8 1 Sökmotoroptimering SEO En introduktion för webbredaktörer 2 Agenda Var är vi på väg? Hur fungerar sökmotorer? Hur går det till när jag söker? Hur hänger det

Läs mer

Västsvenska paketet Skattning av trafikarbete

Västsvenska paketet Skattning av trafikarbete Västsvenska paketet Skattning av trafikarbete Rapport Dokumenttitel: Skattning av trafikarbete Västsvenska paketet rapport Utförande part: WSP Kontaktperson: Tobias Thorsson Innehåll 1 Introduktion Fel!

Läs mer

DANTEK ELEVWEB HJÄLP. Dantek ElevWeb Hjälp. Version 1 Copyright 2016 by Dantek AB. Sidan 1

DANTEK ELEVWEB HJÄLP. Dantek ElevWeb Hjälp. Version 1 Copyright 2016 by Dantek AB. Sidan 1 Dantek ElevWeb Hjälp Version 1 Copyright 2016 by Dantek AB Sidan 1 Innehåll Introduktion till Dantek ElevWeb 3 Att söka i Dantek ElevWeb 4 3 sätt att söka 5 Trunkering 5 Fritextsökning 6 Hjälp via stavningskontroll

Läs mer

LP-problem. Vårt första exempel. Baslösningar representerar extrempunkter. Baslösningar representerar extrempunkter

LP-problem. Vårt första exempel. Baslösningar representerar extrempunkter. Baslösningar representerar extrempunkter LP-problem Vårt första exempel Ett LP-problem: max z = c T x då Ax b, x 0. Den tillåtna mängden är en polyeder och konvex. Målfunktionen är linjär och konvex. Så problemet är konvext. Var ligger optimum?

Läs mer

I en matchning ligger varje hörn i högst en kant. I en stig ligger varje hörn i högst två kanter.

I en matchning ligger varje hörn i högst en kant. I en stig ligger varje hörn i högst två kanter. 26.2-9 Antag att rätt lösning är att dela upp V i V 1 och V 2 (V 1 V 2 =, V 1 V 2 = V ). Antal kanter vi måste skära är då det minsta snittet mellan v 1 och v 2, där v 1 är ett godtyckligt hörn i V 1 och

Läs mer

Grupp/Center-statistik. Terminologi/ordlista...2 Urval...3 Analystyper...4

Grupp/Center-statistik. Terminologi/ordlista...2 Urval...3 Analystyper...4 Terminologi/ordlista...2...3 Analystyper...4 1 Terminologi/ordlista Gruppering Patientinformationsvariabel Besöksvariabel Patientstatus En/flervalsvariabel Numerisk variabel Fritextvariabel Standardbesök

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

UPPDATERA OCH FÅ ETT SNABBARE SYSTEM.

UPPDATERA OCH FÅ ETT SNABBARE SYSTEM. Vad är nytt i Easy Planning 7.25 Denna uppdatering innehåller ett flertal stora förbättringar. Den största förbättringen är att mängden data som skickas över nätverket kraftigt har minskats mha SQL frågor.

Läs mer

Datalogi, grundkurs 1

Datalogi, grundkurs 1 Datalogi, grundkurs 1 Tentamen 9 dec 2014 Tillåtna hjälpmedel: Revised 6 Report on the Algorithmic Language Scheme och Tre olika s.k. Cheat Sheets för Scheme Sex olika s.k. Cheat Sheets för Python Tänk

Läs mer

Nätkurs Design & konstruktion av användargränssnitt 1MD113 Sid 1 (5) Lektion 11 Användare, uppgifter och krav del

Nätkurs Design & konstruktion av användargränssnitt 1MD113 Sid 1 (5) Lektion 11 Användare, uppgifter och krav del Nätkurs Design & konstruktion av användargränssnitt 1MD113 Sid 1 (5) Del 3 Uppgiftsanalys Av Stefan Blomkvist Uppgiftsanalysen ska svara på frågor om vilka uppgifter användarna utför och hur dessa genomförs.

Läs mer

Vikten av design i produktutveckling

Vikten av design i produktutveckling Vikten av design i produktutveckling Bild: Jonas Lindström KN3060, Produktutveckling med design Kjell Nilsson, INPRE 4 Handledare: Rolf Lövgren 1 Inledning Ratten på en ipod. Handtaget på Gillettes rakhyvel.

Läs mer

Biblioteken, Futurum 2017

Biblioteken, Futurum 2017 Biblioteken, Futurum 2017 Om PubMed PubMed innehåller mer än 27 miljoner referenser till tidskriftsartiklar inom biomedicin, omvårdnad, odontologi m.m. PubMed är fritt tillgänglig men om du använder länken

Läs mer

TENTAMEN I HÅLLFASTHETSLÄRA FÖR I2 MHA 051. 6 april 2002 08.45 13.45 (5 timmar) Lärare: Anders Ekberg, tel 772 3480

TENTAMEN I HÅLLFASTHETSLÄRA FÖR I2 MHA 051. 6 april 2002 08.45 13.45 (5 timmar) Lärare: Anders Ekberg, tel 772 3480 2002-04-04:anek TENTAMEN I HÅFASTHETSÄRA FÖR I2 MHA 051 6 april 2002 08.45 13.45 (5 timmar) ärare: Anders Ekberg, tel 772 3480 Maximal poäng är 15. För godkänt krävs 6 poäng. AMÄNT Hjälpmedel 1. äroböcker

Läs mer

Kandidatexjobb vid Industriell Marknadsföring. Process, tidsplan och opponenter samt krav

Kandidatexjobb vid Industriell Marknadsföring. Process, tidsplan och opponenter samt krav Kandidatexjobb vid Industriell Marknadsföring Process, tidsplan och opponenter samt krav Dagens agenda Själva processen och vem gör vad när Förväntningar Krångliga passager i själva skrivandet IEI:s exjobbssida

Läs mer

lär dig söka och publicera på världens största videocommunity!

lär dig söka och publicera på världens största videocommunity! lär dig söka och publicera på världens största videocommunity! En guide av Jennifer Erlandsson och Youtube en stor community där du kan titta på och dela med dig av videoklipp. Det är ett utmärkt ställe

Läs mer

Hur kan vi söka och värdera vetenskaplig information på Internet?

Hur kan vi söka och värdera vetenskaplig information på Internet? EHSS-seminarium 2014-10-07 Hur kan vi söka och värdera vetenskaplig information på Internet? Göran M Hägg goran@ergomusic.se, tel. 070-262 48 02 Varför? Vad kan vi ha för motiv för att söka vetenskaplig

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

Structured Query Language (SQL)

Structured Query Language (SQL) Structured Query Language (SQL) Christer Stuxberg christer.stuxberg@im.uu.se Institutionen för Informatik och Media Översikt Introduktion Enkla frågor (queries) Hämta en specifik kolumn Sök Sammanfattning

Läs mer

Basbyten och linjära avbildningar

Basbyten och linjära avbildningar Föreläsning 11, Linjär algebra IT VT2008 1 Basbyten och linjära avbildningar Innan vi fortsätter med egenvärden så ska vi titta på hur matrisen för en linjär avbildning beror på vilken bas vi använder.

Läs mer

Göteborgarnas förhållande till Svenska kyrkan har undersökts via SOM-institutet

Göteborgarnas förhållande till Svenska kyrkan har undersökts via SOM-institutet Göteborgarnas relation till kyrka och religion Göteborgarnas relation till kyrka och religion Jan Strid Göteborgarnas förhållande till Svenska kyrkan har undersökts via SOM-institutet sedan 1990-talets

Läs mer

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål. Ulla Veres viceprefekt för utbildning på grund- och avancerad nivå Prefekten 2013-10-28 FÖRSLAG till beslut Fastställande och revideringar av kursplaner Lingvistik Ärendet med förslag till beslut Prefekten

Läs mer

Diskret matematik: Övningstentamen 4

Diskret matematik: Övningstentamen 4 Diskret matematik: Övningstentamen 22. Beskriv alla relationer, som är såväl ekvivalensrelationer som partiella ordningar. Är någon välbekant relation sådan? 23. Ange alla heltalslösningar till ekvationen

Läs mer

Oppositionsprotokoll-DD143x

Oppositionsprotokoll-DD143x Oppositionsprotokoll-DD143x Datum: 2011-04-26 Rapportförfattare Sara Sjödin Rapportens titel En jämförelse av två webbsidor ur ett MDI perspektiv Opponent Sebastian Remnerud Var det lätt att förstå vad

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

NÄRHET ELLER DISTANS

NÄRHET ELLER DISTANS NÄRHET ELLER DISTANS Konsekvenser av digital internkommunikation Sveriges Kommuner och Landsting 2014-11-25 Catrin Johansson Professor i organisationers kommunikation Mittuniversitetet SOCIALA MEDIER

Läs mer

evidensbaserad databas för sjukgymnaster

evidensbaserad databas för sjukgymnaster evidensbaserad databas för sjukgymnaster Direktadress: www.pedro.org.au. PEDro Physiotherapy Evidence Database innehåller referenser till randomiserade, kontrollerade försök, systematiska översikter och

Läs mer

Verksamhetsutvärdering av Mattecentrum

Verksamhetsutvärdering av Mattecentrum Verksamhetsutvärdering av Mattecentrum April 2016 www.numbersanalytics.se info@numbersanalytics.se Presskontakt: Oskar Eriksson, 0732 096657 oskar@numbersanalytics.se INNEHÅLLSFÖRTECKNING Inledning...

Läs mer