Data mining. Data mining Skillnaden mellan observationella och experimentella data



Relevanta dokument
Epidemiologisk studiedesign (Forskningsmetodik)

Klinisk forskningsmetodik. Olof Akre, läkare, forskare, Enheten för klinisk epidemiologi, KS

Statistiska undersökningar - ett litet dokument

Statistik 1 för biologer, logopeder och psykologer

Försök att rymma svaren i den platsen som finns. Skriv tydligt! Svara sammanhängande och med enkla, tydliga meningar.

Anvisningar till rapporter i psykologi på B-nivå

Psykologi som vetenskap

Maskininlärning. Regler eller ML?

MEDBORGARPANEL Nummer 4 februari 2014 Journal på nätet

Beteendevetenskaplig metod. Metodansats. För och nackdelar med de olika metoderna. Fyra huvudkrav på forskningen Forskningsetiska principer

Kunskap genom vetenskap. observationer och experiment

Vetenskaplig metodik

TENTAMEN KVANTITATIV METOD (100205)

Datainsamling Hur gör man, och varför?

SVENSKA Inplaceringstest A

Vårdbarometern 2013 Landstingsjämförelse. Mätningen utförd under höst och vår 2013 projektledare Indikator

LEVANDE BEN, STARKA BEN

Försök att rymma svaren i den platsen som finns. Skriv tydligt! Svara sammanhängande och med enkla, tydliga meningar.

Statistiskt säkerställande av skillnader

Vilket av följande alternativ är INTE ett sätt att kontrollera för möjliga ovidkommande gruppsskillnader i mellanpersonsdesign?

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Hur vet man att en behandlingsmetod fungerar?

Tentamen för kursen Statistik för naturvetare. Tisdagen den 14 december

STATENS BEREDNING FÖR MEDICINSK UTVÄRDERING

Hur verkar Fludara. En informativ guide för patienter och sjukvårdspersonal. There s more to life with Fludara

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Hur vet man att en behandlingsmetod fungerar?

Kvantitativa metoder och datainsamling

PTS studie: Vilka använder inte internet - och varför?

Försök att skriva svaren inom det utrymme på sidan som finns. Skriv tydligt! Svara sammanhängande och med enkla, tydliga meningar.

Elektronisk patientjournal

Vad tycker du om komvux?

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Uprovning av frågor: Webbenkät till barn- och ungdomspanel. På uppdrag av Psynk 2014 Utförare: A-focus AB, Ylva Bodén

INDIVIDUELL INLÄMNINGSUPPGIFT

MÖNSTER OCH TALFÖLJDER

Beteendevetenskaplig metod

Vi jobbar så här: Varför läser vi om miljö. Vilka ämnen ingår. Vad skall vi gå igenom? Vilka är våra mål? LPP miljö.notebook.

Störningar i ureacykeln och organiska acidurier För barn och ungdomar

Erica Schytt. Barnmorska Föreståndare för Centrum för klinisk forskning Dalarna Docent Karolinska Institutet Professor Høgskulen på Vestlandet

Metodologier Forskningsdesign

Att uttrycka och argumentera för en mönstergeneralisering algebraiskt

Försöks- planering, forts. Per Milberg, IFM biologi

Översikt. Experimentell metodik. Mer exakt. Människan är en svart låda. Exempel. Vill visa orsakssamband. Sidan 1

Syftet med lektionen är att eleverna får lära sig mer om vikten av att äta en bra lunch i skolan.

Vindkraft och ML. - hur kan vindkraft dra nytta avml

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Självrättande test och flervalsfrågor

ATTITYDER TILL MILJÖ OCH ARBETSPENDLING FÖR PROJEKTET PENDLA GRÖNT AV ATTITYD I KARLSTAD AB 2013

ATTITYDUNDERSÖKNING I SAF LO-GRUPPEN

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Studiedesign MÅSTE MAN BLI FORSKARE BARA FÖR ATT MAN VILL BLI LÄKARE? 5/7/2010. Disposition. Studiedesign två huvudtyper

Statistik och epidemiologi T5

LÄS MER! ALLT OM VARUMÄRKEN SER DU ALLA VARUMÄRKEN? VÄRLDEN ÄR FULL AV DOM! FÖRRESTEN, VI MÅSTE BESTÄMMA OSS FÖR HUR VÅRT VARUMÄRKE SKA SE UT.

18 STEG FÖR HUR DU SKAPAR EFFEKTIVARE MÖTEN!

Kulturskolans elevenkät 2017 Kultur & Fritid Total - samtliga ämnen

Det svenska sökbeteendet 2013

MSG830 Statistisk analys och experimentplanering

KVANTITATIV FORSKNING

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

En samling övningar för att komma igång med samtal

Hur jag jobbat. funderingar. Johanna Ellström

Det svenska sökbeteendet 2012

Delresultat för projektet Hundteamet hösten 2014

Marcus Angelin, Vetenskapens Hus, Jakob Gyllenpalm och Per-Olof Wickman, Stockholms universitet

Att be om hjälp. 6-8 elever 90 min SF

Framtidsklimat i Hallands län

Yasin El Guennouni NV3A, Tensta Gymnasium

När krävs klinisk läkemedelsprövning? Ann Marie Janson Lang, docent Enheten för Kliniska Prövningar och Licenser

Kapitel 7 Betala räkningar

Our Mobile Planet: Sverige

Atomer, molekyler, grundämnen. och kemiska föreningar. Att separera ämnen. Ämnen kan förändras. Kemins grunder

Föreläsning 1: Introduktion. Vad är statistik?

Svenskarnas syn på gränskontrollen mellan Sverige och Danmark 4 januari 2016

Kunskap = sann, berättigad tro (Platon) Om en person P s har en bit kunskap K så måste alltså: Lite kunskaps- och vetenskapsteori

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

PRIVAT PENSIONSSPARANDE

Telenor Navigation. Användarhandbok. Telenor Navigation version

Varför öva tillsammans?

En enda jord människor och miljö. Vecka 10-15

HÄLSA OCH LIVSKVALITET VID FORSKNINGSPROJEKTET SAMS. Frågorna i detta formulär handlar om hur Du upplever Din sjukdom och kontrollerna av den.

Får jag använda Wikipedia?

SJUNDEÅ KOMMUN. ANSÖKAN OM FÄRDTJÄNST enligt lagen om service och stöd p.g.a. handikapp. Ansökan har anlänt: 1 SÖKANDES UPPGIFTER

Konsten att fånga, sammanfatta och tolka resultat och mätningar. Marie Lindkvist Epidemiologi och global hälsa

Att använda Weka för språkteknologiska problem

Korrelation och autokorrelation

Mall för en kortare rapport/uppsats

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

732G60 - Statistiska Metoder. Trafikolyckor Statistik

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Bedömning för lärande. Sundsvall

Självvärdering The big five

Roulette med spararnas pengar

UPPLEVELSER AV TOALETTSTÄDNING

Man kan lära sig att bli lycklig

Installationsguide läsplatta

Kvantfysikaliska koncept

Studiedesign MÅSTE MAN BLI FORSKARE BARA FÖR ATT MAN VILL BLI LÄKARE? 2/13/2011. Disposition. Experiment. Bakgrund. Observationsstudier

Kritisk granskning av forskning

Transkript:

Data mining Skillnaden mellan observationella och experimentella data Data mining Metoder för att automatisktupptäcka icke-trivial användbar information i stora datamängder 1

Data mining: (Mot-)exempel Data mining: Upptäcka att vissa namn är vanligare i vissa regioner i Sverige Gruppera webbsidor som returneras från sökning på ordet Amazon beroende på vem som besöker dem INTE data mining: Slå upp ett nummer i telefonkatalogen Googla på ordet Amazon Data mining: 2 användningsområden Förutsäga framtiden Klassificering Regression Beskrivande Associationsregler Klustring Upptäcka konstigheter Visualisering 2

Varför data mining? Vetenskapligt svar: Enorma mängder data samlas in hela tiden (GB/h) sensorer på satelliter teleskop som kollar av himlen simuleringsdata DNA-experiment Traditionella statistiska metoder omöjliga Data miningkan hjälpa vetenskapare att klassificera data formulera hypoteser Varför data mining? Kommersiellt svar: Mycket data samlas om: köpbeteenden surfning och sökning på Internet bank- och finanstransaktioner Datorer allt billigare och kraftfullare Starkt tryck att tillhandahålla bättre, skräddarsydda tjänster 3

Data mining? Övning: Tänk på fyra saker du har gjort idag eller igår som har registreratsoch resulterat i datasom kan användas för data mining. Klassificering: Hur hittar vi skattefuskare? # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej Sven: Ingen återbäring, skild, tjänar 120K? 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja 4

Klassificering # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 260K Ja 9 Nej Gift 240K Nej 10 Nej Singel 360K Ja 11 Nej Gift 250K? Träna modell Använd modell Inlärningsalgoritm Modell Beslutsträd # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja Träningsdata Återbäring Ja Nej Nej Civilstånd Singel, skild Inkomst <340K 340K Nej Ja Modell: beslutsträd Gift Nej 5

Använda beslutsträd för klassificering Ja Återbäring Nej Återbäring Civilstånd Inkomst Fuskat? Nej Gift 260K? Nej Civilstånd Singel, skild Inkomst Gift Nej <360K 360K Nej Ja Observationella vs experimentella data Data mining ger oss observationella data Observationelladata kan hjälpa oss att dra slutsatser om korrelationer mellan variabler Experimentella data kan hjälpa oss dra slutsatser om kausalitet(orsaker effekter) 6

Experiment vs. data mining Experiment: Vi vetvad vi letar efter Formulera noll-hypotes Sampling Förkasta eller acceptera hypotesen Variera de ingående variablerna och studera effekten på resultatvariabeln. Data mining: Vi vet intevad vi letar efter Data kommer från okontrollerade observationer Observationella data Vad kan man dra för slutsatser utifrån följande observationer: Obduktioner visar att avlidna som lidit av Alzheimers sjukdom har en förhöjd halt av aluminium i hjärnans celler. Historiska data visar en förhöjd halt av CO 2 i atmosfären under de epoker då Jorden har en högre medeltemperatur En enkät visar att överviktiga personer tenderar att föredra Coke Light framför vanlig Coke. En fransk konsumentorganisation rapporterade att sannolikheten var högre att ägare till röda bilar inte kunde betala sina billån i tid. 7

Observationella data Vad kan man dra för slutsatser utifrån följande observationer: Obduktioner visar att avlidna som lidit av Alzheimers sjukdom har en förhöjd halt av aluminium i hjärnans celler. Historiska data visar en förhöjd halt av CO 2 i atmosfären under de epoker då Jorden har en högre medeltemperatur En enkät visar att överviktiga personer tenderar att föredra Coke Light framför vanlig Coke. En fransk konsumentorganisation rapporterade att sannolikheten var högre att ägare till röda bilar inte kunde betala sina billån i tid. Observationella data Vad kan man dra för slutsatser utifrån följande observationer: Obduktioner visar att avlidna som lidit av Alzheimers sjukdom har en förhöjd halt av aluminium i hjärnans celler. Historiska data visar en förhöjd halt av CO 2 i atmosfären under de epoker då Jorden har en högre medeltemperatur En enkät visar att överviktiga personer tenderar att föredra Coke Light framför vanlig Coke. En fransk konsumentorganisation rapporterade att sannolikheten var högre att ägare till röda bilar inte kunde betala sina billån i tid. 8

Observationella data Vad kan man dra för slutsatser utifrån följande observationer: Obduktioner visar att avlidna som lidit av Alzheimers sjukdom har en förhöjd halt av aluminium i hjärnans celler. Historiska data visar en förhöjd halt av CO 2 i atmosfären under de epoker då Jorden har en högre medeltemperatur En enkät visar att överviktiga personer tenderar att föredra Coke Light framför vanlig Coke. En fransk konsumentorganisation rapporterade att sannolikheten var högre att ägare till röda bilar inte kunde betala sina billån i tid. Experiment Kolla ifall en daglig dos C-vitamin leder till färre förkylningar. Hur kan vi designa ett experiment som testar detta? Förslag 1: Gör en webb-enkät C-vitamin gör mig friskare. C-vitamin har ingen påverkan på min hälsa. Förslag 2: Samla ett antal försökspersoner och låt dem ta en daglig dos C-vitamin under ett antal månader. Utvärdera sedan om personerna haft färre förkylningsdagar än motsvarande period förra året. 9

Experiment Förslag 3: Samla in ett antal försökspersoner. Låt varje person avgöra om de vill ta en daglig dos C- vitamin (grupp A) eller inte (grupp B). Efter testperiodens slut mäter vi om grupp A har haft färre förkylningsdagar än B. Experiment Förslag 4: Samla in ett antal försökspersoner. Låt försöksledaren avgöra om de kommer att ta en daglig dos C-vitamin (grupp A) eller inte (grupp B). Efter testperiodens slut mäter vi om grupp A har haft färre förkylningsdagar än B. 10

Experiment Förslag 5: Samla in ett antal försökspersoner. Låt slumpenavgöra om de kommer att ta en daglig dos C-vitamin (grupp A) eller inte (grupp B). Efter testperiodens slut mäter vi om grupp A har haft färre förkylningsdagar än B. Experiment Förslag 6: Samla in ett antal försökspersoner. Låt slumpen avgöra om de kommer att ta en daglig dos C-vitamin (grupp A) eller en tablett som inte innehåller någon verksam ingrediens(grupp B). Försökspersonerna vet inte om de tillhör grupp A eller grupp B. Efter testperiodens slut mäter vi om grupp A har haft färre förkylningsdagar än B. 11

Experiment Förslag 7: Samla in ett antal försökspersoner. Låt slumpen avgöra om de kommer att ta en daglig dos C-vitamin (grupp A) eller en tablett som inte innehåller någon verksam ingrediens (grupp B). Varken försökspersonerna vet inte om de tillhör grupp A eller grupp B, och det vet inte heller försöksledaren. Efter testperiodens slut mäter vi om grupp A har haft färre förkylningsdagar än B. Några designprinciper för experiment Användande av kontrollgrupp Randomisering -Slumpen avgör vem som tillhör försöksgruppen och vem som tillhör kontrollgruppen Placebo Dubbelblinda test 12

Exempel - Navigeringssystemet Vi ville designa ett system som guidar en fotgängare F från A till B F har en mobiltelefon med GPS Det är känt från tidigare studier att människor föredrar vägbeskrivningar med landmärken Gå mot restaurangen på hörnet snarare än Gå höger eller Gå norrut eller Ta Sveavägen. Exempel - Navigeringssystemet Vilket landmärke ska vi basera instruktionen på? 13

Exempel - Navigeringssystemet Vi gjorde följande datainsamling: Ett antal personer gick en planerad rutt och beskrev hur de gick (beskrivningen spelades in). Vi registrerade vilka landmärken de använde (och vilka de inte använde) i sina beskrivningar. Varje landmärke kunde beskrivas med ett antal särdrag (storlek, typ, avstånd, etc.) Utifrån denna information kunde vi bygga en matematisk modell som förutsåg vilka landmärken personen skulle använda i nya situationer. Exempel - Navigeringssystemet learning instance: (169822,6.0,4.0,9,1,1,0,0,0,0,0,0,0) (180196907,0,6.0,109,1,1,0,0,0,0,0,0,0) (713456474,6.0,0,0,1,0,0,0,0,0,0,0,1) (928531207,5.0,5.0,40,1,0,0,0,1,0,0,0,0) (1340895384,6.0,5.0,22,1,0,0,1,0,0,0,0,0) (1340899520,6.0,4.0,15,1,0,0,0,1,0,0,0,0) (1340903227,6.0,4.0,13,1,0,0,0,1,0,0,0,0) (1525463050,6.0,5.0,27,1,0,0,1,0,0,0,0,0) (1525463077,6.0,5.0,40,0,0,0,0,0,1,0,0,0) (1755176084,5.0,5.0,25,0,1,0,0,0,0,0,0,0) (1755176087,5.0,5.0,9,1,1,0,0,0,0,0,0,0) (1755176089,5.0,5.0,6,0,1,0,0,0,0,0,0,0) (1755176091,3.0,6.0,82,1,1,0,0,0,0,0,0,0) (1756229411,5.0,6.0,63,0,0,0,0,0,1,0,0,0) (1768982670,7.0,5.0,13,1,0,0,0,0,0,0,0,1)... L = 928531207 14

Exempel - Navigeringssystemet Var denna datainsamling ett exempel på data mining eller ett kontrollerat experiment? Motivera! 15