Forskningsmetodik 2008. Lektion 6 Korrelation och kausalitet Per Olof Hulth hulth@physto.se. Tvådimensionella histogram

Relevanta dokument
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Statistiska samband: regression och korrelation

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Från Big Bang till universums acceleration

Övningsblad 4.5 C. Koordinatsystem och tolka grafer. 1 Markera följande punkter i koordinatsystemet.

Höftledsdysplasi hos dansk-svensk gårdshund

4Funktioner och algebra

som kosmiska budbärare

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F19, (Multipel linjär regression forts) och F20, Chi-två test.

STOCKHOLMS UNIVERSITET FYSIKUM

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Föreläsning 7: Punktskattningar

Uppgift 1. Deskripitiv statistik. Lön

Datorlaboration 2 Konfidensintervall & hypotesprövning

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Räta linjens ekvation & Ekvationssystem

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

HSB BRF HAMNEN, ÅSIKTEN ETAPP TVÅ

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 7: Punktskattningar

MVE051/MSG Föreläsning 14

Linjär regressionsanalys. Wieland Wermke

Multipel regression och Partiella korrelationer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning G60 Statistiska metoder

1.1 Diskret (Sannolikhets-)fördelning

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Med ett samband menar vi hur något beror av någonting annat. Det skulle t.ex. kunna vara (sant eller inte):

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Sta$s$k och Experiment

Forskningsmetodik 2006 Lektion 3

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

FACIT (korrekta svar i röd fetstil)

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

a rgu m en t at i on s fel Fixa skolan!

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

ÖVNINGSUPPGIFTER KAPITEL 7

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

PM NÄTAVGIFTER Sammanfattning.

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri lördagen den 29 mars 2008

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

vux GeoGebraexempel 2b/2c Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

En introduktion till och första övning for Excel

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Regression med Genetiska Algoritmer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Kundts rör - ljudhastigheten i luft

Reflektionsprincipen

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

7. NÅGRA SPECIELLA DISKRETA SANNOLIKHETSFÖRDELNINGAR

STATISTISK ANALYS AV KOMPLEXA DATA

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Statistik 1 för biologer, logopeder och psykologer

= 0 vara en given ekvation där F ( x,

Medicinsk statistik II

InStat Exempel 4 Korrelation och Regression

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Bygga linjära modeller! Didrik Vanhoenacker 2007

TENTAMEN I STATISTIKENS GRUNDER 1

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Metod och teori. Statistik för naturvetare Umeå universitet

Regressions- och Tidsserieanalys - F4

F11. Kvantitativa prognostekniker

Statistik och epidemiologi T5

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Mål. talföljder ~ använda räta linjens ekvation. formel variabel. funktion. värdetabell graf tabell. räta linjens ekvation aritmetisk talföljd

Forskningsmetodik 2006 lektion 2

Försök att rymma svaren i den platsen som finns. Skriv tydligt! Svara sammanhängande och med enkla, tydliga meningar.

6.2 Implicit derivering

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Multipel Regressionsmodellen

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Transkript:

Forskningsmetodik Korrelation och kausalitet Per Olof Hulth hulth@phsto.se Tvådimensionella histogram Korrelation mellan två variabler (X och Y) 1

Tvådimensionella histogram Korrelation mellan två variabler (X och Y) Positiv korrelation egativ korrelation Ingen korrelation Icke-linjär korrelation Korrelationskofficenten r r = σ σ σ = i =1 i =1 ( i ) i ( ) ( i ) i ( ) r kan ha ett värde från -1 till +1 Positive korrelation < r < 1 egative korrelation -1 < r <

45 1 4 35 Y = 3 + 4X 8 Y = X 3 r = 1 6 r =.978 5 4 15 1 5 4 6 8 1 4 6 8 1 1-1 - -3-4 Y = 3 + 4X - 5X r = -.974-5 4 6 8 1-5 -1-15 - -5-3 -35-4 Y = 3 +4X -5X r = -.991-45 1 15 5 3 3

Statistisk signifikans av korrelationen 1.8.6.4...4.6.8 1 1.8.6.4...4.6.8 1 Två figurer med slumpmässigt valda talpar 4

Statistisk signifikans Stark korrelation ( r nära 1 eller -1) och många mätpunkter ger signifikans Signifikant för 1 datapunkter 5 % Icke signifikant 5 % -,63,63-1 1 E 6 sid 84, e 4- sid 86-87 5

Linjär regression = m + b b Δ Δ m = Δ Δ Linjär regression är facktermen för den procedur som finner den bästa möjliga räta linjen, givet ett antal - och -värden. En rät linje kan skrivas som = m + b, där m är riktningkoefficienten och b interceptet, dvs det värde där linjen skär -aeln. = m + b Givet ett antal - och -värden så finns det en formel för att beräkna m och b för den räta linje som bäst ansluter till punkterna: ( i i ) i m = i i i b = i i i i i i i 6

Eempel: Antag följande serie: (1,-.6), (, 1.5), (3,.5), (4, 4.6) och (5, 7.7) 8 6 4-1 3 4 5 6 1 -.6 -.6 1 1.5 3 4 3.5 7.5 9 4 4.6 18.4 16 5 7.7 38.5 5 15 15.7 66.8 55 Insatt i formlerna får vi: ( i i ) i m = i i i = 5 66.8 15 15.7 =1.97 5 55 ( 15) 8 = -.77 + 1.97 6 4 i i i i i 55 15.7 15 66.8 b = = =.77 5 55 ( 15) i i - 1 3 4 5 6 Linjeanpassning 7

Korrekt etrapolation? Verklig korrelation? 8

Bakgrundsfaktorer som ger falsk korrelation Eempel: Under vintern säljs mindre glass, sker fler benbrott, dricks mer glögg, säljs fler skidresor och fler åker buss till jobbet än på sommaren. Men det är väl ingen som drar slutsatsen att det är ökad bussåkning som ger upphov till ökad glöggkonsumtion. Det beror mer på det kalla vädret. Möjliga förklaringar för en korrelation Statistisk fluktuation (se tabell 7.3) Bakomliggande faktorer (te väder etc) En variabel beror av den andra (ett kausalt samband) 9

Korrelation och kausalitet 8 Folkmängd (tusental) 7 6 5 1 3 Antal storkar Folkmängd (tusental) som funktion av antalet strokar i Oldenberg i Tskland 193-1936 Den som försöker lösa befolkningsproblemet med att skjuta storkar lär nog bli besviken Bo, G. E. P., Hunter, W. G., and Hunter, J. S. (1978), Statistics for Eperimenters: An Introduction to Design, Data Analsis, and Model Building, John Wile and Sons. Kausalitet En korrelation mellan två variabler kan indikera en kausalitet (en variabel beror av den andra) men inte ensam bevisa att man har en kausalitet. En mängd andra undersökningar behövs! 1

Riktlinjer för att visa kausalitet Kontrollera att korrelationen eisterar även när andra parametrar varieras Kontrollera att korrelationen förstärks då en misstänkt parameter förstärks Om effekten kan orsakas av någon känd effekt, kontrollera att effekten finns kvar då man tagit hänsn till den kända effekten. Försök att göra ett eperiment Försök finna en fsisk orsak till korrelationen E. hur man visade att rökning orsakade lungcancer Observerad korrelation mellan rökning och lungcancer för alla tper av människor Man fann att för människor med lika förutsättningar att icke rökare hade mer sällan lungcancer än rökare Folk som rökte mcket och länge hade högre chans att få luncancer är man korrigerade för kända orsaker till lungcancer som te radon hade rökare fortfarande högre frekvens än icke rökare Man gjorde djurförsök och fann att de rökande fick lungcancer Biologer studerade cellkulturer och fann att röken orsakade mutationer och att det inte fanns någon genetisk faktor Case stud sid 95,31, 313 11

Motsvarande inom rättssstemet Möjlig orsak Vi har upptäckt en korrelation men vet inte om det är ett kausalt samband. Inom rättsväsendet kan detta vara tillräckligt för att starta en undersökning. Troligen orsak Vi har bra argument för att vi det finns en kausalitet. Medför te häktning. Bortom allt rimligt tvivel Man har en model som förklarar orsakssammanhanget. Medför te att en åtald döms för ett brott. 1