Forskningsmetodik Korrelation och kausalitet Per Olof Hulth hulth@phsto.se Tvådimensionella histogram Korrelation mellan två variabler (X och Y) 1
Tvådimensionella histogram Korrelation mellan två variabler (X och Y) Positiv korrelation egativ korrelation Ingen korrelation Icke-linjär korrelation Korrelationskofficenten r r = σ σ σ = i =1 i =1 ( i ) i ( ) ( i ) i ( ) r kan ha ett värde från -1 till +1 Positive korrelation < r < 1 egative korrelation -1 < r <
45 1 4 35 Y = 3 + 4X 8 Y = X 3 r = 1 6 r =.978 5 4 15 1 5 4 6 8 1 4 6 8 1 1-1 - -3-4 Y = 3 + 4X - 5X r = -.974-5 4 6 8 1-5 -1-15 - -5-3 -35-4 Y = 3 +4X -5X r = -.991-45 1 15 5 3 3
Statistisk signifikans av korrelationen 1.8.6.4...4.6.8 1 1.8.6.4...4.6.8 1 Två figurer med slumpmässigt valda talpar 4
Statistisk signifikans Stark korrelation ( r nära 1 eller -1) och många mätpunkter ger signifikans Signifikant för 1 datapunkter 5 % Icke signifikant 5 % -,63,63-1 1 E 6 sid 84, e 4- sid 86-87 5
Linjär regression = m + b b Δ Δ m = Δ Δ Linjär regression är facktermen för den procedur som finner den bästa möjliga räta linjen, givet ett antal - och -värden. En rät linje kan skrivas som = m + b, där m är riktningkoefficienten och b interceptet, dvs det värde där linjen skär -aeln. = m + b Givet ett antal - och -värden så finns det en formel för att beräkna m och b för den räta linje som bäst ansluter till punkterna: ( i i ) i m = i i i b = i i i i i i i 6
Eempel: Antag följande serie: (1,-.6), (, 1.5), (3,.5), (4, 4.6) och (5, 7.7) 8 6 4-1 3 4 5 6 1 -.6 -.6 1 1.5 3 4 3.5 7.5 9 4 4.6 18.4 16 5 7.7 38.5 5 15 15.7 66.8 55 Insatt i formlerna får vi: ( i i ) i m = i i i = 5 66.8 15 15.7 =1.97 5 55 ( 15) 8 = -.77 + 1.97 6 4 i i i i i 55 15.7 15 66.8 b = = =.77 5 55 ( 15) i i - 1 3 4 5 6 Linjeanpassning 7
Korrekt etrapolation? Verklig korrelation? 8
Bakgrundsfaktorer som ger falsk korrelation Eempel: Under vintern säljs mindre glass, sker fler benbrott, dricks mer glögg, säljs fler skidresor och fler åker buss till jobbet än på sommaren. Men det är väl ingen som drar slutsatsen att det är ökad bussåkning som ger upphov till ökad glöggkonsumtion. Det beror mer på det kalla vädret. Möjliga förklaringar för en korrelation Statistisk fluktuation (se tabell 7.3) Bakomliggande faktorer (te väder etc) En variabel beror av den andra (ett kausalt samband) 9
Korrelation och kausalitet 8 Folkmängd (tusental) 7 6 5 1 3 Antal storkar Folkmängd (tusental) som funktion av antalet strokar i Oldenberg i Tskland 193-1936 Den som försöker lösa befolkningsproblemet med att skjuta storkar lär nog bli besviken Bo, G. E. P., Hunter, W. G., and Hunter, J. S. (1978), Statistics for Eperimenters: An Introduction to Design, Data Analsis, and Model Building, John Wile and Sons. Kausalitet En korrelation mellan två variabler kan indikera en kausalitet (en variabel beror av den andra) men inte ensam bevisa att man har en kausalitet. En mängd andra undersökningar behövs! 1
Riktlinjer för att visa kausalitet Kontrollera att korrelationen eisterar även när andra parametrar varieras Kontrollera att korrelationen förstärks då en misstänkt parameter förstärks Om effekten kan orsakas av någon känd effekt, kontrollera att effekten finns kvar då man tagit hänsn till den kända effekten. Försök att göra ett eperiment Försök finna en fsisk orsak till korrelationen E. hur man visade att rökning orsakade lungcancer Observerad korrelation mellan rökning och lungcancer för alla tper av människor Man fann att för människor med lika förutsättningar att icke rökare hade mer sällan lungcancer än rökare Folk som rökte mcket och länge hade högre chans att få luncancer är man korrigerade för kända orsaker till lungcancer som te radon hade rökare fortfarande högre frekvens än icke rökare Man gjorde djurförsök och fann att de rökande fick lungcancer Biologer studerade cellkulturer och fann att röken orsakade mutationer och att det inte fanns någon genetisk faktor Case stud sid 95,31, 313 11
Motsvarande inom rättssstemet Möjlig orsak Vi har upptäckt en korrelation men vet inte om det är ett kausalt samband. Inom rättsväsendet kan detta vara tillräckligt för att starta en undersökning. Troligen orsak Vi har bra argument för att vi det finns en kausalitet. Medför te häktning. Bortom allt rimligt tvivel Man har en model som förklarar orsakssammanhanget. Medför te att en åtald döms för ett brott. 1