Forskningsmetod II Korrelation och regression Idag: Bivariat korrelation (Pearsons r) Enkel regression Multipel korrelation Multipel regression Leo Poom 018-471 17 leo.poom@psyk.uu.se Samband: Mest frekvent presenterade typen av studier i kvällspress 1
Hur skulle du tolka scatterplot mellan de 147 arbetarnas armstyrka och arbetsledarnas skattningar av hur väl de anställda klarade att utföra de fysiskt krävande momenten av sina jobb? Korrelationen r =. (n=147, p=0,007) är statistiskt signifikant! Skulle detta motivera att ha armstyrka som merit? 3 Repetition: varians Varians: Medelvärdet av de kvadratiska skillnaderna från medelvärdet Δy i = (y i y m ) över alla datapunkter Formel: Var(y) = 1/n Δy i (för stickprov divideras med n-1) y y m y i Δy i y i Variansen är medelkvadratens yta Standardavvikelsen är roten ur variansen: s = Varians, s= Varansen (medelavståndet från medelvärdet) Vad är då kovarians? Samvariation mellan x och y x 4
Hur kan vi mäta samband? Kovarians Samvariation mellan två variabler x och y, hur en förändring i x påverkar y Beräknas mha varje punkts (x i, y i ) avvikelser från sina respektive medelvärden cov(x,y)=1/(n-1) (x i x m )(y i y m ) = 1/(n-1) Δx i Δy i Om populationsmedelvärden kända divideras med n Intensitet känslor Y y m - + x m ΔX ΔY => + ΔX= x x m ΔY = y y m - (+) (+)=(+) (-) (-)=(+) (+) (-)=(-) Extraversion X Likheter och skillnader mellan varians och kovarians För populationen gäller (för sampel divideras med n-1): Var(y) = 1/n Δy i Var(x) = 1/n Δx i Cov(x,y)=1/n Δx i Δy i x i - + y i Δy y y i i m y i y i y i x i + - Δx i x i x m x m x m Varians i y: Medelkvadratytan av alla kvadrater som bildas av avstånd från y i till m y x i Varians i x: Medelkvadratytan av alla kvadrater som bildas av avstånd från x i till m x x i Kovarians x,y: Medelrektangelytan av alla rektanglar som bildas av avstånd från y i till m y och x i till m x (hänsyn taget till tecken!) 6 3
Kovarians Kovarians tar ej hänsyn till måttenheter (meter, cm) => olika kovariansmått ej jämförbara om y-axeln i figuren nedan varit graderad 0-00 istället för 0-0 blir kovariansen en helt annan, 10 ggr större! Men korrelationer är jämförbara! Stor kovarians Liten kovarians 7 Från kovarians till korrelation (bivariat eller nollte-ordningens) 8 4
Bivariat korrelation Korrelation är ett sambandsmått, dvs finns det någon koppling mellan variabler (bivariat)? Förutsätter linjärt samband! Hur stark är denna koppling? Mäts med Pearsons r (el speramans ρ) Samband vs kausalitet: Låg grad av kontroll pga icke experimentell design Diskussion och resonemang för att utesluta andra förklaringar Man observerar variabler vid ett tillfälle (tvärsnittsstudie) eller över tid (longitudinell studie) 9 Kovarians och korrelation Korrelationskoefficienten, Pearson s r En viktad version av kovarians, dividera cov med s x och s y beror ej på gradering av koordinataxlar => olika r kan jämföras! r = Cov (x,y) (S x )(S y ) r medelvärdet över produkter mellan standardpoäng (z-poäng) = 1/(n-1) z x z y r uttrycker sambandets styrka och riktning varierar mellan -1 och +1 10 5
Illustration av olika r 11 Delad eller förklarad varians Den kvadrerade korrelationskoefficienten, r eller R, är den förklarade, eller delade variansen, kallas även determinationskoefficienten Den anger förklaringsgraden, dvs hur stor del av variationen i den ena variabeln som kan förklaras av (bestäms av, fångas av, överlappas av) variationen i den andra variabeln Ex. om resultaten på två tentor korrelerar med r =.80 är den delade variansen.80 =.64 Då delar de 64% av variansen, 64% av variationen i den ena variabeln kan då förklaras av variationen i den andra variabeln 100 64 = 36 % av variationen beror på något annat: ex. testen mäter inte riktigt samma sak, eller testdeltagares variation i uppmärksamhet, eller slumpvariation. 1 6
Delad varians och venndiagram r = r = 0 0% r = 0,04 4% r = 0,16 16% r = 0,36 36% r = 0,64 64% r = 1 100% Var(y) Var(x) Den delade variansen illustreras med % andel överlapp mellan cirklarna (lila) Del av y som ej överlappas av x är oförklarad varians (röd) Effektstorlek vid korrelation r eller r används som mått på effektstorlek Kriterier för bedömning: r r Förklarad varians Liten 0.1 0.01 1% Måttlig 0.3 0.09 9% Stor >0.5 0.5 5% 14 7
Signifikanstestning av r Nollhypotes: r i populationen = 0 Förekomsten av alla r antas vara normalfördelad Fördelningens form beroende på frihetsgrader, df = n t-statistic, är sign t r n 1 r i tabell ses om detta Alternativt: p-värdet fås direkt i SPSS 15 Minsta värdet av Pearsons r som är signifikant för en given sampelstorlek (alfa = 0,05) Även pyttesmå korrelationer blir signifikanta om samplet tillräckligt stort! 16 8
inkomst 1/14/017 Situationer där r kan bli missvisande Dessutom bör de ingående variablerna vara hyggligt normalfördelade kroppslängd Gör alltid en visuell inspektion av scatterplot! 17...make both calculations and graphs. Both sorts of output should be studied; each will contribute to understanding. F. J. Anscombe, 1973 (and echoed in nearly all talks about data visualization...) Ett extremt exempel: Den sammanfattande deskriptiva statistiken (m, s, r) är lika medan de enskilda datapunkterna beskriver helt olika mönster! Gif https://www.autodeskresearch.com/publications/samestats 18 9
Enkel regression 19 Enkel regression Korrelation är ett mått på styrkan av sambandet mellan variabler Regression är en vidareutveckling av korrelation Tillåter prediktion via regressionsekvation Y = a+b X Regression visar hur sambandet ser ut. Prediktorvariabel, OBV, (x) och kriterievariabel, BV, (y) Intensitet känslor Y Y = a+b X 0 Extraversion X 0 10
Regressionsekvationen Y = a+bx Den går genom interceptet (a = värdet av Y då X=0) och medelvärdet för X och Y b är den icke standardiserade regressionskoefficienten som anger regressionslinjens lutning i måttenheter. Hur många skalsteg ökar Y då X ökar ett steg? b = Y / X X Y b = Y / X 1 Enkel regression Exempel: Vi har tidigare bestämt regressionsekvationens parametrar till: a = 1.378 b = 0.007 Personen har läst 130 i extraversionspoäng, hur intensivt kommer denna att förväntas reagera? Y = a + bx Y = 1.378 + 0.007*130 =.8 11
Kriterievariabel 1/14/017 Anpassning av regressionslinjen: visualiserng Målet är bästa möjliga prediktion, prediktionsfelen ska vara minsta möjliga Varje avvikelse Y-Y från regressionslinjen utgör ett prediktionsfel (residual) Den kvatratsumman av dessa (Y-Y ) ska vara den minsta möjliga Minsta kvadratmetoden hittar linjen som ger den minsta summan av alla kvadrerade avstånd till linjen Gif Prediktorvariabel 3 Regressionslinjen Att tänka på: Regression från x till y ger inte samma regressionslinje som regression från y till x 4 1
Vad menas med total varians, förklarad varians och felvarians i samband med regression? Total varians : summan av kvadrerade avstånden från varje observerad Y till Y:s medelvärde dividerat med n, eller n-1 Vi struntar i att dividera med n, eller n-1, det är ju samma för alla termer => vi håller oss till kvadratsumman, SS Y SS total ( y i y) y i SS = sums of squares X 5 Vad menas med total varians, förklarad varians och felvarians i samband med regression? Förklarad varians: summan av kvadrerade avstånden från varje Y (= predicerad Y) till Y:s medelvärde Y y SS förklarad ( y i y) X 6 13
Vad menas med total varians, förklarad varians och felvarians i samband med regression? Felvarians (residualer): summan av kvadrerade avstånden från varje Y (= predicerad Y) till varje observerad Y. Y SS fel ( y i y ) i X 7 Totalvarians, förklarad varians, felvarians SS total = SS förklarad + SS fel Y X 8 14
Tidigare exempel r =.40 => r =.16 (Förklarad varians = 16%) SS total = SS förklarad + SS fel => SS fel = SS total - SS förklarad Felvarians = 100% - 16% = 84% 9 Regression och förklarad varians Andel förklarad varians kan också förstås som minskning av varians/prediktionsfel vid regression Utgå från y-variansen (arean av gröna kvadrater) som sätts till 100% (total varians) Hur mycket mindre blir kvadratsummorna räknat från regressionslinjen (blå kvadrater)? SS förklarad = SS total - SS fel y m Exempel 1 Exempel Total varians Area=100% Oförklarad varians Area=60% 100%-60% = 40% förklarad varians Total varians Area=100% Oförklarad varians Area=0% 100%-0% = 100% förklarad varians 15
intensitet var(y) 0 - -1 1 var(y) 1/14/017 Icke-standardiserad (b) vs stardardiserad regressionskoefficient (β) b: om x ökar en poäng så ökar y 0.007 i intenstet b är skalberoende, dvs resultaten kan ej jämföras β: om x ökar en Std så ökar y 0.41 Std (Std=S x och S y i formeln) β-värden från olika analyser kan jämföras tack vare standardiseringen Standardiserad regressionslinje går genom 0,0 1 3 4 S y 60 80 100 10 140 160 poäng b = 0.007 β = 0.41 - -1 0 1 S x Samma varians i x och y men olika kovarians Låg kovarians Hög kovarians y y cov(x,y) cov(x,y) var(x) var(x) x x Cov(x,y) Var(x) Enligt definition är β = Y X = Cov(X,Y) Var(X) = Cov(X,Y) S x då X är prediktorvariabel 16
Sambandet mellan β, b och Pearsons r Enligt definition är β = Cov(X,Y) Var(X) = Cov(X,Y) S x då X är prediktorvariabel S X = variansen i X Och enl tidigare är r = Cov(X,Y) S x S y Alltså är β = r S Y / S X Samt som vi sett β = b S x / S y Dvs. om S x = S y då är β=b=r 33 Hittills Förklarad varians vid bivariat korrelation eller nollte ordningens korrelation (r) x förklarar sin del av variansen hos y utan att någon hänsyn tas till någon annan variabel Men oftast är fler variabler inblandade som påverkar samband 34 17
Multipel korrelation (R) 35 Uttrycker den sammanlagda korrelationen mellan prediktorvariablerna och kriterievariabeln (A, B, och C i exemplet) Kvadreras denna får man R, dvs förklaringsgraden, hur väl fångar OBV in BV r 1 R r 1 r Gäller då r 3 = 0, dvs då B = 0 C R r1 r r1 r r3 Gäller då r 3 0 1 r3 r A B r 3 36 18
Multipel korrelation Användningsområden Flera oberoende variabler Kontrollera för andra variablers inverkan på sambandet (3e variabeln) 37 Exempel multipel korrelation: relationen mellan ANS-precision och Matte Prestation i ANS (approximate number system) korrelerar med prestation i symbolisk aritmetik (huvudräkning) Teori: förmåga att handskas med symboliskt antal har sitt ursprung i ett mer primitivt ANS Men det kan ju finnas andra variabler som orsakar detta samband. Ex IQ? Egna data till höger, r=0,41: Hur stor är korrelationen mellan X och Y då hänsyn tas till Z (IQ partialiseras bort)? X: ANS (skatta antal, 300 ms). Flest gula eller blå prickar? X r=0,41 r=0, Y Z r=0,6 Y: Matte. Räkna så många tal som möjligt på tid Z: IQ (Ravens). Vilken av figurerna 1-8 passar bäst in? Ex: 13 + 8 8 17 37-19 38 19
Partiell korrelation (pr) Då vi vet alla parvisa korrelationer (mellan 3 variabler finns 3 st) Vi kan då ta bort inverkan från medierande variabeln (här Z) för att isolera sambandet mellan X och Y r XY : Z r XY r XZ r YZ 1 rxz 1 ryz ANS r=0, X r=0,41 Z IQ r=0,6 0,41 0, 0,6 r XY : Z 1 0, 1 0,6 0,35 Huvudräkning Y 39 Ett sätt att förstå partiell korrelation Vi har variabler X och Y samt en möjlig 3e variabel Z. 1. Ta reda på om 3e variabeln Z korrelerar med Y och bestäm regressionslinjen. Kolla om residualerna d i korrelerar med X i (den vi är intresserad av) Y d i Z (som vi vill kontrollera för) Partiell korr r(x,y:z) är samma som korrelationen mellan X i och residualerna d i Efter att bidraget från variabeln Z har beaktats. Undersöks om X kan ta hand om resterande varians (d i ) 40 0
Supressorvariabel Ibland kan en medierande variabel dölja en korrelationen mellan två variabler Då den partialiserats bort kan korrelationen stiga Den medierande varibeln (OBV ) är då positivt korrelerad med den ena variabeln men negativt med den andra BV - OBV1 OBV + + 41 Supressorvariabel påhittat exempel X = den ansträngning en student lägger på tentaplugg Y = studentens poäng på tentan Z = lärarens förmåga att skrämma upp studenter r XY = 0,, r XZ = 0,8, r YZ = -0,4 jmfr 0, 0,8 ( 0,4) r 0,95 : 1 0,8 1 ( 0,4) XY Z enl formeln på slide 39 4 1
Semipartiell korrelation (sr) Man justerar bort den medierande variabelns (här Z) effekt bara på en av de övriga variablerna (här Y) Ger Y och Z s unika bidrag till X, deras gemensamma bidrag har partialiserats bort ANS X Z IQ Huvudräkning Y 43 Förklarad varians vid partiell och semipartiell korrelation (pr, sr) Två OBV (x 1, x ), täcker ett större område av BV (y). På samma sätt, när det finns två OBV kan mer av BVs variation förklaras Partiell x förklarar sin del av variansen hos y efter det att man justerat för effekten av x 1 på y Semipartiell x och x 1 förklarar variansen hos y efter det att man justerat för effekten av x 1 på x 44
Multipel regression 45 Tillåter prediktion av kriterievariabeln från flera prediktorer y=a + b 1 x 1 +b x +b 3 x 3 + b k x k Är en utvidgning av den som gäller för enkel regression b 1, b, b 3,, b k är icke-standardiserade partiella regressionskoefficienter för respektive prediktor Visar vilken effekt utifrån skalenheter x har på y när övriga variabler hålls konstanta Motsvarande β kallas standardiserad partiell regressionskoefficient (kan jämföras med varandra) Samma som b men mätt i standardavvikelse istf. Skalenhet Kan tolkas som de olika prediktorvariablernas relativa effekt på y 46 3
Exempel Test 1 Sluttest 73 80 15 93 88 185 89 91 180 96 98 196 73 66 14 69 74 149 87 79 175 79 70 164 69 70 141 70 65 141 93 95 184 79 80 15 70 73 148 93 89 19 78 75 147 81 90 183 88 9 177 78 83 159 8 86 177 86 8 175 78 83 175 76 83 149 96 93 19 3 personer har gjort tester Hur bra predicerar resultaten på dessa test resultatet på ett sluttest? En multipel regression ger b 1 =1,33, β 1 =0,65, b =0,63, β =0,3 Regressionsekv med prediktorvariabler beskriver en plan yta som på bästa sätt anpassats till data Ytans lutning i planet y-x 1 beskrivs av β 1 Lutningen i planet y- x beskrivs av β Kvarvarande felvarians beskrivs av strecken mellan datapunkter och ytan β 1 β 4
Då båda testerna ingår i en multipel regression är alltså Sluttest= 6,43 + 1,33 Test1 + 0,63 Test b 1 =1,33 b =0,63 Enkla regressioner ger Sluttest 00 190 180 170 160 150 140 b 1 = 1,89 grafen till vänster (då man ignorerar test) b =1,70 grafen till höger (då man ignorerar test1) Sluttest = 1,9+1,89Test1 b=1,89 130 65 70 75 80 85 90 95 100 Test 1 r=0,9 Sluttest = 7,6+1,70Test 130 60 65 70 75 80 85 90 95 100 Dvs. då man tar bort ett av testerna förändras lutningskoefficienten för det kvarvarande testet! Finns olika metoder när man handskas med många prediktorer Sluttest 00 190 180 170 160 150 140 b=1,70 Test r=0,87 Metoder vid multipel regression med många prediktorer Standard multipel regression - Alla prediktorvariabler läggs in samtidigt - Används för att förklara så mycket varians i data som möjligt. Hierarkisk multipel regression - Forskaren väljer den ordning prediktorvariabler läggs in i regressionsekvationen och har kontroll över analysproceduren - En modell bestämmer ordning av prediktorv - Equivalent med semi-partiella korrelationer 50 5
Metoder vid multipel regression Forward regression Datorn väljer ordning för prediktorv läggs till sekventiellt en i taget baserat på vilken prediktorv. som förklarar mest varians i kriterievariabeln Avslutas när ökningen av förklarad varians inte längre är signfikant Backward regression Börjar med alla prediktorv tar bort dem sekventiellt en och en Den som förklarar minst varians plockas bort i varje steg Stepwise Regression kombination av forward och backward Efter varje nytt tillägg (baserat på mest förklarad varians ) kan också en prediktorv. tas bort om minskningen i förklarad varians inte är signifikant 51 Val av metod för multipel regression Forskaren väljer, Sekventiell (hierarkisk) Ger kontroll över hur analysen utvecklas Möjligt att testa explicita modeller/hypoteser Möjligt att anpassa ordningen efter aktuell analysstrategi Börja med kända faktorer för att i senare steg testa nya enligt modellen viktiga faktorers bidrag Börja med variabler du vill kontrollera för (ex demografiska variabler) för att senare steg testa nya enligt modellen viktiga faktorers bidrag 5 6
Val av metod för multipel regression Datorn väljer, Statistisk (stepwise) Kontroversiell pga maximalt utnyttjande av rådande samband, risk för overfitting => resultatet kan ej replikeras med ett nytt sampel! Pga detta kan tolkningen försvåras och generaliserbarheten begränsas Korsvalidering med ett nytt sampel rekommenderas Kan vara bra i explorativt syfte Kan bidra till nya hypoteser Hjälper till att utesluta onödiga OBV 53 Exempel standard regression Här vill man bara veta vilken/vilka variabler som predicerar mest av kriterievariabeln, utan ngn modell i bakhuvudet Reevy G. M., & Deason, G. (014). Predictors of depression, stress, and anxiety among non-tenure track faculty. Frontiers in Psychology, 5, 701. 7
Sampelstorlek Diverse aspekter relaterade till regressionsanalys Varierande rekommendationer; 10-15 per prediktor eller antal prediktorer + 50 (eller utgå från powerberäkningar) Skalnivåkrav Som övriga parametriska metoder, en prediktorvariabel på nominalskalenivån är dock möjlig (ex män, kvinnor) Ex: Testresultat = a + 7 Studietid + kön där kön=0 för man och 1 för kvinna (dummy variabel). Betyder att kvinnor ligger högre än männens testresultat vid samma studietid 55 Regressionsanalys och ANOVA ANOVA är i grunden samma som regressionsanalys Regressionsanalys oftast mer komplicerad än ANOVA pga att Vid ANOVA sker ofta randomisering (experimentell design) problem med 3e variabeln undviks Vid regressionsanalys används icke-experimentell design, fp randomiseras inte (givet från början, ex kvinnor och män, eller hur bra deltagare är på huvudräkning) Man kan också infoga en interaktionsterm i regressionsekv Y = β 1 X 1 β X β 3 X 1 X + ɛ 56 8
När ska man använda Regression? Prediktorer, oberoende variabler Kontinuerlig Kategorisk Kriterie-, el. beroendevariabel Kontinuerlig Regression ANOVA Kategorisk Logistisk regression Chi Ex: Godkänd/underkänd rätt/fel frisk/sjuk Tänk på kausalitetsproblemet vid icke experimentella studier (korrelation, regression) Vad beror ett erhållet statistiskt signifkant samband mellan variablerna A och B i samplet på? A orsakar B B orsakar A En 3e variabel orsakar både A och B (kan finnas många olika sådana) Dessutom: risk för typ-i fel ökar med stora korrelationsmatriser (mass-signifikansproblemet) 58 9