Forskningsmetod II Korrelation och regression

Relevanta dokument
Forskningsmetod II Korrelation och regression

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Höftledsdysplasi hos dansk-svensk gårdshund

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Föreläsning G60 Statistiska metoder

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Multipel Regressionsmodellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Linjär regressionsanalys. Wieland Wermke

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Multipel regression och Partiella korrelationer

10.1 Enkel linjär regression

Sänkningen av parasitnivåerna i blodet

Parametiskt vs. icke-parametriskt

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

FACIT!!! (bara facit,

Regressions- och Tidsserieanalys - F4

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Regressions- och Tidsserieanalys - F1

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Metod och teori. Statistik för naturvetare Umeå universitet

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

OBS! Vi har nya rutiner.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Medicinsk statistik II

Regressions- och Tidsserieanalys - F1

ANOVA Faktoriell (tvåvägs)

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

InStat Exempel 4 Korrelation och Regression

Föreläsning 4. Kap 5,1-5,3

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Statistiska samband: regression och korrelation

Följande resultat erhålls (enhet: 1000psi):

Statistiska analyser C2 Bivariat analys. Wieland Wermke

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Medicinsk statistik II

Grundläggande matematisk statistik

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Statistik och epidemiologi T5

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Skrivning i ekonometri torsdagen den 8 februari 2007

Repetitionsföreläsning

Statistik 1 för biologer, logopeder och psykologer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Linjär Regressionsanalys. Centrum för allmänmedicin Henrik Källberg

Uppgift 1. Produktmomentkorrelationskoefficienten

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Uppgift 1. Deskripitiv statistik. Lön

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

chi 2 : A B A: B: p-värde: A B K M K M phi A B Ja Ja Nej Nej (2 tentor av 8)

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

ANOVA Mellangruppsdesign

7.5 Experiment with a single factor having more than two levels

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

F11. Kvantitativa prognostekniker

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Att välja statistisk metod

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Regressions- och Tidsserieanalys - F5

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Finansiell statistik. Multipel regression. 4 maj 2011

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Blandade problem från elektro- och datateknik

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Lösningar till SPSS-övning: Analytisk statistik

Finansiering. Föreläsning 6 Risk och avkastning BMA: Kap. 7. Jonas Råsbrant

Gamla tentor (forts) ( x. x ) ) 2 x1

Matematisk statistik, Föreläsning 5

Transkript:

Forskningsmetod II Korrelation och regression Idag: 1. Korrelation (Pearsons r). Regression 3. Multipel korrelation 4. Multipel regression Leo Poom 018-471 17 leo.poom@psyk.uu.se 1. Korrelation (bivariat) Korrelation är ett sambandsmått, dvs finns det någon koppling mellan variabler? Förutsätter linjärt samband! Hur stark är denna koppling? Mäts med Pearsons r (el speramans ρ) Sambandsmått kan härröra från alla typer av studier och designer, men vanligen inte från experiment (i alla fall inte som huvudanalys) Samband vs kausalitet: Låg grad av kontroll pga icke experimentell design Diskussion och resonemang för att utesluta andra förklaringar Man observerar variabler vid ett tillfälle (tvärsnittsstudie) eller över tid (longitudinell studie) 1

Hur kan vi mäta samband? Kovarians: samvariation mellan två variabler x och y, hur en förändring i x påverkar y Beräknas mha varje punkts (x i,y i ) avvikelser från sina respektive medelvärden (x m och y m ) Intensitet känslor Y y m - + x m ΔX ΔY => + ΔX= x x m ΔY = y y m - Extraversion X 3 Kovarians Kovarians tar ej hänsyn till spridning (range) => olika kovariansmått ej jämförbart (ex om y-axeln i figuren nedan varit graderad 0-00 blir kovariansen en helt annan, 10 ggr större) cov(x,y)=1/(n-1) (x i x m )(y i y m ) = 1/(n-1) ΔX i ΔY i y m, x m = samplemedelvärden Då populationsmedelvärden är kända divideras med n Stor kovarians Liten kovarians 4

Likheter mellan kovarians och varians: visualisering För populationen gäller (för sampel divideras med n-1): Var(y) = 1/n Δy i Var(x) = 1/n Δx i Cov(x,y)=1/n Δx i Δy i x i - + y i Δy y m i i y y i y i x i Δx i + - m x m x m x Varians i y: Medelkvadratytan av alla kvadrater som bildas av avstånd från y i till m y x i Varians i x: Medelkvadratytan av alla kvadrater som bildas av avstånd från x i till m x x i Kovarians x,y: Medelrektangelytan av alla rektanglar som bildas av avstånd från y i till m y och x i till m x (hänsyn taget till tecken!) 5 Kovarians och korrelation Korrelationskoefficienten, Pearson s r En viktad version av kovarians, beror ej på gradering av koordinataxlar => olika r kan jämföras r = Cov (x,y) (S x )(S y ) r kan ses som medelvärdet hos produkten av standardpoäng (z-poäng) = 1/(n-1) z x z y r uttrycker sambandets styrka och riktning varierar mellan -1 och +1 6 3

Illustration av olika r 7 Cirklarnas areor representerar variansen i x, och y, resp felvarians I exemplet kan 80% av Ys varians förklaras av Xs varians den återstående variansen, 0%, beror på något annat, sannolikt på många olika saker Från korrelation till förklarad varians r x,y = 0,89 = 0,8 Varför varierar Y? r = r = Tot Var(y) = andel Var(x) + andel Var(error) r y,error = 0,45 = 0, 8 4

Delad eller förklarad varians Den kvadrerade korrelationskoefficienten, r eller R, är den förklarade, eller delade variansen, kallas även determinationskoefficienten Den anger förklaringsgraden, dvs hur stor del av variationen i den ena variabeln som kan förklaras av (bestäms av, fångas av, överlappas av) variationen i den andra variabeln Ex. om resultaten på två tentor korrelerar med r =.80 är den delade variansen.80 =.64 Då delar de 64% av variansen, 64% av variationen i den ena variabeln kan då förklaras av variationen i den andra variabeln 100 64 = 36 % av variationen beror på något annat: ex. testen mäter inte riktigt samma sak, eller testdeltagares variation i uppmärksamhet, eller slumpvariation. 9 Andel förklarad varians kan också förstås som minskning av varians/prediktionsfel vid regression Utgå från y-variansen (gröna kvadrater) som sätts till 100% Hur mycket mindre blir kvadratsummorna räknat från regressionslinjen (blå kvadrater)? Förklarad varians Exempel 1 Exempel Area=100% Area=100% Area=60% 100%-x% = 60% Dvs x = 40% förklarad varians Area=0% 100%-x% = 0% Dvs x = 100% förklarad varians 5

Visualisering: Delad/förklarad varians och venndiagram r = r = 0 0% r = 0,04 4% r = 0,16 16% r = 0,36 36% r = 0,64 64% r = 1 100% Var(y) Var(x) Den delade variansen illustreras med graden av överlapp mellan cirklarna (lila) Del av y som ej överlappas av x är oförklarad varians (röd) Effektstorlek vid korrelation r eller r används som mått på effektstorlek Kriterier för bedömning: r r Förklarad varians Liten 0.1 0.01 1% Måttlig 0.3 0.09 9% Stor >0.5 0.5 5% 1 6

Signifikanstestning av r Nollhypotes: r i populationen = 0 Förekomsten av alla r antas vara normalfördelad Fördelningens form beroende på frihetsgrader, df = n t-statistic, är sign t r n 1 r i tabell ses om detta Alternativt: p-värdet fås direkt i SPSS 13 Minsta värdet av Pearsons r som är signifikant för en given sampelstorlek (alfa = 0,05) Även pyttesmå korrelationer blir signifikanta om samplet tillräckligt stort! 14 7

inkomst 5/10/017 Situationer där r kan bli missvisande Dessutom bör de ingående variablerna vara hyggligt normalfördelade kroppslängd Gör alltid en visuell inspektion av scatterplot! 15. Regression (enkel) Regression en vidareutveckling av korrelation Tillåter prediktion via regressionsekvation Prediktorvariabel (OBV) och kriterievariabel (BV) 16 8

Regression Korrelation är ett mått på styrkan av sambandet mellan variabler Regression visar hur sambandet ser ut. Prediktorvariabel (x) och kriterievariabel (y) Y Intensitet känslor Extraversion X 17 Enkel regression Regressionslinjen är ekvationens geometriska uttryck a Interceptet Den går genom interceptet och medelvärdet för X och Y 0 18 9

Enkel regression Ett exempel a = 1.378 b = 0.007 Personen har läst 130 i extraversionspoäng, hur intensivt kommer denna att reagera? Y = a + bx Y = 1.378 + 0.007*130 =.8 Interceptet a= 1.378 0 19 Anpassning av regressionslinjen Y-Y 0 10

Anpassning av regressionslinjen: visualiserng Least squares regression line Minsta kvadratmetoden hittar linjen som ger den minsta summan av alla kvadrerade avstånd till linjen Gif 1 Regressionslinjen Regression från x till y ger inte samma regressionslinje som regression från y till x 11

Vad menas med total varians, förklarad varians och felvarians i samband med regression? Total varians kvadratsumman: summan av kvadrerade avstånden från varje observerad Y till Y:s medelvärde (vi struntar i att dividera med n, eller n-1, vilket ju ger variansen runt y s medelvärde) Y SS total ( y i y) y i SS = sums of squares X 3 Vad menas med total varians, förklarad varians och flevarians i samband med regression? Förklarad varians: summan av kvadrerade avstånden från varje Y (= predicerad Y) till Y:s medelvärde Y y SS förklarad ( y i y) X 4 1

Vad menas med total varians, förklarad varians och flevarians i samband med regression? Felvarians (residualer): summan av kvadrerade avstånden från varje Y (= predicerad Y) till varje observerad Y. Y SS fel ( y i y ) i X 5 Totalvarians, förklarad varians, felvarians SS total = SS förklarad + SS fel Y X 6 13

intensitet 0 - -1 1 5/10/017 Vårt exempel r =.40 r =.16 Förklarad varians = 16% Felvarians = 100% - 16% = 84% 7 Icke-standardiserad (b) vs stardardiserad regressionskoefficient (β) b: om x ökar en poäng så ökar y 0.007 i intenstet b är skalberoende, dvs resultaten kan ej jämföras β: om x ökar en Std så ökar y 0.41 Std (Std=S x och S y i formeln) β-värden från olika analyser kan jämföras tack vare standardiseringen Standardiserad regressionslinje går genom 0,0 1 3 4 S y 60 80 100 10 140 160 poäng b = 0.007 β = 0.41 - -1 0 1 S x 14

Sambandet mellan β, b och Pearsons r Enligt definition är β = Cov(X,Y) Var(X) = Cov(X,Y) S x då X är prediktorvariabel S X = variansen i X Och enl tidigare är r = Cov(X,Y) S x S y Alltså är β = r S Y / S X Samt som vi sett β = b S x / S y Dvs. om S x = S y då är β=b=r 9 Hittills Förklarad varians vid bivariat korrelation eller nollte ordningens korrelation (r) x förklarar sin del av variansen hos y utan att någon hänsyn tas till någon annan variabel Men oftast är fler variabler inblandade som påverkar samband 30 15

3. Multipel korrelation (R) Uttrycker den sammanlagda korrelationen mellan prediktorvariablerna och kriterievariabeln (A+B+C) Kvadreras denna får man R, dvs förklaringsgraden, hur väl fångar OBV in BV r 1 R r 1 r Gäller då r 3 = 0, dvs B = 0 C R r1 r r1 r r3 då r 3 0 1 r3 r A B r 3 31 Användningsområden Flera oberoende variabler Multipel korrelation Kontrollera för andra variablers inverkan på sambandet (3e variabeln) 3 16

Exempel multipel korrelation: relationen mellan ANS-precision och Matte Prestation i ANS (approximate number system) korrelerar med prestation i symbolisk aritmetik (huvudräkning) Teori: förmåga att handskas med symboliskt antal har sitt ursprung i ett mer primitivt ANS Men det kan ju finnas andra variabler som orsakar detta samband. Ex IQ? Egna data till höger: Hur stor är korrelationen mellan X och Y då hänsyn tas till Z (IQ partialiseras bort)? X: ANS (skatta antal, 300 ms). Flest gula eller blå prickar? X r=0,41 r=0, Y Z Y: Matte. Räkna så många tal som möjligt på tid Ex: 13 + 8 8 17 37-19 r=0,6 Z: IQ (Ravens). Vilken av figurerna 1-8 passar bäst in? 33 Partiell korrelation (pr) Då vi vet alla parvisa korrelationer (mellan 3 variabler finns 3 st) Vi kan då ta bort inverkan från medierande variabeln (här Z) för att isolera sambandet mellan X och Y r XY : Z r XY r XZ r YZ 1 rxz 1 ryz ANS r=0, X r=0,41 Z IQ r=0,6 0,41 0, 0,6 r XY : Z 1 0, 1 0,6 0,35 Huvudräkning Y 34 17

Ett sätt att förstå partiell korrelation Vi har variabler X och Y samt en möjlig 3e variabel Z. 1. Ta reda på om 3e variabeln Z korrelerar med Y och bestäm regressionslinjen. Kolla om residualerna d i korrelerar med X i (den vi är intresserad av) Y d i Z (som vi vill kontrollera för) Partiell korr r(x,y:z) är samma som korrelationen mellan X i och residualerna d i Efter att bidraget från variabeln Z har beaktats. Undersöks om X kan ta hand om resterande varians (d i ) 35 Supressorvariabel Ibland kan en medierande variabel dölja en korrelationen mellan två variabler Då den partialiserats bort kan korrelationen stiga Den medierande varibeln (OBV ) är då positivt korrelerad med den ena variabeln men negativt med den andra BV - OBV1 OBV + + 36 18

Supressorvariabel påhittat exempel X = den ansträngning en student lägger på tentaplugg Y = studentens poäng på tentan Z = lärarens förmåga att skrämma upp studenter r XY = 0,, r XZ = 0,8, r YZ = -0,4 jmfr 0, 0,8 ( 0,4) r 0,95 : 1 0,8 1 ( 0,4) XY Z enl formeln på slide 9 37 Semipartiell korrelation (sr) Man justerar bort den medierande variabelns (här Z) effekt bara på en av de övriga variablerna (här Y) Ger Y och Z s unika bidrag till X, deras gemensamma bidrag har partialiserats bort ANS X Z IQ Huvudräkning Y 38 19

Förklarad varians vid partiell och semipartiell korrelation (pr, sr) Två OBV (x 1, x ), täcker ett större område av BV (y). På samma sätt, när det finns två OBV kan mer av BVs variation förklaras Partiell x förklarar sin del av variansen hos y efter det att man justerat för effekten av x 1 på y Semipartiell x och x 1 förklarar variansen hos y efter det att man justerat för effekten av x 1 på x 39 4. Multipel regression Tillåter prediktion av kriterievariabeln från flera prediktorer 40 0

Exempel Test 1 Sluttest 73 80 15 93 88 185 89 91 180 96 98 196 73 66 14 69 74 149 87 79 175 79 70 164 69 70 141 70 65 141 93 95 184 79 80 15 70 73 148 93 89 19 78 75 147 81 90 183 88 9 177 78 83 159 8 86 177 86 8 175 78 83 175 76 83 149 96 93 19 3 personer har gjort tester Hur bra predicerar resultaten på dessa test resultatet på ett sluttest? En multipel regression ger b 1 =1,33, β 1 =0,65, b =0,63, β =0,3 Regressionsekv med prediktorvariabler beskriver en plan yta som på bästa sätt anpassats till data Ytans lutning i y-x 1 planet beskrivs av β 1 β Lutningen i y-x planet beskrivs av β Kvarvarande felvarians beskrivs av strecken mellan datapunkter och ytan β 1 1

Då båda testerna ingår i en multipel regression är alltså Sluttest= 6,43 + 1,33 Test1 + 0,63 Test b 1 =1,33 b =0,63 Enkla regressioner ger Sluttest 00 190 180 170 160 150 140 b 1 = 1,89 grafen till vänster (då man ignorerar test) b =1,70 grafen till höger (då man ignorerar test1) Sluttest = 1,9+1,89Test1 130 65 70 75 80 85 90 95 100 Test 1 r=0,9 Dvs. då man tar bort ett av testerna förändras lutningskoefficienten för det kvarvarande testet! Sluttest 00 190 180 170 160 150 140 Sluttest = 7,6+1,70Test 130 60 65 70 75 80 85 90 95 100 Test r=0,87 Om man har många ingående prediktorvariabler finns olika metoder Standard Forskaren väljer: Sekventiell (hierarkisk) Datorn väljer: Statistisk (stepwise) De sista skiljer sig beträffande: 1.I vilken ordning prediktorvariabler läggs in i regressionsekvationen (dvs i analysen).vad eller vem som avgör denna ordning 3.Hur prediktorvariabler tilldelas betydelse 44

Metoder vid multipel regression Standard multipel regression: Alla prediktorv. läggs in samtidigt. Används för att förklara så mycket varians i data som möjligt. Forskaren väljer: Hierarkisk multipel Regression: Forskaren har kontroll över analysproceduren. Forskarens modell bestämmer ordning av prediktorv. Equivalent med semi-partiella korrelationer 45 Metoder vid multipel regression Datorn väljer : Forward regression: prediktorv. läggs till sekventiellt en i taget baserat på vilken prediktorv. som förklarar mest varians i kriterievariabeln. Avslutas när ökningen av förklarad varians inte längre är signfikant Backward regression: Börjar med alla prediktorv. och tar bort dem sekventiellt en och en. Den som förklarar minst varians plockas bort i varje steg Stepwise Regression: kombination av forward och backward: Efter varje nytt tillägg (baserat på mest förklarad varians ) kan också en prediktorv. tas bort om minskningen i förklarad varians inte är signifikant 46 3

Val av metod för multipel regression Forskaren väljer, Sekventiell (hierarkisk) Ger kontroll över hur analysen utvecklas Möjligt att testa explicita modeller/hypoteser Möjligt att anpassa ordningen efter aktuell analysstrategi Börja med kända faktorer för att i senare steg testa nya enligt modellen viktiga faktorers bidrag Börja med variabler du vill kontrollera för (ex demografiska variabler) för att senare steg testa nya enligt modellen viktiga faktorers bidrag 47 Val av metod för multipel regression Datorn väljer, Statistisk (stepwise) Kontroversiell pga maximalt utnyttjande av rådande samband, risk för overfitting => resultatet kan ej replikeras med ett nytt sampel! Pga detta kan tolkningen försvåras och generaliserbarheten begränsas Korsvalidering med ett nytt sampel rekommenderas Kan vara bra i explorativt syfte Kan bidra till nya hypoteser Hjälper till att utesluta onödiga OBV 48 4

Exempel hierarkisk regression En trestegs hierarkisk multipel regression med tillfredsställelse (Satisfaction) som beroende variabel Social önskvärdhet anges i 1a steget (kontroll för socialt önskvärda svar), Attachmentvariabler (Avoidance and Anxiety) i steg, Engagemang (Commitment) och Conflikt i steg 3. Kronologiskt rimlig ordning med tanke på att Attachment är relevant från barndomen Tabell 3 från http://wps.pearsoned.com.au/wps/media/objects/6976/714419/hierarchical_regression.pdf Summary of Hierarchical Regression Analysis for Variables predicting Satisfaction Variable β t R R R Step 1.1.04.04 Social Desirability.1.01* Step.77.60.55 Social Desirability.0.4 Avoidance -.56-5.86*** Anxiety -.6 -.68** Step 3.87.77.17 Social Desirability -.0 -.36 Avoidance -.0 -.5* Anxiety -.08-1.0 Commitment.6 4.0*** Conflict -.50-6.6*** Note. N = 94; *p <.05, **p <.01, ***p<.001 Exempel standard regression Här vill man bara veta vilken/vilka variabler som predicerar mest av kriterievariabeln, utan ngn modell i bakhuvudet Reevy G. M., & Deason, G. (014). Predictors of depression, stress, and anxiety among non-tenure track faculty. Frontiers in Psychology, 5, 701. 5

Sampelstorlek Diverse aspekter relaterade till regressionsanalys Varierande rekommendationer; 10-15 per prediktor eller antal prediktorer + 50 (eller utgå från powerberäkningar) Skalnivåkrav Som övriga parametriska metoder, en prediktorvariabel på nominalskalenivån är dock möjlig (ex män, kvinnor) Ex: Testresultat = a + 7 Studietid + kön där kön=0 för man och 1 för kvinna (dummy variabel). Betyder att kvinnor ligger högre än männens testresultat vid samma studietid 51 Regressionsanalys och ANOVA ANOVA är i grunden samma som regressionsanalys Regressionsanalys oftast mer komplicerad än ANOVA pga att Vid ANOVA sker ofta randomisering (experimentell design) problem med 3e variabeln undviks Vid regressionsanalys används icke-experimentell design, fp randomiseras inte (givet från början, ex kvinnor och män, eller hur bra deltagare är på huvudräkning) Man kan också infoga en interaktionsterm i regressionsekv Y = β 1 A 1 β A β 3 A 1 A + ɛ 5 6

När ska man använda Regression? Prediktorer, oberoende variabler Kontinuerlig Kategorisk Kriterie-, el. beroendevariabel Kontinuerlig Regression ANOVA Kategorisk Logistisk regression Chi Ex: Godkänd/underkänd rätt/fel frisk/sjuk Tänk på kausalitetsproblemet vid icke experimentella studier (korrelation, regression) Vad beror ett erhållet statistiskt signifkant samband mellan variablerna A och B i samplet på? A orsakar B B orsakar A En 3e variabel orsakar både A och B (kan finnas många sådana) Dessutom: risk för typ-i fel (det finns inget samband i populationen). Risken ökar med stora korrelationsmatriser (mass-signifikansproblemet) 54 7

Slutligen: en sammanfattande rekommendation avs bruket av p- värden från American Statistical Association (ASA) Good statistical practice, as an essential component of good scientific practice, emphasizes principles of good study design and conduct, a variety of numerical and graphical summaries of data, understanding of the phenomenon under study, interpretation of results in context, complete reporting and proper logical and quantitative understanding of what data summaries mean. No single index should substitute for scientific reasoning. Ronald L. Wasserstein & Nicole A. Lazar (016) The ASA's Statement on p- Values: Context, Process, and Purpose, The American Statistician, 70:, 19-133 55 8