Forskningsmetod II Korrelation och regression

Relevanta dokument
Forskningsmetod II Korrelation och regression

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Höftledsdysplasi hos dansk-svensk gårdshund

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning G60 Statistiska metoder

Linjär regressionsanalys. Wieland Wermke

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Multipel Regressionsmodellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

10.1 Enkel linjär regression

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Sänkningen av parasitnivåerna i blodet

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

FACIT!!! (bara facit,

Parametiskt vs. icke-parametriskt

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Medicinsk statistik II

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Multipel regression och Partiella korrelationer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Medicinsk statistik II

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Grundläggande matematisk statistik

Metod och teori. Statistik för naturvetare Umeå universitet

ANOVA Faktoriell (tvåvägs)

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

InStat Exempel 4 Korrelation och Regression

F11. Kvantitativa prognostekniker

Regressions- och Tidsserieanalys - F4

Repetitionsföreläsning

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Lektionsanteckningar 11-12: Normalfördelningen

OBS! Vi har nya rutiner.

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Regressions- och Tidsserieanalys - F1

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Statistik och epidemiologi T5

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Statistiska samband: regression och korrelation

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Följande resultat erhålls (enhet: 1000psi):

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Att välja statistisk metod

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 4. Kap 5,1-5,3

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Uppgift 1. Deskripitiv statistik. Lön

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 12: Regression

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Matematisk statistik, Föreläsning 5

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Blandade problem från elektro- och datateknik

Linjär Regressionsanalys. Centrum för allmänmedicin Henrik Källberg

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Statistik 1 för biologer, logopeder och psykologer

Formler och tabeller till kursen MSG830

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

chi 2 : A B A: B: p-värde: A B K M K M phi A B Ja Ja Nej Nej (2 tentor av 8)

EXAMINATION KVANTITATIV METOD vt-11 (110204)

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Laboration 2 multipel linjär regression

OBS! Vi har nya rutiner.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Transkript:

Forskningsmetod II Korrelation och regression Idag: Bivariat korrelation (Pearsons r) Enkel regression Multipel korrelation Multipel regression Leo Poom 018-471 17 leo.poom@psyk.uu.se Samband: Mest frekvent presenterade typen av studier i kvällspress 1

Hur skulle du tolka scatterplot mellan de 147 arbetarnas armstyrka och arbetsledarnas skattningar av hur väl de anställda klarade att utföra de fysiskt krävande momenten av sina jobb? Korrelationen r =. (n=147, p=0,007) är statistiskt signifikant! Skulle detta motivera att ha armstyrka som merit? 3 Repetition: varians Varians: Medelvärdet av de kvadratiska skillnaderna från medelvärdet Δy i = (y i y m ) över alla datapunkter Formel: Var(y) = 1/n Δy i (för stickprov divideras med n-1) y y m y i Δy i y i Variansen är medelkvadratens yta Standardavvikelsen är roten ur variansen: s = Varians, s= Varansen (medelavståndet från medelvärdet) Vad är då kovarians? Samvariation mellan x och y x 4

Hur kan vi mäta samband? Kovarians Samvariation mellan två variabler x och y, hur en förändring i x påverkar y Beräknas mha varje punkts (x i, y i ) avvikelser från sina respektive medelvärden cov(x,y)=1/(n-1) (x i x m )(y i y m ) = 1/(n-1) Δx i Δy i Om populationsmedelvärden kända divideras med n Intensitet känslor Y y m - + x m ΔX ΔY => + ΔX= x x m ΔY = y y m - (+) (+)=(+) (-) (-)=(+) (+) (-)=(-) Extraversion X Likheter och skillnader mellan varians och kovarians För populationen gäller (för sampel divideras med n-1): Var(y) = 1/n Δy i Var(x) = 1/n Δx i Cov(x,y)=1/n Δx i Δy i x i - + y i Δy y y i i m y i y i y i x i + - Δx i x i x m x m x m Varians i y: Medelkvadratytan av alla kvadrater som bildas av avstånd från y i till m y x i Varians i x: Medelkvadratytan av alla kvadrater som bildas av avstånd från x i till m x x i Kovarians x,y: Medelrektangelytan av alla rektanglar som bildas av avstånd från y i till m y och x i till m x (hänsyn taget till tecken!) 6 3

Kovarians Kovarians tar ej hänsyn till måttenheter (meter, cm) => olika kovariansmått ej jämförbara om y-axeln i figuren nedan varit graderad 0-00 istället för 0-0 blir kovariansen en helt annan, 10 ggr större! Men korrelationer är jämförbara! Stor kovarians Liten kovarians 7 Från kovarians till korrelation (bivariat eller nollte-ordningens) 8 4

Bivariat korrelation Korrelation är ett sambandsmått, dvs finns det någon koppling mellan variabler (bivariat)? Förutsätter linjärt samband! Hur stark är denna koppling? Mäts med Pearsons r (el speramans ρ) Samband vs kausalitet: Låg grad av kontroll pga icke experimentell design Diskussion och resonemang för att utesluta andra förklaringar Man observerar variabler vid ett tillfälle (tvärsnittsstudie) eller över tid (longitudinell studie) 9 Kovarians och korrelation Korrelationskoefficienten, Pearson s r En viktad version av kovarians, dividera cov med s x och s y beror ej på gradering av koordinataxlar => olika r kan jämföras! r = Cov (x,y) (S x )(S y ) r medelvärdet över produkter mellan standardpoäng (z-poäng) = 1/(n-1) z x z y r uttrycker sambandets styrka och riktning varierar mellan -1 och +1 10 5

Illustration av olika r 11 Delad eller förklarad varians Den kvadrerade korrelationskoefficienten, r eller R, är den förklarade, eller delade variansen, kallas även determinationskoefficienten Den anger förklaringsgraden, dvs hur stor del av variationen i den ena variabeln som kan förklaras av (bestäms av, fångas av, överlappas av) variationen i den andra variabeln Ex. om resultaten på två tentor korrelerar med r =.80 är den delade variansen.80 =.64 Då delar de 64% av variansen, 64% av variationen i den ena variabeln kan då förklaras av variationen i den andra variabeln 100 64 = 36 % av variationen beror på något annat: ex. testen mäter inte riktigt samma sak, eller testdeltagares variation i uppmärksamhet, eller slumpvariation. 1 6

Delad varians och venndiagram r = r = 0 0% r = 0,04 4% r = 0,16 16% r = 0,36 36% r = 0,64 64% r = 1 100% Var(y) Var(x) Den delade variansen illustreras med % andel överlapp mellan cirklarna (lila) Del av y som ej överlappas av x är oförklarad varians (röd) Effektstorlek vid korrelation r eller r används som mått på effektstorlek Kriterier för bedömning: r r Förklarad varians Liten 0.1 0.01 1% Måttlig 0.3 0.09 9% Stor >0.5 0.5 5% 14 7

Signifikanstestning av r Nollhypotes: r i populationen = 0 Förekomsten av alla r antas vara normalfördelad Fördelningens form beroende på frihetsgrader, df = n t-statistic, är sign t r n 1 r i tabell ses om detta Alternativt: p-värdet fås direkt i SPSS 15 Minsta värdet av Pearsons r som är signifikant för en given sampelstorlek (alfa = 0,05) Även pyttesmå korrelationer blir signifikanta om samplet tillräckligt stort! 16 8

inkomst 1/14/017 Situationer där r kan bli missvisande Dessutom bör de ingående variablerna vara hyggligt normalfördelade kroppslängd Gör alltid en visuell inspektion av scatterplot! 17...make both calculations and graphs. Both sorts of output should be studied; each will contribute to understanding. F. J. Anscombe, 1973 (and echoed in nearly all talks about data visualization...) Ett extremt exempel: Den sammanfattande deskriptiva statistiken (m, s, r) är lika medan de enskilda datapunkterna beskriver helt olika mönster! Gif https://www.autodeskresearch.com/publications/samestats 18 9

Enkel regression 19 Enkel regression Korrelation är ett mått på styrkan av sambandet mellan variabler Regression är en vidareutveckling av korrelation Tillåter prediktion via regressionsekvation Y = a+b X Regression visar hur sambandet ser ut. Prediktorvariabel, OBV, (x) och kriterievariabel, BV, (y) Intensitet känslor Y Y = a+b X 0 Extraversion X 0 10

Regressionsekvationen Y = a+bx Den går genom interceptet (a = värdet av Y då X=0) och medelvärdet för X och Y b är den icke standardiserade regressionskoefficienten som anger regressionslinjens lutning i måttenheter. Hur många skalsteg ökar Y då X ökar ett steg? b = Y / X X Y b = Y / X 1 Enkel regression Exempel: Vi har tidigare bestämt regressionsekvationens parametrar till: a = 1.378 b = 0.007 Personen har läst 130 i extraversionspoäng, hur intensivt kommer denna att förväntas reagera? Y = a + bx Y = 1.378 + 0.007*130 =.8 11

Kriterievariabel 1/14/017 Anpassning av regressionslinjen: visualiserng Målet är bästa möjliga prediktion, prediktionsfelen ska vara minsta möjliga Varje avvikelse Y-Y från regressionslinjen utgör ett prediktionsfel (residual) Den kvatratsumman av dessa (Y-Y ) ska vara den minsta möjliga Minsta kvadratmetoden hittar linjen som ger den minsta summan av alla kvadrerade avstånd till linjen Gif Prediktorvariabel 3 Regressionslinjen Att tänka på: Regression från x till y ger inte samma regressionslinje som regression från y till x 4 1

Vad menas med total varians, förklarad varians och felvarians i samband med regression? Total varians : summan av kvadrerade avstånden från varje observerad Y till Y:s medelvärde dividerat med n, eller n-1 Vi struntar i att dividera med n, eller n-1, det är ju samma för alla termer => vi håller oss till kvadratsumman, SS Y SS total ( y i y) y i SS = sums of squares X 5 Vad menas med total varians, förklarad varians och felvarians i samband med regression? Förklarad varians: summan av kvadrerade avstånden från varje Y (= predicerad Y) till Y:s medelvärde Y y SS förklarad ( y i y) X 6 13

Vad menas med total varians, förklarad varians och felvarians i samband med regression? Felvarians (residualer): summan av kvadrerade avstånden från varje Y (= predicerad Y) till varje observerad Y. Y SS fel ( y i y ) i X 7 Totalvarians, förklarad varians, felvarians SS total = SS förklarad + SS fel Y X 8 14

Tidigare exempel r =.40 => r =.16 (Förklarad varians = 16%) SS total = SS förklarad + SS fel => SS fel = SS total - SS förklarad Felvarians = 100% - 16% = 84% 9 Regression och förklarad varians Andel förklarad varians kan också förstås som minskning av varians/prediktionsfel vid regression Utgå från y-variansen (arean av gröna kvadrater) som sätts till 100% (total varians) Hur mycket mindre blir kvadratsummorna räknat från regressionslinjen (blå kvadrater)? SS förklarad = SS total - SS fel y m Exempel 1 Exempel Total varians Area=100% Oförklarad varians Area=60% 100%-60% = 40% förklarad varians Total varians Area=100% Oförklarad varians Area=0% 100%-0% = 100% förklarad varians 15

intensitet var(y) 0 - -1 1 var(y) 1/14/017 Icke-standardiserad (b) vs stardardiserad regressionskoefficient (β) b: om x ökar en poäng så ökar y 0.007 i intenstet b är skalberoende, dvs resultaten kan ej jämföras β: om x ökar en Std så ökar y 0.41 Std (Std=S x och S y i formeln) β-värden från olika analyser kan jämföras tack vare standardiseringen Standardiserad regressionslinje går genom 0,0 1 3 4 S y 60 80 100 10 140 160 poäng b = 0.007 β = 0.41 - -1 0 1 S x Samma varians i x och y men olika kovarians Låg kovarians Hög kovarians y y cov(x,y) cov(x,y) var(x) var(x) x x Cov(x,y) Var(x) Enligt definition är β = Y X = Cov(X,Y) Var(X) = Cov(X,Y) S x då X är prediktorvariabel 16

Sambandet mellan β, b och Pearsons r Enligt definition är β = Cov(X,Y) Var(X) = Cov(X,Y) S x då X är prediktorvariabel S X = variansen i X Och enl tidigare är r = Cov(X,Y) S x S y Alltså är β = r S Y / S X Samt som vi sett β = b S x / S y Dvs. om S x = S y då är β=b=r 33 Hittills Förklarad varians vid bivariat korrelation eller nollte ordningens korrelation (r) x förklarar sin del av variansen hos y utan att någon hänsyn tas till någon annan variabel Men oftast är fler variabler inblandade som påverkar samband 34 17

Multipel korrelation (R) 35 Uttrycker den sammanlagda korrelationen mellan prediktorvariablerna och kriterievariabeln (A, B, och C i exemplet) Kvadreras denna får man R, dvs förklaringsgraden, hur väl fångar OBV in BV r 1 R r 1 r Gäller då r 3 = 0, dvs då B = 0 C R r1 r r1 r r3 Gäller då r 3 0 1 r3 r A B r 3 36 18

Multipel korrelation Användningsområden Flera oberoende variabler Kontrollera för andra variablers inverkan på sambandet (3e variabeln) 37 Exempel multipel korrelation: relationen mellan ANS-precision och Matte Prestation i ANS (approximate number system) korrelerar med prestation i symbolisk aritmetik (huvudräkning) Teori: förmåga att handskas med symboliskt antal har sitt ursprung i ett mer primitivt ANS Men det kan ju finnas andra variabler som orsakar detta samband. Ex IQ? Egna data till höger, r=0,41: Hur stor är korrelationen mellan X och Y då hänsyn tas till Z (IQ partialiseras bort)? X: ANS (skatta antal, 300 ms). Flest gula eller blå prickar? X r=0,41 r=0, Y Z r=0,6 Y: Matte. Räkna så många tal som möjligt på tid Z: IQ (Ravens). Vilken av figurerna 1-8 passar bäst in? Ex: 13 + 8 8 17 37-19 38 19

Partiell korrelation (pr) Då vi vet alla parvisa korrelationer (mellan 3 variabler finns 3 st) Vi kan då ta bort inverkan från medierande variabeln (här Z) för att isolera sambandet mellan X och Y r XY : Z r XY r XZ r YZ 1 rxz 1 ryz ANS r=0, X r=0,41 Z IQ r=0,6 0,41 0, 0,6 r XY : Z 1 0, 1 0,6 0,35 Huvudräkning Y 39 Ett sätt att förstå partiell korrelation Vi har variabler X och Y samt en möjlig 3e variabel Z. 1. Ta reda på om 3e variabeln Z korrelerar med Y och bestäm regressionslinjen. Kolla om residualerna d i korrelerar med X i (den vi är intresserad av) Y d i Z (som vi vill kontrollera för) Partiell korr r(x,y:z) är samma som korrelationen mellan X i och residualerna d i Efter att bidraget från variabeln Z har beaktats. Undersöks om X kan ta hand om resterande varians (d i ) 40 0

Supressorvariabel Ibland kan en medierande variabel dölja en korrelationen mellan två variabler Då den partialiserats bort kan korrelationen stiga Den medierande varibeln (OBV ) är då positivt korrelerad med den ena variabeln men negativt med den andra BV - OBV1 OBV + + 41 Supressorvariabel påhittat exempel X = den ansträngning en student lägger på tentaplugg Y = studentens poäng på tentan Z = lärarens förmåga att skrämma upp studenter r XY = 0,, r XZ = 0,8, r YZ = -0,4 jmfr 0, 0,8 ( 0,4) r 0,95 : 1 0,8 1 ( 0,4) XY Z enl formeln på slide 39 4 1

Semipartiell korrelation (sr) Man justerar bort den medierande variabelns (här Z) effekt bara på en av de övriga variablerna (här Y) Ger Y och Z s unika bidrag till X, deras gemensamma bidrag har partialiserats bort ANS X Z IQ Huvudräkning Y 43 Förklarad varians vid partiell och semipartiell korrelation (pr, sr) Två OBV (x 1, x ), täcker ett större område av BV (y). På samma sätt, när det finns två OBV kan mer av BVs variation förklaras Partiell x förklarar sin del av variansen hos y efter det att man justerat för effekten av x 1 på y Semipartiell x och x 1 förklarar variansen hos y efter det att man justerat för effekten av x 1 på x 44

Multipel regression 45 Tillåter prediktion av kriterievariabeln från flera prediktorer y=a + b 1 x 1 +b x +b 3 x 3 + b k x k Är en utvidgning av den som gäller för enkel regression b 1, b, b 3,, b k är icke-standardiserade partiella regressionskoefficienter för respektive prediktor Visar vilken effekt utifrån skalenheter x har på y när övriga variabler hålls konstanta Motsvarande β kallas standardiserad partiell regressionskoefficient (kan jämföras med varandra) Samma som b men mätt i standardavvikelse istf. Skalenhet Kan tolkas som de olika prediktorvariablernas relativa effekt på y 46 3

Exempel Test 1 Sluttest 73 80 15 93 88 185 89 91 180 96 98 196 73 66 14 69 74 149 87 79 175 79 70 164 69 70 141 70 65 141 93 95 184 79 80 15 70 73 148 93 89 19 78 75 147 81 90 183 88 9 177 78 83 159 8 86 177 86 8 175 78 83 175 76 83 149 96 93 19 3 personer har gjort tester Hur bra predicerar resultaten på dessa test resultatet på ett sluttest? En multipel regression ger b 1 =1,33, β 1 =0,65, b =0,63, β =0,3 Regressionsekv med prediktorvariabler beskriver en plan yta som på bästa sätt anpassats till data Ytans lutning i planet y-x 1 beskrivs av β 1 Lutningen i planet y- x beskrivs av β Kvarvarande felvarians beskrivs av strecken mellan datapunkter och ytan β 1 β 4

Då båda testerna ingår i en multipel regression är alltså Sluttest= 6,43 + 1,33 Test1 + 0,63 Test b 1 =1,33 b =0,63 Enkla regressioner ger Sluttest 00 190 180 170 160 150 140 b 1 = 1,89 grafen till vänster (då man ignorerar test) b =1,70 grafen till höger (då man ignorerar test1) Sluttest = 1,9+1,89Test1 b=1,89 130 65 70 75 80 85 90 95 100 Test 1 r=0,9 Sluttest = 7,6+1,70Test 130 60 65 70 75 80 85 90 95 100 Dvs. då man tar bort ett av testerna förändras lutningskoefficienten för det kvarvarande testet! Finns olika metoder när man handskas med många prediktorer Sluttest 00 190 180 170 160 150 140 b=1,70 Test r=0,87 Metoder vid multipel regression med många prediktorer Standard multipel regression - Alla prediktorvariabler läggs in samtidigt - Används för att förklara så mycket varians i data som möjligt. Hierarkisk multipel regression - Forskaren väljer den ordning prediktorvariabler läggs in i regressionsekvationen och har kontroll över analysproceduren - En modell bestämmer ordning av prediktorv - Equivalent med semi-partiella korrelationer 50 5

Metoder vid multipel regression Forward regression Datorn väljer ordning för prediktorv läggs till sekventiellt en i taget baserat på vilken prediktorv. som förklarar mest varians i kriterievariabeln Avslutas när ökningen av förklarad varians inte längre är signfikant Backward regression Börjar med alla prediktorv tar bort dem sekventiellt en och en Den som förklarar minst varians plockas bort i varje steg Stepwise Regression kombination av forward och backward Efter varje nytt tillägg (baserat på mest förklarad varians ) kan också en prediktorv. tas bort om minskningen i förklarad varians inte är signifikant 51 Val av metod för multipel regression Forskaren väljer, Sekventiell (hierarkisk) Ger kontroll över hur analysen utvecklas Möjligt att testa explicita modeller/hypoteser Möjligt att anpassa ordningen efter aktuell analysstrategi Börja med kända faktorer för att i senare steg testa nya enligt modellen viktiga faktorers bidrag Börja med variabler du vill kontrollera för (ex demografiska variabler) för att senare steg testa nya enligt modellen viktiga faktorers bidrag 5 6

Val av metod för multipel regression Datorn väljer, Statistisk (stepwise) Kontroversiell pga maximalt utnyttjande av rådande samband, risk för overfitting => resultatet kan ej replikeras med ett nytt sampel! Pga detta kan tolkningen försvåras och generaliserbarheten begränsas Korsvalidering med ett nytt sampel rekommenderas Kan vara bra i explorativt syfte Kan bidra till nya hypoteser Hjälper till att utesluta onödiga OBV 53 Exempel standard regression Här vill man bara veta vilken/vilka variabler som predicerar mest av kriterievariabeln, utan ngn modell i bakhuvudet Reevy G. M., & Deason, G. (014). Predictors of depression, stress, and anxiety among non-tenure track faculty. Frontiers in Psychology, 5, 701. 7

Sampelstorlek Diverse aspekter relaterade till regressionsanalys Varierande rekommendationer; 10-15 per prediktor eller antal prediktorer + 50 (eller utgå från powerberäkningar) Skalnivåkrav Som övriga parametriska metoder, en prediktorvariabel på nominalskalenivån är dock möjlig (ex män, kvinnor) Ex: Testresultat = a + 7 Studietid + kön där kön=0 för man och 1 för kvinna (dummy variabel). Betyder att kvinnor ligger högre än männens testresultat vid samma studietid 55 Regressionsanalys och ANOVA ANOVA är i grunden samma som regressionsanalys Regressionsanalys oftast mer komplicerad än ANOVA pga att Vid ANOVA sker ofta randomisering (experimentell design) problem med 3e variabeln undviks Vid regressionsanalys används icke-experimentell design, fp randomiseras inte (givet från början, ex kvinnor och män, eller hur bra deltagare är på huvudräkning) Man kan också infoga en interaktionsterm i regressionsekv Y = β 1 X 1 β X β 3 X 1 X + ɛ 56 8

När ska man använda Regression? Prediktorer, oberoende variabler Kontinuerlig Kategorisk Kriterie-, el. beroendevariabel Kontinuerlig Regression ANOVA Kategorisk Logistisk regression Chi Ex: Godkänd/underkänd rätt/fel frisk/sjuk Tänk på kausalitetsproblemet vid icke experimentella studier (korrelation, regression) Vad beror ett erhållet statistiskt signifkant samband mellan variablerna A och B i samplet på? A orsakar B B orsakar A En 3e variabel orsakar både A och B (kan finnas många olika sådana) Dessutom: risk för typ-i fel ökar med stora korrelationsmatriser (mass-signifikansproblemet) 58 9