Linjär Regressionsanalys Centrum för allmänmedicin Henrik Källberg Henrik.kallberg@ki.se www.henrikkallberg.com/undervisning
Linear regression(dag 1) Upplägg Dag 1 Kort repetition - Deskriptiv statistik - t-test - Typ I och Typ II fel - Problem Korrelation - Kovarians - Korrelation, (Pearson, Spearman) ANOVA (Analysis of Variance) - Motivation - Kvadratsummor - Antaganden Henrik Källberg, 2013
Linjär Regressionsanalys(Dag 1) Mål - Snabb Repetition av grundläggande statistik, t-test - ANOVA (analysis of variance) - Veta när ANOVA är applicerbart och veta vad kvadratsumma är. - Veta vilka antaganden som krävs. - Samvariation och kovarians. - Korrelation, kunna beräkna och tolka korrelation - Beskriva en enkel regressionsmodell med hjälp av graf. Och veta vad de olika komponenterna i en modell beskriver.
Skalor och datanivåer Datanivåer Datanivå Klassindelning Rangordning Ekvidistans Kvoter Ja Nej Nej Nej Nominal- Skala Ordinal- Skala Intervall- Skala Kvot- Skala Ja Ja Nej Nej Ja Ja Ja Nej Ja Ja Ja Ja
Beteckningar Population - µ (medelvärde) Förklaring symboler 2 - (Varians) Prov, Urval x - (medelvärde) - S 2 (Varians) - 2 (Standardavvikelse) Population 2 Urval Inferens - S S 2 (Standardavvikelse) x S 2 Stickprov
Repetition, Konfidensintervall Urvalsfördelning (Skål med sifferlappar!) Urvalsfördelning för X 1. 96 ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (under) n x x x x x μ x x x x x x x 1. 96 n ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (över) ca 95% of all sample means falls within this interval
P-värde och olika fel P-värdet anger hur stor sannolikheten är att vi observerar ett extremare värde förutsatt att H O är sann. H O Typ II-fel (β) Signifikansnivå (α) P-värde
Beslut Typ I och Typ II fel Verklighet H 0 är falsk H 0 är sann Förkasta H 0 OK Typ I fel (falskt positiv) Förkasta inte H 0 Typ II fel (falskt negativ) OK
Uppgift! Beräkna Varians! X X X - (X - ) 2 1-1 1 2 0 0 3 1 1 Summa 6 0 2 X n 6 3 s( std. avvikelse ) 2 s 2 s x 2 (var iance ) ( ) x x n 1 x 2?
T-test Jämföra två Grupper (t.ex. behandlade (X 1 ) mot obehandlade (X 0 )) Poolad varians: Variansen för de båda grupperna vägs samman enl. formeln: 2 1 2 0 1 2 1 2 2 0 1 1 1 1 1 2 1 n n S X X t n n S t X X Pool Pool n n 2 1 1 1) ( 1) ( 0 1 2 0 0 2 1 1 0 1 2 0 0 2 1 1 2 n n X X X X n n S n S n S Pool
Hypotes T-test Nollhypotesen vid vanligt t-test är: H 0 : X1 X 0 Den alternativa hypotesen är: H 1 : X alt. 0 1 0 1 X 0 X1 X, X X
Uppgift! Utför ett hypotestest med hjälp av ett t-test för att avgöra om det är signifikant skillnad mellan två grupper (X 1 är gruppen skidåkare som tränat på hög höjd, X 0 är gruppen som ej tränat på hög höjd ) med avseende på blodvärde: S 2 Pool = 120, n 1=30, n 0 =40, X 1 = 165, X 0 = 132 t S X 1 2 Pool X 0 1 n1 1 n 2
Svar Uppgift! Tolkningen blir att det är en signifikant skillnad mellan gruppernas medelvärde. Höghöjdsträning verkar ha effekt på blodvärdet. t S X 2 Pool 1 n 2 165 132 120 30 120 40 33 8,37 1 0 1 n1 X 3.94
ANOVA (motivering) Två variabler : 1 Kategorisk, 1 Kvantitativ Fråga: Skiljer sig medelvärdet med avseende på den kvantitativa variabeln åt mellan grupperna (Kvalitativ variabel)? Om vi bara har två grupper (baserat på den kvalitativa variabeln): - t-test ANOVA Möjliggör att testa fler grupper samtidigt, tex. Skiljer sig höghöjdsträning, träning och ej träning åt (tre grupper)?
ANOVA II (Hypotes) Anta att vi har K stycken oberoende grupper: ANOVA testar Nollhypotesen: H0: μ1 = μ2 = = μk Vilket innebär, Grupperna har lika medelvärde Alternativ hypotes ges av: H1: μi μj för någon av grupperna i,j. (Samma sak som att grupperna har olika medelvärde)
days ANOVA III visuell ANOVA utgår från overall medelvärdet och testar de olika grupperna utifrån detta värde. X 13 12 11 10 Om det kombinerade avståndet skiljer sig från overall medelvärdet så förkastas H 0. 9 8 7 6 5 A B treatment P X
ANOVA formler För att kombinera avståndet från overall mean Kvadrera skillnaden Multiplicera med antalet individer I gruppen Summera alla grupper SSB 40 X X 2 35 X X 2 20 X X 2 A B P X * Betecknar medel i respektive grupp (A,B och P) SSB = Sum of Squares Between groups
ANOVA fortsättning SSB (sum of square between) måste relateras till någon annan Sum of Square Mean square Error (MSE), talar om hur stor den kombinerade variationen är, med hänsyn till respektive grupp 1 2 MSE x ij X j N K j i N är antalet individer, K är antalet grupper och x ij är den i th observationen i den j th gruppen
Implant Height Error (mm) 0.1 0.2 0.3 0.4 0.5 ANOVA (MSE) Implant Height Error by Guide Width MSE 1 N K j i x ij X j 2 Samma grupper som innan men nu visas individuella värden, N är antalet individer, K är antalet grupper och x ij är den i th observationen i den j th gruppen, x j är medel i respektive grupp 4mm 6mm 8mm A B P Guide Width Treatment
ANOVA beräkningar Ide! Jämföra medel Variation mellan (MSB) mot medel Variation inom (MSE). F SSB ( K 1) MSE N ( X 1 K 1) x ij X j Detta F-värde följer F-fördelningen med K-1 och N-K frihetsgrader (N är totalt antal observationer, K är antalet grupper) J j X ) /( K i 2
ANOVA Summering SST SSE SSB SSE obs obs obs SSB ( x ( x ( x i ij ij x) x i x) ) 2 SST; 2 2 1. Lägg märke till 2 s MS s grupper n grupper ( DFT ) i 2 i ( x SS DF ( df i i ; ) x) F 2 att den totala variansen (SST) är summan av SSB och SSE. 2. Lägg märke till att SSE är kopplat till variansen 3. ANOVA för endast två grupper = t-test MSB MSE
ANOVA Tabell, uppgift I de flesta statistikprogram presenteras en ANOVA tabell mellan Grupper Inom Grupper Sum of Squares df Mean Square F Sig..01 2.05 5.0105.5 50.01 Totalt.51 52 Frågor!: Var finns följande värden I tabellen? Sum of Squares Between (SSB) Mean Square Error (MSE) F Statistic p value
ANOVA antaganden!! Naturligtvis så krävs ett antal antaganden för att beräkningarna skall vara valida! Dessa är: * Att individerna i respektive grupp är oberoende slumpmässigt utvalda. * Varje grupp är ungefär normalfördelad med avseende på testvariabeln. (Kollas enklast via histogram eller dylikt) * Standardavvikelsen (std) är ungefär lika stor för de olika grupperna. Tumregel: Kvoten mellan högsta och lägsta skall vara mindre än 2.
Kovarians (cov) Kovarians är ett mått på samvariation mellan två stokastiska variabler Obs! cov(x,x)=var(x)
Kovarians Kovariansen kan tolkas på följande sätt: 1. cov(x,y) > 0 innebär att x och y är positivt korrelerade 2. cov(x,y) = 0 innebär att x och y är okorrelerade (oberoende) 3. cov(x,y) < 0 innebär att de är omvänt korrelerade (negativt korrelerade)
Korrelationskoefficienten r (pearson, kontinuerliga var.) Fråga! Finns det något linjärt samband mellan längd och vikt? Genom att använda varians (var) och kovarians (cov) så kan vi skatta korrelationskoefficienten (r). r = cov(x, y) var(x) var(y) Korrelationskoefficienten, r (Pearson): Har ingen enhet. Är ett mått på hur starkt linjärt förhållande det är mellan två variabler Kan anta värden mellan -1 och 1. r = 0 innebär att det inte finns något linjärt samband mellan variablerna r = 1 innebär att det är ett perfekt positivt linj. samband mellan variablerna r = -1 innebär att det är ett perfekt negativt linj. Samband mellan variablerna.
Korrelationskoefficient (r) Y r = -1 Y r = -.6 Y r = 0 X X r = +1 r = 0 X r = +.3 X
Spearmans rangkorrelation (Kontinuerliga, diskreta och ordinal var.) Fråga! Finns det något samband mellan betyg (x) och IQ (y)? r = 1 6 d i 2 n(n 2 1) n = antal, d i = differens i rangordning mellan variablerna Betyg (x) IQ (y) Rang x Rang y d i (rang x-rang y) d i 2 1 86 1 1 0 0 2 92 2 2 0 0 4 100 3,5 = (3+4)/2 3 0,5 0,25 4 115 3,5 4-0,5 0,25 5 120 5 5 0 0
Uppgift! Beräkna r (Spearman) r = 1 6 d i 2 n(n 2 1) Svar : r = 1-6*0,5/5*(25-1) = 0,975 Betyg (x) IQ (y) Rang x Rang y d i (rang x-rang y) 1 86 1 1 0 0 2 92 2 2 0 0 4 100 3,5 = (3+4)/2 3 0,5 0,25 4 115 3,5 4-0,5 0,25 5 120 5 5 0 0 d i 2
Signifikanstest r. Två sätt: 1. t-test: t = r n 2 1 r 2 t >,< t n-1,95% 2. Fischer information: F r = 1 2 z = n 3 1,06 F(r) z >,< 1,96 ln 1+r 1 r,
Korrelationskoefficient (r) r kan vara: Låg men signifikant (ofta p<0.05). t.ex. r = 0.1 (p<0.01) Hög men inte signifikant t.ex r = 0.9 (p=0.5) Låg och ej signifikant t.ex. r = 0.1 (p=0.5) Hög och signifikant t.ex. r = 0.9 (p<0.01)
Sammanfattning dag 1 Repetition (t-test, p-värde etc.) ANOVA (Flera grupper, Kvadratsummor (SS)) Kovarians Korrelation (r (Pearson, Spearman))
Linear regression(dag 2) Upplägg Dag 2 Kort repetition Dag 1 - ANOVA - Kovarians - Korrelation Enkel Linjär regression Regressionskoefficienten Test av lutning Kategorivariabler Enkel Linjär regression - Räta linjens ekvation - Prediktion - Antaganden Henrik Källberg, 2013
Repetition Dag 1 (ANOVA) Between groups Within groups Sum of Squares df Mean Square F Sig. SSB = n i (y i y.. ) 2 b-1 MSB = SSB b 1 SSE = SST SSB N-b MSE = SSE N b F = MSB MSE Totalt SST = (y i y.. ) 2 N-1
Repetition Dag 1 (Kovarians, r) r = cov(x, y) var(x) var(y) Par X Y 1 1 3 2 3 5 3 6 7 4 8 10 Total 18 25 Uppgift!! Beräkna kovarians, och korrelation
Svar repetitionsuppgift Cov = 9.167 Var(x) = 9.67 Var(y) = 8.917 R = 0.987 = (9.167/rot(9.67)*rot(8.917)
Dag 2 Regressionsanalys Mål Dag 2 Känna till räta linjens ekvation. Veta vad oberoende och beroende variabel är. Veta vad lutningskoefficient och intercept är. Utföra lämpligt test för regressionskoefficient. Veta vilka antaganden som regressionsmodellen bygger på. Tolka en regressionsanalys.
Dag 2 Regressionsanalys I regressionanalys pratar man om Beroende (y) och Oberoende (x) variabler. Detta innebär att målet med regressionsanalys ofta är att predicera ett värde på Y med hjälp av en annan variabel X. I korrelationsanalys finns ingen värdering i vad som är oberoende respektive beroende.
Dag 2 Regressionsanalys (räta linjens ekvation) Y=kX+B Y k x B
Dag 2 Regressionsanalys (räta linjens ekvation, lutning) Vad Innebär k i en linjär ekvationsmodell? - Svarar mot lutningen - Hur mycket Y ökar då X ökar. - T.ex. för varje ökning av X ökar Y med 2 Y=kX+B k
Dag 2 Regressionsanalys (Prediktion) Mål: Vi vill förutspå (predicera) ett värde på Y när vi bara har information om X. Jämför med betingade sannolikheter, P(Y X). Jämför med denna ekvation: E( y i / x i ) x i Här är α det samma som B och β det samma som k i föregående slides. Med ett normalfördelat fel i ekvationen: E( y i / x i ) x i i Fixerade effekter, passar den räta linjen Slumpmässigt fel som följer normalfördelning (N(0,1))
Dag 2 Regressionsanalys (4 Antaganden) Förhållandet mellan X och Y är linjärt. Y är normalfördelat för varje punkt vid X. Variansen för Y är samma för varje punkt X. Observationerna är oberoende.
Dag 2 Regressionsanalys (Sum of squares) y i C A ŷ i x i y A B B y C y i x n n 2 ( yi y) i1 i1 A 2 B 2 C 2 SS total Total variation ( yˆ i y) 2 n i1 SS reg Avstånd mellan regressionslinjen och medel värdet på y ( yˆ i y i ) 2 SS residual Varians omkring regressions linjen R 2 =SS reg /SS total
Dag 2 Regressionsanalys (Uppgift!) Jämför kvadratsummorna som används för att skatta regressionskoeffcienterna med Kvadratsummorna i ANOVA! SS total =?, SS REG =?, SS RESIDUAL =? SSB=?,SST=?,SSE=?
Dag 2 Regressionsanalys (Prediktion II) Y = max HR X = Ålder Y = 196 0.9*Ålder
Dag 2 Regressionsanalys (Prediktion II, Uppgift!) Beräkna DIN maximala Hjärtfrekvens med hjälp av formeln: Max_HR = 196 0.9*Ålder (i år räknat)
Dag 2 Regressionsanalys (Koefficient och intercept) Regressionskoefficienten skattas genom Minsta kvadratmetoden. Följande uttryck erhålls: Lutningen: ˆ Cov( x, y) Var( x) Calculate : ˆ Interceptet fås genom: (regressionslinjen går alltid genom x och y) y - ˆx
Dag 2 Regressionsanalys (Koefficient, intercept uppgift) Beräkna β och α samt skriv upp regressionsmodellen! Cov(y,x) = 20, var(x)=5, y = 35, x = 22
Dag 2 Regressionsanalys * (Koefficient-Korrelation) Korrelations koefficienten (r) har ett samband med regressionskoefficienten (β). Observera att i regression så finns beroende (y) och oberoende variabler (x) rˆ ˆ SD SD x y
Dag 2 Regressionsanalys (Koefficient, signifikans) För att avgöra om lutningen (β) är skild från 0, så bör man testa detta. Fördelningen för lutningen β~ T n-2 (β,s.e.(β)) Hypotesen blir följande: H0: β1 = 0 T n-2 = H1: β1 0 s. e.( ˆ ) ˆ 0
Dag 2 Regressionsanalys * (Koefficient, Standardavvik.) Standardavvikelse för β s ˆ n i1 ( y i n 2 SS x yˆ i ) 2 s 2 y / x SS x
Dag 2 Regressionsanalys (Koefficient, signifikans, uppg.)
Dag 2 Regressionsanalys (Dataexempel) Individ Height Weight 1 142 34 2 160 75 3 150 62 4 155 45 5 158 52 6 170 73 7 161 62
Dag 2 Regressionsanalys (Koefficient, signifikans, uppg.) Uppgift! 1. Skriv upp regressionsmodellen 2. Avgör med lämpligt test om lutningen är skild från 0.
Dag 2 Regressionsanalys (Koefficient, signifikans, Svar)
Dag 2 Regressionsanalys (Dataexempel) Individ Grupp (1=behand) LDL 1 1 4.3 2 1 2.7 3 1 5.0 4 0 7.8 5 0 6.4 6 0 5.6 7 0 6.0
Dag 2 Regressionsanalys (Dikotom variabel) T 4.27 6.97 2.7 37 2 2 S1 S 2 n 1 1 n 2 1 8.2; p.0001 En regressionsmodell med en dikotom variabel (y = x*β + ε) med β= - 2.7 är det samma som ett t-test för differensen mellqn gruppernas medelvärde.
Sammanfattning Dag 2 (Regressionsanalys) Räta linjens ekvation (Y=kx + m) E( y Prediktion ( ) Antaganden (Linjärt, NIID) i / x i ) x i i Koefficient och intercept -test av koefficient, Intercept Olika variabeltyper (Dikotom och Kontinuerlig)
Dag 3 Regressionsanalys (Flera variabler) Upplägg Dag 3 Kort repetition, Frågor Flera variabler Confounding Interaktion Faror med multivariabla modeller (ev. Välja bästa modellen) Ytterliggare modeller
Dag 3 Regressionsanalys (Mål) Mål Dag 3 - Veta hur man infogar fler variabler i en regressionsmodell. - Förstå hur man kontrollerar för Confounding - Interaktion mellan variabler - Veta om faror med multivariata modeller (ev. Undersöka vilken modell som är bäst ) - Veta om att det finns ytterligare regressionsmodeller
Dag 3 Regressionsanalys (Repetition dag 2) Skriv upp den generella regressionsekvationen. Ange vilka fyra huvudsakliga antaganden som vi förutsätter vid linjär regressionsanalys. Avgör om koefficienten (β=0.5, SD=0.3) är skiljd från noll.
Dag 3 Regressionsanalys (Flera variabler) Linjära regressionsmodeller har fördelen att man kan infoga flera variabler i samma modell. T.ex. E y / x, x,...) x x... ( i 1 2 1 2 Bra för att kunna: Kontrollera för confounders. Hantera interaktion mellan variabler (effektmodifiering) Förbättra prediktionsförmågan. i
Dag 3 Regressionsanalys (Flera variabler II) Det finns olika sätt att inkludera ytterligare variabler: 1. Andra oberoende variabler t.ex: E y / x, x,...) x x... ( i 1 2 1 2 i 2. Polynom (om kurva ): 2 2 E( y / x, x,...) x x... i 1 1 (lätt att skapa overfitting!) 1 1 i
Dag 3 Regressionsanalys (Confounding) Confounding, Confounding, exempel BMI Y, Blodtryck
Dag 3 Regressionsanalys (Confounding, kokbok) En confounder (C) är associerad med beroende (Y) och oberoende (X) variabler (den korrekta metoden!, ofta skippas steg 3 och 4). 1.Kontrollera om Y är associerad med X. E Y X = a 0 + β x X + ε 2. Kontrollera om Y är associerad med X givet C. E Y X, C = a 0,x,c + β x,c X + β c,x C + ε 3. Kontrollera om C är associerad med Y. E Y C = a 0,c + β c C + ε 4. Kontrollera om C är associerad med X. E(C X) = a 0,x + β C,X X + ε Justerat!
Dag 3 Regressionsanalys (Confounding, Uppgift)
Dag 3 Regressionsanalys (Confounding, Uppgift) 1. Vilken av behandlingarna är förenlig med confounding? 2. Hur många confounders användes? 3. Är koefficienterna signifikanta?
Dag 3 Regressionsanalys (Interaktion) Interaktion innebär att effekten av en oberoende variabel beror av en annan oberoende variabel. I artikeln skulle interaktion innebära att kroppssammansättningen skulle bero på genetisk variation (FTO) och Syreupptagningsförmåga. Det vill säga: Man har en extra effekt av syreupptagningsförmågan om man har en särskild genetisk variation.
Dag 3 Regressionsanalys (Interaktion) Fasting Insulin (Y) Y = PPARG β PPARG + +BMI β BMI + ε PPARG och BMI i modellen är så kallade main effects. Y = BMI β BMI + ε Två olika modeller en med genetisk faktor och en utan.
Dag 3 Regressionsanalys (Interaktion) Fasting Insulin (Y) Y = PPARG β PPARG + +BMI β BMI + PPARG BMI β PPARG BMI + ε Y = BMI β BMI + ε Här är lutningen större än i föregående diagram. PPARG BMI β PPARG BMI Är interaktionseffekten.
Dag 3 Regressionsanalys (Interaktion) Interaktion innebär att en signifikant produkt term existerar. Testa om interaktionstermen är skild från noll. Om det finns stark interaktion så är confounding justering onödigt Stratifiera!
Dag 3 Regressionsanalys (Interaktion, uppgift) Main effects: FTO ( AA ): 3 (sd=0.9) VO 2 Max: -0.2 (sd=0.05) Interaction effects: FTO*VO 2 Max: -0.1 (sd=0.07) 1. Skriv ut en modell för main effects + en modell med main effects och interaction effects. 2. Avgör vilka koeff. Som är signifikanta.
Dag 3 Regressionsanalys (Faror med multip. regression) Multi-collinearity Residual confounding Overfitting
Dag 3 Regressionsanalys (Faror, Multi-colinearity) Kolinearitet innebär att två oberoende variabler mäter samma sak. Det finns en stark korrelation mellan dem Tex. Vikt och BMI. Man bör endast inkludera en av dessa variabler i modellen.
Dag 3 Regressionsanalys (Faror, Residual confounding) Residual confounding: Är kvarstående confounding trots att man kontrollerar för confounders. Här följer tre varianter: 1. Ytterligare confounders som det ej finns information om (unmeasured confounding) 2. För grov indelning av confoundern som används I analysen. T.ex. Variabel ung-gammal används istället för ålder mätt I antal år. 3. Felklassificering av individer för confoundern I fråga.
Dag 3 Regressionsanalys (Faror, Overfitting) Overfitting = Modellen kan passa data perfekt på grund av att man har för många variabler i modellen. Tyvärr är modellen troligtvis värdelös ur prediktionssynpunkt eftersom modellen är starkt kopplad till data som används.
Dag 3 Regressionsanalys (Faror, Overfitting) Optimism modellerat för några faktorer, 5 oberoende faktorer i samma modell. Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept 11.023 2.98341 11.96067 15.65 0.0019 Motion -0.29106 0.09798 6.74569 8.83 0.0117 sömn -1.91592 0.39494 17.98818 23.53 0.0004 obama 1.73993 0.24352 39.01944 51.05 <.0001 Clinton -0.83128 0.17066 18.13489 23.73 0.0004 MatteKär 0.45653 0.10668 13.99925 18.32 0.0011 Univariat analys av motion: Parameter Standard Variable Estimate Error T-värde Pr > F Intercept 6.65189 0.89153 7.46 <.0001 Motion 0.19161 0.20709 0.93 0.3658
Dag 3 Regressionsanalys (Faror, Overfitting) Tumregel: Minst 10 individer per ytterligare infogad variabel i en mult. Reg. modell Brus variabler orsakar bra R 2 värden om modellen är overfitted (Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models. Psychosomatic Medicine 66:411-421 (2004).)
Dag 3 Regressionsanalys (Faror, uppgift) Diskutera med grannen och ge potentiella exempel på: 1. Residual confounding 2. Overfitting 3. Kolinearitet.
Dag 3 Regressionsanalys (Välja modell) Genom att undersöka om variabeln tillför ett signifikant tillskott av SS(Dag 1). Stepwise Forward (utöka modellen med ytterligare variabler) Backward (minska modellen med en variabel i taget)
Dag 3 Regressionsanalys (Välja modell) Källa: www.wikipedia.org
Dag 3 Regressionsanalys (Ytterligare modeller) Är observationerna oberoende eller korrelerade? Utfallsvariabel Oberoende Korrelerade Antagande Kontinuerlig (VAS, längd, konc, etc.) T-test ANOVA Linjär correlation Linjär regression Parat ttest Repeated-measures ANOVA Mixed models/gee modeling Utfallsvariablen är norm.fördel. Linjärt förhållande mellan utfall och oberoende variabel. Binär, kategori (sjuk, ordinalskala) Difference in proportions Relativa risker Chi-2 test McNemar s test betingad logistic regression GEE modeling Chi-2 test antar minst antal I varje cell (>=5) Logistisk regression Tid till händelse (tid till sjukdom) Kaplan-Meier Cox regression n/a Prop.hazard assumption
Dag 3 Regressionsanalys (Sammanfattning) Mulivariabel regression Confounding Interaktion Faror Kolinearitet Residual confounding Overfitting Modellval. Ytterligare modeller
Dag 4 Regressionsanalys (Diagnostik, Upplägg) Hur bra stämmer våra antaganden? Kort repetition, Frågor (Multi) kolinearitet Residualer - Linearitet - Homoscedasitet - Oberoende Outliers
Dag 4 Regressionsanalys (Diagnostik, Mål) Mål Dag 2 Känna till olika diagnostiker för att utvärdera regressionsmodeller. Förstå vad en residual är. Veta hur residualmönster ser ut vid icke,-linearitet, - homoscedasitet, -oberoende. Känna till mått för kolinearitet mellan oberoende variabler. Känna till situationer när outliers är ett problem. Känna till mått för att skatta outliers betydelse
Dag 4 Regressionsanalys (Repetition) Multipel regressionsmodell: E ( yi / x1, x2,...) x1 x2 Confounding... i Interaktion Faror Kolinearitet Residual confounding Overfitting
Dag 4 Regressionsanalys (Repetition, uppgift!!) Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande: 1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.). 2. BMI och vikt, fys samt interaktion mellan vikt och fys.
Dag 4 Regressionsanalys (Multiple Regression, repetition antaganden) Förhållandet mellan X och Y är linjärt. Y är normalfördelat för varje punkt vid X. Variansen för Y är samma för varje punkt X. Observationerna är oberoende.
Dag 4 Regressionsanalys ((multi)kolinearitet) Kolinearitet innebär att två variabler mäter samma sak. Kolinearitet mellan två variabler kan medföra: - Instabila estimat! - Falskt för stora standardfel, Nollhypotesen förkastas inte.
Dag 4 Regressionsanalys ((multi)kolinearitet) Två mått på kolinearitet är: 1. Tolerance = 1 R J 2, Där R J 2 är korrelation mellan de båda variablerna, ett värde under 0.2 indikerar kolinearitet. 1 2. VIF = 1 R2, VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar J kolinearitet.
Dag 4 Regressionsanalys ((multi)kolinearitet, uppgift!!) Estimate Std. Error t value Pr(> t ) (Intercept) 2.33e-15 5.911e-16 4.032e+00 0.000865 *** x 3.67e-01 2.803e-16 1.308e+15 < 2e-16 *** bm 1.00e+00 3.228e-16 3.098e+15 < 2e-16 *** Modell med kolinearitet: Y = 2.383e-15 + 0.3667*X + 1*bm (OBS!!! bm = x/1.2 + e, e = n(0,1)) Korrelation (r) mellan X och bm = 0.98 Estimate Std. Error t value Pr(> t ) (Intercept) -0.036 0.43158-0.084 0.934 X 1.22158 0.03603 33.907 <2e-16 *** Uppgift! 1. Avgör med lämpligt mått om det föreligger problem med kolinearitet! 2. Skriv upp den mest sannolika regressionsmodellen
Dag 4 Regressionsanalys (Residualer) Residual: e i Y i Yˆ i Kom ihåg ˆ Y i X Residualer är skillnaden mellan observerat värde (Y i ) och förväntat värde (Y i ).
Dag 4 Regressionsanalys (Residualer, uppgift) Beräkna residualen för x = 20 med regressionsmodellen y = 100 + 0.5*X. Observerat Y-värde är 115.5 e i Y i Yˆ i
Dag 4 Regressionsanalys (Residualer) Residualer är användbara för att undersöka följande antaganden (m.h.a. plottar): Linearitet Homoscedasitet (variansen är lika för respektive punkt) Oberoende
Dag 4 Regressionsanalys (Residualer, plottar) Genom att plotta residualerna på y-axeln mot obeorende variabel(ler) på x-axeln kan ev. mönster synliggöras.
residualer residualer Dag 4 Regressionsanalys (Residualer, plottar (linearitet)) Y Y x x x x ej Linjär Linjär Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall
residualer residualer Dag 4 Regressionsanalys (Residualer, plottar, (Homoscedasitet)) Y Y x x x x icke-konstant varians Konstant varians Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall
residuals residuals residuals Dag 4 Regressionsanalys (Residualer, plottar, (Oberoende)) Icke oberoende oberoende X X X Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall
Dag 4 Regressionsanalys (Residualer, plottar, uppgift!!) Uppgift! Försök att avgöra med hjälp av graferna till vänster om det: 1. är ett linjärt förhållande mellan y och x. 2. om det är samma varians. 3. om y-värden är oberoende av varandra
Dag 4 Regressionsanalys (Outliers) Även om antaganden håller kan modellen vara dålig T.ex. Outliers-extremvärden Formellt: inflytelserika individer Outliers kan bero på: Datainmatningsfel Extrema individer Representera riktig variation Några få outliers kan påverka lutningen mycket, Särskilt om sampel size är liten.
Dag 4 Regressionsanalys (Outliers) Outlier Blå linje (med outlier): Y = -3.79 + 1.73*X svart linje (utan outlier): Y = -0.036 + 1.22*X
Dag 4 Regressionsanalys (Outliers, uppgift!) Var går gränsen för en inflytelserik outlier? - Om en standardiserad (medel=0, sd=1) outlier är större än 3 eller minder än -3. - Om cooks distance är större än 1. D i = antal variabler. Uppgift! n j=1 (y j y j i ) 2, y p MSE j = modell med outlier, y j(i) =modell utan outlier, p = Avgör om outliern har någon betydelse för regression modellen om de standarddiserade residualerna har följande fördelning. Min 1Q Median 3Q Max -6.280-4.787-0.565 1.352 32.393 Cooks Distance: Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0000335 0.0013600 0.0061360 0.1078000 0.0171100 2.0250000 Vad står MSE för i formeln ovanför?
Dag 4 Regressionsanalys (Sammanfattning) (Multi) kolinearitet Tolerance, VIF Residualer e - Linearitet (Plottar) - Homoscedasitet (Varians) - Oberoende i Y i Yˆ i Outliers Std. Residualer Cooks distance D i = n j=1 (y j y j i ) 2 p MSE
Dag 4 Regressionsanalys (Regressionskokbok) 1. Börja med en modell som passar a priori kunskap. 2. Plotta beroende och oberoende variabel. 3. Kör regressionsmodellen i 1. 4. Kolla hur bra modellen passar data (plotta regressionslinje + punkter) - Kolla residualer efter mönster (Kolinearitet, homoscedasitet, oberoende). - Kolla om outlier(s) finns. Ev. kontrollera hur inflytelserika de är. 5. Inkludera om nödvändigt confounding och/eller interaktion. 6. Kör om från steg 3. tills en modell med bra förklarad varians och så få variabler som möjligt (Occams razor).