En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar på ett linjärt sätt Y när X ökar? X Staffan Nilsson, Chalmers 1
Anpassa en linje till data Y Y i εi ε i kallas residual Minimera ε i 2 Y i = β 0 + β 1 X i + ε i X i X Hypotesprövning Är lutningen 0? H 0 :β 1 =0 vs H 1 : β 1 0, baseras på t-fördelning. Sällan meningsfullt: Är skärningen 0? H 0 :β 0 =0 vs H 1 : β 0 0, baseras på t-fördelning. Blodtryck vs BMI SYSTB P 2 6 0,0 0 O b ser ve d L ine a r 2 4 0,0 0 2 2 0,0 0 2 0 0,0 0 1 8 0,0 0 1 6 0,0 0 1 4 0,0 0 1 2 0,0 0 1 5,0 0 2 0,0 0 2 5,0 0 3 0,0 0 3 5,0 0 4 0,00 4 5,0 0 B M I I experimentella studier ställer man ibland in X-variabeln, men vid observationsstudier är båda slumpmässiga. Staffan Nilsson, Chalmers 2
SBP vs BMI or BMI vs SBP a Unstandardized Standardized 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound 1 (Constant) 144,610 15,638 9,247,000 113,379 175,840 BMI 1,352,576,280 2,349,022,202 2,501 a. Dependent Variable: SYSTBP 1 (Constant) SYSTBP a. Dependent Variable: BMI Unstandardized a Standardized 95% Confidence Interval for B t Sig. Lower Bound Upper Bound B Std. Error Beta 16,362 4,486 3,647,001 7,403 25,321,058,025,280 2,349,022,009,107 Inte samma linje Skattade linjer: SBP= 144.61 + 1.352 BMI BMI= -107 + 0.74 SBP BMI= 16.362 + 0.058 SBP Val av riktning är ofta naturligt, men inte alltid. Förklaringsgrad R 2 1 Summary Adjusted Std. Error of R R Square R Square the Estimate,280 a,078,064 20,20462 a. Predictors: (Constant), BMI Descriptive Statistics Mean Std. Deviation N SYSTBP 180,8806 20,88462 67 BMI 26,8308 4,32133 67 1 (Constant) BMI Unstandardized a. Dependent Variable: SYSTBP a Standardized B Std. Error Beta t Sig. 144,610 15,638 9,247,000 1,352,576,280 2,349,022 Den del av y-variansen som förklaras av modellen, dvs av att x varierar. Staffan Nilsson, Chalmers 3
SYSTBP SYSTBP Konfidensintervall Confidence interval for mean 250,00 225,00 200,00 175,00 SYSTBP = 144,61 + 1,35 * BMI R-Square = 0,08 Linear Regression with 95,00% Mean Prediction Interval 150,00 20,00 30,00 40,00 BMI Prediktionsintervall Prediction interval for individuals 250,00 200,00 Linear Regression with 95,00% Individual Prediction Interval SYSTBP = 144,61 + 1,35 * BMI R-Square = 0,08 150,00 20,00 30,00 40,00 BMI Extrapolation? weight(kg) Observed Linear 120,00 Vad blir det förväntade värdet av en 50cm pojke? 100,00 80,00 60,00 40,00 a 160,0 170,0 180,0 190,0 200,0 210,0 length(cm) Unstandardized Standardized B Std. Error Beta t Sig. 1 (Constant) -63,772 8,853-7,204,000 length(cm),759,049,431 15,557,000 a. Dependent Variable: weight(kg) Staffan Nilsson, Chalmers 4
Andra linjära modeller Y=β 0 + β 1 X 2 + brus Y=β 0 + β 1 log(x) + brus etc Kan alla analyseras på samma sätt. Enda förutsättningen är att antagnadet om normalfördelat brus håller. Motivet till att detta ändå kallas en linjär modell är att den är linjär m a p parametrarna (β 0,β 1 ). Du behöver bara skapa nya variabler. Korrelation (Pearson) Korrelation är ett mått på styrkan av det linjär sambandet mellan två variabler, ju närmre linjen desto större korrelation. Betecknas r och är ett skalat mått -1 r 1-1 perfekt linje with negativ lutning 1 perfekt linje med positiv lutning 0 betyder inget linjärt samband r=0.30 Staffan Nilsson, Chalmers 5
r=0.51 r=0.69 r=0.92 Staffan Nilsson, Chalmers 6
Hypotesprövning av r H 0 :r=0 vs H 1 r 0, baseras på t-fördelning. Easy to find empirical p-value with permutation. Ett alternativt icke-parametriskt test är Spearmans rangkorrelation där koefficienten betcknas r s, principen är att rangordna varje variabel och beräkna vanlig r på rangerna. SBP vs BMI Samma p-värde, Stdβ = r R 2 = r 2 Correlations BMI SYSTBP BMI Pearson Correlation 1,280* Sig. (2-tailed),022 N 67 67 SYSTBP Pearson Correlation,280* 1 Sig. (2-tailed),022 N 67 67 *. Correlation is significant at the 0.05 level (2-tailed). 1 (Constant) BMI Unstandardized a. Dependent Variable: SYSTBP a Standardized 95% Confidence Interval for B t Sig. Lower Bound Upper Bound B Std. Error Beta 144,610 15,638 9,247,000 113,379 175,840 1,352,576,280 2,349,022,202 2,501 Deterministic, but not correlated cosinus(x) -1.0-0.5 0.0 0.5 1.0 r=0.05 p=0.59 0 1 2 3 4 5 6 x Staffan Nilsson, Chalmers 7
y y För tolkning måste {(X i,y i ) } vara ett stickprov. Study 1 random sample r=0.63 En valid skattning av korrelation i populationen 3 2 1 0 1 2 3 3 2 1 0 1 2 3 Estimate Std.Error t value Pr(> t ) (Intercept) 1.0187 0.4558 2.235 0.0559 x1 1.3478 0.5785 2.330 0.0482 * x Selektivt urval Study 2 selective sample r=0.92 Korrelationen meningslös, Regression OK 3 2 1 0 1 2 3 3 2 1 0 1 2 3 x Estimate Std.Error t value Pr(> t ) (Intercept) 0.1841 0.3128 0.589 0.572294 x 1.0747 0.1655 6.494 0.000189 *** Ingen korrelation? r = -0.045 p = 0.7 Staffan Nilsson, Chalmers 8
b Blandpopulation! R= -0.66 P< 0.001 R= -0.74 P< 0.001 Storks and babies (klassiskt) Kontinuerliga data -2-1 0 1 2 3-2 -1 0 1 2 3 r=0.23, P=0.001 a Staffan Nilsson, Chalmers 9
b Dikotomisera -2-1 0 1 2 3-2 -1 0 1 2 3 a Kategorisk analys låg hög låg 27 25 hög 17 31 χ 2 =2.13, P=0.14 Sense moral: Utnyttja variationen i data. Staffan Nilsson, Chalmers 10