Enkel linjär regression Exempel.7 i boken (sida 31). Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben och höjder på sockeln. De halvledare som betraktas är av samma storlek (bortsett benlängden). 7 Scatterplot of vs 3 2 1 1 2 1 Enkel linjär regression Fitted Line Plot =.1 + 2.93 7 S 3.932 R-Sq 9.% R-Sq(adj) 9.2% 3 2 1 1 2 Hur tolkar man βˆ ochβˆ1? Stat Fitted Line Plot 2 Enkel linjär regression Plots for Normal Probability Plot of the s s Versus the Fitted Values 99 9 3 Percent 1 1-8 - 8-3 - 3 Fitted Value Frequency 8 2 Histogram of the s - - -2 2 s Versus the Order of the Data 3-3 - 2 8 1 12 1 1 18 2 22 2 Observation Order Vad tycker vi? 3 1
Jämför leverage-värdet med 2*p/n = 2*2/2 =.1, och Cooks avstånd med 1. Högt leverage-värde. Under Storage i Stat Regression Enkel linjär regression Regression Analysis: versus =.11 + 2.9 Predictor Coef SE Coef T P Constant.1 1.1.. 2.927.117 2.8. Test H : β = Test H : β 1 = S = 3.932 R-Sq = 9.% R-Sq(adj) = 9.2% Regression 1 88.9 88.9.8. Error 23 22.1 9. Total 2.9 Stat Regression Enkel linjär regression För halvledare med en benlängd på 1, vad skulle man uppskatta den genomsnittliga dragstyrkan till? 7 Fitted Line Plot =.1 + 2.93 S 3.932 R-Sq 9.% R-Sq(adj) 9.2% Om man vill uppskatta dragstyrkan för en specifik halvledare med benlängd 1, hur skulle man göra då? 3 2 1 1 2 2
Enkel linjär regression Predicted Values for New Observations New Obs Fit SE Fit 9% CI 9% PI 1.72.9 (3.8; 7.) (39.79; 2.2) Values of Predictors for New Observations New Wire Obs Length 1 1. CI är ett konfidensintervall för det förväntade (genomsnittliga) dragstyrkan för halvledare med benlängd 1, medan PI (prediktionsintervall) är ett konfidensintervall för en specifik halvledares (med benlängd 1) dragstyrka. Notera att PI blir bredare. Orsak: vi måste ta hänsyn till en enskilds (kommande) mätnings mätfel (ε). Under option i Stat Regression 7 Enkel linjär regression Fitted Line Plot =.1 + 2.93 7 3 2 Regression 9% CI 9% PI S 3.932 R-Sq 9.% R-Sq(adj) 9.2% 1 1 2 CI och PI för alla benlängder mellan och 2. Under option i Stat Fitted Line Plot 8 Exempel: Halvledarexemplet med en kvadratisk term (2:a grads polynom). Fitted Line Plot = 8.833 + 1.73 +.9 **2 7 S 2.98 R-Sq 97.% R-Sq(adj) 97.3% 3 2 1 1 2 Stat Fitted Line Plot 9 3
Plots for 99 Normal Probability Plot of the s. s Versus the Fitted Values Percent 9 1 2.. -2. 1 -. -2.. 2.. -. 2 Fitted Value.8 Histogram of the s. s Versus the Order of the Data Frequency 3. 2. 1.2 2.. -2.. - -2 2 -. 2 8 1 12 1 1 18 2 22 2 Observation Order 1 Regression Analysis: versus Wire Len; Wire Len sq = 8.83 + 1.7 +.9 sq Predictor Coef SE Coef T P Constant 8.833 1.9.91. 1.732.39.72. sq.9.1871 3.2. S = 2.98 R-Sq = 97.% R-Sq(adj) = 97.3% Test H : β = Test H : β 1 = Test H : β 2 = Regression 2 97. 2978.7 1.17. Error 22 18..8 Lack of Fit 11 98.8 9. 1.99.13 Pure Error 11 9.7. Total 2.9 Under option i Stat Regression (pure error) Test H : modellen är korrekt P-värde =.3 vid enkel linjär regression 11 Exempel: Halvledarexemplet, men nu även med den förklarande variabeln sockelhöjd. Matrix Plot of ; ; Die Height Die Height 1 2 2 2 2 1 Graph Matrix Plot 12
erna vi får när vi anpassar ett enkelt linjärt samband mellan dragstyrka och benlängd är den variation vi inte lyckats förklara med denna modell. Om vi plottar residualerna mot sockelhöjd får vi följande resultat. s Versus Die Height (response is ). 2.. -2. -. -7. 1 2 3 Die Height Detta tyder på att sockelhöjd kan förklara ytterligare en del av variationen. 13 Regression Analysis: versus ; Die Height = 2.2 + 2.7 +.12 Die Height Predictor Coef SE Coef T P VIF Constant 2.2 1. 2.1. Test H : α = 2.727.932 29.3. Test 1.17 H : β 1 = Die Height.1228.2798.8. Test 1.17 H : β 2 = S = 2.288 R-Sq = 98.1% R-Sq(adj) = 97.9% Regression 2 99.8 299. 72.17. Test H : β 1 = β 2 = Error 22 1.2.2 Total 2.9 R 2 ökade från 9. till 98.1 (justerad R 2 från 9.2 till 97.9). 1 Ett visst (enkelt) samband mellan benlängd och sockelhöjd verkar finnas. Multikolinjäritet? R 2 = 1.3%!
Regression Analysis: versus ; Die Height = 2.2 + 2.7 +.12 Die Height Predictor Coef SE Coef T P VIF Constant 2.2 1. 2.1. 2.727.932 29.3. 1.17 Die Height.1228.2798.8. 1.17 S = 2.288 R-Sq = 98.1% R-Sq(adj) = 97.9% Under option i Stat Regression (variance inflation factors) 1 Betraktar vi andragradspolynomet finner vi att vi har ett starkt samband mellan benlängd och benlängd 2. R 2 = 92.% (multikolinjäritet)! 17 Regression Analysis: versus ; sq = 8.83 + 1.7 +.9 sq Predictor Coef SE Coef T P VIF Constant 8.833 1.9.91. 1.732.39.72. 1.12 sq.9.1871 3.2. 1.12 S = 2.98 R-Sq = 97.% R-Sq(adj) = 97.3% Ett sätt att reducera multikolinjäriteten vid polynomregression är att först centrera den förklarande variabeln runt dess medelvärde och sedan skapa andragradsvariabeln, osv. 18
Regression Analysis: Pull Strengt versus Cent Wire Le; Cent Wire Le = 27.3 + 2.7 Cent +.9 Cent sq Predictor Coef SE Coef T P VIF Constant 27.3312.7371 37.8. Cent 2.78.19 2.12. 1.237 Cent sq.9.1871 3.2. 1.237 S = 2.98 R-Sq = 97.% R-Sq(adj) = 97.3% Notera att regressionsparametrarna inte blir de samma! 19 Regression Analysis: Pull Strengt versus Cent Wire Le; Cent Wire Le = 2. + 2. Cent +.28 Cent sq +.1 Die Height Predictor Coef SE Coef T P VIF Constant 2.391.91 2.8. Cent 2.18.817 3.89. 1.31 Cent sq.283.197 2.8.9 1.3 Die Height.137.2.8.1 1.279 S = 1.988 R-Sq = 98.% R-Sq(adj) = 98.% Regression 3 23.1 27.7 8.8. Error 21 82.9 3.9 Total 2.9 2 Extremt värde, men ej inflytelserik 21 7
Regression Analysis: versus ; Die Height = 2.2 + 2.7 +.12 Die Height Predictor Coef SE Coef T P Constant 2.2 1. 2.1. 2.727.932 29.3. Die Height.1228.2798.8. S = 2.288 R-Sq = 98.1% R-Sq(adj) = 97.9% Regression 2 99.8 299. 72.17. Error 22 1.2.2 Total 2.9 Source DF Seq SS 1 88.9 Die Height 1 1.9 22 Source DF Seq SS 1 88.9 Die Height 1 1.9 Betrakta variation som regressionslinjen förklarade 99.8. Om vi bara stoppar in benlängd så förklarade den enkla regressionslinjen 88.9. Genom att även ta med sockelhöjd så ökade förklaringen med 1.9, dvs till 99.8. 1.9 beskriver hur mycket sockelhöjd förklarar givet att benlängd finns med i modellen. Om vi stoppar in de förklarande variablerna i omvänd ordning får vi Source DF Seq SS Die Height 1 183.2 1 7. 23 Samband: regression variansanalys Under Calc Make Indicator Variables 2 8
Samband: regression variansanalys General Linear Model: Hållfasthet versus Garntyp Factor Type Levels Values Garntyp fixed A; B; C; D for Hållfasthet, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Garntyp 3 12.31 12.31.13 11.1.1 Error 13.777.777.37 Total 1 17.77 S =.1 R-Sq = 72.3% R-Sq(adj) =.8% 2 Samband: regression variansanalys Regression Analysis: Hållfasthet versus Garntyp_A; Garntyp_B;... * Garntyp_D is highly correlated with other X variables * Garntyp_D has been removed from the equation. Hållfasthet =.9-1.2 Garntyp_A - 1.83 Garntyp_B - 2.21 Garntyp_C Predictor Coef SE Coef T P Constant.88.2711 29.82. Garntyp_A -1.2.383-3.9.2 Garntyp_B -1.83. -..1 Garntyp_C -2.2133.27 -.. S =.1 R-Sq = 72.% R-Sq(adj) =.% Regression 3 12.31.13 11.1.1 Error 13.777.37 2 Samband: regression variansanalys Hållfasthet =.88-1.2 Garntyp_A - 1.83 Garntyp_B - 2.21 Garntyp_C Garntyp A: Hållfasthet =.88-1.2*1-1.83* - 2.21* =.3 Garntyp B: Hållfasthet =.88-1.2* - 1.83*1-2.21* =. Garntyp C: Hållfasthet =.88-1.2* - 1.83* - 2.21*1 =.7 Garntyp D: Hållfasthet =.88-1.2* - 1.83* - 2.21* =.88 Descriptive Statistics: Hållfasthet Total Variable Garntyp Count Mean StDev Variance Hållfasthet A.3.13.23 B..827.83 C 3.7.1.23 D.88.3.317 27 9
Samband: regression variansanalys Vi kan konstatera att variansanalys bara är ett specialfall av regression. Vill vi analysera modeller med både kontinuerliga och kategoriska variabler kan vi använda Stat ANOVA General Linear Model, där de kontinuerliga variablerna specificeras under Covariates. 28 1