Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot of Pull Strength vs Wire Length 60 Pull Strength 50 40 30 20 10 0 5 10 15 20 Wire Length Graph Scatterplot 1
Enkel linjär regressionsanalys används för att beskriva samband mellan en responsvariabel och en förklarande variabel. Enkel linjär regressionsmodell: Pull Strength = a + b* Wire Length + e där e står för slumpavvikelse. Vanligtvis antas slumpavvikelsen e vara normalfördelad med väntevärde 0 och varians 2. 2
Eftersom a och b är okända kan vi skatta dessa med hjälp av de uppmätta observationer y 1, y 2,, y n vilka man har mätt för kända värden x 1, x 2,, x n. Modell: Y i = α + βx i + ε i, i = 1, 2, n. Minsta kvadratmetoden: Hitta den linje som minimerar summan av de kvadratiska avvikelserna (vertikala) mellan linjen och observationerna. Denna linje kan skrivas y = α + βx α och β är uppskattningar av de sanna parametrarna a och b och baseras på de uppmätta observationsparen (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ). 3
Fitted Line Plot Pull Strength = 5,115 + 2,903 Wire Length 70 60 S 3,09342 R-Sq 96,4% R-Sq(adj) 96,2% 50 Pull Strength 40 30 20 10 0 0 5 10 15 20 Wire Length Hur tolkar man α och β? Stat Regression Fitted Line Plot 4
För att kunna testa olika hypoteser och bilda konfidensintervall krävs det att slumpavvikelserna (e) är normalfördelad och har samma varians. För att verifiera detta kan vi betrakta residualerna e i = y i α βx i, som kan ses som observationer på e. i = 1, 2,, n Detta är motsvarigheten till de residualer man får vid variansanalys. Verifiera på vanligt sätt med Normalplot, Normalfördelningstest Plotta residualer mot de anpassade värdena Plotta residualer mot x-värden Plotta residualerna i tidsordning (om möjligt) 5
Stat Regression Regression Fit Regression Model 6
Vad tycker vi? 7
Om inget tyder på att slumpavvikelsen inte är normalfördelad med samma varians, kan vi testa om t.ex. H 0 : a = 0 H 0 : b = 0 Hur ser sambandet ut om respektive nollhypotes är sann? H 0 : a = 0 H 0 : b = 0 Y i = βx i + ε i Y i = α + ε i 8
Regression Analysis: Pull Strength versus Wire Length Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 5885,85 5885,85 615,08 0,000 Wire Length 1 5885,85 5885,85 615,08 0,000 Error 23 220,09 9,57 Lack-of-Fit 12 170,36 14,20 3,14 0,034 Pure Error 11 49,73 4,52 Total 24 6105,94 Model Summary S R-sq R-sq(adj) R-sq(pred) 3,09342 96,40% 96,24% 95,54% Vi återkommer till denna första del av utskriften! Stat Regression Regression Fit Regression Model 9
Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 5,11 1,15 4,46 0,000 Wire Length 2,903 0,117 24,80 0,000 1,00 Test H 0 : a = 0 Test H 0 : b = 0 Skattade parametrar Regression Equation Pull Strength = 5,11 + 2,903 Wire Length Fits and Diagnostics for Unusual Observations Pull Obs Strength Fit Resid Std Resid 9 24,35 31,24-6,89-2,27 R 17 69,00 63,17 5,83 2,16 R R Large residual Skattade parametrarnas standardavvikelse T-värde och p-värden Uppskattad regressionslinje. Varnar för att observation 9 och 17 kan vara outliers. Givet att modellen är korrekt kan vi påvisa att benlängden har betydelse för den dragkraft som behövs. 10
Förklaringsgrad (R 2 ): Mått på hur bra regressionslinjen har anpassats till observationerna. R 2 = andelen av den totala variationen som regressionslinjen förklarar. R 2 = 100% - betyder att linjen går igenom alla observationerna. R 2 stor - tyder på en bra modell. R 2 0% - tyder på att det inte finns något linjärt samband mellan responsen och de förklarande variablerna, dvs. modellen är troligtvis dålig. 11
Regression Analysis: Pull Strength versus Wire Length Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 5885,85 5885,85 615,08 0,000 Wire Length 1 5885,85 5885,85 615,08 0,000 Error 23 220,09 9,57 Lack-of-Fit 12 170,36 14,20 3,14 0,034 Pure Error 11 49,73 4,52 Total 24 6105,94 Model Summary S R-sq R-sq(adj) R-sq(pred) 3,09342 96,40% 96,24% 95,54% R 2 = 5885.85 6105.94 = 0.964 SS(Total) = 6105.94: mått på den total variationen SS(Regression) = 5885.85: mått på hur mycket variation som regressionssambandet förklarar SS(Error) = 220.09: mått på hur mycket observationerna varierar runt regressionssambandet (av regressionssambandet oförklarad variation) SS(Total) = SS(Regression) + SS(Error) 12
Korrelationskoefficient (r): (se sida 72- i boken och föreläsning kap 3.2) Mått på hur bra det linjära sambandet är mellan två variabler. -1 r 1 r = 1 - perfekt positivt linjärt samband r = -1 - perfekt negativt linjärt samband r 0 - tyder på att det inte finns något linjärt samband Vid enkel linjär regressionsanalys är förklaringsgraden R 2 = r 2 - (kvadraten på korrelationskoefficienten) 13
För halvledare med en benlängd på 14, vad skulle man uppskatta den genomsnittliga dragstyrkan till? 70 60 50 Fitted Line Plot Pull Strength = 5,115 + 2,903 Wire Length S 3,09342 R-Sq 96,4% R-Sq(adj) 96,2% Om man vill uppskatta dragstyrkan för en specifik halvledare med en benlängd på 14, hur skulle man göra då? Pull Strength 40 30 20 10 0 0 5 10 Wire Length 15 20 Notera skillnaden på dessa två frågeställningar 14
Stat Regression Regression Predict 15
Prediction for Pull Strength Regression Equation Pull Strength = 5,11 + 2,903 Wire Length Variable Setting Wire Length 14 Fit SE Fit 95% CI 95% PI 45,7524 0,915016 (43,8595; 47,6452) (39,0791; 52,4257) CI är ett konfidensintervall för det förväntade (genomsnittliga) dragstyrkan för halvledare med benlängd 14. PI (prediktionsintervall) är ett konfidensintervall för en specifik halvledares (med benlängd 14) dragstyrka. Notera att PI blir bredare. Orsak: vi måste ta hänsyn till en enskilds (kommande) mätnings mätfel (e). 16
Fit SE Fit 95% CI 95% PI 45,7524 0,915016 (43,8595; 47,6452) (39,0791; 52,4257) Tolkning: Vi tror att den förväntade (sanna) dragstyrkan hos halvledare med benlängd 14 ligger i intervallet (43.86; 46.65). För en specifik (utvald) halvledare med en benlängd på 14 tror vi att dess sanna dragstyrka ligger i intervallet (39.08; 52.43). I båda fallen uppskattar vi dragstyrkan till 45.75. 17
Stat Regression Fitted Line Plot 18
CI och PI för alla benlängder mellan 0 och 20. 19
20 10.2 Multipel linjär regression Regressionsanalys kan även användas för att beskriva samband mellan en responsvariabel och flera förklarande variabler. Multipel linjär regressionsmodell: där e står för slumpavvikelse. Dessa modeller innefattar modeller som t.ex. e b b b a k k x x x Y 2 2 1 1 e b b b a e b b a 2 1 3 2 2 1 1 2 2 1 x x x x Y x x Y
10.2 Multipel linjär regression Exempel: Halvledarexemplet med en kvadratisk term (2:a grads polynom). Fitted Line Plot Pull Strength = 8,833 + 1,743 Wire Length + 0,06090 Wire Length^2 70 60 S 2,59844 R-Sq 97,6% R-Sq(adj) 97,3% Pull Strength 50 40 30 20 10 0 5 10 15 20 Wire Length Stat Regression Fitted Line Plot 21
10.2 Multipel linjär regression 22
10.2 Multipel linjär regression Skapa en kolumn med Benlängden i kvadrat Stat Regression Regression Fit Regression Model 23
10.2 Multipel linjär regression Regression Analysis: Pull Strength versus Wire Length; Wire Length^2 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5957,40 2978,70 441,17 0,000 Wire Length 1 150,27 150,27 22,26 0,000 Wire Length^2 1 71,55 71,55 10,60 0,004 Error 22 148,54 6,75 Lack-of-Fit 11 98,81 8,98 1,99 0,135 Pure Error 11 49,73 4,52 Total 24 6105,94 Model Summary S R-sq R-sq(adj) R-sq(pred) 2,59844 97,57% 97,35% 96,98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 8,83 1,49 5,91 0,000 Wire Length 1,743 0,370 4,72 0,000 14,13 Wire Length^2 0,0609 0,0187 3,26 0,004 14,13 Test H 0 : b 1 = 0 Test H 0 : a = 0 Test H 0 : b 2 = 0 24
10.2 Multipel linjär regression Exempel: Halvledarexemplet, men nu även med den förklarande variabeln sockelhöjd. 60 40 20 500 250 0 20 Matrix Plot of Pull Strength; Wire Length; Die Height Pull Strength 40 60 0 10 Wire Length 20 0 Die Height 250 500 20 10 0 Använd gärna brush -funktionen för att studera sambandet (högerklicka på grafen)! Graph Matrix Plot 25
10.2 Multipel linjär regression Fitted Line Plot Pull Strength = 14,57 + 0,04360 Die Height Pull Strength 70 60 50 40 30 S 14,1770 R-Sq 24,3% R-Sq(adj) 21,0% Relativt dålig anpassning 20 10 0 100 200 300 400 500 600 Die Height Ett visst (enkelt) samband mellan dragstyrka och sockelhöjd verkar finnas. 26
10.2 Multipel linjär regression Låt oss plotta residualerna mot benlängd (som inte finns med i modellen) 27
10.2 Multipel linjär regression Residualerna vi får när vi anpassar ett enkelt linjärt samband mellan dragstyrka och benlängd är den variation vi inte lyckats förklara med denna modell. Om vi plottar residualerna mot sockelhöjd får vi följande resultat. Detta tyder på att sockelhöjd kan förklara ytterligare en del av variationen. 28
10.2 Multipel linjär regression Regression Analysis: Pull Strength versus Wire Length; Die Height Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5990,8 2995,39 572,17 0,000 Wire Length 1 4507,5 4507,53 861,01 0,000 Die Height 1 104,9 104,92 20,04 0,000 Error 22 115,2 5,24 Total 24 6105,9 Model Summary S R-sq R-sq(adj) R-sq(pred) 2,28805 98,11% 97,94% 97,44% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 2,26 1,06 2,14 0,044 Wire Length 2,7443 0,0935 29,34 0,000 1,17 Die Height 0,01253 0,00280 4,48 0,000 1,17 Regression Equation Pull Strength = 2,26 + 2,7443 Wire Length + 0,01253 Die Height 29
10.2 Multipel linjär regression Assistant Regression 30