Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Relevanta dokument
10.1 Enkel linjär regression

Exempel 1 på multipelregression

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

Exempel 1 på multipelregression

Metod och teori. Statistik för naturvetare Umeå universitet

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri lördagen den 29 mars 2008

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Skrivning i ekonometri lördagen den 15 januari 2005

TENTAMEN I STATISTIK B,

Regressions- och Tidsserieanalys - F3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Skrivning i ekonometri lördagen den 25 augusti 2007

Tentamen i matematisk statistik

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

8.1 General factorial experiments

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Tentamen i matematisk statistik

Examinationsuppgifter del 2

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

7.5 Experiment with a single factor having more than two levels

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen i matematisk statistik

Räkneövning 3 Variansanalys

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

TENTAMEN I MATEMATISK STATISTIK

F7 Polynomregression och Dummyvariabler

Tentamen Tillämpad statistik A5 (15hp)

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Statistik B Regressions- och tidsserieanalys Föreläsning 1

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Följande resultat erhålls (enhet: 1000psi):

Regressions- och Tidsserieanalys - F5

Regressions- och Tidsserieanalys - F3

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Regressions- och Tidsserieanalys - F3

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Regressions- och Tidsserieanalys - F1

Tentamen i matematisk statistik

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Föreläsning G60 Statistiska metoder

7.5 Experiment with a single factor having more than two levels

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Regressions- och Tidsserieanalys - F1

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Föreläsning 4. Kap 5,1-5,3

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Tentamen i matematisk statistik

tentaplugg.nu av studenter för studenter

Statistik för teknologer, 5 poäng Skrivtid:

Tentamen Tillämpad statistik A5 (15hp)

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Laboration 2 multipel linjär regression

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

sociology Unit B1: Introduction to correlation and regression 3/3 Brendan Halpin May

Tentamen i Matematisk statistik Kurskod S0001M

Kvadratisk regression, forts.

Tentamen Tillämpad statistik A5 (15hp)

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Läs noggrant informationen nedan innan du börjar skriva tentamen

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Tentamen i Matematisk statistik Kurskod S0001M

tentaplugg.nu av studenter för studenter

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen i Matematisk statistik Kurskod S0001M

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

2.1 Minitab-introduktion

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

Enkel linjär regression Exempel.7 i boken (sida 31). Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben och höjder på sockeln. De halvledare som betraktas är av samma storlek (bortsett benlängden). 7 Scatterplot of vs 3 2 1 1 2 1 Enkel linjär regression Fitted Line Plot =.1 + 2.93 7 S 3.932 R-Sq 9.% R-Sq(adj) 9.2% 3 2 1 1 2 Hur tolkar man βˆ ochβˆ1? Stat Fitted Line Plot 2 Enkel linjär regression Plots for Normal Probability Plot of the s s Versus the Fitted Values 99 9 3 Percent 1 1-8 - 8-3 - 3 Fitted Value Frequency 8 2 Histogram of the s - - -2 2 s Versus the Order of the Data 3-3 - 2 8 1 12 1 1 18 2 22 2 Observation Order Vad tycker vi? 3 1

Jämför leverage-värdet med 2*p/n = 2*2/2 =.1, och Cooks avstånd med 1. Högt leverage-värde. Under Storage i Stat Regression Enkel linjär regression Regression Analysis: versus =.11 + 2.9 Predictor Coef SE Coef T P Constant.1 1.1.. 2.927.117 2.8. Test H : β = Test H : β 1 = S = 3.932 R-Sq = 9.% R-Sq(adj) = 9.2% Regression 1 88.9 88.9.8. Error 23 22.1 9. Total 2.9 Stat Regression Enkel linjär regression För halvledare med en benlängd på 1, vad skulle man uppskatta den genomsnittliga dragstyrkan till? 7 Fitted Line Plot =.1 + 2.93 S 3.932 R-Sq 9.% R-Sq(adj) 9.2% Om man vill uppskatta dragstyrkan för en specifik halvledare med benlängd 1, hur skulle man göra då? 3 2 1 1 2 2

Enkel linjär regression Predicted Values for New Observations New Obs Fit SE Fit 9% CI 9% PI 1.72.9 (3.8; 7.) (39.79; 2.2) Values of Predictors for New Observations New Wire Obs Length 1 1. CI är ett konfidensintervall för det förväntade (genomsnittliga) dragstyrkan för halvledare med benlängd 1, medan PI (prediktionsintervall) är ett konfidensintervall för en specifik halvledares (med benlängd 1) dragstyrka. Notera att PI blir bredare. Orsak: vi måste ta hänsyn till en enskilds (kommande) mätnings mätfel (ε). Under option i Stat Regression 7 Enkel linjär regression Fitted Line Plot =.1 + 2.93 7 3 2 Regression 9% CI 9% PI S 3.932 R-Sq 9.% R-Sq(adj) 9.2% 1 1 2 CI och PI för alla benlängder mellan och 2. Under option i Stat Fitted Line Plot 8 Exempel: Halvledarexemplet med en kvadratisk term (2:a grads polynom). Fitted Line Plot = 8.833 + 1.73 +.9 **2 7 S 2.98 R-Sq 97.% R-Sq(adj) 97.3% 3 2 1 1 2 Stat Fitted Line Plot 9 3

Plots for 99 Normal Probability Plot of the s. s Versus the Fitted Values Percent 9 1 2.. -2. 1 -. -2.. 2.. -. 2 Fitted Value.8 Histogram of the s. s Versus the Order of the Data Frequency 3. 2. 1.2 2.. -2.. - -2 2 -. 2 8 1 12 1 1 18 2 22 2 Observation Order 1 Regression Analysis: versus Wire Len; Wire Len sq = 8.83 + 1.7 +.9 sq Predictor Coef SE Coef T P Constant 8.833 1.9.91. 1.732.39.72. sq.9.1871 3.2. S = 2.98 R-Sq = 97.% R-Sq(adj) = 97.3% Test H : β = Test H : β 1 = Test H : β 2 = Regression 2 97. 2978.7 1.17. Error 22 18..8 Lack of Fit 11 98.8 9. 1.99.13 Pure Error 11 9.7. Total 2.9 Under option i Stat Regression (pure error) Test H : modellen är korrekt P-värde =.3 vid enkel linjär regression 11 Exempel: Halvledarexemplet, men nu även med den förklarande variabeln sockelhöjd. Matrix Plot of ; ; Die Height Die Height 1 2 2 2 2 1 Graph Matrix Plot 12

erna vi får när vi anpassar ett enkelt linjärt samband mellan dragstyrka och benlängd är den variation vi inte lyckats förklara med denna modell. Om vi plottar residualerna mot sockelhöjd får vi följande resultat. s Versus Die Height (response is ). 2.. -2. -. -7. 1 2 3 Die Height Detta tyder på att sockelhöjd kan förklara ytterligare en del av variationen. 13 Regression Analysis: versus ; Die Height = 2.2 + 2.7 +.12 Die Height Predictor Coef SE Coef T P VIF Constant 2.2 1. 2.1. Test H : α = 2.727.932 29.3. Test 1.17 H : β 1 = Die Height.1228.2798.8. Test 1.17 H : β 2 = S = 2.288 R-Sq = 98.1% R-Sq(adj) = 97.9% Regression 2 99.8 299. 72.17. Test H : β 1 = β 2 = Error 22 1.2.2 Total 2.9 R 2 ökade från 9. till 98.1 (justerad R 2 från 9.2 till 97.9). 1 Ett visst (enkelt) samband mellan benlängd och sockelhöjd verkar finnas. Multikolinjäritet? R 2 = 1.3%!

Regression Analysis: versus ; Die Height = 2.2 + 2.7 +.12 Die Height Predictor Coef SE Coef T P VIF Constant 2.2 1. 2.1. 2.727.932 29.3. 1.17 Die Height.1228.2798.8. 1.17 S = 2.288 R-Sq = 98.1% R-Sq(adj) = 97.9% Under option i Stat Regression (variance inflation factors) 1 Betraktar vi andragradspolynomet finner vi att vi har ett starkt samband mellan benlängd och benlängd 2. R 2 = 92.% (multikolinjäritet)! 17 Regression Analysis: versus ; sq = 8.83 + 1.7 +.9 sq Predictor Coef SE Coef T P VIF Constant 8.833 1.9.91. 1.732.39.72. 1.12 sq.9.1871 3.2. 1.12 S = 2.98 R-Sq = 97.% R-Sq(adj) = 97.3% Ett sätt att reducera multikolinjäriteten vid polynomregression är att först centrera den förklarande variabeln runt dess medelvärde och sedan skapa andragradsvariabeln, osv. 18

Regression Analysis: Pull Strengt versus Cent Wire Le; Cent Wire Le = 27.3 + 2.7 Cent +.9 Cent sq Predictor Coef SE Coef T P VIF Constant 27.3312.7371 37.8. Cent 2.78.19 2.12. 1.237 Cent sq.9.1871 3.2. 1.237 S = 2.98 R-Sq = 97.% R-Sq(adj) = 97.3% Notera att regressionsparametrarna inte blir de samma! 19 Regression Analysis: Pull Strengt versus Cent Wire Le; Cent Wire Le = 2. + 2. Cent +.28 Cent sq +.1 Die Height Predictor Coef SE Coef T P VIF Constant 2.391.91 2.8. Cent 2.18.817 3.89. 1.31 Cent sq.283.197 2.8.9 1.3 Die Height.137.2.8.1 1.279 S = 1.988 R-Sq = 98.% R-Sq(adj) = 98.% Regression 3 23.1 27.7 8.8. Error 21 82.9 3.9 Total 2.9 2 Extremt värde, men ej inflytelserik 21 7

Regression Analysis: versus ; Die Height = 2.2 + 2.7 +.12 Die Height Predictor Coef SE Coef T P Constant 2.2 1. 2.1. 2.727.932 29.3. Die Height.1228.2798.8. S = 2.288 R-Sq = 98.1% R-Sq(adj) = 97.9% Regression 2 99.8 299. 72.17. Error 22 1.2.2 Total 2.9 Source DF Seq SS 1 88.9 Die Height 1 1.9 22 Source DF Seq SS 1 88.9 Die Height 1 1.9 Betrakta variation som regressionslinjen förklarade 99.8. Om vi bara stoppar in benlängd så förklarade den enkla regressionslinjen 88.9. Genom att även ta med sockelhöjd så ökade förklaringen med 1.9, dvs till 99.8. 1.9 beskriver hur mycket sockelhöjd förklarar givet att benlängd finns med i modellen. Om vi stoppar in de förklarande variablerna i omvänd ordning får vi Source DF Seq SS Die Height 1 183.2 1 7. 23 Samband: regression variansanalys Under Calc Make Indicator Variables 2 8

Samband: regression variansanalys General Linear Model: Hållfasthet versus Garntyp Factor Type Levels Values Garntyp fixed A; B; C; D for Hållfasthet, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Garntyp 3 12.31 12.31.13 11.1.1 Error 13.777.777.37 Total 1 17.77 S =.1 R-Sq = 72.3% R-Sq(adj) =.8% 2 Samband: regression variansanalys Regression Analysis: Hållfasthet versus Garntyp_A; Garntyp_B;... * Garntyp_D is highly correlated with other X variables * Garntyp_D has been removed from the equation. Hållfasthet =.9-1.2 Garntyp_A - 1.83 Garntyp_B - 2.21 Garntyp_C Predictor Coef SE Coef T P Constant.88.2711 29.82. Garntyp_A -1.2.383-3.9.2 Garntyp_B -1.83. -..1 Garntyp_C -2.2133.27 -.. S =.1 R-Sq = 72.% R-Sq(adj) =.% Regression 3 12.31.13 11.1.1 Error 13.777.37 2 Samband: regression variansanalys Hållfasthet =.88-1.2 Garntyp_A - 1.83 Garntyp_B - 2.21 Garntyp_C Garntyp A: Hållfasthet =.88-1.2*1-1.83* - 2.21* =.3 Garntyp B: Hållfasthet =.88-1.2* - 1.83*1-2.21* =. Garntyp C: Hållfasthet =.88-1.2* - 1.83* - 2.21*1 =.7 Garntyp D: Hållfasthet =.88-1.2* - 1.83* - 2.21* =.88 Descriptive Statistics: Hållfasthet Total Variable Garntyp Count Mean StDev Variance Hållfasthet A.3.13.23 B..827.83 C 3.7.1.23 D.88.3.317 27 9

Samband: regression variansanalys Vi kan konstatera att variansanalys bara är ett specialfall av regression. Vill vi analysera modeller med både kontinuerliga och kategoriska variabler kan vi använda Stat ANOVA General Linear Model, där de kontinuerliga variablerna specificeras under Covariates. 28 1