10.1 Enkel linjär regression

Relevanta dokument
Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F4

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Metod och teori. Statistik för naturvetare Umeå universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Skrivning i ekonometri torsdagen den 8 februari 2007

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F7

Exempel 1 på multipelregression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Skrivning i ekonometri lördagen den 15 januari 2005

Regressions- och Tidsserieanalys - F1

TENTAMEN I STATISTIK B,

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Skrivning i ekonometri lördagen den 29 mars 2008

7.5 Experiment with a single factor having more than two levels

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen i matematisk statistik

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen Tillämpad statistik A5 (15hp)

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Examinationsuppgifter del 2

Regressions- och Tidsserieanalys - F3

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

TENTAMEN I MATEMATISK STATISTIK

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Räkneövning 3 Variansanalys

Exempel 1 på multipelregression

Regressions- och Tidsserieanalys - F3

8.1 General factorial experiments

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Skrivning i ekonometri lördagen den 25 augusti 2007

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

7.5 Experiment with a single factor having more than two levels

Föreläsning G60 Statistiska metoder

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Regressions- och Tidsserieanalys - F5

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 2 multipel linjär regression

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

F7 Polynomregression och Dummyvariabler

tentaplugg.nu av studenter för studenter

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Läs noggrant informationen nedan innan du börjar skriva tentamen

Föreläsning 12: Linjär regression

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

F13 Regression och problemlösning

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i matematisk statistik

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4. Kap 5,1-5,3

Tentamen i Matematisk statistik Kurskod S0001M

Grundläggande matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Tentamen i Matematisk statistik Kurskod S0001M

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Datorövning 1 Enkel linjär regressionsanalys

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Tentamen Tillämpad statistik A5 (15hp)

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Följande resultat erhålls (enhet: 1000psi):

Kvadratisk regression, forts.

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Laboration 4 R-versionen

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Tentamen Tillämpad statistik A5 (15hp)

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Föreläsning 12: Regression

Transkript:

Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot of Pull Strength vs Wire Length 60 Pull Strength 50 40 30 20 10 0 5 10 15 20 Wire Length Graph Scatterplot 1

Enkel linjär regressionsanalys används för att beskriva samband mellan en responsvariabel och en förklarande variabel. Enkel linjär regressionsmodell: Pull Strength = a + b* Wire Length + e där e står för slumpavvikelse. Vanligtvis antas slumpavvikelsen e vara normalfördelad med väntevärde 0 och varians 2. 2

Eftersom a och b är okända kan vi skatta dessa med hjälp av de uppmätta observationer y 1, y 2,, y n vilka man har mätt för kända värden x 1, x 2,, x n. Modell: Y i = α + βx i + ε i, i = 1, 2, n. Minsta kvadratmetoden: Hitta den linje som minimerar summan av de kvadratiska avvikelserna (vertikala) mellan linjen och observationerna. Denna linje kan skrivas y = α + βx α och β är uppskattningar av de sanna parametrarna a och b och baseras på de uppmätta observationsparen (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ). 3

Fitted Line Plot Pull Strength = 5,115 + 2,903 Wire Length 70 60 S 3,09342 R-Sq 96,4% R-Sq(adj) 96,2% 50 Pull Strength 40 30 20 10 0 0 5 10 15 20 Wire Length Hur tolkar man α och β? Stat Regression Fitted Line Plot 4

För att kunna testa olika hypoteser och bilda konfidensintervall krävs det att slumpavvikelserna (e) är normalfördelad och har samma varians. För att verifiera detta kan vi betrakta residualerna e i = y i α βx i, som kan ses som observationer på e. i = 1, 2,, n Detta är motsvarigheten till de residualer man får vid variansanalys. Verifiera på vanligt sätt med Normalplot, Normalfördelningstest Plotta residualer mot de anpassade värdena Plotta residualer mot x-värden Plotta residualerna i tidsordning (om möjligt) 5

Stat Regression Regression Fit Regression Model 6

Vad tycker vi? 7

Om inget tyder på att slumpavvikelsen inte är normalfördelad med samma varians, kan vi testa om t.ex. H 0 : a = 0 H 0 : b = 0 Hur ser sambandet ut om respektive nollhypotes är sann? H 0 : a = 0 H 0 : b = 0 Y i = βx i + ε i Y i = α + ε i 8

Regression Analysis: Pull Strength versus Wire Length Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 5885,85 5885,85 615,08 0,000 Wire Length 1 5885,85 5885,85 615,08 0,000 Error 23 220,09 9,57 Lack-of-Fit 12 170,36 14,20 3,14 0,034 Pure Error 11 49,73 4,52 Total 24 6105,94 Model Summary S R-sq R-sq(adj) R-sq(pred) 3,09342 96,40% 96,24% 95,54% Vi återkommer till denna första del av utskriften! Stat Regression Regression Fit Regression Model 9

Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 5,11 1,15 4,46 0,000 Wire Length 2,903 0,117 24,80 0,000 1,00 Test H 0 : a = 0 Test H 0 : b = 0 Skattade parametrar Regression Equation Pull Strength = 5,11 + 2,903 Wire Length Fits and Diagnostics for Unusual Observations Pull Obs Strength Fit Resid Std Resid 9 24,35 31,24-6,89-2,27 R 17 69,00 63,17 5,83 2,16 R R Large residual Skattade parametrarnas standardavvikelse T-värde och p-värden Uppskattad regressionslinje. Varnar för att observation 9 och 17 kan vara outliers. Givet att modellen är korrekt kan vi påvisa att benlängden har betydelse för den dragkraft som behövs. 10

Förklaringsgrad (R 2 ): Mått på hur bra regressionslinjen har anpassats till observationerna. R 2 = andelen av den totala variationen som regressionslinjen förklarar. R 2 = 100% - betyder att linjen går igenom alla observationerna. R 2 stor - tyder på en bra modell. R 2 0% - tyder på att det inte finns något linjärt samband mellan responsen och de förklarande variablerna, dvs. modellen är troligtvis dålig. 11

Regression Analysis: Pull Strength versus Wire Length Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 5885,85 5885,85 615,08 0,000 Wire Length 1 5885,85 5885,85 615,08 0,000 Error 23 220,09 9,57 Lack-of-Fit 12 170,36 14,20 3,14 0,034 Pure Error 11 49,73 4,52 Total 24 6105,94 Model Summary S R-sq R-sq(adj) R-sq(pred) 3,09342 96,40% 96,24% 95,54% R 2 = 5885.85 6105.94 = 0.964 SS(Total) = 6105.94: mått på den total variationen SS(Regression) = 5885.85: mått på hur mycket variation som regressionssambandet förklarar SS(Error) = 220.09: mått på hur mycket observationerna varierar runt regressionssambandet (av regressionssambandet oförklarad variation) SS(Total) = SS(Regression) + SS(Error) 12

Korrelationskoefficient (r): (se sida 72- i boken och föreläsning kap 3.2) Mått på hur bra det linjära sambandet är mellan två variabler. -1 r 1 r = 1 - perfekt positivt linjärt samband r = -1 - perfekt negativt linjärt samband r 0 - tyder på att det inte finns något linjärt samband Vid enkel linjär regressionsanalys är förklaringsgraden R 2 = r 2 - (kvadraten på korrelationskoefficienten) 13

För halvledare med en benlängd på 14, vad skulle man uppskatta den genomsnittliga dragstyrkan till? 70 60 50 Fitted Line Plot Pull Strength = 5,115 + 2,903 Wire Length S 3,09342 R-Sq 96,4% R-Sq(adj) 96,2% Om man vill uppskatta dragstyrkan för en specifik halvledare med en benlängd på 14, hur skulle man göra då? Pull Strength 40 30 20 10 0 0 5 10 Wire Length 15 20 Notera skillnaden på dessa två frågeställningar 14

Stat Regression Regression Predict 15

Prediction for Pull Strength Regression Equation Pull Strength = 5,11 + 2,903 Wire Length Variable Setting Wire Length 14 Fit SE Fit 95% CI 95% PI 45,7524 0,915016 (43,8595; 47,6452) (39,0791; 52,4257) CI är ett konfidensintervall för det förväntade (genomsnittliga) dragstyrkan för halvledare med benlängd 14. PI (prediktionsintervall) är ett konfidensintervall för en specifik halvledares (med benlängd 14) dragstyrka. Notera att PI blir bredare. Orsak: vi måste ta hänsyn till en enskilds (kommande) mätnings mätfel (e). 16

Fit SE Fit 95% CI 95% PI 45,7524 0,915016 (43,8595; 47,6452) (39,0791; 52,4257) Tolkning: Vi tror att den förväntade (sanna) dragstyrkan hos halvledare med benlängd 14 ligger i intervallet (43.86; 46.65). För en specifik (utvald) halvledare med en benlängd på 14 tror vi att dess sanna dragstyrka ligger i intervallet (39.08; 52.43). I båda fallen uppskattar vi dragstyrkan till 45.75. 17

Stat Regression Fitted Line Plot 18

CI och PI för alla benlängder mellan 0 och 20. 19

20 10.2 Multipel linjär regression Regressionsanalys kan även användas för att beskriva samband mellan en responsvariabel och flera förklarande variabler. Multipel linjär regressionsmodell: där e står för slumpavvikelse. Dessa modeller innefattar modeller som t.ex. e b b b a k k x x x Y 2 2 1 1 e b b b a e b b a 2 1 3 2 2 1 1 2 2 1 x x x x Y x x Y

10.2 Multipel linjär regression Exempel: Halvledarexemplet med en kvadratisk term (2:a grads polynom). Fitted Line Plot Pull Strength = 8,833 + 1,743 Wire Length + 0,06090 Wire Length^2 70 60 S 2,59844 R-Sq 97,6% R-Sq(adj) 97,3% Pull Strength 50 40 30 20 10 0 5 10 15 20 Wire Length Stat Regression Fitted Line Plot 21

10.2 Multipel linjär regression 22

10.2 Multipel linjär regression Skapa en kolumn med Benlängden i kvadrat Stat Regression Regression Fit Regression Model 23

10.2 Multipel linjär regression Regression Analysis: Pull Strength versus Wire Length; Wire Length^2 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5957,40 2978,70 441,17 0,000 Wire Length 1 150,27 150,27 22,26 0,000 Wire Length^2 1 71,55 71,55 10,60 0,004 Error 22 148,54 6,75 Lack-of-Fit 11 98,81 8,98 1,99 0,135 Pure Error 11 49,73 4,52 Total 24 6105,94 Model Summary S R-sq R-sq(adj) R-sq(pred) 2,59844 97,57% 97,35% 96,98% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 8,83 1,49 5,91 0,000 Wire Length 1,743 0,370 4,72 0,000 14,13 Wire Length^2 0,0609 0,0187 3,26 0,004 14,13 Test H 0 : b 1 = 0 Test H 0 : a = 0 Test H 0 : b 2 = 0 24

10.2 Multipel linjär regression Exempel: Halvledarexemplet, men nu även med den förklarande variabeln sockelhöjd. 60 40 20 500 250 0 20 Matrix Plot of Pull Strength; Wire Length; Die Height Pull Strength 40 60 0 10 Wire Length 20 0 Die Height 250 500 20 10 0 Använd gärna brush -funktionen för att studera sambandet (högerklicka på grafen)! Graph Matrix Plot 25

10.2 Multipel linjär regression Fitted Line Plot Pull Strength = 14,57 + 0,04360 Die Height Pull Strength 70 60 50 40 30 S 14,1770 R-Sq 24,3% R-Sq(adj) 21,0% Relativt dålig anpassning 20 10 0 100 200 300 400 500 600 Die Height Ett visst (enkelt) samband mellan dragstyrka och sockelhöjd verkar finnas. 26

10.2 Multipel linjär regression Låt oss plotta residualerna mot benlängd (som inte finns med i modellen) 27

10.2 Multipel linjär regression Residualerna vi får när vi anpassar ett enkelt linjärt samband mellan dragstyrka och benlängd är den variation vi inte lyckats förklara med denna modell. Om vi plottar residualerna mot sockelhöjd får vi följande resultat. Detta tyder på att sockelhöjd kan förklara ytterligare en del av variationen. 28

10.2 Multipel linjär regression Regression Analysis: Pull Strength versus Wire Length; Die Height Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5990,8 2995,39 572,17 0,000 Wire Length 1 4507,5 4507,53 861,01 0,000 Die Height 1 104,9 104,92 20,04 0,000 Error 22 115,2 5,24 Total 24 6105,9 Model Summary S R-sq R-sq(adj) R-sq(pred) 2,28805 98,11% 97,94% 97,44% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 2,26 1,06 2,14 0,044 Wire Length 2,7443 0,0935 29,34 0,000 1,17 Die Height 0,01253 0,00280 4,48 0,000 1,17 Regression Equation Pull Strength = 2,26 + 2,7443 Wire Length + 0,01253 Die Height 29

10.2 Multipel linjär regression Assistant Regression 30