Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25
Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 2 / 25
Laboration 4 Jobba i grupper med storlek 2 Ingen KGB! Lektionsläraren rättar labrapporten. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 2 / 25
Laboration 4 Jobba i grupper med storlek 2 Ingen KGB! Lektionsläraren rättar labrapporten. För att få bonuspoäng från KGB ska alla laborationer vara godkända senast en vecka efter tentamen. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 2 / 25
Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25
Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Webbuppgift 4 stängs 9 januari, kl 13.00. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25
Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Webbuppgift 4 stängs 9 januari, kl 13.00. Repetitionsuppgifter i MapleTA. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25
Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Webbuppgift 4 stängs 9 januari, kl 13.00. Repetitionsuppgifter i MapleTA. Gamla tentor finns i Fronter. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25
Examination Tentamen går 13 januari Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25
Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25
Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Räknedosa, Kursboken Vännman: Matematisk statistik, Kursmaterialet Vännman: Regressionsanalys, Kursmaterialet Några ofta förekommande fördelningar, Tabeller Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25
Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Räknedosa, Kursboken Vännman: Matematisk statistik, Kursmaterialet Vännman: Regressionsanalys, Kursmaterialet Några ofta förekommande fördelningar, Tabeller Del 1 Endast svar bedöms. Godkänt med betyg 3 är 17 eller bättre av 25 möjliga poäng. Bonuspoäng från KGB räknas här. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25
Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Räknedosa, Kursboken Vännman: Matematisk statistik, Kursmaterialet Vännman: Regressionsanalys, Kursmaterialet Några ofta förekommande fördelningar, Tabeller Del 1 Endast svar bedöms. Godkänt med betyg 3 är 17 eller bättre av 25 möjliga poäng. Bonuspoäng från KGB räknas här. Del 2 Frivillig! Fullständiga lösningar ges. Om de är tillräckligt bra kan man få betyg 4 eller 5, men bara om del 1 är godkänd. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25
Multipel linjär regressionsanalys Regressionsanalys där två eller flera förklarande X -variabler används. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 5 / 25
Multipel linjär regressionsanalys Regressionsanalys där två eller flera förklarande X -variabler används. De flesta begreppen från enkel linjär regression (med en förklarande X -variabel) kan enkelt generaliseras. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 5 / 25
Exempel 2. Oktanhalt, sid 20 I ett planerat försök ville man studera hur tillsatser av etanol och tetraetylbly i bensin påverkar oktantalet. Försöket gjordes så att man bestämde fyra olika intressanta värden, s k nivåer, på var och en av variablerna etanol och tetraetylbly. För varje kombination av dessa nivåer mättes därefter oktantalet. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 6 / 25
Exempel 2. Oktanhalt, sid 20 I ett planerat försök ville man studera hur tillsatser av etanol och tetraetylbly i bensin påverkar oktantalet. Försöket gjordes så att man bestämde fyra olika intressanta värden, s k nivåer, på var och en av variablerna etanol och tetraetylbly. För varje kombination av dessa nivåer mättes därefter oktantalet. Tabell Oktantalet i bensin vid olika nivåer av variablerna etanol och tetraetylbly (kodade enheter). Etanol Tetraetylbly Oktantal Etanol Tetraetylbly Oktantal 2 2 96.3 4 2 96.2 2 3 95.7 4 3 100.1 2 4 99.9 4 4 103.3 2 5 99.4 4 5 104.3 3 2 95.1 5 2 97.8 3 3 97.8 5 3 102.2 3 4 99.3 5 4 104.7 3 5 104.9 5 5 108.8 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 6 / 25
Exempel 2. Oktanhalt, sid 20 I ett planerat försök ville man studera hur tillsatser av etanol och tetraetylbly i bensin påverkar oktantalet. Försöket gjordes så att man bestämde fyra olika intressanta värden, s k nivåer, på var och en av variablerna etanol och tetraetylbly. För varje kombination av dessa nivåer mättes därefter oktantalet. Tabell Oktantalet i bensin vid olika nivåer av variablerna etanol och tetraetylbly (kodade enheter). Etanol Tetraetylbly Oktantal Etanol Tetraetylbly Oktantal 2 2 96.3 4 2 96.2 2 3 95.7 4 3 100.1 2 4 99.9 4 4 103.3 2 5 99.4 4 5 104.3 3 2 95.1 5 2 97.8 3 3 97.8 5 3 102.2 3 4 99.3 5 4 104.7 3 5 104.9 5 5 108.8 Skatta en modell som beskriver hur etanol och tetraetylbly påverkar oktantalet. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 6 / 25
Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25
Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25
Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25
Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Y = oktantalet, X 1 = etanol, X 2 = tetraetylbly Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25
Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Y = oktantalet, X 1 = etanol, X 2 = tetraetylbly 2 X 1 5, 2 X 2 5 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25
Den skattade modellen sett som ett plan Ŷ = 84.5 + 1.8 X 1 + 2.7 X 2 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 8 / 25
Variansanalystabell 34567#>6=#9;#?8>6::6= @A7B:979>6#;97<95<8=6= #!"#$"%$&'( )#$*+%,-#".+#( /0)1( ( :+-#+,,$&'( ( :+,$.4"8( ( ;&%"8( # K#$#%#&#!# # n#$#k#&#%,# # n#$#%#&#%+# 23".#"%,455"( /661( n '! ( Yi Y)!%%*+, i % # n '! ( Yi Yi)!+*,% i % # n! ( Yi Y)!,/*12 i % # 7+.+893".#"%,455"( /761( n '! ( Yi Y) -( K %) %.+*"/ i % # n '! ( Yi Yi) -( n K) %*0+ i % # # K(<("'%"8(#+-#+,,$&',="#"5+%#"#($(5&.+88+'(<(>(( # # #! '! '! 34567#5859:# n n n ( Y Y) ( Y Y) ( Y Y) i i i i i % i % i % C4::67#;<> 3<=D59EB;9>795?658>6= ;97<95<8= # 34567#8FA7B:979># ;97<95<8= " Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 9 / 25
Residualspridning Skattade variansen för residualen ges av s 2 e = residualkvadratsumman n K = 1 n K n ( ) 2 Yi Ŷ i i=1 där K är antal skattade parametrar i modellen. (K = 3 i vårt exempel) Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 10 / 25
Residualspridning Skattade variansen för residualen ges av s 2 e = residualkvadratsumman n K = 1 n K n ( ) 2 Yi Ŷ i i=1 där K är antal skattade parametrar i modellen. (K = 3 i vårt exempel) Residualspridning Residualspridningen ges av s e = s 2 e Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 10 / 25
Residualspridning Skattade variansen för residualen ges av s 2 e = residualkvadratsumman n K = 1 n K n ( ) 2 Yi Ŷ i i=1 där K är antal skattade parametrar i modellen. (K = 3 i vårt exempel) Residualspridning Residualspridningen ges av s e = s 2 e Residualspridningen är en skattning av standardavvikelsen för ε i, dvs σ. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 10 / 25
Justerad förklaringsgrad Den justerade förklaringsgraden R 2 a ges av eller alternativt R 2 a = 1 residualkvadratsumman/(n K) totala kvadratsumman/(n 1) R 2 a = 1 ( 1 R 2) n 1 n K där K är antal skattade regressionsparametrar och R 2 är den vanliga förklaringsgraden. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 11 / 25
Justerad förklaringsgrad Den justerade förklaringsgraden R 2 a ges av eller alternativt R 2 a = 1 residualkvadratsumman/(n K) totala kvadratsumman/(n 1) R 2 a = 1 ( 1 R 2) n 1 n K där K är antal skattade regressionsparametrar och R 2 är den vanliga förklaringsgraden. Bra till...... att bedöma om en modell blir bättre när en förklarande variabel läggs till eller tas bort. Om R 2 a växer är det tecken på att det var rätt att lägga till/ta bort den förklarande variabeln. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 11 / 25
Justerad förklaringsgrad Den justerade förklaringsgraden R 2 a ges av eller alternativt R 2 a = 1 residualkvadratsumman/(n K) totala kvadratsumman/(n 1) R 2 a = 1 ( 1 R 2) n 1 n K där K är antal skattade regressionsparametrar och R 2 är den vanliga förklaringsgraden. Bra till...... att bedöma om en modell blir bättre när en förklarande variabel läggs till eller tas bort. Om R 2 a växer är det tecken på att det var rätt att lägga till/ta bort den förklarande variabeln. Den vanliga förklaringsgraden R 2 växer alltid när nya förklarande variabler läggs till. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 11 / 25
Enbart bly som förklarande variabel Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 12 / 25
Enbart etanol som förklarande variabel Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 13 / 25
Ska X 1 ingå i modellen? Hypotesprövning H 0 : β 1 = 0 H 1 : β 1 0 Signifikansnivå α Testvariabel: T = t-kvot = b 1 s b1 Beslutsstrategi: förkasta nollhypotesen på signifikansnivån α om t-kvot > tα/2 (n K) där K är antalet regressionsparametrar. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 14 / 25
Ska X 1 ingå i modellen? Hypotesprövning H 0 : β 1 = 0 H 1 : β 1 0 Signifikansnivå α Testvariabel: T = t-kvot = b 1 s b1 Beslutsstrategi: förkasta nollhypotesen på signifikansnivån α om t-kvot > tα/2 (n K) där K är antalet regressionsparametrar. Alternativ beslutsstrategi: Direktmetoden Om P-värdet i Minitab, som hör till b 1, är lägre än önskad signifikansnivå α kan H 0 förkastas. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 14 / 25
Konfidensintervall för β 1 Vi kan använda det vi känner till om fördelningen för b 1 till att bestämma ett konfidensintervall för β 1. Metoden är analog med det vi gjort tidigare i kursen, och ger intervallet b 1 ± t α/2 (n K) s b1 där K är antalet regressionsparametrar. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 15 / 25
Konfidensintervall för β 1 Vi kan använda det vi känner till om fördelningen för b 1 till att bestämma ett konfidensintervall för β 1. Metoden är analog med det vi gjort tidigare i kursen, och ger intervallet b 1 ± t α/2 (n K) s b1 där K är antalet regressionsparametrar. Detta intervall innehåller β 1 med konfidensgrad 1 α. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 15 / 25
Konfidensintervall, tolkning Konfidensintervall för β 1 : [0.8, 2.8], konfidensgrad 99% Tolkning med 99% säkerhet För fixt värde på tetraetylbly, så ökar oktantalet i genomsnitt mellan 0.8 och 2.8 enheter om etanolvariabeln ökar med en kodad enhet. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 16 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Om molnet har en kurvform är modellen med ett plan förmodligen fel. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Om molnet har en kurvform är modellen med ett plan förmodligen fel. Om några enstaka residualer är väldigt stora och hela molnet lutar lite grand, kan man misstänka att det finns uteliggare. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Om molnet har en kurvform är modellen med ett plan förmodligen fel. Om några enstaka residualer är väldigt stora och hela molnet lutar lite grand, kan man misstänka att det finns uteliggare. För att upptäcka uteliggare kan det vara en god idé att undersöka de standardiserade (studentiserade) residualerna, som är en omskalad version av residualerna. Om en sådan ligger utanför intevallet [ 2, 2] kan man misstänka att det är en uteliggare. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25
Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25
Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Om h i > 2 K/n anses observation nr i vara inflytelserik. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25
Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Om h i > 2 K/n anses observation nr i vara inflytelserik. K är antalet regressionsparameterar. Då K = 3 och n = 16 är h i > 2 K/n = 0.375 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25
Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Om h i > 2 K/n anses observation nr i vara inflytelserik. K är antalet regressionsparameterar. Då K = 3 och n = 16 är h i > 2 K/n = 0.375 I Minitab anges en observation som unususal om h i > 3 K/n. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25
DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25
DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25
DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25
DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25
DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Observation nr i är inflytelserik om DFITS i > 2 K/n. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25
DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Observation nr i är inflytelserik om DFITS i > 2 K/n. K är antalet regressionsparameterar. Då K = 3 och n = 16 är 2 K/n = 0.87 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25
DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Observation nr i är inflytelserik om DFITS i > 2 K/n. K är antalet regressionsparameterar. Då K = 3 och n = 16 är 2 K/n = 0.87 En tumregel är också att observation nr i är inflytelserik om DFITS i > 1. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25
Konfidensintervall för E(Y 0 ) Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 20 / 25
Konfidensintervall för E(Y 0 ) Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för E(Y 0 ) = β 0 + β 1 X 1,0 + β 2 X 2,0 med Ŷ 0 ± t α/2 (n K) sŷ0 där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 20 / 25
Konfidensintervall för E(Y 0 ) Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för E(Y 0 ) = β 0 + β 1 X 1,0 + β 2 X 2,0 med Ŷ 0 ± t α/2 (n K) sŷ0 där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3. Detta intervall innehåller E(Y 0 ) = β 0 + β 1 X 1,0 + β 2 X 2,0 med konfidensgrad 1 α. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 20 / 25
Prognosintervall för Y 0 Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 21 / 25
Prognosintervall för Y 0 Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för en ny observation i Y 0 i (X 1,0, X 2,0 ) med Ŷ 0 ± t α/2 (n K) s pr där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3, och s 2 pr = s 2 e + s 2 Ŷ 0. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 21 / 25
Prognosintervall för Y 0 Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för en ny observation i Y 0 i (X 1,0, X 2,0 ) med Ŷ 0 ± t α/2 (n K) s pr där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3, och s 2 pr = s 2 e + s 2 Ŷ 0. Detta intervall innehåller Y 0 med konfidensgrad 1 α. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 21 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y = Xβ + ε Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n Y = Xβ + ε Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n X = Y = Xβ + ε 1 X 11... X K 1,1... 1 X 1n... X K 1,n Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n X = Y = Xβ + ε 1 X 11... X K 1,1... 1 X 1n... X K 1,n β = β 0. β K 1 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n X = Y = Xβ + ε 1 X 11... X K 1,1... 1 X 1n... X K 1,n β = β 0. β K 1 ε 1 ε =. ε n Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25
Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25
Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ŷ = Xb = X(X T X) 1 X T Y Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25
Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ŷ = Xb = X(X T X) 1 X T Y Skattad varians för b i, dvs s 2 b i, är diagonalelement i från matrisen s 2 e (X T X) 1 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25
Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ŷ = Xb = X(X T X) 1 X T Y Skattad varians för b i, dvs s 2 b i, är diagonalelement i från matrisen s 2 e (X T X) 1 Variansen för det predikterade värdet Ŷ0, skattas med s 2 Ŷ 0 = s 2 e X T 0 (XT X) 1 X 0 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25
Kollinearitet Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 24 / 25
Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25
Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25
Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25
Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ta bort den som har störst P-värde Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25
Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ta bort den som har störst P-värde Gör en ny regressionsanalys Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25
Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ta bort den som har störst P-värde Gör en ny regressionsanalys Upprepa tills alla variabler är signifikant skilda från 0 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25