Matematisk statistik, Föreläsning 5

Relevanta dokument
LABORATION 3 - Regressionsanalys

tentaplugg.nu av studenter för studenter

LABORATION 3 - Regressionsanalys

Tentamen i Matematisk statistik Kurskod S0001M

tentaplugg.nu av studenter för studenter

Föreläsning 12: Linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

TVM-Matematik Adam Jonsson

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen för kursen. Linjära statistiska modeller. 13 januari

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Matematisk statistik för D, I, Π och Fysiker

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Lycka till!

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 12: Regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 15, FMSF45 Multipel linjär regression

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Finansiell statistik. Multipel regression. 4 maj 2011

Regressions- och Tidsserieanalys - F1

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen i Matematisk statistik Kurskod S0001M

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Studiehandledning S0001M Matematisk statistik Läsperiod 2, HT 2017

Metod och teori. Statistik för naturvetare Umeå universitet

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F1

Matematisk statistik för B, K, N, BME och Kemister

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Tentamen i Matematisk statistik Kurskod S0001M

Statistik B Regressions- och tidsserieanalys Föreläsning 1

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Studiehandledning S0001M Matematisk statistik Läsperiod 2, Ht 2013

Föreläsning 13: Multipel Regression

Statistisk försöksplanering

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Tentamen i Matematisk statistik Kurskod S0001M

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Studiehandledning S0001M Matematisk statistik Läsperiod 4, VT 2017

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Enkel och multipel linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

MVE051/MSG Föreläsning 14

Tentamen i Matematisk statistik Kurskod S0001M

AMatematiska institutionen avd matematisk statistik

Regressions- och Tidsserieanalys - F4

oberoende av varandra så observationerna är

F13 Regression och problemlösning

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Grundläggande matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 4 R-versionen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Statistisk försöksplanering

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Multipel Regressionsmodellen

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Transkript:

Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25

Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 2 / 25

Laboration 4 Jobba i grupper med storlek 2 Ingen KGB! Lektionsläraren rättar labrapporten. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 2 / 25

Laboration 4 Jobba i grupper med storlek 2 Ingen KGB! Lektionsläraren rättar labrapporten. För att få bonuspoäng från KGB ska alla laborationer vara godkända senast en vecka efter tentamen. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 2 / 25

Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25

Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Webbuppgift 4 stängs 9 januari, kl 13.00. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25

Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Webbuppgift 4 stängs 9 januari, kl 13.00. Repetitionsuppgifter i MapleTA. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25

Examination För godkänt på tentamen, krävs att alla fyra deltentamina på webben är godkända, samt godkänt på del 1 av den skriftliga tentamen. Webbuppgift 4 stängs 9 januari, kl 13.00. Repetitionsuppgifter i MapleTA. Gamla tentor finns i Fronter. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 3 / 25

Examination Tentamen går 13 januari Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25

Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25

Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Räknedosa, Kursboken Vännman: Matematisk statistik, Kursmaterialet Vännman: Regressionsanalys, Kursmaterialet Några ofta förekommande fördelningar, Tabeller Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25

Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Räknedosa, Kursboken Vännman: Matematisk statistik, Kursmaterialet Vännman: Regressionsanalys, Kursmaterialet Några ofta förekommande fördelningar, Tabeller Del 1 Endast svar bedöms. Godkänt med betyg 3 är 17 eller bättre av 25 möjliga poäng. Bonuspoäng från KGB räknas här. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25

Examination Tentamen går 13 januari Tillåtna hjälpmedel på tentamen Räknedosa, Kursboken Vännman: Matematisk statistik, Kursmaterialet Vännman: Regressionsanalys, Kursmaterialet Några ofta förekommande fördelningar, Tabeller Del 1 Endast svar bedöms. Godkänt med betyg 3 är 17 eller bättre av 25 möjliga poäng. Bonuspoäng från KGB räknas här. Del 2 Frivillig! Fullständiga lösningar ges. Om de är tillräckligt bra kan man få betyg 4 eller 5, men bara om del 1 är godkänd. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 4 / 25

Multipel linjär regressionsanalys Regressionsanalys där två eller flera förklarande X -variabler används. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 5 / 25

Multipel linjär regressionsanalys Regressionsanalys där två eller flera förklarande X -variabler används. De flesta begreppen från enkel linjär regression (med en förklarande X -variabel) kan enkelt generaliseras. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 5 / 25

Exempel 2. Oktanhalt, sid 20 I ett planerat försök ville man studera hur tillsatser av etanol och tetraetylbly i bensin påverkar oktantalet. Försöket gjordes så att man bestämde fyra olika intressanta värden, s k nivåer, på var och en av variablerna etanol och tetraetylbly. För varje kombination av dessa nivåer mättes därefter oktantalet. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 6 / 25

Exempel 2. Oktanhalt, sid 20 I ett planerat försök ville man studera hur tillsatser av etanol och tetraetylbly i bensin påverkar oktantalet. Försöket gjordes så att man bestämde fyra olika intressanta värden, s k nivåer, på var och en av variablerna etanol och tetraetylbly. För varje kombination av dessa nivåer mättes därefter oktantalet. Tabell Oktantalet i bensin vid olika nivåer av variablerna etanol och tetraetylbly (kodade enheter). Etanol Tetraetylbly Oktantal Etanol Tetraetylbly Oktantal 2 2 96.3 4 2 96.2 2 3 95.7 4 3 100.1 2 4 99.9 4 4 103.3 2 5 99.4 4 5 104.3 3 2 95.1 5 2 97.8 3 3 97.8 5 3 102.2 3 4 99.3 5 4 104.7 3 5 104.9 5 5 108.8 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 6 / 25

Exempel 2. Oktanhalt, sid 20 I ett planerat försök ville man studera hur tillsatser av etanol och tetraetylbly i bensin påverkar oktantalet. Försöket gjordes så att man bestämde fyra olika intressanta värden, s k nivåer, på var och en av variablerna etanol och tetraetylbly. För varje kombination av dessa nivåer mättes därefter oktantalet. Tabell Oktantalet i bensin vid olika nivåer av variablerna etanol och tetraetylbly (kodade enheter). Etanol Tetraetylbly Oktantal Etanol Tetraetylbly Oktantal 2 2 96.3 4 2 96.2 2 3 95.7 4 3 100.1 2 4 99.9 4 4 103.3 2 5 99.4 4 5 104.3 3 2 95.1 5 2 97.8 3 3 97.8 5 3 102.2 3 4 99.3 5 4 104.7 3 5 104.9 5 5 108.8 Skatta en modell som beskriver hur etanol och tetraetylbly påverkar oktantalet. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 6 / 25

Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25

Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25

Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25

Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Y = oktantalet, X 1 = etanol, X 2 = tetraetylbly Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25

Modellantaganden Modellantaganden, Exempel 2 Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i, där ε i N(0, σ), i = 1, 2,..., n, ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Y = oktantalet, X 1 = etanol, X 2 = tetraetylbly 2 X 1 5, 2 X 2 5 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 7 / 25

Den skattade modellen sett som ett plan Ŷ = 84.5 + 1.8 X 1 + 2.7 X 2 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 8 / 25

Variansanalystabell 34567#>6=#9;#?8>6::6= @A7B:979>6#;97<95<8=6= #!"#$"%$&'( )#$*+%,-#".+#( /0)1( ( :+-#+,,$&'( ( :+,$.4"8( ( ;&%"8( # K#$#%#&#!# # n#$#k#&#%,# # n#$#%#&#%+# 23".#"%,455"( /661( n '! ( Yi Y)!%%*+, i % # n '! ( Yi Yi)!+*,% i % # n! ( Yi Y)!,/*12 i % # 7+.+893".#"%,455"( /761( n '! ( Yi Y) -( K %) %.+*"/ i % # n '! ( Yi Yi) -( n K) %*0+ i % # # K(<("'%"8(#+-#+,,$&',="#"5+%#"#($(5&.+88+'(<(>(( # # #! '! '! 34567#5859:# n n n ( Y Y) ( Y Y) ( Y Y) i i i i i % i % i % C4::67#;<> 3<=D59EB;9>795?658>6= ;97<95<8= # 34567#8FA7B:979># ;97<95<8= " Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 9 / 25

Residualspridning Skattade variansen för residualen ges av s 2 e = residualkvadratsumman n K = 1 n K n ( ) 2 Yi Ŷ i i=1 där K är antal skattade parametrar i modellen. (K = 3 i vårt exempel) Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 10 / 25

Residualspridning Skattade variansen för residualen ges av s 2 e = residualkvadratsumman n K = 1 n K n ( ) 2 Yi Ŷ i i=1 där K är antal skattade parametrar i modellen. (K = 3 i vårt exempel) Residualspridning Residualspridningen ges av s e = s 2 e Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 10 / 25

Residualspridning Skattade variansen för residualen ges av s 2 e = residualkvadratsumman n K = 1 n K n ( ) 2 Yi Ŷ i i=1 där K är antal skattade parametrar i modellen. (K = 3 i vårt exempel) Residualspridning Residualspridningen ges av s e = s 2 e Residualspridningen är en skattning av standardavvikelsen för ε i, dvs σ. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 10 / 25

Justerad förklaringsgrad Den justerade förklaringsgraden R 2 a ges av eller alternativt R 2 a = 1 residualkvadratsumman/(n K) totala kvadratsumman/(n 1) R 2 a = 1 ( 1 R 2) n 1 n K där K är antal skattade regressionsparametrar och R 2 är den vanliga förklaringsgraden. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 11 / 25

Justerad förklaringsgrad Den justerade förklaringsgraden R 2 a ges av eller alternativt R 2 a = 1 residualkvadratsumman/(n K) totala kvadratsumman/(n 1) R 2 a = 1 ( 1 R 2) n 1 n K där K är antal skattade regressionsparametrar och R 2 är den vanliga förklaringsgraden. Bra till...... att bedöma om en modell blir bättre när en förklarande variabel läggs till eller tas bort. Om R 2 a växer är det tecken på att det var rätt att lägga till/ta bort den förklarande variabeln. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 11 / 25

Justerad förklaringsgrad Den justerade förklaringsgraden R 2 a ges av eller alternativt R 2 a = 1 residualkvadratsumman/(n K) totala kvadratsumman/(n 1) R 2 a = 1 ( 1 R 2) n 1 n K där K är antal skattade regressionsparametrar och R 2 är den vanliga förklaringsgraden. Bra till...... att bedöma om en modell blir bättre när en förklarande variabel läggs till eller tas bort. Om R 2 a växer är det tecken på att det var rätt att lägga till/ta bort den förklarande variabeln. Den vanliga förklaringsgraden R 2 växer alltid när nya förklarande variabler läggs till. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 11 / 25

Enbart bly som förklarande variabel Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 12 / 25

Enbart etanol som förklarande variabel Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 13 / 25

Ska X 1 ingå i modellen? Hypotesprövning H 0 : β 1 = 0 H 1 : β 1 0 Signifikansnivå α Testvariabel: T = t-kvot = b 1 s b1 Beslutsstrategi: förkasta nollhypotesen på signifikansnivån α om t-kvot > tα/2 (n K) där K är antalet regressionsparametrar. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 14 / 25

Ska X 1 ingå i modellen? Hypotesprövning H 0 : β 1 = 0 H 1 : β 1 0 Signifikansnivå α Testvariabel: T = t-kvot = b 1 s b1 Beslutsstrategi: förkasta nollhypotesen på signifikansnivån α om t-kvot > tα/2 (n K) där K är antalet regressionsparametrar. Alternativ beslutsstrategi: Direktmetoden Om P-värdet i Minitab, som hör till b 1, är lägre än önskad signifikansnivå α kan H 0 förkastas. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 14 / 25

Konfidensintervall för β 1 Vi kan använda det vi känner till om fördelningen för b 1 till att bestämma ett konfidensintervall för β 1. Metoden är analog med det vi gjort tidigare i kursen, och ger intervallet b 1 ± t α/2 (n K) s b1 där K är antalet regressionsparametrar. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 15 / 25

Konfidensintervall för β 1 Vi kan använda det vi känner till om fördelningen för b 1 till att bestämma ett konfidensintervall för β 1. Metoden är analog med det vi gjort tidigare i kursen, och ger intervallet b 1 ± t α/2 (n K) s b1 där K är antalet regressionsparametrar. Detta intervall innehåller β 1 med konfidensgrad 1 α. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 15 / 25

Konfidensintervall, tolkning Konfidensintervall för β 1 : [0.8, 2.8], konfidensgrad 99% Tolkning med 99% säkerhet För fixt värde på tetraetylbly, så ökar oktantalet i genomsnitt mellan 0.8 och 2.8 enheter om etanolvariabeln ökar med en kodad enhet. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 16 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Om molnet har en kurvform är modellen med ett plan förmodligen fel. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Om molnet har en kurvform är modellen med ett plan förmodligen fel. Om några enstaka residualer är väldigt stora och hela molnet lutar lite grand, kan man misstänka att det finns uteliggare. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Undersökning av modellantagandena Vi validerar modellantagandet genom att undersöka residualen e i som är en skattning till observationer på ε i : Normalfördelningsplot på e i för att verifiera normalfördelningen Plotta residualen mot alla förklarande variabler X 1i, X 2i,... och mot Ŷ i. För var och en av dess plottar, undersök: I idealfallet ligger residualerna som ett jämntjockt moln runt x-axeln. Om molnet är strutformat, eller att bredden varierar på något annat sätt, kan man misstänka att σ inte är konstant för alla i. Om molnet har en kurvform är modellen med ett plan förmodligen fel. Om några enstaka residualer är väldigt stora och hela molnet lutar lite grand, kan man misstänka att det finns uteliggare. För att upptäcka uteliggare kan det vara en god idé att undersöka de standardiserade (studentiserade) residualerna, som är en omskalad version av residualerna. Om en sådan ligger utanför intevallet [ 2, 2] kan man misstänka att det är en uteliggare. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 17 / 25

Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25

Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Om h i > 2 K/n anses observation nr i vara inflytelserik. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25

Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Om h i > 2 K/n anses observation nr i vara inflytelserik. K är antalet regressionsparameterar. Då K = 3 och n = 16 är h i > 2 K/n = 0.375 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25

Leverage, h i Mått på inflytelserika punkter h i = i:te diagonalelementet i hattmatrisen H = X(X T X) 1 X T Om h i > 2 K/n anses observation nr i vara inflytelserik. K är antalet regressionsparameterar. Då K = 3 och n = 16 är h i > 2 K/n = 0.375 I Minitab anges en observation som unususal om h i > 3 K/n. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 18 / 25

DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25

DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25

DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25

DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25

DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Observation nr i är inflytelserik om DFITS i > 2 K/n. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25

DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Observation nr i är inflytelserik om DFITS i > 2 K/n. K är antalet regressionsparameterar. Då K = 3 och n = 16 är 2 K/n = 0.87 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25

DFITS Mått på inflytelserika punkter DFITS i = Ŷ i Ŷ(i)i s e(i) hi DFITS i är ett mått på ändringen i Ŷ i om i:te observationen utesluts. Ŷ (i)i är y-värdet i X i på regressionslinjen som erhålls då observation i utesluts. s e(i) hi är en skattning av spridningen för Ŷ i. Observation nr i är inflytelserik om DFITS i > 2 K/n. K är antalet regressionsparameterar. Då K = 3 och n = 16 är 2 K/n = 0.87 En tumregel är också att observation nr i är inflytelserik om DFITS i > 1. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 19 / 25

Konfidensintervall för E(Y 0 ) Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 20 / 25

Konfidensintervall för E(Y 0 ) Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för E(Y 0 ) = β 0 + β 1 X 1,0 + β 2 X 2,0 med Ŷ 0 ± t α/2 (n K) sŷ0 där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 20 / 25

Konfidensintervall för E(Y 0 ) Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för E(Y 0 ) = β 0 + β 1 X 1,0 + β 2 X 2,0 med Ŷ 0 ± t α/2 (n K) sŷ0 där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3. Detta intervall innehåller E(Y 0 ) = β 0 + β 1 X 1,0 + β 2 X 2,0 med konfidensgrad 1 α. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 20 / 25

Prognosintervall för Y 0 Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 21 / 25

Prognosintervall för Y 0 Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för en ny observation i Y 0 i (X 1,0, X 2,0 ) med Ŷ 0 ± t α/2 (n K) s pr där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3, och s 2 pr = s 2 e + s 2 Ŷ 0. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 21 / 25

Prognosintervall för Y 0 Vi betraktar en punkt (X 1,0, X 2,0 ) som ej (nödvändigtvis) finns i datamängden (X 1,i, X 2,i ). Minsta-kvadratskattningen ger värdet i den punkten enligt Ŷ0 = b 0 + b 1 X 1,0 + b 2 X 2,0. Vi uttrycker då ett konfidensintervallet för en ny observation i Y 0 i (X 1,0, X 2,0 ) med Ŷ 0 ± t α/2 (n K) s pr där K är antalet regressionsparametrar, i detta fall är uppenbarligen K = 3, och s 2 pr = s 2 e + s 2 Ŷ 0. Detta intervall innehåller Y 0 med konfidensgrad 1 α. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 21 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y = Xβ + ε Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n Y = Xβ + ε Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n X = Y = Xβ + ε 1 X 11... X K 1,1... 1 X 1n... X K 1,n Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n X = Y = Xβ + ε 1 X 11... X K 1,1... 1 X 1n... X K 1,n β = β 0. β K 1 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Multipel regression Stokastisk modell Y i = β 0 + β 1 X 1i + β 2 X 2i + + β K 1 X K 1,i + ε i där ε i N(0, σ), i = 1, 2,..., n ε 1, ε 2,..., ε n är oberoende stokastiska variabler. Modellen kan uttryckas i matrisform: där Y 1 Y =. Y n X = Y = Xβ + ε 1 X 11... X K 1,1... 1 X 1n... X K 1,n β = β 0. β K 1 ε 1 ε =. ε n Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 22 / 25

Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25

Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ŷ = Xb = X(X T X) 1 X T Y Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25

Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ŷ = Xb = X(X T X) 1 X T Y Skattad varians för b i, dvs s 2 b i, är diagonalelement i från matrisen s 2 e (X T X) 1 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25

Minsta-kvadratmetodens skattningar b = (X T X) 1 X T Y Ŷ = Xb = X(X T X) 1 X T Y Skattad varians för b i, dvs s 2 b i, är diagonalelement i från matrisen s 2 e (X T X) 1 Variansen för det predikterade värdet Ŷ0, skattas med s 2 Ŷ 0 = s 2 e X T 0 (XT X) 1 X 0 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 23 / 25

Kollinearitet Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 24 / 25

Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25

Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25

Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25

Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ta bort den som har störst P-värde Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25

Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ta bort den som har störst P-värde Gör en ny regressionsanalys Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25

Hur hitta en rimlig modell om man har många X -variabler Gör en multipel regression med alla X-variablerna samtidigt i modellen Undersök om alla X-variablerna är signifikant skilda från 0 för givet α Ta bort icke-signifikanta X-variabler, en i taget Ta bort den som har störst P-värde Gör en ny regressionsanalys Upprepa tills alla variabler är signifikant skilda från 0 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 25 / 25