Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Relevanta dokument
Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F4

10.1 Enkel linjär regression

Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Exempel 1 på multipelregression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Regressions- och Tidsserieanalys - F3

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Laboration 2 multipel linjär regression

Exempel 1 på multipelregression

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Examinationsuppgifter del 2

TENTAMEN I STATISTIK B,

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Skrivning i ekonometri lördagen den 29 mars 2008

Föreläsning 4. Kap 5,1-5,3

TENTAMEN I MATEMATISK STATISTIK

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Skrivning i ekonometri torsdagen den 8 februari 2007

Kvadratisk regression, forts.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Skrivning i ekonometri lördagen den 15 januari 2005

Föreläsning G60 Statistiska metoder

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Skrivning i ekonometri lördagen den 25 augusti 2007

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Tentamen i matematisk statistik

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

7.5 Experiment with a single factor having more than two levels

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

tentaplugg.nu av studenter för studenter

Tentamen i matematisk statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Datorövning 2 Multipel regressionsanalys, del 1

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Följande resultat erhålls (enhet: 1000psi):

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Regressions- och Tidsserieanalys - F5

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen Tillämpad statistik A5 (15hp)

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Datorövning 1 Enkel linjär regressionsanalys

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Räkneövning 3 Variansanalys

Tentamen Tillämpad statistik A5 (15hp)

LABORATION 3 - Regressionsanalys

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

F11. Kvantitativa prognostekniker

F13 Regression och problemlösning

Tentamen i Matematisk statistik Kurskod S0001M

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen i matematisk statistik

tentaplugg.nu av studenter för studenter

Tentamen i matematisk statistik

7.5 Experiment with a single factor having more than two levels

Tentamen i Matematisk statistik Kurskod S0001M

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Tentamen i Matematisk statistik Kurskod S0001M

LABORATION 3 - Regressionsanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Transkript:

Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1

Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest för hela regressionsmodellen förklaringsgraden, R p-värden för de individuella variablerna eller t-kvoter Residualanalys, för att avgöra om regressionsantagandena är uppfyllda

Visuell bedömning: Regression Plot Hyra = 70.93 + 60.539 Kv-meter S = 55.51 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 8000 7000 6000 Hyra 5000 4000 3000 000 30 40 50 60 70 80 Kv-meter 90 100 110 10 3

Hur bra är modellen som vi har anpassat? The regression equation is Hyra = 71 + 60.5 Kv-meter enskilda p-värden Predictor Coef SE Coef T P Constant 70.9 370. 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 55.5 R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance R och justerad R Source DF SS MS F P Regression 1 310093 310093 11.6 0.000 Residual Error 19 547087 7616 Total 0 3650010 F-test och dess p-värde Residualanalys kan också göras i MINITAB 4

Vi har redan räknat med ett mått för den oförklarade variationen: Residualkvadratsumman, som också ofta betecknas med SSE (Sum of Squared Errors). SSE n y i b0 b1 x i i1 Ett mått på den totala variationen är också ganska enkelt att ta fram: variationen i responsvariabeln, SS yy, som i regressionssammanhang ofta kallas för SST (Totalkvadratsumman). SST n y i y i1 5

För att göra kvadratsummeuppdelningen komplett kan vi beräkna SSR (Sum of Squares Regression), den förklarade variationen. SSR = SST - SSE eller SST = SSR + SSE 6

Förklaringsgrad och korrelationskoefficient Förklaringsgraden betecknas R R SSR SST Ju högre förklaringsgrad, desto bättre lyckas vår skattade modell förklara variationen i data Modellen kan anses vara bra. I vårt exempel blev R =0, 855, dvs. att 85.5% av all variation i y kan förklaras med hjälp av modellen. 7

Utvikning: Kom ihåg korrelationskoefficienten r x i x yi y x x y y i SSxy SS SSxx yy i som mäter det linjära sambandet mellan x och y. I motsats till regressionsmodellen finns det i korrelationskoefficienten ingen kausalitet: regressionsmodellen: x påverkar y, men inte tvärtom korrelationskoefficienten: x och y hänger ihop 8

Korrelationskoefficienten ligger alltid mellan 1 och 1. Om den är = 1 eller = 1 säger man att det råder ett perfekt linjärt samband mellan y och x. Om r = 0 finns inget linjärt samband mellan y och x. (Det kan dock finnas andra samband, t.ex. kvadratiska) I vårt fall blir korrelationskoefficienten r=0.95 Observera att r =(0.95) =0.8556R Men detta gäller bara i fallet med en förklaringsvariabel, inte om vi inkluderar fler oberoende variabler i modellen. 9

F-test: F SSR SSE MSR n MSE MSE har vi träffat på förut, men då kallade vi den för. I MINITAB-utskriften kan vi hitta både MSE och s. Om vi bara har en förklarande variabel, så är SSR/1=MSR. Värdet på F-testet ska jämföras med F-fördelningen med 1 och (n- ) frihetsgrader I vårt fall: F 310093 547087 1 11.6 s Ur tabellen: F 0.05,1,19 4.38 signifikant 10

The regression equation is Hyra = 71 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 70.9 370. 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 55.5 R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance Source DF SS MS F P SSR Regression 1 310093 310093 11.6 0.000 SSE Residual Error 19 547087 7616 Total 0 3650010 SSE n MSE s SST MSE s MSR e s MSE F-test 11

Kap 4,1-4,5: Multipel linjär regression y 0 1 x 1 x k x k I stället för en förklarande variabel kan vi inkludera flera. Vi får dock tänka på att inte inkludera sådana variabler som inte har någon eller som bara har marginell betydelse för responsvariabeln. Återigen inkluderas en felterm i modellen, som står för den del i variationen av y som inte kan förklaras genom modellen. Feltermen har medelvärde 0 och varians s och är normalfördelad och varje är oberoende av de andra. 1

t-test och konfidensintervall för de enskilda parametrarna ( 1,,..., k ) i modellen beräknas i princip på samma sätt som förut. Men nu använder man en t-fördelning med n-k-1 frihetsgrader. F-test korrigeras lite genom att inkludera k (antal förklarande variabler i modellen): F SSR SSE k MSR n k 1 MSE Observera att formeln är den samma som förut om man sätter k=1. Förklaringsgrad beräknas fortfarande: R SSR SST 13

14 Kvadratsummeuppdelningen gäller också: SST = SSR + SSE SST, SSR beräknas som förut, och även SSE beräknas som förut: n i i i n i ki k i i i y y x b x b x b b y SSE 1 1 1 1 0 ˆ b k x k x b x b b y 1 1 0 ˆ eftersom: Observera att alla sådana beräkningar görs för varje observation, även om index i inte alltid är med I formlerna.

Konfidensintervall för punktskattningen och prognosintervall for punktprognosen beräknas i princip på samma sätt Konfidensintervall yˆ ( nk 1) t / s "Distance value" 0 Prognosintervall yˆ ( nk 1) t / s 1 "Distance value" 0 Men Distance value kan inte beräknas lika enkelt som i fallet med en förklarande variabel. Däremot kan man ta den rätt enkelt från datorutskriften (senare). 15

Exempel: Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA Column Name Count Description Modell Översättning C1 Price 150 Price y pris C Area 150 Area in square feet x1 bostadsyta C3 Acres 150 Acres x tomtyta C4 Rooms 150 Number of rooms x3 antal rum C5 Baths 150 Number of baths x4 antal badrum Källa: MTBWIN /Student1/HOMES.MTW 16

Pris mot bostadsyta Spridningsdiagram = Scatterplot 300000 Price 00000 100000 500 1500 Area 500 3500 17

Pris mot tomtyta 300000 Price 00000 100000 0 10 Acres 0 18

Pris mot antal rum 300000 Price 00000 100000 3 8 Rooms 13 19

Pris mot antal badrum 300000 Price 00000 100000 1 Baths 3 4 0

Vi börjar med en modell som inte inkluderar alla förklarande variabler, men bara de som verkar viktigast: bostadsyta och antal rum. MINITAB 1

Regression Analysis: Price versus Area, Rooms The regression equation is Price = 641 + 49.7 Area - 141 Rooms yˆ 641 497. x1 141 x 3 Predictor Coef SE Coef T P Constant 641 1766 5.03 0.000 Area 49.673 7.507 6.6 0.000 Rooms -141 934-0.05 0.96 Signifikanstest för t.ex. 1: t b 1 49.673 1 s b 7.507 sb är den skattade standardavvikelsen av b 1 1 6.6169 Vi jämför t med t-fördelningen med n-k-1=150--1 frihetsgrader.

t-fördelning med 147 frihetsgrader För ett dubbelsidig test är p-värdet sannolikheten att få ett värde t eller ännu större eller ett värde t eller ännu mindre. -6.6 t=6.6 3

Regression Analysis: Price versus Area, Rooms The regression equation is Price = 641 + 49.7 Area - 141 Rooms Predictor Coef SE Coef T P Constant 641 1766 5.03 0.000 Area 49.673 7.507 6.6 0.000 Rooms -141 934-0.05 0.96 inte signifikant 4

s MSE R SSR SST S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 1.573E+11 663668991 69.38 0.000 Residual Error 147 1.3715E+11 9084574 Total 149.57989E+11 F SSR SSE k MSR n k 1 MSE F-testet är signifikant 5

Vad står F-testet för i detta fall? F-testet testar om den linjära regressionsmodellen är signifkant eller inte. Om vi har flera förklarande variabler, då testar vi om H 0 : alla parametrar 1,,..., k är lika med 0 H 1 : minst en av parametrarna 1,,..., k är inte 0 Om vi kan förkasta denna noll-hypotes så använder vi t-testet för var och en av de enskilda parametrarna. 6

7 Vad är R-sq(adj) då? Justerad R : 1 1 1 k n n n k R R Det vanliga R -värdet ökar alltid när man lägger till fler förklarande variabler. Men det gör nödvändigtvis inte justerade R -värdet

Kap 4,6: Punktskattning och punktprognos Nu vill vi göra en prognos för priset på en fastighet med bostadsytan: 3000 ft och antal rum: 6, och ett 95% prediktionsintervall i MINITAB 8

Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6.00 yˆ (147) t0.05 s 1 "Distance value" 0 Prediktionsintervall 9

Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6.00 yˆ (147) t0.05 s "Distance value" 0 Konfidensintervall för det genomsnittliga priset på fastigheter med 3000 ft och 6 rum. 30

Distance value kan, som sagt, inte enkelt beräknas från datamaterialet om vi har fler än en förklarande variabel. Men den kan beräknas ur New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX ˆy 0 SE yˆ 0 s "Distance value" SE Fit är standardavvikelsen för punktskattningen ŷ 0 31

Får vi någon ytterligare information från prognosen? Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Varning för att den typ av fastighet vi valt har extrema värden på x. Vi kan endast göra tillförlitliga prognoser på fastigheter där vi har liknande fastigheter med i ursprungliga datamaterialet. 3

Om vi t.ex bara har bostadsytan som förklarande variabel: Prediktioner utanför området där vi har observationer är inte tillförlitliga Regression Plot Price = 63745. + 49.3747 Area S = 9945.6 R-Sq = 48.6 % R-Sq(adj) = 48. % 300000 Price 00000 100000 Regression 95% CI 500 1500 Area 500 3500 33

Pris mot bostadsyta 300000 Price 00000 100000 500 1500 Area 500 3500 Få observation med bostadsyta 3000 ft eller större, men ändå väl inom området där vi har observation 34

Pris mot antal rum 300000 Price 00000 100000 3 8 Rooms 13 35

Vad är då problemet? pris area rooms 117000 1008 6 Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 ft. Det är alltså kombinationen 3000 ft och 6 rum som är extrem och vi måste fundera över om det är rimligt att anta att modellen är giltig även för denna typ av fastighet. 108000 1036 6 16500 109 6 133000 1100 6 116000 1100 6 98000 1165 6 19000 100 6 16000 13 6 117000 148 6 110000 189 6 117500 1300 6 11900 1300 6 100000 1338 6 18500 1344 6 135000 1400 6 140000 1403 6 15000 1450 6 110000 1450 6 14500 155 6 150000 1564 6 10500 1600 6 141900 163 6 145900 1680 6 144900 1900 6 36

Kap 5, 5,3: Residualanalys För att kunna ta resultaten av regressionsanalysen på allvar, måste vi undersöka om regressionsantagandena är uppfyllda. Har residualerna en konstant varians? Är residualerna normalfördelade? Är residualerna oberoende? Är alla samband linjära? Saknas någon förklarande variabel? 37

Har residualerna en konstant varians? Plotta residualerna mot anpassade värden (residuals vs fits) Är residualerna normalfördelade? Histogram av residualerna Normalfördelningsplot av residualerna (Normal probability plot) Är residualerna oberoende? Plotta residualerna i observationsordning (residuals vs order). Är alla samband linjära? Plotta residualerna mot enskilda förklarande variabler (Residuals vs the variables) 38

39