Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1

Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest för hela regressionsmodellen förklaringsgraden, R p-värden för de individuella variablerna eller t-kvoter Residualanalys, för att avgöra om regressionsantagandena är uppfyllda

Visuell bedömning: Regression Plot Hyra = 70.93 + 60.539 Kv-meter S = 55.51 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 8000 7000 6000 Hyra 5000 4000 3000 000 30 40 50 60 70 80 Kv-meter 90 100 110 10 3

Hur bra är modellen som vi har anpassat? The regression equation is Hyra = 71 + 60.5 Kv-meter enskilda p-värden Predictor Coef SE Coef T P Constant 70.9 370. 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 55.5 R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance R och justerad R Source DF SS MS F P Regression 1 310093 310093 11.6 0.000 Residual Error 19 547087 7616 Total 0 3650010 F-test och dess p-värde Residualanalys kan också göras i MINITAB 4

Vi har redan räknat med ett mått för den oförklarade variationen: Residualkvadratsumman, som också ofta betecknas med SSE (Sum of Squared Errors). SSE n y i b0 b1 x i i1 Ett mått på den totala variationen är också ganska enkelt att ta fram: variationen i responsvariabeln, SS yy, som i regressionssammanhang ofta kallas för SST (Totalkvadratsumman). SST n y i y i1 5

För att göra kvadratsummeuppdelningen komplett kan vi beräkna SSR (Sum of Squares Regression), den förklarade variationen. SSR = SST - SSE eller SST = SSR + SSE 6

Förklaringsgrad och korrelationskoefficient Förklaringsgraden betecknas R R SSR SST Ju högre förklaringsgrad, desto bättre lyckas vår skattade modell förklara variationen i data Modellen kan anses vara bra. I vårt exempel blev R =0, 855, dvs. att 85.5% av all variation i y kan förklaras med hjälp av modellen. 7

Utvikning: Kom ihåg korrelationskoefficienten r x i x yi y x x y y i SSxy SS SSxx yy i som mäter det linjära sambandet mellan x och y. I motsats till regressionsmodellen finns det i korrelationskoefficienten ingen kausalitet: regressionsmodellen: x påverkar y, men inte tvärtom korrelationskoefficienten: x och y hänger ihop 8

Korrelationskoefficienten ligger alltid mellan 1 och 1. Om den är = 1 eller = 1 säger man att det råder ett perfekt linjärt samband mellan y och x. Om r = 0 finns inget linjärt samband mellan y och x. (Det kan dock finnas andra samband, t.ex. kvadratiska) I vårt fall blir korrelationskoefficienten r=0.95 Observera att r =(0.95) =0.8556R Men detta gäller bara i fallet med en förklaringsvariabel, inte om vi inkluderar fler oberoende variabler i modellen. 9

F-test: F SSR SSE MSR n MSE MSE har vi träffat på förut, men då kallade vi den för. I MINITAB-utskriften kan vi hitta både MSE och s. Om vi bara har en förklarande variabel, så är SSR/1=MSR. Värdet på F-testet ska jämföras med F-fördelningen med 1 och (n- ) frihetsgrader I vårt fall: F 310093 547087 1 11.6 s Ur tabellen: F 0.05,1,19 4.38 signifikant 10

The regression equation is Hyra = 71 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 70.9 370. 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 55.5 R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance Source DF SS MS F P SSR Regression 1 310093 310093 11.6 0.000 SSE Residual Error 19 547087 7616 Total 0 3650010 SSE n MSE s SST MSE s MSR e s MSE F-test 11

Kap 4,1-4,5: Multipel linjär regression y 0 1 x 1 x k x k I stället för en förklarande variabel kan vi inkludera flera. Vi får dock tänka på att inte inkludera sådana variabler som inte har någon eller som bara har marginell betydelse för responsvariabeln. Återigen inkluderas en felterm i modellen, som står för den del i variationen av y som inte kan förklaras genom modellen. Feltermen har medelvärde 0 och varians s och är normalfördelad och varje är oberoende av de andra. 1

t-test och konfidensintervall för de enskilda parametrarna ( 1,,..., k ) i modellen beräknas i princip på samma sätt som förut. Men nu använder man en t-fördelning med n-k-1 frihetsgrader. F-test korrigeras lite genom att inkludera k (antal förklarande variabler i modellen): F SSR SSE k MSR n k 1 MSE Observera att formeln är den samma som förut om man sätter k=1. Förklaringsgrad beräknas fortfarande: R SSR SST 13

14 Kvadratsummeuppdelningen gäller också: SST = SSR + SSE SST, SSR beräknas som förut, och även SSE beräknas som förut: n i i i n i ki k i i i y y x b x b x b b y SSE 1 1 1 1 0 ˆ b k x k x b x b b y 1 1 0 ˆ eftersom: Observera att alla sådana beräkningar görs för varje observation, även om index i inte alltid är med I formlerna.

Konfidensintervall för punktskattningen och prognosintervall for punktprognosen beräknas i princip på samma sätt Konfidensintervall yˆ ( nk 1) t / s "Distance value" 0 Prognosintervall yˆ ( nk 1) t / s 1 "Distance value" 0 Men Distance value kan inte beräknas lika enkelt som i fallet med en förklarande variabel. Däremot kan man ta den rätt enkelt från datorutskriften (senare). 15

Exempel: Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA Column Name Count Description Modell Översättning C1 Price 150 Price y pris C Area 150 Area in square feet x1 bostadsyta C3 Acres 150 Acres x tomtyta C4 Rooms 150 Number of rooms x3 antal rum C5 Baths 150 Number of baths x4 antal badrum Källa: MTBWIN /Student1/HOMES.MTW 16

Pris mot bostadsyta Spridningsdiagram = Scatterplot 300000 Price 00000 100000 500 1500 Area 500 3500 17

Pris mot tomtyta 300000 Price 00000 100000 0 10 Acres 0 18

Pris mot antal rum 300000 Price 00000 100000 3 8 Rooms 13 19

Pris mot antal badrum 300000 Price 00000 100000 1 Baths 3 4 0

Vi börjar med en modell som inte inkluderar alla förklarande variabler, men bara de som verkar viktigast: bostadsyta och antal rum. MINITAB 1

Regression Analysis: Price versus Area, Rooms The regression equation is Price = 641 + 49.7 Area - 141 Rooms yˆ 641 497. x1 141 x 3 Predictor Coef SE Coef T P Constant 641 1766 5.03 0.000 Area 49.673 7.507 6.6 0.000 Rooms -141 934-0.05 0.96 Signifikanstest för t.ex. 1: t b 1 49.673 1 s b 7.507 sb är den skattade standardavvikelsen av b 1 1 6.6169 Vi jämför t med t-fördelningen med n-k-1=150--1 frihetsgrader.

t-fördelning med 147 frihetsgrader För ett dubbelsidig test är p-värdet sannolikheten att få ett värde t eller ännu större eller ett värde t eller ännu mindre. -6.6 t=6.6 3

Regression Analysis: Price versus Area, Rooms The regression equation is Price = 641 + 49.7 Area - 141 Rooms Predictor Coef SE Coef T P Constant 641 1766 5.03 0.000 Area 49.673 7.507 6.6 0.000 Rooms -141 934-0.05 0.96 inte signifikant 4

s MSE R SSR SST S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 1.573E+11 663668991 69.38 0.000 Residual Error 147 1.3715E+11 9084574 Total 149.57989E+11 F SSR SSE k MSR n k 1 MSE F-testet är signifikant 5

Vad står F-testet för i detta fall? F-testet testar om den linjära regressionsmodellen är signifkant eller inte. Om vi har flera förklarande variabler, då testar vi om H 0 : alla parametrar 1,,..., k är lika med 0 H 1 : minst en av parametrarna 1,,..., k är inte 0 Om vi kan förkasta denna noll-hypotes så använder vi t-testet för var och en av de enskilda parametrarna. 6

7 Vad är R-sq(adj) då? Justerad R : 1 1 1 k n n n k R R Det vanliga R -värdet ökar alltid när man lägger till fler förklarande variabler. Men det gör nödvändigtvis inte justerade R -värdet

Kap 4,6: Punktskattning och punktprognos Nu vill vi göra en prognos för priset på en fastighet med bostadsytan: 3000 ft och antal rum: 6, och ett 95% prediktionsintervall i MINITAB 8

Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6.00 yˆ (147) t0.05 s 1 "Distance value" 0 Prediktionsintervall 9

Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6.00 yˆ (147) t0.05 s "Distance value" 0 Konfidensintervall för det genomsnittliga priset på fastigheter med 3000 ft och 6 rum. 30

Distance value kan, som sagt, inte enkelt beräknas från datamaterialet om vi har fler än en förklarande variabel. Men den kan beräknas ur New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX ˆy 0 SE yˆ 0 s "Distance value" SE Fit är standardavvikelsen för punktskattningen ŷ 0 31

Får vi någon ytterligare information från prognosen? Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 1396 1307 ( 188076, 36717) ( 1489, 76564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Varning för att den typ av fastighet vi valt har extrema värden på x. Vi kan endast göra tillförlitliga prognoser på fastigheter där vi har liknande fastigheter med i ursprungliga datamaterialet. 3

Om vi t.ex bara har bostadsytan som förklarande variabel: Prediktioner utanför området där vi har observationer är inte tillförlitliga Regression Plot Price = 63745. + 49.3747 Area S = 9945.6 R-Sq = 48.6 % R-Sq(adj) = 48. % 300000 Price 00000 100000 Regression 95% CI 500 1500 Area 500 3500 33

Pris mot bostadsyta 300000 Price 00000 100000 500 1500 Area 500 3500 Få observation med bostadsyta 3000 ft eller större, men ändå väl inom området där vi har observation 34

Pris mot antal rum 300000 Price 00000 100000 3 8 Rooms 13 35

Vad är då problemet? pris area rooms 117000 1008 6 Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 ft. Det är alltså kombinationen 3000 ft och 6 rum som är extrem och vi måste fundera över om det är rimligt att anta att modellen är giltig även för denna typ av fastighet. 108000 1036 6 16500 109 6 133000 1100 6 116000 1100 6 98000 1165 6 19000 100 6 16000 13 6 117000 148 6 110000 189 6 117500 1300 6 11900 1300 6 100000 1338 6 18500 1344 6 135000 1400 6 140000 1403 6 15000 1450 6 110000 1450 6 14500 155 6 150000 1564 6 10500 1600 6 141900 163 6 145900 1680 6 144900 1900 6 36

Kap 5, 5,3: Residualanalys För att kunna ta resultaten av regressionsanalysen på allvar, måste vi undersöka om regressionsantagandena är uppfyllda. Har residualerna en konstant varians? Är residualerna normalfördelade? Är residualerna oberoende? Är alla samband linjära? Saknas någon förklarande variabel? 37

Har residualerna en konstant varians? Plotta residualerna mot anpassade värden (residuals vs fits) Är residualerna normalfördelade? Histogram av residualerna Normalfördelningsplot av residualerna (Normal probability plot) Är residualerna oberoende? Plotta residualerna i observationsordning (residuals vs order). Är alla samband linjära? Plotta residualerna mot enskilda förklarande variabler (Residuals vs the variables) 38