732G71 Statistik B Föreläsning 2 Bertil Wegmann IDA, Linköpings universitet November 13, 2015 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 1 / 26
Kap. 4.1-4.5, multipel linjär regressionsanalys y = µ y x1,x 2,...,x k + ɛ = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ɛ I stället för en förklarande variabel kan vi inkludera era. Det är dock viktigt att inte inkludera variabler som inte har någon eller endast marginell betydelse för den beroende variabeln y. Återigen inkluderas en felterm ɛ i modellen, som står för den del av variationen i y som inte kan förklaras med hjälp av regressionsmodellen. Enligt modellantagandena ska följande egenskaper vara uppfyllda: 1. För varje kombination av värden x 1, x 2,..., x k är medelvärdet för värdena på feltermen noll. 2. Konstant varians. För varje kombination av värden x 1, x 2,..., x k har värdena på feltermen konstant varians. Denna varians kallas för σ 2. 3. Normalf ördelning. För varje kombination av värden x 1, x 2,..., x k följer värdena på feltermen en normalfördelning. 4. Oberoende. Alla värden på feltermen är statistiskt oberoende av alla andra värden på feltermen. ɛ N (0, σ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 2 / 26
Minstakvadratskattningar för multipel linjär regression Även i multipel linjär regression används minstakvadratmetoden för att hitta skattningar på parametrarna β 0, β 1, β 2,..., β k, och det som ska minimeras är: SSE = (y i ŷ i ) 2 = (y i (b 0 + b 1 x 1 + b 2 x 2 + + b k x k )) 2 SSE brukar även kallas för den oförklarade variationen. Formlerna för att skatta regressionsparametrarna blir väldigt omständiga, så därför förlitar vi oss till statistiska programpaket för detta. Statistiska programpaket beräknar även dessa kvadratsummor: Total variation i y = SST = (y i ȳ) 2 F örklarad variation i y = SSR = (ŷ i ȳ) 2 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 3 / 26
Kap. 4.4, F-testet (the overall F-test) F-testet testar om den linjära regressionsmodellen är signikant eller inte. Om vi bara har en förklarande variabel är det samma som att testa om parametern till denna variabel är signikant skild från noll. Om vi har era förklarande variabler används dessa hypoteser: H 0 : β 1 = β 2 = = β k = 0 H a : åtminstone någon av β 1, β 2,..., β k är inte lika med noll Testvariabel: SSR/k F = SSE / (n k 1) = MSR MSE, där k är antalet förklarande variabler i modellen. Förkasta H 0 på signikansnivån α om F > F [α],k,n k 1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 4 / 26
Kap. 4.5, t-testet Om F-testet är signikant innebär det att minst en förklaringsvariabel signikant påverkar den beroende variabeln y. Det är då intressant att undersöka vilken/vilka förklaringsvariabler som påverkar y signikant. Detta görs med hjälp av enskilda t-test för varje variabel j: Testvariabel: H 0 : β j = 0 H a : β j = 0 t = b j s bj Förkasta H 0 på signikansnivån α om t > t [α/2],n k 1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 5 / 26
Exempel Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA. Column Name Count Description Variabel Översättning C1 Price 150 Price y pris C2 Area 150 Area in square feet x 1 bostadsyta C3 Acres 150 Acres x 2 tomtyta C4 Rooms 150 Number of rooms x 3 antal rum C5 Baths 150 Number of baths x 4 antal badrum Källa: MTBWIN/Student12/HOMES.MTW Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 6 / 26
Spridningsdiagram (scatterplot) Pris mot bostadsyta: Scatterplot of Price vs Area 300000 250000 Price 200000 150000 100000 500 1000 1500 2000 Area 2500 3000 3500 4000 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 7 / 26
Spridningsdiagram (scatterplot) Pris mot tomtyta: Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 8 / 26
Spridningsdiagram (scatterplot) Pris mot antal rum: Scatterplot of Price vs Rooms 300000 250000 Price 200000 150000 100000 2 4 6 8 Rooms 10 12 14 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 9 / 26
Spridningsdiagram (scatterplot) Pris mot antal badrum: Scatterplot of Price vs Baths 300000 250000 Price 200000 150000 100000 1,0 1,5 2,0 2,5 Baths 3,0 3,5 4,0 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 10 / 26
Exempel, regressionsmodell Vi börjar med en modell som inte inkluderar alla förklarande variabler, utan endast de som verkar viktigast: bostadsyta och antal rum. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 11 / 26
Exempel, skattad regressionsmodell från Minitab Regression Analysis: Price versus Area; Rooms Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 1,25273E+11 62636682991 69,38 0,000 Area 1 39528404917 39528404917 43,78 0,000 Rooms 1 2071358 2071358 0,00 0,962 Error 147 1,32715E+11 902824574 Lack-of-Fit 122 1,07866E+11 884149951 0,89 0,673 Pure Error 25 24848918333 993956733 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 30047,0 48,56% 47,86% 45,43% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 64221 12766 5,03 0,000 Area 49,67 7,51 6,62 0,000 3,21 Rooms -141 2934-0,05 0,962 3,21 Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 12 / 26
Förklaringsgraden R 2 Vi kommer ihåg kvadratsummorna: SST = Total variation i y SSR = Förklarad variation i y SSE = Oförklarad variation i y Med hjälp av dessa kan förklaringsgraden beräknas på samma sätt som för enkel linjär regression: R 2 = SSR SST Förklaringsgraden beskriver hur stor andel av den totala variationen i den beroende variabeln y som kan förklaras med hjälp av de förklarande variablerna i regressionsmodellen. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 13 / 26
Justerad förklaringsgrad R 2 När man anpassar en regressionsmodell har man oftast två mål: 1) att hitta en modell som beskriver datamaterialet så bra som möjligt (de anpassade värdena ŷ från regressionsmodellen ska ligga nära de faktiska observationerna y.) 2) att hitta en modell som kan göra bra prognoser för nya observationer, d.v.s. göra bra punktprediktioner. Genom att inkludera er och er förklarande variabler i regressionsmodellen kan man ofta få en bättre och bättre anpassning till datamaterialet. Men, detta till bekostnad på att prognoserna för nya observationer blir ofta sämre (överanpassning). Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 14 / 26
Justerad förklaringsgrad R 2 Förklaringsgraden R 2 ökar alltid då man lägger till er förklarande variabler. Den justerade förklaringsgraden R 2 ökar inte alltid om man lägger till er förklarande variabler, eftersom denna innehåller en korrektion för antalet förklarande variabler k och antalet observationer n i modellen. Den justerade förklaringsgraden beräknas som R 2 = ( R 2 k n 1 ) ( n 1 n k 1 ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 15 / 26
Exempel, regressionsmodell Vi återgår till exemplet med fastigheterna med bostadsyta och antal rum som förklarande variabler i regressionsmodellen. Regression Analysis: Price versus Area; Rooms Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 1,25273E+11 62636682991 69,38 0,000 Area 1 39528404917 39528404917 43,78 0,000 Rooms 1 2071358 2071358 0,00 0,962 Error 147 1,32715E+11 902824574 Lack-of-Fit 122 1,07866E+11 884149951 0,89 0,673 Pure Error 25 24848918333 993956733 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 30047,0 48,56% 47,86% 45,43% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 64221 12766 5,03 0,000 Area 49,67 7,51 6,62 0,000 3,21 Rooms -141 2934-0,05 0,962 3,21 Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 16 / 26
Exempel, regressionsmodell Ett 100(1 α)% kondensintervall för medelvärdet av y och ett 100(1 α)% prognosintervall för ett enskilt värde på y beräknas på liknande sätt som för den enkla linjära regressionsmodellen: Konfidensintervall : [ ŷ ± t [α/2],(n k 1) s ] Distance value Prognosintervall : [ ŷ ± t [α/2],(n k 1) s ] 1 + Distance value Men, Distance value kan inte beräknas lika enkelt som i fallet enkel linjär regression. Däremot kan man ta den direkt från datorutskriften i Minitab. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 17 / 26
Exempel, kondens- och prediktionsintervall från Minitab Nu vill vi göra en prognos (prediktion) för priset på en fastighet med bostadsytan 3000 square feet och antal rum lika med 6 med tillhörande 95% prognosintervall (prediktionsintervall) i MINITAB. Prediction for Price Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Variable Setting Area 3000 Rooms 6 Fit SE Fit 95% CI 95% PI 212396 12306,7 (188076; 236717) (148229; 276564) XX XX denotes an extremely unusual point relative to predictor levels used to fit the model. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 18 / 26
Exempel, varning för extrema värden från Minitab Varning för att den typ av fastighet vi valt har extrema värden på förklaringsvariablerna. Vi kan endast göra tillförlitliga prognoser på fastigheter där vi har liknande fastigheter med i ursprungliga datamaterialet. Bostadsyta med 3000 feet square är inte särskilt ovanligt i datamaterialet. Fastighet med 6 stycken rum är inte alls ovanligt i datamaterialet. Vad är då problemet? Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 19 / 26
Exempel, varning för extrema värden från Minitab Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 square feet. Det är alltså kombinationen 3000 square feet och 6 stycken rum som är extrem i datamaterialet. Vi måste därför ta ställning till om det är rimligt att anta att modellen är giltig även för denna typ av fastighet. Annars måste vi ta bort denna extrema observation från datamaterialet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 20 / 26
Kap. 4.7, kvadratisk regressionsmodell Om sambandet till en variabel inte är linjärt så kan vi även inkludera en kvadratisk term i regressionsmodellen. Exempel, fastighetsdatat: antag att vi misstänker att antalet rum inte påverkar priset på fastigheter i USA på ett linjärt sätt. Därför lägger vi till variabeln antalet rum i kvadrat för att testa om ett krökt samband är lämpligare för regressionsmodellen. Alltså vill vi undersöka hur variablerna x 3 = antal rum och x 5 = x 2 3 förklarar variationen i den beroende variabeln y = pris. Som jämförelse börjar vi dock först med att skatta en enkel linjär regressionsmodell med endast antal rum som förklarande variabel. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 21 / 26
Exempel, enkel linjär regressionsmodell Vi börjar med en enkel linjär regressionsmodell utan kvadratisk term. y = β 0 + β 3 x 3 + ɛ Regression Analysis: Price versus Rooms Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 85744961064 85744961064 73,68 0,000 Rooms 1 85744961064 85744961064 73,68 0,000 Error 148 1,72244E+11 1163808224 Lack-of-Fit 8 11542276823 1442784603 1,26 0,271 Pure Error 140 1,60701E+11 1147866717 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 34114,6 33,24% 32,78% 31,33% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 37969 13776 2,76 0,007 Rooms 15966 1860 8,58 0,000 1,00 Regression Equation Price = 37969 + 15966 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 22 / 26
Exempel, enkel linjär regressionsmodell Fitted Line Plot Price = 37969 + 15966 Rooms 300000 S 34114,6 R-Sq 33,2% R-Sq(adj) 32,8% 250000 Price 200000 150000 100000 2 4 6 8 Rooms 10 12 14 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 23 / 26
Exempel, kvadratisk regressionsmodell Multipel linjär regressionsmodell med kvadratisk term. Vi behåller originalvariabeln x 3 för att göra modellen mer exibel. y = β 0 + β 3 x 3 + β 5 x 2 3 + ɛ Regression Analysis: Price versus Rooms; RoomsSquared Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 91722934386 45861467193 40,55 0,000 Rooms 1 16224550005 16224550005 14,34 0,000 RoomsSquared 1 5977973322 5977973322 5,29 0,023 Error 147 1,66266E+11 1131058802 Lack-of-Fit 7 5564303501 794900500 0,69 0,678 Pure Error 140 1,60701E+11 1147866717 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 33631,2 35,55% 34,68% 33,31% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -45920 38935-1,18 0,240 Rooms 39680 10477 3,79 0,000 32,64 RoomsSquared -1606 699-2,30 0,023 32,64 Regression Equation Price = -45920 + 39680 Rooms - 1606 RoomsSquared Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 24 / 26
Exempel, kvadratisk regressionsmodell Fitted Line Plot Price = - 45920 + 39680 Rooms - 1606 Rooms^2 300000 S 33631,2 R-Sq 35,6% R-Sq(adj) 34,7% 250000 200000 Price 150000 100000 50000 2 4 6 8 Rooms 10 12 14 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 25 / 26
Exempel, kvadratisk regressionsmodell Kvadratisk regression ger dock svårtolkade parametrar. I modellen ŷ = b 0 + b 3 x 3 kan vi säga att priset för en fastighet förväntas öka med b 3 USD för varje ytterligare rum. I modellen ŷ = b 0 + b 3 x 3 + b 5 x 5 förväntas priset för fastigheten öka för varje ytterligare rum, men bara upp till ett visst antal rum, sen stabiliseras priset. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 26 / 26