Föreläsning 3 Kap 3.4, 3.6, 4.2 732G71 Statistik B
Exempel 150 slumpmässigt utvalda fastigheter till salu i USA Pris (y) Bostadsyta Tomtyta Antal rum Antal badrum 179000 3060 0.75 8 2 285000 2516 8.1 7 2.5 190000 2473 1.25 9 2.5.......... 107000 1100 0.17 5 1 (Pris i $, bostadsyta och tomtyta i kvadratfot) 2
Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Antal rum The regression equation is Pris = 64221 + 49.7 Bostadsyta - 141 Antal rum Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Bostadsyta 49.673 7.507 6.62 0.000 Antal rum -141 2934-0.05 0.962 S = 30047.0 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Antal rum 1 2071358 3
Pris Punktdiagram av pris mot antal rum 300000 Scatterplot of Pris vs Antal rum 250000 200000 150000 100000 2 4 6 8 Antal rum 10 12 14 Priset på en fastighet kan knappast öka helt linjärt med antal rum. För många rum i en fastighet gör den ointressant för de flesta hushåll: vid en viss gräns är det troligt att ytterligare utrymme bara ses som besvär, att möblera och städa och underhålla. Rimligt är alltså att priset borde mattas av då rummen blir för många sannolikt är det denna effekt vi ser! 4
Residualer mot antal rum 5
Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Antal rum; Antal rum ** 2 The regression equation is Pris = - 15812 + 49.3 Bostadsyta + 22544 Antal rum - 1529 Antal rum ** 2 Predictor Coef SE Coef T P Constant -15812 34481-0.46 0.647 Bostadsyta 49.326 7.379 6.68 0.000 Antal rum 22544 9549 2.36 0.020 Antal rum ** 2-1529.1 613.6-2.49 0.014 S = 29528.4 R-Sq = 50.7% R-Sq(adj) = 49.6% Analysis of Variance Source DF SS MS F P Regression 3 1.30688E+11 43562529136 49.96 0.000 Residual Error 146 1.27301E+11 871924595 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Antal rum 1 2071358 Antal rum ** 2 1 5414221428 6
Residualer mot antal rum Modell med bostadsyta, antal rum och antal rum**2 7
Interaktionstermer Ibland finns det anledning att misstänka att en variabels effekt varierar mellan olika grupper. Vi kan till exempel misstänka att högre utbildning leder till ett bättre betalt jobb. Men effekten är kanske olika för kvinnor och män utbildning kanske ger ett större hopp i lönen för kvinnor än för män, eller vice versa. Vi säger då att det finns en interaktionseffekt. Kön interagerar i det här fallet med utbildning. Man kan också säga att kön modifierar effekten av utbildning på lönen. Exempel: Samspelar bostadsyta och antal rum när det gäller priset på en villa? => En rimlig hypotes är att en bostad med mycket stor yta, men endast ett rum förmodligen är mindre attraktiv än en bostad med måttligt stor yta men fler rum. Alltså kan det finnas en interaktionseffekt. 8
Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Antal rum;... The regression equation is Pris = 862 + 163 Bostadsyta - 9248 Antal rum + 2161 Antal rum ** 2-14.0 Bostadsyta*Antal rum Predictor Coef SE Coef T P Constant 862 34085 0.03 0.980 Bostadsyta 162.78 39.23 4.15 0.000 Antal rum -9248 14262-0.65 0.518 Antal rum ** 2 2161 1390 1.56 0.122 Bostadsyta*Antal rum -14.002 4.759-2.94 0.004 S = 28783.4 R-Sq = 53.4% R-Sq(adj) = 52.2% Analysis of Variance Source DF SS MS F P Regression 4 1.37859E+11 34464664907 41.60 0.000 Residual Error 145 1.20130E+11 828482198 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Antal rum 1 2071358 Antal rum ** 2 1 5414221428 Bostadsyta*Antal rum 1 7171072220 9
Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Bostadsyta*Antal rum The regression equation is Pris = 42108 + 84.7 Bostadsyta - 3.07 Bostadsyta*Antal rum Predictor Coef SE Coef T P Constant 42108 12364 3.41 0.001 Bostadsyta 84.70 16.08 5.27 0.000 Bostadsyta*Antal rum -3.066 1.349-2.27 0.024 S = 29532.9 R-Sq = 50.3% R-Sq(adj) = 49.6% Analysis of Variance Source DF SS MS F P Regression 2 1.29777E+11 64888368534 74.40 0.000 Residual Error 147 1.28212E+11 872189396 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Bostadsyta*Antal rum 1 4505442444 10
Kvalitativa variabler Kvalitativa variabler har inte numeriskt tolkningsbara värden. Därmed kan kvalitativa förklaringsvariabler ej direkt införas i modellen, utan de måste kodas om till dummyvariabler (även kallat indikatorvariabler, 0/1-variabler eller dikotoma variabler). Exempel: Hur kan variabeln kön inkluderas i en regressionsmodell? Exempel: Vi studerar en population bestående av företag, som är antingen av typen små, mellanstora eller stora. Hur kan variabeln företagsstorlek inkluderas i modellen? Exempel: För vårt fastighetsexempel önskar vi dela upp fastigheterna i två klasser: fastigheter med högst 6 rum respektive fastigheter med fler än 6 rum. 11
Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; D The regression equation is Pris = 65668 + 44.2 Bostadsyta + 10544 D Predictor Coef SE Coef T P Constant 65668 8072 8.14 0.000 Bostadsyta 44.157 5.445 8.11 0.000 D 10544 7098 1.49 0.140 S = 29824.2 R-Sq = 49.3% R-Sq(adj) = 48.6% Analysis of Variance Source DF SS MS F P Regression 2 1.27234E+11 63617119693 71.52 0.000 Residual Error 147 1.30754E+11 889485299 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 D 1 1962944763 12
Pris Modell med antal rum > 6 (D = 1) eller 6 (D = 0) och bostadsyta som förklaringsvariabler 320000 270000 220000 D = 0 D = 1 170000 120000 70000 0 500 1000 1500 2000 2500 3000 3500 4000 Bostadsyta 13
Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; D; Bostadsyta*D The regression equation is Pris = 49362 + 57.5 Bostadsyta + 29762 D - 14.8 Bostadsyta*D Predictor Coef SE Coef T P Constant 49362 21971 2.25 0.026 Bostadsyta 57.55 17.64 3.26 0.001 D 29762 25105 1.19 0.238 Bostadsyta*D -14.80 18.55-0.80 0.426 S = 29861.1 R-Sq = 49.5% R-Sq(adj) = 48.5% Analysis of Variance Source DF SS MS F P Regression 3 1.27802E+11 42600752588 47.78 0.000 Residual Error 146 1.30186E+11 891687127 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 D 1 1962944763 Bostadsyta*D 1 568018378 14
Pris Modell med antal rum > 6 (D = 1) eller 6 (D = 0) och bostadsyta samt interaktionsterm bostadsyta * D 320000 270000 220000 D = 0 D = 1 170000 120000 70000 0 500 1000 1500 2000 2500 3000 3500 4000 Bostadsyta 15
Exempel Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Enligt en studie kan kostnaden (COST) förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal personarbetstimmar (LABOR) Month Cost (y) Paper (x 1 ) Machine (x 2 ) Overhead (x 3 ) Labor (x 4 ) 1 1102 550 218 112 325 2 1008 502 199 99 301...... 27 1388 704 281 142 429 16
17
Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 MACHINE 2.4710 0.4656 5.31 0.000 OVERHEAD 0.0483 0.5250 0.09 0.927 LABOR -0.05058 0.04030-1.26 0.223 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression 4 2271423 567856 4629.17 0.000 Residual Error 22 2699 123 Total 26 2274122 Source DF Seq SS PAPER 1 2255666 MACHINE 1 15561 OVERHEAD 1 3 LABOR 1 193 18
Regression Analysis: COST versus PAPER, MACHINE The regression equation is COST = 59.4 + 0.949 PAPER + 2.39 MACHINE Predictor Coef SE Coef T P Constant 59.43 19.64 3.03 0.006 PAPER 0.9489 0.1101 8.62 0.000 MACHINE 2.3864 0.2101 11.36 0.000 S = 10.98 R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression 2 2271227 1135613 9413.48 0.000 Residual Error 24 2895 121 Total 26 2274122 19
Partiellt F-test För att simultant testa om fler än en men inte alla förklaringsvariabler platsar i modellen eller ej Full (komplett) modell: Reducerad modell: Steg 1: Formulera hypoteser Steg 2: Bestäm testfunktionen ( SSER SSEC ) /( k g) F SSEC /( n k 1) SSE C = Residualkvadratsumma i den kompletta modellen (C för Complete) SSE R = Residualkvadratsumma i den reducerade modellen (R för Reduced) k = antalet förklaringsvariabler i den kompletta modellen g = antalet förklaringsvariabler i den reducerade modellen n = stickprovsstorlek y y i i x H0 : g 1... k 0 H : åtminstone en av 1,..., 1 g k 0 1 i1 i1 x 2 i2 x x... x 0 1 0 2 i2... g xig g 1 xig 1... g ig i x k ik i 20
Partiellt F-test (forts) Steg 3: Ska vi tro på H 0 eller H 1? Förkasta H 0 om F > Steg 4: Dra slutsats F k g, n k 1 Exempel: Platsar förklaringsvariablerna Overhead och Labor simultant i modellen? Alternativ formulering av testfunktionen: ( SSRC SSRR ) /( k g) F SSE /( n k 1) C SSR C = Regressionskvadratsumman för full modell SSR R = Regressionskvadratsumman för reducerad modell 21
Partiellt F-test (forts) AJÅ uttrycker formeln för det partiella F-testet annorlunda: F där 2 R UR 2 R R r 2 2 RUR RR / r 2 1 R / n k 1 UR : Förklaringsgraden i den kompletta (unrestricted) modellen : Förklaringsgraden i den reducerade modellen k g H 0 förkastas om F > F r, n k 1 F k g, n k 1 Ger förstås samma resultat! 22
Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så inte är fallet? Exempel: Föreliggande är ett datamaterial där vi önskar beskriva sambandet mellan privatägda fastigheters värde (X, i tusentals dollar) och hur mycket man årligen spenderar på fastighetsskötsel (Y, i dollar). Skötsel (Y) Värde (X) 1412.08 237 797.2 153.08...... 1090.84 1980.2 2000 1500 1000 500 0 50 Scatterplot of Skötsel (y) vs Värde (x) 100 150 200 Värde (x) 250 300 23
Residual Exempel (forts) Transformationer Regression Analysis: Skötsel (y) versus Värde (x) The regression equation is Skötsel (y) = - 348 + 7.26 Värde (x) Predictor Coef SE Coef T P Constant -348.39 76.14-4.58 0.000 Värde (x) 7.2583 0.4156 17.47 0.000 S = 146.897 R-Sq = 88.9% R-Sq(adj) = 88.6% Analysis of Variance Source DF SS MS F P Regression 1 6582759 6582759 305.06 0.000 Residual Error 38 819996 21579 Total 39 7402755 300 200 100 Residuals Versus Värde (x) (response is Skötsel (y)) 0-100 -200-300 50 100 150 Värde (x) 200 250 300 24
Residual Exempel (forts) Transformationer Regression Analysis: ln(y) versus Värde (x) The regression equation is ln(y) = 5.03 + 0.00951 Värde (x) Predictor Coef SE Coef T P Constant 5.0270 0.1098 45.80 0.000 Värde (x) 0.0095054 0.0005990 15.87 0.000 S = 0.211744 R-Sq = 86.9% R-Sq(adj) = 86.5% Analysis of Variance Source DF SS MS F P Regression 1 11.290 11.290 251.80 0.000 Residual Error 38 1.704 0.045 Total 39 12.993 0.4 0.2 Residuals Versus Värde (x) (response is ln(y)) Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 7.1182 0.0432 (7.0308; 7.2056) (6.6807; 7.5557) 0.0-0.2-0.4 Values of Predictors for New Observations New Värde Obs (x) 1 220-0.6-0.8 50 100 150 Värde (x) 200 250 300 25
Residual Exempel (forts) Transformationer Regression Analysis: y**0.5 versus Värde (x) The regression equation is y**0.5 = 7.20 + 0.127 Värde (x) Predictor Coef SE Coef T P Constant 7.201 1.205 5.98 0.000 Värde (x) 0.127047 0.006577 19.32 0.000 S = 2.32479 R-Sq = 90.8% R-Sq(adj) = 90.5% Analysis of Variance Source DF SS MS F P Regression 1 2016.8 2016.8 373.17 0.000 Residual Error 38 205.4 5.4 Total 39 2222.2 5.0 Residuals Versus Värde (x) (response is y**0.5) Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 35.151 0.474 (34.191; 36.111) (30.348; 39.954) 2.5 0.0-2.5 Values of Predictors for New Observations New Värde Obs (x) 1 220-5.0 50 100 150 Värde (x) 200 250 300 26