Regression med kvalitativa variabler Jesper Rydén 1
2
UPPSALA UNIVERSITET Matematiska institutionen Jesper Rydén Matematisk statistik 1MS026 Tillämpad statistik vt 2013 REGRESSION MED KVALITATIVA VARIABLER 1 Inledning Man skiljer mellan två typer av kvalitativa variabler, ordnade och oordnade. Ordnade kategoriska variabler kallas även ordinaldata; där finns en ordning mellan de olika kategorierna. Kvalitativa variabler har inte numeriskt tolkningsbara värden utan får representeras av koder för olika klasser av observationer. Ett exempel är en variabel som antar värdet 0 för män och 1 för kvinnor. Ett annat exempel är en variabel som antar värdena 1 för småföretag, 2 för mellanstora företag och 3 för stora företag. För att kunna använda kvalitativa variabler i regressionsanalys krävs att de görs om till s k indikatorvariabler eller dummyvariabler. En kvalitativ variabel som bara kan anta något av två värden behöver egentligen inte göras om, men från tolkningssynpunkt är det lämpligt om värdena transformeras till 0 respektive 1. Regressionsmodeller med indikatorvariabler knyter an till hypotestest av väntevärden i normalfördelning, som följande exempel visar. Exempel 1. Endast en indikatorvariabel x, med modellen y i = β 0 + β 1 x i + ɛ i, i = 1,..., n där x i = { 0, i = 1,..., n1 1, i = n 1 + 1,..., n Som vanligt gäller antagandet att ɛ i N(0, σ 2 ). Inför beteckningarna µ 1 = β 0, µ 2 = β 0 + β 1. Då kan regressionsmodellen skrivas { µ1 + ɛ y i = i, i = 1,..., n 1 µ 2 + ɛ i, i = n 1 + 1,..., n Men detta känner vi igen som hypotesprövningsproblemet H 0 : µ 1 = µ 2 3
med mothypotesen µ 1 µ 2. Ett ekvivalent test, i regressionsformulering, lyder H 0 : β 1 = 0 med mothypotesen β 1 0. Från regressionsanalysens grunder vet vi, att test av enskilda parametrar görs med just t-test. Alltså har vi funnit ett samband mellan t-test för test av lika väntevärden och regressionsmodell med indikatorvariabel. Exemplet kan kanske först uppfattas som en kuriositet, men som vi senare ska finna är kopplingen till väntevärden en central aspekt när regressionsmodeller med indikatorvariabler tolkas. 2 Flera indikatorvariabler 2.1 Införande av indikatorvariabler En kvalitativ variabel med fler än två värden måste göras om till flera indikatorvariabler. Grundregeln är att en variabel med k klasser representeras av k 1 indikatorvariabler, som var och en antar värdena 0 eller 1. En dålig idé är att inte följa grundregeln utan istället ansätta k indikatorvariabler, vilket motiveras via följande exempel. Exempel 2. Modell: y = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + ɛ i, i = 1,..., n. Antag n = 4 observationer. I modellen på matrisform Y = Xβ har vi då 1 x 11 1 0 X = 1 x 21 1 0 1 x 31 0 1 1 x 41 0 1 Notera att första kolumnen är summan av kolumnerna tre och fyra (linjärt beroende). Detta får konsekvenser för matrisen X X som är vital för skattningarna; man finner X X = = 1 1 1 1 x 11 x 21 x 31 x 41 1 1 0 0 0 0 1 1 4 4 i=1 x i1 2 2 1 x 11 1 0 1 x 21 1 0 1 x 31 0 1 1 x 41 0 1 4 i=1 x i1 2 2 4 2 i=1 x2 i1 i=1 x 4 i1 i=3 x i1 2 i=1 x i1 2 0 4 i=3 x i1 0 2 Även i denna matris förekommer linjärt beroende kolumner (finn själv ut vilka). Enligt linjär algebra följer därför att matrisen X X inte är inverterbar, och ingen entydig skattning av β kan erhållas. 4
2.2 Tolkning av indikatorvariabler Vi demonstrerar här grundregeln med ett exempel, vilket också belyser hur de i regressionsmodellen ingående variablerna kan tolkas. Exempel 3. För en viss bilmodell finns tre motoralternativ: Bensin (B), Diesel (D), E85 (E). Responsvariabel är bränsleförbrukningen. Vi bortser från att bilens vikt kanske ändras beroende på motoralternativ. Antag µ B, µ D, µ E. Modell: där { 1 bränsle B x 1 = 0 f.ö. y = β 0 + β 1 x 1 + β 2 x 2 + ɛ { 1 bränsle D, x 2 = 0 f.ö. Observationer kan då kodas enligt nedanstående tablå: Väntevärde: Bränsletyp x 1 x 2 E85 (E) 0 0 Bensin (B) 1 0 Diesel (D) 0 1 E[Y ] = β 0 + β 1 x 1 + β 2 x 2 Låt oss undersöka de olika alternativen. E85. I detta fall gäller x 1 = x 2 = 0, och därmed µ E = E[Y ] = β 0 + β 1 0 + β 2 0 = β 0. Bensin. Nu gäller x 1 = 1, x 2 = 0 och man finner µ B = E[Y ] = β 0 + β 1 1 + β 2 0 = β 0 + β 1. Vi fann tidigare β 0 = µ E, och det följer att µ B = µ E + β 1. En tolkning av β 1 i regressionsmodellen är alltså β 1 = µ B µ E. Diesel. På motsvarande sätt finner man med x 1 = 0, x 2 = 1 att µ D = E[Y ] = β 0 + β 2 vilket kan omformuleras som β 2 = µ D µ E. De tre nivåerna hos den kvalitativa variabeln kan beskrivas med de två indikatorvariablerna; en basnivå representeras här av medelnivån för E85 genom interceptet β 0 = β E. I vissa problemställningar kan det vara naturligt att använda basnivå. I följande exempel presenteras frågeställningar om skillnader i förväntade värden, och data finns tillgängligt. Numeriska beräkningar sker i R. Exempel 4. I en koncern undersöks de årliga underhållskostnaderna för ett datorsystem som finns installerat i flera delstater i USA. I var och en av delstaterna Kansas, Kentucky och Texas valdes slumpvis 10 användare ut. 5
(a) Finns det tillräckligt med belägg från dessa data för att den genomsnittliga underhållskostnaden skiljer sig åt mellan delstaterna (α = 0.05)? (b) Beräkna ett 95% konfidensintervall för skillnaden i medelkostnad mellan Texas och Kansas. Tolka intervallet. Vi ställer upp modellen där { 1 om Kentucky x 1 = 0 f.ö. För parametrarna β 1 och β 2 gäller E[Y ] = β 0 + β 1 x 1 + β 2 x 2 (1) { 1 om Texas, z 2 = 0 f.ö. β 1 = µ 2 µ 1 β 2 = µ 3 µ 1 där µ 1, µ 2, µ 3 är förväntade underhållskostnaderna för Kansas, Kentucky och Texas. Att testa hypotesen i (a) kan formuleras som H 0 : β 1 = β 2 = 0 ty om β 1 = µ 2 µ 1 = 0 och β 2 = µ 3 µ 1 = 0 följer att µ 1 = µ 2 = µ 3. Mothypotes: H 1 : Minst en parameter β i 0, i = 1, 2 Skattning av parametrar i modellen (1) utförs med R och resulterar i följande tablå (strukturen hos data i objektet kost visas i Appendix): Call: lm(formula = V2 ~ V3 + V4, data = kost) Residuals: Min 1Q Median 3Q Max -299.80-95.83-37.90 153.32 295.20 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 279.60 53.43 5.233 1.63e-05 *** V3 80.30 75.56 1.063 0.2973 V4 198.20 75.56 2.623 0.0141 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 168.9 on 27 degrees of freedom Multiple R-squared: 0.205, Adjusted R-squared: 0.1462 F-statistic: 3.482 on 2 and 27 DF, p-value: 0.04515. 6
Här avläses p-värdet 0.04515 för prövningen av regressionsmodellen i sin helhet (dvs. H 0 ). Alltså förkastas här H 0 på nivån 0.05 och vi drar slutsatsen att minst en av parametrarna β 1 och β 2 är skild från noll. Vidare kan vi göra tolkningen att de förväntade kostnaderna skiljer sig åt mellan delstaterna. För problemet i (b) beräknar vi ett konfidensintervall för β 2, eftersom β 2 = µ 3 µ 1. Från programutskriften finner man punktskattningen ˆβ 2 = 198.20, och medelfelet d( ˆβ 2 ) = 75.56. Med t-kvantilen t 0.025 (30 2 1) = 2.052 följer intervallet [ ˆβ 2 ± t 0.025 (27)d( ˆβ 2 )] = [43.2, 353.2]. 2.3 Variansanalys En viktig klass av statistiska metoder går under namnet variansanalys. Huvudsyftet med dessa metoder är att testa eventuella skillnader i väntevärden mellan olika grupper, behandlingar, osv. Nyckeln till metodiken är att studera kvoter mellan lämpligt valda varianser (därav namnet) vilket resulterar i F-test av olika slag. Det är fullt möjligt att formulera variansanalysproblem i termer av regressionsmodeller med indikatorvariabler, som vi studerat ovan. På engelska används begreppet Analysis of Variance, vilket lett till beteckningen ANOVA. Denna förekommer ofta i t.ex. statistisk programvara. Exempel 5. Vi återvänder till situationen i exempel 4 och studerar i figur 1 ett lådagram över kostnaderna i de tre delstaterna. Det vågräta strecket i varje låda indikerar medianen. I variansanalys vill man, som nämnts ovan, statistiskt testa skillnader i väntevärden mellan grupper. En förutsättning för variansanalysen är konstant varians, dvs. lika varians oavsett grupp (jämför förutsättningar i linjär regression). Lådagrammet kan ge en antydan om detta, men det finns även statistiska test utvecklade. Nollhypotesen i variansanalysen lyder samma väntevärde i alla grupper, med mothypotesen minst en grupps väntevärde skiljer sig åt. Om nollhypotesen förkastas kan man gå vidare med s.k. multipla jämförelser (även kallade post hoc-test) för att undersöka vilka grupper som avviker. Maintenance cost (USD) 0 200 400 600 800 KS KY TX Figur 1: Lådagram: Underhållskostnader i tre amerikanska delstater (KS, KY, TX) 7
3 Kvantitativa och kvalitativa variabler Vanligt är att i en regressionsmodell bland de förklarande variablerna inkludera såväl kvalitativa som kvantitativa, givetvis beroende på sammanhanget. Vi ska här studera några modeller och deras innebörd. För enkelhets skull antar vi en indikatorvariabel, d, och en kvantitativ variabel, x. Modell 1. Följande modell resulterar i en additiv förändring hos Y : { Y = β0 + β Y = β 0 + β 1 x + β 2 d + ɛ = 1 x + ɛ, d = 0 Y = β 0 + β 2 + β 1 x + ɛ, d = 1 Indikatorvariabeln orsakar en förändring i intercept, och regressionskoefficienten β 2 mäter den additiva förändringen. Modell 2. Denna modell beaktar förändring i riktningskoefficient: { Y = β0 + β Y = β 0 + β 1 x + β 3 d x + ɛ = 1 x + ɛ, d = 0 Y = β 0 + (β 1 + β 3 )x + ɛ, d = 1 Modell 3. Den mest generella typen av dessa modeller resulterar i såväl additivt skift som förändring i riktningskoefficient: { Y = β0 + β Y = β 0 + β 1 x + β 2 d + β 3 d x = 1 x + ɛ, d = 0 Y = β 0 + β 2 + (β 1 + β 3 )x + ɛ, d = 1 8
Referenser Neter J, Wasserman W, Kutner MH (1989). Applied Linear Regression Models. Second edition. R.D. Irwin Inc. Kapitel 10. Mendenhall W, Sincich T (2007). Statistics for Eng and the Sciences. Fifth edition. Pearson. Kapitel 12. Sheather, SJ (2009). A Modern Approach to Regression with R. Springer-Verlag. Kapitel 5. 25 Texas 178 0 1 26 Texas 773 0 1 27 Texas 308 0 1 28 Texas 430 0 1 29 Texas 644 0 1 30 Texas 515 0 1 Appendix. Datas struktur (objektet kost) V1 V2 V3 V4 1 Kansas 198 0 0 2 Kansas 126 0 0 3 Kansas 443 0 0 4 Kansas 570 0 0 5 Kansas 286 0 0 6 Kansas 184 0 0 7 Kansas 105 0 0 8 Kansas 216 0 0 9 Kansas 465 0 0 10 Kansas 203 0 0 11 Kentucky 563 1 0 12 Kentucky 314 1 0 13 Kentucky 483 1 0 14 Kentucky 144 1 0 15 Kentucky 585 1 0 16 Kentucky 377 1 0 17 Kentucky 264 1 0 18 Kentucky 185 1 0 19 Kentucky 330 1 0 20 Kentucky 354 1 0 21 Texas 385 0 1 22 Texas 693 0 1 23 Texas 266 0 1 24 Texas 586 0 1 9