Regression med kvalitativa variabler. Jesper Rydén



Relevanta dokument
Tillämpad statistik. Jesper Rydén

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Föreläsning 14: Försöksplanering

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Extrauppgifter. Uppgifter. 1. Den stokastiska variabeln Y t(10). Bestäm c så att P ( c < Y < c) = 0.95.

Föreläsning 9: Hypotesprövning

Statistik 1 för biologer, logopeder och psykologer

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Uppgift 1. Deskripitiv statistik. Lön

SF1625 Envariabelanalys

Laboration 3: Enkel linjär regression och korrelationsanalys

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Lathund, procent med bråk, åk 8

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Lösningar till SPSS-övning: Analytisk statistik

Laboration 3: Modellval i multipel regression

Ekvationssystem, Matriser och Eliminationsmetoden

Uppgift

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

Index vid lastbilstransporter

parametriska test Mätning Ordinalskala: Nominalskala:

Datorövning 2 Statistik med Excel (Office 2003, engelska)

Grundläggande biostatistik. Jenny Selander

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

Lokal pedagogisk planering i matematik för årskurs 8

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

3.1 Linjens ekvation med riktningskoefficient. y = kx + l.

Mätningar på op-förstärkare. Del 3, växelspänningsförstärkning med balanserad ingång.

4-6 Trianglar Namn:..

Vi skall skriva uppsats

Något om permutationer

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

Linjär regressionsanalys. Wieland Wermke

Mätning av effekter. Vad är elektrisk effekt? Vad är aktiv-, skenbar- reaktiv- medel- och direkteffekt samt effektfaktor?

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Träning i bevisföring

Datorövning 3: Icke-parametriska test

Innehåll. Normalfördelning och t-test. Vanliga statistiska mått 2/11/2014. Vad är punktskattningar? Figurer somvisarmedelochsd, SE ochki (ellerci)

Repetition av cosinus och sinus

David Wessman, Lund, 30 oktober 2014 Statistisk Termodynamik - Kapitel 5. Sammanfattning av Gunnar Ohléns bok Statistisk Termodynamik.

Övningshäfte i matematik för. Kemistuderande BL 05

1. Frekvensfunktionen nedan är given. (3p)

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

TIMREDOVISNINGSSYSTEM

Statistik och epidemiologi T5

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

5B1816 Tillämpad mat. prog. ickelinjära problem. Optimalitetsvillkor för problem med ickelinjära bivillkor

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

1 Navier-Stokes ekvationer

Sammanfattning på lättläst svenska

Snabbslumpade uppgifter från flera moment.

PRÖVNINGSANVISNINGAR

Observera att alla funktioner kan ritas, men endast linjära funktioner blir räta linjer.

Facit med lösningsförslag kommer att anslås på vår hemsida Du kan dessutom få dem via e-post, se nedan.

Multipel Regressionsmodellen

Modul 6: Integraler och tillämpningar

Flervariabelanalys E2, Vecka 2 Ht08

Statistiska metoder för säkerhetsanalys

Linjära system av differentialekvationer

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 23 maj 2013 kl. 9 14

Tentamen i Matematisk statistik Kurskod S0001M

Datorövning 2 Diskret fördelning och betingning

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Utdrag ur protokoll vid sammanträde Ändrad deklarationstidpunkt för mervärdesskatt. Förslaget föranleder följande yttrande av Lagrådet:

Möbiustransformationer.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Intyg om erfarenhet och lämplighet att undervisa som lärare i gymnasieskolan

Får nyanlända samma chans i den svenska skolan?

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

STOCKHOLMS UNIVERSITET Sociologiska institutionen

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Ekonomisk styrning, delkurs Finansiering (2FE254) Tentamen lördag 27 april 2013, kl Inklusive preliminärt lösningsförslag

10.1 Enkel linjär regression

Två konstiga klockor

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Summan av två tal är 38 och differensen mellan dem är 14. Vilka är talen? 2/0/0

QFD. Quality Function Deployment Boris Mrden Tobias Lindström Arefeh Mirzaie Shra Morin Habib David Bizzozero

Du ska nu skapa ett litet program som skriver ut Hello World.

Systematiskt kvalitetsarbete

Väga paket och jämföra priser

Institutionen för matematik Envariabelanalys 1. Jan Gelfgren Datum: Fredag 9/12, 2011 Tid: 9-15 Hjälpmedel: Inga (ej miniräknare)

729G04 - Hemuppgift, Diskret matematik

Strukturen i en naturvetenskaplig rapport

När du som vårdpersonal vill ta del av information som finns hos en annan vårdgivare krävs det att:

VÄRDERINGSÖVNINGAR. Vad är Svenskt?

Manual för BPSD registret. Version 6 /

Antalet äldre - idag och imorgon

Statsbidrag för läxhjälp till huvudmän 2016

När jag har arbetat klart med det här området ska jag:

Transkript:

Regression med kvalitativa variabler Jesper Rydén 1

2

UPPSALA UNIVERSITET Matematiska institutionen Jesper Rydén Matematisk statistik 1MS026 Tillämpad statistik vt 2013 REGRESSION MED KVALITATIVA VARIABLER 1 Inledning Man skiljer mellan två typer av kvalitativa variabler, ordnade och oordnade. Ordnade kategoriska variabler kallas även ordinaldata; där finns en ordning mellan de olika kategorierna. Kvalitativa variabler har inte numeriskt tolkningsbara värden utan får representeras av koder för olika klasser av observationer. Ett exempel är en variabel som antar värdet 0 för män och 1 för kvinnor. Ett annat exempel är en variabel som antar värdena 1 för småföretag, 2 för mellanstora företag och 3 för stora företag. För att kunna använda kvalitativa variabler i regressionsanalys krävs att de görs om till s k indikatorvariabler eller dummyvariabler. En kvalitativ variabel som bara kan anta något av två värden behöver egentligen inte göras om, men från tolkningssynpunkt är det lämpligt om värdena transformeras till 0 respektive 1. Regressionsmodeller med indikatorvariabler knyter an till hypotestest av väntevärden i normalfördelning, som följande exempel visar. Exempel 1. Endast en indikatorvariabel x, med modellen y i = β 0 + β 1 x i + ɛ i, i = 1,..., n där x i = { 0, i = 1,..., n1 1, i = n 1 + 1,..., n Som vanligt gäller antagandet att ɛ i N(0, σ 2 ). Inför beteckningarna µ 1 = β 0, µ 2 = β 0 + β 1. Då kan regressionsmodellen skrivas { µ1 + ɛ y i = i, i = 1,..., n 1 µ 2 + ɛ i, i = n 1 + 1,..., n Men detta känner vi igen som hypotesprövningsproblemet H 0 : µ 1 = µ 2 3

med mothypotesen µ 1 µ 2. Ett ekvivalent test, i regressionsformulering, lyder H 0 : β 1 = 0 med mothypotesen β 1 0. Från regressionsanalysens grunder vet vi, att test av enskilda parametrar görs med just t-test. Alltså har vi funnit ett samband mellan t-test för test av lika väntevärden och regressionsmodell med indikatorvariabel. Exemplet kan kanske först uppfattas som en kuriositet, men som vi senare ska finna är kopplingen till väntevärden en central aspekt när regressionsmodeller med indikatorvariabler tolkas. 2 Flera indikatorvariabler 2.1 Införande av indikatorvariabler En kvalitativ variabel med fler än två värden måste göras om till flera indikatorvariabler. Grundregeln är att en variabel med k klasser representeras av k 1 indikatorvariabler, som var och en antar värdena 0 eller 1. En dålig idé är att inte följa grundregeln utan istället ansätta k indikatorvariabler, vilket motiveras via följande exempel. Exempel 2. Modell: y = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + ɛ i, i = 1,..., n. Antag n = 4 observationer. I modellen på matrisform Y = Xβ har vi då 1 x 11 1 0 X = 1 x 21 1 0 1 x 31 0 1 1 x 41 0 1 Notera att första kolumnen är summan av kolumnerna tre och fyra (linjärt beroende). Detta får konsekvenser för matrisen X X som är vital för skattningarna; man finner X X = = 1 1 1 1 x 11 x 21 x 31 x 41 1 1 0 0 0 0 1 1 4 4 i=1 x i1 2 2 1 x 11 1 0 1 x 21 1 0 1 x 31 0 1 1 x 41 0 1 4 i=1 x i1 2 2 4 2 i=1 x2 i1 i=1 x 4 i1 i=3 x i1 2 i=1 x i1 2 0 4 i=3 x i1 0 2 Även i denna matris förekommer linjärt beroende kolumner (finn själv ut vilka). Enligt linjär algebra följer därför att matrisen X X inte är inverterbar, och ingen entydig skattning av β kan erhållas. 4

2.2 Tolkning av indikatorvariabler Vi demonstrerar här grundregeln med ett exempel, vilket också belyser hur de i regressionsmodellen ingående variablerna kan tolkas. Exempel 3. För en viss bilmodell finns tre motoralternativ: Bensin (B), Diesel (D), E85 (E). Responsvariabel är bränsleförbrukningen. Vi bortser från att bilens vikt kanske ändras beroende på motoralternativ. Antag µ B, µ D, µ E. Modell: där { 1 bränsle B x 1 = 0 f.ö. y = β 0 + β 1 x 1 + β 2 x 2 + ɛ { 1 bränsle D, x 2 = 0 f.ö. Observationer kan då kodas enligt nedanstående tablå: Väntevärde: Bränsletyp x 1 x 2 E85 (E) 0 0 Bensin (B) 1 0 Diesel (D) 0 1 E[Y ] = β 0 + β 1 x 1 + β 2 x 2 Låt oss undersöka de olika alternativen. E85. I detta fall gäller x 1 = x 2 = 0, och därmed µ E = E[Y ] = β 0 + β 1 0 + β 2 0 = β 0. Bensin. Nu gäller x 1 = 1, x 2 = 0 och man finner µ B = E[Y ] = β 0 + β 1 1 + β 2 0 = β 0 + β 1. Vi fann tidigare β 0 = µ E, och det följer att µ B = µ E + β 1. En tolkning av β 1 i regressionsmodellen är alltså β 1 = µ B µ E. Diesel. På motsvarande sätt finner man med x 1 = 0, x 2 = 1 att µ D = E[Y ] = β 0 + β 2 vilket kan omformuleras som β 2 = µ D µ E. De tre nivåerna hos den kvalitativa variabeln kan beskrivas med de två indikatorvariablerna; en basnivå representeras här av medelnivån för E85 genom interceptet β 0 = β E. I vissa problemställningar kan det vara naturligt att använda basnivå. I följande exempel presenteras frågeställningar om skillnader i förväntade värden, och data finns tillgängligt. Numeriska beräkningar sker i R. Exempel 4. I en koncern undersöks de årliga underhållskostnaderna för ett datorsystem som finns installerat i flera delstater i USA. I var och en av delstaterna Kansas, Kentucky och Texas valdes slumpvis 10 användare ut. 5

(a) Finns det tillräckligt med belägg från dessa data för att den genomsnittliga underhållskostnaden skiljer sig åt mellan delstaterna (α = 0.05)? (b) Beräkna ett 95% konfidensintervall för skillnaden i medelkostnad mellan Texas och Kansas. Tolka intervallet. Vi ställer upp modellen där { 1 om Kentucky x 1 = 0 f.ö. För parametrarna β 1 och β 2 gäller E[Y ] = β 0 + β 1 x 1 + β 2 x 2 (1) { 1 om Texas, z 2 = 0 f.ö. β 1 = µ 2 µ 1 β 2 = µ 3 µ 1 där µ 1, µ 2, µ 3 är förväntade underhållskostnaderna för Kansas, Kentucky och Texas. Att testa hypotesen i (a) kan formuleras som H 0 : β 1 = β 2 = 0 ty om β 1 = µ 2 µ 1 = 0 och β 2 = µ 3 µ 1 = 0 följer att µ 1 = µ 2 = µ 3. Mothypotes: H 1 : Minst en parameter β i 0, i = 1, 2 Skattning av parametrar i modellen (1) utförs med R och resulterar i följande tablå (strukturen hos data i objektet kost visas i Appendix): Call: lm(formula = V2 ~ V3 + V4, data = kost) Residuals: Min 1Q Median 3Q Max -299.80-95.83-37.90 153.32 295.20 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 279.60 53.43 5.233 1.63e-05 *** V3 80.30 75.56 1.063 0.2973 V4 198.20 75.56 2.623 0.0141 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 168.9 on 27 degrees of freedom Multiple R-squared: 0.205, Adjusted R-squared: 0.1462 F-statistic: 3.482 on 2 and 27 DF, p-value: 0.04515. 6

Här avläses p-värdet 0.04515 för prövningen av regressionsmodellen i sin helhet (dvs. H 0 ). Alltså förkastas här H 0 på nivån 0.05 och vi drar slutsatsen att minst en av parametrarna β 1 och β 2 är skild från noll. Vidare kan vi göra tolkningen att de förväntade kostnaderna skiljer sig åt mellan delstaterna. För problemet i (b) beräknar vi ett konfidensintervall för β 2, eftersom β 2 = µ 3 µ 1. Från programutskriften finner man punktskattningen ˆβ 2 = 198.20, och medelfelet d( ˆβ 2 ) = 75.56. Med t-kvantilen t 0.025 (30 2 1) = 2.052 följer intervallet [ ˆβ 2 ± t 0.025 (27)d( ˆβ 2 )] = [43.2, 353.2]. 2.3 Variansanalys En viktig klass av statistiska metoder går under namnet variansanalys. Huvudsyftet med dessa metoder är att testa eventuella skillnader i väntevärden mellan olika grupper, behandlingar, osv. Nyckeln till metodiken är att studera kvoter mellan lämpligt valda varianser (därav namnet) vilket resulterar i F-test av olika slag. Det är fullt möjligt att formulera variansanalysproblem i termer av regressionsmodeller med indikatorvariabler, som vi studerat ovan. På engelska används begreppet Analysis of Variance, vilket lett till beteckningen ANOVA. Denna förekommer ofta i t.ex. statistisk programvara. Exempel 5. Vi återvänder till situationen i exempel 4 och studerar i figur 1 ett lådagram över kostnaderna i de tre delstaterna. Det vågräta strecket i varje låda indikerar medianen. I variansanalys vill man, som nämnts ovan, statistiskt testa skillnader i väntevärden mellan grupper. En förutsättning för variansanalysen är konstant varians, dvs. lika varians oavsett grupp (jämför förutsättningar i linjär regression). Lådagrammet kan ge en antydan om detta, men det finns även statistiska test utvecklade. Nollhypotesen i variansanalysen lyder samma väntevärde i alla grupper, med mothypotesen minst en grupps väntevärde skiljer sig åt. Om nollhypotesen förkastas kan man gå vidare med s.k. multipla jämförelser (även kallade post hoc-test) för att undersöka vilka grupper som avviker. Maintenance cost (USD) 0 200 400 600 800 KS KY TX Figur 1: Lådagram: Underhållskostnader i tre amerikanska delstater (KS, KY, TX) 7

3 Kvantitativa och kvalitativa variabler Vanligt är att i en regressionsmodell bland de förklarande variablerna inkludera såväl kvalitativa som kvantitativa, givetvis beroende på sammanhanget. Vi ska här studera några modeller och deras innebörd. För enkelhets skull antar vi en indikatorvariabel, d, och en kvantitativ variabel, x. Modell 1. Följande modell resulterar i en additiv förändring hos Y : { Y = β0 + β Y = β 0 + β 1 x + β 2 d + ɛ = 1 x + ɛ, d = 0 Y = β 0 + β 2 + β 1 x + ɛ, d = 1 Indikatorvariabeln orsakar en förändring i intercept, och regressionskoefficienten β 2 mäter den additiva förändringen. Modell 2. Denna modell beaktar förändring i riktningskoefficient: { Y = β0 + β Y = β 0 + β 1 x + β 3 d x + ɛ = 1 x + ɛ, d = 0 Y = β 0 + (β 1 + β 3 )x + ɛ, d = 1 Modell 3. Den mest generella typen av dessa modeller resulterar i såväl additivt skift som förändring i riktningskoefficient: { Y = β0 + β Y = β 0 + β 1 x + β 2 d + β 3 d x = 1 x + ɛ, d = 0 Y = β 0 + β 2 + (β 1 + β 3 )x + ɛ, d = 1 8

Referenser Neter J, Wasserman W, Kutner MH (1989). Applied Linear Regression Models. Second edition. R.D. Irwin Inc. Kapitel 10. Mendenhall W, Sincich T (2007). Statistics for Eng and the Sciences. Fifth edition. Pearson. Kapitel 12. Sheather, SJ (2009). A Modern Approach to Regression with R. Springer-Verlag. Kapitel 5. 25 Texas 178 0 1 26 Texas 773 0 1 27 Texas 308 0 1 28 Texas 430 0 1 29 Texas 644 0 1 30 Texas 515 0 1 Appendix. Datas struktur (objektet kost) V1 V2 V3 V4 1 Kansas 198 0 0 2 Kansas 126 0 0 3 Kansas 443 0 0 4 Kansas 570 0 0 5 Kansas 286 0 0 6 Kansas 184 0 0 7 Kansas 105 0 0 8 Kansas 216 0 0 9 Kansas 465 0 0 10 Kansas 203 0 0 11 Kentucky 563 1 0 12 Kentucky 314 1 0 13 Kentucky 483 1 0 14 Kentucky 144 1 0 15 Kentucky 585 1 0 16 Kentucky 377 1 0 17 Kentucky 264 1 0 18 Kentucky 185 1 0 19 Kentucky 330 1 0 20 Kentucky 354 1 0 21 Texas 385 0 1 22 Texas 693 0 1 23 Texas 266 0 1 24 Texas 586 0 1 9