Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Relevanta dokument
Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

ÖVNINGSUPPGIFTER KAPITEL 4

Sänkningen av parasitnivåerna i blodet

Lektionsanteckningar 11-12: Normalfördelningen

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

HYPOTESPRÖVNING sysselsättning

ÖVNINGSUPPGIFTER KAPITEL 10

ÖVNINGSUPPGIFTER KAPITEL 6

MVE051/MSG Föreläsning 14

InStat Exempel 4 Korrelation och Regression

ÖVNINGSUPPGIFTER KAPITEL 6

ÖVNINGSUPPGIFTER KAPITEL 8

ÖVNINGSUPPGIFTER KAPITEL 10

ÖVNINGSUPPGIFTER KAPITEL 10

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 12: Regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

ÖVNINGSUPPGIFTER KAPITEL 7

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

ÖVNINGSUPPGIFTER KAPITEL 12

Samplingfördelningar 1

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

, s a. , s b. personer från Alingsås och n b

Föreläsning G60 Statistiska metoder

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

F11. Kvantitativa prognostekniker

Höftledsdysplasi hos dansk-svensk gårdshund

ÖVNINGSUPPGIFTER KAPITEL 9

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Regressionsanalys av lägenhetspriser i Spånga

Repetitionsföreläsning

Laboration 4 R-versionen

Föreläsning 12: Linjär regression

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

MVE051/MSG Föreläsning 7

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Grundläggande matematisk statistik

Tillämpad statistik (A5), HT15 Föreläsning 22: Tidsserieanalys I

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Regressions- och Tidsserieanalys - F1

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Kapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Regressions- och Tidsserieanalys - F1

Metod och teori. Statistik för naturvetare Umeå universitet

Medicinsk statistik II

ÖVNINGSUPPGIFTER KAPITEL 2

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Fråga nr a b c d 2 D

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Statistisk försöksplanering

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Föreläsning 7. Statistikens grunder.

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Statistisk försöksplanering

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

F19, (Multipel linjär regression forts) och F20, Chi-två test.

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Transkript:

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population där feltermen har väntevärde 0 för alla värden på x: E(u x) = 0. Och vi antar att feltermen är homoskedastisk. Om dessa antaganden är uppfyllda så är OLS-estimatorn väntevärdesriktig och de traditionella standardfelen är giltiga. Dessutom säger man då att OLS-estimatorn är BLUE (best linear unbiased estimator) vilket betyder att OLS-estimatorn är väntevärdesriktig och mer träffsäker än alla andra linjära estimatorer. 1 När bryter vi mot dessa antaganden i praktiken? Om vi, till exempel, använt fel funktionell form så bryter vi mot antagandet om att E(u x) = 0. Då är OLS-estimatorn inte längre väntevärdesriktig. Men som vi sett i kapitel 15 så kan vi ofta transformera data för att få en bättre beskrivning av sambandet mellan x och y. Att använda en kvadratisk funktion är ett exempel på en sådan transformation. Om feltermen är heteroskedastisk så är de konventionella standardfelen inte längre giltiga; vi kan då få större t-värden och lägre p-värden än vi egentligen borde ha (eller tvärtom). Det här kan låta rätt illa, men som vi kommer att se i det här kapitlet så finns det en enkel lösning. 1 Ibland brukar man också nämna ännu ett antagande: Att feltermen är normalfördelad. Det här antagandet ser till att samplingfördelningen för regressionskoefficienten också är normalfördelad, vilket behövs när vi vill testa om sambandet i data är signifikant. Men som vi har sett så är det här antagandet mindre kritiskt i praktiken; om vi bara drar ett tillräckligt stort sampel så ser centrala gränsvärdessatsen till att samplingfördelningen är approximativt normalfördelad i alla fall.

17.1 ATT UPPTÄCKA HETEROSKEDASTICITET Heteroskedasticitet betyder att feltermsvariansen skiljer sig mellan olika värden på x. Vi ser detta genom att spridningen i data runt regressionslinjen varierar mellan olika värden på x. Nedan visas två exempel på detta. I figur A är spridningen i data större för höga värden på x. Figur B bygger på samma data, men här har vi ritat upp residualerna mot x. Spridningsdiagram C är också ett exempel på heteroskedasticitet. Här antar x fyra olika värden (1, 2, 3 och 4) där spridningen i data är som störst för värdena 2 och 4, och som lägst för värdena 1 och 3. Figur D bygger på samma data, men här har vi ritat upp residualerna mot x. Om vi har en multipel regression så betyder homoskedasticitet att feltermsvariansen är lika stor för alla kombinationer av värden på x-variablerna. Man kan då grafiskt upptäcka heteroskedasticitet genom att rita upp residualerna mot olika x- variabler eller mot de predikterade värdena på y. Det finns också formella tester som kan upptäcka heteroskedasticitet. Två kända är Whites och Breush-Pagans tester. Vi kommer dock inte att diskutera dessa här, för som vi kommer att se i nästa avsnitt så är det inte heller avgörande att veta om feltermen de facto är homo- eller heteroskedastisk.

17.2 VAD GÖRA? Det finns tre vanliga sätt att hantera heteroskedasticitet: 1) Heteroskedasticitets-robusta standardfel 2) Transformera data (logaritmera utfallvariabeln) 3) Viktning Heteroskedasticitets-robusta standardfel De flesta statistiska programpaket kan i dag räkna ut det som kallas för heteroskedasticitets-robusta standardfel eller kortare robusta standardfel (andra namn är White standardfel eller Huber-White standardfel). Och det räcker vanligtvis med ett knapptryck. De robusta standardfelen är konsistenta oavsett om feltermen är homo- eller heteroskedastisk, och oavsett vilken typ av heteroskedasticitet det i så fall är frågan om. De robusta standardfelen är oftast större än de konventionella, men i de flesta fall är skillnaden inte särskilt dramatisk. Nedan visas resultatet från två körningar baserade på samma data som i spridningsdiagram A (avsnitt 17.1). Det här är alltså ett datamaterial som karaktäriseras av stark heteroskedasticitet. I den första körningen har vi inte justerat för detta och fått ett standardfel på ~32. I den andra körningen har vi justerat för heteroskedasticitet och fått ett robust standardfel på ~36. Det här påverkar också t-värdet som minskar från 7,00 till 6,35; F-värdet minskar också. Notera dock att regressionslinjen (interceptet och regressionskoefficienten) förblir oförändrad.

Så när ska man använda robusta standardfel istället för konventionella? Vi använder robusta standardfel åtminstone om dessa skiljer sig på ett betydelsefullt sätt från de konventionella. Men om skillnaden är marginell så har det förstås ingen praktisk betydelse. 2 Logaritmera utfallsvariabeln Genom att logaritmera utfallsvariabeln kan vi ibland stabilisera feltermsvariansen. Figuren nedan illustrerar varför. Här tittar vi på sambandet mellan antalet skolår och lön. Spridningsdiagrammet bygger på data för 3010 amerikanska löntagare. 2 Varför någonsin använda konventionella standardfel om de robusta alltid är giltiga? Anta att vi använder konventionella standardfel. Om feltermen då är homoskedastisk och normalfördelad så kommer t- statistikan att följa en exakt t-fördelning, dvs. ge oss exakta p-värden. Med robusta standardfel får vi i detta exempel approximativa p-värden som blir mer pricksäkra ju större samplet är.

Figuren visar att spridningen i data ökar med antalet skolår. I det här fallet finns det en naturlig förklaring: Lönen ökar inte linjärt med antalet skolår, utan snarare exponentiellt; antalet skolår har alltså en procentuell effekt på lönen. Men det här betyder också att spridningen i data tenderar öka med antalet skolår. Varför? Jo, anta att lönen i snitt ökar med 5 procent för varje extra skolår. För vissa är lönen kanske någon procentenhet större än predikterat, för andra någon procentenhet lägre. Men sådana procentuella avvikelser kommer absolut sett att synas mer ju högre lönen är (1 procent av 1000 är 10; 1 procent av 10 000 är 100.) Vi kan dock eliminera den här typen av heteroskedasticitet genom att mäta lönen på en logaritmerad skala, vilket vi gjort i figuren nedan. (Nu kanske det ser ut som att spridningen i data fortfarande ökar med antalet skolår, men detta är inte fallet. Illusionen beror på att vi har fler observationer för personer med många skolår.)

Viktning för aggregerade data Viktad regression betyder att man ger olika vikter till olika observationer. Anta att du vill mäta sambandet mellan arbetslöshet och brottslighet och använder data för olika länder i världen. Men ska Andorra verkligen få samma vikt som USA eller Kina? Eller säg att du har data för olika företag och mäter sambandet mellan satsningar på FoU och företagets produktivitet. Men ska Bosses bilfirma verkligen få samma vikt som Microsoft? När vi på det här sättet har aggregerade data så är det inte ovanligt att man väljer att ge olika vikt till olika observationer. Med aggregerade data avses att utfallsvariabeln är ett slags medelvärde (t.ex. antalet brott per 1000 invånare, vinst per anställd). Exempel: Vi vill studera ojämlikheten inom den svenska skolan. Spridningsdiagrammet nedan bygger på data för 290 svenska kommuner och beskriver sambandet mellan kommunens medianinkomst och genomsnittligt antal meritpoäng bland elever i årskurs nio, där medianinkomsten mäts på en logaritmerad skala. Nedan ges regressionslinjen med standardfelet inom parentes: meritpoäng = 355 + 47 ln (medianinkomst) (7,5) Då medianinkomsten ökar med en procent så ökar meritpoängen i snitt med 0,47 poäng. Det här är ett signifikant samband (t = 47/7,5 = 6,27; p-värdet 0,000). I regressionen nedan har vi istället gett större vikt till kommuner med många niondeklassare: En kommun med 200 nionde-

klassare har fått dubbelt så stor vikt som en kommun med 100 niondeklassare som i sin tur har fått dubbelt så stor vikt som en kommun med 50 niondeklassare. Det här är ett exempel på en viktad regression (WLS, weighted least squares). Spridningsdiagrammet nedan illustrerar data, där storleken på en cirkel är proportionerlig mot antalet niondeklassare i den kommunen. Regressionslinjen ges nu av: meritpoäng = 716 + 77 ln (medianinkomst) (7,0) Då medianinkomsten ökar med 1 procent så ökar meritpoängen i snitt med 0,77 poäng. Det här är ett signifikant samband (t = 77/7,0 = 11,0; p-värdet 0,000). Många upplever nog intuitivt att viktning är rimligt då vi jobbar med data på kommun- eller landsnivå. Men vad har viktning egentligen med heteroskedasticitet att göra? Jo, när vi viktar så tänker vi oss att stora kommuner (med många niondeklassare) har mer att berätta om det samband som vi vill mäta. Anta att vi har en liten kommun med bara ett fåtal niondeklassare. Då är det möjligt att alla dessa elever bara av slumpen råkar ha höga meritpoäng (även om medianinkomsten skulle vara låg i den kommunen). Eller tvärtom så kanske alla råkar ha låga meritpoäng. För små kommuner kommer det genomsnittliga antalet meritpoäng att variera mer beroende på slumpmässiga tillfälligheter. Om vi däremot har en stor kommun, säg miljontals niondeklassare, så får slumpen inte samma möjlighet att styra utfallet. Vi kan också se detta i data; när vi jämför det genomsnittliga antalet meritpoäng från ett år till ett

annat så ser vi klart större variation i små kommuner än i stora. Man kunde på sätt och vis säga att en stor kommun talar mera sanning än en liten. Eller på ekonometrispråk: Feltermsvariansen är lägre för stora kommuner än för små. Det här beaktar vi genom att ge större vikt till stora kommuner. På det här viset kan vi få lägre standardfel, dvs. säkrare estimat; vi ger ju större tyngd åt mer informativa kommuner. Detta är också vad som hände i det här exemplet där standardfelet sjönk från 7,5 till 7,0. När vi på det här sättet använder viktad regression så kommer vi dessutom att få en homoskedastistisk felterm givet att feltermsvariansen faktiskt sjunker i proportion till antalet niondeklassare i kommunen. Det här antagandet är kanske inte alltid helt realistiskt, men det finns då inget som heller hindrar oss från att kombinera viktning med robusta standardfel. Det går förstås också bra att inkludera flera oberoende variabler i den här typen av viktade regressioner. Nedan har vi också kontrollerat för antalet niondeklassare i kommunen (mätt på en loggad skala):