Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Transkript

1 Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA Statistiska tester bygger alltid på vissa antaganden. Är feltermen homoskedastisk? Är den normalfördelad? Dessa antaganden är faktiskt aldrig uppfyllda i praktiken, åtminstone om vi ser på dem med matematikerns stränga ögon. Men vi behöver inte ligga sömnlösa. Normalfördelningsantagandet är bara kritiskt när vi jobbar med små datamaterial (tacka centrala gränsvärdessatsen!). Och om feltermen är heteroskedastisk så kan vi använda robusta standardfel och kommer då oftast att märka att inget dramatiskt förändrades. Men det finns ett antagande som däremot ofta har stor praktisk betydelse: Antagandet om att vi har dragit ett slumpmässigt sampel. Varför är det här antagandet så viktigt? Delvis handlar det om att samplet då kan antas likna populationen, åtminstone om vi drar ett tillräckligt stort sampel. Men vi behöver inte heller dra ett slumpmässigt sampel för att det här ska vara fallet; detta gäller också många andra samplingstrategier, till exempel klustrade sampel. Det som däremot skiljer slumpmässigt dragna sampel från klustrade sampel är antagandet om att vi gjort oberoende mätningar. Det kan här vara en poäng att repetera idén om oberoende mätningar: Den svenska reality-showen FC Z bygger på idén om att nördar är dåliga fotbollsspelare. Programmet går ut på att en känd fotbollsspelare tränar ett gäng nördar och i slutet spelar de en match mot Djurgården. Men är nördar dåliga fotbollsspelare? Kanske ligger det något i det. Vi har experimenterat med att låta nördar och övriga skjuta mot ett mål på 30 meters avstånd. Data visar antalet träffar (1) och missar (0): Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Bland nördarna har vi 2 träffar av 22. Bland övriga har vi 11 träffar av 22. Detta ser definitivt ut som en signifikant skillnad. Men låt oss nu säga att bland nördarna var alla skott förutom ett skjutna av Pelle (här utmärkt i rött):

2 Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Vi ser nu att det är fel att påstå att nördar är sämre på fotboll. Snarare visar experimentet att Pelle är dålig på fotboll. Det här exemplet visar vad som menas med beroende mätningar; att Pelle gjort de första 21 skotten gör dessa mätningar beroende de hänger ihop. Många tycker nog intuitivt att det känns fel att behandla detta datamaterial precis på samma sätt som om alla Pelles skott vore skjutna av olika nördar. Men det är inte bara när vi har flera mätningar för en och samma person som problemet uppstår. I det här kapitlet ska vi börja med att fundera över hur man hanterar klustrade sampel; en samplingstrategi som tenderar att generera just beroende mätningar.

3 22.1 KLUSTRADE SAMPEL OCH TEST GÄLLANDE MEDELVÄRDEN Figuren nedan illustrerar varför vi generellt sett inte kan behandla klustrade sampel på samma sätt som slumpmässigt dragna sampel. Vi kan tänka oss att rutfälten representerar en stad bestående av 25 stadsdelar. Figuren till vänster representerar ett slumpmässigt sampel av stadsborna. I figuren till höger har vi istället slumpmässigt valt ut fem stadsdelar och därefter samlat in data för personerna i de samplade stadsdelarna. Detta är alltså ett klusterurval. Bägge samplen består av 60 observationer, men det slumpmässiga samplet är mer representativt för staden i sin helhet. Det är som om det klustrade samplet egentligen innehöll färre observationer än det gör. Om vi inte beaktar detta så blir resultaten från de statistiska testerna missvisande. Låt oss säga att vi vill mäta genomsnittlig inkomst bland stadsborna. Då vi samplar stadsdelar så kan det hända att vi råkar få med oss en eller ett par stadsdelar där det bara bor rika personer, eller tvärtom, bara fattiga. Eller med andra ord: Vårt estimat (x ) varierar relativt kraftigt från ett sampel till ett annat beroende på vilka stadsdelar vi råkar sampla. Standardfelet bör reflektera detta, men det sker inte automatiskt. Då vi använder default-funktionerna i statistiska programpaket så behandlar programmet data som om det vore slumpmässigt draget; standardfelet blir då generellt sett för litet. Det kan vara värt att notera att det inte är något fel på vårt estimat (x ). Stickprovsmedelvärdet är fortfarande en väntevärdesriktig estimator, givet att vi samplat stadsdelarna slumpmässigt.

4 Exempel: Vi har en stad och från denna samplar vi slumpmässigt tio stadsdelar. Sen samlar vi in inkomstdata för personerna som bor i dessa. Vissa stadsdelar är större än andra, men i genomsnitt bor det 20 personer i varje stadsdel. Totalt består samplet alltså av 200 personer. Nedan visas ett utdrag av data: id id Inkomst (stadsdel) (inom stadsdelen) Vi vill nu estimera genomsnittlig inkomst i staden (µ). I populationen gäller att µ = 2000 (detta är ett fiktivt dataset). Men hur ser det ut i samplet? Tabellen nedan visar resultatet: Genomsnittsinkomsten är ~2103 euro och konfidensintervallet går från ~2031 till ~2176 euro. Som du märker så innehåller konfidensintervallet inte sanningen (µ = 2000). Det här beror inte bara på slumpen; problemet är att vi ignorerat klustringen. Det enklaste sättet att hantera klustrade sampel är att beräkna något som kallas för kluster-robusta standardfel eller klustrade standardfel.

5 Klustrade standardfel Ett klustrat standardfel är ett standardfel som beaktar att observationerna inom ett kluster korrelerar. I det här exemplet vill vi beakta att inkomsterna inom en stadsdel korrelerar 1. Nedan visas resultatet då vi använder klustrade standardfel i STATA: Vi kan jämföra detta med det förra resultatet. Medelvärdet är samma (~2103) men standardfelet har mer än fördubblats (från ~37 till ~84). Detta ger oss ett bredare konfidensintervall som nu innefattar sanningen (µ = 2000) precis som vi skulle förvänta oss. Klustrade standardfel är ett sätt att hantera klustringen. En annan populär metod är det som kallas för slumpeffektsestimatorn: Slumpeffekter (eng. random effects) Utskriften nedan visar resultatet då vi använder det som kallas för slumpeffekts-estimatorn. 2 Här har vi kört en regression med bara ett intercept och inga oberoende variabler; interceptet blir då estimatet för µ. 1 Tänk dig att vi samplar en massa stadsdelar och två personer från varje stadsdel. Sen ritar vi upp data i ett spridningsdiagram där vi lägger den ena personens inkomst på x-axeln och den andras på y-axeln. Hur skulle ett sådant spridningsdiagram se ut? Jo, tänk dig nu att vissa stadsdelar är rika och andra fattiga. I de rika stadsdelarna bor det mestadels rika personer och i de fattiga mestadels fattiga. Vi skulle då se en positiv korrelation i vårt spridningsdiagram: Om en person är rik så gäller detta sannolikt också den andra, och tvärtom. 2 Det finns egentligen inget riktigt etablerat namn på svenska, men slumpeffekts-estimatorn används ibland. Det engelska namnet är betydligt kändare: Random effects estimator

6 Estimatet ligger på ~2091 euro vilket skiljer sig lite från tidigare. Varför? Jo, slumpeffekts-estimatorn viktar observationerna annorlunda än ett enkelt medelvärde. En stor stadsdel får större tyngd än en liten, men korrelationen i inkomster inom stadsdelar spelar också roll. Låt oss fundera lite mer på vad det här betyder. I tabellen ovan ser vi en korrelationskoefficient (rho = 0,43). Denna visar att 43 procent av variationen i inkomster kan förklaras av klyftorna mellan olika stadsdelar. För att se varifrån den här siffran kommer så är det användbart att utgå från en modell som beskriver data: Inkomst ij = μ + v ij, där v ij = u i + ε ij där i = 1, 2,, 10 och j = 1, 2,, J i i är ett index för stadsdel (stadsdel 1, 2,..., 10) och j är ett index för individer (med 20 personer från en stadsdel så har vi j = 1, 2,..., 20 för den stadsdelen). Genomsnittsinkomsten ligger på 2000 euro (μ = 2000) och v ij är feltermen som visar hur mycket en persons inkomst avviker från Vi kan dela in feltermen i två komponenter; en som är specifik för varje stadsdel (u) och en som är specifik för varje individ inom den stadsdelen (ε). Anta att en viss stadsdel har en genomsnittsinkomst på 2100 euro och att en viss person från denna stadsdel tjänar 2150 euro. För denna person har vi att u = 100 och ε = 50.

7 Man kan nu visa att korrelationen i inkomster mellan två slumpmässigt utvalda personer från samma stadsdel ges av 3 : Corr(Inkomst ia, Inkomst ib ) = Corr(v ia, v ib ) = σ u 2 σ u 2 + σ ε 2 Här har vi indexerat den första personen med a och den andra med b. σ u 2 är variansen i inkomster mellan stadsdelar; σ ε 2 är variansen i inkomster inom stadsdelar. Den här korrelationen beskriver hur stor andel av den totala variationen i inkomster (σ u 2 + σ ε 2 ) som kan förklaras av variationen mellan stadsdelar (σ u 2 ). Man kallar detta för inomklasskorrelationen (engelska: intraclass correlation, ICC). I det här exemplet var inomklasskorrelationen 0,43: 2 Corr(v s u ia, v ib ) = s 2 u + s2 = 345,6 2 ε 345, ,3 2 0,43 Den här korrelationen lär oss om hur inkomsterna är fördelade över invånarna i den här staden. Finns det stora klyftor i inkomster mellan stadsdelar (Manhattan kontra Bronx) eller hittas variationen främst mellan individer? Det finns här två extremfall: Inomklasskorrelationen är 0 och inomklasskorrelationen är 1. 4 Om inomklasskorrelationen är 0 så betyder det att det inte finns några skillnader i inkomster mellan olika 3 Det här uttrycket gäller givet vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel stadsdelar (iid), och att personerna från en sådan stadsdel kan betraktas som ett slumpmässigt urval (iid) där variansen i inkomster är lika stor för varje stadsdel. 4 Inomklasskorrelationen kan inte bli negativ; vi beräknar ju den som en kvot mellan varianser.

8 stadsdelar. Vårt slumpeffekts-estimat blir då ett enkelt stickprovsmedelvärde. Om inomklasskorrelationen är 1 så betyder det att alla individer från samma stadsdel har identiska inkomster. Vårt slumpeffekts-estimat blir då inkomsten för en genomsnittlig stadsdel. Varifrån kommer namnet (slumpeffekter)? Jo, med en slumpeffekt så avser man den stadsdelsspecifika komponenten av feltermen, dvs. u i i modellen nedan: Inkomst ij = μ + v ij, där v ij = u i + ε ij När vi samplar en stadsdel så är det slumpen som avgör om stadsdelen i fråga är rik eller fattig beroende på vilken stadsdel vi råkar sampla. Därför är u i en slumpmässig avvikelse från medelvärdet (μ) eller en slumpeffekt. 5 5 För att vara korrekt så är slumpeffekts-estimatorn egentligen en familj av estimatorer. Det finns olika sätt att beräkna inomklasskorrelationen vilket i sin tur kommer att påverka estimatet för μ. En sådan metod förkortas GLS (från engelskans generalized least squares). En annan sådan metod förkortas MLE (från engelskans maximum likelihood estimator). Regressionsutskriften ovan visar att vi använt GLS vilket är default-funktionen i STATA.

9 22.2 REGRESSIONER MED KLUSTRADE SAMPEL Innan vi ser på hur man kan köra regressioner med klustrade sampel så kan det vara en idé att göra en uppdelning mellan två typer av regressionsmodeller: behandling på gruppnivå och behandling på individnivå. Vi ser bäst skillnaden genom ett exempel. Exempel: Är erfarna lärare bättre? Vi vill studera denna fråga och samplar 100 klasser i årskurs nio, sedan samlar vi in data för eleverna i de samplade klasserna. För varje elev mäter vi resultatet på ett nationellt matteprov samt mattelärarens arbetserfarenhet. I regressionsmodellen nedan så är erfaren en dummy som antar värdet 1 om läraren har minst fem års erfarenhet och annars värdet 0. Utfallsvariabeln (poäng) mäter elevens resultat på matteprovet. i indexerar klasser och j elever. poäng ij = β 0 + β 1 erfaren i + v ij där v ij = u i + ε ij I det här fallet mäts behandlingen på gruppnivå; alla elever i samma klass har samma lärare; det finns ingen variation i lärarens erfarenhet inom klasser (därför har vi bara ett index, i, för den här variabeln). Men anta istället att syftet är att mäta om det finns en könsskillnad i matteresultat: poäng ij = β 0 + β 1 flicka ij + v ij där v ij = u i + ε ij Behandlingen mäts nu på individnivå, dvs. det finns både flickor och pojkar inom en och samma klass. Behandling på gruppnivå Då behandlingen mäts på gruppnivå så använder vi samma metoder som tidigare; OLS med klustrade standardfel eller slumpeffekts-estimatorn. Exempel forts: Är erfarna lärare bättre? Tabellen nedan visar resultatet då vi använder (1) OLS med konventionella standardfel, (2) OLS med klustrade standardfel och (3) slumpeffekts-estimatorn (RE).

10 (1) (2) (3) VARIABLER OLS OLS + RE klustrat Erfaren 6.967*** 6.967** 7.513*** (0.831) (2.739) (2.420) Intercept 69.00*** 69.00*** 68.31*** (0.707) (2.418) (2.054) Observationer 1,500 1,500 1,500 R Antal klasser 100 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Som du ser så är estimaten ungefär lika stora i alla tre kolumner (och identiska i kolumn 1 och 2). Den stora skillnaden ligger i standardfelen; dessa är på tok för små då vi använder OLS med konventionella standardfel (1). Hur tolkar vi estimaten? Estimaten tolkas på samma sätt oavsett estimator: Matteresultatet är i snitt ~7 poäng högre då läraren är erfaren. Slumpeffekts-estimatorn ger dock ett lite annorlunda estimat vilket beror på viktningen. Inget hindrar oss här från att kontrollera för andra x-variabler. I tabellen nedan visas resultaten då vi kontrollerat för ln(inkomst) (genomsnittlig inkomst i kommunen, mätt på en loggad skala) och elever (antalet elever på klassen). Vi har också inkluderat två variabler mätta på elevnivå: flicka (en dummy för flickor) och betyg (elevens snittbetyg i andra ämnen än matematik). Återigen blir de konventionella standardfelen alldeles för små, åtminstone för de variabler som mäts på klassnivå.

11 (1) (2) (3) VARIABLER OLS OLS + RE klustrat Klassnivå: Erfaren 3.471*** 3.471*** 3.407** (0.643) (1.215) (1.357) Ln(inkomst) 27.65*** 27.65*** 28.10*** (0.861) (2.690) (1.859) Elever ** (0.0726) (0.180) (0.152) Elevnivå: Flicka (0.568) (0.565) (0.508) Betyg 2.825*** 2.825*** 2.787*** (0.409) (0.335) (0.365) Intercept *** *** *** (7.203) (20.66) (14.07) Observationer 1,500 1,500 1,500 R Antal klasser 100 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Låt oss titta närmare på resultatet från modellen som använder slumpeffekter (RE). I tabellen nedan har vi estimerat tre modeller: (1) En modell som bara innehåller ett intercept, (2) en modell som inkluderar alla variabler på klassnivå och (3) en modell som dessutom inkluderar kontrollvariablerna på elevnivå.

12 (1) (2) (3) VARIABLES RE RE RE Klassnivå: Erfaren 3.478** 3.407** (1.357) (1.357) Ln(inkomst) 27.90*** 28.10*** (1.860) (1.859) Elever (0.152) (0.152) Elevnivå: Flicka (0.508) Betyg 2.787*** (0.365) Intercept 73.72*** *** *** (1.133) (13.77) (14.07) Observations 1,500 1,500 1,500 Antal klasser ICC Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Notera att inomklasskorrelationen (ICC) varierar mellan specifikationerna. I den första modellen (1) är inomklasskorrelationen 0,56: 56 procent av variationen i poäng kan förklaras av skillnader mellan klasser och resten förklaras av skillnader mellan elever som tillhör samma klass. I nästa kolumn (2) inkluderar vi de oberoende variablerna som mäts på klassnivå. Inomklasskorrelationen sjunker nu till 0,23; efter att vi inkluderat lärarens erfarenhet, hur rik kommunen är och antalet elever i klassen så kan 23 procent av den resterande variationen i poäng förklaras av skillnader mellan klasser. Ju fler variabler vi inkluderar på klassnivå desto lägre blir inomklasskorrelationen, dvs. vi har då förklarat varför vissa klasser klarar sig bättre än andra och då kvarstår mindre övriga svängningar mellan klasserna. I den sista kolumnen (3) har vi inkluderat kontrollvariablerna som mäts på elevnivå vilket här gör att inomklasskorrelationen återigen ökar marginellt (från 0,23 till 0,24). Inomklasskorrelationen beskriver alltså hur stor andel av den oförklarade variationen i antalet poäng som kan härledas till

13 skillnader mellan klasser kontra skillnader mellan elever inom samma klass. Låt oss ännu se på hur resultatet från den sista regressionen (3) kan se ut i ett statistiskt programpaket (STATA): Från regressionsutskriften ser vi att regressionsmodellen har signifikant förklaringsstyrka: Wald chi2 = 319,19; p-värdet = 0,000. Wald chi2 är alltså motsvarigheten till F-testet då vi använder OLS. Vi ser också att antalet elever i klassen inte har signifikant effekt på poängresultatet: z = -0,90; p-värdet = 0,371. Z-värdet är alltså motsvarigheten till t-värdet då vi använder OLS. [Notering: Data från exemplet ovan är fejkat.] Klustrade standardfel eller slumpeffekts-estimatorn? Vi har sett två olika metoder för att hantera klustring: OLS med klustrade standardfel och slumpeffekts-estimatorn. Så vilken metod är bättre? I praktiken har det sällan någon större betydelse. En fördel med klustrade standardfel är att de samtidigt hanterar eventuell heteroskedasticitet. Slumpeffektsestimatorn å andra sidan är generellt sett effektivare, vilket betyder att vi tenderar få något mer träffsäkra estimat med denna metod. Men det finns heller inget som hindrar oss från att kombinera bägge metoderna, dvs. använda slumpeffekts-

14 estimatorn tillsammans med klustrade standardfel. Detta kan ses som ett sätt att täta igen alla möjliga hål. Vi använder slumpeffekts-estimatorn som potentiellt är effektivare än OLS, men om våra antaganden om feltermen inte riktigt stämmer så hanteras detta av de klustrade standardfelen. Behandling på observationsnivå fixa effekter Om behandlingen däremot sker på observationsnivå så finns det ytterligare ett tredje sätt att hantera klustringen: Fixa effekter. Exempel forts: Anta i exemplet ovan att vårt mål är att mäta könsskillnaden i matteresultat: poäng ij = β 0 + β 1 flicka ij + v ij där v ij = u i + ε ij x-variabeln av intresse (flicka) mäts nu på elevnivå. Ett alternativt sätt att hantera klustringen är då att estimera en regression med klassfixa effekter; vi inkluderar då en dummyvariabel för varje klass, vilket i det här fallet betyder 99 dummyvariabler (där en av klasserna blir referens): poäng ij = β 0 + β 1 flicka ij + klassfixa effekter + ε ij Nedan visas resultatet i STATA: Koefficienten för flicka är ~0,4: Flickor snittar ~0,4 poäng högre än pojkar på matteprovet, men skillnaden är inte signifikant (t = 0,70, p-värdet = 0,481). (Även om STATA inte skriver ut

15 klasseffekterna i regressionsutskriften, så har de ändå tagits med.) I regressionen nedan har vi ännu inkluderat de andra oberoende variablerna: Om läraren är erfaren eller inte, hur rik kommunen är (linkomst), antalet elever på klassen och elevens genomsnittliga betyg i andra ämnen: Notera här att STATA slänger bort tre x-variabler: erfaren, linkomst och elever. Det här är alla sådana variabler som mäts på klassnivå. Varför har STATA slängt dessa? Jo, vi har ju kontrollerat för vilken klass en elev går i. När vi mäter effekten av att vara flicka så betyder det att vi ställer oss frågan: Om jag jämför personer som går i samma klass, ser jag då att flickor i snitt presterar bättre eller sämre än pojkar? Och när vi mäter effekten av att ha en erfaren lärare så ställer vi oss frågan: Om jag jämför personer som går i samma klass, ser jag då att de med en erfaren lärare klarar sig bättre eller sämre än de med en oerfaren? Men det här blir ju en omöjlig fråga att besvara alla som går i samma klass har samma lärare! Därför kan vi inte mäta den här effekten, eller effekten av någon sådan variabel som har samma värde för alla som går i samma klass. Det här är ett exempel på det som kallas för perfekt multikollinearitet: Vi kan inte identifiera en viss effekt eftersom det inte finns någon variation i den variabeln, efter att vi kontrollerat för en eller flera andra variabler. I det här

16 exemplet finns det, till exempel, ingen variation i antalet elever i klassen då vi jämför elever från samma klass. Är det då ett problem att vi inte kan kontrollera för erfaren, linkomst och elever? Nej. Genom att inkludera klassfixa effekter så kontrollerar vi ändå indirekt för alla dessa variabler: Om vi jämför elever från samma klass så jämför vi samtidigt elever med samma lärare, elever som kommer från lika rika kommuner och som går i lika stora klasser. Vi kontrollerar alltså för allt sådant som är gemensamt för alla elever som går i samma klass. Det här är också den största fördelen med att använda just fixa effekter: Vi kontrollerar då automatiskt för allt sådant som är konstant inom klasser. Eller med andra ord: Vi utnyttjar bara variationen inom klasser. Det här är också anledningen till att fixa effekter är populärt när man jobbar med den här typen av data. Finns det då någon nackdel med att använda fixa effekter? Ja, ibland kan kostnaden bli ett stort standardfel. Anta i det här exemplet att det bara finns lite variation i kön inom klasser. Det här knappast fallet i Finland, men i många andra länder är det vanligt med könssegregerade klassrum. I det fallet skulle vi antagligen få ett stort standardfel: Det finns helt enkelt inte särskilt mycket variation i kön inom klassrummen (och det är ju den variationen vi utnyttjar när vi mäter könsskillnaden i matteresultat). I så fall kan man argumentera att slumpeffektsestimatorn eller OLS med klustrade standardfel är att föredra. Det går också bra att kombinera fixa effekter med klustrade standardfel. På så vis får vi ett standardardfel som dessutom hanterar eventuell heteroskedasticitet ATT ANVÄNDA GRUPPEN SOM SIN EGEN KONTROLL PANELDATA -