Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter. Ej identisk fördelning p g a möjliga förändringar av de olika variablerna över tiden, något som i praktiken kan hanteras med hjälp av dummyvariabler. Alternativ 2: Paneldata (longitudinella data, repeated measures). Samma individer (hushåll, företag) som observeras vid olika tidpunkter. Oberoende draget stickprov vid ena tillfället men inte oberoende mellan de olika tidpunkterna. Icke observerbara egenskaper hos en individ kan antas påverka beteenden vid samtliga tidpunkter. Kräver mer komplicerade modeller och metoder. 1

Notera betydelsen av balanserad obalanserad panel liksom också betydelsen av kort panel (N >T) och lång panel (T > N) Fördelar med poolade data: - Större datamängder (gäller båda alternativen) - Möjlighet att analysera ett antal olika frågeställningar som inte kan analyseras enbart med hjälp av tvärsnittsdata eller tidsseriedata (gäller båda alternativen men i högre grad för paneldata) - Erbjuder möjligheter att minska problem med multikolinjäritet (gäller paneldata) - Erbjuder en möjlighet att reducera problem med bias orsakad av utelämnade relevanta variabler och därmed också en lösning på problem med heterogenitet 2

Tre typer av variabler: Individspecifika (time-invariant) oberoende av tiden, varierar mellan individer (ex kön, födelseort) Tidspecifika individoberoende, varierar över tiden (ex inflationsnivå). Notera dock att om med individ avses ett land gäller inte detta. Världskonjunkturläget kan vara ett bättre exempel.) Individspecifika tidspecifika, varierar både över tiden och mellan individer (ex företagens vinster). 3

Vanliga estimatorer vid paneldata; - Pooled OLS - Between Estimator - Within Estimator/Fixed Effects Estimator The fixed effects within-group model/least square dummy variable approach - First-Differences Estimator (Fixed Effects estimator o First-Differences estimator ger samma resultat om T = 2) - Random Effects Estimator - Panel-Robust Statistical Inference De statistiska egenskaperna hos olika estimatorer varierar med val av (panel)datamodell och med hur icke-observerbara effekter behandlas. Notera att i de modeller som diskuteras nedan antas regressorerna vara starkt exogena, (E[u it i, x i1,.x it ] = 0). 4

Modeller för paneldata; y it = it + x it it + u it, i = 1,...N, t = 1,,T Generell modell, tillåter intercept och lutningskoefficienter att variera med både N och T men, modellen är för generell för att kunna skattas, någon form av restriktioner måste anges; (1) y it = + x it + u it En poolad modell där restriktionerna består i antagandet om konstanta koefficienter. Här behandlas datamaterialet som ett enda stort tvärsnittsmaterial. Om modellen är korrekt specificerad och regressorerna är okorrelerade med slumptermen ger pooled OLS konsistenta skattningar. Notera dock behovet av korrigering av standardavvikelser för möjligheter till hypotestest (flera korrigeringsmetoder möjliga, valet beror på egenskaper hos data i den aktuella panelen). 5

N (2) y it = j d j, it + s d s, it + x it + u it j=1 s=2 T Individ- och tids-dummies, som tillåter intercepten att variera mellan individer och över tiden. Modellen har N individ-dummies och T-1 tids-dummies (om en interceptterm inkluderas måste en av de N individdummyvariablerna tas bort). Om N är stort relativt T (om vi har en kort panel ) kan istället dummyvariabler för olika grupper formuleras. (3) y it = i + x it it + u it Variant av föregående modell, men nu endast individdummyvariabler (alla tidsaspekter antas ingå i x, i indikerar olika intercept som fångar upp ickeobserverbar heterogenitet mellan individer fixed effects model, FEM, (related effect model). Även om i antas korrelera med en eller flera regressorer i x, ger formuleringen konsistenta skattningar av i o it. 6

(4) y it = + x it + i + u it = + x it + v it Om heterogeniteten mellan individer däremot är okorrelerad med övriga variabler i modellen och man kan anta att; i ~ [, 2 ] och u it ~ [0, 2 u] kan modellen istället formuleras som en random effects model, REM, (random intercept model, random component model, unrelated effect model). Modellen kan ses som en specialvariant av den poolade modellen men där slumptermen ges av v it = i + u it Observera att i inte är direkt observerbar utan istället en latent variabel. Observera också att vi kan lägga till dummyvariabler som beaktar variation över tiden (gäller dock även FEM) och dessutom att vi nu kan låta den typ av individspecifika variabler (den typ av heterogenitet mellan individer) som är möjliga att mäta ingå som förklaringsvariabler i modellen. 7

Hausmans test kan användas för att testa om heterogenitet mellan individer är okorrelerad med övriga variabler i modellen H 0 ; ingen korrelation föreligger (ingen skillnad mellan FEM och REM) mot H a ; förekomst av korrelation (skillnad mellan FEM o REM) 8

Fixed versus Random Effects Models Om y it = c i + x it it + u it så är E[y it c i, x it ] = c i + x it it Den individspecifika effekten c i är okänd och kan inte skattas på en konsistent sätt om vi har en kort panel. Däremot kan vi eliminera c i om vi istället utgår ifrån E[y it x it ] = E[c i x it ] + x it it För Random Effects modellen antas att E[c i x it ] = E[y it x it ] = + x it it dvs vi har här nu möjlighet att identifiera E[y it x it ]. 9

För Fixed Effects modellen varierar E[c i x it ] med x it på ett sätt som är okänt för oss och vi kan därför inte identifiera E[y it x it ]. Däremot är det möjligt att få konsistenta skattningar av vid Fixed Effects estimation även vid korta paneler. Det är också möjligt att identifiera marginaleffekten = E[y it c i,x it ]/ x it även om vi inte kan identifiera det betingade väntevärdet för y it givet c i, x it. Dvs det är exempelvis möjligt att identifiera effekten av ytterligare ett års utbildning (effekten av en förändring i en x-variabel) givet ett antal individspecifika egenskaper även om vi inte kan mäta effekten av dessa var för sig. I korta paneler (N > T) alltså bara möjligt att identifiera marginaleffekter för regressorer som varierar över tiden, vi kan inte identifiera marginaleffekter av kön etc (ingår i fixed effect ansatsens individdummy, men kan inte skiljas från andra individspecifika effekter). 10

Paneldata för andra strukturer än över N och T Istället för T, antag att vi observerar syskon(tvilling)par: Ger möjlighet att beakta familjeeffekter ; Syskonspecifika egenskaper som inte varierar över olika familjemedlemmar (syskon) men som varierar mellan olika familjer (olika syskonpar). N är antal familjer, T är antal syskon Ibland kallad klusteranalys; varje individ hör till ett väldefinierat kluster Ex: 1 = 1 om familj 1, = 0 annars 2 = 1 om familj 2, = 0 annars...osv ger fixed effects Även difference in differences och within estimation. 11

Balanserade och obalanserade paneler Med en balanserad panel menas att data finns tillgängliga för varje individ och år. För t ex paneldata för olika regioner (länder etc) gäller detta ofta. För undersökningar baserade på individnivå vanligare med en obalanserad problem attritionsproblem om individer med vissa typiska egenskaper hoppar av efter några perioder. Även en roterande panel (individer byts ut successivt) är f ö ett exempel på en obalanserad panel. Givet att antagandet om starkt exogena regressorer fortfarande håller kan såväl fixed- som random effects estimatorer användas på samma villkor som vid balanserade paneler med relativt små justeringar. Men, detta löser egentligen inte problem med attrition. 12

Repeated Cross Sections nya individer (företag ) varje period. Random effects estimation förenklad eftersom oberoende över både i och t (inga individspecifika variabler) och ingen korrelation över tiden. Behöver bara korrigera för heteroskedasticitet. Fixed effects estimation ger nu inkonsistenta skattningar (vilket även gäller within och first differenses estimation) eftersom den enskilda individen bara observeras vid en tidpunkt. Pseuodo Paneler (syntetiska paneler) En möjlighet att konstruera repeated cross section data så att vissa fördelar med genuina paneler (särskilt möjlighet att kontrollera för tidsspecifika egenskaper) kan fås. Cohort-level data kan under vissa förutsättningar vara en möjlig sådan konstruktion. Ex: Kvinnor födda mellan 1970 och 1975 kan representera en kohort inte samma individer varje period men tillhörighet till kohorten ett krav. 13