Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.



Relevanta dokument
Paneldata och instrumentvariabler/2sls

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

STATISTISK ANALYS AV KOMPLEXA DATA

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 11: Mer om jämförelser och inferens

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

STATISTISK ANALYS AV KOMPLEXA DATA

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

7.5 Experiment with a single factor having more than two levels

Verksamhetsutvärdering av Mattecentrum

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

STATISTISK ANALYS AV KOMPLEXA DATA

Föreläsning 12: Repetition

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Dekomponering av löneskillnader

Föreläsning 12: Regression

Föreläsning 7: Punktskattningar

Tentamen Tillämpad statistik A5 (15hp)

Working Paper Series

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

ÖVNINGSUPPGIFTER KAPITEL 10

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Långa räntor, skuldkvot och budgetbalans

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989

Jämförelse av två populationer

Föreläsning 7: Punktskattningar

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:

Don efter representation

Multipel Regressionsmodellen

Medicinsk statistik II

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 7

Föreläsning 12: Linjär regression

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistik och epidemiologi T5

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

DATORÖVNING 3: MER OM STATISTISK INFERENS.

, s a. , s b. personer från Alingsås och n b

Differentiell psykologi

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Repetitionsföreläsning

MSG830 Statistisk analys och experimentplanering

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Formler och tabeller till kursen MSG830

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

FÖRELÄSNING 8:

En empirisk studie om sambandet mellan inspektionsbesök och kemtvättars miljöbeteende i Stockholm

Del A: Schema för ifyllande av svar nns på sista sidan

FORSKNINGSMETODIK, KVANTITATIV DEL

Har förändringar i sammansättning av sysselsättningen bromsat löneökningstakten?

Lektionsanteckningar 11-12: Normalfördelningen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 7: Punktskattningar

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Samplingfördelningar 1

Stokastiska processer med diskret tid

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

4) Dra statistiska slutsatser (statistisk inferens) med hjälp av hypotestester av modellens regressionsparametrar.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TMS136. Föreläsning 13

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Avancerade regressionstekniker (7,5 högskolepoäng) Advanced regression techniques (7,5 HEC)

2. Finns samband mellan individbundna faktorer och kontextuella faktorer och skolresultat?

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

TMS136. Föreläsning 7

Statistik 1 för biologer, logopeder och psykologer

Invandrare och pensioner

F13 Regression och problemlösning

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tillvägaghångssätt för skattning av körkortsmodell

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

NATIONALEKONOMISKA INSTITUTIONEN Uppsala Universitet Examensarbete C Författare: Moa Torstensson Handledare: Karolina Stadin VT 2018

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Vad man bör tänka på innan man börjar analysera sina data SLU

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Transkript:

PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter. Ej identisk fördelning p g a möjliga förändringar av de olika variablerna över tiden, något som i praktiken kan hanteras med hjälp av dummyvariabler. Alternativ 2: Paneldata (longitudinella data, repeated measures). Samma individer (hushåll, företag) som observeras vid olika tidpunkter. Oberoende draget stickprov vid ena tillfället men inte oberoende mellan de olika tidpunkterna. Icke observerbara egenskaper hos en individ kan antas påverka beteenden vid samtliga tidpunkter. Kräver mer komplicerade modeller och metoder. 1

Notera betydelsen av balanserad obalanserad panel liksom också betydelsen av kort panel (N >T) och lång panel (T > N) Fördelar med poolade data: - Större datamängder (gäller båda alternativen) - Möjlighet att analysera ett antal olika frågeställningar som inte kan analyseras enbart med hjälp av tvärsnittsdata eller tidsseriedata (gäller båda alternativen men i högre grad för paneldata) - Erbjuder möjligheter att minska problem med multikolinjäritet (gäller paneldata) - Erbjuder en möjlighet att reducera problem med bias orsakad av utelämnade relevanta variabler och därmed också en lösning på problem med heterogenitet 2

Tre typer av variabler: Individspecifika (time-invariant) oberoende av tiden, varierar mellan individer (ex kön, födelseort) Tidspecifika individoberoende, varierar över tiden (ex inflationsnivå). Notera dock att om med individ avses ett land gäller inte detta. Världskonjunkturläget kan vara ett bättre exempel.) Individspecifika tidspecifika, varierar både över tiden och mellan individer (ex företagens vinster). 3

Vanliga estimatorer vid paneldata; - Pooled OLS - Between Estimator - Within Estimator/Fixed Effects Estimator The fixed effects within-group model/least square dummy variable approach - First-Differences Estimator (Fixed Effects estimator o First-Differences estimator ger samma resultat om T = 2) - Random Effects Estimator - Panel-Robust Statistical Inference De statistiska egenskaperna hos olika estimatorer varierar med val av (panel)datamodell och med hur icke-observerbara effekter behandlas. Notera att i de modeller som diskuteras nedan antas regressorerna vara starkt exogena, (E[u it i, x i1,.x it ] = 0). 4

Modeller för paneldata; y it = it + x it it + u it, i = 1,...N, t = 1,,T Generell modell, tillåter intercept och lutningskoefficienter att variera med både N och T men, modellen är för generell för att kunna skattas, någon form av restriktioner måste anges; (1) y it = + x it + u it En poolad modell där restriktionerna består i antagandet om konstanta koefficienter. Här behandlas datamaterialet som ett enda stort tvärsnittsmaterial. Om modellen är korrekt specificerad och regressorerna är okorrelerade med slumptermen ger pooled OLS konsistenta skattningar. Notera dock behovet av korrigering av standardavvikelser för möjligheter till hypotestest (flera korrigeringsmetoder möjliga, valet beror på egenskaper hos data i den aktuella panelen). 5

N (2) y it = j d j, it + s d s, it + x it + u it j=1 s=2 T Individ- och tids-dummies, som tillåter intercepten att variera mellan individer och över tiden. Modellen har N individ-dummies och T-1 tids-dummies (om en interceptterm inkluderas måste en av de N individdummyvariablerna tas bort). Om N är stort relativt T (om vi har en kort panel ) kan istället dummyvariabler för olika grupper formuleras. (3) y it = i + x it it + u it Variant av föregående modell, men nu endast individdummyvariabler (alla tidsaspekter antas ingå i x, i indikerar olika intercept som fångar upp ickeobserverbar heterogenitet mellan individer fixed effects model, FEM, (related effect model). Även om i antas korrelera med en eller flera regressorer i x, ger formuleringen konsistenta skattningar av i o it. 6

(4) y it = + x it + i + u it = + x it + v it Om heterogeniteten mellan individer däremot är okorrelerad med övriga variabler i modellen och man kan anta att; i ~ [, 2 ] och u it ~ [0, 2 u] kan modellen istället formuleras som en random effects model, REM, (random intercept model, random component model, unrelated effect model). Modellen kan ses som en specialvariant av den poolade modellen men där slumptermen ges av v it = i + u it Observera att i inte är direkt observerbar utan istället en latent variabel. Observera också att vi kan lägga till dummyvariabler som beaktar variation över tiden (gäller dock även FEM) och dessutom att vi nu kan låta den typ av individspecifika variabler (den typ av heterogenitet mellan individer) som är möjliga att mäta ingå som förklaringsvariabler i modellen. 7

Hausmans test kan användas för att testa om heterogenitet mellan individer är okorrelerad med övriga variabler i modellen H 0 ; ingen korrelation föreligger (ingen skillnad mellan FEM och REM) mot H a ; förekomst av korrelation (skillnad mellan FEM o REM) 8

Fixed versus Random Effects Models Om y it = c i + x it it + u it så är E[y it c i, x it ] = c i + x it it Den individspecifika effekten c i är okänd och kan inte skattas på en konsistent sätt om vi har en kort panel. Däremot kan vi eliminera c i om vi istället utgår ifrån E[y it x it ] = E[c i x it ] + x it it För Random Effects modellen antas att E[c i x it ] = E[y it x it ] = + x it it dvs vi har här nu möjlighet att identifiera E[y it x it ]. 9

För Fixed Effects modellen varierar E[c i x it ] med x it på ett sätt som är okänt för oss och vi kan därför inte identifiera E[y it x it ]. Däremot är det möjligt att få konsistenta skattningar av vid Fixed Effects estimation även vid korta paneler. Det är också möjligt att identifiera marginaleffekten = E[y it c i,x it ]/ x it även om vi inte kan identifiera det betingade väntevärdet för y it givet c i, x it. Dvs det är exempelvis möjligt att identifiera effekten av ytterligare ett års utbildning (effekten av en förändring i en x-variabel) givet ett antal individspecifika egenskaper även om vi inte kan mäta effekten av dessa var för sig. I korta paneler (N > T) alltså bara möjligt att identifiera marginaleffekter för regressorer som varierar över tiden, vi kan inte identifiera marginaleffekter av kön etc (ingår i fixed effect ansatsens individdummy, men kan inte skiljas från andra individspecifika effekter). 10

Paneldata för andra strukturer än över N och T Istället för T, antag att vi observerar syskon(tvilling)par: Ger möjlighet att beakta familjeeffekter ; Syskonspecifika egenskaper som inte varierar över olika familjemedlemmar (syskon) men som varierar mellan olika familjer (olika syskonpar). N är antal familjer, T är antal syskon Ibland kallad klusteranalys; varje individ hör till ett väldefinierat kluster Ex: 1 = 1 om familj 1, = 0 annars 2 = 1 om familj 2, = 0 annars...osv ger fixed effects Även difference in differences och within estimation. 11

Balanserade och obalanserade paneler Med en balanserad panel menas att data finns tillgängliga för varje individ och år. För t ex paneldata för olika regioner (länder etc) gäller detta ofta. För undersökningar baserade på individnivå vanligare med en obalanserad problem attritionsproblem om individer med vissa typiska egenskaper hoppar av efter några perioder. Även en roterande panel (individer byts ut successivt) är f ö ett exempel på en obalanserad panel. Givet att antagandet om starkt exogena regressorer fortfarande håller kan såväl fixed- som random effects estimatorer användas på samma villkor som vid balanserade paneler med relativt små justeringar. Men, detta löser egentligen inte problem med attrition. 12

Repeated Cross Sections nya individer (företag ) varje period. Random effects estimation förenklad eftersom oberoende över både i och t (inga individspecifika variabler) och ingen korrelation över tiden. Behöver bara korrigera för heteroskedasticitet. Fixed effects estimation ger nu inkonsistenta skattningar (vilket även gäller within och first differenses estimation) eftersom den enskilda individen bara observeras vid en tidpunkt. Pseuodo Paneler (syntetiska paneler) En möjlighet att konstruera repeated cross section data så att vissa fördelar med genuina paneler (särskilt möjlighet att kontrollera för tidsspecifika egenskaper) kan fås. Cohort-level data kan under vissa förutsättningar vara en möjlig sådan konstruktion. Ex: Kvinnor födda mellan 1970 och 1975 kan representera en kohort inte samma individer varje period men tillhörighet till kohorten ett krav. 13

14