Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Relevanta dokument
Paneldata och instrumentvariabler/2sls

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Hur skriver man statistikavsnittet i en ansökan?

Mendelsk randomisering

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Beteendevetenskaplig metod. Metodansats. För och nackdelar med de olika metoderna. Fyra huvudkrav på forskningen Forskningsetiska principer

Föreläsning 7: Punktskattningar

Lektionsanteckningar 11-12: Normalfördelningen

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Metod1. Intervjuer och observationer. Ex post facto, laboratorie -, fältexperiment samt fältstudier. forskningsetik

Föreläsning 7: Punktskattningar

Forskningsprocessens olika faser

STATISTISK ANALYS AV KOMPLEXA DATA

Metodologier Forskningsdesign

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

MVE051/MSG Föreläsning 14

STATISTISK ANALYS AV KOMPLEXA DATA

Introduktion till kausala effekter

Föreläsning 7: Punktskattningar

F9 SAMPLINGFÖRDELNINGAR (NCT

Studietyper, inferens och konfidensintervall

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Repetitionsföreläsning

Samplingfördelningar 1

Dekomponering av löneskillnader

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Några extra övningsuppgifter i Statistisk teori

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 12: Repetition

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989

Föreläsning 12: Regression

Statistik 1 för biologer, logopeder och psykologer

Olika datainsamlingsmetoder

Skattning av kausala effekter vid effektmodifiering genom matchning på funktioner av prognostic scores

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Urvalsmetoder: Stratifierat urval (kap 9.5)

Att utvärdera offentlig politik med registerdata

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Optimering och simulering: Hur fungerar det och vad är skillnaden?

4 Diskret stokastisk variabel

Metoder för att mäta effekter av arbetsmarknadspolitiska program WORKING PAPER 2012:2

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

OBS! Vi har nya rutiner.

Sannolikheter och kombinatorik

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 11: Mer om jämförelser och inferens

Tillvägaghångssätt för skattning av körkortsmodell

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Sahlgrenska akademin VID GÖTEBORGS UNIVERSITET Avdelningen för samhällsmedicin och folkhälsa / Allmänmedicin vid institutionen för Medicin

Restid och resebeteende

Psykologi som vetenskap

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Forskningsläget betr värdet av restidsvinster för privatresor i Sverige

LMA201/LMA521: Faktorförsök

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Dataanalys kopplat till undersökningar

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

ÖVNINGSUPPGIFTER KAPITEL 9

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Några begrepp. Vad är statistik? Data. Grundläggande begrepp Olika slag av undersökningar

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik

Ex post facto forskning Systematisk, empirisk undersökning. om rökning så cancer?

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Introduktion Kritiskt förhållningssätt Olika typer av undersökningar

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Vad beror skillnaden på? Systematiska och slumpmässiga fel

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning G60 Statistiska metoder

Föreläsning 12: Linjär regression

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Introduktion till statistik för statsvetare

STATISTISK ANALYS AV KOMPLEXA DATA

Föreläsning 7. Statistikens grunder.

F22, Icke-parametriska metoder.

Bygga linjära modeller! Didrik Vanhoenacker 2007

Att välja statistisk metod

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

Kausalitet Kausalitet. Vad är kausal inferens? Seminariets agenda. P(Y a=1 =1) P(Y a=0 =1) Kausal effekt för en individ i:

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Bortfallsproblematik ur ett metodperspektiv

Föreläsning G70 Statistik A

Transkript:

MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till förbättrade och förenklade insamlingsmetoder Mer specifika exempel; scanners i varuhus biljettbokning via nätet elektroniska avläsare inom kollektivtrafiken. men också ökade möjligheter till analys av komplexa datamängder Vi ser nu också mer av data från sociala/ekonomiska experiment 1

Ökat informationsinnehåll och stora stickprov men också ökade krav på modellformulering och metodval! Inferens baseras på, ofta mer komplicerad, asymptotisk teori och ofta krav på icke-linjär estimation Antaganden om bakomliggande sannolikhetsfördelning central och betydligt viktigare än vid användande av linjära metoder Kan formulera detaljerade modeller (modeller med många parametrar) men då ofta också modeller som är svåra att skatta vanligare att minimera komplexiteten och basera inferens på formulering av modeller där Var( i ) är robust vad gäller olika komplikationer 2

Ekonomisk analys handlar oftast om att härleda samband vilket också kräver att man använder metoder som kan urskilja och fånga upp dessa samband instrumentvariabler, simultana ekvationsmodeller, error correction models, fixed effects, differences - in differences etc Ofta komplexa undersökningsmetoder, inte alltid slumpmässiga urval, mätfel, ofullständig information i materialet och/eller bortfall etc 3

Eftersom mikrodata vanligen uppvisar en låg aggregeringsnivå måste man också kunna hantera problem med heterogenitet hos individer, företag etc. Den (beroende)variabeln har även i många fall starkt begränsat utfallsrum, man talar om limited dependent variables (LDV). I praktiken kan mikrodata också uppvisa mycket brus. Oförutsedda och oväntade beteenden spelar en större roll osv lägre R 2 -värden etc i regressioner baserade på mikrodata. 4

Den ekonomiska teorins roll kan variera vid formulerandet av ekonometriska modeller. Målet med analysen dock i ett första steg att identifiera och skatta fundamentala parametrar, ibland kallade djupa parametrar, som fångar upp preferenser och/eller tekniska samband en strukturell approach Man förlitar sig på ekonomisk teori och önskar analysera kausala samband. Strukturella modeller kan ofta kräva mer precisa specifikationer av exempelvis kostnads- och produktionsfunktioner och/eller av fördelningsfunktioner för modellernas slumptermer. 5

Ett annat mål med analysen kan vara att modellera samband mellan beroendevariabeln och variabler som tas för givna eller som anses som exogena modeller i reducerad form En modellform som inte alltid beaktar alla kausala beroenden mellan de olika ingående variablerna (behövs ju inte om variablerna verkligen är exogena). 6

Disaggregerade data och heterogenitet Ju mindre aggregerade data desto högre grad av heterogenitet mellan observationerna. Heterogenitet i form av kön, sociala och demografiska faktor, utbildning etc är möjlig att observera och kan därför också beaktas i modellerna. Heterogenitet i form av förmåga och motivation osv däremot svårare att observera och därmed mäta. Att inte beakta denna typ av skillnader mellan individer ger problem med confounding. Både utbildning och förmåga kan antas påverka en individs lön men om vi bara kan observera och mäta utbildning kommer denna variabels betydelse för lönebildningen att överskattas confounding bias (bias p g a att relevanta variabler uteslutits från modellen och ersatts med proxyvariabler istället) 7

Hur hanterar man heterogenitetsproblemet i praktiken? Ignorerar alla icke observerbara skillnader mellan individer. Om dessa egenskaper är okorrelerade med de skillnader mellan individer som man observerar och beaktar och om de icke observerade skillnaderna inte heller ger en påverkan på observerbara egenskaper över tiden (om paneldata) finns inget problem med specifikationsbias. Beaktar de icke observerbara skillnaderna m hj av individsspecifika dummyvariabler; D1 = 1 om individ 1, 0 annars osv fixed effect ansatsen. Innebär dock att för varje ny individ som tillkommer kommer en ytterligare parameter att införlivas i ekvationen. Men om paneldata med T observationer för varje individ i kan denna ansats fungera Möjligt att antingen estimera eller genom differentiering) eliminera denna effekt.(gäller då linjära modeller) Använder sig av random effect ansatsen. E g beaktar heterogeniteten genom formulering av särskilt schema för slumptermen. 8

Olika typer av mikrodata Traditionellt insamlade, intervjuundersökningar, frågeformulär om faktiska förhållanden, gjorda val mm Experimentella data, sociala experiment, för att avgöra effekter av en behandling, utvärdera en potentiell reform eller policy Sociala experiment kan kontrolleras, specialdesignas och övervakas möjligt att jämföra en kontrollgrupp med en grupp utsatt för behandling, lottdragning kan avgöra om behandling eller inte underlättar identifikation och ger möjlighet att isolera effekter av olika behandlingar Experimentella data har sedan länge använts inom medicinsk forskning, relativt nytt inom ekonomisk 9

Vissa begräsningar finns; höga kostnader för datainsamling inte alltid försöken är helt slumpmässiga problem om individer i kontrollgruppen söker alternativ behandling individer följer inte anvisningar problem om individer i kontrollgruppen avbryter för tidigt och dessa individer har särskilda egenskaper som kan påverka utfallet Hawthorne effekten individer beter sig annorlunda i experimentsituationen 10

Data från naturliga experiment Om en delmängd av populationen är exponerade för en exogen händelse samtidigt som miljön, situationen, för den andra gruppen är oförändrad får vi en datamängd liknande den vid experimentella data. Vi får möjlighet att jämföra effekter av händelsen på en behandlad och en obehandlad grupp. Alternativt ex En grupp, två perioder; före och efter införande av en åtgärd y it = + D t + it, i = 1,., N, t = 0,1 D t = 1 period 1 (efter händelsen) D t = 0 period 0 (före händelsen), En regression skattad baserad på poolade data ger betydelsen av händelsen genom parametern. 11

Givet modellformuleringen ovan antar vi dock att gruppen i övrigt uppvisar samma egenskaper period 1 som period 0, annars skulle inte kunna identifieras som effekten av händelsen Om vi istället inkluderar en obehandlad grupp för vilken vi också har tillgång till data från båda perioderna och givet antagandet att E[( 1 i1 1 i0) ( 0 i1 0 i0)] = 0 kan vi få en unbiased skattning av genom stickprovsmedelvärdet för (y 1 i1 y 1 i0) (y 0 i1 y 0 i0) differences in differences. (Mer om detta senare när paneldata behandlas.) 12

Revealed Preference Data; Avser faktiska observationer och utfall av dessa. Nackdelen att vi oftast inte vet priser etc för de alternativ som individen övervägde Stated Preference Data; Svar på hypotetiska frågeställningar där man kan lista samtliga möjliga alternativ. Kan dock finnas problem med mått på exempelvis betalningsvilja, lätt att överdriva eller hålla igen beroende på frågans art. 13