ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i ) = 0 slumpterm och X-variabel antas vara okorrelerade, vi har svagt exogena regressorer E(u i X i )= 0, E(u i ) = 0 Var(u i ) = E[u i E(u i )] 2 = E(u i 2 )= 2 var(u i ) är homoskedastisk (konstant, lika för alla observationer) cov(u i,u j ) = 0, i j ingen autokorrelation antas föreligga Antalet observationer, n, måste vara > antalet parametrar som ska skattas var(x) > 0 1
För den linjära regressionsmodellen används oftast någon form av LS-estimation; För mikrodata i form av tvärsnittsdata ser vi nästan alltid heteroskedasticitet hos var(u i ) innebär i praktiken att man antingen använder någon korrigeringsmetod för varianser. 2
Icke-linjära estimatorer De flesta estimatorer som används inom mikroekonometrin, med undantag för OLS (GLS/WLS) och instrumentvariabelmetoder, är icke-linjära. I princip är all inferens inom mikroekonometrin baserad på asymptotisk teori, och de vanligast använda skattningsmetoderna är konsistenta och asymptotiskt normalfördelade. Små-sample egenskaperna hos icke-linjära estimatorer är relativt okända och/eller skakiga. NLS är den ena av två ledande estimatorer för ickelinjära modeller, den andra metoden är Maximum Likelihood estimatorn, MLE. 3
Maximum Likelihood Estimation (MLE) Princip : Utnyttjar kunskap om den bakomliggande sannolikhetsfunktionen Generellt: f(y 1, y 2,... y n ; ) ger sannolikheten för att få ett visst värde på varje observation, y i, givet ett visst värde på populationsparametern ex: f(y 1, y 2,... y n ;, 2 ) f(y 1, y 2,... y n ;, 2 ) Om vi istället redan har ett stickprov (dvs givet y 1, y 2,...y n ) ger ML-estimatorn det mest sannolika värdet på f( y 1, y 2,... y n ) 4
ML-estimation handlar om att söka det värde på som maximerar en s k likelihoodfunktion; L N ( f( ; y, X), dvs om att söka det värde på t ex som är det mest troliga, givet de specifika värden på y - och med dessa värden sammanhängande observationer på X - som vi fått i vår datamängd Maximering av L N ( ) är ekvivalent med maximering av den logaritmerade likelihoodfunktionen L N ( ) = ln L N ( ). och det är denna formulering man oftast utgår ifrån. I praktiken utgår man också oftast ifrån den betingade likelihoodfunktionen; L N ( f( ; y X) 5
ML-estimatorn är - konsistent - asymptotiskt effektiv - invariant MLE en estimator med mycket goda egenskaper för stora stickprov Notera också att; om Y är normalfördelad (=slumptermen är normalfördelad) så har MLE av samma egenskaper som OLS av för den linjära modellen och om normalfördelning kan man visa att MLE = (X X) -1 X y = OLS Signifikanstest baseras på den standardiserade normalfördelningen istället för på t-test. För tillräckligt stora stickprov konvergerar dock t- fördelning mot en normalfördelning 6
Det finns tre olika sätt att testa restriktioner som innebär exkludering av parametrar; Lagrange multiplier testet (score testet) som bara kräver skattning av modellen under H 0, dvs av modellen med restriktioner Wald testet som enbart kräver att man skattar modellen utan restriktioner. Testet tillåter test av exkludering av vissa parametrar efter det att modellen utan restriktioner skattats. Wald-testet har en asymptotisk χ 2 -fördelning med df = antal restriktioner. Om både modellen med, och modellen utan, restriktioner är enkla att skatta vilket ju oftast är fallet om det handlar om exkludering av variabler är Likelihood Ratio testet mycket användbart. Testet baseras på skillnader mellan log-likelihoodfunktionerna för modellen med och modellen utan restriktioner LR =2(Lur Lr ) där Lur är värdet på log-likelihood funktionen för modellen utan restriktioner och Lr är värdet på loglikelihood funktionen för modellen med restriktioner. 7
Vid test av H 0 ; att samtliga i samtidigt är lika med noll, motsvaras den linjära regressionsmodellens F test av Likelihood Ratio (LR) testet. Under H 0 följer LR-testet χ 2 fördelningen med df = antal förklaringsvariabler (exkl intercepttermen) Eftersom Lur > Lr, är LR positivt men vid beräkning av LR statistikan för binära valmodeller antar loglikelihood funktionen alltid ett negativt värde. Det faktum att båda log-likelihood funktionerna antar negative värden påverkar dock inte hur vi beräknar LR värdet, vi behåller helt enkelt minustecknet i formeln. Multiplikationen med två krävs för att LR testet ska vara approximativt χ 2 fördelat under H 0. Om vi använder testet för att testa för exkludering av variabler är LR ~ χ 2 q. Betr mått på goodness of fit så ger R 2 inte längre särskilt meningsfull information Istället R 2 liknande värden; pseudo R 2, the McFadden R 2, R 2 McF, och count R 2 8
För kontinuerliga data över (-, ) härleds MLestimatorn oftast från antagandet om en bakomliggande normalfördelning. För diskreta binära data som antar värdet 0 eller 1 är den bakomliggande sannolikhetsfördelningen en Bernoullifördelning - ett specialfall av binomialfördelningen - och den vanliga parametriseringen för en Bernoullisannolikhet ger en logitmodell. Modell Område f(y) Vanlig för y parametrisering Normal (-, ) [2 2 ] -½ exp(-(y-μ) 2 /2 2 ) μ=x, 2 = 2 Bernoulli 0 eller 1 p y (1-p) 1-y Logit p = e x /(1+e x ) Exponential (0, ) e - y = e x eller 1/ =e x Poisson 0,1,2, e - y /y! = e x 9
Nonlinear least-square estimation (NLS) ( Icke-linjär minsta kvadratmetod ) NLS estimation är en naturlig utvidgning av LS estimation för icke-linjära funktionsformuleringar. OLS-estimation av den linjära regressionsmodellens parametrar ger, genom minimering av summan av de kvadrerade residualerna, en explicit lösning i termer av ingående variabler. För den icke-linjära modellen finns alltså däremot ingen motsvarande explicit lösning utan man förlitar sig på iterativa processer, processer som söker de värden på parametrarna som minimerar u i 2 OLS applicerad på icke-linjära modeller kallas nonlinear least squares, NLS. Det finns flera olika typer av sökprocesser, algoritmer, se Gujarati s. 529-534 för bra exempel. För analys av mikrodata krävs oftast att man beaktar heteroskedasticitet hos slumptermen varför detta också bör gälla för icke-linjär estimation. 10
NLS estimatorn (med beaktande av heteroskedasticitet) är generellt mindre effektiv än MLE men används trots detta frekvent inom mikroekonometrisk analys p g a att man inte måste göra lika starka antaganden om den bakomliggande sannolikhetsfördelningen. Vanliga anledningar till att man specificerar icke-linjära funktionsformuleringar är att man vill beakta olika restriktioner som ges av bakomliggande ekonomisk konsumtions- och/eller produktionsteori. Exempel på vanliga funktionsformuleringar: Modell Regressionsfunktion, g(x, ) Exponential exp( 1 x 1 + 2 x 2 + 3 x 3 ) Regressor upphöjd till 1 x 1 + 2 x 2 3 Cobb-Douglas 1 x 1 2 x 2 3 Icke-linjära restriktioner 1 x 1 + 2 x 2 + 3 x 3, där 3 = - 2 1 11
Marginaleffekten, E[y x]/ x, mäter förändringen hos y när x i ändras en enhet För den linjära regressionsmodellen gäller att E[y x] = x vilket gör att E[y x]/ x i = i, dvs i kan direkt tolkas som en marginaleffekt För den icke-linjära modellen gäller istället generellt att om E[y x] = g(x, ) så kommer marginaleffekten att variera med x Om, t ex är E[y x] = exp(x ) E[y x]/ x = exp(x ) dvs marginaleffekten är en funktion av både parametrar och ingående x-variabler. 12
Marginaleffekten kan beräknas på olika sätt och det är vanligt att man anger någon av marginaleffekterna nedan; - N -1 i E[y i x i ]/ x i, den genomsnittliga marginaleffekten - E[y x]/ x average x, marginaleffekten för genomsnittsindividen - E[y x]/ x x*, marginaleffekten för en representativ individ för vilken x = x* För en icke-linjär modell kan man alltså beräkna marginaleffekter på flera olika sätt, för den linjära modellen ges alltid marginaleffekten av. 13
Singel-index modeller (i sammanhanget icke-linjära modeller) En direkt tolkning av regressionskoefficienten är möjlig där E[y x] = g(x ) och där data och parametrar ingår i den icke-linjära funktionen g( ) i form av en linjär kombination av förklaringsvariabler och parametrar, dvs i form av the single index x. I detta fall är icke-linjäriteten av en mild form och vi kan beräkna effekten på det betingade medelvärdet av en förändring av x j genom olika beräkningsmetoder. För modeller av denna typ gäller att: E[y x]/ x j = g (x j och att den relativa effekten av förändringen hos en variabel x j på en annan variabel x k, ges av kvoten j / k eftersom [ E[y x]/ x j ]/ [ E[y x]/ x k ] = j / k dvs om j är två gånger k så leder en förändring av x j med en enhet till en dubbelt så stor effekt som den effekt som fås vid en enhets förändring av x k. 14
Flera av de vanligaste icke-linjära modellformuleringarna är just av singel-index form. Bl a gäller detta för logit- probit- och Tobit-modeller. Dessutom innebär vissa funktionsval g( ) möjligheter till ytterligare tolkning, detta gäller då särskilt för den exponentiella funktionen och för den logistiska funktionen. För modeller av single-index typ gäller också att marginaleffekten kan fås genom differensen mellan det betingade förväntade värdet efter en enhets ökning av x j och det betingade förväntade värdet före ökningen; E[y x]/ x j = g(x + e j, ) g(x, ) där e j är en vektor där förändringen i x j är ett och förändringen av alla andra storheter är noll. För den linjära modellen gäller att E[y x]/ x j = (x j ) x j dvs marginaleffekten densamma som vid samtliga andra beräkningssätt. 15
Limited Dependent Variable (LDV) En binär beroendevariabel är ett exempel på en LDV, på en (beroende)variabel som endast kan anta ett begränsat antal värden. Många ekonomiska variabler är egentligen variabler som är begränsade till vissa intervall; exempelvis kan variabler som lön, huspris, nominell ränta etc bara anta positiva värden. Men, inte alltid så att dessa variabler måste behandlas på något särskilt sätt - om variabeln kan anta ett stort antal olika (positiva) värden behövs knappast någon särskild modellformulering. Om å andra sidan y är diskret och endast antar ett litet antal olika värden blir en ekonometrisk modell där y behandlas som en approximativt kontinuerlig variabel ofta värdelös. 16
I vissa fall, särskilt vid analys av individer, familjer och företag, kan en optimering av ett beteende ge en hörnlösning för en icke trivial andel av populationen kan vara optimalt att ge noll kronor till välgörenhet, att träna noll timmar osv Tobitmodellen en lösning Ytterligare en typ av LDV är en count variable, en variabel som antar icke-negativa heltalsvärden, ofta med ganska liten variation i populationen; antal sjukskrivningsdagar per år, antal p-böter, antal patent etc Poissonregression en möjlighet Ibland också LDV p g a censurerade data liksom vid icke slumpvisa urval (vid frånvaron av randomisering) LDV modeller även vid tidsseriedata men dock oftast för tvärsnittsdata och paneldata 17
För det binära fallet antar beroendevariabeln y ett av två möjliga värden y = 1 med sannolikhet p y = 0 med sannolikhet 1 p Detta kräver en (sannolikhets-)modell som uppvisar följande egenskaper; När x i ökar så ökar p i = E(y=1 x) men hamnar aldrig utanför 0 1 intervallet Sambandet mellan p i och x i är ickelinjärt, dvs går mot noll i avtagande takt när x i närmar sig låga värden och går mot ett i avtagande takt när x i närmar sig mycket höga värden egenskaper som den linjära sannolikhetsmodellen inte uppfyller 18
Om vi vill undvika bristerna hos den linjära sannolikhetsmodellen (LPM) finns specifika modeller för binära val De modellformuleringar som ofta används i praktiken ges av p i = P[y i = 1 x] = F(x i ), där F( ) antar formen av en kumulativ fördelningsfunktion De i särklass vanligast modellerna för diskreta val är logitmodellen och probitmodellen Logitmodellen utgår från en logistisk fördelning för F( ) och probitmodellen från en standardiserad normalfördelning för F( ) Observera att ( ) är den kumulativa fördelningsfunktionen för p, inte för y. Den linjära sannolikhetsmodellen baseras däremot inte på en bakomliggande cdf, här är p i bara = x i 19
För den generella sannolikhetsmodellen ovan och för en förändring av den j:te variabeln, ges den marginella effekten på den betingade sannolikheten för att y = 1 av P[y i = 1 x i ]/ x ij = F (x i ) j där F ( x i ) = F(x i )/ x j Marginaleffekten antas alltså vara kontinuerlig och antar olika värden för varje värde på x j och beror också av valet av F( ) 20