Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Eftersom exp( ) alltid är en positiv funktion försäkrar funktionsformen att prediktioner av y alltid blir positiva (y = antal patent, antal sjukdagar etc). En count variabel kan inte antas följa en normalfördelning och om variabeln endast antar ett fåtal olika värden kan fördelningen dessutom ligga mycket långt ifrån normalfördelningen. Den vanligast förekommande fördelningen är här istället en Poissonfördelning 1

Sannolikheten för att y antar ett visst värde, h, betingat av x, ges av P(y = h x) = exp[-exp(x' )][exp(x' )] h /h! (fakultet, 5! = 5 4 3 2 1 osv, 0! = 1) en fördelning som gör det möjligt att söka betingade sannolikheter för varje värde på y: P(y = 0 x)= exp[-exp(x' )] osv Marginaleffekten beräknas E(y x1, x2,.xk)/ xj = exp( 0 + 1x1 +.+ kxk) j Ett mått på genomsnittlig marginaleffekt ges av ȳ j vilket kan jämföras med en OLS-skattning av en linjär modellformulering I praktiken kan vi tolka koefficienterna i ekvationen som om vi skattat en linjär modell med log(y) som beroendevariabel % E(y x) (100 j) xj 2

Även om MLE baserad på ett antagande om en bakomliggande Poissonfördelning är ett första naturligt steg för count data så är modellen ofta för begränsad Samtliga högre moment bestäms helt och hållet av E(y x) vilket bl a innebär att Var(y x) = E(y x) en egenskap som visat sig inte hålla i många fall. Poissonfördelningen är dock robust i meningen att parameterskattningarna är konsistenta oavsett om ovanstående fördelningsantagande håller eller ej. Som alternativ finns möjlighet till beräkning av robusta standardavvikelser liksom Quasi-maximum likelihood estimation (QMLE) och antagande om NegBin I och NegBinII 3

Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt fördelad slumpvariabel. Om z i = 1 + 2 x i så kan den (kumulativa) logistiska fördelningsfunktionen uttryckas: p i = 1 / [1+ e ( Xi) ] p i = 1/(1 + e Zi ) = e Z /(1 + e Z ) (=exp(z)/[1 + exp(z)] ) 4

Man kan visa att; - när z i går från - till + så kommer p i att ligga mellan 0 and 1 - p i är icke-linjärt relaterat till z i - p i närmar sig noll i avtagande takt när x i antar mycket låga värden och närmar sig ett i avtagande takt när x i antar mycket höga värden ger en S-formad kurva som ser ut som en kumulativ fördelningsfunktion för en stokastisk variabel (cdf) 5

Om p i = sannolikheten för att y i = 1 är (1 p i ) = sannolikheten för att y i = 0 1 p i = 1/(1 + e Zi ) vilket också innebär att: p i /(1 p i ) = e Zi [p i /(1 p i )] kallas oddskvoten, eller relativ risk, för att y i =1, dvs är kvoten mellan sannolikheten för alternativ 1 och alternativ 0 om p i = 0.8 (och (1 p i ) = 0.2) är oddsen 4 mot 1 till fördel för alternativ 1 osv 6

Den naturliga logaritmen av funktionen ger; L i = ln [p i /(1 p i )] = z i = 1 + 2 x i dvs den naturliga logaritmen av oddskvoten är nu linjär inte enbart med avseende på x utan också m a p vilket också innebär att modellen under vissa speciella förhållanden också kan skattas med linjära metoder. 7

För den icke logaritmerade formen av modellen, för ; p i /(1 p i ) = e x ( = exp(x ) gäller att om x j ökar med en enhet ökar exp(x till exp(x j = exp(x x exp( j ) Antag j = 0.1, en ökning av x j med enhet ger en multiplikation av den initiala oddskvoten med exp(0.1) 1.105 vilket innebär att den relativa sannolikheten för att y = 1 ökar med 10.5% Dvs om [p i /(1 p i )] = e 1+ 2Xi = e 1 e 2Xi så kommer en ökning av X i med en enhet att öka oddsen till fördel för y i = 1 med e 2*1 8

Annat ex: om = 0.07862 e 0.07862 = 1.0817 oddsen för att Y i = 1 ökar med 1.0817 eller med 8.17 procent Denna tolkning av logitmodellen dock mer vanlig i biostatistiska applikationer I ekonomiska sammanhang tolkar man dock oftare i termer av den logaritmerade modellen. j = 0.1 skulle här tolkas som att en enhets ökning av x j ökar den logaritmerade oddskvoten med 0.1 vilket för små j överensstämmer med tolkningen ovan eftersom exp( j ) 1 j. (Se dock det andra exemplet) Om data på individnivå (företag, familj etc ) gäller att L i = ln (1/0) om y = 1 L i = ln (0/1) om y = 0 Maximum Likelihood (ML) estimation 9

Tolkning av modellens parametrar (individuella data och ML estimation): Varje lutningskoefficient tolkas i partiella termer och mäter förändringen i the estimated logit (= den logaritmerade oddskvoten) för en enhets förändring i värdet på den aktuella regressorn. Alternativt görs en tolkning i termer av odds, den tolkning man får om man tar antiloggen av de olika lutningsparametrarna. Sannolikheten för att y i = 1 beror på nivån på x i. Genom att substituera in värden på x i i p i = 1/(1 + e Zi ) = e Zi /(1 + e Zi ), Z i = 1 + 2 x i och använda de gjorda skattningarna av kan vi beräkna sannolikheten direkt från funktionen ovan. Vi kan också beräkna förändringen hos sannolikheten för y i = 1 när x i varierar. 10

Vid beräkning av marginaleffekten tas hänsyn till den nivå på sannolikheten från vilken förändringen beräknas, P *, och som beror på det värde på x i (x * i) för vilket sannolikheten beräknats initialt. För logitmodellen gäller att [Ey x]/ x ij = p i / x j = P * (1-P * ) j För exemplet ovan gäller alltså då att marginaleffekten också kan fås via P * (1-P * ) där P * = sannolikheten beräknad vid x * i, och P * (1-P * ) är den marginella förändringen av sannolikheten för y i = 1 vid en enhets ökning av x i från x * i Den genomsnittliga marginaleffekten för logitmodellen kan beräknas relativt enkelt eftersom p i / x ij = p i (1- p i ) j, och stickprovsmedelvärdet för y ger en grov skattning av p i ( ȳ(1-ȳ) j ) Notera slutligen att den linjära sannolikhetsmodellen (korrigerad för den heteroskedasticitet) trots allt erbjuder en bra start när det gäller att få en första uppfattning om vilka variabler som är signifikanta, även om modellen uppvisar stora svagheter vid krav på mer precisa skattningar och tolkningar. 11