För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Transkript

1 Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt fördelad slumpvariabel. Om z i = β 1 + β 2 x i så kan den (kumulativa) logistiska fördelningsfunktionen uttryckas: p i = e z /(1 + e z ) = 1 / (1+ e z ) p i = 1/(1 + e (β1 + β2xi) ) = e (β1 + β2xi) /(1 + e (β1 + β2xi) ) 1

2 Man kan visa att; - när z i går från - till + så kommer p i att ligga mellan 0 and 1 - p i är icke-linjärt relaterat till z i - p i närmar sig noll i avtagande takt när x i antar mycket låga värden och närmar sig ett i avtagande takt när x i antar mycket höga värden ger en S-formad kurva som ser ut som en kumulativ fördelningsfunktion för en stokastisk variabel (cdf) 2

3 Om p i = sannolikheten för att y i = 1 är (1 p i ) = sannolikheten för att y i = 0 1 p i = 1/(1 + e Zi ) vilket också innebär att: p i /(1 p i ) = e Zi [p i /(1 p i )] kallas oddskvoten, eller relativ risk, för att y i =1, dvs är kvoten mellan sannolikheten för alternativ 1 och alternativ 0 om p i = 0.8 (och (1 p i ) = 0.2) är oddsen 4 mot 1 till fördel för alternativ 1 osv 3

4 Den naturliga logaritmen av funktionen ger; L i = ln [p i /(1 p i )] = z i = β 1 + β 2 x i dvs den naturliga logaritmen av oddskvoten är nu linjär inte enbart med avseende på x utan också m a p β, vilket också innebär att modellen under vissa speciella förhållanden också kan skattas med linjära metoder. 4

5 För den icke logaritmerade formen av modellen, för ; p i /(1 p i ) = e x β ( = exp(x β) ) gäller att om x j ökar med en enhet ökar exp(x β) till exp(x β + β j ) = exp(x β) x exp(β j ) Antag β j = 0.1, en ökning av x j med enhet ger en multiplikation av den initiala oddskvoten med exp(0.1) vilket innebär att den relativa sannolikheten för att y = 1 ökar med 10.5% Dvs om [p i /(1 p i )] = e β1+β2xi = e β1 e β2xi så kommer en ökning av X i med en enhet att öka oddsen till fördel för y i = 1 med e β2*1 5

6 Annat ex: om β 2 = e = oddsen för att Y i = 1 ökar med eller med 8.17 procent Denna tolkning av logitmodellen dock mer vanlig i biostatistiska applikationer I ekonomiska sammanhang tolkar man dock oftare i termer av den logaritmerade modellen. β j = 0.1 skulle här tolkas som att en enhets ökning av x j ökar den logaritmerade oddskvoten med 0.1 vilket för små β j överensstämmer med tolkningen ovan eftersom exp(β j ) 1 β j. (Se dock det andra exemplet) Om data på individnivå (företag, familj etc ) gäller att L i = ln (1/0) om y = 1 L i = ln (0/1) om y = 0 Maximum Likelihood (ML) estimation 6

7 För MLE gäller att: Signifikanstest baseras på den standardiserade normalfördelningen istället för på t-test. Vid test av H 0 ; att samtliga β i samtidigt är lika med noll, motsvaras den linjära regressionsmodellens F test av Likelihood Ratio (LR) testet. Under H 0 följer LR-testet χ 2 fördelningen med df = antal förklaringsvariabler (exkl intercepttermen) Betr mått på goodness of fit så ger R 2 inte längre särskilt meningsfull information Istället R 2 liknande värden; pseudo R 2, the McFadden R 2, R 2 McF, och count R 2 7

8 Tolkning av modellens parametrar (individuella data och ML estimation): Varje lutningskoefficient tolkas i partiella termer och mäter förändringen i the estimated logit (= den logaritmerade oddskvoten) för en enhets förändring i värdet på den aktuella regressorn. Alternativt görs en tolkning i termer av odds, den tolkning man får om man tar antiloggen av de olika lutningsparametrarna. Sannolikheten för att y i = 1 beror på nivån på x i. Genom att substituera in värden på x i i p i = 1/(1 + e Zi ) = e Zi /(1 + e Zi ), Z i = β 1 + β 2 x i och använda de gjorda skattningarna av β kan vi beräkna sannolikheten direkt från funktionen ovan. 8

9 Vi kan också beräkna förändringen hos sannolikheten för y i = 1 när x i varierar. Marginaleffekten för logitmodellen kan beräknas relativt enkelt m hj av de skattade parametrarna eftersom p i / x j = p i (1- p i )β j, och stickprovsmedelvärdet för y ger en grov skattning av p i. Vi kan vid beräkning av marginaleffekten alternativt också ta hänsyn till den nivå på sannolikheten från vilken förändringen beräknas, PP*, och som beror på det * värde på x i (x i ) för vilket sannolikheten beräknats initialt. β 2 (1-P * )P * där PP* = sannolikheten beräknad vid x * i, och β 2(1-P * )P * är den marginella förändringen av sannolikheten för y i = 1 vid en enhets ökning av x i från x * i Notera slutligen att den linjära sannolikhetsmodellen (korrigerad för den heteroskedasticitet) trots allt erbjuder en bra start när det gäller att få en första uppfattning om vilka variabler som är signifikanta, även om modellen uppvisar stora svagheter vid krav på mer precisa skattningar och tolkningar. 9

10 Probitmodellen Probitmodellen utgår, som tidigare konstaterats, från ett antagande om en bakomliggande standardiserad normalfördelning för p i. z G(z) = Φ(z) = φ(v)dv - där φ(z) är den standardiserade normala täthetsfunktionen φ(z) = (2π) -1/2 exp(- z 2 /2) För G gäller, såväl om funktionen antar formen av en logitformulering som om funktionen antar en probitformulering, att (G(z) 0 när z - och G(z) 1 när z. 10

11 Vilken model, logit- eller probitmodellen, är bäst? Probitmodellen är beräkningsmässigt svårare än logitmodellen. Vid beräkning av marginaleffekter för probitmodellen, p i / x ij = β j f(z i ) där f(z i ) är täthetsfunktionen för en standardiserade och normalfördelad variabel och Z i = β 1 + β 2 X 2i + + β k X ki, finns inga förenklingar motsvarande de som finns för logitmodellen annat än att p i / x ij < 0.4β j (mer om detta senare). I flertalet tillämpningar är modellerna till stora delar likvärdiga och den huvudsakliga skillnaden består i att den logistiska fördelningen har fetare svansar dvs den betingade sannolikheten för att y i = 1 närmar sig noll eller ett i en långsammare takt för logitmodellen. 11

12 Men, eftersom modellerna ger olika värden på skattningarna för β måste man vara uppmärksam på detta vid jämförelse av resultat av modellskattningar. Båda de bakomliggande (standardiserade) fördelningarna har μ = 0, men för normalfördelningen är σ 2 = 1 och för den logistiska fördelningen är σ 2 = π 2 /3 där π 3.14 β logit = 1.81β probit eller, omvänt, (1/1.81)β logit = β probit, (π / ) Amemiya förslår istället multiplikation med 1.6 (resp 1/1.6), ett alternativ man ofta kan se i olika studier, och har visat att dessa jämförelser fungerar bra om 0.1 < p < 0.9. Att modellerna ger olika skattningar av β är i sig inget problem utan beror alltså på att man använder olika formler för de bakomliggande sannolikhetsfördelningarna 12

13 Det meningsfulla är dessutom egentligen jämförelsen av skattade marginaleffekter för de olika modellerna; för logitmodellen är p/ x j < 0.25β j för probitmodellen är p/ x j < 0.4β j och för den linjära sannolikhetsmodellen (LPM) är p/ x j = β j. Detta ger tumregeln ; β Logit 4β OLS β Probit 2.5β OLS β Logit 1.6β Probit (enl Amemiya s förslag) 13

14 Latenta variabler En latent variabel är en variabel som vi inte kan observera fullt ut. Denna typ av variabler kan introduceras i modellerna för diskreta val på två olika sätt; - i form av ett index - som skillnaden i upplevd nytta om en händelse ifråga inträffar jämfört med om den inte gör det Av det andra fallet framgår att det blir centralt att skilja mellan regressorer som skiljer sig åt mellan olika alternativ (pris, restid etc) och regressorer som inte påverkas av vilket alternativ som väljs (socioekonomiska faktorer som utbildning etc) 14

15 Indexmodeller Funktionsformulering i termer av ett index syftar till att förklara en bakomliggande, men icke observerbar, kontinuerlig variabel, y*, när det enda vi egentligen kan observera är en binär variabel som antar värdet 1 eller 0 beroende på om y* passerar ett visst tröskelvärde eller ej. Antag att y* är en latent variabel i en modell där vi ska förklara varför en individ önskar förvärvsarbeta. Den naturliga regressionsmodellen blir här; y* = x β + u Vi kan egentligen inte observera och mäta önskan att förvärvsarbeta men vi kan observera om individen faktiskt förvärvsarbetar eller ej vilket ger att; y = 1 if y* > 0 = 0 if y* < 0 15

16 där P[y = 1 x] = P[y* > 0] = P[x β + u > 0] = P[- u < x β ] = F(x β) och där F är den kumulativa fördelningsfunktionen för u vilken, givet en fördelning som är symmetrisk runt 0, motsvarar den kumulativa fördelningsfunktionen för u. Modellen kan därför formuleras på det sätt som vi tidigare formulerat en binär valmodell, vi har egentligen bara gett modellen en teoretisk förankring; p i P[y i = 1 x] = F(x i β) Notera att tröskelvärdet för indexmodellen inte behöver vara noll. Mer generell kan antas att om y = 1 när y* > z δ så är P[y = 1 x] = F(x β z δ) där δ bara kan identifieras om samtliga komponenter i z och x skiljer sig åt. 16

17 Random Utility Models I denna typ av modeller antas en individ välja mellan alternativ 0 och alternativ 1 baserat på vilket av alternativen som erbjuder den högsta nyttan (största tillfredsställelsen). Givet en additiv modell kan modellen specificeras: U 0 = V 0 + ε 0 U 1 = V 1 + ε 1 V 0 och V 1 motsvarar modellens deterministiska del och ε 0 och ε 1 är de slumpmässiga inslagen P[y = 1] = P[U 1 > U 0 ] = P[V 1 + ε 1 > V 0 + ε 0 ] = P[ε 0 ε 1 < V 1 V 0 ] = F(V 1 V 0 ) där F är den kumulativa fördelningsfunktionen för (ε 0 ε 1 ) 17

18 Ett givet val av fördelningsfunktion för slumptermerna är normalfördelningen. Om ε 0 and ε 1 är normalfördelade gäller detta även för (ε 0 ε 1 ) (linjära kombinationer av normalfördelade variabler är också normalfördelade). Variansen för (ε 0 ε 1 ) antas vara lika med 1och eftersom F( ) antar formen av en standardiserad normalfördelning får vi en probitmodell. Notera också att eftersom U 1 > U 2 så måste också gälla att au 1 > au 2. Även detta hanteras genom antagandet om normalfördelning. 18

19 Test av multipla hypoteser Det finns tre olika sätt att testa restriktioner som innebär exkludering av parametrar; - Lagrange multiplier testet (score testet) som bara kräver skattning av modellen under H 0, dvs av modellen med restriktioner - Wald testet som enbart kräver att man skattar modellen utan restriktioner. Testet tillåter test av exkludering av vissa parametrar efter det att modellen utan restriktioner skattats. Wald-testet har en asymptotisk χ 2 -fördelning med df = antal restriktioner. - Om både modellen med, och modellen utan, restriktioner är enkla att skatta - vilket ju oftast är fallet om det handlar om exkludering av variabler är Likelihood Ratio testet mycket användbart. Testet baseras på samma principer som F-testet för den linjära regressionen. F-testet baseras skillnader mellan RSS R och RSS UR medan LR-testet baseras på skillnader mellan log-likelihood-funktionerna för modellen med och modellen utan restriktioner 19

20 LR =2(Lur Lr ) Där Lur är värdet på log-likelihood funktionen för modellen utan restriktioner och Lr är värdet på loglikelihood funktionen för modellen med restriktioner. Eftersom Lur > Lr, är LR positivt men vid beräkning av LR statistikan för binära valmodeller antar loglikelihood funktionen alltid ett negativt värde. Det faktum att båda log-likelihood funktionerna antar negative värden påverkar dock inte hur vi beräknar LR värdet, vi behåller helt enkelt minustecknet i formeln. Multiplikationen med två krävs för att LR testet ska vara approximativt χ 2 fördelat under H 0. Om vi använder testet för att testa för exkludering av variabler är LR ~ χ 2 q. 20

21 Dessutom : Även logit- och probitmodeller kan förstås innehålla endogena regressorer. Möjligt att använda logit- och probitmodeller även på poolade tvärsnittsdata och/eller data där observationerna identiskt fördelade. Förekomst av s k choice-based samples inte helt ovanligt i samband med logit- och probitmodeller man översamplar vissa grupper. För konsistens hos β krävs viktad MLE. Grupperade och aggregerade data I vissa fall kan, trots att individdata saknas och grupperade och/eller aggregerade data är de enda tillgängliga datamängderna, modeller för diskreta val fortfarande vara den lämpligaste modellformuleringen. Spelar dock roll hur gruppering och/eller aggregering ser ut. 21