För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))



Relevanta dokument
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Paneldata och instrumentvariabler/2sls

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Lektionsanteckningar 11-12: Normalfördelningen

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Dekomponering av löneskillnader

Några extra övningsuppgifter i Statistisk teori

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Formler och tabeller till kursen MSG830

Stokastiska signaler. Mediesignaler

Statistik 1 för biologer, logopeder och psykologer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901 Sannolikhetsteori och statistik I

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Statistisk analys av komplexa data

FÖRELÄSNING 7:

Föreläsning G60 Statistiska metoder

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik 9 hp Föreläsning 4: Flerdim

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

F9 SAMPLINGFÖRDELNINGAR (NCT

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Tentamen MVE300 Sannolikhet, statistik och risk

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Föreläsning 12: Repetition

Tentamen MVE302 Sannolikhet och statistik

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

TENTAMEN I STATISTIKENS GRUNDER 1

Exempel på tentamensuppgifter

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Lärmål Sannolikhet, statistik och risk 2015

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

TMS136. Föreläsning 10

SF1901: Sannolikhetslära och statistik

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 12: Linjär regression

Föreläsning 7: Punktskattningar

FÖRELÄSNING 8:

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901 Sannolikhetsteori och statistik I

Tentamen MVE301 Sannolikhet, statistik och risk

PROGRAMFÖRKLARING III

Slumpvariabler och sannolikhetsfördelningar

ÖVNINGSUPPGIFTER KAPITEL 9

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Föreläsning 7: Punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Statistisk analys av komplexa data

SF1901: SANNOLIKHETSTEORI OCH FLERDIMENSIONELLA STOKASTISKA STATISTIK VARIABLER. Tatjana Pavlenko. 8 september 2017

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 5, FMSF45 Summor och väntevärden

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Repetitionsföreläsning

Föreläsning 12: Regression

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

F13 Regression och problemlösning

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Kap 2. Sannolikhetsteorins grunder

8. NÅGRA SPECIELLA KONTINUERLIGA SANNOLIKHETSFÖRDELNINGAR

Samplingfördelningar 1

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Statistiska metoder för säkerhetsanalys

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Hur måttsätta osäkerheter?

Weibullanalys. Maximum-likelihoodskattning

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Statistiska metoder för säkerhetsanalys

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Repetitionsföreläsning

TMS136. Föreläsning 4

Avd. Matematisk statistik

Grundläggande matematisk statistik

Stokastiska processer med diskret tid

F23 forts Logistisk regression + Envägs-ANOVA

ÖVNINGSUPPGIFTER KAPITEL 9

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Transkript:

Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt fördelad slumpvariabel. Om z i = 1 + 2 x i så kan den (kumulativa) logistiska fördelningsfunktionen uttryckas: p i = 1 / [1+ e ( Xi) ] p i = 1/(1 + e Zi ) = e Z /(1 + e Z ) (=exp(z)/[1 + exp(z)] ) 1

Man kan visa att; - när z i går från - till + så kommer p i att ligga mellan 0 and 1 - p i är icke-linjärt relaterat till z i - p i närmar sig noll i avtagande takt när x i antar mycket låga värden och närmar sig ett i avtagande takt när x i antar mycket höga värden ger en S-formad kurva som ser ut som en kumulativ fördelningsfunktion för en stokastisk variabel (cdf) 2

Om p i = sannolikheten för att y i = 1 är (1 p i ) = sannolikheten för att y i = 0 1 p i = 1/(1 + e Zi ) vilket också innebär att: p i /(1 p i ) = e Zi Kvoten mellan sannolikheten för alternativ 1 och alternativ 0, [p i /(1 p i )], kallas oddskvoten, eller relativ risk, för att y i =1 om p i = 0.8 (och (1 p i ) = 0.2) är oddsen 4 mot 1 till fördel för alternativ 1 osv 3

Den naturliga logaritmen av funktionen ger; L i = ln [p i /(1 p i )] = z i = 1 + 2 x i dvs den naturliga logaritmen av oddskvoten är nu linjär inte enbart med avseende på x utan också m a p vilket också innebär att modellen under vissa speciella förhållanden också kan skattas med linjära metoder. 4

För den icke logaritmerade formen av modellen, för ; p i /(1 p i ) = e x ( = exp(x ) gäller att om x j ökar med en enhet ökar exp(x till exp(x j = exp(x x exp( j ) Antag j = 0.1, en ökning av x j med enhet ger en multiplikation av den initiala oddskvoten med exp(0.1) 1.105 vilket innebär att den relativa sannolikheten för att y = 1 ökar med 10.5% Dvs om [p i /(1 p i )] = e 1+ 2Xi = e 1 e 2Xi så kommer en ökning av X i med en enhet att öka oddsen till fördel för y i = 1 med e 2*1 5

Annat ex: om = 0.07862 e 0.07862 = 1.0817 oddsen för att Y i = 1 ökar med 1.0817 eller med 8.17 procent Denna tolkning av logitmodellen mer vanlig i biostatistiska applikationer I ekonomiska sammanhang tolkar man oftare i termer av den logaritmerade modellen. j = 0.1 skulle här tolkas som att en enhets ökning av x j ökar den logaritmerade oddskvoten med 0.1 vilket för små j överensstämmer med tolkningen ovan eftersom exp( j ) 1 j. (Se dock det andra exemplet) Om data på individnivå (företag, familj etc ) gäller att L i = ln (1/0) om y = 1 L i = ln (0/1) om y = 0 6

Maximum Likelihood (ML) estimation Tolkning av modellens parametrar (individuella data och ML estimation): Varje lutningskoefficient tolkas i partiella termer och mäter förändringen i the estimated logit (= den logaritmerade oddskvoten) för en enhets förändring i värdet på den aktuella regressorn. Alternativt görs en tolkning i termer av odds, den tolkning man får om man tar antiloggen av de olika lutningsparametrarna. Sannolikheten för att y i = 1 beror på nivån på x i. Genom att substituera in värden på x i i p i = 1/(1 + e Zi ) = e Zi /(1 + e Zi ), Z i = 1 + 2 x i och använda de gjorda skattningarna av kan vi beräkna sannolikheten direkt från funktionen ovan. Vi kan också beräkna förändringen hos sannolikheten för y i = 1 när x i varierar, den s k marginaleffekten. Ett sätt att göra detta är att beräkna sannolikheten också för det nya värdet för x och sedan beräkna differensen mellan de erhållna sannolikheterna. 7

Vid beräkning av marginaleffekten tas hänsyn till den nivå på sannolikheten från vilken förändringen beräknas, P *, och som beror på det värde på x i (x * i) för vilket sannolikheten beräknats initialt För logitmodellen gäller att [Ey x]/ x ij = p i / x ij = j (1-P * )P *. För exemplet ovan gäller alltså då att marginaleffekten också kan fås via (1-P * )P * där P * = sannolikheten beräknad vid x * i, och (1-P * )P * är den marginella förändringen av sannolikheten för y i = 1 vid en enhets ökning av x i från x * i Den genomsnittliga marginaleffekten för logitmodellen kan beräknas relativt enkelt eftersom p i / x ij = p i (1- p i ) j, och stickprovsmedelvärdet för y ger en grov skattning av p i. Notera slutligen att den linjära sannolikhetsmodellen (korrigerad för den heteroskedasticitet) trots allt erbjuder en bra start när det gäller att få en första uppfattning om vilka variabler som är signifikanta, även om modellen uppvisar stora svagheter vid krav på mer precisa skattningar och tolkningar. 8

Probitmodellen Probitmodellen utgår, som tidigare konstaterats, från ett antagande om en bakomliggande standardiserad normalfördelning för p i. z G(z) = Φ(z) = (v)dv - där (z) är den standardiserade normala täthetsfunktionen (z) = (2π) -1/2 exp(- z 2 /2) För G gäller, såväl om funktionen antar formen av en logitformulering som om funktionen antar en probitformulering, att G(z) 0 när z - och G(z) 1 när z. 9

Vilken modell, logit- eller probitmodellen, är bäst? Probitmodellen är beräkningsmässigt svårare än logitmodellen. Vid beräkning av marginaleffekter för probitmodellen, p i / x ij = j f(z i ) där f(z i ) är täthetsfunktionen för en standardiserade och normalfördelad variabel och Z i = 1 + 2 X 2i + + k X ki, finns inga förenklingar motsvarande de som finns för logitmodellen annat än att p i / x ij < 0.4 j (mer om detta senare). I flertalet tillämpningar är modellerna till stora delar likvärdiga och den huvudsakliga skillnaden består i att den logistiska fördelningen har fetare svansar dvs den betingade sannolikheten för att y i = 1 närmar sig noll eller ett i en långsammare takt för logitmodellen. 10

Men, eftersom modellerna ger olika värden på skattningarna för måste man vara uppmärksam på detta vid jämförelse av resultat av modellskattningar. Båda de bakomliggande (standardiserade) fördelningarna har μ = 0, men för normalfördelningen är 2 = 1 och för den logistiska fördelningen är 2 = π 2 /3 där π 3.14 logit = 1.81 probit eller, omvänt, (1/1.81) logit = probit, (π / 3 1.81) Amemiya förslår som alternativ multiplikation med 1.6 (resp 1/1.6), ett alternativ man ofta kan se i olika studier, och har visat att dessa jämförelser fungerar bra om 0.1 < p < 0.9 11

Att modellerna ger olika skattningar av är i sig inget problem utan beror alltså på att man använder olika formler för de bakomliggande sannolikhetsfördelningarna Det meningsfulla är egentligen jämförelsen av skattade marginaleffekter för de olika modellerna; för logitmodellen är p/ x j < 0.25 j för probitmodellen är p/ x j < 0.4 j och för den linjära sannolikhetsmodellen (LPM) är p/ x j = j. Detta ger tumregeln ; Logit 4 OLS Probit 2.5 OLS Logit 1.6 Probit (enl Amemiya s förslag) 12

Latenta variabler En latent variabel är en variabel som vi inte kan observera fullt ut. Denna typ av variabler kan introduceras i modellerna för diskreta val på två olika sätt; - i form av ett index - som skillnaden i upplevd nytta om en händelse ifråga inträffar jämfört med om den inte gör det Av det andra fallet framgår att det blir centralt att skilja mellan regressorer som skiljer sig åt mellan olika alternativ (pris, restid etc) och regressorer som inte påverkas av vilket alternativ som väljs (socioekonomiska faktorer som utbildning etc) 13

Indexmodeller Funktionsformulering i termer av ett index syftar till att förklara en bakomliggande, men icke observerbar, kontinuerlig variabel, y*, när det enda vi egentligen kan observera är en binär variabel som antar värdet 1 eller 0 beroende på om y* passerar ett visst tröskelvärde eller ej. Antag att y* är en latent variabel i en modell där vi ska förklara varför en individ önskar förvärvsarbeta. Den naturliga regressionsmodellen blir här; y* = x u Vi kan egentligen inte observera och mäta önskan att förvärvsarbeta men vi kan observera om individen faktiskt förvärvsarbetar eller ej vilket ger att; y = 1 if y* > 0 = 0 if y* < 0 14

där P[y = 1 x] = P[y* > 0] = P[x + u > 0] = P[- u < x ] = F(x ) och där F är den kumulativa fördelningsfunktionen för u vilken, givet en fördelning som är symmetrisk runt 0, motsvarar den kumulativa fördelningsfunktionen för u. Modellen kan därför formuleras på det sätt som vi tidigare formulerat en binär valmodell, vi har egentligen bara gett modellen en teoretisk förankring; p i P[y i = 1 x] = F(x i Notera att tröskelvärdet för indexmodellen inte behöver vara noll. Mer generell kan antas att om y = 1 när y* > z så är P[y = 1 x] = F(x z där bara kan identifieras om samtliga komponenter i z och x skiljer sig åt. 15

Random Utility Models I denna typ av modeller antas en individ välja mellan alternativ 0 och alternativ 1 baserat på vilket av alternativen som erbjuder den högsta nyttan (största tillfredsställelsen). Givet en additiv modell kan modellen specificeras: U 0 = V 0 + 0 U 1 = V 1 + 1 V 0 och V 1 motsvarar modellens deterministiska del och 0 och 1 är de slumpmässiga inslagen P[y = 1] = P[U 1 > U 0 ] = P[V 1 + 1 > V 0 + 0 ] = P[ 0 1 < V 1 V 0 ] = F(V 1 V 0 ) där F är den kumulativa fördelningsfunktionen för ( 0 1 ) 16

Ett givet val av fördelningsfunktion för slumptermerna är normalfördelningen. Om 0 and 1 är normalfördelade gäller detta även för ( 0 1 ) (linjära kombinationer av normalfördelade variabler är också normalfördelade). Variansen för ( 0 1 ) antas vara lika med 1och eftersom F( ) antar formen av en standardiserad normalfördelning får vi en probitmodell. Notera också att eftersom U 1 > U 2 så måste också gälla att au 1 > au 2. Även detta hanteras genom antagandet om normalfördelning. 17

Dessutom : Även logit- och probitmodeller kan förstås innehålla endogena regressorer. Möjligt att använda logit- och probitmodeller även på poolade tvärsnittsdata och/eller data där observationerna identiskt fördelade. Förekomst av s k choice-based samples inte helt ovanligt i samband med logit- och probitmodeller man översamplar vissa grupper. För konsistens hos krävs viktad MLE. Grupperade och aggregerade data I vissa fall kan, trots att individdata saknas och grupperade och/eller aggregerade data är de enda tillgängliga datamängderna, modeller för diskreta val fortfarande vara den lämpligaste modellformuleringen. Spelar dock roll hur gruppering och/eller aggregering ser ut. 18