För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Relevanta dokument
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Paneldata och instrumentvariabler/2sls

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Statistisk analys av komplexa data

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Statistisk analys av komplexa data

Lektionsanteckningar 11-12: Normalfördelningen

Exempel på tentamensuppgifter

Formler och tabeller till kursen MSG830

FÖRELÄSNING 8:

Föreläsning 12: Linjär regression

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tenta i Statistisk analys, 15 december 2004

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tentamen MVE301 Sannolikhet, statistik och risk

MVE051/MSG Föreläsning 14

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

SF1901 Sannolikhetsteori och statistik I

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

FÖRELÄSNING 7:

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE300 Sannolikhet, statistik och risk

Föreläsning G60 Statistiska metoder

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Tentamen MVE301 Sannolikhet, statistik och risk

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Statistik 1 för biologer, logopeder och psykologer

Tentamen MVE301 Sannolikhet, statistik och risk

F9 SAMPLINGFÖRDELNINGAR (NCT

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Tentamen MVE302 Sannolikhet och statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Stokastiska signaler. Mediesignaler

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Statistisk analys av komplexa data

Skrivning i ekonometri torsdagen den 8 februari 2007

Statistik 1 för biologer, logopeder och psykologer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Några extra övningsuppgifter i Statistisk teori

Föreläsning 12: Repetition

Tentamen MVE301 Sannolikhet, statistik och risk

PROGRAMFÖRKLARING III

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

F23 forts Logistisk regression + Envägs-ANOVA

Matematisk statistik för B, K, N, BME och Kemister

Statistiska metoder för säkerhetsanalys

Bayesiansk statistik, 732g43, 7.5 hp

Tentamen MVE301 Sannolikhet, statistik och risk

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

TMS136. Föreläsning 10

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Matematisk statistik för D, I, Π och Fysiker

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Föreläsning 7: Punktskattningar

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Tentamen MVE301 Sannolikhet, statistik och risk

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Kapitel 9 Egenskaper hos punktskattare

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

F11. Kvantitativa prognostekniker

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Sannolikheter och kombinatorik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Härledning av Black-Littermans formel mha allmänna linjära modellen

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Föreläsning 7: Punktskattningar

SF1911: Statistik för bioteknik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Stokastiska processer med diskret tid

Föreläsning 8: Konfidensintervall

Föreläsning 15, FMSF45 Multipel linjär regression

Tentamen MVE301 Sannolikhet, statistik och risk

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

8. NÅGRA SPECIELLA KONTINUERLIGA SANNOLIKHETSFÖRDELNINGAR

Grundläggande matematisk statistik

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

SF1901 Sannolikhetsteori och statistik I

Repetitionsföreläsning

Monte Carlo-metoder. Bild från Monte Carlo

TMS136. Föreläsning 4

TAMS17/TEN1 STATISTISK TEORI FK TENTAMEN ONSDAG 10/ KL

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Transkript:

Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt fördelad slumpvariabel. Om z i = β 1 + β 2 x i så kan den (kumulativa) logistiska fördelningsfunktionen uttryckas: p i = e z /(1 + e z ) = 1 / (1+ e z ) p i = 1/(1 + e (β1 + β2xi) ) = e (β1 + β2xi) /(1 + e (β1 + β2xi) ) 1

Man kan visa att; - när z i går från - till + så kommer p i att ligga mellan 0 and 1 - p i är icke-linjärt relaterat till z i - p i närmar sig noll i avtagande takt när x i antar mycket låga värden och närmar sig ett i avtagande takt när x i antar mycket höga värden ger en S-formad kurva som ser ut som en kumulativ fördelningsfunktion för en stokastisk variabel (cdf) 2

Om p i = sannolikheten för att y i = 1 är (1 p i ) = sannolikheten för att y i = 0 1 p i = 1/(1 + e Zi ) vilket också innebär att: p i /(1 p i ) = e Zi [p i /(1 p i )] kallas oddskvoten, eller relativ risk, för att y i =1, dvs är kvoten mellan sannolikheten för alternativ 1 och alternativ 0 om p i = 0.8 (och (1 p i ) = 0.2) är oddsen 4 mot 1 till fördel för alternativ 1 osv 3

Den naturliga logaritmen av funktionen ger; L i = ln [p i /(1 p i )] = z i = β 1 + β 2 x i dvs den naturliga logaritmen av oddskvoten är nu linjär inte enbart med avseende på x utan också m a p β, vilket också innebär att modellen under vissa speciella förhållanden också kan skattas med linjära metoder. 4

För den icke logaritmerade formen av modellen, för ; p i /(1 p i ) = e x β ( = exp(x β) ) gäller att om x j ökar med en enhet ökar exp(x β) till exp(x β + β j ) = exp(x β) x exp(β j ) Antag β j = 0.1, en ökning av x j med enhet ger en multiplikation av den initiala oddskvoten med exp(0.1) 1.105 vilket innebär att den relativa sannolikheten för att y = 1 ökar med 10.5% Dvs om [p i /(1 p i )] = e β1+β2xi = e β1 e β2xi så kommer en ökning av X i med en enhet att öka oddsen till fördel för y i = 1 med e β2*1 5

Annat ex: om β 2 = 0.07862 e 0.07862 = 1.0817 oddsen för att Y i = 1 ökar med 1.0817 eller med 8.17 procent Denna tolkning av logitmodellen dock mer vanlig i biostatistiska applikationer I ekonomiska sammanhang tolkar man dock oftare i termer av den logaritmerade modellen. β j = 0.1 skulle här tolkas som att en enhets ökning av x j ökar den logaritmerade oddskvoten med 0.1 vilket för små β j överensstämmer med tolkningen ovan eftersom exp(β j ) 1 β j. (Se dock det andra exemplet) Om data på individnivå (företag, familj etc ) gäller att L i = ln (1/0) om y = 1 L i = ln (0/1) om y = 0 Maximum Likelihood (ML) estimation 6

För MLE gäller att: Signifikanstest baseras på den standardiserade normalfördelningen istället för på t-test. Vid test av H 0 ; att samtliga β i samtidigt är lika med noll, motsvaras den linjära regressionsmodellens F test av Likelihood Ratio (LR) testet. Under H 0 följer LR-testet χ 2 fördelningen med df = antal förklaringsvariabler (exkl intercepttermen) Betr mått på goodness of fit så ger R 2 inte längre särskilt meningsfull information Istället R 2 liknande värden; pseudo R 2, the McFadden R 2, R 2 McF, och count R 2 7

Tolkning av modellens parametrar (individuella data och ML estimation): Varje lutningskoefficient tolkas i partiella termer och mäter förändringen i the estimated logit (= den logaritmerade oddskvoten) för en enhets förändring i värdet på den aktuella regressorn. Alternativt görs en tolkning i termer av odds, den tolkning man får om man tar antiloggen av de olika lutningsparametrarna. Sannolikheten för att y i = 1 beror på nivån på x i. Genom att substituera in värden på x i i p i = 1/(1 + e Zi ) = e Zi /(1 + e Zi ), Z i = β 1 + β 2 x i och använda de gjorda skattningarna av β kan vi beräkna sannolikheten direkt från funktionen ovan. 8

Vi kan också beräkna förändringen hos sannolikheten för y i = 1 när x i varierar. Marginaleffekten för logitmodellen kan beräknas relativt enkelt m hj av de skattade parametrarna eftersom p i / x j = p i (1- p i )β j, och stickprovsmedelvärdet för y ger en grov skattning av p i. Vi kan vid beräkning av marginaleffekten alternativt också ta hänsyn till den nivå på sannolikheten från vilken förändringen beräknas, PP*, och som beror på det * värde på x i (x i ) för vilket sannolikheten beräknats initialt. β 2 (1-P * )P * där PP* = sannolikheten beräknad vid x * i, och β 2(1-P * )P * är den marginella förändringen av sannolikheten för y i = 1 vid en enhets ökning av x i från x * i Notera slutligen att den linjära sannolikhetsmodellen (korrigerad för den heteroskedasticitet) trots allt erbjuder en bra start när det gäller att få en första uppfattning om vilka variabler som är signifikanta, även om modellen uppvisar stora svagheter vid krav på mer precisa skattningar och tolkningar. 9

Probitmodellen Probitmodellen utgår, som tidigare konstaterats, från ett antagande om en bakomliggande standardiserad normalfördelning för p i. z G(z) = Φ(z) = φ(v)dv - där φ(z) är den standardiserade normala täthetsfunktionen φ(z) = (2π) -1/2 exp(- z 2 /2) För G gäller, såväl om funktionen antar formen av en logitformulering som om funktionen antar en probitformulering, att (G(z) 0 när z - och G(z) 1 när z. 10

Vilken model, logit- eller probitmodellen, är bäst? Probitmodellen är beräkningsmässigt svårare än logitmodellen. Vid beräkning av marginaleffekter för probitmodellen, p i / x ij = β j f(z i ) där f(z i ) är täthetsfunktionen för en standardiserade och normalfördelad variabel och Z i = β 1 + β 2 X 2i + + β k X ki, finns inga förenklingar motsvarande de som finns för logitmodellen annat än att p i / x ij < 0.4β j (mer om detta senare). I flertalet tillämpningar är modellerna till stora delar likvärdiga och den huvudsakliga skillnaden består i att den logistiska fördelningen har fetare svansar dvs den betingade sannolikheten för att y i = 1 närmar sig noll eller ett i en långsammare takt för logitmodellen. 11

Men, eftersom modellerna ger olika värden på skattningarna för β måste man vara uppmärksam på detta vid jämförelse av resultat av modellskattningar. Båda de bakomliggande (standardiserade) fördelningarna har μ = 0, men för normalfördelningen är σ 2 = 1 och för den logistiska fördelningen är σ 2 = π 2 /3 där π 3.14 β logit = 1.81β probit eller, omvänt, (1/1.81)β logit = β probit, (π / 3 1.81) Amemiya förslår istället multiplikation med 1.6 (resp 1/1.6), ett alternativ man ofta kan se i olika studier, och har visat att dessa jämförelser fungerar bra om 0.1 < p < 0.9. Att modellerna ger olika skattningar av β är i sig inget problem utan beror alltså på att man använder olika formler för de bakomliggande sannolikhetsfördelningarna 12

Det meningsfulla är dessutom egentligen jämförelsen av skattade marginaleffekter för de olika modellerna; för logitmodellen är p/ x j < 0.25β j för probitmodellen är p/ x j < 0.4β j och för den linjära sannolikhetsmodellen (LPM) är p/ x j = β j. Detta ger tumregeln ; β Logit 4β OLS β Probit 2.5β OLS β Logit 1.6β Probit (enl Amemiya s förslag) 13

Latenta variabler En latent variabel är en variabel som vi inte kan observera fullt ut. Denna typ av variabler kan introduceras i modellerna för diskreta val på två olika sätt; - i form av ett index - som skillnaden i upplevd nytta om en händelse ifråga inträffar jämfört med om den inte gör det Av det andra fallet framgår att det blir centralt att skilja mellan regressorer som skiljer sig åt mellan olika alternativ (pris, restid etc) och regressorer som inte påverkas av vilket alternativ som väljs (socioekonomiska faktorer som utbildning etc) 14

Indexmodeller Funktionsformulering i termer av ett index syftar till att förklara en bakomliggande, men icke observerbar, kontinuerlig variabel, y*, när det enda vi egentligen kan observera är en binär variabel som antar värdet 1 eller 0 beroende på om y* passerar ett visst tröskelvärde eller ej. Antag att y* är en latent variabel i en modell där vi ska förklara varför en individ önskar förvärvsarbeta. Den naturliga regressionsmodellen blir här; y* = x β + u Vi kan egentligen inte observera och mäta önskan att förvärvsarbeta men vi kan observera om individen faktiskt förvärvsarbetar eller ej vilket ger att; y = 1 if y* > 0 = 0 if y* < 0 15

där P[y = 1 x] = P[y* > 0] = P[x β + u > 0] = P[- u < x β ] = F(x β) och där F är den kumulativa fördelningsfunktionen för u vilken, givet en fördelning som är symmetrisk runt 0, motsvarar den kumulativa fördelningsfunktionen för u. Modellen kan därför formuleras på det sätt som vi tidigare formulerat en binär valmodell, vi har egentligen bara gett modellen en teoretisk förankring; p i P[y i = 1 x] = F(x i β) Notera att tröskelvärdet för indexmodellen inte behöver vara noll. Mer generell kan antas att om y = 1 när y* > z δ så är P[y = 1 x] = F(x β z δ) där δ bara kan identifieras om samtliga komponenter i z och x skiljer sig åt. 16

Random Utility Models I denna typ av modeller antas en individ välja mellan alternativ 0 och alternativ 1 baserat på vilket av alternativen som erbjuder den högsta nyttan (största tillfredsställelsen). Givet en additiv modell kan modellen specificeras: U 0 = V 0 + ε 0 U 1 = V 1 + ε 1 V 0 och V 1 motsvarar modellens deterministiska del och ε 0 och ε 1 är de slumpmässiga inslagen P[y = 1] = P[U 1 > U 0 ] = P[V 1 + ε 1 > V 0 + ε 0 ] = P[ε 0 ε 1 < V 1 V 0 ] = F(V 1 V 0 ) där F är den kumulativa fördelningsfunktionen för (ε 0 ε 1 ) 17

Ett givet val av fördelningsfunktion för slumptermerna är normalfördelningen. Om ε 0 and ε 1 är normalfördelade gäller detta även för (ε 0 ε 1 ) (linjära kombinationer av normalfördelade variabler är också normalfördelade). Variansen för (ε 0 ε 1 ) antas vara lika med 1och eftersom F( ) antar formen av en standardiserad normalfördelning får vi en probitmodell. Notera också att eftersom U 1 > U 2 så måste också gälla att au 1 > au 2. Även detta hanteras genom antagandet om normalfördelning. 18

Test av multipla hypoteser Det finns tre olika sätt att testa restriktioner som innebär exkludering av parametrar; - Lagrange multiplier testet (score testet) som bara kräver skattning av modellen under H 0, dvs av modellen med restriktioner - Wald testet som enbart kräver att man skattar modellen utan restriktioner. Testet tillåter test av exkludering av vissa parametrar efter det att modellen utan restriktioner skattats. Wald-testet har en asymptotisk χ 2 -fördelning med df = antal restriktioner. - Om både modellen med, och modellen utan, restriktioner är enkla att skatta - vilket ju oftast är fallet om det handlar om exkludering av variabler är Likelihood Ratio testet mycket användbart. Testet baseras på samma principer som F-testet för den linjära regressionen. F-testet baseras skillnader mellan RSS R och RSS UR medan LR-testet baseras på skillnader mellan log-likelihood-funktionerna för modellen med och modellen utan restriktioner 19

LR =2(Lur Lr ) Där Lur är värdet på log-likelihood funktionen för modellen utan restriktioner och Lr är värdet på loglikelihood funktionen för modellen med restriktioner. Eftersom Lur > Lr, är LR positivt men vid beräkning av LR statistikan för binära valmodeller antar loglikelihood funktionen alltid ett negativt värde. Det faktum att båda log-likelihood funktionerna antar negative värden påverkar dock inte hur vi beräknar LR värdet, vi behåller helt enkelt minustecknet i formeln. Multiplikationen med två krävs för att LR testet ska vara approximativt χ 2 fördelat under H 0. Om vi använder testet för att testa för exkludering av variabler är LR ~ χ 2 q. 20

Dessutom : Även logit- och probitmodeller kan förstås innehålla endogena regressorer. Möjligt att använda logit- och probitmodeller även på poolade tvärsnittsdata och/eller data där observationerna identiskt fördelade. Förekomst av s k choice-based samples inte helt ovanligt i samband med logit- och probitmodeller man översamplar vissa grupper. För konsistens hos β krävs viktad MLE. Grupperade och aggregerade data I vissa fall kan, trots att individdata saknas och grupperade och/eller aggregerade data är de enda tillgängliga datamängderna, modeller för diskreta val fortfarande vara den lämpligaste modellformuleringen. Spelar dock roll hur gruppering och/eller aggregering ser ut. 21