Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Relevanta dokument
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Till ampad statistik (A5) Förläsning 13: Logistisk regression

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Dekomponering av löneskillnader

PROGRAMFÖRKLARING III

Lektionsanteckningar 11-12: Normalfördelningen

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 12: Linjär regression

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Exempel på tentamensuppgifter

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Statistiska metoder för säkerhetsanalys

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Sänkningen av parasitnivåerna i blodet

Paneldata och instrumentvariabler/2sls

Statistisk analys av komplexa data

Stokastiska signaler. Mediesignaler

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

STOCKHOLMS UNIVERSITET FYSIKUM

Matematisk statistik KTH. Formelsamling i matematisk statistik

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Statistisk analys av komplexa data

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

F11. Kvantitativa prognostekniker

Föreläsning 4, Matematisk statistik för M

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 12: Repetition

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen MVE302 Sannolikhet och statistik

SF1901 Sannolikhetsteori och statistik I

Lärmål Sannolikhet, statistik och risk 2015

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Avd. Matematisk statistik

Grundläggande matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

Statistiska metoder för säkerhetsanalys

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 7: Punktskattningar

Bilaga 1. Kvantitativ analys

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Kurssammanfattning MVE055

Kap 2. Sannolikhetsteorins grunder

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 10, del 1: Icke-linjära samband och outliers

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Bayesiansk statistik, 732g43, 7.5 hp

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Regressionsmodellering inom sjukförsäkring

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Tentamen MVE300 Sannolikhet, statistik och risk

Avd. Matematisk statistik

Föreläsning 7: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 12: Regression

Föreläsning 15, FMSF45 Multipel linjär regression

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Föreläsning 8: Konfidensintervall

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Weibullanalys. Maximum-likelihoodskattning

F13 Regression och problemlösning

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: Sannolikhetslära och statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

ÖVNINGSUPPGIFTER KAPITEL 9

Multipel Regressionsmodellen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Att beräkna t i l l v ä x t takter i Excel

4 Diskret stokastisk variabel

Facit till Extra övningsuppgifter

Matematisk statistik, Föreläsning 5

SF1911: Statistik för bioteknik

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Hur måttsätta osäkerheter?

Transkript:

Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Eftersom exp( ) alltid är en positiv funktion försäkrar funktionsformen att prediktioner av y alltid blir positiva (y = antal patent, antal sjukdagar etc). En count variabel kan inte antas följa en normalfördelning och om variabeln endast antar ett fåtal olika värden kan fördelningen dessutom ligga mycket långt ifrån normalfördelningen. Den vanligast förekommande fördelningen är här istället en Poissonfördelning 1

Sannolikheten för att y antar ett visst värde, h, betingat av x, ges av P(y = h x) = exp[-exp(x' )][exp(x' )] h /h! (fakultet, 5! = 5 4 3 2 1 osv, 0! = 1) en fördelning som gör det möjligt att söka betingade sannolikheter för varje värde på y: P(y = 0 x)= exp[-exp(x' )] osv Marginaleffekten beräknas E(y x1, x2,.xk)/ xj = exp( 0 + 1x1 +.+ kxk) j Ett mått på genomsnittlig marginaleffekt ges av ȳ j vilket kan jämföras med en OLS-skattning av en linjär modellformulering I praktiken kan vi tolka koefficienterna i ekvationen som om vi skattat en linjär modell med log(y) som beroendevariabel % E(y x) (100 j) xj 2

Även om MLE baserad på ett antagande om en bakomliggande Poissonfördelning är ett första naturligt steg för count data så är modellen ofta för begränsad Samtliga högre moment bestäms helt och hållet av E(y x) vilket bl a innebär att Var(y x) = E(y x) en egenskap som visat sig inte hålla i många fall. Poissonfördelningen är dock robust i meningen att parameterskattningarna är konsistenta oavsett om ovanstående fördelningsantagande håller eller ej. Som alternativ finns möjlighet till beräkning av robusta standardavvikelser liksom Quasi-maximum likelihood estimation (QMLE) och antagande om NegBin I och NegBinII 3

Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt fördelad slumpvariabel. Om z i = 1 + 2 x i så kan den (kumulativa) logistiska fördelningsfunktionen uttryckas: p i = 1 / [1+ e ( Xi) ] p i = 1/(1 + e Zi ) = e Z /(1 + e Z ) (=exp(z)/[1 + exp(z)] ) 4

Man kan visa att; - när z i går från - till + så kommer p i att ligga mellan 0 and 1 - p i är icke-linjärt relaterat till z i - p i närmar sig noll i avtagande takt när x i antar mycket låga värden och närmar sig ett i avtagande takt när x i antar mycket höga värden ger en S-formad kurva som ser ut som en kumulativ fördelningsfunktion för en stokastisk variabel (cdf) 5

Om p i = sannolikheten för att y i = 1 är (1 p i ) = sannolikheten för att y i = 0 1 p i = 1/(1 + e Zi ) vilket också innebär att: p i /(1 p i ) = e Zi [p i /(1 p i )] kallas oddskvoten, eller relativ risk, för att y i =1, dvs är kvoten mellan sannolikheten för alternativ 1 och alternativ 0 om p i = 0.8 (och (1 p i ) = 0.2) är oddsen 4 mot 1 till fördel för alternativ 1 osv 6

Den naturliga logaritmen av funktionen ger; L i = ln [p i /(1 p i )] = z i = 1 + 2 x i dvs den naturliga logaritmen av oddskvoten är nu linjär inte enbart med avseende på x utan också m a p vilket också innebär att modellen under vissa speciella förhållanden också kan skattas med linjära metoder. 7

För den icke logaritmerade formen av modellen, för ; p i /(1 p i ) = e x ( = exp(x ) gäller att om x j ökar med en enhet ökar exp(x till exp(x j = exp(x x exp( j ) Antag j = 0.1, en ökning av x j med enhet ger en multiplikation av den initiala oddskvoten med exp(0.1) 1.105 vilket innebär att den relativa sannolikheten för att y = 1 ökar med 10.5% Dvs om [p i /(1 p i )] = e 1+ 2Xi = e 1 e 2Xi så kommer en ökning av X i med en enhet att öka oddsen till fördel för y i = 1 med e 2*1 8

Annat ex: om = 0.07862 e 0.07862 = 1.0817 oddsen för att Y i = 1 ökar med 1.0817 eller med 8.17 procent Denna tolkning av logitmodellen dock mer vanlig i biostatistiska applikationer I ekonomiska sammanhang tolkar man dock oftare i termer av den logaritmerade modellen. j = 0.1 skulle här tolkas som att en enhets ökning av x j ökar den logaritmerade oddskvoten med 0.1 vilket för små j överensstämmer med tolkningen ovan eftersom exp( j ) 1 j. (Se dock det andra exemplet) Om data på individnivå (företag, familj etc ) gäller att L i = ln (1/0) om y = 1 L i = ln (0/1) om y = 0 Maximum Likelihood (ML) estimation 9

Tolkning av modellens parametrar (individuella data och ML estimation): Varje lutningskoefficient tolkas i partiella termer och mäter förändringen i the estimated logit (= den logaritmerade oddskvoten) för en enhets förändring i värdet på den aktuella regressorn. Alternativt görs en tolkning i termer av odds, den tolkning man får om man tar antiloggen av de olika lutningsparametrarna. Sannolikheten för att y i = 1 beror på nivån på x i. Genom att substituera in värden på x i i p i = 1/(1 + e Zi ) = e Zi /(1 + e Zi ), Z i = 1 + 2 x i och använda de gjorda skattningarna av kan vi beräkna sannolikheten direkt från funktionen ovan. Vi kan också beräkna förändringen hos sannolikheten för y i = 1 när x i varierar. 10

Vid beräkning av marginaleffekten tas hänsyn till den nivå på sannolikheten från vilken förändringen beräknas, P *, och som beror på det värde på x i (x * i) för vilket sannolikheten beräknats initialt. För logitmodellen gäller att [Ey x]/ x ij = p i / x j = P * (1-P * ) j För exemplet ovan gäller alltså då att marginaleffekten också kan fås via P * (1-P * ) där P * = sannolikheten beräknad vid x * i, och P * (1-P * ) är den marginella förändringen av sannolikheten för y i = 1 vid en enhets ökning av x i från x * i Den genomsnittliga marginaleffekten för logitmodellen kan beräknas relativt enkelt eftersom p i / x ij = p i (1- p i ) j, och stickprovsmedelvärdet för y ger en grov skattning av p i ( ȳ(1-ȳ) j ) Notera slutligen att den linjära sannolikhetsmodellen (korrigerad för den heteroskedasticitet) trots allt erbjuder en bra start när det gäller att få en första uppfattning om vilka variabler som är signifikanta, även om modellen uppvisar stora svagheter vid krav på mer precisa skattningar och tolkningar. 11