Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Relevanta dokument
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Paneldata och instrumentvariabler/2sls

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Lektionsanteckningar 11-12: Normalfördelningen

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Statistisk analys av komplexa data

Föreläsning 7: Punktskattningar

Statistisk analys av komplexa data

Föreläsning 7: Punktskattningar

Matematisk statistik KTH. Formelsamling i matematisk statistik

LKT325/LMA521: Faktorförsök

Föreläsning 7: Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

TMS136. Föreläsning 10

MVE051/MSG Föreläsning 14

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Exempel på tentamensuppgifter

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 12: Repetition

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Föreläsning 12: Linjär regression

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F13 Regression och problemlösning

STATISTISK ANALYS AV KOMPLEXA DATA

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Härledning av Black-Littermans formel mha allmänna linjära modellen

Hur måttsätta osäkerheter?

Statistisk analys av komplexa data

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik TMS064/TMS063 Tentamen

FÖRELÄSNING 8:

0 om x < 0, F X (x) = c x. 1 om x 2.

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen MVE302 Sannolikhet och statistik

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistiska metoder för säkerhetsanalys

Kap 2. Sannolikhetsteorins grunder

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

SF1901 Sannolikhetsteori och statistik I

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Stokastiska processer med diskret tid

Repetitionsföreläsning

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Tentamen MVE302 Sannolikhet och statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen MVE301 Sannolikhet, statistik och risk

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

STATISTISK ANALYS AV KOMPLEXA DATA

SF1901 Sannolikhetsteori och statistik I

Repetitionsföreläsning

Några extra övningsuppgifter i Statistisk teori

Introduktion till statistik för statsvetare

Föreläsning G60 Statistiska metoder

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Optimering och simulering: Hur fungerar det och vad är skillnaden?

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

TMS136. Föreläsning 4

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Formler och tabeller till kursen MSG830

Föreläsning 12: Regression

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

1 Föreläsning V; Kontinuerlig förd.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Föreläsning 8: Konfidensintervall

Föreläsning 4, Matematisk statistik för M

Tentamen MVE301 Sannolikhet, statistik och risk

Betingning och LOTS/LOTV

ÖVNINGSUPPGIFTER KAPITEL 9

Transkript:

Multinominella modeller Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller. Möjligt att, genom olika modellformuleringar, beakta att vissa regressorer varierar mellan olika alternativ och att andra regressorer förblir oförändrade mellan olika alternativ men varierar mellan individer; Om valen handlar om att välja transportsätt till arbetet är variabler som tidsåtgång och kostnad exempel på variabler som varierar mellan olika valalternativ medan inkomst och ålder hos individen är exempel på variabler som inte gör det. I praktiken används ett stort antal varianter av multinominella modeller. 1

Generellt gäller att; Antag m alternativ där sannolikheten för att alternativ j väljs ges av p j = P[y = j], j = 1, m. m binära variabler, en för varje alternativ; y 1 = 1 om y = 1 = 0 om y 1 (eg = 0 annars) y 2 = 1 om y = 2 = 0 om y 2 osv dvs y 1 = 1 om alternativ 1 är det observerade valet och samtliga kvarvarande y k är då lika med noll, så för varje observation av y kommer exakt ett av värdena y 1, y 2,.y m att vara från noll. 2

Den multinominella täthetsfunktionen ges av och m f(y)= p 1 y1... p m ym = p j yj sannolikheten för att individ i, givet x i, väljer alternativ j ges av p ij = P[y i = j] = F j (x i,β), j = 1,.m, i = 1,.N j=1 Funktionsformen för F j ska även här vara sådan att sannolikheterna för olika utfall (val) ligger inom intervallet 0 till 1 och summerar över j till ett. Olika funktionella former för F j hör ihop med olika specifika modeller. 3

Tolkning och utvärdering av modeller Ofta svårt att ge direkta tolkningar av regressionsparametrarna. Mer användbart att titta på marginaleffekter för sannolikheter för olika val när en regressor förändras. R 2 fungerar inte heller här som ett bra goodness of fit mått. Modellerna skattas vanligtvis med MLE. För den nestade modellen erbjuder likelihood ratio test möjligheter till utvärdering. För icke-nestade modeller kan varianter av Akaike s informationskriterium användas. Ett användbart pseudo-r 2 mått ges också av MdFadden;s R 2 : R 2 = 1 ln L fit /ln L 0 där ln L fit hämtas från den skattade modellen och L 0 från en modell med ett intercept som enda ingående variabel. 4

Multinomial Logit, Conditional Logit, Mixed Logit Egentligen kan samtliga dessa modeller kallas för multinominella logitmodeller, men man gör ändå ibland denna uppdelning. Om man gör en uppdelning är det den enklaste formen av modell som kallas för multinominell modell. Det som vid en uppdelning skiljer modellerna åt är om regressorerna varierar mellan de olika alternativ som kan väljas eller ej. Det är för fallet då regressorer inte varierar mellan de olika alternativen som den multinominella logitmodellen (MNL) används. 5

Modellen formuleras; p ij = e x iβj /Σe x iβj j = 1,..m. Eftersom Σp ij = 1 krävs att detta beaktas vid modellformuleringen och en den vanliga restriktionen är då att man sätter β 1 = 0 (beaktar m-1 alternativ). För fallet med regressorer som varierar mellan de olika alternativen (tidsåtgång, priser etc givet att valen avser färdmedel) används den betingade logitmodellen (CL); p ij = e x ij β /Σe x ij β j = 1.m. 6

Dessa båda modeller kan i sin tur kombineras till en mixad logitmodell; p ij = e x ijβ + w iγj x ij β + w iγj /Σe j = 1,..m. där x ij varierar över de olika alternativen och w i varierar över individer. Exempel på en modell kan (igen) vara val av färdmedel till jobbet; bil, cykel eller buss. Valet kan bero på inkomst hos individ i men också på egenskaper såsom pris, tillgänglighet och restid för alternativ j. Vissa variabler kan f ö också tillåtas variera mellan både alternativ och individ (man kan ha olika kostnader för resa med bil beroende på vilken bil man har osv ) Notera dock att samtliga modeller är exempel på s k unordered models, modeller där det inte spelar någon roll i vilken ordning alternativen beaktas. 7

Tolkning av regressionsparametrar kräver försiktighet. Gäller icke-linjära modeller i allmänhet och multinominella modeller i synnerhet. Det är exempelvis inte alltid så att tecknet framför en parameter och en marginalsannolikhet är detsamma Notera också The red bus blue bus problem 8

Nestad Logit Den nestade logitmodellen är en ofta använd generalisering av den mulitinominella logitmodellen, givet då att man kan urskilja val i flera steg. Vanligt exempel i amerikanska läroböcker; College 2 year 4 year private public private public Korrelation mellan slumptermer tillåts mellan varje valmöjlighet inom 2 year och för varje valmöjlighet inom 4 year men inte mellan 2 year och 4 year Den huvudsakliga begränsningen hos den nestade logitmodellen är, kanske inte helt oväntat, att det kan vara svårt att hitta en självklar nestad struktur vad gäller de olika valen. Notera att modellen kan/bör skattas med FIML liksom också att det finns invändningar mot modellens robusthet. Det är också så att olika statistikprogram skattar olika varianter av modellen. Varning alltså! 9

Multinominell Probit Den multinominella probitmodellen är en modell för m val där slumptermerna antas vara normalfördelade. Beroende på hur varians/kovariansmatrisen formuleras så antar den multinominella probitmodellen olika former, men även om samtliga slumptermer antas okorrelerade är modellen komplicerad och det är ibland enklare att anta att slumptermerna antar en extremfördelning och istället formulera CL eller MNL modeller. 10

Ordered Outcomes Hittills har vi antagit att de olika alternativen, valen, inte haft någon given gradering, ibland naturligt att en sådan finns. Hälsostatus kan vara ett sådant exempel. Ger egentligen inga större modellkomplikationer och MLE fungerar bra även här, men olika antaganden om rangordning ger olika specifikationer av sannolikheterna, p ij. Modellen kan fortfarande skattas och formuleras som en unordered multinominell modell, men vi får ökad precision om graderingen beaktas Vi utgår ifrån en indexmodell med en latent variabel; y * I = x i β + u i där x inte innehåller en interceptterm. I takt med att y * når över ett (okänt) tröskelvärde rör vi oss uppåt på skalan med graderade alternativ. Exempelvis kan gälla att häsostatusen för mycket låga y * är dålig, för y* > α 1 har den ökat till okej och för y* > α 2 är den god osv. 11

För den generella modellen med m alternativ gäller då att; y i = j om α j-1 < y * I < α j där α 0 = - and α m = P[y i = j] = P[α j-1 < y * I < α j ] = [α j-1 < x i β + u i < α j ] = P[α j-1 x i β < u i < α j x i β] = F(α j x i β) F(α j-1 x i β ) där F är den kumulativa fördelningsfunktionen för u i. Regressionsparametrarna β och de (m 1) tröskelparametrarna α 1,.α m-1 fås genom maximering av log likelihoodfunktionen med p ij definierad enligt ovan. 12

För the ordered logit model gäller att u är logistiskt fördelad och för the ordered probit model gäller att u är standardiserad normalfördelad (dvs precis som tidigare). Om K betecknar antalet regressorer exkl. interceptet kommer en modell med m val (m tillstånd) att ha K + m 1 parametrar medan en MNL modell kommer att ha (m 1)(K + 1) parametrar. Tecknen på parametrarna kan ges en direkt tolkning när det gäller huruvida den latenta variabeln y * ökar eller inte vid en ökning av den aktuella regressorn. Notera att modellen också kan appliceras på s k count data givet att det bara existerar ett fåtal värden. 13

Ranked Data Models Hittills har vi antagit att alternativen (valen) varit ömsesidigt uteslutande och att bara ett alternativ har valts. Ibland så att alternativen rankats (ex vid stated preference data) och man kanske känner till både första och andra valet. The rank-ordered logit model är relativt enkel att skatta. Antag en CL modell med fyra alternativa val, där alternativ 2 är det val som görs först och alternativ 3 det val som görs sedan. Alternativ 2 väljs då från samtliga fyra alternativ och sedan väljs alternativ 3 från de resterade alternativen 1,2 och 4. Den samtidiga sannolikhetsfunktionen kan härledas utifrån detta och sedan användas som bas för skattningen. (Är en multiplikation av sannolikhetsfunktionerna för de båda valen). Kan egentligen ses som en friare variant av en nestad modell, inte givet att ett visst val måste föregå ett annat val. 14

Multivariata diskreta utfall Här modelleras flera diskreta utfall samtidigt (ex y 1i = 2 om individ i arbetar, y 1i = 1 om inte, och y 2i = 2 om individen har barn, y 2i = 1 om inte). Här kan alltså den samtidiga sannolikheten för två olika alternativ sökas. Vi går inte in på dessa modeller närmare, men möjlighet till denna typ av modellformulering finns alltså. 15

Tobit modellen I vissa fall, särskilt vid analys av individer, familjer och företag, kan en optimering av ett beteende ge en hörnlösning för en relativt stor andel av populationen kan, som vi tidigare konstaterat, vara optimalt att ge noll kronor till välgörenhet, att träna noll timmar osv För denna typ av data erbjuder Tobitmodellen en lösning: Modellen kan, statistiskt, formuleras som y i = β 1 + β 2 x i + u i om högra sidan > 0 = 0 annars 16

Koppling till en LDV modell ges av att vi kan uttrycka responsen, y, i termer av en bakomliggande latent variabel: y* = β 0 + x β + u, u x ~ N[0, σ 2 ] y = max(0, y*) den observerade variabeln, y, är lika med y* när y* > 0, men = 0 när y* < 0. Det är inte alltid givet att vi skulle kunna observera något specifikt värde på y när y* < 0, även om det i många fall är möjligt. Eftersom y* antas vara normalfördelad har y en kontinuerlig fördelning över strikt positiva värden och fördelningen för y givet x är densamma som fördelningen för y* givet x for positiva värden. 17

Numera skattas Tobitmodellen i princip alltid med MLE p g a enkla rutiner för detta finns i de flesta statistikprogram. (Tidigare framhölls ofta Heckmans tvåstegs procedur.) Man kan, lite förenklat troligen, säga att MLE beaktar att det finns ett antal observationer där y = 0, OLS tar med samtliga observationer men utan att beakta att y = 0. 18

Betr tolkning av Tobitmodellens β j gäller, eftersom y* = β 0 + x β + u, u x ~ N[0, σ 2 ] y = max(0, y*) att β j är ett mått på den partiella effekten på E(y* x) vid en förändring av x j. E(y y > 0,x) visar, för givna värden på x, det förväntade värdet på y för den sub-population för vilken y antar positiva värden. Ibland har y* en intressant ekonomisk innebörd, ibland inte men den variabel vi egentligen vill förklara är y. En svaghet hos Tobitmodellen är att modellen baseras på ett antagande normalfördelning och på att var(u) är homoskedastisk. Om u är heteroskedastisk och/eller icke-normalfördelad är MLE inkonsistent. Skattning av Tobitmodellen bör föregås av test av dessa antaganden. 19

Censurerade och trunkerade modeller Ett alternativ som ofta också behandlas inom ramen för Tobitmodeller är fallet där y har censurerats över (eller under) ett visst tröskelvärde. I vissa fall beroende på undersökningen design, i andra fall beroende på institutionella restriktioner. Det är egentligen här som den korrekta beteckningen just är censurerad regressionsmodell. Problemet ett problem med missing data on y, vi har möjlighet att dra ett slumpmässigt stickprov från en population men i en del fall kan vi bara observera om y > (eller <) ett visst tröskelvärde. 20

Den censurerade (och normalfördelade) regressionsmodellen kan formuleras; y i = β 0 + x i β + u i, u i x i, c i ~ N(0,σ 2 ) w i = min (y i,c i ) Här observerar vi bara y om y antar ett lägre värde än a censoring value c i. Exemplet avser fallet med top coding, vi har bara info om värdet på y upp till en viss tröskelnivå. För högre värden än så vet vi bara att värdet är åtminstone så högt som denna nivå. (I vissa undersökningar kan exvis ett hushålls förmögenhet anges på detta sätt). 21

En på detta sätt censurerad datamängd ger liknande problem som de som tidigare tagits upp; En OLS skattning baserad bara på de ocensurerade observationerna på y i < c i ger inkonsistenta skattningar av β j, och detta gäller också en OLS skattning av w i på x i, dvs för en skattning där vi använder alla observationerna. Detta är en likhet med Tobitmodellen som vi tidigare presenterat den. Notera dock att i Tobit fallet så beskriver vi med hjälp av vår modell ett ekonomiskt beteende som i många fall kan ge ett utfall lika med noll. För fallet med den censurerade regressionsmodellen har vi ett problem med insamlade data pga att dessa av någon anledning censurerats. Givet de antaganden som gjorts ovan kan vi skatta β (och σ 2 ) med MLE. Vi kan här också tolka β j på samma sätt som vi tolkar den linjära regressionsmodellens β vilket, som tidigare sagts, inte är möjligt för Tobitmodellen applicerad på hörnlösningar och där ju de förväntade värdena av intresse är ickelinjära funktioner av β j ;na. 22

Durationsmodeller En durationsvariabel är en variabel som mäter tiden som föregår en viss händelse (tiden innan ett tillfrisknande, tiden innan en individ får ett jobb osv) och även detta ger en form av censurerad regressionsmodell. För vissa individer inträffar händelsen aldrig (eller efter så lång tid att vi måste censurera durationen för att vi ska kunna analysera data) Slutligen, igen: Om antagandena om normalfördelning och homoskedasticitet inte håller för u t ger MLE även är generellt inkonsistenta skattningar. Censurering medför alltså en kostnad eftersom OLS applicerad på ett icke censurerat stickprov varken kräver normalfördelning eller homoskedasticitet för konsistens. Finns dock alternativ till MLE som inte kräver dessa fördelningsantaganden. 23

24