Statistisk analys av komplexa data

Relevanta dokument
Statistisk analys av komplexa data

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Statistisk analys av komplexa data

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Bayesiansk statistik, 732g43, 7.5 hp

Bayesiansk statistik, 732g43, 7.5 hp

Exempel på tentamensuppgifter

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Matematisk statistik KTH. Formelsamling i matematisk statistik

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Statistik 1 för biologer, logopeder och psykologer

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Formler och tabeller till kursen MSG830

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

FÖRELÄSNING 8:

Föreläsning 12: Regression

Regressions- och Tidsserieanalys - F3

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 12: Repetition

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Härledning av Black-Littermans formel mha allmänna linjära modellen

Statistik 1 för biologer, logopeder och psykologer

Statistiska metoder för säkerhetsanalys

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Till ampad statistik (A5) Förläsning 13: Logistisk regression

STATISTISK ANALYS AV KOMPLEXA DATA

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Matematisk statistik för B, K, N, BME och Kemister

Filoson bakom Bayesiansk statistik med tillämpningar inom hjärnavbildning och budgivningar på ebay

Sannolikheter och kombinatorik

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Tentamen MVE301 Sannolikhet, statistik och risk

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

Regressions- och Tidsserieanalys - F3

F13 Regression och problemlösning

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Regressions- och Tidsserieanalys - F3

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Statistik 1 för biologer, logopeder och psykologer

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tentamen MVE301 Sannolikhet, statistik och risk

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Föreläsning 12: Linjär regression

import totalt, mkr index 85,23 100,00 107,36 103,76

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

0 om x < 0, F X (x) = c x. 1 om x 2.

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Tentamen MVE300 Sannolikhet, statistik och risk

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Avd. Matematisk statistik

Avd. Matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

4 Diskret stokastisk variabel

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Matematisk statistik för D, I, Π och Fysiker

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

3 Maximum Likelihoodestimering

F23 forts Logistisk regression + Envägs-ANOVA

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

SF1901 Sannolikhetsteori och statistik I

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Tentamen i Dataanalys och statistik för I den 28 okt 2015

MSG830 Statistisk analys och experimentplanering

Regressions- och Tidsserieanalys - F4

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

8 Inferens om väntevärdet (och variansen) av en fördelning

Resursfördelningsmodellen

Lektionsanteckningar 11-12: Normalfördelningen

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning G60 Statistiska metoder

MVE051/MSG Föreläsning 14

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

MSG830 Statistisk analys och experimentplanering

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

Markovkedjor. Patrik Zetterberg. 8 januari 2013

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Transkript:

Statistisk analys av komplexa data Kategoriska data, ht 2017 Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 1 / 28

Översikt kategoriska data Kategoriska data oordnade data (nominal) ja eller nej, vilken yrkesgrupp en individ tillhör, en kunds val av tvättmedel ordnade data (ordinal) betyg, preferenser för olika frågor Korstabeller: goodness-of-t test för att testa om samband föreligger mellan variabler som antar olika kategorier Multinomialfördelning: generalisering av binomialfördelning Qualitative response (QR) models: beroende variabeln i en regressionsmodell antar diskreta utfall Logit och probit modeller: binär beroende variabel Multinomial logit modell: beroende variabeln antar era oordnade kategorier Ordnad logit och probit modell: beroende variabeln antar era ordnade kategorier Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 2 / 28

Oordnade data (nominal) En nationell rapporteringsservice för bränder har konstaterat bland bostadsbränder att 73 % inträar i familjehem, 20 % i lägenheter och 7 % i andra typ av bostäder. Frågeställning: vad är sannolikheten en slumpmässigt vald dag att 2 bränder är i familjehus, 1 är i en lägenhet och 1 i en annan typ av bostad? (Multinomialfördelning) Försäljning av ett samlarmynt på en auktion: försäljning sker om det högsta budet blir högre än säljarens hemliga reservationspris. Kodas med värdet 1 vid försäljning och 0 vid ingen försäljning. Frågeställning: hur påverkas sannolikheten för försäljning av specika auktionsegenskaper? (Logit/Probit modell) Konsumenters val av tandkräm i en livsmedelsbutik en viss dag. Frågeställning: vad beror val av tandkräm på? Ålder? Kön? Utbildning? Lön? TV-tittande? (Multinomial logit modell) Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 3 / 28

Ordnade data (ordinal) Inställning om en utbyggnad av kommunens tennishall. Låt 5 vara mycket positiv, 4 positiv, 3 neutral, 2 negativ, 1 mycket negativ. Inställningarna kan rankas gentemot varandra, men skillnaderna mellan nivåerna behöver inte vara samma. Frågeställning: kan grad av inställning förklaras med hjälp av bakgrundsvariabler för kommunens invånare? (Ordnad logit/probit modell) Betyg på en kurs. Kategorierna VG, G och U kan kodas till numeriska värden och rankas gentemot varandra. Frågeställning: vad beror betyget på en kurs av? Tidigare kursbetyg? Förkunskaper? Intelligens? Ålder? Akademisk ålder? (Ordnad logit/probit modell) Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 4 / 28

Analys av korstabeller - chitvåtest (nominal el. ordinal) Exempel: test av nollhypotes om inget samband mellan kön och ygplansreservationer. Kvinna Man TOTALT Resebyrå 256 74 330 Internet 41 42 83 Telefon 66 34 100 TOTALT 363 150 513 Urvalet om n st. individer har kors-klassicerats inom r = 3 st. olika kategorier av ygplansreservationer och k = 2 kategorier för kön. Under nollhypotesen förväntar vi oss inget samband mellan dessa egenskaper. Antalet förväntade observationer i varje cell (i, j) under nollhypotesen ges av E ij = R ik j n, där R i och K j är antalet observationer i respektive i:te rad och j:te kolumn. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 5 / 28

Analys av korstabeller - chitvåtest (nominal el. ordinal) Ett goodness-of-t test ger att nollhypotesen förkastas om r k i=1 j=1 (O ij E ij ) 2 E ij > χ 2 (r 1)(k 1),α där O ij är den observerade frekvensen i cell (i, j). Enligt data från tabellen förkastas nollhypotesen på alla rimliga signikansnivåer, eftersom χ 2 obs = 26.8 > χ2 (3 1)(2 1),0.005 = 10.60. Alltså nns det stöd i data att kön och ygplansreservationer är associerade med varandra. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 6 / 28

Multinomialfördelningen Generaliserar binomialfördelningen för 2 st. kategorier till k > 2 st. kategorier. Om man känner till sannolikheterna (p 1, p 2,..., p k ) för de olika k kategorierna, så ges sannolikheten från multinomialfördelningen som ( ) n P(x 1, x 2,..., x k ) = p x 1 1 x 1, x 2,..., x px 2 2 px k k k En nationell rapporteringsservice för bränder har konstaterat bland bostadsbränder att 73 % inträar i familjehem, 20 % i lägenheter och 7 % i andra typ av bostäder. Frågeställning: vad är sannolikheten en slumpmässigt vald dag att 2 bränder är i familjehus, 1 är i en lägenhet och 1 i en annan typ av bostad? Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 7 / 28

Regressionsmodell för binära val Linjär regressionsmodell, F (βx ) = βx, är inte lämplig för detta ändamål, eftersom det måste gälla att 0 βx 1. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 8 / 28 Den beroende variabeln Y är binär, d.v.s. antingen är Y = 0 eller Y = 1. Vi vill skatta hur det förväntade värdet på Y beror på olika förklaringsvariabler i en regressionsmodell. Det förväntade värdet för Y är E [Y ] = P(Y = 1). Exempel: hur påverkas sannolikheten för försäljning, P(Y = 1), av specika auktionsegenskaper? Vi vill alltså förklara sannolikheten för den ena kategorin utifrån förklaringsvariablerna i regressionsmodellen. Detta kan uppnås med hjälp av olika funktioner, F (βx ), av parametervektorn β = (β 0, β 1, β 2,..., β k ) till vektorn med förklaringsvariabler x = (1, x 1, x 2,..., x k ), d.v.s. P(Y = 1) = F (βx )

Probit och logit modellerna Normalfördelningen ger upphov till probit modellen där P(Y = 1) = βx φ(t) dt = Φ(βx ), där Φ( ) är fördelningsfunktionen för standard normalfördelningen. Logit modellen kommer från log-oddset ) som en linjärkombination ) av förklaringsvariablerna, ln = ln = βx, vilket ger ( P(Y =1) P(Y =0) P(Y = 1) = ( P(Y =1) 1 P(Y =1) e βx 1 + e βx = Λ(βx ), där Λ( ) är den logistiska fördelningsfunktionen. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 9 / 28

Probit och logit modellerna Den logistiska fördelningsfunktionen liknar fördelningsfunktionen för standard normalfördelningen, förutom i svansarna nära sannolikheterna 0 och 1 där den är tjockare. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 10 / 28

Maximum likelihood skattning i binära valmodeller iid Y i Bernoulli (θ = P(Yi = 1) = F (βx i )). Likelihoodfunktionen ges som P (Y 1 = y 1, Y 2 = y 2,..., Y n = y n θ) = P (Y i = 0) P (Y i = 1) y i =0 y i =1 [ = 1 F (βx i ) ] F (βx i ) = y i =0 y i =1 Log Likelihoodfunktionen blir då ln L = n i=1 [ 1 F (βx i ) ] 1 y i [ F (βx i ) ] y i n [ yi ln F (βx i ) + (1 y i) ln ( 1 F (βx i ))] i=1 Maximum likelihood skattningen fås genom att maximera log-likelihooden numeriskt. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 11 / 28

Eekt på oddset från förklaringsvariablerna i logit modellen I logit modellen är β j den marginella eekten på log-oddset från respektive förklaringsvariabel x j, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta. Marginell eekt på log-oddset är svårtolkat! Oddset förväntas förändras med en faktor e mβ j då en förklaringsvariabel x j ökar med m enheter, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 12 / 28

Marginella eekten från förklaringsvariablerna Vad är den marginella eekten på P(Y = 1) = E [y]? Generellt, Logit modellen: E [y] x j = E [y] x j = { dλ (βx } ) d (βx β j = ) { df (βx } ) d (βx β j = f ( βx ) β j ) e βx ( 1 + e βx ) 2 β j = Λ(βx ) ( 1 Λ(βx ) ) β j Probit modellen: E [y] x j = { dφ (βx } ) d (βx β j = φ ( βx ) β j ) Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 13 / 28

Exempel: skattning av logit och probit modellerna Spector och Mazzeo (1980) analyserade eekten av en ny undervisningsmetod i nationalekonomi. Datamaterialet bestod av beroende variabel GRADE, en indikator med värdet 1 om studentens betyg förbättrades och 0 annars. förklaringsvariabel GPA: genomsnittsbetyg för varje individ i urvalet. förklaringsvariabel TUCE: poäng på ett test om förkunskaper. förklaringsvariabel PSI antar värdet 1 om den nya undervisningsmetoden användes och 0 annars. Skattning av probit och logit modellerna kan utföras m.h.a. statistiska programvaran R: myl<-glm(grade~gpa+tuce+psi,family="binomial") summary(myl) myp<-glm(grade~gpa+tuce+psi,family="binomial"(link="probit")) summary(myp) Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 14 / 28

Hypotestest av koecienter i probit och logit modellerna z-test för att testa om varje koecient för sig är skild från noll, där koecienternas skattade standardavvikelser ges från den skattade kovariansmatrisen S [ ˆβ ]. Wald test kan användas för generella restriktioner på formen H 0 : Rβ = q med Walds teststatistika (appr. χ 2 fördelad med antalet restriktioner som f.g. under nollhypotesen.) W = ( R ˆβ q ) { R ( S [ ˆβ ]) R } 1 ( R ˆβ q ). Följande denitioner gäller för Walds teststatistika: r 10 r 11 r 1k β 0 r 20 r 21 r 2k R =......, β = β 1., q = r n0 r n1 r nk där r ij, q i är reella tal och n är antalet restriktioner under nollhypotesen. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 15 / 28 β k q 1 q 2. q n,

Hypotestest av koecienter i probit och logit modellerna Detta ger att Rβ = q r 10 β 0 + r 11 β 1 + + r 1k β k = q 1 r 20 β 0 + r 21 β 1 + + r 2k β k = q 2.... r n0 β 0 + r n1 β 1 + + r nk β k = q n Skattade koecienter och kovariansmatris för logit modellen i R: coef(myl), vcov(myl) Wald test för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: wald.test(b = coef(myl), Sigma = vcov(myl), Terms = 2:3) Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 16 / 28

Hypotestest av koecienter i probit och logit modellerna Likelihood kvottest för allmänna restriktioner under nollhypotesen: LR = 2 [ ln ˆL r ln ˆL ], där ˆL r och ˆL är log-likelihood funktionerna utvärderade i de respektive restriktade (under nollhypotesen) och icke-restriktade skattade koecienterna. Sannolikhetsfördelningen för teststatistikan är appr. χ 2 fördelad med antalet restriktioner som f.g. under nollhypotesen. Likelihood kvottest för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: modelunrestricted <- glm(grade~gpa+tuce+psi,family="binomial") modelrestricted <- glm(grade~psi,family="binomial") lrtest(modelunrestricted,modelrestricted) Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 17 / 28

Likheter/olikheter för Wald test och Likelihood kvottest Ger testen samma resultat? Varför eller varför inte? Dokumentation om detta nns här... https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqhow-arethe-likelihood-ratio-wald-and-lagrange-multiplier-score-tests-dierentandor-similar/ Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 18 / 28

Goodness-of-t statistika i probit och logit modellerna Likelihood kvotindexet är ett mått mellan 0 och 1 på hur bra modellen anpassar data: LRI = 1 ln L ln L 0, där ln L 0 = n [P ln P + (1 P) ln(1 P)] är log-likelihooden då alla lutningskoecienter är lika med noll och P är andelen 1:or eller 0:or för responsvariabeln. Perfekt anpassning ger LRI = 1 och LRI = 0 om den skattade modellen inte ens är bättre än en tom modell utan parametrar. Ej tolkningsbart mellan 0 och 1. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 19 / 28

Modeller för era val Ett beslut tas mellan er än två alternativ. Vi skiljer mellan ordnade och icke-ordnade beslutsalternativ. Exempel på icke-ordnade alternativ: transportsätt till jobbet, val av tvättmedel, val av kandidatprogram, o.s.v. Exempel på ordnade alternativ: inställningsfrågor i surveys, grad av anställning, nivå av försäkringsskydd Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 20 / 28

Multinomial logit modell Beräkning av multipla integraler för normalfördelningen innebär att en multinomial probit modell inte är särskilt lämplig. Multinomial logit modellen kan denieras som P(Y = j) = e β j x 1 + J, j = 1, 2,..., J, k=1 e β kx där β j är radvektorn av parametrar för kategori j av totalt J + 1 kategorier och x är radvektorn av förklaringsvariabler. P(Y = 0) = 1 1 + J k=1 e β kx. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 21 / 28

Multinomial logit modell Log-likelihooden för multinomiala logit modellen generaliserar den binomiala logit modellen: ln L = i J j=0 d ij ln P (Y i = j), där d ij = 1 om alternativ j väljs av enhet i, och 0 annars. Maximum likelihood skattningen fås genom att maximera log-likelihooden numeriskt. Log-likelihooden då alla lutningskoecienter är lika med noll: ln L 0 = J n j ln P j. j=0 Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 22 / 28

Multinomial logit modell Koecienterna är svårtolkade! Marginella eekten från förklaringsvariabel x k på sannolikheten för kategori j: där β 0k = 0. [ P(Y = j) = P(Y = j) x k β jk J r=1 P(Y = r)β rk ], Modellen ger log-odds kvoten för kategorier j och k som [ ] P(Y = j) ln = (β j β k ) x P(Y = k) Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 23 / 28

Exempel: studenters val av studieprogram Studenter väljer ett av följande tre studieprogram: akademiskt (academic), allmänt (general) eller yrkesprogram (vocation). Deras val kan bero på skrivningspoäng på ett test (write) och deras socioekonomiska status (ses). I exemplet på https://stats.idre.ucla.edu/r/dae/multinomial-logistic-regression/ har data samlats in för variablerna ovan. En multinomial logit modell ska anpassas till datamaterialet, se dokumentationen i exemplet. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 24 / 28

Ordnad logit modell Multinomial logit och probit modellerna kan inte hantera ordnade data för den beroende variabeln. Linjär regression fungerar inte heller. Exempel: survey om inställning till en fråga där svaren rankas och kodas med 0, 1, 2, 3, 4. Linjär regression behandlar skillnaden mellan 4 och 3 p.s.s. som skillnaden mellan 3 och 2, även om värdena bara är en ranking mellan dem. Ordnad logit bygger på latent regression. Deniera y = βx + ɛ, där y är icke-observerat, men det gäller att y = 0 om y µ 1, = 1 om µ 1 < y µ 2, = 2 om µ 2 < y µ 3,. = J om µ J y. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 25 / 28

Ordnad logit modell Antag den logistiska fördelningsfunktionen för ɛ, d.v.s. P (ɛ βx ) = Λ(βx ). Då följer det att P(y = 0) = P(y µ 1 ) = P(βx + ɛ µ 1 ) = Λ ( µ 1 βx ), P(y = 1) = Λ ( µ 2 βx ) Λ ( µ 1 βx ), P(y = 2) = Λ ( µ 3 βx ) Λ ( µ 2 βx ), där µ 1 < µ 2 < µ 3 < < µ J.. P(y = J) = 1 Λ ( µ J βx ), Log-likelihood funktionen är en generalisering av logit modellen och maximering av log-likelihood funktionen ger skattade värden på β, µ 1, µ 2, µ 3,..., µ J. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 26 / 28

Ordnad logit modell Marginell eekt från respektive förklaringsvariabel x j på respektive sannolikhet för tre kategorier, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta: P(y = 0) x j = Λ(µ 1 βx ) ( 1 Λ(µ 1 βx ) ) β j, P(y = 1) x j = [Λ(µ 1 βx ) (1 Λ(µ 1 βx )) Λ(µ 2 βx ) (1 Λ(µ 2 βx ))] β j P(y = 2) x j = Λ(µ J βx ) ( 1 Λ(µ J βx ) ) β j. Antag att β j > 0. Då gäller att P(y=0) x j < 0 och P(y=2) x j > 0. Marginella eekten på P(y = 1) är dock tvetydig! Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 27 / 28

Exempel: studenters ansökan till Graduate school Studenter anger hur troligt det är att dom ansöker till Graduate school. Responsvariabeln Apply antar något av följande alternativ: unlikely, somewhat likely, very likely. Deras tilltro kan bero på följande variabler: om minst en av föräldrarna har en universitetsutbildning (pared = 1) grundutbildning är på en oentlig Graduate school (public = 1) genomsnittsbetyg för en student (gpa) I exemplet på https://stats.idre.ucla.edu/r/dae/ordinal-logistic-regression/ har data samlats in för variablerna ovan. En ordnad logit modell ska anpassas till datamaterialet, se dokumentationen i exemplet. Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 28 / 28