Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 12, 2013 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 1 / 23
Översikt kategoriska data Kategoriska data oordnade data (nominal) ja eller nej, vilken yrkesgrupp en individ tillhör, en kunds val av tvättmedel ordnade data (ordinal) betyg, preferenser för olika frågor Korstabeller: goodness-of-t test för att testa om samband föreligger mellan variabler som antar olika kategorier Multinomialfördelning: generalisering av binomialfördelning Qualitative response (QR) models: beroende variabeln i en regressionsmodell antar diskreta utfall. Logit och probit modeller: binär beroende variabel Multinomial logit modell: beroende variabeln antar era oordnade kategorier Ordnad probit modell: beroende variabeln antar era ordnade kategorier Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 2 / 23
Oordnade data (nominal) Försäljning av ett samlarmynt på en auktion med en säljares hemliga reservationspris: försäljning sker om det högsta budet blir högre än reservationspriset. Kodas med värdet 1 vid försäljning och 0 vid ingen försäljning. Frågeställning: hur påverkas sannolikheten för försäljning av specika auktionsegenskaper? Yrkesgrupp för ett urval av alumnistudenter vid LIU. Låt 0 vara revisor, 1 ingenjör, 2 advokat, 3 politiker, o.s.v. Frågeställning: vad är sannolikheten för ett visst antal LIU-studenter i respektive yrkesgrupp utifrån skattade proportioner av alumnistudenter i varje yrkesgrupp från tidigare undersökningar? Konsumenters val av tandkräm i en livsmedelsbutik en viss dag. Frågeställning: vad beror val av tandkräm på? Ålder? Kön? Utbildning? Lön? TV-tittande? Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 3 / 23
Ordnade data (ordinal) Inställning om en utbyggnad av kommunens tennishall. Låt 5 vara mycket positiv, 4 positiv, 3 neutral, 2 negativ, 1 mycket negativ. Inställningarna kan rankas gentemot varandra, men skillnaderna mellan nivåerna behöver inte vara samma. Frågeställning: kan grad av inställning förklaras med hjälp av andra variabler? Betyg på en kurs. Kategorierna VG, G och U kan kodas till numeriska värden och rankas gentemot varandra. Frågeställning: vad beror betyget på en kurs av? Tidigare kursbetyg? Förkunskaper? Intelligens? Ålder? Akademisk ålder? Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 4 / 23
Korstabeller - goodness-of-t test (nominal el. ordinal) Exempel: test av nollhypotes om inget samband mellan kön och ygplansreservationer. Kvinna Man TOTALT Resebyrå 256 74 330 Internet 41 42 83 Telefon 66 34 100 TOTALT 363 150 513 Urvalet om n st. individer har kors-klassicerats inom r = 3 st. olika kategorier av ygplansreservationer och k = 2 kategorier för kön. Under nollhypotesen förväntar vi oss inget samband mellan dessa egenskaper. Antalet förväntade observationer i varje cell (i, j) under nollhypotesen ges av E ij = R i K j n, där R i och K j är antalet observationer i respektive i:te rad och j:te kolumn. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 5 / 23
Korstabeller - goodness-of-t test forts. Ett goodness-of-t test ger att nollhypotesen förkastas om r k i=1 j=1 (O ij E ij ) 2 E ij > χ 2 (r 1)(k 1),α där O ij är den observerade frekvensen i cell (i, j). Enligt data från tabellen förkastas nollhypotesen på alla rimliga signikansnivåer, eftersom χ 2 obs = 26.8 > χ2 (3 1)(2 1),0.005 = 10.60. Alltså nns det stöd i data att kön och ygplansreservationer är associerade med varandra. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 6 / 23
Multinomialfördelningen Generaliserar binomialfördelningen för 2 st. kategorier till k > 2 st. kategorier. Exempel: vad är sannolikheten för att (x 1, x 2,..., x k ) st. tvättmedelsförpackningar köps utav k st. olika sorters tvättmedel i en butik en viss dag? Om man känner till sannolikheterna (p 1, p 2,..., p k ) för att en kund väljer respektive tvättmedel och det totala antalet tvättmedelsförpackningar n = x 1 + x 2 + + x k som såldes under dagen, så ges sannolikheten från multinomialfördelningen som ( ) n P(x 1, x 2,..., x k ) = p x 1 1 x 1, x 2,..., x px 2 2 px k k k Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 7 / 23
Regressionsmodell för binära val Den beroende variabeln Y är binär, d.v.s. antingen är Y = 0 eller Y = 1. Vi vill förklara hur det förväntade värdet på Y beror på olika förklaringsvariabler i en regressionsmodell. Det förväntade värdet för Y är E [Y ] = P(Y = 1). Exempel: hur påverkas sannolikheten för försäljning, P(Y = 1), av specika auktionsegenskaper? Vi vill alltså förklara sannolikheten för den ena kategorin utifrån förklaringsvariablerna i regressionsmodellen. Detta kan uppnås med hjälp av olika funktioner, F (βx ), av parametervektorn β = (β 0, β 1, β 2,..., β k ) till vektorn med förklaringsvariabler x = (x 0, x 1, x 2,..., x k ), d.v.s. P(Y = 1) = F (βx ) Linjär sannolikhetsmodell, F (βx ) = βx, är inte lämplig för detta ändamål, eftersom det måste gälla att 0 βx 1. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 8 / 23
Probit och logit modellerna Normalfördelningen ger upphov till probit modellen där P(Y = 1) = ˆ βx φ(t) dt = Φ(βx ), där Φ( ) är fördelningsfunktionen för standard normalfördelningen. Logit modellen kommer( från log-oddset ) ( som linjär ) funktion av förklaringsvariablerna, ln = ln = βx, vilket ger P(Y =1) P(Y =0) P(Y = 1) = P(Y =1) 1 P(Y =1) e βx = Λ(βx ), 1 + e βx där Λ( ) är den logistiska fördelningsfunktionen. Den logistiska fördelningsfunktionen liknar fördelningsfunktionen för standard normalfördelningen, förutom i svansarna nära sannolikheterna 0 och 1 där den är tjockare. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 9 / 23
Marginella eekten av förklaringsvariablerna I logit modellen förändras log-oddset med β j då x j ökar 1 enhet, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta. Förändring i log-oddset är svårtolkat! Vad är motsvarande förändring i P(Y = 1)? Generellt, Logit modellen: E [y] x j = Probit modellen: E [y] x j = { dλ (βx } ) d (βx β j = ) E [y] x j = { df (βx } ) d (βx β j = f ( βx ) β j ) e βx ( 1 + e βx ) 2 β j = Λ(βx ) ( 1 Λ(βx ) ) β j { dφ (βx } ) d (βx β j = φ ( βx ) β j ) Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 10 / 23
Marginella eekten av förklaringsvariablerna I logit modellen är den procentuella förändringen i oddset β j då x j ökar 1 enhet, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta. Oddset är P(Y = 1) P(Y = 1) = P(Y = 0) 1 P(Y = 1) = Λ(βx ) 1 Λ(βx ). Förändringen av oddset då x j ökar 1 enhet, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta, är lika med Λ(βx ) 1 Λ(βx ) β j. procentuell f örändring i odds = f ör ändring i odds odds = β j. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 11 / 23
Maximum likelihood estimation i binära valmodeller Newtonmetoden för att skatta parametrarna i logit och probit modellerna. Asymptotiska kovariansmatrisen för m.l.e. bestäms m.h.a. inversa Hessianen utvärderad i m.l.e. skattningen. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 12 / 23 Y i iid Bernoulli (P(Y i = 1) = F (βx )). Likelihoodfunktionen ges som [ 1 F (βx ) ] F (βx ) y i =1 P (Y 1 = y 1, Y 2 = y 2,..., Y n = y n ) = y i =0 = n i=1 Log Likelihoodfunktionen blir då ln L = [ F (βx ) ] y i [ 1 F (βx ) ] 1 y i n [ yi ln F (βx ) + (1 y i ) ln ( 1 F (βx ) )] i=1 Första ordningsvillkoret för maximering kräver att [ ] n ln L β = yi f i f i + (1 y i ) x i = 0. F i=1 i (1 F i )
Exempel: skattning av logit och probit modellerna Spector och Mazzeo (1980) analyserade eekten av en ny undervisningsmetod i nationalekonomi. Datamaterialet bestod av beroende variabel GRADE, en indikator med värdet 1 om studentens betyg förbättrades och 0 annars. förklaringsvariabel GPA: genomsnittsbetyg för varje individ i urvalet. förklaringsvariabel TUCE: poäng på ett test om förkunskaper. förklaringsvariabel PSI antar värdet 1 om den nya undervisningsmetoden användes och 0 annars. Skattning av probit och logit modellerna kan utföras m.h.a. statistiska programvaran R: mylogit<-glm(grade~gpa+tuce+psi,family="binomial") summary(mylogit) myp<-glm(grade~gpa+tuce+psi,family="binomial"(link="probit")) summary(myp) Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 13 / 23
Hypotestest av koecienter i probit och logit modellerna z-test för att testa om varje koecient för sig är skild från noll, koecienternas skattade standardavvikelser ges från asymptotiska kovariansmatrisen. Wald test kan användas för mera komplicerade restriktioner på formen H 0 : Rβ = q med Walds teststatistika (appr. χ 2 fördelad med antalet restriktioner som f.g. under nollhypotesen.) W = ( R ˆβ q ) { R ( skattad kovar matris [ ˆβ ]) R } 1 ( R ˆβ q ) Följande denitioner gäller för Walds teststatistika: r 10 r 11 r 1k β 0 r 20 r 21 r 2k R =......, β = β 1., q = q 1 q 2., r n0 r n1 r nk β k q n där r ij, q i är reella tal och n är antalet restriktioner under nollhypotesen. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 14 / 23
Hypotestest av koecienter i probit och logit modellerna Detta ger att Rβ = q r 10 β 0 + r 11 β 1 + + r 1k β k = q 1 r 20 β 0 + r 21 β 1 + + r 2k β k = q 2.... r n0 β 0 + r n1 β 1 + + r nk β k = q n Skattade koecienter och kovariansmatris för logit modellen i R: coef(mylogit), vcov(mylogit) Wald test för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: wald.test(b = coef(mylogit), Sigma = vcov(mylogit), Terms = 2:3) Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 15 / 23
Hypotestest av koecienter i probit och logit modellerna Likelihood kvottest för allmänna restriktioner under nollhypotesen: LR = 2 [ ln ˆLr ln ˆL], där ˆLr och ˆL är log-likelihood funktionerna utvärderade i de respektive restriktade (under nollhypotesen) och icke-restriktade skattade koecienterna. Sannolikhetsfördelningen för teststatistikan är appr. χ 2 fördelad med antalet restriktioner som f.g. under nollhypotesen. Test av alla lutningskoecienter lika med noll i probit och logit modellen: ln L 0 = n [P ln P + (1 P) ln(1 P)] Likelihood kvottest för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: modelunrestricted <- glm(grade~gpa+tuce+psi,family="binomial") modelrestricted <- glm(grade~psi,family="binomial") lrtest(modelunrestricted,modelrestricted) Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 16 / 23
Goodness-of-t test i probit och logit modellerna Analogt till förklaringsgraden i den linjära regressionsmodellen är likelihood kvotindexet LRI = 1 ln L ln L 0 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 17 / 23
Modeller för era val Ett beslut tas mellan er än två alternativ. Vi skiljer mellan ordnade och icke-ordnade beslutsalternativ. Exempel på icke-ordnade alternativ: transportsätt till jobbet, val av tvättmedel, val av ordförande i styrelse, o.s.v. Exempel på ordnade alternativ: inställningsfrågor i surveys, grad av anställning, nivå av försäkringsskydd Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 18 / 23
Multinomial logit modell Beräkning av multipla integraler för normalfördelningen innebär att en multinomial probit modell inte är särskilt lämplig. Multinomial logit modellen kan denieras som P(Y i = j) = e β j x i 1 + J k=1 e, j = 1, 2,..., J. β x k i P(Y i = 0) = 1 1 + J k=1 e. β x k i Koecienterna är svårtolkade! Marginella eekten från förklaringsvariablerna på sannolikheterna ges som där β 0 = 0. P j x i = P j [ β j J k=1 P k β k ] Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 19 / 23,
Log-odds kvoter och log likelihood Modellen ger log-odds kvoten [ ] Pij ln = x i (β j β k ) P ik Log likelihooden för multinomiala logit modellen generaliserar den binomiala logit modellen: ln L = i J j=0 d ij ln P (Y i = j), där d ij = 1 om alternativ j väljs av individ i, och 0 annars. Derivatan av log likelihooden blir ln L β j = [d ij P ij ] x i, j = 1,..., J. i Test av alla lutningskoecienter lika med noll: ln L 0 = J n j ln P j. j=0 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 20 / 23
Ordnade probit modellen Multinomial logit och probit modellerna kan inte hantera ordnade data för den beroende variabeln. Linjär regression fungerar inte heller. Exempel: survey om inställning till en fråga där svaren rankas och kodas med 0, 1, 2, 3, 4. Linjär regression behandlar skillnaden mellan 4 och 3 p.s.s. som skillnaden mellan 3 och 2, även om värdena bara är en ranking mellan dem. Ordnade probit modellen bygger på latent regression. Deniera y = βx + ɛ, där y är icke-observerat, men det gäller att y = 0 om y 0, = 1 om 0 < y µ 1, = 2 om µ 1 < y µ 2,. = J om µ J 1 y. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 21 / 23
Ordnade probit modellen Antag att ɛ N(0, 1). Då följer det att P(y = 0) = P(y 0) = P(βx + ɛ 0) = Φ ( βx ), P(y = 1) = Φ ( µ 1 βx ) Φ ( βx ), P(y = 2) = Φ ( µ 2 βx ) Φ ( µ 1 βx ), där 0 < µ 1 < µ 2 < < µ J 1. P(y = J) = 1 Φ ( µ J 1 βx ), Log-likelihood funktionen är en generalisering av probit modellen och optimering av log-likelihood funktionen ger skattade värden på β, µ 1, µ 2,..., µ J 1. Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 22 / 23
Ordnade probit modellen Marginella eekten från förklaringsvariablerna för tre kategorier: P(y = 0) x = φ ( βx ) β, P(y = 1) x = [ φ ( βx ) φ ( µ βx )] β, P(y = 2) x = φ ( µ βx ) β. Antag att β > 0. Då minskar respektive ökar P(y = 0) och P(y = 2) av den marginella eekten från förklaringsvariablerna. Vad som händer med P(y = 1) är dock tvetydigt! Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013 23 / 23