Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 28, 2012 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 1 / 21
Översikt kategoriska data Kategoriska data oordnade data (nominal) ja eller nej, vilken yrkesgrupp en individ tillhör, en kunds val av tvättmedel ordnade data (ordinal) betyg, preferenser för olika frågor Korstabeller: goodness-of-t test för att testa om samband föreligger mellan variabler som antar olika kategorier Multinomialfördelning: generalisering av binomialfördelning Qualitative response (QR) models: beroende variabeln i en regressionsmodell antar diskreta utfall. Logit och probit modeller: binär beroende variabel Multinomial logit modell: beroende variabeln antar era oordnade kategorier Ordnad probit modell: beroende variabeln antar era ordnade kategorier Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 2 / 21
Oordnade data (nominal) Försäljning av ett samlarmynt på en auktion med en säljares hemliga reservationspris: försäljning sker om det högsta budet blir högre än reservationspriset. Kodas med värdet 1 vid försäljning och 0 vid ingen försäljning. Frågeställning: hur påverkas sannolikheten för försäljning av specika auktionsegenskaper? Yrkesgrupp för ett urval av alumnistudenter vid LIU. Låt 0 vara revisor, 1 ingenjör, 2 advokat, 3 politiker, o.s.v. Frågeställning: vad är sannolikheten för ett visst antal LIU-studenter i respektive yrkesgrupp utifrån skattade proportioner av alumnistudenter i varje yrkesgrupp från tidigare undersökningar? Konsumenters val av tandkräm i en livsmedelsbutik en viss dag. Frågeställning: vad beror val av tandkräm på? Ålder? Kön? Utbildning? Lön? TV-tittande? Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 3 / 21
Ordnade data (ordinal) Inställning om en utbyggnad av kommunens tennishall. Låt 5 vara mycket positiv, 4 positiv, 3 neutral, 2 negativ, 1 mycket negativ. Inställningarna kan rankas gentemot varandra, men skillnaderna mellan nivåerna behöver inte vara samma. Frågeställning: kan grad av inställning förklaras med hjälp av andra variabler? Betyg på en kurs. Kategorierna VG, G och U kan kodas till numeriska värden och rankas gentemot varandra. Frågeställning: vad beror betyget på en kurs av? Tidigare kursbetyg? Förkunskaper? Intelligens? Ålder? Akademisk ålder? Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 4 / 21
Korstabeller - goodness-of-t test (nominal el. ordinal) Exempel: test av nollhypotes om inget samband mellan kön och ygplansreservationer. Kvinna Man TOTALT Resebyrå 256 74 330 Internet 41 42 83 Telefon 66 34 100 TOTALT 363 150 513 Urvalet om n st. individer har kors-klassicerats inom r = 3 st. olika kategorier av ygplansreservationer och k = 2 kategorier för kön. Under nollhypotesen förväntar vi oss inget samband mellan dessa egenskaper. Antalet förväntade observationer i varje cell (i, j) under nollhypotesen ges av E ij = R i K j n, där R i och K j är antalet observationer i respektive i:te rad och j:te kolumn. Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 5 / 21
Korstabeller - goodness-of-t test forts. Ett goodness-of-t test ger att nollhypotesen förkastas om r k i=1 j=1 (O ij E ij ) 2 E ij > χ 2 (r 1)(k 1),α där O ij är den observerade frekvensen i cell (i, j). Enligt data från tabellen förkastas nollhypotesen på alla rimliga signikansnivåer, eftersom χ 2 obs = 26.8 > χ2 (3 1)(2 1),0.005 = 10.60. Alltså nns det stöd i data att kön och ygplansreservationer är associerade med varandra. Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 6 / 21
Multinomialfördelningen Generaliserar binomialfördelningen för 2 st. kategorier till k > 2 st. kategorier. Exempel: vad är sannolikheten för att (x 1, x 2,..., x k ) st. tvättmedelsförpackningar köps utav k st. olika sorters tvättmedel i en butik en viss dag? Om man känner till sannolikheterna (p 1, p 2,..., p k ) för att en kund väljer respektive tvättmedel och det totala antalet tvättmedelsförpackningar n = x 1 + x 2 + + x k som såldes under dagen, så ges sannolikheten från multinomialfördelningen som ( ) n P(x 1, x 2,..., x k ) = p x 1 p x2 p x k x 1, x 2,..., x k Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 7 / 21
Regressionsmodell för binära val Den beroende variabeln Y är binär, d.v.s. antingen är Y = 0 eller Y = 1. Vi vill förklara hur det förväntade värdet på Y beror på olika förklaringsvariabler i en regressionsmodell. Det förväntade värdet för Y är E [Y ] = P(Y = 1). Exempel: hur påverkas sannolikheten för försäljning, P(Y = 1), av specika auktionsegenskaper? Vi vill alltså förklara sannolikheten för den ena kategorin utifrån förklaringsvariablerna i regressionsmodellen. Detta kan uppnås med hjälp av olika funktioner, F (βx ), av parametervektorn β = (β 0, β 1, β 2,..., β k ) till vektorn med förklaringsvariabler x = (x 0, x 1, x 2,..., x k ), d.v.s. P(Y = 1) = F (βx ) Linjär sannolikhetsmodell, F (βx ) = βx, är inte lämplig för detta ändamål, eftersom det måste gälla att 0 βx 1. Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 8 / 21
Probit och logit modellerna Normalfördelningen ger upphov till probit modellen där P(Y = 1) = ˆ βx φ(t) dt = Φ(βx ), där Φ( ) är fördelningsfunktionen för standard normalfördelningen. Logit modellen kommer( från log-oddset ) ( som linjär ) funktion av förklaringsvariablerna, ln = ln = βx, vilket ger P(Y =1) P(Y =0) P(Y = 1) = P(Y =1) 1 P(Y =1) e βx = Λ(βx ), 1 + e βx där Λ( ) är den logistiska fördelningsfunktionen. Den logistiska fördelningsfunktionen liknar fördelningsfunktionen för standard normalfördelningen, förutom i svansarna nära sannolikheterna 0 och 1 där den är tjockare. Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 9 / 21
Marginella eekten av förklaringsvariablerna I logit modellen förändras log-oddset med β j då x j ökar 1 enhet, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta. Förändring i log-oddset är svårtolkat! Vad är motsvarande förändring i P(Y = 1)? Generellt, Logit modellen: E [y] x j = Probit modellen: E [y] x j = { dλ (βx } ) d (βx β j = ) E [y] x j = { df (βx } ) d (βx β j = f ( βx ) β j ) e βx ( 1 + e βx ) 2 β j = Λ(βx ) ( 1 Λ(βx ) ) β j { dφ (βx } ) d (βx β j = φ ( βx ) β j ) Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 10 / 21
Maximum likelihood estimation i binära valmodeller Newtonmetoden för att skatta parametrarna i logit och probit modellerna. Asymptotiska kovariansmatrisen för m.l.e. bestäms m.h.a. inversa Hessianen utvärderad i m.l.e. skattningen. Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 11 / 21 Y i iid Bernoulli (P(Y i = 1) = F (βx )). Likelihoodfunktionen ges som [ 1 F (βx ) ] F (βx ) y i =1 P (Y 1 = y 1, Y 2 = y 2,..., Y n = y n ) = y i =0 = n i=1 Log Likelihoodfunktionen blir då ln L = [ F (βx ) ] y i [ 1 F (βx ) ] 1 y i n [ yi ln F (βx ) + (1 y i ) ln ( 1 F (βx ) )] i=1 Första ordningsvillkoret för maximering kräver att [ ] n ln L β = yi f i f i + (1 y i ) x i = 0. F i=1 i (1 F i )
Exempel: skattning av logit och probit modellerna Spector och Mazzeo (1980) analyserade eekten av en ny undervisningsmetod i nationalekonomi. Datamaterialet bestod av beroende variabel GRADE, en indikator med värdet 1 om studentens betyg förbättrades och 0 annars. förklaringsvariabel GPA: genomsnittsbetyg för varje individ i urvalet. förklaringsvariabel TUCE: poäng på ett test om förkunskaper. förklaringsvariabel PSI antar värdet 1 om den nya undervisningsmetoden användes och 0 annars. Skattning av probit och logit modellerna kan utföras m.h.a. statistiska programvaran R: mylogit<-glm(grade~gpa+tuce+psi,family="binomial") summary(mylogit) myp<-glm(grade~gpa+tuce+psi,family="binomial"(link="probit")) summary(myp) Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 12 / 21
Hypotestest av koecienter i probit och logit modellerna z-test för att testa om varje koecient för sig är skild från noll, koecienternas skattade standardavvikelser ges från asymptotiska kovariansmatrisen. Wald test kan användas för mera komplicerade restriktioner på formen H 0 : Rβ = q med Walds teststatistika W = ( R ˆβ q ) { R ( sk. kovar matris [ ˆβ ]) R } 1 ( R ˆβ q ) Likelihood kvottest för allmänna restriktioner under nollhypotesen: LR = 2 [ ln ˆLr ln ˆL], där ˆLr och ˆL är de utvärderade log-likelihood funktionerna under nolloch alternativhypotesen. Sannolikhetsfördelningen för teststatistikan är appr. χ 2 fördelad med antalet restriktioner som f.g. under nollhypotesen. Test av alla lutningskoecienter lika med noll i probit och logit modellen: ln L 0 = n [P ln P + (1 P) ln(1 P)] Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 13 / 21
Exempel: hypotestest i probit och logit modellerna Skattade koecienter och kovariansmatris för logit modellen i R: coef(mylogit), vcov(mylogit) Wald test för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: wald.test(b = coef(mylogit), Sigma = vcov(mylogit), Terms = 2:3) Likelihood kvottest för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: modelunrestricted <- glm(grade~gpa+tuce+psi,family="binomial") modelrestricted <- glm(grade~psi,family="binomial") lrtest(modelunrestricted,modelrestricted) Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 14 / 21
Goodness-of-t test i probit och logit modellerna Analogt till förklaringsgraden i den linjära regressionsmodellen är likelihood kvotindexet LRI = 1 ln L ln L 0 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 15 / 21
Modeller för era val Ett beslut tas mellan er än två alternativ. Vi skiljer mellan ordnade och icke-ordnade beslutsalternativ. Exempel på icke-ordnade alternativ: transportsätt till jobbet, val av tvättmedel, val av ordförande i styrelse, o.s.v. Exempel på ordnade alternativ: inställningsfrågor i surveys, grad av anställning, nivå av försäkringsskydd Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 16 / 21
Multinomial logit modell Beräkning av multipla integraler för normalfördelningen innebär att en multinomial probit modell inte är särskilt lämplig. Multinomial logit modellen kan denieras som P(Y i = j) = e β j x i 1 + J k=1 e β k x i, j = 1, 2,..., J. P(Y i = 0) = 1 1 + J k=1 e β k x i. Koecienterna är svårtolkade! Marginella eekten från förklaringsvariablerna på sannolikheterna ges som där β 0 = 0. P j x i = P j [ β j J k=1 P k β k ] Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 17 / 21,
Log-odds kvoter och log likelihood Modellen ger log-odds kvoten [ ] Pij ln = (β j β k ) x i P ik Log likelihooden för multinomiala logit modellen generaliserar den binomiala logit modellen: ln L = i J j=0 d ij ln P (Y i = j), där d ij = 1 om alternativ j väljs av individ i, och 0 annars. Derivatan av log likelihooden blir ln L β j = [d ij P ij ] x i, j = 1,..., J. i Test av alla lutningskoecienter lika med noll: ln L 0 = J n j ln P j. j=0 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 18 / 21
Ordnade probit modellen Multinomial logit och probit modellerna kan inte hantera ordnade data för den beroende variabeln. Linjär regression fungerar inte heller. Exempel: survey om inställning till en fråga där svaren rankas och kodas med 0, 1, 2, 3, 4. Linjär regression behandlar skillnaden mellan 4 och 3 p.s.s. som skillnaden mellan 3 och 2, även om värdena bara är en ranking mellan dem. Ordnade probit modellen bygger på latent regression. Deniera y = βx + ɛ, där y är icke-observerat, men det gäller att y = 0 om y 0, = 1 om 0 < y µ 1, = 2 om µ 1 < y µ 2,. = J om µ J 1 y. Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 19 / 21
Ordnade probit modellen Antag att ɛ N(0, 1). Då följer det att P(y = 0) = P(y 0) = P(βx + ɛ 0) = Φ ( βx ), P(y = 1) = Φ ( µ 1 βx ) Φ ( βx ), P(y = 2) = Φ ( µ 2 βx ) Φ ( µ 1 βx ), där 0 < µ 1 < µ 2 < < µ J 1. P(y = J) = 1 Φ ( µ J 1 βx ), Log-likelihood funktionen är en generalisering av probit modellen: för k = 1,..., J. ln L = ln P(Y i = k), i Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 20 / 21
Ordnade probit modellen Marginella eekten från förklaringsvariablerna för tre kategorier: P(y = 0) x = φ ( βx ) β, P(y = 1) x = [ φ ( βx ) φ ( µ βx )] β, P(y = 2) x = φ ( µ βx ) β. Antag att β > 0. Då minskar respektive ökar P(y = 0) och P(y = 2) av den marginella eekten från förklaringsvariablerna. Vad som händer med P(y = 1) är dock tvetydigt! Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012 21 / 21