Statistisk analys av komplexa data

Relevanta dokument
Statistisk analys av komplexa data

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Statistisk analys av komplexa data

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Bayesiansk statistik, 732g43, 7.5 hp

Exempel på tentamensuppgifter

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Bayesiansk statistik, 732g43, 7.5 hp

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Formler och tabeller till kursen MSG830

Matematisk statistik KTH. Formelsamling i matematisk statistik

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

FÖRELÄSNING 8:

Föreläsning 12: Repetition

Regressions- och Tidsserieanalys - F3

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 12: Regression

Härledning av Black-Littermans formel mha allmänna linjära modellen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Lösningsförslag till Matematisk statistik LKT325 Tentamen

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Sannolikheter och kombinatorik

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Regressions- och Tidsserieanalys - F3

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Regressions- och Tidsserieanalys - F3

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Statistiska metoder för säkerhetsanalys

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

MSG830 Statistisk analys och experimentplanering

Filoson bakom Bayesiansk statistik med tillämpningar inom hjärnavbildning och budgivningar på ebay

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

MSG830 Statistisk analys och experimentplanering

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Multipel Regressionsmodellen

Statistik 1 för biologer, logopeder och psykologer

Tentamen MVE301 Sannolikhet, statistik och risk

F13 Regression och problemlösning

Tentamen i Dataanalys och statistik för I den 28 okt 2015

8 Inferens om väntevärdet (och variansen) av en fördelning

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Avd. Matematisk statistik

3 Maximum Likelihoodestimering

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Föreläsning G60 Statistiska metoder

Matematisk statistik, Föreläsning 5

MVE051/MSG Föreläsning 14

F23 forts Logistisk regression + Envägs-ANOVA

MSG830 Statistisk analys och experimentplanering

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

import totalt, mkr index 85,23 100,00 107,36 103,76

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för D, I, Π och Fysiker

Regressions- och Tidsserieanalys - F1

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

0 om x < 0, F X (x) = c x. 1 om x 2.

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Tentamen MVE300 Sannolikhet, statistik och risk

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Statistik 1 för biologer, logopeder och psykologer

STATISTISK ANALYS AV KOMPLEXA DATA

Lektionsanteckningar 11-12: Normalfördelningen

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

F19, (Multipel linjär regression forts) och F20, Chi-två test.

TMS136: Dataanalys och statistik Tentamen

SF1901 Sannolikhetsteori och statistik I

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Transkript:

Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 18, 2016 Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 1 / 23

Översikt kategoriska data Kategoriska data oordnade data (nominal) ja eller nej, vilken yrkesgrupp en individ tillhör, en kunds val av tvättmedel ordnade data (ordinal) betyg, preferenser för olika frågor Korstabeller: goodness-of-t test för att testa om samband föreligger mellan variabler som antar olika kategorier Multinomialfördelning: generalisering av binomialfördelning Qualitative response (QR) models: beroende variabeln i en regressionsmodell antar diskreta utfall. Logit och probit modeller: binär beroende variabel Multinomial logit modell: beroende variabeln antar era oordnade kategorier Ordnad logit modell: beroende variabeln antar era ordnade kategorier Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 2 / 23

Oordnade data (nominal) Försäljning av ett samlarmynt på en auktion: försäljning sker om det högsta budet blir högre än säljarens hemliga reservationspris. Kodas med värdet 1 vid försäljning och 0 vid ingen försäljning. Frågeställning: hur påverkas sannolikheten för försäljning av specika auktionsegenskaper? Yrkesgrupp för ett urval av alumnistudenter vid LIU. Låt 0 vara revisor, 1 ingenjör, 2 advokat, 3 politiker, o.s.v. Frågeställning: vad är sannolikheten för ett visst antal LIU-studenter i respektive yrkesgrupp utifrån skattade proportioner av alumnistudenter i varje yrkesgrupp från tidigare undersökningar? Konsumenters val av tandkräm i en livsmedelsbutik en viss dag. Frågeställning: vad beror val av tandkräm på? Ålder? Kön? Utbildning? Lön? TV-tittande? Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 3 / 23

Ordnade data (ordinal) Inställning om en utbyggnad av kommunens tennishall. Låt 5 vara mycket positiv, 4 positiv, 3 neutral, 2 negativ, 1 mycket negativ. Inställningarna kan rankas gentemot varandra, men skillnaderna mellan nivåerna behöver inte vara samma. Frågeställning: kan grad av inställning förklaras med hjälp av andra variabler? Betyg på en kurs. Kategorierna VG, G och U kan kodas till numeriska värden och rankas gentemot varandra. Frågeställning: vad beror betyget på en kurs av? Tidigare kursbetyg? Förkunskaper? Intelligens? Ålder? Akademisk ålder? Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 4 / 23

Korstabeller - goodness-of-t test (nominal el. ordinal) Exempel: test av nollhypotes om inget samband mellan kön och ygplansreservationer. Kvinna Man TOTALT Resebyrå 256 74 330 Internet 41 42 83 Telefon 66 34 100 TOTALT 363 150 513 Urvalet om n st. individer har kors-klassicerats inom r = 3 st. olika kategorier av ygplansreservationer och k = 2 kategorier för kön. Under nollhypotesen förväntar vi oss inget samband mellan dessa egenskaper. Antalet förväntade observationer i varje cell (i, j) under nollhypotesen ges av E ij = R ik j n, där R i och K j är antalet observationer i respektive i:te rad och j:te kolumn. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 5 / 23

Korstabeller - goodness-of-t test forts. Ett goodness-of-t test ger att nollhypotesen förkastas om r k i=1 j=1 (O ij E ij ) 2 E ij > χ 2 (r 1)(k 1),α där O ij är den observerade frekvensen i cell (i, j). Enligt data från tabellen förkastas nollhypotesen på alla rimliga signikansnivåer, eftersom χ 2 obs = 26.8 > χ2 (3 1)(2 1),0.005 = 10.60. Alltså nns det stöd i data att kön och ygplansreservationer är associerade med varandra. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 6 / 23

Multinomialfördelningen Generaliserar binomialfördelningen för 2 st. kategorier till k > 2 st. kategorier. Exempel: vad är sannolikheten för att (x 1, x 2,..., x k ) st. tvättmedelsförpackningar köps utav n = x 1 + x 2 + + x k st. kunder i en butik en viss månad? Om man känner till sannolikheterna (p 1, p 2,..., p k ) för att en kund väljer respektive tvättmedel av totalt k st. olika tvättmedel, så ges sannolikheten från multinomialfördelningen som ( ) n P(x 1, x 2,..., x k ) = p x 1 1 x 1, x 2,..., x px 2 2 px k k k Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 7 / 23

Regressionsmodell för binära val Den beroende variabeln Y är binär, d.v.s. antingen är Y = 0 eller Y = 1. Vi vill förklara hur det förväntade värdet på Y beror på olika förklaringsvariabler i en regressionsmodell. Det förväntade värdet för Y är E [Y ] = P(Y = 1). Exempel: hur påverkas sannolikheten för försäljning, P(Y = 1), av specika auktionsegenskaper? Vi vill alltså förklara sannolikheten för den ena kategorin utifrån förklaringsvariablerna i regressionsmodellen. Detta kan uppnås med hjälp av olika funktioner, F (βx ), av parametervektorn β = (β 0, β 1, β 2,..., β k ) till vektorn med förklaringsvariabler x = (1, x 1, x 2,..., x k ), d.v.s. P(Y = 1) = F (βx ) Linjär regressionsmodell, F (βx ) = βx, är inte lämplig för detta ändamål, eftersom det måste gälla att 0 βx 1. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 8 / 23

Probit och logit modellerna Normalfördelningen ger upphov till probit modellen där P(Y = 1) = βx φ(t) dt = Φ(βx ), där Φ( ) är fördelningsfunktionen för standard normalfördelningen. Logit modellen kommer från log-oddset ) som linjär ) funktion av förklaringsvariablerna, ln = ln = βx, vilket ger ( P(Y =1) P(Y =0) P(Y = 1) = ( P(Y =1) 1 P(Y =1) e βx = Λ(βx ), 1 + e βx där Λ( ) är den logistiska fördelningsfunktionen. Den logistiska fördelningsfunktionen liknar fördelningsfunktionen för standard normalfördelningen, förutom i svansarna nära sannolikheterna 0 och 1 där den är tjockare. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 9 / 23

Marginella eekten från förklaringsvariablerna I logit modellen är den marginella eekten på log-oddset β j från respektive förklaringsvariabel x j, givet att (x 1,..., x j 1, x j+1,..., x k ) hålls konstanta. Marginell eekt på log-oddset är svårtolkat! Vad är den marginella eekten på P(Y = 1) = E [y]? Generellt, Logit modellen: E [y] x j = Probit modellen: E [y] x j = { dλ (βx } ) d (βx β j = ) E [y] x j = { df (βx } ) d (βx β j = f ( βx ) β j ) e βx ( 1 + e βx ) 2 β j = Λ(βx ) ( 1 Λ(βx ) ) β j { dφ (βx } ) d (βx β j = φ ( βx ) β j ) Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 10 / 23

Maximum likelihood estimation i binära valmodeller iid Y i Bernoulli (P(Yi = 1) = F (βx )). Likelihoodfunktionen ges som i [ P (Y 1 = y 1, Y 2 = y 2,..., Y n = y n ) = 1 F (βx )] i F (βx ) i y i =0 y i =1 = n i=1 Log Likelihoodfunktionen blir då ln L = [ F (βx i )] y i [ 1 F (βx i )] 1 y i n [ yi ln F (βx ) + i (1 y i) ln ( 1 F (βx ))] i i=1 Maximum likelihood skattningen fås genom att maximera log-likelihooden numeriskt. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 11 / 23

Exempel: skattning av logit och probit modellerna Spector och Mazzeo (1980) analyserade eekten av en ny undervisningsmetod i nationalekonomi. Datamaterialet bestod av beroende variabel GRADE, en indikator med värdet 1 om studentens betyg förbättrades och 0 annars. förklaringsvariabel GPA: genomsnittsbetyg för varje individ i urvalet. förklaringsvariabel TUCE: poäng på ett test om förkunskaper. förklaringsvariabel PSI antar värdet 1 om den nya undervisningsmetoden användes och 0 annars. Skattning av probit och logit modellerna kan utföras m.h.a. statistiska programvaran R: mylogit<-glm(grade~gpa+tuce+psi,family="binomial") summary(mylogit) myp<-glm(grade~gpa+tuce+psi,family="binomial"(link="probit")) summary(myp) Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 12 / 23

Hypotestest av koecienter i probit och logit modellerna z-test för att testa om varje koecient för sig är skild från noll, koecienternas skattade standardavvikelser ges från asymptotiska kovariansmatrisen. Wald test kan användas för mera komplicerade restriktioner på formen H 0 : Rβ = q med Walds teststatistika (appr. χ 2 fördelad med antalet restriktioner som f.g. under nollhypotesen.) W = ( R ˆβ q ) { R ( S [ ˆβ ]) R } 1 ( R ˆβ q ), där S [ ˆβ ] är den skattade kovariansmatrisen för skattningarna ˆβ. Följande denitioner gäller för Walds teststatistika: r 10 r 11 r 1k β 0 q 1 r 20 r 21 r 2k R =......, β = β 1., q = q 2., r n0 r n1 r nk q n där r ij, q i är reella tal och n är antalet restriktioner under nollhypotesen. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 13 / 23 β k

Hypotestest av koecienter i probit och logit modellerna Detta ger att Rβ = q r 10 β 0 + r 11 β 1 + + r 1k β k = q 1 r 20 β 0 + r 21 β 1 + + r 2k β k = q 2.... r n0 β 0 + r n1 β 1 + + r nk β k = q n Skattade koecienter och kovariansmatris för logit modellen i R: coef(mylogit), vcov(mylogit) Wald test för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: wald.test(b = coef(mylogit), Sigma = vcov(mylogit), Terms = 2:3) Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 14 / 23

Hypotestest av koecienter i probit och logit modellerna Likelihood kvottest för allmänna restriktioner under nollhypotesen: LR = 2 [ ln ˆL r ln ˆL ], där ˆL r och ˆL är log-likelihood funktionerna utvärderade i de respektive restriktade (under nollhypotesen) och icke-restriktade skattade koecienterna. Sannolikhetsfördelningen för teststatistikan är appr. χ 2 fördelad med antalet restriktioner som f.g. under nollhypotesen. Likelihood kvottest för att både GPA och TUCE inte bidrar som förklaringsvariabler i logit modellen: modelunrestricted <- glm(grade~gpa+tuce+psi,family="binomial") modelrestricted <- glm(grade~psi,family="binomial") lrtest(modelunrestricted,modelrestricted) Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 15 / 23

Likheter/olikheter för Wald test och Likelihood kvottest Ger testen samma resultat? Varför eller varför inte? Dokumentation om detta nns här... http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 16 / 23

Goodness-of-t test i probit och logit modellerna Analogt till förklaringsgraden i den linjära regressionsmodellen är likelihood kvotindexet LRI = 1 ln L ln L 0, där ln L 0 = n [P ln P + (1 P) ln(1 P)] är log-likelihooden då alla lutningskoecienter är lika med noll och P är andelen 1:or eller 0:or för responsvariabeln. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 17 / 23

Modeller för era val Ett beslut tas mellan er än två alternativ. Vi skiljer mellan ordnade och icke-ordnade beslutsalternativ. Exempel på icke-ordnade alternativ: transportsätt till jobbet, val av tvättmedel, val av kandidatprogram, o.s.v. Exempel på ordnade alternativ: inställningsfrågor i surveys, grad av anställning, nivå av försäkringsskydd Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 18 / 23

Multinomial logit modell Beräkning av multipla integraler för normalfördelningen innebär att en multinomial probit modell inte är särskilt lämplig. Multinomial logit modellen kan denieras som e β j x i P(Y i = j) = 1 + J, j = 1, 2,..., J, k=1 e β k x i där β j är vektorn av parametrar för kategori j av totalt J + 1 kategorier och x i är vektorn av förklaringsvariabler för en individ i. 1 P(Y i = 0) = 1 + J. k=1 e β k x i Koecienterna är svårtolkade! Marginella eekten från förklaringsvariablerna på sannolikheterna ges som [ ] P j = P j β j P k β k, x i J k=0 där β 0 = 0 och P j är proportionen individer i kategori j. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 19 / 23

Log-odds kvoter och log likelihood Modellen ger log-odds kvoten för en individ i som [ ] Pij ln = x i (β j β k ) P ik Log-likelihooden för multinomiala logit modellen generaliserar den binomiala logit modellen: ln L = i J j=0 d ij ln P (Y i = j), där d ij = 1 om alternativ j väljs av individ i, och 0 annars. Test av alla lutningskoecienter lika med noll: ln L 0 = J n j ln P j. j=0 Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 20 / 23

Exempel: multinomial logistisk regression Studenter väljer ett av följande tre studieprogram: akademiskt (academic), allmänt (general) eller yrkesprogram (vocation). Deras val kan bero på skrivningspoäng på ett test (write) och deras socioekonomiska status (ses). I exemplet på http://www.ats.ucla.edu/stat/r/dae/mlogit.htm har data samlats in för variablerna ovan. En multinomial logit modell ska anpassas till datamaterialet, se dokumentationen i exemplet. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 21 / 23

Ordnad logit modell Multinomial logit och probit modellerna kan inte hantera ordnade data för den beroende variabeln. Linjär regression fungerar inte heller. Exempel: survey om inställning till en fråga där svaren rankas och kodas med 0, 1, 2, 3, 4. Linjär regression behandlar skillnaden mellan 4 och 3 p.s.s. som skillnaden mellan 3 och 2, även om värdena bara är en ranking mellan dem. Ordnad logit bygger på latent regression. Deniera y = βx + ɛ, där y är icke-observerat, men det gäller att y = 0 om y µ 1, = 1 om µ 1 < y µ 2, = 2 om µ 2 < y µ 3,. = J om µ J 1 y. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 22 / 23

Ordnad logit modell Sannolikheterna för respektive kategori ges som P(y = 0) = P(y µ 1 ) = P(βx + ɛ µ 1 ) = Λ ( µ 1 βx ), P(y = 1) = Λ ( µ 2 βx ) Λ ( µ 1 βx ), P(y = 2) = Λ ( µ 3 βx ) Λ ( µ 2 βx ), där µ 1 < µ 2 < < µ J 1. P(y = J) = 1 Λ ( µ J 1 βx ), Log-likelihood funktionen är en generalisering av logit modellen och maximering av log-likelihood funktionen ger skattade värden på β, µ 1, µ 2,..., µ J 1. Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016 23 / 23