Föreläsning 7. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik för STS vt 2014
χ 2 -metoder Några varianter: Test av helt given fördelning [A & B, 8.2.1] Test av parametrisk fördelningsklass [A & B, 8.2.1] Homogenitetstest (flera serier av oberoende försök: samma uppsättning sannolikheter i alla serier?) [A & B, 8.2.2]
χ 2 -metoden Utför n oberoende försök. Vart och ett kan utfalla på k olika sätt A 1, A 2,..., A k med sannolikheter p 1, p 2,..., p k. Absoluta frekvenser för A 1, A 2,..., A k : x 1, x 2,..., x k. Önskar pröva hypotes rörande sannolikheterna p 1,..., p k. Teststorhet: Q = k (x i np i ) 2 i=1 np i Test: Förkasta H 0 om Q > χ 2 α(f ), där f = k 1. Tumregel: np i 5.
Bakgrund: Multinomial fördelning Möjliga utfallskategorier: A 1,..., A k. Utför n delförsök med P(B i ) = p i desamma i alla delförsöken och k i=1 p i = 1. Multinomial fördelning: P(X 1 = x 1, X 2 = x 2,..., X k = x k ) = där k i=1 x i = n. n! x 1!x 2! x k! px 1 1 px 2 2 px k k
Exempel Exempel 1. Vid 96 kast med en tärning erhölls följande antal ettor, tvåor etc.: 15, 7, 9, 20, 26, 19. Man önskar pröva om tärningen kan antas vara symmetrisk. Exempel 2. Vid ett stort postkontor har 400 betjäningstider observerats. Eftersom personalen är vältränad beror variationerna i första hand på ärendenas karaktär och endast i mindre grad på personalen. Därför görs antagande om approximativt oberoende. Testa om data avviker från en exponentialfördelning. [Tavlan]
Homogenitetstest Tillgängligt: r serier (material), observationer faller i k givna klasser. Redovisas i en kontingenstabell eller synonymt korstabell. Serie A 1 A 2 A k Antal försök 1 x 11 x 12 x 1k n 1 2 x 12 x 22 x 2k n 2..... r x r1 x r2 x rk n r Pröva om serierna är homogena, dvs. samma p 1,..., p k i alla serier.
Homogenitetstest Teststorhet: där p j = 1 N Q = r (x ij n i pj )2 i=1 i x ij, N = r i=1 n i. n i p j Test: Förkasta H 0 om Q > χ 2 α(f ), där f = (r 1)(k 1). Teststorhetens struktur, innebörd: (observerat förväntat) 2 Q = förväntat Alla celler
Exempel: Hästkrafter Stark Medel Svag Summa Fjordhäst 12 8 3 23 Dölehäst 13 13 5 31 Islandshäst 9 8 12 29 Arab 3 5 8 16 Summa 37 34 28 99 Finns någon signifikant skillnad mellan hästraserna?
Simpsons paradox Orsakssamband? Utelämnade variabler kan vara orsaken till observerat samband. Fjordhästars styrka beror på användandet i tungt skogsarbete, araber är svaga för att de står i sina bås? Orsakssambandet är i så fall knutet till användandet, inte hästens ras. Fara föreligger då data från olika källor (tabeller) har slagits ihop till en tabell.
Exempel: Bilskador, kvinnor och män Försäkringsbolag skickar ut enkät. Skillnad på könens förmåga att köra skadefritt? Bilskada Ingen bilskada Summa Män 233 323 556 Kvinnor 87 194 281 Summa 320 517 837 Män: andelen 233/556 = 0.42 råkat ut för skada. Kvinnor: andelen 87/281 = 0.31. Kvinnor är bättre bilförare än män?
Extra kategorisering: bilens storlek Stora bilar Små bilar Bilskada Ingen bilskada Summa Män 150 35 185 Kvinnor 16 2 18 Summa 166 37 203 Bilskada Ingen bilskada Summa Män 83 288 371 Kvinnor 71 192 263 Summa 154 480 634 Stora bilar: 88% av kvinnorna, 81% av männen. Små bilar: 27% av kvinnorna, 22% av männen. Kvinnorna har högsta skadeandelen, oavsett bilstorlek!
Relative risk Statistically speaking, U.S. soldiers have less of a chance of dying from alla causes in Iraq than citizens have of being murdered in California, which is roughly the same geographical size. California has more than 2300 homicides each year, which means about 6.6 murders each day. Meanwhile, U.S. troops have been in Iraq for 160 days, which means they re incurring about 1.7 deaths, including illness and accidents each day. Brit Hume, Fox News, August 2003.
Relative risk Killed Not killed Total California 6.6 37,999,993.4 38,000,000 Iraq 1.7 149,998.3 150,000 Total 8.3 38,149,981.7 Relative risk (proportion): ( ) 1.7 6.6 1 = 65.25. 150, 000 38, 000, 000 By not taking the total population of each group into account, Hume failed to note the relative risk of death to a soldier in Iraq was 65 times higher than the murder rate in California.
Fishers exakta test Exakt test, att använda när förutsättningarna för χ 2 -testet inte är uppfyllt. Ofta formulerat för 2 2-tabeller, t.ex. Svar Ja Nej Total Kvinnor n 11 n 12 n 1 Män n 21 n 22 n 2 Total n 1 n 2 n Baseras på hypergeometrisk fördelning: P(N 11 = n 11 ) = ( n1 )( n2 n 11 ( n ) n 1 n 21 )
Lady tasting tea En eftermiddag i Rothamstead. Diskussion mellan Miss B. Muriel och R. A. Fisher: Kan man avgöra på smaken om mjölken hälls i teet eller tvärtom? Experiment: 8 koppar färdigställs; 4 framställda på ena sättet, resterande på andra. Dr. Muriel provsmakar och får rätt i tre av fallen. Gissa vad som hälls först Hälls först Mjölk Te Total Mjölk 3 1 4 Te 1 3 4 Total 4 4