Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Relevanta dokument
SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

SF1901 Sannolikhetsteori och statistik I

χ 2 -test χ 2 -test med skattade parametrar små talens lag (Bortkiewicz) homogenitetstest oberoendetest

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Statistisk utvärdering av antagningen till Polishögskolan

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Uppgift 1. Produktmomentkorrelationskoefficienten

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

F9 SAMPLINGFÖRDELNINGAR (NCT

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Föreläsning G60 Statistiska metoder

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 12: Regression

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 11: Mer om jämförelser och inferens

OBS! Vi har nya rutiner.

TAMS65 - Föreläsning 12 Test av fördelning

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 5 och 6.

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Aborter i Sverige 2008 januari juni

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Föreläsning 3. Sannolikhetsfördelningar

Statistik 1 för biologer, logopeder och psykologer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Jörgen Säve-Söderbergh

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

4 Diskret stokastisk variabel

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

TAMS65 - Föreläsning 6 Hypotesprövning

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Föreläsning 7: Punktskattningar

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Summor av slumpvariabler

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

EXAMINATION KVANTITATIV METOD vt-11 (110319)

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Föreläsning 7: Punktskattningar

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 6, Repetition Sannolikhetslära

Lösningar till SPSS-övning: Analytisk statistik

Parade och oparade test

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Föreläsning G70 Statistik A

Avd. Matematisk statistik

Jämförelse av två populationer

Avd. Matematisk statistik

, s a. , s b. personer från Alingsås och n b

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Simulering. Introduktion. Exempel: Antag att någon kastar tärning

Tentamen i Sannolikhetslära och statistik, TNK069, , kl 8 13.

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 12 Test av fördelning

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Samplingfördelningar 1

FÖRELÄSNING 8:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

1 Föreläsning I, Vecka I: 5/11-11/11 MatStat: Kap 1, avsnitt , 2.5

Analys av korstabeller

Föreläsning 13: Multipel Regression

Summor av slumpvariabler

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

7.5 Experiment with a single factor having more than two levels

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

F22, Icke-parametriska metoder.

Avd. Matematisk statistik

0 om x < 0, F X (x) = c x. 1 om x 2.

Konfidensintervall, Hypotestest

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Transkript:

Föreläsning 7. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik för STS vt 2014

χ 2 -metoder Några varianter: Test av helt given fördelning [A & B, 8.2.1] Test av parametrisk fördelningsklass [A & B, 8.2.1] Homogenitetstest (flera serier av oberoende försök: samma uppsättning sannolikheter i alla serier?) [A & B, 8.2.2]

χ 2 -metoden Utför n oberoende försök. Vart och ett kan utfalla på k olika sätt A 1, A 2,..., A k med sannolikheter p 1, p 2,..., p k. Absoluta frekvenser för A 1, A 2,..., A k : x 1, x 2,..., x k. Önskar pröva hypotes rörande sannolikheterna p 1,..., p k. Teststorhet: Q = k (x i np i ) 2 i=1 np i Test: Förkasta H 0 om Q > χ 2 α(f ), där f = k 1. Tumregel: np i 5.

Bakgrund: Multinomial fördelning Möjliga utfallskategorier: A 1,..., A k. Utför n delförsök med P(B i ) = p i desamma i alla delförsöken och k i=1 p i = 1. Multinomial fördelning: P(X 1 = x 1, X 2 = x 2,..., X k = x k ) = där k i=1 x i = n. n! x 1!x 2! x k! px 1 1 px 2 2 px k k

Exempel Exempel 1. Vid 96 kast med en tärning erhölls följande antal ettor, tvåor etc.: 15, 7, 9, 20, 26, 19. Man önskar pröva om tärningen kan antas vara symmetrisk. Exempel 2. Vid ett stort postkontor har 400 betjäningstider observerats. Eftersom personalen är vältränad beror variationerna i första hand på ärendenas karaktär och endast i mindre grad på personalen. Därför görs antagande om approximativt oberoende. Testa om data avviker från en exponentialfördelning. [Tavlan]

Homogenitetstest Tillgängligt: r serier (material), observationer faller i k givna klasser. Redovisas i en kontingenstabell eller synonymt korstabell. Serie A 1 A 2 A k Antal försök 1 x 11 x 12 x 1k n 1 2 x 12 x 22 x 2k n 2..... r x r1 x r2 x rk n r Pröva om serierna är homogena, dvs. samma p 1,..., p k i alla serier.

Homogenitetstest Teststorhet: där p j = 1 N Q = r (x ij n i pj )2 i=1 i x ij, N = r i=1 n i. n i p j Test: Förkasta H 0 om Q > χ 2 α(f ), där f = (r 1)(k 1). Teststorhetens struktur, innebörd: (observerat förväntat) 2 Q = förväntat Alla celler

Exempel: Hästkrafter Stark Medel Svag Summa Fjordhäst 12 8 3 23 Dölehäst 13 13 5 31 Islandshäst 9 8 12 29 Arab 3 5 8 16 Summa 37 34 28 99 Finns någon signifikant skillnad mellan hästraserna?

Simpsons paradox Orsakssamband? Utelämnade variabler kan vara orsaken till observerat samband. Fjordhästars styrka beror på användandet i tungt skogsarbete, araber är svaga för att de står i sina bås? Orsakssambandet är i så fall knutet till användandet, inte hästens ras. Fara föreligger då data från olika källor (tabeller) har slagits ihop till en tabell.

Exempel: Bilskador, kvinnor och män Försäkringsbolag skickar ut enkät. Skillnad på könens förmåga att köra skadefritt? Bilskada Ingen bilskada Summa Män 233 323 556 Kvinnor 87 194 281 Summa 320 517 837 Män: andelen 233/556 = 0.42 råkat ut för skada. Kvinnor: andelen 87/281 = 0.31. Kvinnor är bättre bilförare än män?

Extra kategorisering: bilens storlek Stora bilar Små bilar Bilskada Ingen bilskada Summa Män 150 35 185 Kvinnor 16 2 18 Summa 166 37 203 Bilskada Ingen bilskada Summa Män 83 288 371 Kvinnor 71 192 263 Summa 154 480 634 Stora bilar: 88% av kvinnorna, 81% av männen. Små bilar: 27% av kvinnorna, 22% av männen. Kvinnorna har högsta skadeandelen, oavsett bilstorlek!

Relative risk Statistically speaking, U.S. soldiers have less of a chance of dying from alla causes in Iraq than citizens have of being murdered in California, which is roughly the same geographical size. California has more than 2300 homicides each year, which means about 6.6 murders each day. Meanwhile, U.S. troops have been in Iraq for 160 days, which means they re incurring about 1.7 deaths, including illness and accidents each day. Brit Hume, Fox News, August 2003.

Relative risk Killed Not killed Total California 6.6 37,999,993.4 38,000,000 Iraq 1.7 149,998.3 150,000 Total 8.3 38,149,981.7 Relative risk (proportion): ( ) 1.7 6.6 1 = 65.25. 150, 000 38, 000, 000 By not taking the total population of each group into account, Hume failed to note the relative risk of death to a soldier in Iraq was 65 times higher than the murder rate in California.

Fishers exakta test Exakt test, att använda när förutsättningarna för χ 2 -testet inte är uppfyllt. Ofta formulerat för 2 2-tabeller, t.ex. Svar Ja Nej Total Kvinnor n 11 n 12 n 1 Män n 21 n 22 n 2 Total n 1 n 2 n Baseras på hypergeometrisk fördelning: P(N 11 = n 11 ) = ( n1 )( n2 n 11 ( n ) n 1 n 21 )

Lady tasting tea En eftermiddag i Rothamstead. Diskussion mellan Miss B. Muriel och R. A. Fisher: Kan man avgöra på smaken om mjölken hälls i teet eller tvärtom? Experiment: 8 koppar färdigställs; 4 framställda på ena sättet, resterande på andra. Dr. Muriel provsmakar och får rätt i tre av fallen. Gissa vad som hälls först Hälls först Mjölk Te Total Mjölk 3 1 4 Te 1 3 4 Total 4 4