SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

Relevanta dokument
χ 2 -test χ 2 -test med skattade parametrar små talens lag (Bortkiewicz) homogenitetstest oberoendetest

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1901 Sannolikhetsteori och statistik I

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

TAMS65 - Föreläsning 12 Test av fördelning

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Föreläsning 11: Mer om jämförelser och inferens

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Avd. Matematisk statistik

SF1901: Medelfel, felfortplantning

TAMS65 - Föreläsning 6 Hypotesprövning

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Jämförelse av två populationer

TAMS65 - Föreläsning 12 Test av fördelning

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Avd. Matematisk statistik

Lufttorkat trä Ugnstorkat trä

Avd. Matematisk statistik

Avd. Matematisk statistik

Statistisk utvärdering av antagningen till Polishögskolan

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Avd. Matematisk statistik

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 5: Hypotesprövningar

Matematisk statistik för B, K, N, BME och Kemister

FÖRELÄSNING 8:

Thomas Önskog 28/

TMS136. Föreläsning 13

Avd. Matematisk statistik

f(x) = 2 x2, 1 < x < 2.

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Avd. Matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Avd. Matematisk statistik

TMS136. Föreläsning 11

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Repetition 2, inför tentamen

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Uppgift 1. f(x) = 2x om 0 x 1

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

Avd. Matematisk statistik

Exempel på tentamensuppgifter

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

SF1901: Sannolikhetslära och statistik

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

SF1901: Sannolikhetslära och statistik

Avd. Matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: Sannolikhetslära och statistik. Mer om Approximationer

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 4: Konfidensintervall (forts.)

1 e (λx)β, för x 0, F X (x) = 0, annars.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Kapitel 10 Hypotesprövning

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Matematisk statistik för B, K, N, BME och Kemister

0 om x < 0, F X (x) = c x. 1 om x 2.

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Samplingfördelningar 1

Tentamen MVE301 Sannolikhet, statistik och risk

Transkript:

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 13. MER OM χ 2 -TEST OCH LIKNANDE Jan Grandell & Timo Koski 25.02.2015 Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 1 / 33

INNEHÅLL χ 2 -test χ 2 -test med skattade parametrar små talens lag (Bortkiewicz) homogenitetstest oberoendetest Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 2 / 33

χ 2 -TEST χ 2 -testet är ett så kallat goodness of fit -test. goodness of fit översätts ibland som anpassningsgrad Den enklaste situationen: Ett försök kan utfalla på r olika sätt: A 1,A 2,...,A r. Låt x 1,x 2,...,x r vara antalet gånger som alternativen A 1,A 2,...,A r förekommer i n försök. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 3 / 33

χ 2 -TEST Låt p 1,p 2,...,p r vara givna sannolikheter, dvs r i=1 p i = 1. Vi vill testa H 0 : P(A i ) = p i för i = 1,...,r mot H 1 : ej alla P(A i ) = p i. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 4 / 33

χ 2 -TEST För att göra detta bildar vi Q obs = r (x i np i ) 2. i=1 np i Man kan visa att Q är approximativt χ 2 (r 1)-fördelad under H 0. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 5 / 33

χ 2 -TEST För att göra resultatet troligt, betraktar vi r = 2. Då gäller, med X = X 1 och p = p 1 att Q = (X 1 np 1 ) 2 np 1 + (X 2 np 2 ) 2 np 2 = (X np)2 np + (n X n(1 p))2 n(1 p) = (X np)2 np + Eftersom X är Bin(n,p) så gäller att följer att (X np)2 np(1 p) är appr. χ2 (1). (X np))2 n(1 p) = (X np)2 np(1 p). X np är appr. N(0,1). Således np(1 p) Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 6 / 33

χ 2 -TEST Vi gör nu följande test: Förkasta H 0 om Q obs > χ 2 α(r 1). Om n är stort, har detta test approximativt signifikansnivån α. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 7 / 33

χ 2 -TEST Det går inte att generellt ange hur stort n skall vara för att approximationen skall vara tillfredsställande. Som tumregel brukar man använda: Tillse att insatta värden på np j är minst lika med 5. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 8 / 33

χ 2 -TEST: KAST MED EN TÄRNING Vid 96 kast med en tärning erhölls följande antal ettor, tvåor, etc: 15, 7, 9, 20, 26, 19. Man önskar pröva om tärningen kan antas vara symmetrisk. Hypotesen H 0 blir alltså H 0 : P(A 1 ) = 1/6,...,P(A 6 ) = 1/6. χ 2 -metoden kan användas, ty alla np j = 96 1/6 = 16 och är alltså tillräckligt stora. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 9 / 33

χ 2 -TEST: KAST MED EN TÄRNING Man får Q obs = (15 16)2 16 + (7 16)2 16 + (20 16)2 16 + (9 16)2 16 + (26 16)2 16 + (19 16)2 16 = 16.0. Antalet frihetsgrader är f = r 1 = 6 1 = 5. Eftersom Q obs något överstiger χ 2 0.01 (5) = 15.1 kan man påstå att tärningen inte är symmetrisk: Resultatet är signifikant**. Med dator erhålls P = P(Q > 16.0) 0.0068 då Q är χ 2 (5). Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 10 / 33

χ 2 -TEST MED SKATTNING AV PARAMETRAR Ofta vill vi låta sannolikheterna p 1,p 2,...,p r bero av en okänd parameter θ = (θ 1,...,θ s ), och testa hypotesen och för något värde på θ. H 0 : P(A i ) = p i (θ), för i = 1,...,r, Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 11 / 33

χ 2 -TEST MED SKATTNING AV PARAMETRAR Skattar vi θ med ML-metoden, och bildar Q obs = r (x i np i (θobs ))2 i=1 np i (θobs ), så är Q approximativt χ 2 (r s 1)-fördelad under H 0. Detta resultat kallas ibland för stora χ 2 -satsen. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 12 / 33

χ 2 -TEST MED SKATTNING AV PARAMETRAR: ANTALET FRIHETSGRADER Grundregeln är att antalet frihetsgrader fås av antalet fria kvadratsummor antalet skattade parametrar. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 13 / 33

EXEMPEL: DE SMÅ TALENS LAG En händelse av låg frekvens i en stor population följer en poissonfördelning. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 14 / 33

EXEMPEL: DE SMÅ TALENS LAG I en klassisk datamängd undersöktes antalet ihjälsparkade soldater vid 14 tyska armékårer från 1875 till 1894 (20 år). De 14 20 = 280 rapporterna fördelade sig som i tabellen. Antal döda Antal rapporter Andel 0 144 0.5143 1 91 0.3250 2 32 0.1143 3 11 0.0393 4 2 0.0071 5 0 0 Summa 280 1 Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 15 / 33

DE SMÅ TALENS LAG Totalt omkom 1 91+2 32+3 11+4 2 = 196 soldater. Test om data verkar komma från en Po(θ)-fördelning med θ = θ obs = 196/280 = 0.7. Vi gör nu indelningen A 1 = 0 döda A 2 = 1 död, A 3 = 2 döda samt A 4 = 3 eller fler döda. Vi klumpar ihop eftersom vi vill få minst 5 i alla kategorier. Po(0.7)-fördelningen ger p 1 = e 0.7 = 0.4966, p 2 = 0.7e 0.7 = 0.3476, p 3 = 0.72 2 e 0.7 = 0.1217, p 4 = 1 p 1 p 2 p 3 = 1 1.945e 0.7 = 0.0341. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 16 / 33

DE SMÅ TALENS LAG Detta ger de förväntade frekvenserna och 280p 1 = 139.0, 280p 2 = 97.3, 280p 3 = 34.1, 280p 4 = 9.6 Q obs = (144 139.0)2 139.0 + (91 97.3)2 97.3 + (32 34.1)2 34.1 + (13 9.6)2 9.6 1.95 Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 17 / 33

DE SMÅ TALENS LAG Q är approximativt χ 2 (4 1 1) = χ 2 (2) om H 0 : data kommer från Poisson-fördelning är sann. Vi har χ 2 0.05 (2) = 5.99 så H 0 förkastas inte på nivån 5 %. Slutsatsen är alltså att data på intet sätt strider mot på ståendet att antalet ihjälsparkade soldater per år och armékår är Poisson-fördelat. Om vi på förhand hade velat testa om data kom från just Po(0.7)-fördelningen hade vi jämfört med χ 2 0.05 (3) = 7.81. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 18 / 33

DE SMÅ TALENS LAG L. Bortkiewicz published a book (in German) The Law of Small Numbers in 1898. In this he was the first to note that events with low frequency in a large population followed a Poisson distribution even when the probabilities of the events varied. A striking example was the number of soldiers killed by horse kicks per year per Prussian army corps. Fourteen corps were examined, each for twenty years. For over half the corps-year combinations there were no deaths from horse kicks; for the other combinations the number of deaths ranged up to four. Presumably the risk of lethal horse kicks varied over years and corps, yet the over-all distribution was remarkably well fitted by a Poisson distribution. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 19 / 33

DE SMÅ TALENS LAG: A DIFFERENT STORY The Poisson distribution was discovered through observation of the process of fermentation in beer at the Guinness company. The t-statistic is a measure of how much confidence can be placed in judgments made from small samples. W.S. Gossett invented that measure to enable the quality of brews to be monitored in a cost- effective manner. The scholars behind the stout; Financial Times 27 December 2005 http://www.johnkay.com/in action/422 Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 20 / 33

HOMOGENITETSTEST Vi återgår nu till exemplet i början, med ett försök som kan utfalla på r olika sätt: A 1,A 2,...,A r. Antag nu att vi har s försöksserier om n 1,...,n s försök vardera. Låt x ij vara antalet gånger som alternativet A j förkommer i i te försöksserien. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 21 / 33

HOMOGENITETSTEST Antag att s serier utförts med följande resultat: Serie Absoluta frekvenser för Antal försök A 1 A 2... A r 1 x 11 x 12... x 1r n 1 2 x 21 x 22... x 2r n 2..... s x s1 x s2... x sr n s Summa x 1 x 2... x r n Som framgår av tabellen indikerar en punkt i index en summation. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 22 / 33

HOMOGENITETSTEST Vi anser att serierna är homogena om hypotesen H 0 : P(A i ) = p i, för i = 1,...,r i alla serierna. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 23 / 33

HOMOGENITETSTEST För att testa H 0 bildar vi där Q obs = s r i=1j=1 (x ij n i pj )2 n i pj, p j = (p j ) obs = s i=1 x ij s i=1 n i Man kan visa att Q är approximativt χ 2 ((r 1)(s 1))-fördelad under H 0.. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 24 / 33

HOMOGENITETSTEST Frihetsgraderna fås på följande sätt: antalet fria kvadratsummor antalet skattade parametrar = s (r 1) (r 1) = (r 1)(s 1). Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 25 / 33

EXEMPEL: HOMOGENITETSTEST En opinionsundersökning (i USA), där vi ställer en politiskt känslig fråga med svar: instämmer vs. instämmer ej. Man undrar om svaren är beroende intervjuarens kön. Vi studerar endast mäns svar. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 26 / 33

EXEMPEL Svar Absoluta frekvenser för Män instämmer Män instämmer ej Man intervjuar 560 240 800 Kvinna intervjuar 308 92 400 Summa 868 332 1200 Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 27 / 33

EXEMPEL n 1 p 1 = 800 868 1200 = 578.67,n 1p 2 = 800 332 1200 = 221.33 n 2 p1 = 400 868 1200 = 289.33,n 2p2 = 400 332 1200 = 110.67 Teststorheten är Q obs = (560 578.67)2 578.67 + (240 221.33)2 221.33 + (308 289.33)2 + (92 110.67)2 289.33 110.67 = 0.6062+1.574+1.204+3.149 = 6.529. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 28 / 33

EXEMPEL Vi väljer α = 0.05. Q approximativt χ 2 (1)-fördelad, Q obs = 6.529 Kvantilen χ 2 0.05 (1) = 3.84. p-värdet är P(Q 6.529) = 0.011. Nollhypotesen om homogena proportioner förkastas på signifikansnivån 0.05. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 29 / 33

OBEROENDETEST Vi tar nu ett stickprov om n enheter, där varje enhet klassifiseras efter två egenskaper, A och B. Vi kan skriva detta i en kontingenstabell, lik den tabell vi hade i hogenitetstestet. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 30 / 33

OBEROENDETEST & KONTINGENSTABELL Antag att s serier utförts med följande resultat: Serie Absoluta frekvenser för Antal försök Egenskap A 1 A 2... A r Total B 1 x 11 x 12... x 1r x 1 B 2 x 21 x 22... x 2r x 2... B s x s1 x s2... x sr x s Total x 1 x 2... x r n Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 31 / 33

OBEROENDETEST Vi vill nu testa hypotesen För att testa H 0 bildar vi där H 0 : P(A j B i ) = P(A j )P(B i ), för alla i och j. Q = s r i=1j=1 p i = (p i ) obs = x i n (x ij npi p j )2, np i p j och p j = (p j) obs = x j n. Man kan även här visa att Q är approximativt χ 2 ((r 1)(s 1))-fördelad under H 0. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 32 / 33

OBEROENDETEST Frihetsgraderna fås på följande sätt: antalet fria kvadratsummor antalet skattade parametrar = (sr 1) [(r 1)+(s 1)] = sr r s +1 = (r 1)(s 1). OBSERVERA! Även om homogenitetstestet och kontingenstabellen numeriskt och statistiskt är lika, så är det olika test. Jan Grandell & Timo Koski () Matematisk statistik 25.02.2015 33 / 33