TAMS65 - Föreläsning 12 Test av fördelning

Relevanta dokument
TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

TAMS65 - Föreläsning 12 Test av fördelning

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Matematisk statistik KTH. Formelsamling i matematisk statistik

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

F9 SAMPLINGFÖRDELNINGAR (NCT

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Formel- och tabellsamling i matematisk statistik

Föreläsning 11: Mer om jämförelser och inferens

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

SF1901 Sannolikhetsteori och statistik I

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Avd. Matematisk statistik

Tentamen i Matematisk Statistik, 7.5 hp

Matematisk statistik för B, K, N, BME och Kemister

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Lufttorkat trä Ugnstorkat trä

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

FÖRELÄSNING 8:

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Thomas Önskog 28/

Avd. Matematisk statistik

Föreläsning 4: Konfidensintervall (forts.)

Avd. Matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

9. Konfidensintervall vid normalfördelning

Avd. Matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TMS136. Föreläsning 13

TMS136. Föreläsning 11

Statistik 1 för biologer, logopeder och psykologer

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

TAMS28 DATORÖVNING VT1

Föreläsning 7. Statistikens grunder.

Introduktion och laboration : Minitab

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Avd. Matematisk statistik

0 om x < 0, F X (x) = c x. 1 om x 2.

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Föreläsning 12: Repetition

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Kurssammanfattning MVE055

TMS136. Föreläsning 10

Mer om konfidensintervall + repetition

Avd. Matematisk statistik

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

TMS136. Föreläsning 4

Avd. Matematisk statistik

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen MVE301 Sannolikhet, statistik och risk

FACIT: Tentamen L9MA30, LGMA30

Demonstration av laboration 2, SF1901

Föreläsning 5: Hypotesprövningar

Matematisk statistik för B, K, N, BME och Kemister

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

F3 Introduktion Stickprov

Extrauppgifter i matematisk statistik

SF1901: Sannolikhetslära och statistik

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

SF1901: Sannolikhetslära och statistik

SF1901 Sannolikhetsteori och statistik I

Laboration med Minitab

Föreläsning 5 och 6.

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

TMS136. Föreläsning 7

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Tentamen MVE301 Sannolikhet, statistik och risk

Transkript:

TAMS65 - Föreläsning 12 Test av fördelning Martin Singull Matematisk statistik Matematiska institutionen

Innehåll Grundläggande χ 2 -test Test av given fördelning Homogenitetstest TAMS65 - Fö12 1/37

Det grundläggande χ 2 -testet Ett slumpmässigt försök kan ge resultaten A 1,..., A k. Vid n oberoende upprepningar inträffade A i totalt N i gånger, i = 1, 2,..., k. Vi vill pröva H 0 : P(A i ) = p i för i = 1,..., k, där p 1,..., p k är givna kända tal, mot H 1 : P(A i ) p i för minst ett i bland 1,..., k. TAMS65 - Fö12 2/37

Teststorhet: Q = k (N i np i ) 2 i=1 np i ( som ofta skrivs k i=1 (o i e i ) 2 e i ) Avvikelse från H 0 visar sig genom stora Q-värden. H 0 förkastas alltså om Q > c. TAMS65 - Fö12 3/37

Bakgrunden är, att den k-dimensionella stokastiska variabeln (N 1,..., N k ), då H 0 är sann, har multinomialfördelning med parametrarna n, p 1,..., p k, och då gäller speciellt att N i Bin(n, p i ). I teststorheten jämför vi alltså N i med dess väntevärde då H 0 är sann d.v.s. E(N i ) = np i. Låga Q-värden tyder på god överensstämmelse mellan N i och E(N i ) = np i och då finns det ingen anledning att betvivla nollhypotesen. Man kan visa att den s.v. Q är approx χ 2 (k 1) om H 0 är sann. TAMS65 - Fö12 4/37

TAMS65 - Fö12 5/37

. Förlusten ( av 1 frihetsgrad beror på att de s.v. N 1,..., N k är k beroende 1 N i = n). Den kritiska gränsen c ges alltså i χ 2 (k 1)-tabell. χ 2 (k 1) α : : : : : : : : : : : : : : : : : : : : : : : : ; : : : : : : : : : Villkor: Approximationen med χ 2 -fördelning fungerar tillfredsställande om np i > 5. Om np i < 5 får man slå ihop fall, se exempel nedan. TAMS65 - Fö12 6/37

Exempel En maskin tillverkar enheter som klassas i fyra kategorier nämligen topkvalitet (T ), hög kvalitet (H), god kvalitet (G) och dålig kvalitet (D). Av lång erfarenhet vet man att P(T ) = 0.4, P(H) = 0.3, P(G) = 0.2 och P(D) = 0.1. En ny maskin som tillverkar samma sorts enheter har köpts och 500 enheter tillverkade av denna maskin har fått följande klassningar T H G D 220 129 91 60 Kan man med någon säkerhet hävda att den nya maskinen har en annan fördelning över kvalitetsklasserna än den gamla? Genomför ett lämpligt χ 2 -test på nivån 5%. TAMS65 - Fö12 7/37

TAMS65 - Fö12 8/37

Test av en given fördelning Vid test av given fördelning får vi skilja på fallen med diskret respektive kontinuerlig fördelning. Test av en given diskret fördelning Då blir händelserna A i i allmänhet {X = i}, men vissa A i måste man slå ihop till större händelser. Viktigt: Alla tänkbara värden på X måste finnas med i någon händelse. TAMS65 - Fö12 9/37

Test av given kontinuerlig fördelning Man har n observationer x 1,..., x n och vill undersöka nollhypotesen H 0 att en täthetsfunktion f (x) passar till datamaterialet. Man delar in tallinjen i k stycken intervall (tumregel: antalet intervall antalet observationer/10),...... a i 2 a i 1 a i a i+1 a i+2 räknar hur många observationer som finns i de olika intervallen och får de observerade frekvenserna N 1,..., N k. TAMS65 - Fö12 10/37

Låt A i vara händelsen att en observation hamnar i ]a i 1, a i ] och p i = ai a i 1 f (x)dx, där f (x) är täthetsfunktionen som ska prövas. Observera att intervallen måste täcka in hela det område där f (x) 0. Därför kan man behöva intervall av typen (, a 1 ] och ]a k 1, ). TAMS65 - Fö12 11/37

I både fallen ovan gäller att om sannolikhetsfunktionen respektive täthetsfunktionen innehåller okända parametrar, så måste dessa skattas innan man beräknar p i. OBS Man förlorar en frihetsgrad i Q:s χ 2 -fördelning för varje skattad parameter i nollhypotesens sannolikhetsfunktion respektive täthetsfunktion. TAMS65 - Fö12 12/37

Exempel I ett datamaterial med 160 observationer har man stickprovsmedelvärdet x = 2.27 och stickprovsstandardavvikelsen s = 2.12. Vi vill undersöka om datamaterialet kan vara normalfördelat, d.v.s. mot H 0 : X j N(µ, σ) H 1 : Normalfördelningen passar inte. Mätvärdena är givna med en decimal. Genom att utnyttja två decimaler i klassgränserna undviker man problemet att någon observation hamnar precis på klassgränsen. TAMS65 - Fö12 13/37

Indelning i fack: Fack Obs. frekv. N i ], 1.35] 65 ]1.35, 2.75] 52 ]2.75, 4.15] 15 ]4.15, 5.55] 15 ]5.55, 6.95] 9 ]6.95, [ 4 Vi skattar parametrarna i normalfördelningen med ˆµ = x = 2.27 och ˆσ = s = 2.12 för att veta vilken normalfördelning som vi vill jämföra mot. TAMS65 - Fö12 14/37

Vi har då följande sannolikheter för de olika facken ( Xj µ p 1 = P (X j 1.35) = P 1.35 µ ) ( ) 1.35 µ = Φ, σ σ σ ( ) 1.35 2.27 p 1 Φ = Φ( 0.43) = 0.3336, 2.12 ( 1.35 µ p 2 = P (1.35 < X j 2.75) = P < X j µ 2.75 µ ) σ σ σ ( ) ( ) 2.75 µ 1.35 µ = Φ Φ, σ σ ( ) ( ) 2.75 2.27 1.35 2.27 p 2 Φ Φ = Φ(0.23) Φ( 0.43) 2.12 2.12 = 0.5910 0.3336 = 0.2574. TAMS65 - Fö12 15/37

Vidare har vi att ( ) ( ) 4.15 2.27 2.75 2.27 p 3 Φ Φ 2.12 2.12 och = Φ(0.89) Φ(0.23) = 0.8133 0.5910 = 0.2223, p 4 0.9394 0.8133 = 0.1261, p 5 0.9864 0.9394 = 0.0470 p 6 1 0.9864 = 0.0136. TAMS65 - Fö12 16/37

Vi har nu följande indelning i fack. Fack Obs. frekv. Skattad Förv. frekv. N i slh. p i 160p i ], 1.35] 65 0.3336 53.4 ]1.35, 2.75] 52 0.2574 41.2 ]2.75, 4.15] 15 0.2223 35.6 ]4.15, 5.55] 15 0.1261 20.2 ]5.55, 6.95] 9 0.0470 7.5 ]6.95, [ 4 0.0136 2.2 TAMS65 - Fö12 17/37

Vi måste slå ihop de två sista klasserna och får då observerad frekvens 13 samt p 5 0.0606 med förväntad frekvens 9.7. Teststorhet: Q = 5 i=1 (N i 160p i ) 2 160p i 19.73 Den s.v. Q är approx χ 2 (5 1 2) om H 0 är sann, eftersom vi till slut bara har fem klasser och skattade två parametrar. För α = 0.01 får vi den kritiska gränsen 9.22 ur χ 2 (2)-tabell. 19.73 > 9.22. Alltså kan H 0 förkastas. Datamaterialet kommer med stor sannolikhet inte från normalfördelning. TAMS65 - Fö12 18/37

Anm. Det finns flera andra, ofta effektivare, metoder för att testa normalfördelningsantagandet, men den här metoden bygger direkt på iden att jämföra histogrammet med täthetsfunktionen för normalfördelningen. TAMS65 - Fö12 19/37

Något om att välja sannolikhetsfördelning Om man vill undersöka om en viss sannolikhetsfunktion eller täthetsfunktion passar till ett datamaterial kan man 1a i det diskreta fallet göra ett stolpdiagram och jämföra med den aktuella sannolikhetsfunktionen; 1b i det kontinuerliga fallet göra ett histogram och jämföra med den aktuella täthetsfunktionen, se den inledande föreläsningen; 2 göra χ 2 -test av fördelning, men vara försiktig med tolkningen (att H 0 inte kan förkastas behöver tex. inte innebära att H 0 är sann); 3 utnyttja Kolmogorov-Smirnovs test; 4 använda fördelningspapper (probability plotting) om man har observationer från en kontinuerlig fördelning (detta ingår inte i kursen, men det finns i många datorprogram). TAMS65 - Fö12 20/37

Kolmogorov-Smirnovs test - Ett stickprov Den empiriska fördelningsfunktionen för ett stickprov x 1,..., x n ges av F n (x) = 1 n n i=1 I {xi x}, där I {xi x} = { 1 om x i x, 0 annars. Om man vill undersöka om en viss fördelningsfunktion, F (x), passar ett stickprov är det av intresse att titta på differensen F n (x) F (x) och då speciellt Kolmogorov-Smirnov teststorheten D = max x F n (x) F (x). TAMS65 - Fö12 21/37

TAMS65 - Fö12 22/37

För stora värden på n har vi approximativt att P ( nd c ) 1 2 ( 1) k 1 e 2k2 c 2 = H(c). k=1 Ofta ger första termen i serien tillräckligt god approximation av Kolmogorov-Smirnovs test, som leder till följande approximativa test. Förkasta H 0, d.v.s. likhet i fördelning, på nivån α om D 1 ( α ) 2n ln. 2 Om man måste skatta parametrar, så fungerar inte denna approximation och man måste använda andra metoder. Det finns tabeller för t.ex. normal- och exponentialfördelning. TAMS65 - Fö12 23/37

Kolmogorov-Smirnovs test - Två stickprov Man kan även testa om två stickprov kommer från samma fördelning med Kolmogorov-Smirnovs test. Beräkna den empiriska fördelningen för de båda stickproven, F n (x) och G m (x), och teststorheten Man kan då visa att D = max x F n (x) G m (x). P och det approximativa testet. ( ) mn m + n D t H(t) Förkasta H 0, d.v.s. likhet i fördelning, på nivån α om D m + n ( α ) 2mn ln 2 TAMS65 - Fö12 24/37

Kolmogorov-Smirnovs test - MATLAB KSTEST Single sample Kolmogorov-Smirnov goodness-of-fit hypothesis test. H = KSTEST(X,CDF,ALPHA,TYPE) performs a Kolmogorov-Smirnov (K-S) test to determine if a random sample X could have the hypothesized, continuous cumulative distribution function CDF. CDF is optional: if omitted or empty, the hypothetical c.d.f is assumed to be a standard normal, N(0,1). ALPHA and TYPE are optional scalar inputs: ALPHA is the desired significance level (default = 0.05); TYPE indicates the type of test (default = unequal ). H indicates the result of the hypothesis test: H = 0 => Do not reject the null hypothesis at significance level ALPHA. H = 1 => Reject the null hypothesis at significance level ALPHA. KSTEST2 Two-sample Kolmogorov-Smirnov goodness-of-fit hypothesis test. H = KSTEST2(X1,X2,ALPHA,TYPE) performs a Kolmogorov-Smirnov (K-S) test to determine if independent random samples, X1 and X2, are drawn from the same underlying continuous population. TAMS65 - Fö12 25/37

Test om normalfördelning För att testa normalfördelning kan man använda Lilliefors test (h = lillietest(x)) - modifiering av Kolmogorov-Smirnovs test med skattade parametrar, eller andra test som man kan visa är bättre (d.v.s. har bättre styrka) t.ex. Shapiro-Wilks test, Anderson Darlings test. TAMS65 - Fö12 26/37

Homogenitetstest Vi vill testa om r försöksserier är homogena i meningen att P(A i ) för varje i är lika stor för samtliga försöksserier, se boken och formelsamlingen. Tillämpning: Man kan undersöka om r stickprov kommer från samma fördelning. Anm. Det finns också ett så kallat oberoendetest. Det har praktiken samma teststorhet som homogenitetstestet, men den skrivs annorlunda och tolkningen är inte heller densamma. TAMS65 - Fö12 27/37

Exempel - Homogenitetstest TABLE - Sample results of cell phone preferences for male and female users (observed frequencies). Cell phone preferences Sex Android iphone Windows Total Male 20 40 20 80 Female 30 30 10 70 Total 50 70 30 150 H 0 : Kvinnor och män föredrar Android med samma sannolikhet p 1, iphone med samma sannolikhet p 2 och Windows med samma sannolikhet p 3. H 1 : Skillnad finns i fråga om preferenser. Nivå på testet 0.05. TAMS65 - Fö12 28/37

TAMS65 - Fö12 29/37

TAMS65 - Fö12 30/37

Exempel - Homogenitetstest I en studie ville man undersöka om inositol (ett ämne som finns i modersmjölk) minskar risken för ögonskador hos för tidigt födda barn, (New England Journal of Medicine, 1992). Studien omfattade 220 för tidigt födda barn som slumpmässigt delades in i två grupper med 110 i varje. Den ena gruppen fick intravenös tillförsel av inositol, medan den andra fick standardbehandlingen. Antalet barn med ögonskador var 14 i inositolgruppen och 29 i den andra. Låt p 1 och p 2 beteckna riskerna för ögonskador i de båda grupperna. Det är rimligt att anta att barnen får ögonskador oberoende av varandra. Kan man med någon säkerhet hävda att p 1 p 2? Besvara frågan med hjälp av ett lämpligt test på nivån 5% eller ett konfidensintervall med konfidensgraden 95% Här kan man konstruera I p1 p 2 eller göra ett homogenisitetstest. TAMS65 - Fö12 31/37

TAMS65 - Fö12 32/37

TAMS65 - Fö12 33/37

Hemuppgift TAMS65 - Fo 12 34/37

Hemuppgift J F M A M J J A S O N D S:a Ish.sp. 31 24 36 22 19 14 17 19 19 19 10 10 240 Samtl. 61-65 8.1 7.8 9.6 9.7 9.3 8.3 8.2 7.9 8.2 7.8 7.5 7.6 100% Pröva H 0 : Ishockyspelarnas födelsedagar har samma fördelning över årets månader som den övriga befolkningens. på nivån 0.01. Svar: Q = 25.75 > 24.72; d.v.s. H 0 förkastas. TAMS65 - Fö12 35/37

Fler kurser i Matematisk Statistik TAMS46 - Sannolikhetslära, fortsättningskurs TAMS17 - Statistisk teori, fortsättningskurs TAMS39 - Multivariat statistik TAMS38 - Försöksplanering och biostatistik TAMS32 - Stokastiska processer TAMS29 - Stok. processer för finansmarknadsmodeller Se www.mai.liu.se för mer information. TAMS65 - Fö12 36/37

Inför tentamen Frågor? Fredagen, 27 maj kl. 13 15 Martin Singull (mitt kontor) TAMS65 - Fö12 37/37

http://courses.mai.liu.se/gu/tams65/