χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Relevanta dokument
1. Test av anpassning.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

2. Test av hypotes rörande medianen i en population.

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Föreläsning G60 Statistiska metoder

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning G60 Statistiska metoder

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Föreläsning 5. Kapitel 6, sid Inferens om en population

SF1901 Sannolikhetsteori och statistik I

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Föreläsning G60 Statistiska metoder

F9 SAMPLINGFÖRDELNINGAR (NCT

Jämförelse av två populationer

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsningsanteckningar till kapitel 9, del 2

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

TAMS65 - Föreläsning 6 Hypotesprövning

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

TAMS65 - Föreläsning 6 Hypotesprövning

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Introduktion till statistik för statsvetare

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Stockholms Universitet Statistiska institutionen Termeh Shafie

FÖRELÄSNING 8:

TMS136. Föreläsning 13

, s a. , s b. personer från Alingsås och n b

F22, Icke-parametriska metoder.

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

TENTAMEN I STATISTIKENS GRUNDER 2

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Föreläsning 5: Hypotesprövningar

TAMS65 - Föreläsning 12 Test av fördelning

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Avd. Matematisk statistik

TMS136. Föreläsning 11

TENTAMEN I STATISTIKENS GRUNDER 2

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Hur man tolkar statistiska resultat

Avd. Matematisk statistik

Lufttorkat trä Ugnstorkat trä

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning G60 Statistiska metoder

8 Inferens om väntevärdet (och variansen) av en fördelning

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Avd. Matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning G60 Statistiska metoder

F3 Introduktion Stickprov

Tentamen i Matematisk statistik Kurskod S0001M

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tentamen i Matematisk statistik Kurskod S0001M

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

Tentamen i Matematisk statistik Kurskod S0001M

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 )

Kapitel 10 Hypotesprövning

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Konfidensintervall, Hypotestest

Samplingfördelningar 1

Matematisk statistik KTH. Formelsamling i matematisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

TMS136: Dataanalys och statistik Tentamen


Föreläsning 4: Konfidensintervall (forts.)

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

Stat. teori gk, ht 006, JW F1 χ -TEST (NCT 16.1-16.) Ordlista till NCT Goodness-of-fit-test χ, chi-square Test av anpassning χ, chi-två Test av anpassning: sannolikheter specificerade i förväg Data: n observationer klassificerade i K olika kategorier: Kategori Antal obs. 1 O 1 O M M K O K Totalt n O i = antal observationer i kategori i (i = 1,,, K) 1

Låt P i = sannolikheten att få en observation i K kategori i ( = P = i 1 i 1). Kategori Antal obs. Sannolikhet Förväntat antal obs. 1 O 1 P 1 np 1 O P np M M M M K O K P K np K Totalt n 1 n Sannolikheterna P 1, P,, P K är nu okända, och vi vill pröva nollhypotesen att de har vissa bestämda numeriska värden: H 0 : P 1 =P 10, P =P 0,, P K =P K0 Mothypotesen är att H 0 inte gäller, dvs. att inte alla sannolikheterna har de i H 0 givna värdena.

Vi använder ett χ -test med testvariabeln: χ = K ( Oi i) i= 1 E E i där O i = observerat antal i kategori i E i = n P i0 = förväntat antal under H 0 När H 0 är sann, så är testvariabeln approximativt χ -fördelad med K-1 fg, ifall antalet observationer är tillräckligt stort. Tumregel enl. NCT: Det förväntade antalet, E i = np i0, måste vara 5 för alla kategorier. (Om så inte är fallet, brukar man ibland slå ihop kategorier.) Stora skillnader mellan observerat och förväntat antal ger höga värden på testvariabeln. Vi förkastar därför H 0, om (och endast om) vi får extremt höga värden på testvariabeln. Kritiskt värde (från Tabell 7) bestäms av önskad signifikansnivå och av antal frihetsgrader. 3

Ex.: En produkt tillverkas i fyra färger. Man vill undersöka om vissa av färgerna föredras framför de övriga. Ett slumpmässigt urval av 80 presumtiva konsumenter tillfrågas om vilken färg de föredrar, och följande data erhålls: Färg 1 3 4 Totalt Antal 1 40 8 0 80 Nollhypotesen är att alla färgerna är lika populära, dvs. att vi har lika stor slh att i urvalet få en person som föredrar färg 1 som att få en person som föredrar färg etc. Dvs. Hypoteser: H 0 : P 1 = P = P 3 = P 4 = 0,5 H 1 : Ej alla slh lika med 0,5 Sign.-nivå: 5% Testvariabel: ( Oi = Ei ) χ (K-1 = 3 fg) E i Beslutsregel: H 0 förkastas om χ obs > 7,81. 4

Resultat: Färg Obs. antal Sannolikhet enl. H 0 Förv. antal enl. H 0 1 1 0,5 80 0,5 = 0 40 0,5 80 0,5 = 0 3 8 0,5 80 0,5 = 0 4 0 0,5 80 0,5 = 0 Totalt 80 1 80 χ obs = (1 0) 0 (40 0) 0 (8 0) 0 (0 0) 0 = 30,400 > 7,81 H 0 förkastas på 5% signifikansnivå. Signifikant skillnad i popularitet mellan olika färger. 5

Ex.: A, B och C är tre konkurrerande produkter av samma typ. Under en längre tid har 30% av kunderna efterfrågat produkt A, 50% produkt B, och 0% produkt C. Nyligen har produkt C genomgått en förändring, och man vill veta om produkternas marknadsandelar därigenom har förändrats. Vid en marknadsundersökning av 00 kunder fann man att 48 nu sade sig föredra produkt A, 98 produkt B, och 54 produkt C. Vilken slutsats kan vi dra? Vi tänker oss att de 00 tillfrågade kan ses som ett slumpmässigt urval från populationen av kunder. Hypoteser: H 0 : P A = 0,3; P B = 0,5; P C = 0, H 1 : Det gäller inte att P A = 0,3; P B = 0,5; P C = 0, Sign.-nivå: 5% Testvariabel: ( Oi = Ei ) χ (K-1 = fg) E i Beslutsregel: H 0 förkastas om χ obs > 5,99. 6

Resultat: Prod. Obs. antal Sannolikhet enl. H 0 Förv. antal enl. H 0 A 48 0,3 00 0,3 = 60 B 98 0,5 00 0,5 = 100 C 54 0, 00 0, = 40 Tot. 00 1,0 00 χ obs = (48 60) 60 (98 100) 100 (54 40) 40 =,40 0,04 4,90 = 7,34 > 5,99 H 0 förkastas på 5% signifikansnivå. Vi tror att förändringen av produkt C medfört en ändring av marknadsandelarna. OBS 1. Avrunda inte de förväntade antalen. Om de förväntade antalen inte blir heltal, så ta med någon eller några decimaler i beräkningarna. OBS. O i och E i står för observerat och förväntat antal, inte procenttal. 7

Test av anpassning: fördelning med skattade parametrar Säg att vi vill testa om våra data kan ses som ett stickprov från en viss typ av fördelning, t.ex. en Poissonfördelning, utan att vi i förväg har specificerat något bestämt parametervärde. Testet går till på liknande sätt som χ -testet i föregående avsnitt. Skillnaden är att vi nu måste beräkna ett skattat parametervärde utifrån våra data. Med hjälp av detta får vi sedan det förväntade antalet observationer (under H 0 ) i olika kategorier. Antalet frihetsgrader är nu K-m-1, där K = antalet kategorier m = antalet skattade parametrar 8

Ex. (NCT Ex. 16.): Vi har 6 textblock (ungefär lika långa) från ett visst dokument. För varje textblock räknar vi hur många gånger ordet may förekommer. Data: Antal förekomster 0 1 3 el. fler Obs. antal 156 63 9 14 Vi vill testa om antalet förekomster av ordet may i ett textblock följer en Poissonfördelning. Poissonfördelningens sannolikhetsfunktion är P( x) λ x e λ = (x = 0, 1,, ) x! och dess medelvärde är: µ = λ. Detta medelvärde skattas nu med stickprovets medelvärde, och vi får x x K x 6 ˆ 1 6 = x = = λ 0,66 Vi sätter sedan in detta skattade parametervärde i sannolikhetsfunktionen ovan. 9

Hypoteser: H 0 : Stickprovet kommer från en Poissonfördelning. H 1 : Stickprovet kommer inte från en Poissonfördelning. Sign.-nivå: 1% Testvariabel: χ ) ( Oi = Ei E i Frihetsgrader: K-m-1 = 4-1-1 = Beslutsregel: H 0 förkastas om vi får χ obs > 9,1. Resultat: Antal förekomster Obs. antal P(x λ=0,66) Förv. antal 0 156 0,5169 135,4 1 63 0,341 89,4 9 0,116 9,5 3 el. fler 14 0,093 7,7 Totalt 6 1,0000 6,0 10

χ obs = (156 135,4) 135,4 (63 89,4) 89,4 (9 9,5) 9,5 (14 7,7) 7,7 = 16,08 > 9,1 Nollhypotesen, att stickprovet kommer från en Poissonfördelning, förkastas på 1% signifikansnivå. OBS Avsnittet A Test of Normality (sid. 619-61) utgår. 11