Stat. teori gk, ht 006, JW F1 χ -TEST (NCT 16.1-16.) Ordlista till NCT Goodness-of-fit-test χ, chi-square Test av anpassning χ, chi-två Test av anpassning: sannolikheter specificerade i förväg Data: n observationer klassificerade i K olika kategorier: Kategori Antal obs. 1 O 1 O M M K O K Totalt n O i = antal observationer i kategori i (i = 1,,, K) 1
Låt P i = sannolikheten att få en observation i K kategori i ( = P = i 1 i 1). Kategori Antal obs. Sannolikhet Förväntat antal obs. 1 O 1 P 1 np 1 O P np M M M M K O K P K np K Totalt n 1 n Sannolikheterna P 1, P,, P K är nu okända, och vi vill pröva nollhypotesen att de har vissa bestämda numeriska värden: H 0 : P 1 =P 10, P =P 0,, P K =P K0 Mothypotesen är att H 0 inte gäller, dvs. att inte alla sannolikheterna har de i H 0 givna värdena.
Vi använder ett χ -test med testvariabeln: χ = K ( Oi i) i= 1 E E i där O i = observerat antal i kategori i E i = n P i0 = förväntat antal under H 0 När H 0 är sann, så är testvariabeln approximativt χ -fördelad med K-1 fg, ifall antalet observationer är tillräckligt stort. Tumregel enl. NCT: Det förväntade antalet, E i = np i0, måste vara 5 för alla kategorier. (Om så inte är fallet, brukar man ibland slå ihop kategorier.) Stora skillnader mellan observerat och förväntat antal ger höga värden på testvariabeln. Vi förkastar därför H 0, om (och endast om) vi får extremt höga värden på testvariabeln. Kritiskt värde (från Tabell 7) bestäms av önskad signifikansnivå och av antal frihetsgrader. 3
Ex.: En produkt tillverkas i fyra färger. Man vill undersöka om vissa av färgerna föredras framför de övriga. Ett slumpmässigt urval av 80 presumtiva konsumenter tillfrågas om vilken färg de föredrar, och följande data erhålls: Färg 1 3 4 Totalt Antal 1 40 8 0 80 Nollhypotesen är att alla färgerna är lika populära, dvs. att vi har lika stor slh att i urvalet få en person som föredrar färg 1 som att få en person som föredrar färg etc. Dvs. Hypoteser: H 0 : P 1 = P = P 3 = P 4 = 0,5 H 1 : Ej alla slh lika med 0,5 Sign.-nivå: 5% Testvariabel: ( Oi = Ei ) χ (K-1 = 3 fg) E i Beslutsregel: H 0 förkastas om χ obs > 7,81. 4
Resultat: Färg Obs. antal Sannolikhet enl. H 0 Förv. antal enl. H 0 1 1 0,5 80 0,5 = 0 40 0,5 80 0,5 = 0 3 8 0,5 80 0,5 = 0 4 0 0,5 80 0,5 = 0 Totalt 80 1 80 χ obs = (1 0) 0 (40 0) 0 (8 0) 0 (0 0) 0 = 30,400 > 7,81 H 0 förkastas på 5% signifikansnivå. Signifikant skillnad i popularitet mellan olika färger. 5
Ex.: A, B och C är tre konkurrerande produkter av samma typ. Under en längre tid har 30% av kunderna efterfrågat produkt A, 50% produkt B, och 0% produkt C. Nyligen har produkt C genomgått en förändring, och man vill veta om produkternas marknadsandelar därigenom har förändrats. Vid en marknadsundersökning av 00 kunder fann man att 48 nu sade sig föredra produkt A, 98 produkt B, och 54 produkt C. Vilken slutsats kan vi dra? Vi tänker oss att de 00 tillfrågade kan ses som ett slumpmässigt urval från populationen av kunder. Hypoteser: H 0 : P A = 0,3; P B = 0,5; P C = 0, H 1 : Det gäller inte att P A = 0,3; P B = 0,5; P C = 0, Sign.-nivå: 5% Testvariabel: ( Oi = Ei ) χ (K-1 = fg) E i Beslutsregel: H 0 förkastas om χ obs > 5,99. 6
Resultat: Prod. Obs. antal Sannolikhet enl. H 0 Förv. antal enl. H 0 A 48 0,3 00 0,3 = 60 B 98 0,5 00 0,5 = 100 C 54 0, 00 0, = 40 Tot. 00 1,0 00 χ obs = (48 60) 60 (98 100) 100 (54 40) 40 =,40 0,04 4,90 = 7,34 > 5,99 H 0 förkastas på 5% signifikansnivå. Vi tror att förändringen av produkt C medfört en ändring av marknadsandelarna. OBS 1. Avrunda inte de förväntade antalen. Om de förväntade antalen inte blir heltal, så ta med någon eller några decimaler i beräkningarna. OBS. O i och E i står för observerat och förväntat antal, inte procenttal. 7
Test av anpassning: fördelning med skattade parametrar Säg att vi vill testa om våra data kan ses som ett stickprov från en viss typ av fördelning, t.ex. en Poissonfördelning, utan att vi i förväg har specificerat något bestämt parametervärde. Testet går till på liknande sätt som χ -testet i föregående avsnitt. Skillnaden är att vi nu måste beräkna ett skattat parametervärde utifrån våra data. Med hjälp av detta får vi sedan det förväntade antalet observationer (under H 0 ) i olika kategorier. Antalet frihetsgrader är nu K-m-1, där K = antalet kategorier m = antalet skattade parametrar 8
Ex. (NCT Ex. 16.): Vi har 6 textblock (ungefär lika långa) från ett visst dokument. För varje textblock räknar vi hur många gånger ordet may förekommer. Data: Antal förekomster 0 1 3 el. fler Obs. antal 156 63 9 14 Vi vill testa om antalet förekomster av ordet may i ett textblock följer en Poissonfördelning. Poissonfördelningens sannolikhetsfunktion är P( x) λ x e λ = (x = 0, 1,, ) x! och dess medelvärde är: µ = λ. Detta medelvärde skattas nu med stickprovets medelvärde, och vi får x x K x 6 ˆ 1 6 = x = = λ 0,66 Vi sätter sedan in detta skattade parametervärde i sannolikhetsfunktionen ovan. 9
Hypoteser: H 0 : Stickprovet kommer från en Poissonfördelning. H 1 : Stickprovet kommer inte från en Poissonfördelning. Sign.-nivå: 1% Testvariabel: χ ) ( Oi = Ei E i Frihetsgrader: K-m-1 = 4-1-1 = Beslutsregel: H 0 förkastas om vi får χ obs > 9,1. Resultat: Antal förekomster Obs. antal P(x λ=0,66) Förv. antal 0 156 0,5169 135,4 1 63 0,341 89,4 9 0,116 9,5 3 el. fler 14 0,093 7,7 Totalt 6 1,0000 6,0 10
χ obs = (156 135,4) 135,4 (63 89,4) 89,4 (9 9,5) 9,5 (14 7,7) 7,7 = 16,08 > 9,1 Nollhypotesen, att stickprovet kommer från en Poissonfördelning, förkastas på 1% signifikansnivå. OBS Avsnittet A Test of Normality (sid. 619-61) utgår. 11