SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1915 Sannolikhetsteori och statistik 6 hp Föreläsning 12 χ 2 -test Jörgen Säve-Söderbergh

Anpassningstest test av given fördelning n oberoende försök med r möjliga olika utfall Händelse A 1 A 2... A r Antal x 1 x 2... x r P (A 1 ) P (A 2 )... P (A r ) P (A 1 ) + P (A 2 ) + + P (A r ) = 1 x 1 + x 2 + + x r = n x 1 är ett utfall av X 1 x r är ett utfall av X r (X 1, X 2,..., X r ) multinomialfördelad s.v.

Anpassningstest test av given fördelning H 0 : P (A 1 ) = p 1, P (A 2 ) = p 2,..., P (A r ) = p r p 1 + p 2 + + p r = 1 Varje X j Bin (n, p j ) E (X j ) = np j I varje cell (för varje händelse A j ) beräknar vi det s k χ 2 -avståndet (x j np j ) 2 np j = (Observerad frekvens förväntad frekvens under H 0) 2 förväntad frekvens under H 0

Anpassningstest test av given fördelning Om H 0 är sann gäller att Q obs = r (x j np j ) 2 j=1 np j är approximativt χ 2 (r 1)-fördelad, då n. Signifikanstest Förkasta H 0, om Q obs > χ 2 α (r 1) Förkasta ej H 0, om Q obs χ 2 α (r 1) Vi bör ha np j 5 för att kunna garantera att signifikansnivån är α.

Beräkningsformel för anpassningstest Vi kan skriva om testvariabeln r (x j np j ) 2 Q obs = np j j=1 till Q obs = r j=1 x 2 j np j n

Exempel anpassningstest Väljer bilförare att köra i vilken fil som helst på en fyrfilig motorväg? Etttusen bilar observerades. Fil 1 2 3 4 Antal bilar 294 276 238 192 Testa på nivån 5% att bilförarna använder vilken som helst fil.

Anpassningstest test av fördelning med skattade parametrar H 0 : P (A 1 ) = p 1 (θ), P (A 2 ) = p 2 (θ),..., P (A r ) = p r (θ) för något θ. Vi skattar θ med ML och substituerar p j (θ obs ) = p j Om H 0 är sann gäller att Q obs = r j=1 ( ) 2 x j npj np j är approximativt χ 2 (r k 1)-fördelad, då n. k=antalet skattade parametrar Tumregel np j 5.

Anpassningstest test av fördelning med skattade parametrar test av normalfördelning Vi ska använda det mer generella testet för att utföra ett test av normalfördelning X N (µ, σ). Då kommer sannolikheterna P (A i ) = p i (θ) att bero på normalfördelningens två parametrar. θ = (µ, σ)

Exempel n = 90 observationer. min = 274 J orgen S ave-s oderbergh y = 511.633 th Sunday 7 October, 2018 s = 87.576 CMAST3 max = 672 H ostterminen 2018

Anpassningstest test av fördelning med skattade parametrar test av normalfördelning y 1, y 2,..., y n är observationer på den stokastiska variabeln Y. Dela upp Y :s variationsområde {y : < y < } i k ömsesidigt uteslutande mängder A 1, A 2,..., A k. Låt H 0 : Y N (µ, σ). P (A i ) = p i (µ, σ) = ] (w µ)2 exp [ 2πσ 2σ 2 dw A i 1 en funktion av de okända parametrarna µ och σ.

Anpassningstest test av fördelning med skattade parametrar test av normalfördelning x i är frekvensen av y i som befinner sig i A i Vi skattar µ med y. Vi skattar σ med s. pi (µ, σ) = ] (w y)2 exp [ 2π s 2 s 2 dw A i 1 N (511.633, 87.576)

Anpassningstest test av f ordelning med skattade parametrar test av normalf ordelning J orgen S ave-s oderbergh Sunday 7th October, 2018 CMAST3 H ostterminen 2018

Anpassningstest test av fördelning med skattade parametrar test av normalfördelning Med detta val av klasserna A i blir varje p i = 1 10 Förväntade frekvenser np i = 90 1 10 = 9 np i = 9 > 5 tumregeln uppfylld.

Anpassningstest test av fördelning med skattade parametrar test av normalfördelning

Anpassningstest test av fördelning med skattade parametrar test av normalfördelning q = (x i np i ) 2 np i = (10 9)2 9 = 1 9 Vi har skattat två parametrar, så k = 2. r k 1 = 10 2 1 = 7 frihetsgrader Eftersom 4.44 < 14.07 = χ 2 0.05 (7) kan vi ej förkasta H 0. Det är alltså möjligt att fördelningen för Y är normalfördelningen.

Anpassningstest test av fördelning med skattade parametrar test av normalfördelning

Homogenitesttest Flera serier av oberoende försök. Är det samma sannolikheter P (A 1 ), P (A 2 ),..., P (A r ) som ligger bakom samtliga serier? Är de homogena? H 0 sannolikheterna är lika.

Homogenitesttest s serier av försök. H 0 sannolikheterna är lika. Serie A 1 A 2... A r Antal försök 1 x 11 x 12... x 1r n 1 2 x 21 x 22... x 2r n 2. s x s1 x s2... x sr n s Summa x 1 x 2... x r n x ij = x försök i,utfall nr j Q obs = s r i=1 j=1 ( ) 2 x ij n i pj n i p j p j = (p j ) obs = x j n

Homogenitesttest p j = (p j ) obs = x j n Bästa skattningen av det gemensamma P (A j )-värdet som vi kan göra med de sammanlagda observationerna. Homogenitetstest Förkasta hypotesen om homogenitet, om Q obs > χ 2 (r 1) (s 1) Tumregel n i p j 5.

Exempel Homogenitesttest Tre maskiner M 1, M 2 och M 3. Varje tillverkas enhet kan klassificeras som bra, halvbra (kan räddas) eller oanvändbar. Tre stickprov om 110, 90 respektive 200 uttas. Ger de tre maskinerna M 1, M 2 och M 3 samma fördelning på kvaliteten hos de tillverkade enheterna? Bra Halvbra Dåliga M 1 73 26 11 M 2 65 18 7 M 3 166 16 18 Undersök med ett χ 2 -test om M 1, M 2 och M 3 ger samma fördelning på kvaliteten hos de tillverkade enheterna.

Oberoendetest Homogenitetstest innebär att vi jämför flera populationer. (Varje serie är observationer på en population). I oberoendetest har vi en population som har delats av slumpen i två eller flera kategorier. (Blom talar om egenskaper). Utför n slumpmässiga försök. Den första egenskapen har delats in i s ömsesidigt uteslutande kategorier B 1, B 2,..., B s. Den andra egenskapen har delats in i r ömsesidigt uteslutande kategorier A 1, A 2,..., A r. Sannolikheten att inneha två kategorier B i A j betecknas p ij = P (B i A j ), i = 1, 2,..., s, j = 1, 2,..., r.

Oberoendetest Låt x ij beteckna frekvensen för B i A j. B i A j ) s r i=1 j=1 x ij = n (sr händelser som s r i=1 j=1 p ij = 1. Om A j ska inträffa, måste någon av händelserna B 1 A j, B 2 A j,..., B s A j inträffa P (A j ) = p.j = s i=1 p ij På samma sätt B i om och endast om någon av B i A 1, B i A 2,..., B i A r r P (B i ) = p i. = i=1 p ij

Oberoendetest Vi måste skatta sannolikheterna p.j och p i. p.j = s i=1 x ij n = x r.j n och pi. = j=1 x ij n = x i. n

Oberoendetest Vi önskar testa om egenskaperna A och B är oberoende H 0 : p ij = P (B i A j ) = P (B i ) P (A j ) = p i. p.j, för alla (i, j) mot alternativet H 1 : p ij p i. p.j, för något (i, j). Testvariabel är Q obs = s r (x ij npi. p.j )2 np i=1 j=1 i. p.j som är approximativt χ 2 -fördelad med (r 1) (s 1) frihetsgrader, om n är stort. Tumregel np i. p.j 5

Oberoendetest För beräkning np i. p.j = n ( x i. n ) ( x.j ) x n = i. x.j n Vi börjar med att beräkna rad- och kolumntotaler för att kunna använda formeln ovan.

Oberoendetest Exempel Fyrahundra studenter vid University of Iowa studerades. Studenterna klassificerades efter vilket college de studerade vid, samt efter kön. Business Engineering Liberal Arts Nursing Pharmacy Total Man 21 16 145 2 6 190 Kvinna 14 4 175 13 4 210 Total 35 20 320 15 10 400 Testa på 5% signifikansnivå om valet av studieinriktning är oberoende av kön.