10. Konfidensintervall vid två oberoende stickprov

TNG006 F0-05-06 Konfidensintervall för linjärkombinationer 0. Konfidensintervall vid två oberoende stikprov Antag att X, X,..., X m är ett stikprov på N(µ, σ ) oh att Y, Y,..., Y n är ett stikprov på N(µ, σ ). Antag vidare att stikproven är oberoende av varandra. Nedan ska vi bestämma ett konfidensintervall för linjärkombinationen µ + µ. Vi kommer att ta upp två fall. Det första oh enklaste är då σ oh σ är kända. Det andra är då σ oh σ är okända men lika, dvs σ = σ. 0.. Konfidensintervall för µ + µ då σ oh σ är kända Vi vet sen tidigare att X = m X j N(µ, σ / m) m oh Ȳ = n j= n Y j N(µ, σ / n). j= samt att linjärkombinationen är normalfördelat s.v. med X + Ȳ. väntevärdet E( X + Ȳ ) = E( X) + E(Ȳ ) = µ + µ.. variansen V ( X + Ȳ ) = V ( X) + V (Ȳ ) = σ /m + σ /n. Vi bildar en ny s.v. ( X + Ȳ ) ( µ + µ ) σ /m + σ /n N(0, ). Om vi söker ett intervall med konfidensgraden α, så kan vi ur tabellen för N(0, ) hitta kvantilen λ α/, så att ( P λ α/ ( X + Ȳ ) ( µ + µ ) ) σ /m + σ /n λ α/ = α. Vi säger då att I µ + µ = x + ȳ λ σ α/ m + σ n, x + ȳ + λ σ α/ m + σ ], n är ett tvåsidigt konfidensintervall för µ + µ med konfidensgraden α.

Exempel 0.. Vi har följande oberoende observationer från N(µ, 4) 47.6 55.6 5.3 46. 54.9 samt följande oberoende observationer från N(µ, 9) 9. 47.8 30.9 37.7 7.9 40. 4.5 40.9 Bestäm ett 95% tvåsidigt konfidensintervall för µ µ. Lösning:

0.. Konfidenintervall för µ + µ då σ oh σ är okända Den tidigare bildade s.v. ( X + Ȳ ) ( µ + µ ) σ /m + σ /n N(0, ) duger inte nu då σ oh σ är okända. Låt oss anta att Då är linjärkombinationen normalfördelat med σ = σ = σ. X + Ȳ. väntevärdet E( X + Ȳ ) = E( X) + E(Ȳ ) = µ + µ.. variansen V ( X + Ȳ ) = V ( X) + V (Ȳ ) = σ /m + σ /n = σ ( /m + /n). Detta medför att s.v. ( X + Ȳ ) ( µ + µ ) σ /m + /n N(0, ). Vi ersätter nu σ med den sammanvägda stikprovs standardavvikelsen (m )s s = + (n )s, m + n där vi har använt stikprovens varianser s = m Vi bildar nu en ny s.v m j= (X j X) oh s = n n (Y j Ȳ ). j= ( X + Ȳ ) ( µ + µ ) s /m + /n t(m + n ). Ur tabell kan vi hitta kvantilen t α (m + n ), så att med sannolikheten α gäller dvs I µ + µ = t α/ (m + n ) ( x + ȳ) ( µ + µ ) s /m + /n t α/ (m + n ), x+ ȳ t α/ (m+n ) s m + n, x+ ȳ +t α/ (m+n ) s m + ] n är ett tvåsidigt konfidensintervall för µ + µ med konfidensgraden α. 3

Exempel 0.. Vikten av en tillverkad produkt A antas vara N(µ, σ). Följande värden är oberoende observationer på vikten för produkten A: 47.6 55.6 5.3 46. 54.9 Vikten av en annan tillverkad produkt B antas vara N(µ, σ). Följande värden är oberoende observationer på vikten för produkten B: 9. 47.8 30.9 37.7 7.9 40. 4.5 40.9 Bestäm ett 95% tvåsidigt konfidensintervall för µ µ, dvs för den genomsnittliga skillnaden i vikt mellan produkt A oh produkt B. Lösning: 4

0.3. Konfidensintervall vid observationer i par Exemplet ovan beskriver situationen då två personer Linnéa oh Linus utför m = 5 respektive n = 8 mätningar på vikten hos en produkt. Stikproven var oberoende N(µ, σ ) respektive N(µ, σ ) oh vi kunde då studera den systematiska skillnaden µ µ mellan mätvärdena. Nedan ska vi studera situationen då Linnéa oh Linus utför en mätning var på vikten hos n olika produkter, Personer Objekt n Linnéa x x x n Linus y y y n Preis som tidigare är dessa två serier av mätvärden, men den tidigare modellen är oanvändbar, eftersom skillnader kan föreligga mellan objekten, oavsett om det föreligger skillnader mellan Linnéa oh Linus eller ej. Observationerna hänger ihop parvis från samma produkt. Antag att värdet x j för den j:te produkten kommer från en N(µ j, σ ) oh y j kommer från en annan fördelning N(µ j +, σ ). Vi har då okända parametrar µ, µ,..., µ n, σ, σ oh. Genom att bilda differenserna får vi z = y x, z = y x,..., z n = y n x n,. väntevärdet E(z j ) = E(y j x j ) = E(y j ) E(x j ) =.. variansen V (z j ) = V (y j x j ) = V (y j ) + ( ) V (x j ) = σ + σ. Alltså är z j N(, σ), där σ = σ + σ, oh de okända parametrar har därmed reduerts till enbart oh σ. Fallet med ett stikprov av oberoende z, z,..., z n som kommer från N(, σ) med okända oh σ har vi redan behandlat. Där har vi visat att om s är stikprovets standardavikelse s = n (z j z) n, j= så är I = z t α/ (n ) s n, z + t α/ (n ) s n ], ett konfidensintervall för med konfidensgraden α. 5

Exempel 0.3. Vid en studie vill man undersöka om ett visst preparat har någon effekt på järnbrist. I studien ingik nio personer på vilka järnhalten (i viss enhet) mättes vid studiens start samt efter tre vekors behandling med preparatet. Person nr: 3 4 5 6 7 8 9 Ursprungligt värde 5.8. 8. 9.4.8 6.6 3.7 3.5 7.5 x j Värde efter behandling 4.8.4 8.3 9.5. 5.6 3.4 4.4 6.0 y j Bestäm ett 95%- konfidensintervall för den genomsnittliga effekten av behandlingen. Lösning: 6

0.4. Konfidensintervall via normalapproximation Exempel 0.4. Ur en population väljes 400 personer slumpmässigt. Av dessa har 80 åsikten A. Bestäm ett 95% approximativt intervall för andelen p av populationen som har åsikten A. Lösning: 7

Exempel 0.5. Företaget Areo vill jämföra tillverkningstiden för två olika tillverkningsmetoder A oh B för en viss typ av kretskort. Tabellen nedan ger 7 tider med metod A oh 6 tider med metod B: A : 7 34 3 4 9 39 B : 6 66 65 67 64 7 Antag att tiderna utgör stikprov på N(µ A, σ) resp. N(µ B, σ) oh att stikproven är oberoende. Beräkna ett 95%-igt konfidensintervall för µ A µ B. Lösning: Om Xoh Y är tiderna för metod A resp. metod B, så är X N(µ A, σ) resp. Y N(µ B, σ). För linjärkombinationen X Ȳ gäller att samt att E( X Ȳ ) = µ A µ B V ( X Ȳ ) = V ( X) + ( ) V (Ȳ ) = σ /7 + 4σ /6 = σ (/7 + 4/6). Vi bildar nu s.v. ( X Ȳ ) (µ A µ B ) s 7 + 4 6 t(7 + 6 ), där s = 6s A + 5s B är den sammanvägda σ -skattningen. Eftersom s = 5.4 oh t 0.05 () =., så är I µa µ B = x ȳ ± t 0.05 ()s 7 + 4 ] = 0.9, 0.6] 6 ett 95%-igt konfidensintervall för µ A µ B. Eftersom konfidensintervallet I µa µ B täker 0 kan vi med felrisk 5% påstå att metod B är mer dubbel så snabb som B. Exempel 0.6. Man vill jämföra söktiden (µs) för två olika sökmotorer A oh B. Tabellen nedan ger 6 tider med sökmotor A oh 5 tider med sökmotor B: A :.7 3.. 0. 4..7 B :.8 3.4.9.5 3.9 Antag att tiderna utgör stikprov på N(µ A, σ) resp. N(µ B, σ) oh att stikproven är oberoende.. Beräkna ett 99% konfidensintervall för µ A µ B.. Antag nu att σ är känt oh att σ =.3. Om man önskar ett tvåsidigt 99% konfidensintervall för µ A µ B vars längd är högst hur stora stikprov måste då tas på tiderna för A resp. B? Lösning: a) Om Xoh Y är tiderna för sökmotor A resp. sökmotor B, så är X N(µ A, σ) resp. Y N(µ B, σ). För linjärkombinationen X Ȳ gäller att E( X Ȳ ) = µ A µ B 8

samt att V ( X Ȳ ) = V ( X) + ( ) V (Ȳ ) = σ /6 + σ /5 = σ (/6 + /5). Vi bildar nu s.v. ( X Ȳ ) (µ A µ B ) s 6 + 5 t(6 + 5 ), där s = 5s A + 4s B är den sammanvägda σ -skattningen. Eftersom s =. oh t 0.005 (9) = 9 3.5, så är I µa µ B = x ȳ ± t 0.005 (9) s 7 + ] =.9,.8] 6 ett 99%-igt konfidensintervall för µ A µ B. b) Eftersom σ är känt så är Z = ( X Ȳ ) (µ A µ B ) N(0, ) oh P (.58 Z s 6 + 5.58) = 0.99. Vi väljer lika stora stikprov med storleken n. Längden av konfidensintervallet blir.58.3 n + n = 9.49. n Vi väljer n så att dvs vi väljer n = 3. 9.49 n n.5, Exempel 0.7. Vid intervjuer med personer slumpmässigt valda ur en stor population visade sig 50 ha en viss åsikt A. Låt p vara andelen i hela populationen som har åsikten A.. Beräkna ett 95% konfidensintervall för p.. Uppskatta hur många personer som måste intervjuas för att intervallet skall bli hälften så brett som det i a). Lösning: Låt händelsen A= en tillfrågad person har åsikten A. Om X = antalet personer av åsikten A, så är X Bin(, p). Vi antar att p är sådant att p( p) 0. Enligt CGS så är X därmed approximativt N(p, p( p)). Betrakta punktskattningen ˆp = X med avseende på p. Då är oh ( ) E(ˆp) = E X = E(X) = p = p, ( ) V (ˆp) = V X = E(X) = p( p) = p( p), 9

( p( p) ) så att ˆp aproximativt N p, oh ˆp p N(0, ). p( p) p( p) ˆp( ˆp) Eftersom p är okänt skattar vi med. Som observerat punktskattning med avseende på p tar vi ˆp obs = 50 = 0.7. Detta ger att ˆpobs ( ˆp obs ) ˆpobs ( ˆp obs ) ] I p = ˆp obs.96, ˆp obs +.96 = 0., 0.] ett approximativt konfidensintervall för p med konfidensgraden 0.95. Låt n vara antal interjuvade personer. Då har konfidensintervallet approximativt längd 0.7 0.83.96 Denna längd skall vara hälften av det tidigare intervallets längd. Alltså n n = 68. 0

Exempel 0.8. Vi har följande oberoende observationer från N(µ, 4) 47.6 55.6 5.3 46. 54.9 samt följande oberoende observationer från N(µ, 9) 9. 47.8 30.9 37.7 7.9 40. 4.5 40.9 Bestäm ett 95% tvåsidigt konfidensintervall för µ µ. Lösning: Vi vill bestämma ett konfidensintervall för µ µ med konfidengraden 0.95. Betrakta därför punktskattningen som har X Ȳ = 5 5 X j 8 j= 8 j=. väntevärdet E( X Ȳ ) = E( X) E(Ȳ ) = µ µ.. variansen V ( X Ȳ ) = V ( X) + ( ) V (Ȳ ) = σ /5 + 4σ /8. Alltså är den s.v. X Ȳ N(µ µ, D), där D = σ /5 + 4σ /8. Vi bildar den s.v. Y j ( X Ȳ ) (µ µ ) D N(0, ). Ur tabellen för N(0, ) hittar vi kvantilen λ 0.05 =.96, så att P (( X Ȳ ).96D µ µ ( X Ȳ ) +.96D) = 0.95. Med x = 5., ȳ = 37.0 oh D = σ /5 + 4σ /8 = 4 /5 + 4 9 /8 = 6.6 får vi I µ µ = x ȳ.96d, x ȳ +.96D] = 5. 37.96 6.6, 5. 37 +.96 6.6] = 35.8, 9.9] ett tvåsidigt konfidensintervall för µ µ med konfidensgraden 0.95.

Exempel 0.9. Vikten av en tillverkad produkt A antas vara N(µ, σ). Följande värden är oberoende observationer på vikten för produkten A: 47.6 55.6 5.3 46. 54.9 Vikten av en annan tillverkad produkt B antas vara N(µ, σ). Följande värden är oberoende observationer på vikten för produkten B: 9. 47.8 30.9 37.7 7.9 40. 4.5 40.9 Bestäm ett 95% tvåsidigt konfidensintervall för µ µ, dvs för den genomsnittliga skillnaden i vikt mellan produkt A oh produkt B. Lösning: Vi vill bestämma ett konfidensintervall för µ µ med konfidengraden 0.95. Betrakta därför punktskattningen X Ȳ = 5 X j 8 Y j 5 8 som har j= j=. väntevärdet E( X Ȳ ) = E( X) E(Ȳ ) = µ µ.. variansen V ( X Ȳ ) = V ( X) + ( ) V (Ȳ ) = σ /5 + σ /8 = σ ( 5 + ). 8 Alltså är den s.v. X (µ Ȳ N µ, σ 5 + ) ( X Ȳ ) (µ µ ) N(0, ). 8 σ 5 + 8 Eftersom σ är okänt ersätts den med den sammanvägda stikprovets standardavikelsen (5 )s s = + (8 )s, 5 + 8 där Vi bildar därför s.v. s = 4 5 (X j X) oh s = 7 j= 8 (Y j Ȳ ). j= ( X Ȳ ) (µ µ ) t(5 + 8 ). s 5 + 8 Ur tabellen för t-fördelningen hittar vi kvantilen t 0.05 () =.0, så att ( P ( X Ȳ ).0s 5 + 8 µ µ ( X Ȳ ) +.0s 5 + ) = 0.95. 8 (5 )8 + (8 )49 Med x = 5., ȳ = 37.0 oh s obs = = 6.4 får vi I µ µ = x ȳ.s obs 5 + 8, x ȳ +.s obs 5 + ] 8 = 5. 37. 3.5, 5. 37 +. 3.5] = 6.4,.8] ett tvåsidigt konfidensintervall för µ µ med konfidensgraden 0.95.

Exempel 0.0. Vid en studie vill man undersöka om ett visst preparat har någon effekt på järnbrist. I studien ingik nio personer på vilka järnhalten (i viss enhet) mättes vid studiens start samt efter tre vekors behandling med preparatet. Person nr: 3 4 5 6 7 8 9 Ursprungligt värde 5.8. 8. 9.4.8 6.6 3.7 3.5 7.5 x j Värde efter behandling 4.8.4 8.3 9.5. 5.6 3.4 4.4 6.0 y j Bestäm ett 95%- konfidensintervall för den genomsnittliga effekten av behandlingen. Lösning: Låt x j = värdet före för person j oh y j = värdet efter för person j. Då är x j N(µ j, σ ) oh y j N(µ j +, σ ), där µ, µ,..., µ n, σ, σ oh är okända parametrar. Vi bildar differenserna z j = y j x j. Då är oh så är E(z j ) = E(y j x j ) = E(y j ) E(x j ) = V (z j ) = V (y j x j ) = V (y j ) + ( ) V (x j ) = σ + σ, z j N(, σ + σ ), j =,,..., 9, ett stikprov där anger den okända genomsnittliga effekten av behandlingen. Bilda s.v. Eftersom z = 9 I = Person nr: 3 4 5 6 7 8 9 Differensen.0 0.3 0. 0. 0.4.0 0.3 0.9.5 z j z j s/ 9 t(8). 9 z j = 0. oh s = 8 (z j z) 8 = 0.79, så är j= j= z t 0.05 (8) s, z+t 0.05 (8) s ] = 0..3 0.79 ] 9 9 3, 0.+.30.79 = 0.83, 0.39] 3 ett konfidensintervall för med konfidensgraden 0.95. 3