TENTAMEN I SF950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 010 KL 14.00 19.00 Examinator : Gunnar Englund, tel. 790 7416, epost: gunnare@math.kth.se Tillåtna hjälpmedel: Formel- och tabellsamling i matematisk statistik. Formel- och tabellsamling i TMS. Miniräknare. Resultatet meddelas senast 3 veckor efter skrivningstillfället via Mina sidor. Den som vill få resultatet meddelat med e-post, kan skicka ett mejl till gunnare@math.kth.se med begäran om detta. Införda beteckningar skall definieras. Resonemang och genomförande av uträkningar skall vara så utförliga att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Varje korrekt lösning ger 10 poäng. Gränsen för godkänt är för 0 poäng. Tentamensskrivningarna kommer att finnas tillgängliga på studentexpeditionen till 6 veckor efter tentamen. Uppgifterna är inte medvetet ordnade efter växande svårighetsgrad utan efter ämnesområde. Uppgift 1 a) För att skatta totalkostnaden av underhåll och reparationer av bilar under en viss period, indelades bilverkstäderna i fem strata efter storlek. Ur varje stratum valde man slumpmässigt ut 0 verkstäder, undersökte kostnaderna under perioden och erhöll data enligt tabellen. Stratum 1 3 4 5 Totalt antal verkstäder 1100 400 300 140 60 Medelkostnaden/verkstad i urvalet (Mkr) 0.4 0.7 1 5 7 Standardavvikelse s i i urvalet (Mkr) 0.1 0. 0.3 1.5 Ge ett approximativt 95 % konfidensintervall för totala bilreparationskostnaden i hela populationen under den angivna tidsperioden. (5 p) b) Två framkallningsvätskor jämfördes avseende svärtningsgraden på exponerad film. Två prov togs vid vardera av 8 exponeringstider, och ett av proven framkallades med vätska 1, det andra med vätska. Alla observationer uppfattas som utfall av oberoende stokastiska variabler. Följande resultat erhölls: Exponeringstid/: 1 3 4 5 6 7 8 Svärningagrad Vätska nr 1: 10.15 1.8 15.53 18.63 0.4 5.17 30.05 36.58 Vätska nr : 9.80 1.55 15.45 18.50 0.00 5.10 9.80 36.50
forts tentamen i SF950 FD 5B1550 10 06 03 Man kan inte anta att observationerna är normalfördelade. Man antar att medianerna i de fördelningar som observationerna kommer ifrån är m i för vätska, exponeringstid i och m i + för vätska 1, exponeringstid i. Variationen kring medianen beskrivs av en och samma fördelning och observationerna antas vara oberoende. Testa med hjälp av något lämpligt fördelningsfritt test, på signifikansnivån 5 %, hypotesen H 0 : = 0. mot alternativet H 1 : 0.. (5 p) Uppgift D C θ 3 θ B O θ 1 A 105 Vinklarna i ovanstående figur mättes med ett instrument utan systematiskt fel, dvs en mätning av en vinkel θ har väntevärdet θ. Mätningarna är normalfördelade med gemensam varians σ. Mätt vinkel Mätresultat ( o ) θ 1 10.1 10.3 θ 1 +θ 40.6 40.4 40.5 θ 1 +θ +θ 3 360.3 360.7 a) Ställ upp en lämplig statistisk modell och skatta θ 1,θ och θ 3 samt variansen σ. Ledning: Lämplig parametrisering leder till enkla räkningar. (5 p) b) Testa hypotesen att vinklarna är lika. 5 % signifikansnivå. (5 p) Uppgift 3 Vid ett s.k. ringtest skulle man jämföra fyra laboratorier (B 1,B,B 3 och B 4 ) med varandra. Defick mäta halten av ett visst enzym i tre stycken prover (A 1,A, och A 3 ). Data ( i lämplig enhet): B 1 B B 3 B 4 ȳ i. A 1 6.43 7.36 7.03 6. 6.76 A 9.35 9.86 9.08 9.7 9.39 A 3 6.03 6.90 6.69 6.50 6.53 ȳ.j 7.7 8.04 7.60 7.33 ȳ.. = 7.56 i j y ij = 707.6. Man antar att det kan finnas systematiska skillnader mellan laboratorierna, men att dessa skillnader i så fall är desamma för alla prov. a) Följande kvadratsummor beräknades
forts tentamen i SF950 FD 5B1550 10 06 03 3 Mellan prov 0.199 Mellan laboratorier 1.1070 Totalt 1.7790 Man misstänkte redan från början att det inte skulle föreligga någon skillnad mellan prov A 1 och prov A 3. Testa denna förmodan på lämpligt sätt. 5 % signifikansnivå. (4 p) b) I den ursprungliga modellen (ej reducerad), testa hypotesen att laboratorierna ej skiljer sig åt. 5 % signifikansnivå. ( p) c) Om man reducerar modellen enligt a), dvs antar att det inte är någon skillnad mellan de två nämnda proven, erhåller man en ny skattning av variansen σ som blir 0.087. Testa i denna reducerade modell hypotesen att laboratorierna inte skiljer sig åt. 5 % signifikansnivå. (4 p) Uppgift 4 Halten färgämne i en viss typ av kakelplattor varierar slumpmässigt från platta till platta men även mellan olika bränningar. Vid ett tillfälle undersöktes två plattor vardera från åtta slumpmässigt valda bränningar. Följande mätvärden (i lämplig enhet) erhölls på halten färgämne. Bränning 1 3 4 5 6 7 8 54 5 37 45 48 51 41 46 5 51 40 47 50 47 39 46 Hjälpsummor: y ij = 746, (yij ȳ.. ) = 393.8. a) Ställ upp en statistisk modell som tar hänsyn både till variationen mellan plattor och mellan bränningar samt testa om variationen mellan bränningar är signifikant skild från 0. (4 p) b) Beräkna ett 95% konfidensintervall för σ, variansen mellan plattor inom en och samma bränning. (3 p) c) Beräkna ett 95% konfidensintervall för medelhalten färgämne µ för kakelplattorna. (3 p)
forts tentamen i SF950 FD 5B1550 10 06 03 4 Uppgift 5 I tabellen nedan redovisas resultatet från ett försök där man varierade fyra faktorer A,B,C och D vardera på två nivåer (kodade som + och ). A B C D Mätdata 71 + 61 + 90 + + 8 + 68 + + 61 + + 87 + + + 80 + 61 + + 50 + + 89 + + + 83 + + 59 + + + 51 + + + 85 + + + + 78 Ur dessa data räknade man fram följande skattningar: Î = 7.5, Â = 4, B = 1, Ĉ = 1.15, D =.75, ÂB = 0.5, ÂC = 0.375, ÂD = 0, BC = 0.65, BD =.5, ĈD = 0.15, ÂBC = 0.375, ÂBD = 0.5, ÂCD = 0.15, BCD = 0.375, ABCD = 0.15. a) Skaffa Dig en skattning av försöksfelsvariansen genom att anta att 3- och 4-faktorsamspelen är försumbara. Beräkna också medelfelet för huvudeffekterna och -faktorsamspelen. (5 p) b) Dra slutsatser om vilka huvudfaktorer och -faktorsamspel som är signifikanta (nivå 5%). (5 p)
LÖSNINGSFÖRSLAG I SF950 TILLÄMPAD MATEMATISK STATISTK 010 06 03 Uppgift 1 a) Relativa stratastorlekar är c 1 = 1100/000 = 0.55,c = 0.,c 3 = 0.15,c 4 = 0.07 och c 5 = 0.03. Stickprovsstorlekar är alla n i = 0. Stratastorlekar N i framgår av uppgiften. Av detta följer att skattning av totalmedelvärdeskostnaden m är m = 0.55 0.4 + 0. 0.7+0.15 1+0.07 5+0.03 7 = 1.07 och att variansen för denna skattning skattas med = 0.0009115.Ett approximativt 95%konfidensintervall förmgesav m ±λ 0.05 s m = 1.07±1.96 0.030 = 1.07±0.059. Ett approximativt 95 % konfidensintervall för totalkostnaden T = 000 m ges således av 140±118 Mkr. s m = 5 i=1 c i ( 1 n i 1 N i )s i b) Dra först värdet 0. från observationerna för vätska 1 och beräkna sedan de parvisa skillnaderna. Vi erhåller 0.15, 0.07, 0.1, 0.07, 0.04, 0.13, 0.05, 0.1. Under förutsättning att hypotesen är sann kommer dessa observationer från en symmetrisk fördelning med median 0 och hypotesen testas lämpligen med wilcoxon ensampeltest. Rangsumman för de negativa observationerna är T = 3.5+5.5+5.5+7 = 1.5. Eftersom testet är tvåsidigt skall vi jämföra med de kritiska värdena 3 och 33. Hypotesen kan ej förkastas. Uppgift Det är lämpligt att sätta µ 1 = θ 1,µ = θ 1 + θ,µ 1 = θ 1 + θ + θ 3. Vi har alltså tre normalfördelade stickprov med gemensam varians och väntevärden µ 1,µ och µ 3, dvs en ensidig variansanalyssituation. Väntevärdena skattas med stickprovsmedelvärden µ 1 = 10., µ = 40.5, µ 3 = 360.5. Variansskattningen blir σ = 1 7 3 i j (y ij ȳ i. ) = (( 0.1) + 0.1 + +(0.) )/4 = 0.03. Vinklarna skattas således med θ 1 = µ 1 = 10., θ = µ µ 1 = 10.3 och θ 3 = µ 3 µ = 10.0. b) Vi använder teorin för den allmänna linjära modellen. Grundmodellen har vi redan betraktat, dess variansskattning blev 0.05. Låt B vara hypotesmodellens designmatris. Vi har endast en parameter θ och B = (1 1 3 3) T. MK-skattningen av θ blir θ = (B T B) 1 B T y = 3846.4/3 = 10.. Kvadratsumman y µ = 0.17. Vi erhåller följande variansanalystabell Fg Kvs Mkvs Avvikelse hypotes 0.050.05 Residual 4 0.1 0.03 Totalt 6 0.17 Testkvot är F = 0.05 0.03 = 0.83 < F 0.05(,4) = 6.94. Hypotesen lika vinklar kan ej förkastas. Modell: Tvåsidig variansanalys utan samspel. a) Vi fullbordar först variansanalystabellen Uppgift 3 Fg Kvs Mkvs Mellan prov 0.199 10.0996 Mellan laboratorier 3 1.1070 0.3690 Residual 6 0.478 0.0788= σ Totalt 11 1.7790
forts tentamen i SF950 FD 5B1550 10 06 03 Bilda nu ett 95 % konfidensintervall för skillnaden. Det ges av ȳ 1. ȳ. ±t 0.05 (6)d(ȳ 1. ȳ. ) där medelfelet d(ȳ 1. ȳ. ) = σ 1/4+1/4. Kvantilen t 0.05 (6)=.45 vilket ger intervallet 0.3 ± 0.49. Ej signifikant. b) F lab = 0.3690/0.0788 = 4.68 < F 0.05 (3,6) = 4.76. Ej signifikant skillnad. c) Använd teorin för allmänna linjära modellen. Grundmodellen är nu den reducerade modellen och minsta-kvadratsumman i denna är variansskattningen 7 = 0.087 7 = 0.5789. Att antalet frihetsgrader är 7 kan t.ex. inses av att den ursprungliga modellen reducerats genom att ett linjärt villkor specificerats och av att den ursprungliga residualkvadratsumman hade 6 frihetsgrader. Hypotesmodellen att laboratorierna ger samma förväntade observationer har nu två parametrar; väntevärdet för prov A 1 och A och väntevärdet för prov A 3. Vi skall därför minimera j (y 1j µ 1 ) + j (y 3j µ 1 ) + j (y j µ ). Man inser lätt att detta ges för µ 1 = (ȳ 1. +ȳ 3. )/ = 6.645 och µ = ȳ. = 9.39. Minstakvadratsumman blir då j y 1j 4 µ 1 + j y 3j 4 µ 1 + j y j 4 µ = i j y ij 8 µ 1 4 µ = 707.6 8 6.645 4 9.39 = 1.6856. Detta ger följande variansanalystabell: Fg Kvs Mkvs Avvikelse hypotes 3 1.1067 0.3690 Residual 7 0.5789 0.087 Totalt 10 1.6856 Att antalet frihetsgrader i totalkvs (hypotesmodellen) är 10 kan t.ex. inses från att vi har 1 observationer och parametrar. F 0.05 (3,7) = 0.369/0.087 = 4.46 > 4.35. Signifikant skillnad mellan laboratorierna. Uppgift 4 a) Modell: Ensidig variansanalys, slumpmässig faktor (typ II), Y ij = µ+α i +ε ij, α i N(0,σ α ), ε ij N(0,σ ). Variansanalytabell: Källa f kvs mkvs E(mkvs) Mellan bränningar 7 37.8 53.5 σ +σα Inom bränningar 8 1.65 σ Total 15 393.8 Testkvot F = 53.5/.65 = 0.9 > F 0.05 (7,8) = 3.5. Variansen är signifikant skild från 0. b) Allmänt gäller fˆσ χ (f), σ där f = 8 i detta fall. Vi får därför P (χ 0.975(f) ) < fˆσ < χ σ 0.05(f) eller = 0.95 ( ) fˆσ P χ 0.05 (f) < σ < fˆσ χ 0.975 (f) = 0.95. Ett tvåsidigt 95% konfidensintervall för σ blir därför ( 8.65 17.5, 8.65 ) = (1., 9.6)..18
forts tentamen i SF950 FD 5B1550 10 06 03 3 c) Medelhalten µ skattas med ˆµ = ȳ.. = 746/16 = 46.65. Vidare vet vi att Ȳ.. N(µ,σ α /8+ σ /16). Variansen för ˆµ skattas med 53.5/16 = 3.33. Konfidensintervallet blir ˆµ±t 0.05 (7) 3.33 = 46.6±7.9. Uppgift 5 Om 3- och 4-faktorsamspelen sätts till 0 erhåller vi σ 16 = 1 5 och vi får medelfelen σ = 1. (ÂBC +ÂBD +ÂCD + BCD + ABCD ) = 0.075 σ 16 0.74 och detta gäller för samtliga skattningar. Vidare är b) Vår σ-skattning är baserad på 5 frihetsgrader och vi får därför konfidensintervall av typen skattning±t 0.05 (5)0.74.57 0.74 0.704 och detta ger att A,B,C,D och BD-effekterna är signifikanta på 5%-nivån.