TENTAMEN I SF2950 (F D 5B1550 TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL 14.00 19.00 Examinator : Gunnar Englund, tel. 790 7416, epost: gunnare@math.kth.se Tillåtna hjälpmedel: Formel- och tabellsamling i matematisk statistik. Formel- och tabellsamling i TMS. Miniräknare. Resultatet meddelas senast onsdagen den 7 april 2010 via Mina sidor. Den som vill få resultatet meddelat med e-post, kan skicka ett mejl till gunnare@math.kth.se med begäran om detta. Införda beteckningar skall definieras. Resonemang och genomförande av uträkningar skall vara så utförliga att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Varje korrekt lösning ger 10 poäng. Gränsen för godkänt är för 20 poäng. Tentamensskrivningarna kommer att finnas tillgängliga på studentexpeditionen till 6 veckor efter tentamen. Uppgifterna är inte medvetet ordnade efter växande svårighetsgrad utan efter ämnesområde. Uppgift 1 a Hållfastheten av två slags legeringar skulle undersökas. 12 prover av vardera legeringen provades och man erhöll följande resultat. Legering 1 12,3 17,5 6,2 6,2 2,6 9,8 8,1 4,3 18,3 17,1 10,3 5,5 Legering 2 11,0 18,4 9,5 12,4 9,0 6,1 8,2 14,6 20,5 8,5 17,3 13,8 Använd något fördelningsfritt test för att testa hypotesen att legeringarnas hållfasthet är likvärdiga mot hypotesen att de skiljer sig åt. (5 p b För att uppskatta hemtidsarbetet per vecka i en skola gjordes en urvalsundersökning. Följande resultat erhölls då Antal elever Antal elever i urvalet Medelvärde Varians Lågstadiet 200 30 0.6 0.5 Mellanstadiet 250 50 1.1 0.8 Högstadiet 220 40 1.5 1.4 Gymnasiet 170 50 3.4 2.1 Ge att approximativt 95% konfidensintervall för medelhemtidsarbetet per vecka för eleverna i nämnda skola. (5 p
forts tentamen i SF2950 FD 5B1550 10 03 17 2 Uppgift 2 Viskositetsmätningar gjordes på blandningar av kolvätet styren och en polyester, för olika kontrollerade innehåll av styren, nämligen två oberoende upprepningar för vardera av styrenkoncentrationerna 16%, 18%, 20%, 22% och 24%. Följande mätdata erhölls: % styren (x 16 18 20 22 24 viskositet (y 21.0 25.0 20.0 20.0 18.0 14.0 16.0 14.0 11.0 11.0 Det var givetvis bara en lycklig tillfällighet att decimalen blev noll på alla viskositetsvärden. Med datorhjälp beräknades två variansanalystabeller och litet annat Regression av y på x: Regression fr.gr. = 1 kv.s. = 168.2 Residual fr.gr. = 8 kv.s. = 21.8 Totalt fr.gr. = 9 kv.s. = 190.0 y-medel = 17.00, regr-koeff. = -1.45, R2 = 88.53 % Variansanalysmodell för ensidig indelning, i grupper efter x: Mellan grupper fr.gr. = 4 kv.s. = 172.0 Inom grupper fr.gr. = 5 kv.s. = 18.0 Totalt fr.gr. = 9 kv.s. = 190.0 a Under var och en av de två modellerna ovan, skatta försöksfelets standardavvikelse. (2 p b Testa modellens linearitet i variabeln x. (4 p c Under antagandet om enkel linjär regression vill man för den sanna linjen ha konfidensband, som med 95% konfidensgrad stänger in linjen mellan sig inom hela x-intervallet 16 < x < 24. Bestäm hur dessa konfidensband skall se ut och beräkna deras värden för 18% styren. (4 p Uppgift 3 Upplösningstiden för de tre ämnena A, B, och C jämfördes i ett försök. I vart och ett av fyra olika lösningsmedel upplöstes 25 g vardera av de tre ämnena med följande resultat: Lösnings- ämne medel A B C 1 24.6 22.7 19.1 2 25.3 24.8 20.4 3 28.0 27.0 22.3 4 30.2 30.9 25.6 Hjälpsummor: 4 i=1 (ȳ i. ȳ.. 2 = 26.243, 3 j=1 (ȳ.j ȳ.. 2 = 15.829, 3 j=1 (y ij ȳ.. 2 = 143.983, ȳ.. = 25.075 4 i=1 a Man anser att det inte finns något samspel mellan ämne och lösningsmedel. Testa på nivån 5% att ämnena är likvärdiga ur upplösningssynpunkt. (3 p b Skatta den systematiska skillnaden mellan effekterna av ämnena A och B och ge ett konfidensintervall (95% för denna skillnad. (3 p
forts tentamen i SF2950 FD 5B1550 10 03 17 3 c Antag att man sedan tidigare vet att σ 2 = 0.12. Visa hur man då kan testa att det inte finns något samspel. Utför testet på nivån 5%. (4 p Uppgift 4 I en provningsjämförelse, utförd av Institutet för tillämpad miljöforskning och avsedd att utröna hur precist laboratorier klarar att bestämma halten Kjeldahl-kväve i närsalter, fick ett antal laboratorier två prov var att analysera. Alla dessa prov var i själva verket tagna ur en och samma provmängd, och de representerade alltså samma koncentration. Följande lilla datamängd avser de sex laboratorier som använde en kombination av Cu-katalysator och fotometrisk metod. Denna analysmetod ansågs vara utan systematiskt fel, och alla de deltagande sex labben bedömdes vara representativa för sin typ. Här är Institutets redovisning av data: Lab id-nr Prov 1 Prov 2 Medelv. 26 1.85 2.01 1.93 44 2.33 2.08 2.205 50 2.95 2.60 2.775 57 2.20 1.90 2.05 89 1.93 2.33 2.13 192 2.34 2.16 2.25 Medelv. 2.27 2.18 2.22 Kör man in data, så som de står, i ett statistikprogrampakets variansanalysprogram för Full factorial, med Lab, Prov och Lab*Prov, så får man följande ANOVA: Source DF SS Lab 5 0.8604 Prov 1 0.0225 Lab*Prov 5 0.2240 Total 11 1.1069 Anmärkning: Någon Error-kvadratsumma eller någon F-kvot gav programmet förstås inte, eftersom det inte blev några frihetsgrader över till Error. Uppgift: Ange en rimlig statistisk modell för data enligt beskrivningen ovan, och skatta modellens parametrar. (10 p Uppgift 5 I ett fraktionellt 2 4 1 -försök utan replikationer där trefaktorsamspelet ABC var kopplat till identiteten I erhölls följande effektskattningar I = 1400 Â = 20 ˆB = 30 Ĉ = 6 ˆD = 26 ÂD = 6 BD = 4 ÂBD = 4 a Beskriv hur de övriga effekterna är kopplade till ovanstående. (3 p b Beräkna en skattning av residualvariansen under förutsättning att alla tvåfaktorsamspel och högre kan försummas. (4 p c Testa vilka effekter som återstår som signifikanta i modellen. (3 p
LÖSNINGSFÖRSLAG I SF2950 TILLÄMPAD MATEMATISK STATISTK 2010 03 17 Uppgift 1 a Använd Wilcoxon tvåsampeltest, ty två oberoende stickprov. Ordna observationerna i storleksordning, de från första stickprovet understrukna: Observation 2,6 4,3 5,5 6,1 6,2 6,2 8,1 8,2 8,5 9,0 9,5 9,8 Rang 1 2 3 4 5,5 5,5 7 8 9 10 11 12 Observation 10,3 11,0 12,3 12,4 13,8 14,6 17,1 17,3 17,5 18,3 18,4 20,5 Rang 13 14 15 16 17 18 19 20 21 22 23 24 Om T 1 är rangsumman av det första stickprovet för vi dess observerade värde till T 1obs = 1+2+3+5,5+ +21+22 = 126. Stickprovsstorlekarna är n 1 = n 2 = 12 varför vi inte kan använda tabell utan utnyttjar normalfördelningsapproximationen. Väntevärdet för T 1 är 12 (12+12+1 = 150 och variansen 12 12(12+12+1 = 300 varför T 2 12 1 är N(150,300. Sätt T = T 1 150. Kritiskt område blir då (tvåsidigt test T > λ 0.025 = 1.96. 300 T obs = 24 300 = 1.39 < 1.96. Det observerade värdet är alltså inte signifikant, dvs ingen signifikant skillnad mellan legeringarna. b Enligt formelsamling är (sedvanliga beteckningar vilket skattas med V(m = k i=1 c 2 i S 2 i n i (1 n i N i s 2 = ( 200 2 0.5( 30 1 30 200 + (250 2 0.8( 50 1 50 250 + (220 2 1.4( 40 1 40 220 + (170 2 2.1( 50 1 50 170 = 0.005115 Medelvärdet skattas med m = 200 250 220 170 0.6+ 0.8+ 1.4+ = 1.5512 ˆ2.1 Härav fås att ett approximativt 95% konfidensintervall för m ges av m ± λ 0.025 s dvs 1.5512 ± 0.1402 a Ur variansanalystabellerna fås Uppgift 2 ˆσ 2 = 21.8/8 ˆσ = 1.65 respektive ˆσ 2 = 18.0/5 ˆσ = 1.90 b Kv.s.(icke-linearitet = 21.8 18.0 = 3.8, med 8 5 = 3 fr.gr. Härav testets F-kvot (3.8/3/(18.0/5 < 1,
forts tentamen i SF2950 FD 5B1550 10 03 17 2 dvs ingen indikation på icke-linearitet. c Simultana konfidensintervall för regressionslinjens uttryck, med uppgifter hämtade ur den övre variansanalystabellen. Notera att N = 10, x = 20 och (x i x 2 = 2(16+4+0+4+ 16 = 80: ( 1 17.00 1.45(x 20± ˆσ 2F 0.05 (2,8 10 + (x 202. 80 Uppgift 3 a Tvåsidig variansanalys med systematiska komponenter och en observation per cell. Inget samspel mellan lösningsmedel och ämnen förutsätts: Y ij = α i + β j + ε ij då ε ij N(0,σ 2 och oberoende. Hjälpsummorna ger variansanalystabellen Variation Frgr Kvs Mkvs Testkvot Mellan Lösn.medel (rader 3 78.729 26.243 81.234 Mellan ämnen (kolumner 2 63.315 31.658 97.994 Residual 6 1.938 0.323 Totalt 11 143.983 Testkvoten 97.994ska jämförasmed F-värdetF 0.05 (2,6 = 5.14.Hypotesen likvärdiga ämnen förkastas. b Effekten av ämne A, β 1 skattas med Ȳ.1 Ȳ.. och effekten av ämne B, β 2 skattas med Ȳ.2 Ȳ... Skillnaden β 1 β 2 skattas alltså med Ȳ.1 Ȳ.2 som är N(β 1 β 2,σ 2 /4+σ 2 /4 = N(β 1 β 2,σ 2 /2. Som vanligt skattas σ 2 med medelkvadratsumman för residualer dvs ˆσ 2 = 0.323. Man erhåller konfidensintervallet I β1 β 2 = ȳ.1 ȳ.2 ±t 0.025 (6ˆσ/ 2 = 27.025 26.35±2.45 0.568/ 2 = 0.675±0.985 Det är ingen signifikant skillnad mellan ämnena A och B eftersom 0 tillhör intervallet. c För att testa att samspelet är försumbart kan man använda kvadratsumman för residualer i variansanalystabellen ovan. Om samspelseffekten är 0 är Kvs(residual/σ 2 χ 2 - fördelad med 6 frihetsgrader. Hypotesen att det inte är något samspel ska alltså förkastas om Kvs(residual/σ 2 > χ 2 0.05(6 = 12.6. Med σ 2 = 0.12 blir Kvs(residual/σ 2 = 1.938/0.12 = 16.15. Samspelet är alltså signifikant på nivån 5%. Uppgift 4 Hierarkisk modell med varianskomponenter mellan lab och mellan prov inom lab, eller med andra ord, ensidig indelning, typ II. I formler: Y ij = µ+δ i +ε ij, parametrarµ,σ 2 lab (σ2 δ ochσ2 prov (σ 2 ε. DessANOVAbörskrivas omgenomattslå sammande två sista raderna och benämna dem error eller inom lab. Här har också MS (medelkv.s och E(MS tagits med: Source DF SS MS E(MS Mellan Lab 5 0.8604 0.1721 σprov 2 +2σlab 2 Prov inom lab 6 0.2465 0.0411 σprov 2 Totalt 11 1.1069
forts tentamen i SF2950 FD 5B1550 10 03 17 3 Identifiering av medelkvadratsummorna med sina väntevärden ger varianskomponentskattningarna σprov 2 = 0.0411 och σ2 lab = (0.1721 0.0411/2 = 0.0655. Slutligen, MK-skattningen av µ är ȳ.. = 2.22 Uppgift 5 a Kopplingarna är I = ABC, A = BC, B = AC, C = AB, D = ABCD, AD = BCD, BD = ACD, och CD = ABD b Man får som skattning av σ 2 : ˆσ 2 = 8 3 (ÂD2 + BD 2 +ÂBD 2 = 181.33 c Effektskattningar som till beloppet är större än t 0.025 (3 ˆσ 2 /8 = 3.18 181.33/8 = 15.14 är signifikanta på nivån 5%. I det här fallet A, B och D.