STOCKHOLMS UNIVERSITET MT4003 MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik 3 maj 013 Lösningar Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 3 maj 013 kl. 9 14 Uppgift 1 a Eftersom vi har n = 10 observationer och k = 3 förklarande variabler blir antalet frihetsgrader i residualkvadratsumman = n k 1 = 6. Skattningen (Estimate och dess medelfel (Std. Error, eller kvadratroten ur motsvarande diagonalelement i vcov ges i utskriften. Ett ett tvåsidigt 95%-igt konfidensintervall för β TV är därför ˆβ TV ± t 0.05 (6 SE( ˆβ TV = 6.77 ±.447 1.344 = 6.77 ± 3.89. Alternativt kan vi skriva intervallet (3.438, 10.016. b Vi ska testa hypotesen H 0 : β TV = β RADIO, och måste därför räkna ut medelfelet för ˆβ TV ˆβ RADIO. Vi har att Var( ˆβ TV ˆβ RADIO = Var( ˆβ TV + Var( ˆβ RADIO Cov( ˆβ TV, ˆβ RADIO. Skattningar av de båda varianserna fås ur diagonalelementen för TV respektive RADIO i utskriften från vcov (man kan också kvadrera Std. Error i utskriften från summary, och kovariansen ges av matriselementet på plats (TV, RADIO: Var( ˆβ TV ˆβ RADIO = 1.8065058 + 13.710405 (.460836 = 0.44. Så medelfelet är 0.44 = 4.51. Vi får teststatistikan ˆβ TV ˆβ RADIO SE( ˆβ TV ˆβ RADIO = 6.77 4.507 4.51 = 0.491. Vi gör ett ensidigt test och jämför med t 0.05 (6 = 1.943. Eftersom 0.491 < 1.943 kan vi inte ur dessa data dra slutsatsen att en satsning på TV-reklam ger större utdelning per satsad dollar än en satsning på radioreklam.
Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 Uppgift a Vi har a = 5 grupper, och det totala antalet observationer är N = n 1 +n +n 3 +n 4 +n 5 = 10 + 9 + 10 + 7 + 9 = 45, vilket ger frihetsgraderna a 1 = 4 respektive N a = 40. Totalkvadratsumman är 134.31 + 433.53 = 1667.84, och vi får medelkvadratsummorna 134.31/4 = 308.577 respektive 433.53/40 = 10.838. Detta ger F-kvoten 308.577/10.838 = 8.471. ANOVA-tabellen blir därför: Källa Frihetsgr Kvs MedelKvs F-kvot Prov 4 134.31 308.577 8.471 Residual 40 433.53 10.838 Totalt 44 1667.84 b Eftersom F-kvoten 8.471 > F 0.01 (4, 40 = 3.8 är skillnaden signifikant på nivån 1% (och för övrigt även på betydligt lägre nivåer, och vi drar slutsatsen att det är skillnad mellan proverna. c Vi jämför 5 grupper, vilket betyder att vi gör 5 4 = 10 jämförelser. Följaktligen måste signifikansnivån reduceras till 0.01 = 0.001. Vi testar tvåsidigt. Ur ANOVA-tabellen får vi 10 att s pool = 10.838 = 3.9, och ur tabellen över t-fördelningen att t 0.0005 (40 = 3.551. Alltså säger Bonferronis test vi ska dra slutsatsen att prov i och prov j är signifikant olika om X i X j s pool 1 n i + 1 n j > t 0.0005 (40 D ij = X i X j 1 n i + 1 n j > s poolt 0.0005 (40 = 11.69, Vi gör en tabell över de tio paren, där D ij är ovanstående statistika: (i, j (n i, n j X i X j D ij Signifikant? 1, 10, 9 5.34 11.6 Nej 1, 3 10, 10 1.08.41 Nej 1, 4 10, 7 11.45 3.3 Ja 1, 5 10, 9 4.9 10.71 Nej, 3 9, 10 6.4 13.97 Ja, 4 9, 7 16.79 33.3 Ja, 5 9, 9 10.6 1.76 Ja 3, 4 10, 7 10.37 1.04 Ja 3, 5 10, 9 3.84 8.36 Nej 4, 5 7, 9 6.53 1.96 Ja Vi drar alltså slutsatsen att prov nr 4 skiljer sig signifikant på 1%-nivån från vart och ett av de fyra andra, och prov nr skiljer sig signifikant från prov nr 3 och nr 5. Inga andra skillnader är signifikanta på 1%-nivån.
Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 3 Uppgift 3 a För att jämföra råttorna gör vi Friedmans test, och rangordnar inom varje födoämne. Vi betraktar alltså födoämnena som block, så vi har a = 5 och b = 3, med formelsamlingens beteckningar. Sedan vi tagit hänsyn till lika värden ( ties ger detta resultatet Ham Skum Sur R i Ri Råtta 1 4 5 4 13 169 Råtta 3 4 9 81 Råtta 3 1 1.5 1 3.5 1.5 Råtta 4 5 1.5 3 9.5 90.5 Råtta 5 3 5 10 100 Längst till höger står rangsummorna och deras kvadrater. Vi har att i R i = 45.5. Formelsamlingen ger ( a 1 V A = Ri 3b(a+1 = 1 45.5 3 3 6 = 6.33. ab(a+1 5 3 6 i=1 Vi jämför med χ 0.05(4 = 9.488 > 6.33, Så vi kan inte med ledning av data påstå att råttorna skiljer sig i snabbhet. Notera dock att χ -approximationen är lite tveksam här eftersom det endast finns b = 3 observationer i varje grupp. b För att jämföra födoämnena gör vi tvärtom: nu är det råttorna som är block. Rangordning inom block ger resultatet Hamburgare Skumbanan Surströmming Råtta 1 3 1 Råtta 3 1 Råtta 3 3 1.5 1.5 Råtta 4 3 1 Råtta 5 1 3 R i 14 5.5 10.5 Ri 196 30.5 110.5 Längst ner i tabellen står rangsummorna och deras kvadrater. Vi har att j R j = 336.5. Vi behåller beteckningarna a = 5 och b = 3 och låter istället a = 5 och b = 3 byta plats i formeln: V B = ( b 1 Rj ba(b+1 j=1 3a(b+1 = 1 336.5 3 4 4 = 7.30. 3 5 4 Vi jämför med χ 0.05( = 5.99 < 7.30, och drar slutsatsen att det finns en signifikant skillnad mellan den hastighet med vilken råttorna hittar de olika födoämnena.
Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 4 Alternativ lösning till b: Eftersom vi inte såg någon signifikant skillnad i snabbhet skulle vi kunna slå samman råttorna till en population och gör Kruskal-Wallis test med de tre födoämnena som grupper. (Dock är det lite tveksamt att på detta vis dra en slutsats av ett icke-signifikant utfall, särskilt om man misstänker att testet i fråga har låg styrka. I så fall får vi, genom att rangordna samtliga värden, följande tabell: Hamburgare Skumbanan Surströmming 9 5.5 3 10 8 11 14 14 1 14 7 5.5 1 4 R i.5 59 38.5 Ri /n i 101.5 696. 96.45 Vi har att i R i /n i = 1093.9, och därför, enligt formelsamlingen: ( a 1 Ri V = 3(N +1 = 1 1093.9 3 16 = 6.695. N(N +1 n i 15 16 i=1 Vi jämför återigen med χ 0.05( = 5.99 < 6.695, och drar slutsatsen att det finns en signifikant skillnad mellan den hastighet med vilken råttorna hittar de olika födoämnena. c Vitrocken bör randomisera, det vill säga, han bör låta råttorna genomlöpa sina labyrinter i en slumpmässigt bestämd ordning, för att undvika att de efter hand lär sig, alternativt blir trötta. Uppgift 4 a Data bör analyseras med hjälp av McNemars test, där paren är sockorna på varje vandrares fötter. Vi har följande tabell: Vargen Hel Trasig Björnen Hel 0 1 Trasig 7 3 Alltså har vi m = 7 + 1 = 8 diskordanta par. Vi testar nollhypotesen att bland dessa är sannolikheten p = 1 att det i ett diskordant par är Björnen som är hel och Vargen som är trasig. Under nollhypotesen är X = antalet sådana par Bin(8, 1 -fördelat. Eftersom det förväntade antalet i varje cell är 8 1 = 4 < 5, gör vi ett exakt test. Observationen X = 1 ger det ensidiga p-värdet ( ( 8 ( ( 8 8 1 8 1 P (X = 0 + P (X = 1 = + = 9 0 1 = 0.035. 8
Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 5 Eftersom vi intresserar oss för en olikhet mellan sockmärkena oavsett åt vilket håll den går, så bör vi testa tvåsidigt, vilket ger p-värdet 0.035 = 0.070. På nivån 0.10 är detta signifikant, och vi drar slutsatsen att den båda sockmärkena har olika hållbarhet. Not: Om vi trots att tumregeln inte är uppfylld skulle göra ett test med normalapproximation erhålles med halvtalskorrektion det tvåsidiga p-värdet Φ( 1.77 = 0.0384 = 0.077, så vi drar samma slutsats. b Det är tänkbart att det finns en systematisk skillnad mellan människors sätt att använda höger och vänster fot; den skulle exempelvis kunna bero på att fler människor är högerfotade än vänsterfotade. I så fall skulle det kunna vara denna skillnad som ger upphov till det observerade utfallet, och inte en skillnad i sockornas kvalité. Uppgift 5 a Förväntat antal i varje cell är 4 > 5, så χ -approximationen är tillåten. Vi beräknar χ -statistikan: Q = (41 4 + (44 4 + (45 4 +... + (7 4 + (44 4 + (4 4 4 4 4 4 4 4 = 6.5 < 16.919 = χ 0.05(9, så data ger inte skäl att tro att siffrorna inte skulle vara likformigt fördelade. b Frekvenserna blir nu istället 7 Inte 7 7 393 med de förväntade värdena 4 respektive 378 (som båda är > 5. Alltså har vi Q = (7 4 4 + (393 378 378 = 5.95 > 3.843 = χ 0.05(1. Så nu får vi signifikans, dvs vi drar slutsatsen att siffrorna inte är likformigt fördelade. Not: Eftersom vi endast har två kategorier skulle vi lika gärna kunna göra ett tvåsidigt test med normalapproximtion, vilket är ekvivalent. c Om man väljer grupperingen av data efter vad som ser ut att kunna ge signifikans, så har man på sätt och vis gjort tio test: hade någon annan siffra visat lägre frekvens så hade vi förmodligen valt att testa den mot alla de andra.
Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 6 Uppgift 6 a Vi skattar naturligtvis stratas populationemedelvärden med medelvärdet av respektive urval, vilket ger ˆm 1 = 77 och ˆm = 85. Skattningen av populationstotalen blir ( 173 57 ˆT strat = N ˆm strat = N(c 1 ˆm 1 + c ˆm = 30 77 + 30 30 85 = 9566. Man kan förstås även direkt beräkna ˆT strat = N 1 ˆm 1 + N ˆm = 173 77 + 57 85 = 9566. b Skattningens varians är ( Var( ˆT 1 strat = N Var( ˆm strat = N (c 1S1 1 ( 1 + c n 1 N S 1. 1 n N där n 1 = n = 4, N 1 = 173, N = 57 och N = N 1 + N = 30. Stratumvikterna är c 1 = 173/30 och c = 57/30. Populationsvarianserna skattar vi med urvalsvarianserna, som är s 1 = 1176.7 för radhusen respektive s = 3718.0 för villorna. Insättning av dessa värden ger medelfelet ( SE( ˆT 1 strat = N c 1S1 1 ( 1 + c n 1 N S 1 = 577. 1 n N c Från och med nu betecknar n 1 och n urvalsstorlekarna i den nya undersökningen, inte den lilla undersökningens urvalsstorlekar. Vi betecknar populationsvarianserna i respektive stratum med S 1 och S. Det gäller att (se kompendiet, formel (4.3: eller ekvivalent: Var( ˆm strat = c S1 1 + c n 1 c S1 1 + c n 1 S S n 1 N (c 1S 1 + c S, n = Var( ˆm strat + 1 N (c 1S 1 + c S. c Vid optimalt stratifierat urval gäller (före avrundning att n i = n i S i c 1 S 1 +c S. Detta ger att vänsterledet kan skrivas c S1 1 + c n 1 och vi får likheten S S 1 = c 1 c n n 1 S 1 + c c 1 S 1 +c S n ( c 1 = c 1S 1 + c S n S 1 c 1 S 1 + c S c S c 1 S 1 +c S S = (c 1S 1 + c S, c S n (c 1 S 1 + c S = Var( ˆm strat + 1 n N (c 1S1 + c S.
Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 7 Lös ut n: n = (c 1 S 1 + c S Var( ˆm strat + 1 N (c 1S 1 + c S. Nu vill vi att Var( ˆT strat = N Var( ˆm strat ska vara högst 1000, så vi sätter Var( ˆm strat = 1000 ovan. Populationsvarianserna ersätts med det lilla urvalets varianser s N 1 = 1176.7 och s = 3718.0, och N = 30, c 1 = 173 och c 30 1 = 57 är kända. Sätter vi in alla dessa värden 30 så får vi att (c 1 s 1 + c s n = 1000 + 1 (c N N 1s 1 + c s = 4988.40 58.0055 = 86.00. Alltså är n 1 = n c 1 s 1 c s = 31.4 och n = n = 54.6. c 1 s 1 + c s c 1 s 1 + c s Båda måste avrundas uppåt, och vi får svaret n 1 = 3 och n = 55 (observera att denna allokering fortfarande är möjlig, eftersom det finns 57 > 55 trädgårdar i stratum, och därmed n = 87. Not: Om vi för säkerhets skull räknar ut variansen för n 1 = 3 och n = 55 så får vi att SE( ˆT strat = 98.3 < 1000. För n 1 = 31 och n = 55, respektive för n 1 = 3 och n = 54, får vi däremot att SE( ˆT strat = 1000.13, respektive SE( ˆT strat = 1000.8.