STOCKHOLMS UNIVERSITET MT4003 MATEMATISKA INSTITUTIONEN TENTAMEN Avd. Matematisk statistik 23 maj 2013 Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 23 maj 2013 kl. 9 14 Examinator: Gudrun Brattström, tel. 16 45 33, gudrun@math.su.se Tillåtna hjälpmedel: Miniräknare samt en tabell och en formelsamling som bifogas skrivningen. Återlämning: Tisdag 28 maj 2013 kl 13.30 14.00 i rum 415, hus 6. Varje korrekt löst uppgift ger 10 poäng. Resonemang skall vara klara och tydliga. Observera att uppgifterna inte nödvändigtvis är ordnade efter växande svårighetsgrad. Betygen A E sätts enligt följande minimigränser: Betyg A B C D E Poäng 54 48 40 34 30 Uppgift 1 Ett amerikanskt företag säljer hushållsapparater, och vill undersöka effekten på försäljningen (SALES) av reklam via tre olika kanaler: TV, tidningar (MAG magazines) och radio. Detta gör man genom att anpassa en multipel regressionsmodell till data från tio slumpmässigt valda månader. Y i = β 0 + β TV x TV i + β MAG x MAG i + β RADIO x RADIO i + ɛ i, i = 1, 2,..., 10, där Y är försäljningsintäkterna i miljoner dollar, och x TV, x MAG och x RADIO är den summa i miljoner dollar som man har lagt ner på reklam i TV, tidningar respektive radio. De N(0, σ 2 )-fördelade slumpfelen ɛ i är oberoende. Nedan finner du en utskrift från en körning i R på detta dataset.
Tillämpad statistisk analys, GN, 7.5 hp, 23 maj 2013 2 > modell=lm(sales~tv+mag+radio) > summary(modell) Call: lm(formula = SALES ~ TV + MAG + RADIO) Residuals: Min 1Q Median 3Q Max -4.662-2.747-1.458 3.679 4.500 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 266.229 16.344 16.289 3.41e-06 *** TV 6.727 1.344 5.005 0.00244 ** MAG 3.257 1.642 1.984 0.09455. RADIO 4.507 3.703 1.217 0.26921 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 4.418 on 6 degrees of freedom Multiple R-squared: 0.9107,Adjusted R-squared: 0.8661 F-statistic: 20.4 on 3 and 6 DF, p-value: 0.001504 > vcov(modell) (Intercept) TV MAG RADIO (Intercept) 267.12963-3.6460495 3.6022298-42.927244 TV -3.64605 1.8065058 0.2351324-2.460836 MAG 3.60223 0.2351324 2.6957534-3.027010 RADIO -42.92724-2.4608365-3.0270099 13.710405 Notera att vcov är en skattning av matrisen σ 2 V i formelsamlingen. a) Använd utskriften till att bilda ett tvåsidigt 95%-igt konfidensintervall för β TV, lutningskoefficienten för TV. (5 p) b) Ger en satsning på TV-reklam en signifikant större utdelning per satsad dollar än en satsning på radioreklam? (Givet att övriga förklarande variabler hålls konstanta.) Använd signifikansnivån 5% för att undersöka detta. (5 p)
Tillämpad statistisk analys, GN, 7.5 hp, 23 maj 2013 3 Uppgift 2 En grupp ingenjörer vill jämföra hårdheten (som mäts i DPH, diamond pyramid hardness) hos 5 prover av en legering. Man gör 10 mätningar på varje prov, men några av mätningarna misslyckas, vilket ger upphov till ett visst bortfall: för prov nr 2 och nr 5 saknas en mätning för vardera provet, och för prov nr 4 saknas tre. Vi antar att observationerna kan beskrivas av modellen Y ij = µ i + ɛ ij, i = 1, 2,... 5, j = 1, 2,... n i, där vi antar att ɛ ij är oberoende och N(0, σ 2 )-fördelade. a) Nedanstående är delvis ifylld en ANOVA-tabell. Fyll i de sju tomma rutorna, utom de som markerats med. (3 p) Källa Frihetsgr Kvs MedelKvs F-kvot Prov 1234.31 Residual 433.53 Totalt b) Finns det en skillnad mellan proverna? Använd signifikansnivån 1%. (2 p) För att kunna avgöra vilka par av prover som skiljer sig signifikant behöver vi veta provernas medelvärden. Dessa är: Prov 1 Prov 2 Prov 3 Prov 4 Prov 5 70.90 76.24 69.82 59.45 65.98 c) Om vi använder den övergripande signifikansnivån 1%, vilka differenser deklareras då signifikanta med Bonferronis test? (5 p) Uppgift 3 Fem råttor letar efter mat i tre olika labyrinter. En allvetande vitrock antecknar hur lång tid det tar dem att hitta maten. De tre labyrinterna är lika svåra, men skiljer sig i att betet är av olika sort: i en labyrint finns det hamburgare, i en finns det skumbananer och den tredje innehåller surströmming. Varje råtta prövar alla labyrinterna. Tidsåtgången (i sekunder) ges av nedanstående tabell: Hamburgare Skumbanan Surströmming Råtta 1 54 24 31 Råtta 2 49 20 25 Råtta 3 17 10 10 Råtta 4 106 10 27 Råtta 5 31 13 34
Tillämpad statistisk analys, GN, 7.5 hp, 23 maj 2013 4 OBSERVERA: Data har en ganska skev fördelning, och vi vågar följaktligen inte göra något normalfördelningsantagande. Du måste därför använda metoder som inte förutsätter normalfördelning. Använd signifikansnivån 5%. a) Skiljer sig råttorna åt i fråga om snabbhet? (4 p) b) Är det någon skillnad på de olika födoämnena med avseende på hur snabbt råttorna hittar dem? (4 p) c) Är det något som vitrocken bör tänka på (ur försöksplaneringssynpunkt) innan han släpper in råttorna i labyrinterna? (2 p) Uppgift 4 En grupp på elva fjällvandrare vill undersöka vilken av två sorters sockor som håller längst. Sockmärkena heter Vargen och Björnen. Man bestämmer sig för att testa under realistiska förhållanden: varje fjällvandrare får ta på sig en Vargen-socka på ena foten och en Björnensocka på den andra. Han eller hon singlar slant för att avgöra vilken socka som ska sitta på vilken fot. Sedan ger sig hela sällskapet ut på tredagarssvandring. När man kommer fram på kvällen tittar man efter vilka sockor som är hela och vilka som det har gått hål på. Inom parentes anges märket på sockan. Resultatet blev som följer: Vandrare Vänster fot Höger fot Anton Trasig (Björnen) Trasig (Vargen) Bertil Hel (Vargen) Trasig (Björnen) Cesarius Trasig (Björnen) Hel (Vargen) Drusilla Trasig (Björnen) Hel (Vargen) Eva Trasig (Vargen) Trasig (Björnen) Filip Hel (Vargen) Trasig (Björnen) Göran Trasig (Vargen) Hel (Björnen) Helfrid Hel (Vargen) Trasig (Björnen) Ingvar Hel (Vargen) Trasig (Björnen) Jessica Trasig (Björnen) Trasig (Vargen) Knut Hel (Vargen) Trasig (Björnen) a) Avgör med lämpligt statistiskt test om den observerade skillnaden är signifikant på 10%-nivån. (7 p) b) Vilka problem hade kunnat uppstå vid tolkningen av utfallet om man istället för att singla slant från början hade bestämt att alla skulle ha Vargen på höger fot och Björnen på vänster? (3 p)
Tillämpad statistisk analys, GN, 7.5 hp, 23 maj 2013 5 Uppgift 5 Det brukar anses (även om det tycks vara svårt att bevisa) att talet π är ett så kallat normalt tal, det vill säga var och en av siffrorna 0 9 förekommer i limes en gång på 10, varje par av siffror en gång på 100 etc. (Dessutom förmodas motsvarande gälla för andra baser än 10.) Ett annat sätt att uttrycka detta är att följden av decimaler i π kan ses som utfall av en likformigt fördelad slumpvariabel. Med detta synsätt kan man tolka limes av andelar av de olika decimalerna som sannolikheter p i, i = 0, 1,... 9. Så om π är ett normalt tal, så måste vi ha p 0 = p 1 =... = p 9 = 0.1. En undersökning av de 420 första decimalerna i talet π tycks dock ge vid handen att 7 är något underrepresenterat. Frekvenserna är som följer: 0 1 2 3 4 5 6 7 8 9 41 44 45 43 47 44 43 27 44 42 a) Är denna avvikelse (från en likformig fördelning) signifikant på nivån 5%? (4 p) b) För att förbättra signifikansen kan man låta siffran 7 bli en separat kategori och slå samman de övriga nio till en kategori, och testa hypotesen H 0 : p 7 = 0.1. Gör detta, och jämför med resultatet i a). (4 p) c) Gör en kritisk invändning mot sättet att resonera i b). (2 p) Uppgift 6 Ett samhälle består av 230 hus med tillhörande trädgårdar. I trädgårdarna finns det mördarsniglar. Kommunen vill uppskatta det totala antalet mördarsniglar i samhället genom att göra ett stickprov i ett antal slumpvis utvalda trädgårdar. Av trädgårdarna hör 173 stycken till radhus med relativt små trädgårdar, medan resterande 57 är villor med stora lummiga trädgårdar. Man finner det lämpligt att stratifiera efter dessa båda kategorier. Man gör först en liten undersökning med fyra (slumpvis valda) trädgårdar ur vardera kategorin, och räknar mördarsniglarna där. Man får nedanstående resultat Radhus Villor 120 521 46 320 53 197 89 102 a) Skatta med hjälp av detta urval det totala antalet mördarsniglar i samhället. (2 p)
Tillämpad statistisk analys, GN, 7.5 hp, 23 maj 2013 6 b) Beräkna skattningens medelfel. (3 p) c) Med utgångspunkt från resultatet av den lilla undersökningen börjar man planera en större undersökning. Man bestämmer sig för att man kan acceptera ett medelfel i skattningen av det totala antalet mördarsniglar i samhället på högst 1000 sniglar. Hur många radhustomter och hur många villatomter måste man minst undersöka om man tillämpar optimalt stratifierat urval? (5 p) Lycka till!