STOCKHOLMS UNIVERSITET TENTAMEN MATEMATISKA INSTITUTIONEN Statistik för naturvetare Avd. Matematisk statistik Tisdagen den 11 januari 2005 Tentamen för kursen Statistik för naturvetare Tisdagen den 11 januari 2005 9-14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Tillåtna hjälpmedel: Levine, Ramsey & Smidt: Applied Statistics for Engineers and Scientists. Egna anteckningar. Miniräknare. Lösningar finns på kursens hemsida (www.math.su.se/matstat/und/statfnat) fr. o. m. skrivtidens slut. Återlämning: Fredag 14/1 2005 kl 16.00. Rum 312, hus 6. Den som vill veta sitt resultat tidigare kan lämna uppgift om sin epostadress tillsammans med lösningarna. Krav för godkänt: För betyget godkänt krävs minst åtta poäng inklusive maximalt fyra poäng från inlämningsuppgifterna. För betyget väl godkänt krävs åtta poäng bland de tolv som är möjligt att få på skrivningen. Resonemang skall vara klara och tydliga att följa. Uppgift 1 En grupp doktorander har mätt ett antal rävhannar i Västsverige. I institutionens rapportserie skriver de sedan att ett 95% konfidensintervall för rävhannars medellängd (inklusive svans) sträcker sig från 110.4 cm till 134.2 cm. Deras professor tolkar detta såhär: Med 95 % sannolikhet är en rävhanne i Västsverige mellan 110.4 cm och 134.2 cm. a) Är detta en riktig tolkning? Om inte, förklara tydligare vad doktorandernas resultat innebär. (1 p) b) Vid närmare granskning visar sig undersökningen ha omfattat sju rävhannar, med följande längder (i cm, inkl. svans): 123, 144, 105, 99, 120, 136, 129. Om man beräknar ett symmetriskt 95% konfidensintervall för medellängden av en rävhanne utifrån dessa data så får man inte riktigt samma resultat som doktoranderna fick. Räkna ut ett riktigt konfidensintervall och förklara vad doktoranderna troligen har gjort för fel. (1 p)
Statistik för naturvetare, Tisdagen den 11 januari 2005 2 Uppgift 2 På ett mejeri vill man undersöka om två paketeringsmaskiner A och B är likvärdiga från hygiensk synpunkt. Maskin A är av en traditionell typ, medan B är en nyutvecklad variant som påstås ge lägre bakteriehalter i mjölken. Man tar på måfå ut 24 paket ur vardera maskinens produktion och mäter halten av en viss bakterie. Det bifogade Excel-bladet visar mängden bakterier per volymsenhet. Man kan tänka sig två sätt att analysera dessa data: Tvåsampel t-test eller Wilcoxons rangsummetest. Bilagorna visar en datorutskrift av resultatet. a) Avgör, både för tvåsampel t-testet och Wilcoxontestet, huruvida det kan anses säkerställt på nivån 5 % att maskin B ger lägre bakteriehalter. (1 p) b) Vilket av de båda testen är lämpligast att utföra här? (1 p) Uppgift 3 Vid enkel linjär regression talar man dels om prediktionsintervall för kommande observationer, dels om konfidensintervall för den sanna regressionslinjens y-värde. Båda typerna av intervall förutsätter att ett x-värde är specificerat. När antalet observationer ökar blir båda intervallen kortare. a) Den ena typen av intervall kan göras hur kort som helst, bara antalet observationer blir tillräckligt stort. Vilken av typerna gäller det? Varför kan inte den andra typen av intervall blir hur kort som helst? (Svara med en intuitiv motivering, inte med en hänvisning till en formel). (1 p) b) I bilagan redovisas en regressionsanalys baserad på n = 20 observationer. Man skall göra en observation till, och man vill då välja x-värdet så att prediktionsintervallet blir så kort som möjligt. Bestäm x och beräkna ett symmetriskt 95% prediktionsintervall. (1 p) Uppgift 4 Vid en farmakologisk institution genomfördes en studie för att jämföra olika ämnen som lindrar irriterande klåda. Fem olika medel jämfördes i studien. Tio frivilliga försökspersoner deltog, alla män i åldern 20-30 år. Varje försökperson utsattes för en behandling per dag och det antogs att inga behandlingar lämnar kvarstående effekter till nästa dag. Behandlingen gick till så att försökspersonen fick en injektion av ett av ämnena, varefter han utsattes för ett irriterande preparat. Med hjälp av en klocka registerades hur länge klådan varade. Förutom de fem aktiva ämnena utsattes försökspersonerna för en injektion av ett placebopreparat, och en kontroll gjordes då personen inte fick någon behandling alls. Tidsföljden mellan behandlingarna
Statistik för naturvetare, Tisdagen den 11 januari 2005 3 randomiserades. Resultaten framgår av följande tabell, som anger hur många sekunder klådan varade: Ingen Papa- Amino- Pento- Tripelen- Person behandling Placebo verine Morphine phylline barbital namine BG 174 263 105 199 141 108 141 JF 224 213 103 143 168 341 184 BS 260 231 145 113 78 159 125 SI 255 291 103 225 164 135 227 BW 165 168 144 176 127 239 194 TS 237 121 94 144 114 136 155 GM 191 137 35 87 96 140 121 SS 100 102 133 120 222 134 129 MU 115 89 83 100 165 185 79 OS 189 433 237 173 168 188 317 Medelvärde 191.0 204.8 118.2 148.0 144.3 176.5 167.2 Som inledning till den statistiska bearbetningen upprättar man följande ANOVA-tabell: Variationskälla Antal frihets- Kvadrat- MKVSUM F grader summa Mellan behandlingar 53013 Mellan försökspersoner 103280 Residualer 167130 Totalt Fortsätt den statistiska analysen och tala om vilka slutsatser man kan dra. (3 p) Uppgift 5, alternativ I För att undersöka hur valet av lösningsmedel och koncentrationen av en katalysator inverkade på bildandet av en biprodukt vid en syntes prövades två gånger alla kombinationer av två olika lösningsmedel A och B och två koncentrationer av katalysatorn i följande experiment. Lösningsmedel Katalysator Mängd bildad biprodukt vid två ober. upprepn. A 3% 8.0, 7.0 B 3% 9.0, 9.0 A 5% 11.0, 12.0 B 5% 16.0, 14.0
Statistik för naturvetare, Tisdagen den 11 januari 2005 4 a) Skatta faktorernas huvudeffekter och samspelseffekten. (1 p) b) Skatta osäkerheten i de enskilda mätvärdena, i form av standardavvikelsen för försöksfelet. Ange skattningens antal frihetsgrader. (1 p) c) Förutsätt att försöksfelet är normalfördelat. Beräkna konfidensintervall med 95% konfidensgrad för vardera medeleffekten och för samspelseffekten. Avgör vilka effekter som är signifikant säkerställda på 5% signifikansnivå. (1 p) Uppgift 5, alternativ II a) Ett livsmedelsföretag överväger att börja tillsätta en konsistensgivare till sin jordgubbssylt, eftersom marknadsundersökningar tyder på att kunderna önskar en fastare konsistens. Företaget vill dock försäkra sig om att konsistensgivaren inte påverkar smaken hos sylten. Därför genomförs följande experiment: Ett antal försökspersoner får smaka på tre prover av sylten, varav ett är behandlat med konsistensgivare och två är obehandlade. Personen får ange vilket av de tre proverna som avviker mest i smak. Sextio personer deltar i undersökningen, och 28 av dem uppger att det behandlade provet har den mest avvikande smaken. Kan det anses säkerställt att konsistensgivaren förändrar smaken hos sylten? (2 p) b) I ett inslag i Rapport den 23 nov 2004 berättades att det i Jokkmokk under året hade fötts 20 % fler barn än normalt. Det beror på kommunens nyinförda belöningssystem, som premierar familjer med många barn, förklarade en belåten kommunpolitiker. I inslaget framgick också att det totala antalet nyfödda under året var 42 (mot normalt 35, således). Betrakta en fiktiv kommun vars folkmängd är så stor att det brukar födas 35 barn per år, och antag att varje kvinna i fertil ålder bestämmer om hon ska föda barn under året eller låta bli, oberoende av de övrigas val. Om det råkar födas 42 barn ett visst år, finns det då skäl att överhuvudtaget söka efter någon annan förklaring än slumpen? Motivera svaret. (1 p) Lycka till!
STOCKHOLMS UNIVERSITET MATEMATISKA INSTITUTIONEN Avd. matematisk statistik Anders Björkström Datorutskrifter för vissa uppgifter (Bilaga till tentamen i Statistik för naturvetare 2005-01-11.) Uppgift 2 Output från Excel: a: Indata: Mängd bakterier per volymsenhet
b: Resultat av Excels tvåsampletest: Output från ett statistikprogram som räknar ut rangsummor (Score Sum):
Aktuella data för den linjära regressionen: Uppgift 3 Resultat av regressionsanalysen: