STOCKHOLMS UNIVERSITET TENTAMEN MATEMATISKA INSTITUTIONEN Statistik för naturvetare Avd. Matematisk statistik Torsdagen den 22 december 2005 Tentamen för kursen Statistik för naturvetare Torsdagen den 22 december 2005 9-14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Tillåtna hjälpmedel: Levine, Ramsey & Smidt: Applied Statistics for Engineers and Scientists. Egna anteckningar. Miniräknare. Observera att en del extra information ges på en separat bilaga Computer output... Lösningar finns på kursens hemsida (www.math.su.se/matstat/und/statfnat) fr. o. m. skrivtidens slut. Återlämning: Fredag 23/12 2005 kl 11.00. Rum 312, hus 6. Den som vill veta sitt resultat per epost kan lämna uppgift om sin epostadress tillsammans med lösningarna. Krav för godkänt: För betyget godkänt krävs minst åtta poäng inklusive maximalt fyra poäng från inlämningsuppgifterna. För betyget väl godkänt krävs åtta poäng bland de tolv som är möjligt att få på skrivningen. Resonemang skall vara klara och tydliga att följa. Behandla endast ett av de båda alternativen på uppgift 5. Uppgift 1 Ett företag i energibranschen vill jämföra värmeinnehållet i kol från två olika gruvor. Man har genomfört fem mätningar av värmeinnehållet i kol från Gruva A och sex från Gruva B. Mätvärdena är (enhet: Millioner kalorier per ton) Gruva A 8260 8130 8350 8070 8340 Gruva B 7950 7890 7900 8140 7920 7840 Stickprovsmedelvärdet av mätningarna från Gruva A är 8 230 och från Gruva B 7 940. Stickprovens standardavvikelser är 125,5 (Gruva A) respektive 104,5 (Gruva B).
Statistik för naturvetare, Torsdagen den 22 december 2005 2 a) Testa på signifikansnivån 1 % hypotesen att gruvorna är likvärdiga, mot den tvåsidiga alternativhypotesen att det finns en skillnad. (1 p) b) Vilka villkor måste data uppfylla för att ditt resonemang i (a)-delen skall vara giltigt? (1 p) Uppgift 2 En viss typ av termometer ger avläsningar som är lika med den faktiskt rådande temperaturen plus ett mätfel. Mätfelet kan betraktas som ett utfall av en normalfördelad variabel med väntevärde noll och standardavvikelse 0,1 grader. En dag misstänker man att vädret är rekordvarmt för årstiden, och därför vill man göra en extra noggrann temperaturbestämning. Man skaffar snabbt fram icke mindre än fem identiska termometrar av den aktuella typen, och mäter med alla fem. Medelvärdet blir 4,84 grader. a) Beräkna ett 95 % konfidensintervall för temperaturen vid det aktuella tillfället. (1 p) b) Om man vill att konfidensintervallets längd högst får vara 0,01 grader, hur många mätningar måste man då göra? (1 p) Uppgift 3 En statlig myndighet har utvecklat en ny blankett, som förhoppningsvis skall vara lättare att fylla i än den som tidigare använts. Man vill nu ta reda på om det är någon skillnad mellan män och kvinnor i fråga om hur lång tid de behöver för att fylla i den nya blanketten. Därför låter man 15 slumpvis valda män och 12 slumpvis valda kvinnor fylla i den medan man mäter hur lång tid de behöver. Resultaten framgår av bilaga 3. Avgör om det finns någon säkerställd skillnad mellan könen. (2 p) Uppgift 4 Om en bilförare får syn på en mötande bil och snabbt skall bedöma hur långt bort den befinner sig, kan då den mötande bilens färg påverka bedömningen? För att undersöka den saken genomförde en grupp psykologer ett experiment som bestod i att tio personer (A-J) under realistiska förhållanden fick upptäcka mötande bilar med olika färg. Det verkliga avståndet till den mötande bilen var i samtliga fall 200 m. Resultaten av försökspersonernas bedömningar visas i nedanstående tabell (fiktiva data).
Statistik för naturvetare, Torsdagen den 22 december 2005 3 Bilens färg: Röd Blå Vit Beige Svart Testförare Adamsson 220 230 230 210 250 Bertilsson 220 180 200 150 240 Cesarsson 240 190 230 210 250 Davidsson 150 180 160 190 220 Eriksson 200 210 200 200 220 Filipsson 300 280 250 270 300 Gustavsson 220 190 200 180 220 Haraldsson 260 150 180 230 240 Ivarsson 200 150 180 230 240 Johansson 210 210 180 190 230 Försöksledaren vill betrakta datamaterialet som fem oberoende stickprov, där faktorn färg varierar på fem nivåer, och tillämpa formlerna för ensidig variansanalys. a) Antag att vi gör som försöksledaren vill. Formulera nollhypotes och alternativhypotes, genomför testet, redovisa variansanalysen och ange vilken slutsats man kommer till om signifikansnivån är 5 %. (Hoppa över Tukey- Kramers procedur). Ledning: I bilagan finns en variansanalystabell. Detta är inte exakt den tabell vi behöver just nu, men det går att konstruera den tabell vi behöver ur den befintliga tabellen. (1 p) b) Förklara vad som menas med termerna systematisk faktor ( fixed effect ) och slumpmässig faktor ( random effect ) vid ett försök. Tillämpa dem på det aktuella expeimentet. (1 p) c) I det här fallet borde man ha analyserat data på ett annat sätt än det som försöksledaren föreslog. Gör det. Vilka färger skiljer sig signifikant åt? (1 p) Uppgift 5, alternativ I Vid ett tillverkningsföretag i elektronikbranschen vill man ta reda på hur kvaliten på en halvledare påverkas av fyra faktorer. Man lägger upp experimentet som ett 2 4 -försök, och gör två experiment på varje nivåkombination. Faktorerna man underöker är:
Statistik för naturvetare, Torsdagen den 22 december 2005 4 F aktor Låg nivå Hög nivå A. Produktionsplats Laboratorium Produktionslinje B. Partialtryck hos kontrollmaterial 10 15 10 4 C. Relativ fuktighet 1 % 30 % D. Ålder (timmar) 72 144 Om man betraktar data som sexton oberoende stickprov av storlek två får man den här variansanalystabellen: Variationskälla Antal frihets- Kvadrat- MKVSUM F grader summa Mellan stickprov x 742.75 Inom stickprov y 796.00 Totalt z a) Komplettera de data som saknas (x, y och z). (1 p) b) Skatta försöksfelet. (1 p) c) Vilka faktorer har en säkerställd effekt, och vilka samspelseffekter är signifikanta? (1 p) Uppgift 5, alternativ II Hälsovårdsnämnden i en storstad vill ta reda på om halten fotokemiska oxidanter i luften en eftermiddag kan förutsägas om man vet temperatur, vindhastighet och solinstrålning. Under en månad samlar man in data i form av följande tabell: Datum Temp oc Vind(m/s) Solstrålning Oxidanthalt 1 25 5, 0 78 15 2 27 4, 7 77 20... 31 20 2, 5 79 25 Projektledaren vill analysera datamängden med s.k. multipel linjär regression (MLR). a) Beskriv under vilka förutsättningar som MLR är en adekvat metod, och ange några invändningar mot att använda den metoden i det här fallet. (2 p)
Statistik för naturvetare, Torsdagen den 22 december 2005 5 b) Efter att ha kört ett PC-program för MLR får projektledaren fram förklaringsgrad R 2 = 0.88, vilket han tycker låter bra. Förklara vad siffran betyder och varför den inte berättar allt om hur lämplig modellen är. (1 p) Lycka till!
STOCKHOLMS UNIVERSITET MATEMATISKA INSTITUTIONEN Avd. matematisk statistik Anders Björkström Computer output and other supplementary information for some of the problems (Bilaga till tentamen i Statistik för naturvetare 2005-12-22.) Problem 3 Tidsåtgång (minuter) för kvinnorna respektive männen. Time required for women and men (minutes) Samma data ges i den här tabellen, där alla värden är sorterade i växande ordning: Here is the same data in ascending order:
Män Men Medelvärde Sample average 16,65 Standardavvikelse Standard deviation 1,48 Kvinnor Women Medelvärde Sample average 14,73 Standardavvikelse Standard deviation 1,66
Problem 4 Översikt över bedömda avstånd beroende på färg: Distance estimates by color: Sammanfattning av försökets data (forts nästa sida)
Variansanalystabell för en tvåsidig ANOVA utan replikat, baserad på försökets data. Table for a two-sided ANOVA without replicates Problem 5, alternative I Nivåkombination Experiment 1 Experiment 2 Level combination 1 39.0 43.2 a 31.8 43.7 b 47.0 51.4 ab 40.9 40.3 c 43.8 40.5 ac 29.3 52.9 bc 34.8 48.2 abc 45.6 58.2 d 40.1 41.9 ad 42.0 40.5 bd 54.9 53.0 abd 39.9 40.2 cd 43.1 40.2 acd 30.1 39.9 bcd 35.6 53.7 abcd 41.4 49.5 Effektskattningarna blir: Estimated effects: Totalmedelvärde Grand average =43.02) A= -2.7625 B=5.7875 C= -0.1875 D= -0.2875, AB=-0.0625 AC=3.6375 AD= -2.1125 BC= 0.1125 BD= 0.5125 CD= -2.1875, ABC= 4.7875 ABD= -1.6125 ACD= -1.6875 BCD=0.3125, ABCD=0.6125