STOCKHOLMS UNIVERSITET TENTAMEN MATEMATISKA INSTITUTIONEN Statistik för naturvetare Avd. Matematisk statistik Tisdagen den 14 december 2004 Tentamen för kursen Statistik för naturvetare Tisdagen den 14 december 2004 9-14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Tillåtna hjälpmedel: Levine, Ramsey & Smidt: Applied Statistics for Engineers and Scientists. Egna anteckningar. Miniräknare. Lösningar finns på kursens hemsida (www.math.su.se/matstat/und/statfnat) fr. o. m. skrivtidens slut. Återlämning: Fredag 17/12 2004 kl 16.00. Rum 312, hus 6. Den som vill veta sitt resultat tidigare kan lämna uppgift om sin epostadress tillsammans med lösningarna. Krav för godkänt: För betyget godkänt krävs minst åtta poäng inklusive maximalt fyra poäng från inlämningsuppgifterna. För betyget väl godkänt krävs åtta poäng bland de tolv som är möjligt att få på skrivningen. Resonemang skall vara klara och tydliga att följa. Uppgift 1 Man vill ta reda på om blodet hos manliga statistiker innehåller högre halt av hormonet t-testosteron än blodet hos andra män. Därför har man valt ut tio par av bröder, där den ene är statistiker och den andre har ett annat yrke. Alla bor i Stockholm. Mätningarna ger följande resultat i mg per liter: Par nr 1 2 3 4 5 6 7 8 9 10 Statistikern 10, 7 10, 7 10, 4 10, 9 10, 5 10, 3 9, 6 11, 1 11, 2 10, 4 Hans bror 9,6 10, 4 9, 7 10,3 9,2 9, 3 9,9 9,5 9,0 10, 9 Kan det på basis av dessa data anses säkerställt att statistiker har högre halter av hormonet t-testosteron än andra har? (2 p)
Statistik för naturvetare, Tisdagen den 14 december 2004 2 Uppgift 2 Hälsovårdsmyndigheten i en stad införde för ett år sedan en ny, strängare lagstiftning mot tomgångskörning av bilmotorer. Nu vill man utvärdera om den nya lagen har gjort någon verkan. En forskare vid namn Pettersson har utvecklat ett index för luftföroreningar, som är ett slags viktat medelvärde av några olika ämnen som är typiska för bilavgaser. Stora värden tyder på att luften är starkt påverkad av bilavgaser. Man har mätt Petterssons index vid sju tillfällen innan lagen infördes, och vid sju tillfällen efter att lagen börjat gälla. Värdena blev: Före: 1,2 2,8 1,6 0,50 0,50 0,50 0,85 Efter: 0,35 2,1 0,37 0,45 0,74 0,61 0,36 Testa på signifikansnivån 5 % om lagstiftningen har haft någon inverkan på luftmiljön. Det är inte lämpligt att anta att data är normalfördelade. (2 p) Uppgift 3 En grupp forskare har tagit fram ett nytt medel mot trötthet, kallat Cepophan. Man vill nu ta reda på om medlet har några bieffekter. Därför låter man trettio frivilliga försökspersoner ta medlet under en viss tidsperiod, samtidigt som en kontrollgrupp om trettio frivilliga personer tar ett placebopreparat. Man mäter sedan en lång rad variabler hos de sextio personerna, bl.a blodtryck, sömnsvårigheter, aptit och halter i blodet av diverse ämnen som man med mer eller mindre goda skäl kan tro påverkas av medlet. Med hjälp av sina medicinska kunskaper kommer man på inalles 25 variabler att undersöka. För var och en av dessa variabler gör man ett test på signifikansnivån 5 %, där nollhypotesen är att medlet inte har någon inverkan. a) Om sanningen är att alla dessa 25 variabler är helt opåverkade av om personen tar Cepophan eller inte, vad är då sannolikheten att forskarna ändå lyckas påvisa en statistiskt säkerställd bieffekt för minst en av variablerna? (1 p) b) En av medlemmarna i forskargruppen vet att det finns något som heter Tukey-Cramers metod som ibland kan användas för att undvika den fälla som antyds i a-uppgiften. Men den metoden duger inte här, ty vissa av variablerna mäts inte på intervallskala utan är kategorivariabler (t.ex sömnsvårigheter, som kategoriseras i Inga, Måttliga respektive Stora). Föreslå något annat sätt som man skulle kunna använda, om man på förhand vet att man vill göra 25 jämförelser mellan grupperna, och man vill att risken att överhuvudtaget slå ett enda falskt alarm skall vara 5 %. (1 p)
Statistik för naturvetare, Tisdagen den 14 december 2004 3 Uppgift 4 En viss typ av tabletter skall innehålla 4 mg av den aktiva substansen. Du har blivit anställd på en statlig kontrollmyndighet med uppgift att kontrollera att läkemedelstillverkarna uppfyller detta krav. Det finns sju laboratorier som är kompetenta att göra det relevanta slaget av analyser. Din första uppgift blir att bestämma om dessa sju laboratorier ger samma svar när de får likadana tabletter att analysera. Vi framställer sjuttio tabletter med exakt likadan kemisk sammansättning, och skickar tio till vart och ett av de sju laboratorierna. Laboratorierna rapporterar bl.a. följande medelvärden: Laboratorium 1 2 3 4 5 6 7 Medelvärde 4, 059 4, 018 4, 057 4, 121 4, 171 4, 115 4, 102 På grundval av de 70 mätvärdena får man följande variansanalystabell: Variationskälla Antal frihets- Kvadrat- MKVSUM F grader summa Mellan laboratorier 0.125 Inom laboratorier 0,231 Totalt a) Vilka förutsättningar måste vara uppfyllda för att ett F-test skall vara berättigat? (1 p) b) Komplettera variansanalystabellen och visa att hypotesen att laboratorierna är likvärdiga kan förkastas på signifikansnivån 5%. (1 p) c) Chefen för press- och informationsavdelningen säger: Medelvärdet blev högst för Lab 5, med 4.17 mg per tablett och lägst för Lab 2, med 4,02 mg. F-testet visade att inte alla labben är lika, och data visar ju att det framför allt är Lab 2 och Lab 5 som skiljer sig åt. Variansanalysen har alltså på signifikansnivån 5% bevisat att Lab 5 rapporterar högre värden än Lab 2. Förklara vad som är fel med detta påstående. (1 p) Uppgift 5, alternativ I Vid ett försök vill man studera inverkan av fyra faktorer, A, B, C och D. Vardera faktorn får variera mellan två nivåer, kallade plusnivå och minusnivå. Av ekonomiska skäl genomför man försök endast i åtta av de sexton möjliga nivåkombinationerna enligt följande tabell:
Statistik för naturvetare, Tisdagen den 14 december 2004 4 Försök nummer A B C D 1 + 2 + 3 + 4 + + + 5 + 6 + + + 7 + + + 8 + + + a) Kan man skatta samspelseffekten AB med de åtta försöksresultaten? Alternativt, bestäm med vilken annan effekt sampelseffekten AB är kopplad i detta försök. Motivera ordentligt. (1 p) b) Med räkningar som om försöket varit ett fullständigt 2 3 -försök i faktorerna A, B, C erhölls följande effektskattningar: A = 5.3; B = 8.1; AB = 1.0; C = 3.3; AC = 2.2; BC = 0.8; ABC = 1.9. Antag att högre ordnings samspel är försumbara och beräkna under denna förutsättning en skattning av huvudeffekten för faktor D. (1 p) c) Antag att man dessutom måste dela upp försöket ovan på två dagar (1 och 2) och vill gardera sig mot en ev. blockeffekt av blockfaktorn dag (utan samspel med de övriga faktorerna). Föreslå en blockindelning av försöket, som är sådan att den fortfarande tillåter skattning av medeleffekterna (huvudeffekterna) för A, B, C och D. Skriv svaret i form av en följd av 1:or och 2:or som anger vilka dagar de åtta försökspunkterna ovan skall genomföras. Motivera. (1 p) Uppgift 5, alternativ II Hälsovårdsnämnden i en storstad vill ta reda på om halten fotokemiska oxidanter i luften en eftermiddag kan förutsägas om man vet temperatur, vindhastighet och solinstrålning. Under en månad samlar man in data i form av följande tabell: Datum Temp (C) Vind (m/s) Solstrålning Oxidanthalt 1 25 5, 0 78 15 2 27 4, 7 77 20... 31 20 2, 5 79 25 Projektledaren vill analysera datamängden med s.k. multipel linjär regression (MLR).
Statistik för naturvetare, Tisdagen den 14 december 2004 5 a) Beskriv under vilka förutsättningar som MLR är en adekvat modell. (1 p) b) Ange några invändningar mot att använda MLR i det här fallet. (1 p) c) Efter att ha kört ett PC-program för MLR får projektledaren fram förklaringsgrad R 2 = 0.88, vilket han tycker låter bra. Förklara vad siffran betyder och varför man inte skall bli alltför imponerad av ett högt värde. (1 p) Lycka till!