STOCKHOLMS UNIVERSITET TENTAMEN MATEMATISKA INSTITUTIONEN Statistik för naturvetare Avd. Matematisk statistik Tisdagen den 16 januari 2007 Tentamen för kursen Statistik för naturvetare Tisdagen den 16 januari 2007 9-14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Tillåtna hjälpmedel: Levine, Ramsey & Smidt: Applied Statistics for Engineers and Scientists. Egna anteckningar. Miniräknare. Lösningar finns på kursens hemsida (www.math.su.se/matstat/und/statfnat) fr. o. m. skrivtidens slut. Återlämning: Fredag 19/1 2007 kl 14.00. Rum 312, hus 6. Den som vill veta sitt resultat per epost kan lämna uppgift om sin epostadress tillsammans med lösningarna. Krav för godkänt: För betyget godkänt krävs minst åtta poäng inklusive maximalt fyra poäng från inlämningsuppgifterna. För betyget väl godkänt krävs åtta poäng bland de tolv som är möjligt att få på skrivningen. Resonemang skall vara klara och tydliga att följa. Behandla endast ett av de båda alternativen på uppgift 5. Uppgift 1 En firma i budbranschen har under många års tid skaffat sig en omfattande erfarenhet av trafik med bilar (av en bestämd storlek) mellan Göteborg och Malmö. Varje gång en förare har genomfört en transport noterar han eller hon hur mycket bensin som har gått åt. Dessa uppgifter lagras vid firmans statistikavdelning. Man vill nu veta vad medelvärdet är för samtliga genomförda körningar, men eftersom det skulle bli för krävande att gå igenom hela datamaterialet nöjer man sig med att på måfå plocka ut data från femton enkla resor. Dessa data visar ett medelvärde på 40 liter och en standardavvikelse s = 3 liter. Man vill räkna ut ett konfidensintervall för medelvärdet för alla körningar, baserat på t-fördelningen. a) Ange vilka förutsättningar måste vara uppfyllda för att en sådan beräkning skall vara berättigad, och beräkna ett tvåsidigt symmetriskt 90 % konfidensintervall för medelvärdet av alla körningars bensinåtgång. (1 p)
Statistik för naturvetare, Tisdagen den 16 januari 2007 2 b) Skatta den minsta mängd bensin man måste ha i tanken när man startar från Göteborg för att vara 99 % säker på att den ska räcka hela vägen till Malmö. (1 p) Uppgift 2 En grupp hydrologer planerar att börja mäta vattenföringen i en viss å i Gästrikland med jämna mellanrum. Eftersom det är komplicerat att mäta vattenflödet, räknat som kubikmeter per sekund, kommer man på idén att placera ut en mätstav mitt i strömfåran och avläsa vattnets djup i stället. Förslaget bygger på antagandet att det skall finnas ett entydigt samband (kanske inte linjärt) mellan flöde och djup. För att utreda hur det är med detta utför man en försöksserie som omfattar tio samtidigt gjorda observationer av flöde och djup. Dessa mätningar görs vid varierande årstider, så att man skall täcka in både högvatten- och lågvattentillfällen. Resultaten blir Figur 1: Samtidiga mätningar av flöde och djup
Statistik för naturvetare, Tisdagen den 16 januari 2007 3 a) Ange några skäl till att linjär regression av flöde på djup inte är en bra metod. (1 p) b) Föreslå en annan statistisk modell för dessa data. (1 p) Uppgift 3 En grupp forskare studerar en viss komplikation som kan uppstå vid förlossningar. Efter att ha undersökt alla förlossningar i Sverige under ett års tid har man påträffat inalles tio fall av den här komplikationen. Av de tio fallen har åtta drabbat pojkar. På grundval av detta går försöksledaren ut med rekommendationen att man alltid bör ha förhöjd beredskap till hands när man vet att det barn som skall födas är en pojke. Är det säkerställt på 5 % signifikansnivå att den här komplikationen oftare drabbar nyfödda pojkar än nyfödda flickor, i det långa loppet? (2 p) Uppgift 4 För att avgöra om halten av ett visst ämne i blodet varierar med kön och/eller ålder i en befolkning gör man en serie mätningar. Man delar in befolkningen i tre olika åldersgrupper: unga, medelålders och gamla, och tillsammans med uppdelningen efter kön har man alltså sex olika kategorier. Man mäter halterna hos fem personer av varje kategori och finner följande värden: Ålder Gammal Gammal Medelålders Medelålders Ung Ung Kön Kvinna Man Kvinna Man Kvinna Man 99 97 98 97 99 97 90 87 91 88 89 93 110 111 115 113 110 110 97 94 103 101 101 97 85 88 87 87 86 88 Två statistiker, Adamsson och Bertilsson, analyserar dessa data oberoende av varandra. De presenterar var sin ANOVA-tabell. Här visas en del av Adamssons tabell: Variationskälla Kvadrat- Antal frihets- Mkv F summa grader Ålder 404.27 Kön 874.80 Samspel 543.20 Residualer 2849.60 Totalt
Statistik för naturvetare, Tisdagen den 16 januari 2007 4 Bertilssons tabell är lite annorlunda, ty Bertilsson har inte tänkt på att det kan finnas samspel mellan faktorerna ålder och kön. a) Fullborda båda variansanalystabellerna. (1 p) b) Vilka av faktorerna kön, ålder och eventuellt samspel har någon säkerställd inverkan? (1 p) c) Resultatet av b-delen antyder att man kan ställa upp en ANOVA-tabell som är ännu enklare än Bertilssons. Gör det och använd den för att skatta hur mycket halten varierar inom en grupp som är ålders- och könsmässigt homogen (skatta standardavvikelsen). (1 p) Uppgift 5, alternativ I En bakteriolog jämförde två olika näringslösningar och två olika bakteriekulturer i ett 2 2 -försök, där bakteriernas tillväxt var den studerade variabeln. Bakteriologen tog fyra prover från varje kultur till varje näringslösning och kunde mäta upp följande tillväxtvärden: Kultur I I II II Näring A B A B 20 32 26 31 26 28 25 34 23 30 29 29 27 30 24 30 Medelvärde 24 30 26 31 a) Uppskatta det slumpmässiga försöksfelets standardavvikelse. (1 p) b) Kan det vara rimligt att uttala sig om skillnaden mellan näringslösningarna A och B utan att hänföra till en bestämd av de två bakteriekulturerna? (1 p) c) Uppskatta den systematiska skillnaden mellan A och B. (1 p) Uppgift 5, alternativ II En forskargrupp som du tillhör vill ta reda på hur mängden organiskt material som ett träd bygger upp under ett dygn beror på olika faktorer i trädets omgivning. Ni har undersökt ett och samma träd under tio slumpvis valda dygn ett år, och fått nedanstående data.
Statistik för naturvetare, Tisdagen den 16 januari 2007 5 Koldioxid- Solskenstid Medeltemp. Regnmängd under dygnet assimilation(y) (timmar) (oc) (mm) 67 10 20 0 56 8, 2 16, 4 0 4, 5 0, 4 1 5 70 2, 8 5, 6 4 50 12 24 0 89 7, 8 15, 6 2 48 6, 0 12 10 65 5, 6 11, 2 0 69 7, 0 14 8 70 11, 4 22, 8 0 Din professor vet att det finns något som heter multipel linjär regression, och han är intresserad av att använda denna metod för att analysera gruppens data. a) Ange några skäl för och/eller mot multipel linjär regression som statistisk modell i det här fallet. (2 p) b) Om man av någon anledning inte klarar av att göra multipel linjär regression, utan gör tre enkla linjära regressioner i stället, alltså regression av koldioxid-assimilationen på i tur och ordning solskenstid, medeltemperatur och regnmängd, leder detta till samma regressionskoefficienter som om man hade gjort multipel linjär regression? Motivera svaret. (1 p) Lycka till!