MSG830 Statistisk analys och experimentplanering Tentamen 20 Mars 2015, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel: Valfri kalkylator Antal poäng totalt: 30. För betyget godkänd krävs minst 12 poäng, för väl godkänd 22 poäng 1. Man har noterat att av hemodlade äpplen är 30% maskätna och 40% är angripna av skorv. Dessutom vet vi att 60% av de skorvangripna äpplena samtidigt är maskätna. Beteckna händelser M=maskäten, S=skorv. (a) Är M och S oberoende? Motivera! Nej, ty enligt beskrivningen är P (M) = 0.3 0.6 = P (M S) (b) Beräkna sannolikheten att ett hemodlat äpple varken är maskätet eller angripet av skorv. Det vi söker kan uttryckas som 1 P (M S) Vi börjar med P (M S) = P (M S)P (S) = 0.6 0.4 = 0.24 och fortsätter med Det ger slutligen att P (M S) = P (M) + P (S) P (M S) = 0.3 + 0.4 0.24 = 0.46 P (varken maskäten eller skorv) = 1 P (M S) = 1 0.46 = 0.54 2. Den nska skidskytten Kaisa Mäkäräinens träprocent i liggande skytte är 85% och i stående 82%. I grenen sprint skjuter man 5 liggande och 5 stående. För varje bom tvingas man till en strarunda som tar ca 25 sekunder. Låt L beteckna antalet bom i liggande och S antalet bom i stående. Gör det i och för sig orealistiska antagandet att resultatet av varje skott är oberoende händelser. (a) Vad är sannolikheten att Kaisa skjuter felfritt? P (felfritt) = P (5 liggande träar)p (5 stående träar) = 0.85 5 0.82 5 = 0.1645 (b) Vilken fördelning har L respektive S. Sannolikheten för liggande bom är 1 0.85 = 0.15 och för stående bom 1 0.82 = 0.18. Med antagandet om oberoende ger det de två binomialfördelningarna L bin(5, 0.15), S bin(5, 0.18) (c) Hur lång tid får hon genomsnittligt lägga på strarundor? Tiden (i sekunder) hon lägger på strarundor är 25L+25S. E[25L + 25S] = 25E[S] + 25E[L] = 25 5 0.15 + 25 5 0.18 = 41.25 1
3. Vid en undersökning av utsläppen i en od mätte man vid 7 tillfällen ph koncentrationen samtidigt uppströms och nedströms ett industriavlopp. Vid mätningarna erhölls följande resultat: 1 2 3 4 5 6 7 Nedströms 8.40 8.55 8.24 8.12 8.67 8.74 8.30 Uppströms 8.37 8.41 8.33 8.02 8.71 8.66 8.31 (a) Ange ett 95%igt kondensintervall för ph skillnaden mellan nedströms och uppströms. Vi antar att skillnaderna vid varje mättillfälle är normalfördelade N(δ, σ) och räknar först ut de sju skillnaderna: 0.03, 0.14, 0.09, 0.10, 0.04, 0.08, 0.01. och får δ = 0.03. Standardavvikelsen ges av 1 s δ = 6 ((0.03 0.03)2 + + ( 0.01 0.03) 2 ) = 0.0821 Ett 95% kondensintervall fås genom δ ± t 0.025,n 1 s δ / n = 0.03 ± 2.447 0.0821/ 7 = ( 0.046, 0.106) (b) Kan vi förkasta en nollhypotes att det inte föreligger någon skillnad mot att det gör det på signikansnivå 0.01? Nej, enligt a täcker inte det 95%iga kondensintervallet 0 och dualtiteten mellan kondensintervall och test säger då att vi inte kan förkasta H 0 : δ = 0 på nivå 0.05. Då kan vi förstås ännu mindre förkasta H 0 på den strängare nivån 0.01. 4. Kärnkraftsarbetare utsätts yrkesmässigt för radioaktivitet och detta mäts hela tiden. Under 1973 exponerades i USA 16 arbetare för i genomsnitt 0.94 rem (s=0.20) medan 1979 exponerades 16 andra arbetare för i genomsnitt 0.62 rem (s=0.16). Testa på signikansnivå 0.05 om det nns någon skillnad i exponering mellan 1973 och 1979. Vi ska testa H 0 : µ 1973 = µ 1979 mot H a : µ 1973 µ 1979 Vi antar normalfördelning och lika varians och gör ett tvåstickprovstest. Först beräknas den poolade stickprovsvariansen s 2 = (16 1)0.202 + (16 1)0.16 2 16 + 16 2 = 0.0328 Sedan beräknar vi teststatistikan som är t 16+16 2 = t 30 fördelad om H 0 är sann T = 0.94 0.62 0.0328 1/16 + 1/16 = 5.0 Ur tabell A.5 avläser vi det kritiska värdet 2.042 för ett tvåsidigt test. Eftersom 5.0>2.042 kan vi konstatera att det skett en signikant förändring av exponeringen för radiaktivitet hos arbetarna mellan 1973 och 1979. 2
5. Det nns olika metoder att träna inför högskoleprov och generellt lyckas man bättre vid andra försöket. För att utvärdera metoderna valdes 60 ungdomar i åldern 20-22 ut. De hade alla skrivit ett högskoleprov med resultat i intervallet 47-49 (normerat till 1.3). Efter provet hade de använt en av tre träningsmetoder (Holmegaards bok: Den kompletta guiden till högskoleprovet, Gamla prov och den webbaserade HP-guiden) eller inte tränat alls. Deras ökning i råpoäng räknades ut och de olika grupperna jämfördes med det statistiska test som visas nedan (a) Vad kallas testet och kunde man påvisa signikanta skillnader på signikansnivå 0.05? ANOVA (F-test) (b) Föreslå ett annat (starkare) sätt att analysera resultatet för att fastställa om träning lönar sig. Det vore förnuftigare att först slå samman alla 3 träningsgrupperna till en med 30 provdeltagare för att se om träning är bättre än icke träning. Detta kan då testas med ett tvåstickprovs ttest. 6. I ett genetiskt korsningsexperiment av en röd och vit blomma vill man studera om proportionerna röd, rosa, vit skiljer sig åt mellan behandlade blommor och obehandlade. Man utförde 100 korsningar efter behandling och 100 utan behandling och utfallet framgår av tabellen nedan. röd rosa vit Kontroll 20 50 30 Behandlade 33 50 17 Man använde sig av det för ändamålet naturliga testet där man ska förkasta nollypotesen för stora värden på teststatistikan. Teststatistikan beräknades till 6.784. (a) Vad är det kritiska värdet för detta test på signikansnivå 0.05 och kunde man alltså förkasta H 0 eller ej? Testet är ett χ 2 test av homogenitet med (3 1)(2 1) = 2 frihetsgrader. Ur tabell A.7 nner vi det kritiska värdet 5.992. Då 6.784>5.992 kan vi förkasta nollhypotesen att färgproportionerna är samma hos kontroller och behandlade (b) I den aktuella situation är det dock tveksamt att använda kontrollgrupp då blommans färg är vad man kallar codominant och därför kan de teoretiska proportionerna bestämmas till 0.25, 0.5, 0.25. Utför ett test som jämför utfallet av de behandlade med teoretiska proportioner istället. 3 (3p)
Nu ska vi istället göra ett goodness of t test. Även detta test har 2 frihetsgrader (3-1). De förväntade antalet av färgerna är 25,50 och 25. χ 2 = (33 25)2 25 + (50 50)2 50 + (17 25)2 25 = 128 25 = 5.12 Eftersom 5.12<5.992 så kan vi nu inte förkasta att proportionerna är (0.25,0.5,0.25) 7. De fyra diagrammen a,b,c,d visar på sambandet mellan en variabel x och en variabel y. (a) (b) (c) (d) (a) Vilken gur hör ihop med r = 0.196, P = 0.437? Det måste vara b, ty c och d har positiv korrelation och är rimligen signikanta, medan a bör ha betydligt högre negativ korrelation och dessutom vara kraftigt signikant. 4
(b) Vilken gur hör ihop med följande resultat Det måste vara gur c eftersom skärningen β 0 = 6.9. (c) Vilken gur hör ihop med r = 0.941, P < 0.001? Hög negativ korrelation måste vara gur a. (d) Vilken gur hör ihop med förklaringsgraden 0.885? Det bör också vara a eftersom ( 0.941) 2 = 0.885 (e) Vilken gur hör ihop med nedanstående resultat? Det måste vara d eftersom det är ett annat R 2 än övriga. Bilden liknar c men anledningen att den har större R 2 än c är att den har ett större spann på x-axeln. (f) Till vilken gur är linjär regression olämplig? I gur b ser y snarare ut att följa en andragradskurva. Det är i varje fall väldigt olinjärt. 8. Man vill testa om en normalfördelad variabel X har ett väntevärde som är µ = 100, mot alternativhypotesen att det är större (µ > 100). Standardavvikelsen σ är känd och med den stickprovsstorlek n man samlat så kan man förkasta H 0 på signikansnivå 0.05 om X > 110. (a) Bestäm σ/ n genom att utveckla under antagandet att µ = 100. P ( X > 110) = = 0.05 5 (3p)
P ( X > 110) = P ( X 100 σ/ 110 100 > n σ/ n ) = P (Z > 10 σ/ n ) = 0.05 Ur tabell A.5 (t ) hittar vi det kritiska värdet 1.645 för ett enkelsidigt z test på nivå 0.05 10 σ/ n = 1.645 σ/ n = 10/1.645 = 6.079 (Alternativt använder vi tabell A.3) (b) Vid vilket värde µ 1 är styrkan 80%? Ledning: Utveckla P ( X > 110) = = 0.8 under antagandet att µ = µ 1, utnyttja svaret i (a) samt att för en standard normalfördelad variabel Z är P (Z > 0.84) = 0.8 P ( X > 110) = P ( X µ 1 σ/ n > 110 µ 1 σ/ n ) = P (Z > 110 µ 1 6.079 ) = 0.8 Vilket ger 110 µ 1 6.079 = 0.84 µ 1 = 110 + 0.84 6.079 = 115.1 6