Övningstenta för MSG830 Max 30 p, för godkänt krävs 12 p 1. Vi har två händelser A och B. Om dessa vet vi att A sker med sannolikheten 0.2 och B med sannolikheten 0.5. Sannolikheten att varken A eller B händer är 0.4. (a) Undersök om A och B är oberoende. Vi vet att P (A) = 0.2,P (B) = 0.5 och P (A B) = 1 0.4 = 0.6. Av detta följer att P (A B) = P (A) + P (B) P (A B) = 0.2 + 0.5 0.6 = 0.1 = 0.2 0.5 = P (A) P (B) alltså är A och B oberoende (b) Vad är den betingade sannolikheten P (A B)? Eftersom A och B är oberoende gäller P (A B) = P (A) = 0.2 (c) Vad är den betingade sannolikheten P (A A B) P (A A B) = P (A (A B P (A B) = P (A) P (A B) = 0.2 0.6 = 1 3 2. En Chalmersstudent extraknäcker under sommaren genom att med god förtjänst sälja fotbollströjor med texten Messi, Ronaldo eller Ibrahimovic för enhetspriset 400 kronor. Tidigare statistik visar att 50% av kunderna köper Messi, 30% köper Ronaldo och 20% köper Ibrahimovic. Studenten beräknar kunna sälja 100 tröjor. Inköpspriserna för produkterna varierar dock så att Messi kostar220 kronor, Ronaldo kostar 200 kronor och Ibrahimovic kostar 150 kronor. Allt sker utan inblandning av skattemyndigheter. (a) Vad är den förväntade vinsten per såld tröja? Vinsterna för en såld tröja är 180, 200 och 250 för Messi, Ronaldo respektive Ibrahimovic. Om X betecknar vinsten för en såld tröja är E[X] = 0.5 180 + 0.3 200 + 0.2 250 = 200 (3p) (b) Vad är vinstens standardavvikelse för en såld tröja? Vinstens varians är σ 2 = 0.5(180 200) 2 + 0.3(200 200) 2 + 0.2(250 200) 2 = 700 och standardavvikelsen alltså σ = 700 = 26.5 (c) Studenten vill gärna tjäna åtminstone 19000 kronor på hela försäljningen. Vad är sannolikheten att lyckas med det om 100 tröjor säljs? För att tjäna 19000 på 100 sålda tröjor behöver studenten uppnå X 190. Vi utnyttjar centrala gränsvärdessatsen som säger att Z = X µ σ/ n = X 200 700/10 1
är approximativt standard normalfördelad. Då har vi att P ( X 190) = P (Z 190 200 700/10 ) = P (Z 3.78) Ligger utanför bifogad tabell, men alla svar av typ >99% är OK. (3p) 3. Två olika legeringar för pansarplåt jämfördes genom att beskjutas med succesivt ökande utgångshastighet tills kulorna tränger genom plåten. Legering A består bara av metaller, medan legering B också innehåller Teon. Man utförde 15 prov med legering A och 10 med legering B Legering n medel (m/s) sd A 15 1293 64 B 10 1404 48 (a) Ange ett 95%-igt kondensintervall för skillnaden i utgångshastighet vid penetrering? Vi antar att de uppmätta hastigheterna är normalfördelade och att variansen är lika i de båda grupperna. Skillnaden (µ B µ A ) i medelvärde är 1404 1293 = 111 m/s. Den poolade standardavvikelsen är s = (15 1)642 + (10 1)48 2 15 + 10 2 = 58.3 t-fraktilen för 95%-igt kondensintervall vid 23 frihetsgrader är 2.069, så kondensintervallet ges av 1 111 ± 2.069 58.3 10 + 1 15 111 ± 49.2 (b) Kan vi förkasta H 0 på signikansnivå 0.01? I (a) hade vi fått ett 99%igt kondensintervall om vi bytt ut 2.069 mot 2.807 vilket hade gett 111 ± 66.75 vilket inte täcker 0 och därmed kan vi förkasta H 0 på nivå 0.01 enligt dualiteten mellan test och kondensintervall. 4. En tillverkare (A) av insektsbekämningsmedel för druvor (Pinot noir) vill demonstrera att deras produkt är överlägsen en annan produkt tillverkad av konkurrenten (B). De gör 16 försök med sin egen produkt och 9 med konkurrentens. I alla försök mäter man förändringen δ av skördeutfallet jämfört med obesprutade plantor. (δ > 0 betyder förbättring) Tillverkare n δ sδ A 16 0.3 0.5 B 9 0.2 0.5 Därefter hävdar de att deras produkt är överlägsen konkurrentens eftersom den visade en signikant förbättring, men det gjorde inte konkurrentens. (a) Veriera påståendet att A var signikant bättre än obesprutat och att B inte var det. Vi ska alltså göra två parade test med ensidig mothypotes. Teststatistikorna är t- fördelade med 15 frihetsgrader för A och 8 frihetsgrader för B. De kritiska värden hämtas ut tabell. 0.3 T A = 0.5/ = 2.4 > 1.753 Vi kan förkasta nollhypotesen 16 2
T B = 0.2 0.5/ = 1.2 < 1.86 Vi kan inte förkasta nollhypotesen 9 (b) Förklara varför detta trots allt var ett dumt sätt att resonera och gör en relevant jämförelse mellan de två produkterna. Den relevanta jämförelsen bör göras med ett tvåstickprovstest mellan förbättringen av A och förbättringen av B. Den poolade standardavvikelsen blir 0.5 (självklart!) och den teststatistikan är t-fördelad med 16+9-2=23 frihetsgrader 0.3 0.2 T = 0.5 = 0.24 < 1.714 1/16 + 1/9 Vi kan alltså inte påstå att A är signikant bättre än B. 5. I en undersökning av sambandet mellan exponering för oljud (mätt i decibel) och blodtrycksstegring (mätt i mmhg) fann man med 8 mätningar följande regressionsformel stegring = 9.8 + 0.17(decibelnivå) Ett tvåsidigt signikanstest av lutningen gav ett p-värde på 0.05. (a) Vid vilken (o)ljudnivå förväntas blodtrycksstegringen uppgå till 10 mmhg? Invertering av regressionsformeln ger decibelnivå = stegring + 9.8 0.17 = 10 + 9.8 0.7 116 (b) En annan studie fann samma regressionsformel, hade 16 observationer och samma skattning på bruset (det statsitiska bruset, inte oljudet), men ck likväl inte någon signikans på lutningen (p=0.39). Ge en förklaring till vad det kunde bero på. Med ett dubbelt så stort stickprov borde signikansen vara betydligt bättre än 0.05 med tanke på att residualvariansen var samma. Den enda förklaringen är att den nadra studien har mätt inom ett snävare decibelområde vilket leder till att osäkerheten kring lutningen trots allt blir större. 3
6. Man har samlat data om felrapporter hos en satellit och vill undersöka om typen av fel kan beror på om satelliten ligger i skugga eller sol då felet uppstår. Man testar detta och resultatet framgår nedan. Figur 1 (a) Finns det något signikant samband mellan typ av fel och om satelliten ligger i skugga eller sol? Ja, Pearsons Chi-square test ger p=0.007<0.05 så alla grupper är inte lika. (b) Vi har ganska många celler här (10). Då brukar det ibland vara motiverat att använda ett trendtest. Kan det vara lämpligt att göra det här? Motivera! Trendtestet är lämpligt när man har ordinaldata. Subsystemet är inte av den typen. Mycket riktigt ser vi också att p-värdet för trendtestet (Linear-by-Linear) är större än den vanliga Pearson. (c) Har positionen någon signikant betydelse för felrisken om vi bara fokuserar på Data transmission och reception? Den förväntade värdena till 2 x 2 tabellen beräknas genom 54 17 = 9.1, 54 84 = 44.9, 47 17 Shadow Sunlight Data transmission 9.1 44.9 54 Reception 7.9 39.1 47 17 84 χ 2 (11 9.1)2 (43 44.9)2 = + + 9.1 44.9 så det är ingen signikant skillnad (6 7.9)2 7.9 = 7.9, + 47 84 (41 39.1)2 9.1 = 39.1 = 1.038 < 3.843 4
7. Bakterier kan tydligen vara behjälpliga även vid gruvdrift! En bergsingenjör samlade data om kopparutbytet i mineralprover som behandlats med 3 olika bakteriestammar. En analys av data som gjordes av en statsitiker presenteras nedan Figur 2 (a) Fanns det skillnad mellan grupperna? Ja, F-testet i ANOVAn ger p=0.021<0.05 så alla grupper är inte lika. (b) Vilka stammar skiljer sig signikant åt? 2 och 3 enligt Tukey post hoc testet (p=0.024<0.05) (c) Bergsingenjören gjorde själv tre test där han jämförde enbart två stammar åt gången. För jämförelsen mellan stam 1 och 3 fann han följande Figur 3 Förklara varför denna jämförelse mellan stam 1 och stam 3 skiljer sig mot den som statistikern gjorde. Bergsingenjören har inte bekymrat sig om multipel inferens. Post hoc testet tar hänsyn till att man gör tre parvisa jämförelser och korrigerar sina signikanser efter detta. 5
8. Vid ett test av H 0 : µ = 0 mot H 1 : µ > 0 av en normalfördelad variabel med känd varians σ 2 var stickprovsstorlekn n 1 = 20 och man lyckades precis få signikans på signikansnivå α = 0.05. Tyvärr ck man (obefogad) kritik för att ha använt en enkelsidig alternativhypotes och tvingades därför utöka sin studie till total stickprovsstorlek n 2. Hur stor behöver n 2 vara för att klara samma signikansnivå med en tvåsidig mothypotes om vi antar att man får samma medelvärde? De kritiska värdena för test med normalfördelad teststatistika på 5% nivå är 1.645 och 1.96 för en- respektive tvåsidig mothypotes. Från det första ensidiga testet hade man alltså X σ/ n 1 = 1.645 Om vi antar att vi får samma medelvärde krävs alltså X σ/ n 2 > 1.96 Tillsammans ger det och alltså Alltså behöver n 2 vara minst 29. X σ/ n2 = 1.645 > 1.96 n 2 n 1 n 2 > 20( 1.96 1.645 )2 = 28.4 6