MSG830 Statistisk analys och experimentplanering - Lösningar Tentamen 16 augusti 2016, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel: Valfri kalkylator Antal poäng totalt: 30. För betyget godkänd krävs minst 12 poäng, för väl godkänd 22 poäng 1. Karin är hopplöst trött på sina föräldrar som inte svarar sina mobiltelefoner av skäl som att den inte är laddad, de hör inte signalen, ljudet är avstängt mm. Händelsen (M) att hon når sin mor har sannolikheten 40%. Händelsen (F) att hon når sin far har sannolikheten 25%. Sannolikheten att hon når någon av föräldrarna är 45%. (a) Vad är sannolikheten att Karin inte når någon förälder? Enligt texten är P (M F ) = 0.45 så då är komplementet 1 P (M F ) = 1 0.45 = 0.55 (b) Är händelserna M och F oberoende? P (M F ) = P (M) + P (F ) P (M F ) = 0.40 + 0.25 0.45 = 0.20 P (M)P (F ) = 0.4 025 = 0.10 Alltså är de inte oberoende ty P (M F ) P (M)P (F ). (c) Rita ett Venndiagram med händelserna M och F. Räkna ut och markera i diagrammet sannolikheterna för F M, F M C, F C M och F C M C. Vi har redan att P (M F ) = 0.2 och P (M C F C ) = 0.55. Vidare gäller LÄGG IN BILD HÄR P (M F C ) = P (M) P (M F ) = 0.40 0.20 = 0.20 P (M C F ) = P (F ) P (M F ) = 0.25 0.20 = 0.05 (d) Vad är sannolikheten att hennes far svarar om hennes mor inte gör det? P (F M C ) = P (F M C ) P (M C ) = 0.05 1 0.4 0.083 2. Martina ska spela Wordfeud med sin handledare. Han föreslår att de ska spela 10 matcher, men Martina tycker de ska spela ett udda antal så att det inte kan sluta oavgjort. Handledaren påpekar då att den risken är försumbar eftersom hon bara har 20% chans att vinna vid varje parti. Martina anser dock att de är lika bra och tycker inte alls att det är försumbart. (a) Beräkna risken för oavgjort om Martina har rätt. Låt M beteckna Martinas antal vinster. Enligt henne är då M bin(10, 0.5). P (M = 5) = ( ) 10 0.5 5 (1 0.5) 10 5 = 252 0.25 5 0.246 5 1
(b) Beräkna risken för oavgjort om handledaren har rätt. Enligt handledaren är M bin(10, 0.2). P (M = 5) = ( ) 10 0.2 5 (1 0.2) 10 5 = 252 0.16 5 0.026 5 (c) Nu spelar de i alla fall 10 partier och Martina vinner 2 helt enligt handledarens gissning. Kan han därmed hävda att han är bättre? Testa alltså hypotesen H 0 : θ = 0.5 mot H 0 : θ < 0.5, där θ är Martinas chans att vinna, på signikansnivå 5%. Vi räknar ut p-värdet = p = P (M = 0) + P (M = 1) + P (M = 2) ) ( ) ( 10 10 0.5 0 0.5 10 + 0.5 1 0.5 9 + 1 2 ( 10 0 = (1 + 10 + 45)0.5 10 0.055 ) 0.5 2 0.5 8 Eftersom 0.055>0.05 har handledaren inte visat att han är signikant bättre än Martina. 3. Många västkustbor har nog en känsla av att sommarvädret är bättre på ostkusten. Det borde inte vara så svårt att reda ut. En sökning på SMHI gav följande månadsmedelvärde regn (mm) för de senaste 18 somrarna på Nordkoster och Gotska Sandön. Station medel std.avv Nordkoster 66 31 Gotska Sandön 54 33 Är det en signikant skillnad på 5%-nivå på regnmängden mellan de två öarna. Vi ska göra ett tvåstickprovs ttest. Den poolade standardavvikelsen är (18 1)312 + (18 1)33 s p = 2 32.0 18 + 18 2 och teststatistikan T = 66 54 32.0 1/18 + 1/18 1.1 med (36-2) frihetsgrader. Kritisk gräns är t 0.025,34 = 2.032, så eftersom 1.1<2.032 är det ingen signikant skillnad mellan öst och väst. (Förmodligen vore det bättre med ett parat t-test eftersom det rimligen är ett visst positivt samband mellan regnmängd i öst och väst under sammma år, men vi hade ju inte de detaljerna) 4. Om man är högerhänt är det lättare att borsta tänderna i vänster käke. Detta skulle kunna påverka risken för karies. Sex medelålders personer, alla högerhänta, roade sig med att räkna antalet lagningar i vänster respektive höger käke. Person Vänster Höger 1 3 5 2 2 3 3 4 4 4 6 9 5 4 8 6 9 11 Testa med lämpligt test på signikansnivå 5% om det föreligger någon skillnad i frekvensen lagningar mellan höger och vänster käke. 2
Vi använder ett parat t-test. Först bildar vi dierenserna (höger minus vänster) 2,1,0,3,4,2. Deras medelvärde är 12/6=2 och standardavvikelsen 1 s = 6 1 ((2 2)2 + (1 2) 2 + (0 2) 2 + (3 2) 2 + (4 2) 2 + (2 2) 2 ) = 2 Vi testar med T = D s/ n = 2 2/ 6 = 2 3 = 3.464 T är t-fördelad med 5 frihetsgrader och kritisk värde på 5% nivå är t 0.025,5 = 2.571. Eftersom 3.464>2.571 verkar det nnas signikant er lagningar i höger käke. 5. Nedan är ett histogram över graviditetslängden hos norska kvinnor som födde sitt 5:e barn. Som framgår av diagrammet var det 594 kvinnor och graviditetslängden var i medeltal 277.46 dagar med en standardavvikelse på 11.668. Figur 1 (a) Beräkna standardfelet av skattningen SEM = s/ n = 11.668/ 594 = 0.48 (b) Vad heter den sats som du behöver åberopa för att beräkna ett kondensintervall för graviditetslängden? Centrala gränsvärdessatsen eller Central limit theorem 3
(c) Bestäm ett 95% kondensintervall. Eftersom graviditetslängden är uppenbart skev, men n = 594 är ett stort tal utnyttjar vi centrala gränsvärdessatsen och bildar ett kondensintervall med 277.46 ± 1.96 0.48 = 277.46 ± 0.94 eller (276.52, 278.4) (d) Är medelvärdet signikant skilt från 280? Testa på signikansnivå 5%. Eftersom 280 inte ligger i det 95%iga kondensintervallet kan vi direkt förkasta nollhypotesen att graviditetslängden är 280 hos denna grupp kvinnor med den matchande signikansnivån 5%. 6. I ett projekt på en statistikkurs undersökte en grupp om det nns samband mellan benägenhet till samåkning och stadsdel. Man valde då att observera 100 bilar vardera i Majorna resp vid Korsvägen från kl 8 på morgonen. Gruppen hade förväntat sig att nna mer samåkning i Majorna, men dessa fördomar föll då det faktiskt var mer samåkning vid Korsvägen. Samåkning Plats Ja Nej Korsvägen 32 68 Majorna 18 82 (a) Beräkna oddskvot för samåkning vid Korsvägen jämfört med Majorna. OR = 32 82 18 68 2.14 (b) Testa på signikansnivå 5% om det nns ett samband mellan stadsdel och samåkning. De förväntade värden är Samåkning Plats Ja Nej Korsvägen 25 75 100 Majorna 25 75 100 50 150 200 Vi ska göra ett chi2 test. χ 2 = (32 25)2 25 + (18 25)2 25 + (68 75)2 75 + (82 25)2 75 5.23 Kritiskt värde på 5% nivå för en χ 2 fördelning med 1 frihetsgrad är 3.843, så eftersom 5.23>3843 är det en signikant skillnad mellan de två platserna med avseende på samåkning. 4
7. Följande gurer visar samband mellan en variabel x och en variabel y1 respektive en variabel y2. Den skattade regressionslinjen har i båda fallen skärningen 3.21 och lutningen 0.67. (a) (b) (a) Vad ökar y med när x ökar med 1 enhet? 0.67 (Det är innebörden av lutningskoecienten) (b) Den ena regressionen har en förklaringsgrad som är 60%, medan den andra har en förklaringsgrad som är 27%. Vilken av gurerna har förklaringsgraden 60% och varför? Om man jämför bilderna ser man att y varierar mindre i a, men eftersom modellen bidrag är densamma så blir därför förklaringsgraden högre i a, dvs det måste vara den som har R 2 = 0.6. (c) Vad är korrelationen i regressionsanalysen som svarar mot förklaringsgraden 60%? Vi vet att r 2 = R 2 och eftersom lutningen är positiv, så ger det r = 0.6 = 0.77 (d) Testa om det starkaste sambandet är signikant på signikansnivå 1%. Använd ett tvåsidigt test. I det starkaste sambandet är r 2 = R 2 = 0.6. Vi räknar observationerna (n = 10) och utnyttjar formeln T = r n 2 1 r 2 = 0.6 10 2 1 0.6 = 12 3.46 som är t-fördelad med 8 frihetsgrader. Kritiska värdet på 1% nivå är t 0.005,8 = 3.355. Eftersom 3.46>3.355 är alltså sambandet signikant. 8. På ett lantbruksuniversitet experimenterade man olika kemikalier för att öka skördemängden av en gröda. Man experimenterade också med kemikalier för att öka hållbarhet och andra egenskaper. I en experiment serie gjordes en behandling för att öka skörden, man hade en kontrollgrupp och sedan var det 4 andra försök (A,B,C,D) som syftade till att påverka andra egenskaper. Resultatet visas nedan. Då man totalt hade 6 grupper körde man en ANOVA och tyvärr fann man ingen signikant skillnad mellan grupperna. Det var dock en ganska korkad analys. Beskriv hur man borde gjort istället. Ett tvåstickprovs ttest mellan Kontroll och Sioven hade varit lämpligt. Med era grupper blir det svårare att få signikans med ANOVA. (2p) 5
Figur 2 6