MSG830 Statistisk analys och experimentplanering

MSG830 Statistisk analys och experimentplanering Tentamen 16 April 2015, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel: Valfri kalkylator Antal poäng totalt: 30. För betyget godkänd krävs minst 12 poäng, för väl godkänd 22 poäng 1. På sin väg hem passerar Suzanne två trakljus, A och B. Risken att hon får rött ljus vid A är 40% och samma risk gäller vid B. Chansen att passera båda utan rött ljus är 22%. Vad är risken att hon behöver stanna för rött ljus vid B om hon redan har stannat för rött ljus vid A? Låt händelsen A vara 'Rött ljus vid A' och B vara 'Rött ljus vid B'. Då ger uppgiften P (A) P (B) och P (A B ) 0.22. Vi söker den betingade sannolikheten P (B A) P (B A) P (A) P (B) P (A) P (B A) (1 P (B A )) 0.8 (1 0.22) 0.05 2. Du är medlem i en konstklubb med 21 medlemmar där varje medlem köper en tavla värd 1000 kronor. Vid vårfesten lottas dessa tavlor ut en och en. Varje medlem har samma chans på varje tavla, utom på sin egen som man inte kan vinna alls. (a) Vilken fördelning har det antal tavlor som du vinner? Ange både namnet på fördelningen och storleken på parametrarna. För varje tavla utom din egen är din chans att vinna 1/20. Du deltar i 20 oberoende dragningar, så fördelningen blir binomialfördelad med parametrarna n 20 och p 1/20. (b) Vad är chansen att vinna mer än en tavla? Om antalet vunna tavlor är X så är P (X > 1) 1 P (X 0) P (X 1) 1 ( 19 20 )20 20 ( 1 20 )(19 20 )19 0.264 (c) Antalet medlemmar som får en tavla är en stokastisk variabel Y som kan skrivas som Y Y 1 Y 2 Y 21, där Y i 1 om man vinner något och 0 annars. Utnyttja detta för att bestämma väntevärdet för antalet medlemmar som vinner någon tavla. så P (Y i 1) 1 ( 19 20 )20 0.6415 E[Y i ] 0 P (Y i 0) 1 P (Y i 1) 1 ( 19 20 )20 0.6415 för varje medlem i 21 E[Y ] (E[Y i ]) 21 0.6415 13.5 i1 1

3. Vid en rättspsykiatrisk klinik i Småland genomförde man ett försök där de intagna ck en intervention som bestod i 15 lektioner a 45 minuter av specialanpassad lästräning. Nedan visas resultaten från ett test som kallas ordkedja (höga värden är bra) för 11 kvinnor med svenskt modersmål. Patientnummer 1 2 3 4 5 6 7 8 9 10 11 Före intervention 33 38 47 49 44 46 37 36 41 41 39 Efter intervention 38 42 49 59 51 52 41 39 43 48 44 Testa om det skett en signikant förbättring. Använd signikansnivå 0.05. Vi ska göra ett parat t-test. Den genomsnittliga förbättringen är med δ 5 4 2 10 7 6 4 3 2 7 5 11 5 s 2 1 11 1 ((5 5)2 (4 5) 2 (5 5) 2 ) 5.8 så s 5.8 2.41. Teststatistikan blir T δ s/ n 5 2.41 10 6.6 Vi kan förkasta en ensidig mothypotes med signikansnivå 0.05 om T > t 0.05,11 1 1.812, så det har med råge skett en signikant förbättring. 4. Regnvattenprover från olika orter på Nya Zeeland med avseende på bland annat svavelhalt. Orterna klassicerades i öst och väst. Deskriptiva data från SPSS visas i guren nedan. (a) Ange ett 95% kondensintervall för skillnaden i svavelkoncentration mellan öst och väst. Den poolade standardavvikelsen är (15 1)0.222 (20 1)0.31 s p 2 0.2754 15 20 1 Konstanten t 0.025,35 2 nns inte i tabellen, men vi tar medelvärdet av konstanterna för frihetsgraderna 32 o 34 som blir 2.0345. Det 95%iga kondensintervallet beräknas till 0.33 3 ± 2.0345 0.2745 1/15 1/20 0.10 ± 0.19 ( 0.09, 0.29) (b) Bestäm om skillnaden är signikant på signikansnivå 0.05. Enligt dualiteten mellan test och kondensintervall kan vi inte förkasta nollhypotesen (µ vst µ st ) på nivå 0.05 eftersom 95% kondensintervallet täcker 0. 2

5. Man använder ANOVA när man har en normalfördelad variabel vars medelvärde man vill jämföra mellan tre eller er grupper. Det F test som används säger dock inget om vari skillnaderna ligger, utan det får man undersöka med ett post-hoc test. Vi har tittat på två sådana test, Tukey och Dunnet, som tar hänsyn till det som kallas multipelinferens. (a) Anta att vi har 5 grupper. Hur många parvisa jämförelser görs då med Tukey respektive med Dunnet. Med Tukey gör vi ( 5 2) 10 test och med Dunnet gör vi 5 1 4 test (b) Vilken av dessa två ger lägst p-värde för jämförelser som görs av båda? Dunnet behöver inte korrigera för lika många test och ger därför lägre p-värde. (c) Beskriv en situation där det är lämpligt med Dunnet. När man har era behandlingsgrupper och en kontrollgrupp och främst vill testa om det nns någon behandling som fungerar. Då vill man inte förlora styrka genom att jämföra behandlingarna inbördes. 6. I en amerikansk studie från 70 talet undersökte man utfallet av villkorlig frigivning hos 80 dömda mördare. Mördarna var klassicerade utifrån om mordet var överlagt eller impulsivt. Undersök på signikansnivå 0.05 om det nns något samband mellan typ av mord och utfallet av villkorlig frigivning. (3p) Vi ska göra ett chi2 test av oberoende. De förväntade värdena vid oberoende beräknas till Misslyckat Lyckat Impulsivt 23 17 Överlagt 23 17 och då blir teststatistikan χ 2 (28 23)2 23 (18 23)2 23 (12 17)2 12 (22 17)2 17 5.1 Kritiskt värde på nivå 0.05 för ett chi2 test med 1 frihetsgrad är 3.84, så eftersom 5.1>3.84 kan vi säga att det nns ett signikant samband mellan mordtyp och resultat av frigivning. 3

7. (a) I en enkel linjär regressionanalys angavs den starkt signikanta lutningen till 0.3 och förklaringsgraden till 51.84%. Vad var korrelationen (r)? Ur uppgiften får vi att R 2 0.5184. Eftersom R 2 r 2 vid enkel linjär regression är alltså r ± 0.5184 ±0.72 och eftersom lutningen var negativ så är alltså r 0.72. (b) När man ska analysera ett samband mellan en numerisk variabel X och en annan variabel Y kan man använda sig av den linjära regressionsmodellen Y β 0 β 1 X eller X β 0 β 1 Y. Vilken/Vilka av följande påstående är sanna? i. Signikansen för lutningen blir samma oavsett modell. ii. Regressionslinjen blir samma oavsett modell iii. Förklaringsgraden blir samma oavsett modell i. Sant ii. Falskt iii. Sant (c) En tidigare studie av sambandet mellan ett kognitivt index, RAKI, och ålder hade funnit ett signikant samband mellan ålder och RAKI på 1.42 enheter per år. Vi försökte replikera detta och fann följande icke signikanta samband. Finns det skäl att ifrågasätta den tidigare studien? Motivera ditt svar. Nej, deras skattning (1.42) ligger nära vår (1.384) och nästan mitt i vårt kondensintervall (-24,3.193). Vårt resultat är alltså i överensstämmelse med deras. (3p) 8. Man vill testa om en normalfördelad variabel X har ett väntevärde som är µ 100, mot alternativhypotesen att det är större (µ > 100). Standardavvikelsen är känd och med stickprovsstorlek n 25 kan man förkasta H 0 på signikansnivå 0.05 om X > 110. (a) Bestäm genom att utveckla under antagandet att µ 100. P ( X > 110) 0.05 P ( X > 110) P ( X 100 / 25 P (Z > 50 ) 0.05 > 110 100 / 25 ) Det betyder att så 50/1.645 3 z 0.05 1.645 50 4

(b) Vad behöver X vara för att vi ska kunna förkasta H 0 om vi har ett större stickprov n 100 men fortfarande signikansnivå α 0.05? P (Z > P ( X > c) P ( X 100 / 100 > c 100 / 100 ) ) 0.05 Det betyder att vilket ger z 0.05 1.645 50 50/1.645 så c 105 5