UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 7-8-9 Statistik för Teknologer, 5 poäng (TNK, ET, BTG). En diskret slumpvariabel X kan anta värdena,, 3, och har följande sannolikhetsfunktion (för någon konstant a): f ( x) ax a) Bestäm konstanten a så att f(x) blir en sannolikhetsfunktion. () Om man adderar sannolikheterna för alla möjliga utfall ska summan bli ett. a a 3a a a a Svar: a=/. b) Vad blir väntevärdet och variansen för X? () E ( X ) x f ( x) 3 V ( X ) ( x x x E( X )) f ( x) Svar: Väntevärdet är 3 och variansen är. c) Bestäm sannolikheten att slumpvariabeln X antar ett värde som är mindre än, dvs. bestäm P(X<). () 6 P( X ) f ( x) P( X ) x Svar: P(X<) =.6
. Man gör undersökningar vid Holmsunds badplatser för att få reda på om halten av gift från giftalger överstiger vissa gränsvärden. De observerade nivåerna är:.8.99.83.7.7.9.58.5 Antag att nivåernas värden är oberoende observationer från en N (, ) fördelning. Beräkna ett 99%-igt konfidensintervall för den förväntade nivån. (3) One-Sample T: Nivå Variable N Mean StDev SE Mean 99% CI Nivå 8,5,36,7 (,593;,397) Svar: Intervallet blir (,59;,) och det har beräknats enligt x t n ) ( / s n 3. På en viss kurs finns 5 platser. Man vet sedan tidigare år att sannolikheten att en antagen student verkligen går kursen är,3. Anta att man antar 5 studenter till kursen. a) Vad är sannolikheten att kursen inte blir full, dvs antalet studenter blir färre än 5? (,5) Svar: Låt X = antal studenter som går kursen. Då är X ~ bin(5,,3). Eftersom np = 35 > 5 och n(-p) = 5 > 5, kan vi approximera med normalfördelning, dvs. X ~ N(35, 9,5). P(X < 5) = P(X 9) Φ((9-35+,5)/9,7) = Φ(,9),93. b) Vad är det högsta antal elever man får anta om man vill att sannolikheten att kursen inte blir full skall vara minst,99? (,5) Svar: P(X 9),99 Φ((9-,3n+,5)/(,n) / ),99 (9,5 -,3n)/(,n) /,363 (9,5 -,3n) /(,n) 5,7,9n - 9,836n + 35,5 n 9,3n + 8336, n 585.. I ett laboratorium har man med skattningen skattat den okända halten, μ, av ett ämne i en lösning. Av erfarenhet vet man att skattningsmetoden är väntevärdesriktig med standardavvikelsen σ. Med samma metod har man skattat halten av ämnet i en lösning som man vet har 3 gånger så stark koncentrationav ämnet, dvs man har skattningen som har väntevärde 3μ och standardavvikelse σ. Nu vill man utnyttja all information för att få en så bra skattning som möjligt av μ. a) Hur ska konstanterna a och b väljas för att skattningen ska bli en väntevärdesriktig skattning av μ? () Svar: E ˆ) E( a ˆ b ˆ ) a 3b a 3b ( b) Hur ska konstanterna a och b väljas för att ska bli väntevärdesriktig och ha minimal varians? () Svar: V ( ˆ) V (( 3b) ˆ ˆ b ) ( 3b) b ( 6b b ) Derivering ger b=.3, vilket ger a=..
5. Vid en geotermisk undersökning i Danmark erhöll man följande observationer av temperaturen vid olika borrdjup: borrdjup, x (m) 3 65 5 6 9 5 temperatur, y ( C) 6 67 7 77 55 35 En regressionskörning (enkel linjär regression) i MINITAB gav följande resultat. Regression Analysis The regression equation is temp = 6. +.37 djup Predictor Coef StDev T P Constant 6.3.,65, < p <, djup.37.5879 5,399 p <, S =.36 R-Sq = 85.% R-Sq(adj) = 8.% Unusual Observations Obs djup temp Fit StDevFit St Resid 7 5 35. 56..66 -. -.R R denotes an observation with a large standardized residual a) Komplettera utskriften med T- och p-värdena (så noga det går med tillgänglig tabell). (,5) b) Vad kan man dra för slutsatser om utskriften under Unusual Observations? (,5) Svar: Den observerade temperaturen 35 vid 5 m är oväntat låg, vilket skulle kunna motivera att kontrollera om det hände någonting konstigt när den observationen togs. en -, är dock precis under programmets default för varning: -. Att få en residual av sju nära +/- är inte så underligt. Dessutom ligger observationen mitt i x-svärmen, vilket innebär att den inte är så inflytelserik vid modellanpassningen. Rita gärna! 6. När man mäter ett föremål enligt två olika metoder, A och B, kan mätvärdena uppfattas som oberoende observationer på två oberoende normalfördelade slumpvariabler, X A och X B, med okända väntevärden A och B men med kända varianser A = och B =. För att testa hypotesen: H: A = B mot Ha: A > B, har man gjort 5 mätningar enligt metod A och 75 mätningar enligt metod B. Resultat: Metod Antal Stickprovsmedelvärde mätningar A 5 3 B 75 9 Genomför hypotesprövningen på signifikansnivån %. Vilken blir din slutsats? (3p)
Svar: Det observerade värdet på testvariabeln är ej i det kritiska området. xa xb z.3 z. A B n A n B Alltså kan man inte förkasta H på denna signifikansnivå. 7. För att testa om en person hade AIDS användes år 988 ELISA-testet. Detta test var så utformat att man hade AIDS skulle det förväntas ge ett positivt resultat på testet. Tyvärr blev testresultaten felaktiga ibland. För testet gällde att sannolikheten för att en person fick positivt resultat om personen hade AIDS var 98% medan sannolikheten att få ett negativt resultat om han inte hade AIDS var 93%. Antag att i en befolkningsgrupp AIDS-frekvensen är %. Antag att en slumpmässigt vald person ur denna grupp fick besked om att testresultatet var positivt. Vad är sannolikheten att personen hade AIDS? (3p) Svar: Andel totalt som får positivt resultat blir..98.99. 7. Av dessa är andelen som faktiskt hade AIDS (..98)/(..98.99.7).. Alltså, sannolikheten att personen hade AIDS var bara ca. trots beskedet. 8. I en studie är man intresserad av om tillväxten av en viss sort bakterier skiljer sig för några olika temperaturer. Bakterier placerades i st behållare med näringslösning, varav 5st fick stå i C, 5st i 5 C, 5st i C och 5st i 5 C. Därefter mätte man tiden i minuter tills bakterierna fördubblats. Resultatet visas i följande tabell. C 5 C C 5 C 3 3 3 35 9 8 7 33 3 6 5 7 3 3 35 33 3 Detta material har analyserats i Minitab, se nästa sida. Tolka resultatet. Vad är det för hypoteser man testar? Verkar antagandena för ANOVA uppfyllda? Vilka är antagandena? Förutsatt att antagandena är korrekta, ange alla slutsatser man då kan dra. (3)
Frequency Temp Percent One-way ANOVA: Tid versus Temp Source DF SS MS F P Temp 3 5,6 68,53 3,8, Error 6 83, 5, Total 9 88,8 S =,8 R-Sq = 7,9% R-Sq(adj) = 65,79% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+--- 5 3,,55 (-----*------) 5 5 8,8,775 (-----*-----) 5,,87 (-----*-----) 5 5 3,,87 (------*-----) ------+---------+---------+---------+---,5 8, 3,5 35, Pooled StDev =,8 Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of Temp Individual confidence level = 98,87% Temp = subtracted from: Temp Lower Center Upper -------+---------+---------+---------+-- 5-7,33-3,,93 (----*-----) -,73-7,6-3,7 (-----*-----) 5-3,73,,53 (-----*----) -------+---------+---------+---------+-- -7,, 7,, Temp = 5 subtracted from: Temp Lower Center Upper -------+---------+---------+---------+-- -8,53 -, -,7 (-----*-----) 5 -,53 3,6 7,73 (-----*-----) -------+---------+---------+---------+-- -7,, 7,, Temp = subtracted from: Temp Lower Center Upper -------+---------+---------+---------+-- 5 3,87 8,,3 (----*-----) -------+---------+---------+---------+-- -7,, 7,, Plots for Tid Normal Probability Plot of the s s Versus the Fitted Values 99 9 Test for Equal Variances for Tid Bartlett's Test Test Statistic,6 P-Value,786 5-5, -,5,,5 5, - - 6 8 3 Fitted Value 3 5 Levene's Test Test Statistic,5 P-Value,68 Histogram of the s s Versus the Order of the Data,8 3,6,, - 5, -3 - - 3-6 8 Observation Order 6 8 6 8 95% Bonferroni Confidence Intervals for StDevs
Svar: Vad är det för hypoteser man testar? Man testar nollhypotesen att väntevärdet är lika för alla grupper/temperaturer. Mothypotesen är att minst en skiljer sig från de övriga (inte alla lika). Verkar antagandena för ANOVA uppfyllda? Om modellen är korrekt ska residualerna i figuren ovan vara oberoende observationer från en normalfördelning. Med tanke på att det är få observationer och det finns ingen systematisk avvikelse från normalfördelningen verkar antagandena uppfyllda. Det går inte att förkasta hypotesen (antagandet) att varianserna är lika enligt testet ovan. Vilka är antagandena? Genom att vi använder den modell vi gör, antar vi att observationerna kommer från oberoende normalfördelade populationer med lika varians men eventuellt olika väntevärden. Förutsatt att antagandena är korrekta, ange alla slutsatser man då kan dra. Se på Tukeys parvisa konfidensintervall för skillnaden mellan grupper/temperaturer. Om intervallet för skillnaden inte innehåller nollan så har vi med statistiska metoder visat att det finns en skillnad.. Det tar i genomsnitt längre tid vid C än vid C. Det tar i genomsnitt längre tid vid 5 C än vid C 3. Det tar i genomsnitt längre tid vid 5 C än vid C Alltså har vi visat att C skiljer sig från de övriga temperaturerna. Just dessa bakterier verkar trivas bäst vid ca C eftersom de då förökar sig snabbast. Det går inte att visa skillnader mellan de övriga temperaturerna.