UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för Teknologer, 5 poäng MSTA33 Ingrid Svensson TENTAMEN 2004-01-13 TENTAMEN I MATEMATISK STATISTIK Statistik för Teknologer, 5 poäng Tillåtna hjälpmedel: Tabellsamling, handskrivet personligt formelblad (A4) och egen miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 09.00-15.00, Östra Paviljongerna Betygsgränser: 12-15.75p ger 3:a, 16-19.75p ger 4:a, 20-24p ger 5:a Tentamensgenomgång: Torsdag 22 januari, kl 13.15, MC313. Resultat från tentan kommer att anslås på institutionens anslagstavla. Ett lösningsförslag går att hitta på Ö. Paviljongens stora anslagstavla och institutionens anslagstavla.
1. Bertil är dålig på att kasta pil, så när han kastar sina tre pilar (=en omgång) på tavlan nedan så är träffarna likformigt fördelade över ytan. a) Hur många poäng får han i genomsnitt för en omgång? (1) b) Hur stor är sannolikheten att han får minst 40 poäng på en omgång? (2) 2. I en massafabrik mäts fortlöpande andelen korta fibrer. För en viss slags massa gäller att det verkar vara rimligt att betrakta andelen korta fibrer som normalfördelad. Dessutom har man efter lång erfarenhet tyckt sig se att standardavvikelsen är i stort sett konstant vilket har gjort att man betraktar den som känd, dvs σ=10%. a) I diskussionerna med en ny köpare vill man mäta andelen korta fibrer och utrycka detta med hjälp av ett konfidensintervall för förväntad andel korta fibrer där intervallet har konfidensgrad 95%. Hur många prov måste tas för att bredden på intervallet ska bli maximalt 5 procentenheter? Ange tydligt de fördelningsantaganden du arbetar med. (1.5) b) Antag att normalproceduren är att ta 12 prover och med dessa som grund bilda ett 90% konfidensintervall för den förväntade andelen korta fibrer. Hur stor är sannolikheten att minst 2 av 10 bildade konfidensintervall inte täcker förväntad andel korta fibrer? (1.5) 3. För att undersöka om ett visst träningsprogram kan förbättra muskelstyrkan, registrerades den maximala lyftförmågan hos tio individer. Dessa fick därefter genomgå träningsprogrammet och nya mätningar gjordes efteråt. Resultatet blev Individ 1 2 3 4 5 6 7 8 9 10 Före 51 52 45 57 34 42 43 60 78 76 Efter 53 56 52 55 39 41 47 61 80 77 a) Testa på 1% signifikansnivå under normalfördelningsantagande om träningsprogrammet har någon effekt. Ange vilken modell du antar för mätvärdena och vilken noll- och mothypotes du använder. Eventuella antaganden förutom normalfördelning måste verifieras. (1.5) b) Testa på 1% signifikansnivå utan normalfördelningsantagande om träningsprogrammet har någon effekt. (1.5)
4. I en undersökning mättes upprepade gånger tiden för tre olika bankomater att kontrollera en felaktiag PIN kod. Resultaten från de tre bankomaterna blev Bankomat Allbank 0.87 0.50 1.03 1.09 0.66 Bredbank 1.46 1.46 1.09 1.15 1.20 Carebank 1.09 1.37 0.97 1.81 1.11 Man ville undersöka om det fanns en skillnad i genomsnittlig tid mellan bankomaterna med variansanalys. Då fick man i MATLAB följande utskrift (en del siffror är borttagna). [p,table] = anova1(x) p = 0.0304 table = 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' 'Columns' [0.6483] [ 2] [0.3241] [] [] 'Error' [0.8205] [12] [0.0684] [] [] 'Total' [1.4688] [14] [] [] [] a) Vilken modell har man i analysen och vilka antagande gör man i samband med ansättningen av modell? (1) b) Slutför analysen, dvs undersök om det finns någon skillnad mellan de tre bankomaternas genomsnittliga tid att kontrollera en felaktig PIN kod. Du får anta att antagandena du gjort i a) är uppfyllda. Vilka är de aktuella hypoteserna? Välj signifikansnivå själv. Vad drar du för slutsats? (1) c) Gör ett 95% konfidensintervall för genomsnittliga tiden för Bredbanks bankomaten att kontrollera en felaktig PIN kod. (1) 5. En fackförening har gjort en stickprovsundersökning där 250 slumpmässigt utvalda medlemmar medverkade. Resultatet redovisades i ett stort antal tabeller och här är en av dessa: Antal sjukfrånvarodagar år 2002 Ålder Mindre än 10 10-15 Mer än 15 Yngre än 25 år 6 30 24 25-40 år 20 47 33 Äldre än 40 år 24 48 18 Undersök om variablerna "ålder" och "antal sjukfrånvarodagar" är oberoende. Ställ upp hypoteser och gör sedan en hypotesprövning på signifikansnivå 5%. Vilken blir din slutsats? (3)
6. Ett företag A levererar glasburkar till företag B med lastbil. Företag B har iakttagit att antalet förstörda glasburkar är speciellt stort vid vissa transporter och gör påståendet att lastbilens hastighet vid transporten har en avgörande betydelse. Företagen kommer överens om att pröva påståendet. Man ställer upp en regressions-modell och gör vissa mätningar för att kunna skatta modellen. Mätningarna genomfördes för 12 leveranser varvid följande data erhölls: Körtid från A till B (x) 45 48 54 40 38 39 41 47 43 51 36 40 Antal skadade burkar (y) 5 1 0 6 7 8 7 3 7 1 8 7 Vi ritar upp datat: Regression Plot 9 8 7 antal skadad 6 5 4 3 2 1 0 35 45 körtid 55 Bilden av vårt data ger att det verkar rimligt att anpassa en linjär modell enligt ovan. Följande MINITAB utskrift erhölls. [b,bint,r,rint,stats] = regress(y,z) b = 26.9425-0.5044 bint = 21.7076 32.1773-0.6239-0.3850 stats= 0.8985 88.5286 0.0000 r = 0.7566-1.7301 0.2965-0.7655-0.7743 0.7301 0.7389-0.2345 1.7478-0.2168-0.7832 0.2345 rint = -1.3824 2.8956-3.4490-0.0112-1.4728 2.0657-2.8653 1.3344-2.8032 1.2546-1.3464 2.8065-1.3886 2.8665-2.4030 1.9339-0.0516 3.5472-2.2191 1.7854-2.7058 1.1395-1.9339 2.4030
a) Vad har den skattade regressionslinjen för ekvation, och hur tolkar man de skattade parametrarna? (0.75) b) Vad representerar de understrykta värdena i MATLAB utskriften? Vilken slutsats drar du av värdet 0.0000? (1) c) Man har beräknat korrelationen mellan körtid och antal skadade burkar och fått ett av värdena 0.948, 0.100 eller 0.948. Vilket av värdena tror du är det riktiga? Motivera! Vad är korrelationen ett mått på? (0.5) d) Vad är R 2 för vår modell. (0.25) e) Ture gillar höga farter och kör därför sträckan på 28 minuter. Hur många skadade burkar förväntas Ture ha i sin last när han kommer fram? Finns det någon risk med att göra denna skattning? Skulle du vilja åka med Ture? (0.5) 7. En maskin fyller burkar med läsk. Av erfarenhet vet man att volymen varierar från burk till burk. Volymen kan betraktas som en normalfördelad variabel med standardavvikelsen 10 cl, och man kan anta att burkarnas volymer är oberoende av varandra. a) Vilket medelvärde bör man inrikta sig på föra att i det långa loppet 95% av alla burkar ska innehålla minst 500 cl? (1.5) b) Om man väljer medelvärdet 500 cl, vad är då sannolikheten att en kartong om 12 burkar tillsammans innehåller mer än 6023 cl? (1.5) 8. I en tidmätningsapparat genereras mycket korta pulser med ett tidsavstånd (mätt i µs) som kan betraktas som en slumpvariabel med väntevärdet 100.00 µs och varians 0.49 (µs) 2. Tidsavståndet mellan olika impulser är oberoende. Man studerar medelvärdet av 500 sådana tidsavstånd. Vad är sannolikheten att detta medelvärde avviker från 100.00 µs med högst 0.05 µs? (3) 9. Överensstämmer tentamen med kursens mål och innehåll?