Matematisk statistik Tentamen: 28 5 27 kl 8 13 FMS 32 Matematisk statistik AK för V och L, 7.5 hp Till Del A skall endast svar lämnas. Samtliga svar skall skrivas på ett och samma papper. Övriga uppgifter fordrar väl motiverade lösningar med svar. Varje lösning skall börja överst på nytt blad. Institutionens papper skall användas både som kladdpapper och inskrivningspapper. Skriv fullständigt namn på varje papper. Rödpenna får ej användas. Tillåtna hjälpmedel: Miniräknare (utnyttjande av i förväg skrivna program och/eller textmassor är ej tillåtet), Formelsamling i Matematisk statistik för M, V och L 1996 eller senare, samt TEFYMA eller MaFyKe, eller likvärdig gymnasietabell. Totalt kan man få 12 poäng. För godkänt krävs 5 poäng. Resultatet anslås senast 1 juni på institutionens anslagstavla samt på kurshemsidan. DEL A: ENDAST SVAR 1. (a) En föreslagen bro har ett fundament mitt i vattendraget. Man har gjort en del undersökningar och beräkningar angående trolig sättning av fundamentet och antar att sättningen är normalfördelad med väntevärde 5. mm och standardavvikelse 1.5 mm. Vad är sannolikheten att sättningen blir större än 7 mm? Ange svaret i procent med en decimal. (b) Vid tester av styrkan hos betong anser man att styrkan (N/mm 2 ) vid en mätning är normalfördelad med väntevärde 6 och standardavvikelse 5. Vad är sannolikheten att medelvärdet av 1 mätningar ligger mellan 56 och 64 N/mm 2? Ange svaret i procent med en decimal. (c) En tillverkningsprocess är sådan att hurvida en enhet är korrekt eller defekt beror enbart på den närmast föregånde tillverkade enheten. Om en tillverkad enhet är korrekt är nästa enhet defekt med sannolikheten.1 och om en enhet är defekt är nästa enhet korrekt med sannolikhet.8. Om i en följd av tillverkade enheter nr 1 är korrekt, vad är sannolikheten att enhet nr 3 är korrekt? Ange ditt svar i procent. (d) Ett företag som säljer en viss vara har efter kundundersökningar kunnat konstatera att fördelningen för vad en slumpmässigt vald kund är beredd att betala för varan (enhet: kronor) kan beskrivas av en kontinuerlig fördelning med frekvensfunktion f (x) = 2 x 2, x 2. Vad är sannolikheten att en kund är beredd att betala mer än 15 kronor för varan? Ange ditt svar i procent med två decimalers noggrannhet. (e) Fortsättning från uppgift 1d: Bestäm väntevärdet för vad en kund är beredd att betala. Ange ditt svar med en decimals noggrannhet. (f) I ett område antar man att antalet motorcykelolyckor under en månad är Poissonfördelat, Po(Ñ), där Ñ varierar från månad till månad. För maj månad brukar Ñ vara 15. I och med att allt fler kör motorcykel befarar man att antalet olyckor också kommer att öka. Det senaste året noterade man 22 olyckor under maj månad och tidningarna skrev att Nu har det skett en ökning av antalet motorcykelolyckor. För att undersöka om man fog för detta påstående vill man testa H : Ñ = 15 mot H 1 : Ñ > 15 och testet görs med hjälp av direktmetoden. Ange testets exakta felrisk,. Ange ditt svar i procent med en decimals noggrannhet. (g) Fortsättning från uppgift 1f. Ange om följande påstående är falska eller sanna. (Du får 1 poäng för ett korrekt svar, poäng om du inte ger något svar och -1 om du anger ett felaktigt svar. Totalt kan du dock få lägst poäng på deluppgiften.) i. Om testets exakta felrisk är.6 kan vi dra slutsatsen att nollhypotesen kan förkastas på nivå 5%. 1
ii. Ju mindre testets exakta felrisk är, desto större fog har tidningen för sitt påstående. iii. Om testets signifikansnivå är.1 betyder det att vi har 1% risk att felaktigt påstå att majmånaden är mer drabbad av mc-olyckor. iv. Om H ej kan förkastas på nivå.5 betyder det att med 95% säkerhet är H sann. (h) En bryggmätningsmetod för kapacitans ger mätvärden som antas ha väntevärde Ñ och vara normalfördelade med standardavvikelsen =14pF. Hur många mätningar behöver man göra med denna metod, för att man ska kunna bestämma ett 95% konfidensintervall för Ñ som får en längd på högst 1 pf? (i) Med en 1-årsöversvämning menar man en översvämning som i genomsnitt inträffar vart 1:e år, d.v.s. sannolikheten för översvämning ett år är.1. Vad är sannolikheten att, under en femårsperiod, få precis två 1-årsöversvämningar? Ange ditt svar i procent med två decimalers noggrannhet. (j) En postorderfirma som levererar persondatorer till hemanvändare har efter en lång tids erfarenhet kunnat konstatera att 5% av de datorer som levereras har någon form av defekt. Korrekta datorpaket leveras alltså till 95% av kunderna. Av de som fått defekta datorpaket kontaktar 9% företagets telefonsupport inom en vecka efter leverans. För kunder som fått korrekta paket är motsvarande siffra 2%. Antag att en kund kontaktar telefonsupport inom en vecka efter leverans. Vad är sannolikheten att den kunden fått ett defekt datorpaket? Ange ditt svar i procent med en decimals noggrannhet. DEL B: FULLSTÄNDIGA LÖSNINGAR T.ex. ska införda beteckningar noga redovisas, modeller alltid anges och approximationer, hypoteser och slutsatser anges och motiveras 2. Den tid (enhet: minut) som behövs för att betjäna en kund som anländer till lager A kan betraktas som en summa av tre stokastiska variabler som är oberoende och exponentialfördelade med väntevärden 2, 3 respektive 6. (a) Beräkna väntevärde och standardavvikelse för den tid det tar att betjäna en kund som kommer till lager A. (b) Låt Ü A vara den sammanlagda tid det tar att betjäna 1 kunder vid lager A och antag att deras expeditionstider är oberoende. Beräkna med lämplig approximation det tal a som är sådant att P(Ü A a) =.9. (1p) (c) Tiden för att betjäna en kund som anländer till lager B är däremot en stokastisk variabel som har väntevärde 1 och standardavvikelse 6. Beräkna approximativt sannolikheten att det går snabbare att betjäna 1 kunder vid lager A än det gör att betjäna 1 kunder vid lager B. 3. Hösten 25 och våren 26 utfördes det så kallade Stockholmsförsöket, då trängselskatt för bilism i innerstan infördes. Efter avslutat försök gjordes en rad en utvärderingar. En av många aspekter som man betraktade var att undersöka hur kölängder och medelhastigheter på vissa gator i Stockholm förändrades. Från en av rapporterna 1 kan man hitta följande information om medelhastigheten på Sveavägen mellan Sergels torg och Sveaplan, i nordlig riktning: Tidpunkt medelhastighet antal obs 95% konfidensintervall (km/h) Mätning ons 19 april 26 18.1 8 (16.1, 2.1) Jämförelsemätning i april 25 15.5 18 (14.5, 16.6) Antag i de följande uppgifterna att normalfördelning för bilarnas hastighet är en lämplig modell (vilket ej är helt självklart). (a) Vad är den skattade standardavvikelsen för de 18 mätningarna gjorda i april 25? (b) Har det skett en signifikant förändring av genomsnittlig hastighet på den observerade sträckan? (14p) 1 En mängd information kan nås via www.stockholmsforsoket.se. Dessa data är hämtade från en rapport från KTH om kölängder. (6p) 2
4. En fabrik är ålagd att kontrollera sin reningsprocess av avloppsvattnet och använder ett dyrbart och känsligt instrument. Varje gång en dos vatten från en av fabrikens produktionsdelar släpps ut avläser instrument bl.a. kadmiumhalten och reagerar om halten Cd överstiger en viss gräns. Kravet på fabriken är emellertid inte nolltolerans utan 6% av vattendoserna får innehålla måttliga halter över gränsen. (a) Efter ett längre produktionsstopp visade det sig att av 15 vattendoser var det 17 som hade lite för hög Cd-halt. Undersök, med ett lämpligt test, om detta tyder på att fabriken för ofta har höga halter av Cd i vattnet. (15p) (b) Under en mer normal produktion har man följande regel: Ta 2 vattenprov. Slå larm om antal prov med för hög Cd-halt överstiger 3. Antag att Cd-halten verkligen är för hög i avloppsvattnet så att 1% av proverna skulle visa för högt värde. Vad är sannolikheten att man då kommer att slå larm? 5. Vid en undersökning av biomassans djupfördelning i Marianergraven fick man följande resultat: vattendjup, x i (1 m).1.5 1. 1.5 2.5 4. 5. 7. 9. biomassa, y i (g/m 3 ) 2 4 25 2 5. 2..3.3.1 För att beskriva sambandet mellan vattendjup och biomassa kan man använda någon av följande regressionsmodeller, den linjära (modell 1): där 1,..., 9 är oberoende och N (, 1 ); eller den transformerade linjära (modell 2): y i = 1 + 1 x i + i, i = 1,..., 9 där e 1,..., e 9 är oberoende och N (, 2 ). ln(y i ) = 2 + 2 x i + e i, i = 1,..., 9 För var och en av modellerna analyserade man data med ett beräkningsprogram och fick följande resultat: Modell 1: Koefficient Skattning Konfidensintervall (95%) 1 71.33 (1.77, 14.9) 1-11.43 (-26.95, 4.9) Q = 2.314 1 4 ; 1 = 57.5; R2 1 =.321 Modell 2: Koefficient Skattning Konfidensintervall (95%) 2 4.59 (3.96, 5.21) 2-1.8 (-1.22, -.94) Q = 1.858; 2 =.5152; R2 2 =.9797 Man ritade också ut residualerna för var och en av modellerna samt prediktionsintervall och konfidensintervall för respektive linjers läge. (a) Betrakta resultatet från analysen av modell 1. Kan vi utifrån detta resultat påvisa ett samband mellan vattendjup och biomassa? Besvara frågan genom att sätta upp lämpliga hypoteser och utföra testet på 5% signifikansnivå. (b) Vilken av de två modellerna bör fungera bäst? I din motivering ska det klart framgå vilka egenskaper i plottarna och tabellerna du baserar ditt modellval på. Rätt val i denna deluppgift är en förutsättning för att kunna få full poäng på efterföljande deluppgifter. (c) Gör en skattning av den förväntade biomassan på 3 meters djup och använd det medföljande bladet för att uppskatta ett lämpligt 95% intervall för denna storhet. Det måste klart framgå hur uppskattningen är gjord. 3
15 residualer, modell 1 1 residualer, modell 2 1.5 biomassa 5 ln(biomassa).5 Probability 5 2 4 6 8 1.95.9.75.5.25 normalfördelningsplot, modell 1 Probability 1 2 4 6 8 1.95.9.75.5.25 normalfördelningsplot, modell 2.1.5 5 1 residualer.1.5.5.5 residualer (d) Om biomassan i ett vattenprov bestämdes till 1. g/m 3, från vilket vattendjup har provet tagits? Uppskatta ett lämpligt 95% intervall för det efterfrågade djupet. Använd en av de medföljande graferna på inlämningsbladet, grafen med intervallet inritat ska lämnas in tillsammans med svaret. Lycka till! 4
INLÄMNINGSBLAD FÖR UPPGIFT B5 25 Prediktionsintervall samt konfidensintervall för linjens läge, modell 1; konfidensgrad.95 2 15 1 biomassa (g/m 3 ) 5 5 1 15 2 25 1 2 3 4 5 6 7 8 9 1 6 Prediktionsintervall samt konfidensintervall för linjens läge, modell 2; konfidensgrad.95 4 2 ln(biomassa) 2 4 6 8 1 2 3 4 5 5 6 7 8 9 1