a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Storlek: px
Starta visningen från sidan:

Download "a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?"

Transkript

1 Tentamen i Matematisk statistik, S0001M, del 1, Ett företag som köper enheter från en underleverantör vet av erfarenhet att en viss andel av enheterna kommer att vara felaktiga. Sannolikheten är 20 % att fel A förekommer på en slumpmässigt vald enhet. För fel B är denna sannolikhet 15 % och fel C är sannolikheten 8 %. Felen uppkommer oberoende av varandra. a) Bestäm sannolikheten att en slumpmässigt vald enhet har minst ett fel. Ange ditt svar i procent med två decimalers noggrannhet. b) Antag att en enhet visat sig ha felen A och B. Vad är sannolikheten att den även har fel C? Ange ditt svar i procent, utan decimaler. (1p) 2. En lärare som gillar kaffe glömmer ibland att gå tillbaka till fikarummet med koppen han senast drack ur, vilket gör att flera tomma muggar ofta syns på hans skrivbord. En lång tids studie har visat att antalet muggar som finns på hans skrivbord klockan en slumpmässigt vald dag kan beskrivas av följande sannolikhetsfördelning: Antal Sannolikhet a) Bestäm standardavvikelsen för antalet muggar som står på hans bord klockan en slumpmässigt vald dag. Ange ditt svar med två decimalers noggrannhet. (1p) b) Betrakta en vanlig arbetsvecka, bestående av fem dagar. Vad är sannolikheten att han i minst fyra av dessa dagar klockan har färre än två muggar stående på bordet? Ange ditt svar i procent med en decimals noggrannhet. 3. Datorvane Daniel vet att tiden t (enhet: sekunder) det tar för ett visst program att starta på hans hemdator kan beskrivas av en fördelning med fördelningsfunktion: 0 1 e F( t) = 0.2( t 3) t < 3 t 3 a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta? Ange ditt svar i procent med en decimals noggrannhet. b) Vilken är den tid t som programmet startar inom med 90 % sannolikhet? Ange ditt svar i sekunder med två decimalers noggrannhet. 4. Tallar som växer på myrar, så kallade martallar, når vid en ålder av 50 år en höjd över markytan som kan sägas vara normalfördelad med väntevärde μ = 200 cm och standardavvikelsen σ = 30 cm

2 Tentamen i Matematisk statistik, S0001M, del 1, a) Vad är sannolikheten att höjden hos en slumpmässigt vald martall överstiger 250 centimeter vid en ålder på 50 år? Ange ditt svar i procent med en decimals noggrannhet. b) Betrakta två slumpmässigt utvalda martallar som nått en ålder av 50 år, och anta att martallarnas höjd är oberoende av varandra. Vad är sannolikheten att det skiljer mindre än 40 centimeter i höjd mellan de två träden? Ange ditt svar i procent med två decimalers noggrannhet. 5. Metallpinnar som används till bilars fjädringssystem bör ha en diameter på 8.25 mm. För att undersöka om diametern kommer tillräckligt nära 8.25 mm togs ett stickprov om 7 metallpinnar och diametern hos dessa pinnar mättes. Stickprovet kan ses som observationer på en normalfördelad stokastisk variabel. Antag att man av erfarenhet kan anta att standardavvikelsen är känd där σ = 0.03 mm a) Bestäm den övre gränsen i ett dubbelsidigt 98 % konfidensintervall för metallpinnarnas förväntade diameter. Ange ditt svar med två decimalers noggrannhet. b) Antag att man som ett led i att förbättra testet ovan kräver att bredden hos ett dubbelsidigt 98 % konfidensintervall inte får överstiga 0.02 mm. Vilket är det minsta antalet observationer som krävs för att tillgodose detta krav? 6. Ett företag som satsar pengar på reklamkampanjer för sina produkter ville hitta en modell som visar effekten på försäljningen (Forsaljning, enhet: Mkr per år). Som förklarande variabler valdes beloppet som spenderades på reklam (Kapital, enhet: Mkr per år) och kampanjer (Kampanj, enhet: antal per år). Resultatet av en enkel multipel linjär regressionsanalys baserat på observationer för 12 år ges i tabell 3. a) Hur stor påverkan på den förväntade försäljningen har en ökning av kapitalet med en miljon kronor? Besvara frågan genom att skapa ett 95 % konfidensintervall (dubbelsidigt). Ange den undre gränsen i ett sådant intervall med två decimalers noggrannhet. b) Bestäm den skattade residualspridningen för modellen. Ange ditt svar med två decimalers noggrannhet. (1p) Tabell 3 The regression equation is Forsaljning = 218,79 + 1,139 Kapital 1,862 Kampanj Predictor Coef SE Coef T P Constant 218,79 13, Kapital 1,139 0, Kampanj -1,862 0, Analysis of Variance Source DF SS MS F P - 2 -

3 Tentamen i Matematisk statistik, S0001M, del 1, Regression ,5 1217,7 8,06 0,000 Residual Error ,2? Total ,7 7. Kvicksilver försvinner från en lösning som förvaras i polypropylenflaskor genom att ingå förening med upplöst tenn. Upptagningsförmågan av en standardlösning av kvicksilver mättes vid två tillfällen för var och en av de åtta nivåkombinationerna Tabell 1: Nivåer för de ingående faktorerna: Faktor Låg nivå ( ) Hög nivå ( ) A: Omskakning av flaska Nej Ja B: Rengöring av flaska En gång Två gånger C: Lagringstid 1 timme 10 timmar Försöksmatrisen i tabell 2 illustrerar nivåerna och resultaten vid det fullständiga faktorförsök som gjordes. Tabell 2: Resultaten presenterade i standardordning: Försök nr A B C a) Skatta samspelseffekten för A och C. Ange ditt svar med en decimals noggrannhet. b) Skatta standardavvikelsen för en effekt, dvs s effekt. Ange ditt svar med två decimalers noggrannhet. c) Man vill för var och en av effekterna testa H 0 : μ effekt = 0 mot H 1 : μ effekt 0, och beslutar sig för att arbeta med en felrisk på 5 %. Som testvariabel använder man den standardiserade effekten, som ges av kvoten mellan en skattad effekt och effektens skattade standardavvikelse. Bestäm den konstant ur t-fördelningen som används som kritisk gräns i testet. (1p) Y i s i (1p) - 3 -

4 Tentamen i Matematisk statistik, S0001M, del 1, Tabell för svar till del 1. Riv ut och lägg svarsbladet först i tentamen! Namn... Personnummer... Fråga Svar Poäng 1 a Sannolikhet b Sannolikhet a Standardavvikelse b Sannolikhet a Sannolikhet b Tid a Sannolikhet b Sannolikhet a Övre gräns b Antal observationer a Undre gräns b Residualspridning a Samspelseffekt b Standardavvikelse c Testvariabel (och ) 1 Totalt antal poäng 25 Lycka till! - 4 -

5 Tentamen i Matematisk statistik, S0001M, del 2 (för överbetyg), Vid bedömningen av lösningarna av uppgifterna i del 2 läggs stor vikt vid hur lösningarna är motiverade och redovisade. Tänk på att noga redovisa införda beteckningar och eventuella antaganden. 8. En IT-avdelning på ett företag vill studera belastningen på fyra av deras servrar. Man vet att antalet anrop till var och en av servrarna som kommer in under en 0.5 sekunders period beskrivs av en Poissonfördelning med väntevärde 2.5. Servrarna tar emot anropen oberoende av varandra. För att få ett mått på belastningen har man valt att använda sig av ett formulär där man noterar varje gång alla de fyra servrarna fått ta mot minst tre anrop per server under en 0.5 sekunders period. Antag att man studerar tio tidsperioder på 0.5 sekunder och att antalet anrop under var och en av tidsperioderna kan antas vara oberoende. Bestäm sannolikheten att högst två noteringar finns på formuläret. (10p) 9. En komponent tillverkas av pulvermetall. Kompaktering av pulvermetallen sker i en press under högtryck. Ett problem som uppstår under denna process är den höga friktionen mellan partiklarna och verktygsväggen. För att minska denna använder man ett smörjmedel. Man vill göra en jämförelse mellan två olika typer av smörjmedel. Man väljer ut 12 likadana verktyg och fördelar hälften till vardera typ av smörjmedel. En mätning av friktionskoeffecienten gav följande resultat: Smörjmedel A Smörjmedel B Kan man utgående från detta påstå att det är skillnad i genomsnittlig friktion för de båda typerna av smörjmedel? I så fall hur stor är skillnaden? Besvara frågorna genom att beräkna och tolka ett lämpligt 90 % konfidensintervall under rimliga normalfördelningsantaganden, som skall framgå i lösningen av uppgiften. Tolka resultatet av konfidensintervallet i ord. (8p) 10. I USA genomfördes en undersökning med syftet att studera hur kostnaden (enhet: dollar) för elkonsumtion under ett år kan förklaras med hjälp av ett antal variabler. Man undersökte antal personer i hushållet (enhet: antal), boyta (enhet: kvadratfot) hos 34 utvalda hushåll. Resultatet från en multipel linjär regressionsanalys ges i tabell 4. a) Ange de modellantaganden som gäller för den skattade modellen i tabell 4. Tolka regressionskoeffecienterna i ord. Utför även ett hypotestest för att undersöka om variabeln Boyta bör ingå i modellen. Hypoteser, beslutsvariabel samt slutsatser ska tydligt framgå. b) Ett 95 % konfidensintervall för de förväntade kostnaden av elkonsumtionen då antalet personer i hushållet var 4 och boytan 1200 kvadratfot var (5p) - 5 -

6 Tentamen i Matematisk statistik, S0001M, del 2 (för överbetyg), [301.9, 492.7]. Bestäm utgående från detta ett 95 % prognosintervall för motsvarande givna värden på antal personer per hushåll och boyta. Tolka prognosintervallet i ord. c) Figur 1 visar en av de residualplotter som ska göras för att undersöka rimligheten i de modellantaganden som gäller för vår skattade modell. Vilken del i modellantagandet undersöks med hjälp av denna plot? Bör man vara misstänksam mot att något i modellantagandet inte stämmer? I så fall vad? Redogör för ytterligare två residualplotter som bör göras och redogör för vilka delar av modellantagandet man undersöker med dessa plotter. (4p) (3p) Tabell 4: Regression Analysis: Elkostnad versus Personer; Boyta The regression equation is Elkostnad = ,0 Personer + 0,404 Boyta Predictor Coef SE Coef T P Constant -255,95 70,14-3,65 0,001 Personer 42,03 16,68 2,52 0,017 Boyta 0, ,03615 S = 133,894 R-Sq = 85,0% R-Sq(adj) = 84,0% Analysis of Variance Source DF SS MS F P Regression ,74 0,000 Residual Error Total Figur 1: Figur 1: 4 00 Residuals Versus Personer (response is Elkostnad) Personer

7 Losningar till del 2 tentamen i Matematisk statistik, S0001M, Uppgift 8 Vi vet att antalet anrop som kommer in till server kan kan beskrivas av en Poissonfördelning med väntevärde 2.5. Alltså bör gälla för alla fyra servrar, i=1,...4: P(minst tre anrop till server i) = 1 - P(högst två anropserveri)=0.46 På grund av oberoendet kan vi sedan gå vidare och definiera: ξ = antal servar som tar mot minst tre anrop, där ξ Bin(4, 0.46) P(alla servar tar emot minst 3 anrop) = P(ξ =4)= Återigen, vi har oberoende tidsperioder vilket gör att vi nu kan definiera ytterligare en stokastisk variabel som η = antalet tidsperioder med notering påformulär, där η Bin(10, ). P(högst två noteringarpåformulär)=p(η 2) = Svar: Sannolikheten är 99.22% att det finns högst två noteringar på formuläret. 1

8 Losningar till del 2 tentamen i Matematisk statistik, S0001M, Uppgift 9 Viharensituationmedtvåstickprov. ξ 1, ξ 2,..., ξ 6 är stokastiska variabler som beskriver friktionskoeffecienten hos smörjmedel A η 1, η 2,...,η 6 är stokastiska variabler som beskriver friktionskoeffecienten hos smörjmedel A vi har änven att x i är en observation på ξ i N(μ 1, σ),i=1, 2,...,6 och y i är en observation på η j N(μ 2, σ),j =1, 2,...,6 Via beräknigar kan vi erhålla x = 1 P xi = q P 1 s x = (xi x) = På sammasätt för våra observationer på yerhålls: ȳ = s y = Skatta standardavvikelsen σ genom följande: s pool = q q s 2 x +s2 y = = 2 2 Om vi skapar ett 90% konfidensintervall för differensen mellan väntevärden får vi att: q 1 x ȳ ± t 0.05 ( ) s pool ( 0, ; 0, ) 6 Svar: Vi kan inte med 90 % säkherhet påvisa en skillnad i förväntad friktionskoeffecient mellan de två smörjmedlen, detta på grund av att nollan ingår i intervallet. 2

9 Losningar till del 2 tentamen i Matematisk statistik, S0001M, Uppgift 10 a) Modellantagande: Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i,i=1, 2,...,34 ε i N(0, σ),i=1, 2,..., 34, ε 1, ε 2,...,ε 34 oberoende stokastiskavariabler Y i : Elkostnad X 1i :Personer X 2i :Boyta Vi utför ett hypotestest för att testa variabeln Boyta genom följande: H 0 : β 2 =0 H 1 : β2 6= 0 t = b2 s 2 = =11.18 Vi har ingen signifikansnivå given,men väljer 5 % som en standard. Som kritisk gräns blir i så fall t (gäller för 30 frihetsgrader) I vårt fall är värdet på vår testvariabel så högt att vi kan förkasta nollhypotesen med en väldigt låg felrisk. Oavsett vilken felrisk som valts för vi komma fram till att nollhypotesen i detta fall bör förkastas. Vi kan alltså påstå att boytan har en påverkan elkostnaden, och att sambandet är positivt, dvs ökad boyta ger ökad elkostnad. b) Ett 95 % konfidensintervall i ett hushåll med fyra personer och 1200 kvadratfots boyta var givet som [301.9, 492.7]. Vi ska utifrån detta bestämma ett prognosintervall. Mittpunkten i intervallet ges av en punktskattning för Elkostnaden vid dessa parametrar, dvs Ŷ o = , , = Vi har då att felmarginalen i intervallet kan uttryckas som = 95.4 Alltså bör t sŷo =95.4. T-konstanten bör ha 31 frihetsgrader, men eftersom vi endast har tabell fram till 30 frihetsgrader får vi approximera den till Detta ger följaktiglen att standardavvikelsen sŷo =46.72 Ett 95% prediktionsintervall ges av uttrycket: 3

10 Losningar till del 2 tentamen i Matematisk statistik, S0001M, Ŷ o ± t s pr q Där s pr = s 2 e + s 2 ŷ o = = Då fås ett 95% prognosintervall som [107.6, 687.0]. Vi kan alltså med95 %säkerhet påstå att en ny obsveration av elkonstaden fö rett huhåll med fyra personerochenboytapå 1200 kvardrotfot kommer ligga inom intervallet ovan. c) Med hjälp av denna del av modellantagandet undersöks dels det linjära beroendet mellan variabeln som hör till personer och resultatvariabeln Y, men även feltermernas spridning och oberoende. Oberoende ser vi inget som motsäger, men däremot kan man ifrågasatta om vi i detta fall har den konstanta varians som vi antar. Få mätvärden för fyra pesoner och uppåt gör det dock lite svårt att dra tvärsäkra slutsatser. Övriga residualplotter som bör göras är mot de predikterade Y-värden och mot vairabeln boyta. Där undersöks samma delar av modellantagandet som ovan. Dessutom kan vi också använda oss av en normalfördelningsplot av residualerna för att undersöka om feltermerna ser ut att vara obsverationer på en normalfördelad stokastisk variabel eller inte. 4