UPPSALA UNIVERSITET Sannolikhetslära och Statistik Matematiska Institutionen F Silvelyn Zwanzig 3 mar, 006 Tillåtna hjälpmedel: Miniräknare, Formel- och Tabellsamling med egna handskrivna tillägg Skrivtid:5-0. För godkänd krävs åtminstone 8 poäng (inklusive eventuella bonuspoäng), för väl godkänd krävs åtminstone 8 poäng (inklusive eventuella bonuspoäng). Varje uppgift är värd 5 poäng. Lösningarna ska redovisas fullständigt med motiveringar!!!. Vädret en vinterdag kan grovt delas in i tre olika typer V : högtryck, V : ostadigt; V 3 : lågtryck. Sannolikheter för olika typer är vädret V V V 3 sannolikhet 0.4 0. 0.4. Sannolikheten att det snöar vid V, V, V 3 är 0.05, 0.4 och resp. 0.9. (P (snöar/v ) = 0.05, P (snöar/v ) = 0.4, P (snöar/v 3 ) = 0.9). Du tittar ut genom fönstret och konstaterar att det snöar. (a) Beräkna obetingade sannolikheten för att det snöar. P (snöar) = P (snöar/v )P (V )+P (snöar/v )P (V )+P (snöar/v 3 )P (V 3 ) = 0.05 0.4 + 0.4 0. + 0.4 0.9 = 0. 46 (b) Beräkna betingade sannolikheten att vädret är av typ V k om det snöar. P (V /snöar) = P (snöar/v )P (V ) P (snöar) P (V /snöar) = P (snöar/v )P (V ) P (snöar) P (V 3 /snöar) = P (snöar/v 3)P (V 3 ) P (snöar) = 0.05 0.4 0.46 = 0.0 0.46 = 4. 3478 0 : = 0.4 0. 0.46 =. 739 = 0.9 0.4 0.46 =. 786 Test: 4. 3478 0 +. 739 +. 786 =. 0
(c) Är händelserna snöar och vädret oberoende? Nej, P (snöar/v ) = 0.05 P (snöar/v ) = 0.4. Ett piratföretag tillverkar disketter av tveksam kvalitet; 5 procent av alla disketter är defekta. För att undvika alltför omfattande klagomål från kunderna så kompletterar man varje 0-ask med två bonusdisketter, så att askarna i själva verket innehåller disketter. (a) Vilken fördelning har antalet defekta disketter av 0 stycken? Bin(0, 0.5) Vilken fördelning har antalet defekta disketter av stycken? Bin(, 0.5) (b) Jämför väntevärde för antalet felfria diskettter i 0-ask med bonusdisketter och utan bonusdisketter. EX = np; med bonus: 0.5 =. 8 större än utan bonus: 0 0.5 =.5 (c) Om du köper 0 askar med disketter i varje ask, med vilken sannolikhet har du minst 00 felfria disketter. X = antalet felfria är Bin(0, 0.85) fördelad, med EX = 0 0.85 = 04.0, V arx = 0 0.5 ( 0.5) = 30. 6, DX = V ar(x) = 30.6 = 5. 537 Bin(0, 0.85) kan approximeras med N(04, 5.53). P (X 00) = P (X 99) = P (X 99.5) Φ ( ) 99.5 04 5.53 :. 8374 = Φ (. 8374) = Φ (0. 8374) = 0.79 3. Vid en viss dataöverföring inträffar fel enligt en Poissonprocess med konstant intensitet λ = 4 per timme. (a) Vad är sannolikheten att felfritt få igenom en överföring som tar en halv timme. X = antalet fel per halv timme är poisson fördelad med λ = P (X = 0) = exp( ) = e =. 3534 (b) Bestäm sannolikheten för minst två fel mellan klockan 0 och. Y = antalet fel mellan 0 och är poisson fördelad med λ = 4
P (Y ) = P (Y ) = exp( 8)( + 8) = 0. 99698 (c) Datoröverföring är observerad 3 dagar mellan klockan 0 och. Bestäm sannolikheten för mer än 0 fel under hela perioden. (approximera på rimligt sätt) Z = antalet fel mellan 0 och under 3 dagar är poisson fördelad med λ = 4 3 = 4. Z är approximativt normal fördelad med N ( 4, 4 ). 4 = 4. 899 P (Z > 0) = P (Z 0) = Φ ( ) 0.5 4 4. 899 = Φ(. 7443) = Φ( 0. 7443) = 0.76 4. En stokastisk variabel sägs vara Borel -Tanner fördelad med parameter λ, om den har en diskret fördelning med sannolikhetsfunktion av nedanstående typ: P (X = x) = (xλ)x e xλ, x =,,..., 0 < λ <, x! (a) Bestäm ML-skattningen av parametern λ baserad på ett slumpmässigt stickprov (x, x,..., x n ) från en Borel- Tanner fördelning. L (λ) = ( ) n (xi λ) x i i= e x iλ, x i! l (λ) = n i= (x i ) ln(λ) n i= x iλ + const l (λ) = n i= (x i ) n λ i= x i, l (λ) = n ) l ( λ = 0; λ = n i= (x i ) n i= x i = x i= (x i ) λ < 0 (b) Ange skattningen numeriskt när stickprovet utgörs av följande fem värden:, 3,,, 5. λ = 0++0++4 = 7 =. 58333 +3+++5 5. Vid ett företag som tillverkar koppartråd jämförde man två aduceringsmetoder A och B (aducering är en form av härdning som förbättrar metallens dragstyrka). Vad som i första hand skiljer båda metoderna är processtemperaturen: metod B kräver betydligt högre temperaturer än metod A. Metod A har använts traditionellt, men man är beredd att övergå till B om det visar sig vara bättre. 3
Man valde ut 9 bitar koppartråd av skiftande kvalitet. Varje bit delades mitt itu, den ena delen behandlades med A och den andra delen med B. Mätvärdena antas utgöra oberoende observationer från normalfördelningar. Resultat anger dragstyrkan i viss enhet: Bit 3 4 5 6 7 8 9 A 7.8 6.9 5.8 8.4 5.5 9.6 6. 4.8 5.9 B 7. 7 6. 8. 5.7 9.9 6.6 6. 6. (a) Formulera hypotesen och mothypotesen. A N(m A, σ A ) och B N(m B, σ B ); = A B N(m A m B, σ A + σ B ) H 0 : m A m B = 0, H : m A m B < 0 (b) Vilken testmetod vill du använda? Varför? stickprov i par, varians okant, t-test. (c) Genomför testet på signifikansnivå α = 0.05. T = 9 s =.47, s = 0.35, Om T < t α(9), förkasta H 0 T =.47, t α (9) =.88, förkasta ej. (d) Om du vill ha ett snabbt resultat, så kan du använda teckentest. Genomför detta genom att beräkna p-värdet. Z =antalet gånger, när A är större än B, Om H 0 Bin(9, 0.5) fördelad. är sann, Z är Z obs =, p värdet = P (Z Z obs ) = P (Z ) = 0.0898, kan ej förkasta H 0 6. En viss typ av buss har bara en dörr, som används både av de som stiger av och de som stiger på. Man har vid 0 tillfällen mätt tiden Y (i sekunder) från det bussen stannat vid en hållplats tills den åter satt igång. Samtidigt har man noterat antalet påstigande (x) och antalet avstigande (x). Man vill försöka förklara bussens stopptid Y med hjälp av en linjär regression på x eller x. Analys med dator har gett följande resultat: medelvärdet av x=.8 Call: lm(formula = y x) Coefficients: 4
Estimate Std.Error t value Pr(> t ) (Intercept) 8.7359.7630 4.955 0.0000 x 9.3967 0.6437 4.597.03e- Residual standard error: 5.94 on 8 degrees of freedom Multiple R-Squared: 0.9, Call: lm(formula = y x) Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept).074 6.358 3.47 0.007 x.555.875 0.89 0.478 Residual standard error: 0.89 on 8 degrees of freedom Multiple R-Squared: 0.0368, (a) Skriv upp de två anpassade regressionslinjerna. 8.7 + 9.4 x, +.6 x (b) Finns det statistiskt säkerställda belägg för att antalet påstigande förlänger stopptiden? p value =.03e = 0 säkerställt att antalet påstigande förlänger stopptiden. (c) Finns det statistiskt säkerställda belägg för att antalet avstigande förlänger stopptiden? p value = 0.47 =. 085 > 0. inte säkerställt att antalet avstigande förlänger stpptiden. (d) Ge skattningen för variansen av fel i första modellen. s = (5.94) = 35. 307 (f) Vilken modell ger en bättre förklaring? första: R-Squared=0.9 - det är bra, x har påverkan andra model är dåligt, x har ingen säkersteälld påverkan, R-sqared är mindre än 0.04 (e) Om 0 personer stiger på, vad är väntevärdet för stopptiden? 8.7 + 9.4 0 = 0. 7 (f) Beräkna 95% konfidensintervall för väntevärdet i (e). 5
Använda a+bx±t n,0.05 s 8.7 + 9.4 0 ± t 8,0.05 + (x x) n S xx S xx = (s.e(b)) s = ( 5.94 0.6437 ) = 85. 0.7 ± t 8,0.05 5. 443, t 8,0.05 =.0, a+bx±t n,0.05 n s + (x x) (s.e(b)) 0 (5.94) + (0.8) (0.6437) ; 0.7.0 5. 443 = 9. 64, 0.7 +.0 5. 443 = 4. 4 konfidensintervall: [9.3; 4.] 7. Vid en brittisk testanstalt för bilar, undersöker man bromssträckan vid varierande hastighetsnivå. (låg, medel, hög). Därvid kör en förare på torr asfaltbana vid en fix hastighet, tills han vid en given signal direkt börjar att bromsa. ANOVA analys med dator har gett följande resultat: One-way ANOVA: bromssträcka versus hastighet Source DF SS MS F P hastighet 378.9 89.4 7.8 0.000 Error 7 56.3 68.0 Total 9 4939. (a) Vilken fördelning har SS i Error -raden? SS σ är Chi squared fördelad med 7 frihetsgrader. (b) Vad är det skattade värdet för bromssträckans varians σ i tabellen. SS df = 56.3 7 = 68. 08 = MS (c) Ge 95% konfidensintervall för σ. Använd konfidensintervall på sidan 00 Blom B: [ SS I σ = Chi α (df), SS Chi α (df) ], Chi α (7) = 30., Chi α (7) = 7.56 [ 56.3, ] 56.3 30. 7.56 = [38. 88, 5. 95] (d) I tabellen finns testresultat.vad är nollhypotes respektive mothypotes? Vilken fördelning har teststorheten F? Vad är testresultatet? H 0 : m = m = m 3 hastighet har ingen påverkan H olika (inte H 0 ) Om H 0 är sann, F är F- fördelad med och 7 frihetsgrader. p värdet= 0, förkasta H 0. Hastigheten har stor signifikans ***. 6
8. För att jämföra två härdningsmetoder av stålstavar uttogs slumpmässigt stavar, av vilka 6 härdades enligt metod A och resten med metod B. På grund av ett tekniskt fel under härdningen (som inte berodde på härdningsmetoden) fick 3 B-stavar kasseras. En viss hårdhetsvariabel mättes och man fick: A 8.7 8.5 9.3 0.7 8. 8.9 B 9. 9.5. (a) Anta att stickproven kommer från normalfördelningar. Testa om metoden B är bättre. Formulera hypotes och mothypotes. Genomför test med α = 0.05. A N(m A, σ A ) och B N(m B, σ B ); antar σ A = σ B H 0 : m A m B = 0, H : m A m B < 0 två stickprov t-test T = A B, Om T < t s 6 + α (6 + 3 ), förkasta H 0 3 s = 0.93, A = 9.05, B = 9.933, T obs =.345, t 0.05 (7) =.89 kan ej förkasta H 0 (b) Testa om metoden B är bättre genom att utföra Wilcoxons rangsummetest. R B = 5 + 7 + 9 =, (R A = 3 + + 6 + 8 + + 4 = 4) Tabellvärdet för R B, α = 0.05: (Tabellvärdet för R A, α = 0.05: 3) R B < kan ej förkasta H 0 (R A > 3 kan ej förkasta H 0 ) 7