UMEÅ UNIVERSITET Institutionen för matematisk statistik MSTA16, Statistik för tekniska fysiker A Peter Anton TENTAMEN 2004-08-23 LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK Statistik för tekniska fysiker, 4 poäng 1. Ett företag behöver 80 motstånd med resistans mellan 280 och 350 ohm. Man köper för ändamålet in 100 motstånd av en viss typ. Man kan på goda grunder anta att dessa motstånd alla har en resistans som är normalfördelad med väntevärde 300 ohm och standardavvikelse 20 ohm. Man använder sedan enbart de motstånd som uppfyller det givna villkoret. a) Vad är sannolikheten att ett inköpt motstånd uppfyller kravet? 350 300 280 300 p = Φ Φ = Φ 20 20 0.994 + 0.841 1 = 0.835 ( 2.5) Φ( 1) = Φ( 2.5) (1 Φ( ) 1 ) = b) Vad är sannolikheten att man får minst 80 motstånd som uppfyller kravet? Låt X = antal motstånd bland 100 som uppfyller kravet. Då gäller att X är Bin(100, 0.835) med väntevärde 83.5 och standardavvikelse 3.72. Med hjälp av Centrala gränsvärdessatsen får 79 83.5 vi att P(X 80)=1-P(X 79)= 1 Φ 0.887. (Med kontinuitetskorrektion 0.859) 3.72 2. Ett enkelt blodprov tas på gravida kvinnor. För 95% visar provet inget onormalt, men övriga har förhöjda APF-värden. Andelen tvillingfödslar är 1 på 100. Sju av tio tvillinggraviditeter ger utslag i förhöjda APF-värden. Andelen tvillingfödslar är 1 på 100. a) Hur stor är sannolikheten att en kvinna med normal APF-halt ändå får tvillingar? Låt T = kvinna föder tvillingar och N = kvinnas blodprov visar normalt APF-värde. P(T N) = P(T) P(N T) / ( (P(T) P(N T) + P(T*) P(N T*) ) = (1/100)(3/10) / ( (1/100)(3/10) + (99/100) P(N T*) ). P(N) = P(T) P(N T) + P(T*) P(N T*) P(N T*) = (0,95 (1/100)(3/10))/ (99/100) = 947/950. P(T N) = 3/950 = 0,00316. b) Hur stor andel av kvinnorna har höjd APF-halt eller föder tvillingar?
P(N* T) = P(N*) + P(T) P(N* T) = P(N*) + P(T) - P(T) P(N* T) = 0,05 + 0,01 - - (0,01)(0,7) = 0,053. 3. Vid en serie bestämningar av smältpunkten hos en metallegering råkade försöksledaren tappa sin slipsnål i smältan efter den åttonde mätningen. Ytterligare sju bestämningar utfördes, men man misstänkte att missödet kunde ha sänkt smältpunkten något. Resultat: (i C, de två första siffrorna har utelämnats). Utan slipsnål 51,3 50,7 51,1 51,8 50,6 51,1 50,4 51,3 Med slipsnål 50,0 49,8 50,3 50,6 50,1 50,2 50,8 Vi kan förutsätta att observationerna är oberoende och normalfördelade med konstant varians, som alltså inte påverkas av en eventuell smältpunktsförändring. Bilda ett 95% konfidensintervall för förändringen i metallegeringens smältpunkt. Two-Sample T-Test and CI: Utan; Med Two-sample T for Utan vs Med N Mean StDev SE Mean Utan 8 51,038 0,453 0,16 Med 7 50,257 0,346 0,13 Difference = mu (Utan) - mu (Med) Estimate for difference: 0,780357 95% CI for difference: (0,325032; 1,235682) T-Test of difference = 0 (vs not =): T-Value = 3,70 P-Value = 0,003 DF = 13 4. Man mäter en cirkels diameter med en approximativ metod så att mätresultatet X är en likformigt fördelad slumpvariabel på intervallet (d - a, d + a), där d är cirkelns verkliga diameter och a < d. Cirkelns area uppskattas med Y = πx 2 /4, där X är en mätning av diametern. a) Är uppskattningen av arean väntevärdesriktig, dvs. kommer arean att i genomsnitt skattas korrekt? d a + d a E( Y ) = πx 2 / 4 f ( x) dx alltså arean med πa 2 /12. där f(x) = 1/2a, detta ger att E(Y) = πd 2 /4+πa 2 /12. Man överskattar b) Antag att d = 5 och a = 0,05 (cm). Bestäm sannolikheten att arean överstiger 20 cm 2. Utnyttja t.ex. att Y > 20 X > 5,046. P(Y>20)=P(X>5.046)=(5.05-5.046)/0.1=0.04). 5. Två nya material har framställts och för att jämföra deras dragstyrka så fogar man ihop dem så att fogen inte brister och sedan drar man tills det ena materialet går sönder. Vid 20 sådana provningar vann material A över material B i 15 fall och förlorade i 5 fall. Räcker detta för att
visa att material A är starkare? Ställ upp lämplig hypotes och testa hypotesen på 5%-nivån genom att bestämma p-värdet. p-värdet = P(lika extremt eller extremare utfall än det vi fått, givet att H 0 är sann) = P(X 15 p = 0.5)= 1- P(X 14 p = 0.5) = Binomial-tabell = 1-0.9793 = 0.0207. 6. Data nedan är från en gaskromatogafi-undersökning, en teknik för att undersöka lättflyktiga substanser. Fem mätningar gjordes från vardera av fyra prov som innehöll olika halter av en viss substans (x). Mängden i varje prov bestämdes före försöket. Responsvariabeln y är avläsningen från gaskromatografen. I tabellen nedan presenteras förutom x- och y-värdena även medelvärden och standardavvikelse för varje nivå på x. x y Medelv St.avv. 0.25 6.55 7.98 6.54 7.02 0.83 1 28.5 30.0 31.1 29.87 1.30 5 211 204 212 209 4.36 20 929 905 922 918.7 12.34 Följande utskrift erhölls från MINITAB: Regression Analysis: y versus x The regression equation is y = - 14,2 + 46,5 x Predictor Coef SE Coef T P Constant -14,172 3,597-3,94 0,003 x 46,5236 0,3485?? S = 9,61712 R-Sq =? % Analysis of Variance Source DF SS MS F P Regression 1647991 17818,23? Residual Error 92 Total 11 1648916 a) Vilka antaganden gör man vid enkel linjär regression? Finns det något i tabellen ovan som tyder på att dessa antaganden inte är uppfyllda? Motivera. Variansen är inte konstant för olika x. b) Bestäm residualerna och plotta dem mot x-värdena. Kommentera plotten. Residualer: y i (-14,4 + 46,6x i ) = 9,0913-3,8515-7,4460 12,6995 10,5213-2,3515-14,4460-11,3005 9,0813-1,2515-6,4460 5,6995
Residuals Versus x (response is y) 10 5 Residual 0-5 -10-15 0 5 10 x 15 20 c) Antag att alla modellantaganden är uppfyllda. Testa på signifikansnivå 5% om y är linjärt beroende av x. bilda t = 46,6287/0,3485 = 133,48. Jämför med t 0.025 (10-2)= 2.306. Vi kan påvisa ett linjärt samband. d) Bestäm förklaringsgraden. SSR = MSR/df =1647991/1 = 1647991, R 2 = SSR/SS yy = 1647991/1648916 = 99.9% 7. Ett företag med kontinuerlig drift har utsläpp i en älv och påstås att deras återvinningsmetoder är så bra att inga kvicksilverföreningar släpps ut. För att kontrollera detta görs under 10 veckor först ett slumpvis val av tidpunkt då man tar ett vattenprov uppströms om utsläppet och omedelbart efteråt tar man sedan ett nytt prov nedströms om utsläppet. Proverna analyseras och värdena ges nedan. Man vet att det finns ytterligare föroreningskällor längre upp utefter älven. Vecka 1 2 3 4 5 6 7 8 9 10 Uppströms 1.0 2.2 2.1 1.2 2.8 4.0 3.7 3.0 5.6 3.3 Nedströms 1.9 2.0 2.5 1.9 3.4 4.2 3.8 2.9 5.9 3.8 a) Kan vi styrka (under normalfördelningsantagande) på 5%-nivån att företaget släpper ut kvicksilver? Redogör för dina modellantaganden. Parat t-test: ensidig hypotes: Paired T-Test and CI: Uppströms; Nedströms Paired T for Uppströms - Nedströms N Mean StDev SE Mean Uppströms 10 2,89000 1,37231 0,43396 Nedströms 10 3,23000 1,26671 0,40057 Difference 10-0,340000 0,350238 0,110755 95% upper bound for mean difference: -0,136974
T-Test of mean difference = 0 (vs < 0): T-Value = -3,07 P- Value = 0,007 b) Antag att observationerna inte är normalfördelade och genomför ett test som motsvarar hypotesen i a) ovan. Ensidigt teckentest på differanserna: Sign Test for Median: Upp-ned Sign test of median = 0,00000 versus < 0,00000 N Below Equal Above P Median Upp-ned 10 8 0 2 0,0547-0,3500 8. a) Beskriv skillnaden mellan kovarians och korrelationskoefficient. b) Redogör för idén bakom maximum likelihoodmetoden för att ta fram parameterskattningar. c) Redogör för begreppen signifikansnivå och p-värde.