Avd. Matematisk statistik TENTAMEN I SF90 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 26:E OKTOBER 206 KL 8.00 3.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), hjälpreda för miniräknare, miniräknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 0 poäng. Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 22 23 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Det ankommer på dig själv att ta reda på om du har rätt att komplettera. Poäng från kontrollskrivning och laborationer under innevarande kursomgång (period, HT206) får tillgodoräknas under förutsättning att tentanden erhållit minst 20 poäng på denna tentamen. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Uppgift a) En kommun lägger ut 40% av vårdnadsuppdragen hos företag A, 35% hos företag B, och 25% hos företag C. Sannolikheten att ett vårdnadsuppdrag kostar mer än vad som är överenskommet är 5% om det utförs av företag A, 3% om det utförts av företag B, och 5% om det utförs av företag C. Vad är sannolikheten att ett uppdrag kostar mer än vad som är överenskommet? (5 p) b) En signal ska skickas från S till M i systemet nedan och måste därmed antingen passera komponenterna A, B och C eller komponenterna D och E. Livslängderna hos de fem komponenterna är oberoende av varandra och signalen kan bara passera komponenter som fortfarande är hela. Livslängderna för komponenterna A, B och C är exponentialfördelade med väntevärde två år och livslängderna för komponenterna D och E är exponentialfördelade med väntevärde ett år. Antag att ett år har förflutit sedan systemet byggdes och att inga komponenter bytts ut under tiden. Bestäm sannolikheten att en signal som skickas från S når fram till M. (5 p) A B C S M D E
forts tentamen i SF90 206-0-26 2 Uppgift 2 När en oljetank i en processanläggning fylls på, uppstår i en volymmätare för varje liter (l) ett fel, vars väntevärde är noll och vars standardavikelse är 0.. Det får antas att felen är oberoende av varandra. Antag vidare att mätaren efter en påfyllning visar 400 l. Bestäm med hjälp av en lämplig och välmotiverad approximation sannolikheten för att den faktiska inpumpade oljevolymen inte skiljer sig från 400 l med mer än 4 l. (0 p) Uppgift 3 Låt x, x 2 och x 3 vara utfall av oberoende stokastiska variabler X, X 2 och X 3 som är P o(µ)-, P o(µ/2)- respektive P o(µ/4)-fördelade. a) Bestäm Maximumlikelihoodskattningen µ ML av µ. Alla observationer måste utnyttjas. (4 p) b) Bestäm Minstakvadratskattningen µ MK c) Avgör om µ ML och µ MK av µ. Alla observationer måste utnyttjas. (3 p) är väntevärdesriktiga punktskattningar av µ. (3 p) Uppgift 4 Vid marknadsföring av en produkt kan det ibland vara av intresse att veta om man ska prioritera vissa åldersgrupper eller inte. Ett företag lät därför ett visst område fungera som testområde och gjorde där en marknadsundersökning för att se hur många inom respektive åldersgrupp som köpt en viss produkt. Resultatet blev följande: Åldersgrupp 8-2 2-30 30-45 45-60 > 60 Antal som köpt produkten 54 63 67 85 3 Åldersfördelningen i det undersökta området var vid tidpunkten för marknadsundersökningen följande: Åldersgrupp 8-2 2-30 30-45 45-60 > 60 Andel i procent av befolkningen 3 2 38 5 22 Avgör på signifikansnivån % om åldersgrupperna skiljer sig åt vad gäller benägenheten att köpa produkten i fråga. Ange tydligt vilka de uppställda hypoteserna är och motivera tydligt din slutsats. (0 p) Uppgift 5 En miljöövervakningsmyndighet analyserar övergödningen av vatten i närheten av ett visst industriområde. Under år 200 gjordes mätningar av fosforhalten (enhet: mg/l) i 7 små sjöar i området. För att minska övergödningen installerades i början av 20 ett nytt reningssystem, BioKem, för industriernas avloppsvatten. Nya mätningar av fosforhalten utfördes sedan under år 20. För att undersöka om användningen av BioKem haft effekt på fosforhalten bestämdes årsmedelvärdena av fosforhalten i de 7 sjöarna under år 200 och 20, dvs före och efter installationen av det nya reningssystemet. Följande resultat erhölls:
forts tentamen i SF90 206-0-26 3 200 0.22 0.4 0.34 0.28 0.25 0.7 0.3 20 0.3 0.09 0.22 0.9 0.7 0.4 0.23 Som statistisk modell får man anta lämpliga normalfördelningar. a) Bestäm ett 95%-konfidensintervall för den förväntade förändringen i fosforhalt som det nya reningssystemet BioKem medför. (7 p) b) Ger användningen av BioKem upphov till en signifikant förändring av fosforhalten i vatten? Svara på frågan genom att testa en lämplig hypotes på signifikansnivån 5%. Slutsatsen skall klart framgå. (3 p) Uppgift 6 Joe Doe har köpt en våg, som man noga kontrollerat att den inte visar något systematiskt fel. Däremot ger den ett slumpmässigt fel X som är N(0, σ) gram. Fabriken hävdar att σ är betydligt mindre än ett gram, men Joe Doe tror inte på det, han tror σ är minst ett. Man kommer överens om att man skall genomföra ett hypotestest med 20 vägningar av objekt med känd vikt, och notera de slumpmässiga felen x,...x 20. Nollhypotesten är H 0 : σ =, och mothypotesen är H : σ <. Om H 0 förkastas till förmån för H skall Joe Doe acceptera att fabriken har rätt. Joe får välja mellan två testmetoder:. Om det största av absolutbeloppen x j är högst.48 förkastas H 0 till förmån för H. 2. Om kvadratsumman Q = 20 j= x2 j är högst 0.9 förkastas H 0 till förmån för H. a) Bestäm signifikansnivån (felrisken) för de två testen. (4 p) b) Bestäm styrkan för de två testen då σ = 0.589, dvs h(0.589), och avgör utgående från dina resultat vilket test Joe Doe bör välja? Motivera din slutsats utförligt. (6 p) Ledning: Om σ är det sanna värdet, så har Q/σ 2 en χ 2 (20)-fördelning. Lycka till!
Avd. Matematisk statistik LÖSNINGSFÖRSLAG TENTAMEN I SF90 MATEMATISK STATISTIK. ONSDAGEN DEN 26 OKTOBER 206 KL 8.00 3.00 Uppgift a) Låt A beteckna händelsen att företag A får uppdraget, låt B beteckna händelsen att företag B får uppdraget och låt C beteckna händelsen att företag C får uppdraget. Låt vidare K vara händelsen att uppdraget kostar mer än vad som är överenskommet. Enligt lagen om total sannolikhet, så gäller då P (K) = P (K A)P (A) P (K B)P (B) P (K C)P (C) = 0.4 0.05 0.35 0.03 0.25 0.5 = 0.068. Svar: Sannolikheten att uppdraget kostar mer än vad som är överenskommet är 6.8%. b) Livslängden X hos komponenterna A, B och C har täthetsfunktionen f X (x) = 2 e x/2 och sannolikheten att en sådan komponent fortfarande fungerar efter ett år är P (X ) = 2 e x/2 dx = [ e x/2 )] = e /2. Analogt, så har livslängden Y hos komponenterna D och E täthetsfunktionen f X (x) = e x och sannolikheten att en sådan komponent fortfarande fungerar efter ett år är P (Y ) = e x dx = [ e x )] = e. Sannolikheten att alla komponenterna A, B och C fungerar så att signalen kan passera förbi dessa komponenter är (e /2 ) 3 = e 3/2. Analogt, så är sannolikheten att båda komponenterna D och E fungerar så att signalen kan passera förbi dessa komponenter (e ) 2 = e 2. Vidare gäller P (en signal som skickas från S når M) = P (en signal som skickas från S når inte M) = P (minst en av komponenterna A-C och minst en av komponenterna D-E är trasig) = ( P (alla komponenterna A-C fungerar))( P (alla komponenterna D-E fungerar)) = ( e 3/2 )( e 2 ) = 0.328. Svar: Sannolikheten en signal som skickas från S når M är 32.8%. Uppgift 2 Låt X i beteckna felet för liter i. Totala felet blir då Y = 400 i= X i. Eftersom X i :na är många, oberoende och kan antas vara likafördelade, så kan Centrala gränsvärdessatsen (CGS) appliceras på Y. Enligt CGS så är Y approximativt N(nµ, σ n) = N(400 0, 0. 400) = N(0, 2)-fördelad.
forts tentamen i SF90 206-0-26 2 Vi vill bestämma sannolikheten att den faktiska inpumpade oljevolymen inte skiljer sig från 400 l med mer än 4 l, dvs P ( Y 4) = P ( 4 Y 4) = P ( 4 0 Y 0 4 0 ) = Φ(2) Φ( 2) 2 2 2 = Φ(2) ( Φ(2)) = 2Φ(2) = 0.954, där Φ är fördelningsfunktionen för den standardiserade normalfördelningen. Svar: Sannolikheten att oljevolymen inte skiljer sig från 400 l med mer än 4 l är 95.4%. Uppgift 3 a) Maximumlikelihoodskattningen µ ML ges av det värde på µ som maximerar likelihoodfunktionen L(µ) = 3 p Xi (x i ) = µx x! i= Logaritmen av likelihoodfunktionen är vidare e µ (µ/2)x2 x 2! e µ/2 (µ/4)x 3 e µ/4. x 3! g(µ) = ln L(µ) = x ln µ x 2 (ln(µ) ln 2) x 3 (ln(µ) ln 4) ln (x!x 2!x 3!) µ µ 2 µ 4. g(µ) maximeras då g (µ) = 0. Vi deriverar därför g och får g (µ) = x µ x 2 µ x 3 µ 2 4 = x x 2 x 3 7 µ 4. Villkoret g (µ ML ) = 0 ger att ML-skattningen blir µ ML = 4 7 (x x 2 x 3 ). b) Minstakvadratskattningen µ MK ges av det värde på µ som minimerar kvadratsumman Q(µ) = 3 (x i E(X i )) 2 = (x µ) 2 (x 2 µ/2) 2 (x 3 µ/4) 2, i= där vi har utnyttjat att väntevärdet för en Po(µ)-fördelad slumpvariabel är µ. Q(µ) minimeras då Q (µ) = 0. Vi deriverar därför Q och får Q (µ) = 2(x µ) 2 2 (x 2 µ 2 ) 2 4 (x 3 µ 4 ) = 2x x 2 x 3 2 µ(2 2 8 ) = 2 (4x 2x 2 x 3 ) 2 8 µ. Villkoret Q (µ MK ) = 0 ger att MK-skattningen blir µ MK = 4 2 (4x 2x 2 x 3 ). c) Skattningarna är väntevärdesriktiga om E(µ ML ) = µ respektive E(µ ML ) = µ. För maximumlikelihoodskattningen får vi ( ) 4 E(µ ML) = E 7 (X X 2 X 3 ) = 4 7 (E(X ) E(X 2 ) E(X 3 )) = 4 7 (µ µ 2 µ 4 ) = µ.
forts tentamen i SF90 206-0-26 3 För minstakvadratskattningen får vi på samma sätt ( ) 4 E(µ MK) = E 2 (4X 2X 2 X 3 ) = 4 2 (4E(X ) 2E(X 2 ) E(X 3 )) = 4 2 (4µ 2µ 2 µ 4 ) = µ. Svar: Båda skattningarna är väntevärdesriktiga. Uppgift 4 Vi vill testa om benägenheten att köpa en viss produkt skiljer sig åt mellan åldersgrupperna i ett bostadsområde och gör därför ett χ 2 -test av given fördelning. Låt p i, där i =,..., 5, vara sannolikheten att köparen till produkten tillhör åldersgrupp i. Som nollhypotes väljer vi H 0 : p = 0.3, p 2 = 0.2, p 3 = 0.38, p 4 = 0.5, p 5 = 0.22, dvs att åldersfördelningen hos köparna är identisk med åldersfördelningen i bostadsområdet i stort. Vidare väljer vi mothypotesen H till att vara att någon av likheterna i nollhypoteserna inte gäller, dvs att benägenheten att köpa produkten skiljer sig åt mellan åldersgrupperna Testvariabeln blir Q obs = r j= (x j n p j ) 2 n p j = (67 500 0.38)2 500 0.38 (54 500 0.3)2 500 0.3 (85 500 0.5)2 500 0.5 (63 500 0.2)2 500 0.2 (3 500 0.22)2 500 0.22 = 0.38. Notera att np j 500 p 2 = 500 0.2 = 60, så villkoret np j 5 är alltså uppfyllt för alla j och χ 2 -testet kan därmed användas. Enligt teorin för test av given fördelning, så är Q obs är en observation av en χ 2 -fördelad stokastisk variabel med r = 5 = 4 frihetsgrader. Eftersom Q obs < χ 2 α(r ) = χ 2 0.0(5 ) = 3.3 så kan vi inte förkasta H 0 på signifikansnivån % Svar: På signifikansnivån % kan vi ej påstå att benägenheten att köpa produkten i fråga skiljer sig åt mellan åldersgrupperna. Uppgift 5 a) Vi har sju par av mätningar av fosforhalten och använder därför metoden stickprov i par. Beteckna medelvärdena av fosforhalten i sjö i under år 200 och 20 med x i respektive y i, i =, 2,..., 7. Fosforhalterna antas vara observationer av oberoende stokastiska variabler X i N(µ i, σ ) resp. Y i N(µ i, σ 2 ), i =, 2,..., 7. Alla parametrar i normalfördelningarna är okända. Vi bildar därför differenserna Z i = X i Y i N(, σ), i =,..., 7. Motsvarande observationer är 0.09, 0.05, 0.2, 0.09, 0.08, 0.03, 0.08 och vi erhåller z = 0.077 och s z = 0.0293. Eftersom standardavvikelsen σ är okänd, så är z s z / 7 = 0.077 0.0293/ 7 en observation av en t(6)-fördelad stokastisk variabel. t-metoden ger konfidensintervallet ( I = z ± t 0.025 (6) s ) ( z = 0.077 ± 2.45 0.0293 ) (0.0500, 0.04). 7 7 Svar: Ett konfidensintervall för på konfidensnivån 95% ges av I = (0.0500, 0.04).
forts tentamen i SF90 206-0-26 4 b) Vi vill undersöka den förväntade förändringen i fosforhalt, så vi undersöker ett tvåsidigt konfidensintervall för på nivån 95%. Låt nollhypotesen vara H 0 : = 0 och mothypotesen H : 0. Eftersom konfidensintervallet för från a) inte innehåller noll, så kan vi förkasta nollhypotesen på signifikansnivån 5%. Svar: På signifikansnivån 5% så har den förväntade fosforhalten i sjörna förändrats. a) För den första metoden har vi felrisken Uppgift 6 P (Förkasta H 0 H 0 är sann) = P (max X j <.48 σ = ) j = P ( X <.48,... X 20 <.48 σ = ) = [X j oberoende] = [P ( X j <.48 σ = )] 20 = [P (.48 < X j <.48 σ = )] 20 och för den andra metoden har vi felrisken = [2Φ(.48) ] 20 = 0.0504, P (Förkasta H 0 H 0 är sann) = P (Q(X) < 0.9 σ = ) = P ( 20 ) X j < 0.9 σ = j= = [Q(X)/σ 2 χ 2 (20)] = P ( χ 2 (20) < 0.9 ) = 0.05. Svar: Signifikansnivån för de båda testen är 0.0504 respektive 0.05. b) Låt h ( ) och h 2 ( ) vara styrkefunktionerna för det första respektive det andra testet. Styrkefunktionen för ett givet parametervärde definieras som sannolikheten att nollhypotesen förkastas om det givna parametervärdet är det sanna värdet på parametern. För det första testet får vi h (0.589) = P (max X j <.48 σ = 0.589) = [P (.48 < X j <.48 σ = 0.589)] 20 j = [2Φ(.48/0.589) ] 20 = [2 0.99396 ] 20 = 0.7842, och för det andra testet får vi ( 20 ) ( h 2 (0.589) = P X j < 0.9 σ = 0.589 = P = P j= ( χ 2 (20) < 0.9 ) (0.589) 2 σ 2 20 j= = P ( χ 2 (20) < 3.49 ) = 0.95. ) X j < 0.9 σ = 0.589 σ2 Joe Doe bör välja det av testen som har störst styrka eftersom detta minimerar risken att nollhypotesen felaktigt förkastas. Svar: Styrkan för de två testen är 0.7842 respektive 0.95. Joe Doe bör därför välja det andra testet.