Avd. Matematisk statistik TENTAMEN I SF1920 och SF1921 SANNOLIKHETSTEORI OCH STATISTIK, FREDAGEN DEN 8:E JUNI 2018 KL 14.00 19.00. Examinator: Björn-Olof Skytt, 08 790 86 49. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik (utdelas vid tentamen), Mathematics Handbook (Beta), miniräknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 10 poäng. Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 22 23 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Det ankommer på dig själv att ta reda på om du har rätt att komplettera. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Uppgift 1 I en kurs på KTH går 212 elever, varav 101 är killar. Fyrtio av killarna är aktiva i studentföreningar och fyrtionio av tjejerna. Ministern som besöker KTH samma dag önskar veta om studenterna är aktiva i studentföreningar precis som på den gamla goda tiden då ministern själv läste i Uppsala. Rektorn väljer slumpmässigt ut en elev ur klassen. a) Vad är sannolikheten att eleven är aktiv i en eller flera studentföreningar? (5 p) b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p) Uppgift 2 Ett hus skall uppföras. Man kan dela upp uppförandet i tre moment. A Projektering (trädröjning, sprängning, bortschaktning etc.) B Gjutning av grunden, rördragning för el, vatten och avlopp etc. C Byggande och inredande av själva huset. Vi antar att ett moment måste slutföras innan nästa kan sättas igång och att man kan sätta igång med nästa moment omedelbart efter det att föregående moment är avslutat. Vidare antar vi att tiderna (i enheten dagar) det tar för varje moment är avslutat och N (150, 15), N (130, 10) respektive N (270, 25). Man startar 1 januari 2019 och vill utlova att huset skall vara färdigt för inflyttning ett visst datum. Hur många dagar ska det ta enligt modellen innan är huset klart med 95% sannolikhet? Bestäm det minsta antalet dagar som uppfyller detta. (10 p)
forts tentamen i SF1920 och SF1921 2018-06-08 2 Uppgift 3 Låt X vara antalet ensamma som checkar in på ett stort hotell under tiden t och låt Y vara antalet par som checkar in på samma hotell under tiden t. Tiden anges i minuter. Låt X P o (λ 1 t) och Y P o (λ 2 t) där λ 1 = 2 och λ 2 = 1. X och Y antas vara oberoende. a) Beräkna sannolikheten att det under ett tidsintervall av längd 1 minut anländer precis fyra personer. (5 p) b) Beräkna med välmotiverad approximation sannolikheten att minst 250 personer anländer under en timme. (5 p) Uppgift 4 Ett nytt läkemedel visade sig ge lindring för 111 av de 300 personer (behandlingsgruppen) som deltog i ett försök. I syfte att kunna jämföra fick även 150 personer (kontrollgruppen) sockerpiller (som de trodde var det nya läkemedlet) och i den gruppen var det 39 personer som upplevde lindring. Beräkna ett 95%-igt konfidensintervall för skillnaden mellan andelarna i behandlingsgruppen respektive kontrollgruppen som upplever en lindring. Kan vi påstå att det finns en signifikant skillnad mellan de bägge grupperna. Använd 5% signifikansnivå. Ange tydligt vilka de uppställda hypoteserna är och vad slutsatsen är. (10 p) Uppgift 5 Vid försök att odla blommor av en viss typ erhölls 120 magentafärgade med gröna stift(stigma), 48 magentafärgade med röda stift, 36 röda blommor med gröna stift och 13 röda blommor med röda stift. Enligt botanisk teori bör blommor av dessa typer uppträda i förhållandet 9:3:3:1. Är detta experimentella resultat förenligt med den botaniska teorin? Genomför ett lämpligt test som prövar påståendet. Använd 5% signifikansnivå. (10 p) Uppgift 6 Låt x 1 = 0.92, x 2 = 0.79, x 3 = 0.47, x 4 = 0.90 och x 5 = 0.86 vara utfall av oberoende stokastiska variabler X 1, X 2, X 3, X 4, X 5, respektive, som har den gemensamma täthetsfunktionen f X (x) given av { (θ + 1)x θ, 0 x 1, f X (x) = 0, annars, där parametern θ är > 1. Härled maximum-likelihood-skattningen av parametern θ på basis av dessa data. (10 p) Lycka till!
Avd. Matematisk statistik LÖSNINGSFÖRSLAG TENTAMEN I SF1920 och SF1921 SANNOLIKHETSTEORI OCH STA- TISTIK. FREDAGEN DEN 8:E JUNI 2018 KL 14.00 19.00 Uppgift 1 Definiera händelserna A ={studenten är aktiv i en eller flera studentföreningar}, K ={kille} och T ={tjej}. a) Vi använder lagen om total sannolikhet; P (A) = P (K) P (A K) + P (T ) P (A T ) = 101 212 40 101 + 111 212 49 111 = 89 212 = 0.42 b) För den andra frågan kan vi använda Bayes sats. P (K A) = = P (K) P (A K) P (K) P (A K) + P (T ) P (A T ) 101 40 212 101 89 212 = 40 89 = 0.45
forts tentamen i SF1920 och SF1921 2018-06-08 2 Uppgift 2 Låt X vara en stokastisk variabel som beskriver antalet dagar till inflyttning. Då har vi E (X) = 150 + 130 + 270 = 550, V (X) = 15 2 + 10 2 + 25 2 = 950, D (X) = 950. Eftersom X är en linjärkombination av tre oberoende normalfördelade stokastiska variabler så är även X normalfördelad, d v s X N ( 550, 950 ). För att besvara frågan söker vi det x som uppfyller P (X x) = 0.95. Vi standardiserar ( X 550 P x 550 ) = 0.95 950 950 Alltså måste x uppfylla x 550 950 = λ 0.05 = 1.6449 x = 550 + 950 1.6449 x = 600.699223 Alltså är x = 601. Det minsta antalet dagar som huset ska kunna uppföras på enligt modellen är 601 dagar.
forts tentamen i SF1920 och SF1921 2018-06-08 3 Uppgift 3 a) Fyra personer kan anlända enligt tre olika möjligheter: 4 ensamma personer men inget par, 2 ensamma personer och ett par samt 0 ensamma personer och 2 par. Låt X vara antalet ensamma anlända personer Y vara antalet par. Vi får då att P ({X = 4, Y = 0} {X = 2, Y = 1} {X = 0, Y = 2}) = P (X = 4, Y = 0) + P (X = 2, Y = 1) + P (X = 0, Y = 2) = P (X = 4)P (Y = 0) + P (X = 2)P (Y = 1) + P (X = 0)P (Y = 2) = e 2 24 4! e 1 10 0! 21 11 + e 2 e 1 1! 1! 20 12 + e 2 e 1 0! 2! = 19 6 e 3 0.158 b) Låt nu X vara antalet ensamma personer som kommer under en timme och Y antalet par. Totala antalet personer som kommer under timme är då X + 2Y. Både X och Y är Poissonfördelade, X Po(60 2) och Y Po(60 1). Eftersom väntevärdena är större än 15 är X N(120, 120) och Y N(60, 60) och således X + 2Y N(120 + 2 60, 120 + 2 2 60)= N(240, 360). härav får vi 250 240 P (X + 2Y 250) 1 Φ( ) = 1 Φ(0.527) 0.30 360
forts tentamen i SF1920 och SF1921 2018-06-08 4 Uppgift 4 Vi uppfattar situationen som att vi har gjort binomialförsök i respektive grupp. x 1 är en observation på X 1 Bin (n 1, p 1 ) och x 2 är en observation på X 2 Bin (n 2, p 2 ). Den sanna andelen i varje grupp är p i. Från texten har vi att n 1 = 300 och x 1 = 111, samt n 2 = 150 och x 2 = 39. Vi ska göra konfidensintervall för p 1 p 2. Vi punktskattar p 1 med På samma vis punktskattar vi p 2 med (p 1 ) obs = x 1 n 1 = 111 300 = 0.37 (p 2 ) obs = x 2 n 2 = 39 150 = 0.26 Alltså blir punktskattningen av skillnaden p 1 p 2 lika med (p 1 ) obs (p 2) obs = 0.11 Vi bör beakta att vårt konfidensintervall har en approximativ konfidensgrad. Eftersom ( n 1 (p 1 ) obs (1 (p 1) 111 obs ) = 300 1 111 ) = 106.93 > 10 300 300 och ( n 2 (p 2 ) obs (1 (p 2) obs ) = 150 39 1 39 ) = 28.86 > 10 150 150 Ett approximativt 95%-igt konfidensintervall för p 1 p 2 får vi genom (p 1 ) obs (p 2) obs ± 1.96 d där d = = (p 1 ) obs (1 (p 1) obs ) 111 300 ( 1 111 300 300 = 0.04538355 + (p 2) obs (1 (p 2) obs ) n 1 n 2 ) ( ) 39 150 1 39 150 + 150 Konfidensintervallet erhåller vi utav 0.11 ± 1.96 0.04538355 eller 0.11 ± 0.09 eller med gränserna utskrivna (0.02, 0.20). Konfidensintervallet för p 1 p 2 innehåller inte talet noll, så vi kan på 5% signifikansnivå förkasta nollhypotesen om ingen skillnad mellan behandlingsgruppen och kontrollgruppen.
forts tentamen i SF1920 och SF1921 2018-06-08 5 Uppgift 5 Vi har n = 217 observationer på multinomialfördelningen med fyra celler. Hypoteser: H 0 : P (A 1 ) = 9 16, P (A 2) = 3 16, P (A 3) = 3 16, P (A 4) = 1 16. H 1 : H 0 ej sann. Signifikansnivå: α = 0.05. Testvariabel: Testvariabeln Q obs = r (x j np j ) 2 j=1 är approximativt χ 2 -fördelad med (r 1) frihetsgrader. Eftersom r = 4 har vi (r 1) = 3 frihetsgrader. I formelsamlingen hittar vi χ 2 0.05 (3) = 7.81. Beslutsregel: H 0 förkastas om Q > 7.81. Resultat: χ 2 -metoden kan användas, ty för np 4 = 217 1 16 = 13.5627 > 5 och alla övriga np j är större. Ett sätt att utvärdera nollhypotesen är att göra en tabell över de förväntade frekvenserna och de observerade i varje cell: Magenta/Grön Magenta/Röd Röd/Grön Röd/Röd np j 217 9 3 3 1 = 122.1 217 = 40.7 217 = 40.7 217 = 13.6 16 16 16 16 x i 120 48 36 13 Vi ser att de magentafärgade med röda stift var fler än förväntat, så att vi har en avvikelse i den cellen. I övriga celler är avvikelserna mycket små. Testvariabeln blir Q = r (x j np j ) 2 j=1 np j np j (120 122.1)2 (48 40.7)2 = + + 122.1 40.7 (36 40.7)2 (13 13.6)2 + + + 40.7 13.6 = 0.03611794 + 1.309337 + 0.5427518 + 0.02647059 = 1.914677 < 7.81 Slutsats: H 0 förkastas ej på 5% signifikansnivå. Det är möjligt att den botaniska teorin är korrekt. Vårt experiment har inte lyckats motbevisa teorin. Uppgift 6 Likelihoodfunktionen för θ med data x 1, x 2, x 3, x 4, x 5 är L (θ) = f X (x 1 ) f X (x 2 ) f X (x 3 ) f X (x 4 ) f X (x 5 ),
forts tentamen i SF1920 och SF1921 2018-06-08 6 vilket ger L(θ) = (θ + 1) 5 (x 1 x 2 x 3 x 4 x 5 ) θ. Tar man den naturliga logaritmen av detta får man ln L (θ) = 5 ln (θ + 1) + θ 5 ln x i. i=1 Logaritmen är en monotont växande funktion, varför vi söker maximum för L (θ) genom att bestämma nollstället för första derivatan av ln L (θ). Derivering ger Således är d dθ ln L (θ) = 0 för θ = d 5 ln L (θ) = dθ θ + 1 + 5 ln x i. i=1 5 5 i=1 ln(1/x i) 1. Insättning av de gjorda observationerna ger θ = 2.7585. SVAR: Maximum likelihoodskattningen är θ = 2.7585.