Tentamentsskrivning: Tillämpad Statistik 1MS026 1

Tetametsskrivig: Tillämpad Statistik 1MS026 1 Tetamesskrivig i Tillämpad Statistik 1MS026 Tid: de 7 mars, 2012 kl 8:00-13:00 Examiator och jour: Erik Broma, mob. 073 7320791, Hjälpmedel: miiräkare, formelsamlig i iferesteori, ett A4 egehädigt hadskrivet formelblad. Tetame består av 6 frågor om sammalagt 40 poäg. Prelimiära betygsgräser är satta till: betyg 3 : 18 till 24 poäg betyg 4 : 25 till 31 poäg betyg 5 : 32 eller fler poäg. Alla lösigar skall vara välmotiverade. Observera också att äve om tale ofta har flera deluppgifter så är dessa i stor utsträckig oberoede av varadra. Försök lösa uppgift b äve om i ite klarar av uppgift a. 1. (6 poäg) Atag att X 1,..., X är oberoede mätdata frå e fördelig med pdf f(x) =, 0 < <, 0 x <. (1 + x) +1 a. Bestäm MME (method of momets estimate) skattare för. För vilka är detta möjligt? b. Bestäm MLE (maximum likelihood estimate) skattare för. a. Vi har att E[X] = 0 x dx (1 + x) +1 = [ x(1 + x) ] 0 (1 + x) dx 0 [ ] 1 = 0 + (1 + x)1 = 0 1 1 1 = 1 1, om > 1. MME ger då att X = 1/(ˆ 1) d.v.s. ˆ = 1 + 1 X. 0

Tetametsskrivig: Tillämpad Statistik 1MS026 2 b. Vi har att L() = f(x 1,..., X ) = = ) f(x i = e(+1) log(1+xi) = (1 + X i ) +1 = (1 + X i) +1 ( e (+1) = log(1+xi) För att maximera L() räcker det att maximera Låt därför e (+1) där α = 1 log(1 + X i). Vi har att log(1+xi). g() := e (+1)α, g () = e (+1)α αe (+1)α = 0, e (+1) ). log(1+xi) ger villkoret 1 = α. Vi ser att g bara har e extrempukt och då g i dea atar ett positivt värde så måste detta vara ett maximum då då α > 0. Vi får att MLE för blir lim 0 e (+1)α = lim e (+1)α = 0, ˆ = 1 α = 1 log(1 + X i). 1 2. (6 poäg) I ett försök att hitta guld togs elva stycke bergsprover frå ärliggade område och halte guld uppmättes i dessa. Haltera atogs vara ormalfördelade med okät µ och σ och dessutom atogs provera vara oberoede. Resultatet blev som följer: test r: 1 2 3 4 5 6 7 8 9 10 11 resultat (ppm): 236 171 309 193 206 253 203 195 158 215 133 a. Skatta µ och σ 2. b. Ge ett 99 % CI (kofidesitervall) för di skattig av σ 2. a. µ skattas med hjälp av X = 206.5 och σ skattas med hjälp av s 2, där s 2 = 1 10 11 (X i X) 2 2295.

Tetametsskrivig: Tillämpad Statistik 1MS026 3 b. Vi har att T = ( 1)s2 σ 2 = 1 σ 2 (X i X) 2 χ 2 ( 1). Därför blir vårt 99 % CI för σ 2 (mha tabell sid 28-29 i formelsamlige): [ ] ( 1)s 2 ( 1)s 2 χ 2 0.01/2 (10), χ 2 1 0.01/2 (10) [911, 10645]. 3. (12 poäg) Ma vill udersöka huruvida dioxier asamlas i vattedrag eller om de lågsamt försvier. Ma bestämmer sig därför för att ta prover frå 13 sjöar vid två tillfälle med tio års mellarum. Kocetratioe av dioxi (i lämplig ehet) för provera listas eda: Sjö r: 1 2 3 4 5 6 7 Koc. 1: 85.4 64.0 29.7 36.8 44.3 19.9 27.5 Koc. 2: 94.9 70.7 28.0 37.0 55.8 17.3 27.7 Skillad: 9.5 6.7 1.7 0.2 11.5 2.6 0.2 Sjö r: 8 9 10 11 12 13 Koc. 1: 66.5 97.4 17.1 75.8 40.8 84.2 Koc. 2: 78.2 102.5 15.4 88.4 48.3 87.4 Skillad: 11.7 5.1 1.7 12.6 7.5 3.2 Vi låter x 1,..., x 13 betecka dataserie frå de första mätige (Koc. 1) och låter y 1,..., y 13 betecka dataserie frå de adra mätige (Koc. 2). Därefter iför vi beteckige d 1,..., d 13 för skilladera, dvs d i = x i y i. Alla test i uppgifte skall geomföras på sigifikasivå α = 0.05. Följade ger e (viss) sammafattig av data s 2 X 740.18, s 2 Y 960.71 s 2 D 30.88 a. Atag att data x 1,..., x 13 kommer frå e N(µ 1, σ 2 )-fördelad slumpvariabel, och att y 1,..., y 13 kommer frå e N(µ 2, σ 2 )-fördelad slumpvariabel. Geomför ett oparat t test för att testa om halte dioxi i sjöara förädras. b. Atag u istället att skilladera kommer frå e N(µ D, σ 2 )-fördelad slumpvariabel. Geomför ett parat t test för att testa om halte dioxi i sjöara förädras. c. Geomför ett ekelt tecketest för att testa om halte dioxi i sjöara förädras.

Tetametsskrivig: Tillämpad Statistik 1MS026 4 d. Geomför ett lämpligt ragsummetest för att testa om halte dioxi i sjöara förädras. e. Jämför resultate av dia fyra test. Diskutera kort varför det blev som det blev. a. Vi har hypotesera H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2. Vi låter T = X Ȳ och där T = T s p 1/13 + 1/13, s 2 p = 12s2 X + 12s2 Y. 24 Vi har att T t(24). Värdea frå tabelle ger s 2 X 740.18 s2 Y 960.71 och därmed s 2 p 850.45. Därför blir t 0.4183 vårt värde på slumpvariabel T. Tabellavläsig ger att t 0.025 (24) 2.064 så vi ka ej förkasta H 0 på sigifikasivå 0.05. b. Vi har hypotesera H 0 : µ D = 0 H 1 : µ D 0. Testvariabel T = D s D / 13 t(12). Istoppade värde ger ett värde t 3.1044 med p-värde P( T 3.1044) 0.01. Vi förkastar alltså H 0 på sigifikasivå α = 0.05 med p-värde 0.01. c. Låt T + vara atalet skillader som är positiva. Uder ollhypotese är T + Bi(13, 1/2). Vi ser att data ger värdet t = 3 på slumpvariabel T +. Vi får P(T + 3) == 13 + 13 + 78 + 286 8192 = 390 8192 0.04798. Nu får ma ite glömma bort att testet skall vara tvåsidigt. Därmed blir p- värdet ca 0.096, och vi ka därför ite förkasta H 0 på de giva sigifikasivå. d. Ragordig ger följade tabell: Sjö r: 1 2 3 4 5 6 7 8 9 10 11 12 13 Skillad: 9.5 6.7 1.7 0.2 11.5 2.6 0.2 11.7 5.1 1.7 12.6 7.5 3.2 Rag: 10 8 3.5 1.5 11 5 1.5 12 7 3.5 13 9 6

Tetametsskrivig: Tillämpad Statistik 1MS026 5 Värdet på vår teststatistika R blir r = 3.5+3.5+5 = 12. Tabell 10 ger att uder H 0 gäller P(T + 12) 0.01 < P(T + 13). Återige skall testet vara tvåsidigt, och därför blir p-värdet ca 0.02 och därmed förkastar vi H 0 på sigifikasivå 0.05. e. Testet i a är riktigt dåligt då vi ite alls tar häsy till att data är parat. De ibördes variatioe mella x-värdea och y-värdea är så stora att allt aat drukar i jämförelsevis. Testet i b blir förstås mycket bättre då vi tar med de extra iformatioe att data är parat. I c-testet tar vi e försiktig approach och atar iget om fördeligara. p- värdet blir därför rätt högt, speciellt som vi ite heller tar häsy till storleke på differesera, bara deras tecke. I d tar vi häsy till ite bara tecke me också storlekara, och precis som vi förvätar oss blir p-värdet mycket lägre ä i c-testet. Det blir ite lika lågt som i b, me det är fullt aturligt då vi ite atar ågot om de uderliggade fördelige. 4. (6 poäg) Civ är e fattig studet och äter därför mycket soppa. Då ho äve gillar litteratur blir det ofta bokstavssoppa, e slags soppa med små pastabitar i form av bokstäver. Ho har tre favoritmärke och då ho har mycket tid över bestämmer ho sig e dag för att geomföra ett experimet. Ho ihadlar e burk vardera av de tre märkea och räkar atalet A,B,C och D. Ho får följade resultat: Soppa \bokstav A B C D Totalt Mums soppor 17 11 13 12 53 Roffes soppor 7 5 7 8 27 Fattig-soppor 17 3 7 11 38 Totalt 41 19 27 31 118 Testa på sigifikasivå 0.02 huruvida proportioera av A,B,C,D är samma för alla märke. Våra hypoteser är H 0 : p 11 = p 21 = p 31, p 12 = p 22 = p 32, p 13 = p 23 = p 33, p 14 = p 24 = p 34 H 1 : p ij p ik för ågot i {1, 2, 3} och ågot j k. Vi börjar med att skatta proportioera ˆp 1 = 41 118, ˆp 2 = 19 118, ˆp 3 = 27 118, ˆp 4 = 31 118.

Tetametsskrivig: Tillämpad Statistik 1MS026 6 Vi får att e 11 = ˆp 1 53 = 2173 118, e 12 = ˆp 2 53 = 1007 118, osv. Uträkig ger 3 4 (o ij e ij ) 2 Q = 5.12 e ij j=1 med (4 1) (3 1) = 6 frihetsgrader. Tabell ger att detta ite är i ärhete av att vara sigifikat, och därmed förkastar vi ej H 0. 5. (6 poäg) Ett läkemedelsbolag försöker utveckla e y medici mot magsår. E studie geomfördes med 89 patieter. Läkemedelsbolaget misstäkte att syrahalte i magsafte var beroede på geuttrycket (ett mått på aktivitet) hos åtta kadidatgeer. På varje patiet tog ma e biopsi frå tarme ihop med ett prov av magsafte. Frå biopsi mäter ma med idirekta metoder aktivitete hos geera, och jämför dem med syrahalte. Ma asatte följade lijära regressiosmodell: y = β 0 + β 1 x 1 +... + β 8 x 8, där x i ager aktivitetsgrade hos ge ummer i, meda y ager syrahalte. Data matades i i R och kommadoa > mge<-lm(y~x1+x2+x3+x4+x5+x6+x7+x8) > summary(mge) gav följade utskrift: Call: lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8) Residuals: Mi 1Q Media 3Q Max -184.686-35.148-6.779 56.230 126.468 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 548.7868 191.3480 2.868 0.005279 ** x1 7.3330 2.7025 2.713 0.008153 ** x2 1.1664 2.1904 0.533 0.595844 x3 1.9837 0.2714 7.308 1.8e-10 *** x4-0.7293 2.0701-0.352 0.725559 x5 8.3831 0.5262 15.932 < 2e-16 *** x6 9.2911 14.1624 0.656 0.513682 x7 3.7424 0.2975 12.579 < 2e-16 *** x8 2.9324 0.8075 3.632 0.000495 *** ---

Tetametsskrivig: Tillämpad Statistik 1MS026 7 Sigif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual stadard error: 71.77 o 80 degrees of freedom Multiple R-squared: 0.8976, Adjusted R-squared: 0.8873 F-statistic: 87.64 o 8 ad 80 DF, p-value: < 2.2e-16 a. Skriv upp parametrara i de skattade regressiosmodelle. Vad betyder t-value i det här sammahaget? Vilka av parametrara ka ases vara sigifikata? Age de skattade stadardavvikelse för residualera samt modelles förklarigsgrad. Är modelle som helhet sigifikat? b. Efter att ha studerat utskrifte ova skrev forskara såhär i R: > mge<-lm(y~x1+x3+x5+x7+x8) > summary(mge) Call: lm(formula = y ~ x1 + x3 + x5 + x7 + x8) Residuals: Mi 1Q Media 3Q Max -176.406-33.879-7.944 63.420 120.356 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 630.8241 112.8590 5.589 2.83e-07 *** x1 7.4368 2.6445 2.812 0.006139 ** x3 1.9739 0.2640 7.478 7.07e-11 *** x5 8.3229 0.5099 16.322 < 2e-16 *** x7 3.7120 0.2913 12.741 < 2e-16 *** x8 2.9981 0.7851 3.819 0.000258 *** --- Sigif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual stadard error: 70.86 o 83 degrees of freedom Multiple R-squared: 0.8964, Adjusted R-squared: 0.8902 F-statistic: 143.7 o 5 ad 83 DF, p-value: < 2.2e-16 Varför gjorde de så? Vilka slutsatser ka vi dra? a. Lista på förklarigar i Vi har att ˆβ 0 = 548.79, ˆβ 1 = 7.333, ˆβ 2 = 1.1664 osv ii t-value avser värdet på testvariabel T i = ˆβ i s Σ jj t(89 8 1).

Tetametsskrivig: Tillämpad Statistik 1MS026 8 res 40 20 0 20 40 10 15 20 25 x1 Figur 1: Bild till uppgift 6 a. iii 71.77 samt 0.8976 iv Modelle som helhet har p-värde 2.2 10 16 så de är väldigt sigifikat: De sista rade ger p-värdet för testet med testvariabel H 0 : β 0 = β 1 = = β 8 = 0, H 1 : β j 0, för ågot j {0, 1,..., 8}, F = Rade ager också värdet på F 87.64 SSR/k F (8, 89 8 1). SSE/( k 1) b. Forskara bestämde sig för att släga ut de β j som ite kude påvisas vara sigifikata. Dessa var β 2, β 4 och β 6. De testade de ya modelle på ytt, och såg att alla β j var sigifikata. 6. (4 poäg) a. I ett försök asattes e ekel lijär regressiosmodell: y = β 0 + β 1 x 1. Vid e kotroll såg residualera ut som i bild se Figur. Föreslå e bättre modell.

Tetametsskrivig: Tillämpad Statistik 1MS026 9 b. Karl misstäkte följade sambad mella y och t: y = C 1 e C2cos(t) si(t) C3. Liearisera Karls modell så att Karl ka utföra lijär regressio för att skatta C 1, C 2 och C 3. a. Ispektio ger att sambadet sarare är kvadratiskt. Asätt y = β 0 + β 1 x 1 + β 2 x 2 1, eller y = β 0 + β 1 x 2 1. b. Vi har att log y = log C 1 + C 2 cos(t) + C 3 log(si(t)). Låt x t1 = cos(t), x t2 = log(si(t)), β 0 = log C 1 β 1 = C 2, β 2 = C 3 y = log y så får vi y = β 0 + β 1 x t1 + β 2 x t2.