STOCKHOLMS UNIVERSITET MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik, ML 15 december 004 Lösningar Tenta i Statistisk analys, 15 december 004 Uppgift 1 Vi har två stickprov med n = 5 st. observationer i vardera stickprov. Båda stickproven antas komma från en N(0, 0.063 )-fördelning. Stickproven består av mätningar av två st. motstånd. a) Båda motstånden är märkta 1 ohm, och vi ska testa hypoteserna resp. H 01 : µ 1 = 1 H 11 : µ 1 1 H 0 : µ = 1 H 1 : µ 1 på signifikansnivån 5%. Låt x i, i = 1,..., 5, motsvara det första stickrpovet och y j, j = 1,..., 5, motsvara det andra stickrpovet. Då vet vi att eftersom variansen är känd, så ska vi genomföra två st. Z-test, dvs. vi ska testa om z 1 = x µ 1 σ/ n > z 0.05 = 1.96 där Z 1 = X µ 1 σ/ n N(0, 1)
Lösning Statistisk analys, 15 december 004 och på samma sätt för det andra stickprovet. Vi får då att x = 1.017 vilket ger oss att z 1 = 1.017 1 0.063/ 5 0.60 och därmed kan vi inte förkasta H 01 på 5% signifikansnivå. För det andra stickprovet får vi att ȳ = 1.06, och då blir vår statistika z = 1.06 1 0.063/ 5.15 och vi kan därmed förkasta H 0 på 5% signifikansnivå. b) Nu ska vi beräkna ett 99%-igt tvåsidigt symmetriskt konfidensintervall för skillnaden R 1 R, dvs. ett konfidensintervall för att testa H 0 : µ 1 = µ H 1 : µ 1 µ, vilket fås enligt 1 99%KI R1 R : x ȳ ± z 0.005 σ n + 1 n 99%KI R1 R : 0.046 ±.576 0.063 5 99%KI R1 R : ( 0.149, 0.057) och vi ser då att vi inte kan förkasta H 0 på 1% nivån. Uppgift Nu ska vi testa hållfastheten hos 0 st. svetsfogar för att se om den överstiger 75 kg/mm och vi kan inte anta normalfördelning. Vi måste alltså göra ett icke-parametriskt test av hypotesen H 0 : µ = 75 H 1 : µ > 75 och eftersom den bakomliggande fördelningen är osymmetrisk bör vi göra ett teckentest.
Lösning Statistisk analys, 15 december 004 3 a) Vi ska nu beräkna P-värdet för vårt test, och detta kan göras endera exakt eller m.h.a. normalapproximation. Exakt: Det första vi ska göra är att beräkna s + = antal observationer som är större än 75, och det visar sig bli 15 st. av 0. Då vet vi att s = antal observationer som är mindre än 75 blir 0 - s + = 5 st. Kom nu ihåg att S Bin(0, p)-fördelad, och under H 0 så är p = 1/. För att beräkna P-värdet, kom ihåg att P-värde = P (Typ I-fel) = P (Förkasta H 0 H 0 ) vilket är vårt svar. Normalapproximation: = P (S s + H 0 : p = 1/) = P (S s H 0 : p = 1/) = P (S 5 H 0 : p = 1/) 5 ( ) ( 0 1 = p i (1 p) 0 i = i i=0 ( ) 1 0 = 1700 0.007 ) 0 5 i=0 ( ) 0 i För att kunna göra en normalapproximation måste vi skapa en stokastisk variabel som blir N(0, 1)-fördelade, och det gör man såhär: Z = S + E(S + ) 1/ V ar(s+ ) N(0, 1), och statistikan blir då z = s + n/ 1/ n/4 där -1/ i täljaren är en så kallad heltalskorrektion. Vi får då att vilket ger oss z = 15 0/ 1/ 0/4 = 9 5.015 P-värde = P (Z > z) = 1 P (Z z) = 1 Φ(z) = 1 Φ(.015) 0.01.
Lösning Statistisk analys, 15 december 004 4 b) För att kolla vilken konfidensgrad som konfidensintervallet 73.3 µ 8. har, så kan vi även göra detta exakt eller med normalapproximation. Exakt: Det räcker med att beräkna P-värdet för någon av gränserna, och sedan multiplicera med två, p.g.a. symmetri, och sedan ta ett minus detta för att få den sökta konfidensgraden. Låt s 73.3 vara antalet observationer som är strikt mindre än 73.3, och dessa är till antalet. Vi får då, om vi gör som tidigare, att P-värde (ensidigt) = P (S 73.3 H 0 ) = = ( ) 1 0 11 0.000 = P-värde (tvåsidigt) 0.0004 ( 1 ) 0 i=0 ( ) 0 i och konfidensgraden blir 1 α 0.9996. Normalapproximation: Om vi nu låter s +73.3 vara antalet observationer som är strikt större än 73.3, dvs. s +73.3 = 17, och gör på motsvarande sätt m.h.a. normalapproximation får vi att 17 0/ 1/ z = = 13 0/4 5.9069 vilket ger oss P-värde (ensidigt) = 1 Φ(.9069) 0.0018 = P-värde (tvåsidigt) 0.0037 och då blir konfidensgraden 1 α 0.9963.
Lösning Statistisk analys, 15 december 004 5 Uppgift 3 Vi ska nu sätta upp ett uppåt begränsat 90%-igt konfidensintervall för σ, där σ är standardavvikelsen hos ett stickprov där man mätte 5 st. barns IQ. Då vet vi att 100(1 α)%ki σ : σ (n 1)s χ, n 1,1 α och givet i uppgiften är att s = 87.9, dvs. s 9.4, n 1 = 4 samt att α = 0.10. Vårt konfidensintervall blir då 4 87.9 90%KI σ : σ 11.6 15.7 Uppgift 4 I uppgiften har en biolog gjort en undersökning hur temperaturen påverkar spelfrekvensen hos gräshoppor genom att samla in data för 13 dagar och göra en enkel linjär regression. Hon fick då följande skattningar: Det hon vill testa är om på 1%-nivån, dvs. om t = ˆβ 0 = 9.10 ˆβ 1 = 0.74 s = 0.746 r = 0.494. H 0 : β 1 0 H 1 : β 1 > 0 ˆβ 1 SE( ˆβ 1 ) > t n,α, där SE( ˆβ 1 ) = s Sxx. Det vi behöver göra nu är att bestämma S xx. Om vi använder ledningen som är given i uppgiften så r = 1 SSE S yy = S yy = SSE (n )s 11 0.746 = 1 r 1 r = 1 0.494 16.17
Lösning Statistisk analys, 15 december 004 6 och från formelsamlingen vet vi att SSE = S yy S xy = r = 1 samt att ˆβ1 = S xy S xx ( = r = ˆβ 1 S xx S yy = S xx = S yyr ˆβ 1 S xx 1 S xy S xx ) = S xy S xx = SE( ˆβ 1 ) = = t = ˆβ 1 s Syy r ˆβ 1 SE( ˆβ 1 ) = Syy r s. Vi får då att 16.17 0.494 t = 3.77 > t 11,0.01 =.718, 0.746 och därmed kan vi förkasta H 0 på 1%-nivån. Uppgift 5 Vi har ett stickprov om x 1,..., x n observationer från en geometrisk fördelning med sannolikhetsfunktion f(x p) = (1 p) x 1 p där x = 1,, 3,... Det vi ska göra är att beräkna à posteriorifördelningen π (p), dvs. π (p) π(p)f(x 1,..., x n p) = π(p) n f(x i p), där π(p) är à priorifördelning, som i uppgiften är vald till en betafördelning med parametrar a och b, och som har tätheten π(p) = Γ(a + b) Γ(a)Γ(b) pa 1 (1 p) b 1, 0 p 1.
Lösning Statistisk analys, 15 december 004 7 Vi får då att π (p) = Γ(a + b) Γ(a)Γ(b) pa 1 (1 p) b 1 n (1 p) xi 1 p = Kp a 1 (1 p) b 1 (1 p) P n xi n p n { } = t = x i = Kp a+n 1 (1 p) b+t n 1 Då ser vi att om vi låter a = a + n och b = b + t n, och väljer K så att vi får en sann täthetsfunktion enligt K = Γ(a + b ) Γ(a )Γ(b ) = π (p) = Γ(a + b ) Γ(a )Γ(b ) pa 1 (1 p) b 1 så ser vi att à posteriorifördelningen också är betafördelad, men nu med parametrarna a och b. När à priorifördelningen och à posteriorifördelningen tillhör samma familj av fördelningar sägs vi ha en konjugerande à priorifördelning. Uppgift 6 Nu ska vi beräkna ML-skattningarna av parametrarna µ och σ i en dubbelt exponentiell fördelning, vilket är en fördelning med tätheten f(x) = 1 σ e 1 σ x µ, x R. Som vi ser ur tätheten så är fördelningen symmetrisk kring µ, se även fig. 1, vilket leder till att µ kommer att vara fördelningens väntevärde, och på samma sätt kan man ana att σ är kopplat till fördelningens varians. Vi ser också att tätheten, och därmed också likelihooden och log-likelihooden, inte är differentierbar m.a.p. µ. Med andra ord, vi kan inte beräkna vår ML-skattning ˆµ genom att derivera l(µ, σ) m.a.p. µ och sätta derivatan lika med noll, och lösa ut µ ur det uttryck som vi får då. Antag att vi har ett stickprov x 1,..., x n, där n är udda, från den här fördelningen, och sätter upp dess likelihood L(µ, σ) = n f(x i ) = n 1 σ e 1 σ x i µ = ( ) 1 n e 1 P n σ x i µ σ
Lösning Statistisk analys, 15 december 004 8 och dess log-likelihood l(µ, σ) = n log(σ) 1 σ x i µ. Om vi ordnar alla våra x i kan vi dela upp våra ordnade observationer så att x (1) < x () <... < x (k) < µ < x (k+1) <... < x (n), och därmed även dela upp vår summa enligt k x i µ = (x (i) µ) + (µ x (i) ) i=k+1 och denna är deriverbar m.a.p. µ. Om vi nu ser till log-likelihooden och dess derivata m.a.p. µ så får vi att [ k ] l(µ, σ) = n log(σ) 1 (x σ (i) µ) + (µ x (i) ) = µ = µ vilket ger oss att = 1 ( k + (n k)) σ = k n = 0 < 0 µ om k < n > 0 µ om k > n i=k+1 eftersom n är udda. log-likelihooden kommer alltså att maximeras då k = (n + 1)/, och därmed kommer vår ML-skattning av µ att bli ˆµ = x ( n+1 ) = x. För att hitta ML-skattningen av σ kan vi göra som vanligt [ ] = n log(σ) 1 x i µ σ σ σ = σn + x i ˆµ = 0 = n σ + 1 σ x i µ = 0 ˆσ = 1 n x i ˆµ = 1 n x i x.
Lösning Statistisk analys, 15 december 004 9 0.5 µ = 0, σ = 0. 0.15 f(x) 0.1 0.05 0 0 10 0 10 0 30 40 x Figur 1: Här är ett exempel på hur en dubbelt exponentialfördelad variabel ser ut när µ = 0 och σ =.