Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Teoridel: Uppgift 1 a) Vi har en tillämpning av den allmänna linjära modellen Y = Aθ + ɛ, där designmatrisen A består av de båda kolonnvektorerna (x 1,..., x N ) och (z 1,..., z N ), och θ motsvaras av (β 1, β 2 ). Den allmänna formeln för minstakvadrat-skattningen ger (β 1, β 2 ) = (A A) 1 A Y. Vi får (A A) 1 A Y = ( 1 Σ N i=1 z 2 i Σ N i=1 x iz i Σ N i=1 x i 2 Σ N i=1 z i 2 (Σ N i=1 x iz i ) 2 Σ N i=1 x iz i Σ N i=1 x i 2 ) ( Σ N i=1 x i Y i Σ N i=1 z i Y i ) som ger och ˆβ 1 = Σ iz i 2 Σ i x i Y i Σ i x i z i Σ i z i Y i Σ i x i 2 Σ i z i 2 (Σ i x i z i ) 2 ˆβ 2 = Σ ix i z i Σ i x i Y i + Σ i x i 2 Σ i z i Y i Σ i x i 2 Σ i z i 2 (Σ i x i z i ) 2 b) MK-skattningarna av väntevärdesparatmetrarna är alltid väntevärdesriktiga, så E[ ˆβ 1 ] = β 1 och E[ ˆβ 2 ] = β 2 c) Variansmatrisen för ( ˆβ 1, ˆβ 2 ) är σ 2 (A A) 1. Det framgår av lösningen till a-uppgiften att den matrisen blir diagonal om Σ N i=1 x iz i = 0. Detta är alltså villkoret för oberoende. Teoridel: Uppgift 2 a) Eftersom Y.. = (1/nk)Σ k i=1 Σn j=1 Y ij så följer det att Y.. = 1 nk Σk i=1σ n j=1(µ + δ i + ɛ ij ) = µ + δ + ɛ..

Linjära statistiska modeller, 14 januari 2010 2 och alltså är E[Ȳ..] = µ och, på grund av oberoendet mellan alla δ i och ɛ ij, Var(Ȳ..) = σ δ 2 /k + σ 2 /(nk). Alltså gäller med sannolikheten 1 p att z p/2 Ȳ.. µ σδ 2 /k + σ 2 /(nk) z p/2 (1) Härav följer den givna formeln för konfidensintervallet. b) De k variablerna Ȳi., i = 1,..., k är alla oberoende och normalfördelade med väntevärde µ och varians Var(Ȳi.) = σ δ 2 + σ 2 /n. Rent allmänt gäller ju att om man för sådana variabler summerar ihop kvadraterna på deras avvikelser från medelvärdet så får man en stokastisk variabel som (efter division med Var(Ȳi.)) är χ 2 -fördelad med k 1 frihetsgrader, och oberoende av Ȳ... Eftersom variabeln i mellersta ledet av (1) är N(0,1) så följer det att variabeln Ȳ.. µ 1 k 1 Σk i=1 (Ȳi. Ȳ..) 2 är t-fördelad med k 1 frihetsgrader. Ett symmetriskt konfidensintervall för µ med konfidensgrad 1 p kan alltså skrivas 1 Ȳ.. ± t p/2 (k 1) k 1 Σk i=1 (Ȳi. Ȳ..) 2 c) Eftersom σ 2 δ och σ 2 är kända ska vi beräkna konfidensintervallet med formeln σ 2 δ Ȳ.. ± z p/2 k + σ2 nk. Att minimera konfidensintervallets längd är tydligen likvärdigt med att minimera f(n, k) = σ2 δ k + σ2 nk = 1 k (σ δ 2 + σ 2 /n) (2) Låt α vara kostnaden för att öppna en säck, β vara kostnaden för att väga en potatis, och C vara mängden pengar vi har till förfogande. Då gäller det att minimera f(n, k) under bivillkoret α k + β nk C. Det är troligt att vi får ett bättre resultat om vi spenderar så mycket pengar som möjligt, så vi ändrar bivillkoret till α k + β nk = C, vilket ger k = C/(α + βn). Sätter vi in detta i (2) så ser vi att vi ska minimera α + βn C (σ δ 2 + σ 2 /n) = 1 C (ασ δ 2 + βnσ 2 δ + ασ 2 /n + βσ 2 ). Derivering visar att ett minimum finns vid n = ασ 2 βσ 2 δ. Med de givna numeriska värdena blir n = 10 och k = 10.

Linjära statistiska modeller, 14 januari 2010 3 Problemdel: Uppgift 3 a) Ett test av en linjär hypotes innebär att man undersöker om skillnaden mellan väntevärdesvektorerna i grundmodellen respektive hypotesmodellen är osannolikt stor i förhållande till residualvektorns längd i grundmodellen. Residualvektorns kvadratiska längd i grundmodellen hittar vi på raden Error i figur 2. Avståndet mellan de båda väntevärdesskattningarna (eller rättare sagt kvadraten på det) är enligt Pythagoras sats lika stor som skillnaden mellan residualvektorns kvadratiska längd i hypotesmodellen och i grundmodellen. Genom att utnyttja Error-raden i figur 3 kan vi nu ställa upp följande ANOVA-tabell, där raden Avvikelse från hypotes är erhållen genom subtraktion: Avvikelse från hypotes 312.9 3 104.3 12.33 Residualer 152.2 18 8.46 Totalt 465.1 21 Eftersom 12.33 > 3.16 = F 0.95 (3, 18) så förkastar vi hypotesen att priset saknar betydelse. b) Pris-effekten är lika stor för alla temperaturer om och endast om pris och temperatur är additiva effekter. För att x 1 och x 2 skall vara additiva får modellen inte innehålla några termer som innehåller produkter av x 1 och x 2. Hypotesen kan alltså formuleras β 12 = β 112 = 0, och den kan testas på samma sätt som hypotesen i (a)-uppgiften. Resultatet blir Avvikelse från hypotes 120.5 2 60.25 7.12 Residualer 152.2 18 8.46 Totalt 272.7 20 Eftersom 7.12 > 3.55 = F 0.95 (2, 18) så förkastar vi hypotesen att priset har samma inverkan vid alla temperaturer. Problemdel: Uppgift 4 a) Ensidig variansanalys, och eftersom väntevärdeskolumnen inte efterfrågas så spelar det ingen roll om vi betraktar faktorn bad som systematisk eller slumpmässig. ANOVA-tabellen blir: Mellan bad 0.023 9 2.56 10 3 0.227 Inom bad 1.016 90 11.3 10 3 Totalt 1.039 99

Linjära statistiska modeller, 14 januari 2010 4 F-kvoter mindre än 1 är aldrig signifikanta, så slutsatsen är att vi inte har påvisat någon skillnad mellan bad. b) Den utbyggda ANOVA-tabellen ser ut såhär: KVSUM Frihetsgrader MKVSUM Mellan bad 0.027 9 3 10 3 Mellan höjder 0.827 4 207 10 3 Samspel 0.072 36 2 10 3 Inom celler 0.103 50 2 10 3 Totalt 1.029 99 c) Eftersom vi är säkra på att samspelseffekter inte förekommer så kan vi slå ihop Samspel och Inom celler till en rad, Residualer. F-kvoter blir enligt följande tabell: KVSUM Frihetsgrader MKVSUM F-kvot Mellan bad 0.027 9 3 10 3 1.5 Mellan höjder 0.827 4 207 10 3 103.5 Residualer 0.175 86 2 10 3 Totalt 1.029 99 Den tillgängiga F-tabellen har ingen rad för F-fördelningar med f 2 = 86 frihetsgrader i nämnaren, men genom att jämföra raderna för f 2 = 80 och f 2 = 100 ser vi att 2.46 < F 0.95 (4, 86) < 2.49 och 1.97 < F 0.95 (9, 86) < 2.00. Det finns alltså en säkerställd effekt av höjd, men inte av bad.

Linjära statistiska modeller, 14 januari 2010 5 Problemdel: Uppgift 5 a) Kopplingsmönstret är I = ABCDE. Det betyder att skattningarna i vänstra kolumnen i följande tabell egentligen är skattningar av de differenser mellan skattningar, som anges i högra kolumnen: A B C D AB AC AD BC BD CD ABC ABD ACD BCD ABCD A BCDE B ACDE C ABDE D ABCE AB CDE AC BDE AD BCE BC ADE BD ACE CD ABE ABC DE ABD CE ACD BE BCD AE ABCD E b) Varje skattning har ett väntevärde som är en skillnad mellan två av 2 5 -försökets effekter. För att skattningens väntevärde säkert skall vara noll måste båda effekterna vara noll. Sex av paren uppfyller detta villkor, nämligen AC BDE = 1.53, AD BCE = 2.59, BC ADE = 4.16, BD ACE = 1.78, ACD BE = 3.84 och BCD AE = 1.16. Medelvärdet av kvadraterna på dessa sex tal är 7.60, vilket ger skattningen av effektskattningarnas standardavvikelse ˆσ eff = 7.60 = 2.75. Varje effektskattning är ju ett (teckenförsett) medelvärde av 16 mätvärden, så vi får sambandet σ 2 eff = σ 2 /16 där σ 2 är försöksfelets varians. Detta ger skattningen ˆσ = 4ˆσ eff = 11. c) Man ser direkt att D= 33.34 är mycket större än alla andra effektskattningar. Skattningen ˆσ eff 2 som vi bestämde i b-uppgiften är χ2 -fördelad med 6 frihetsgrader. Med t-fördelningsmetoden kan vi alltså bestämma ett konfidensintervall för D-effekten som 33.34 ± t 0.025 (6) ˆσ eff = 33.34 ± 6.73. Den är alltså statistiskt säkerställd. d) Vi kan inte skatta CDE, bara AB-CDE, som skattas med 8.34. Eftersom trefaktorsamspel oftast är försumbara är det mera troligt att det är tvåfaktorsamspelet AB som är ungefär 8.34.