STOCKHOLMS UNIVERSITET MT 5001 MATEMATISKA INSTITUTIONEN TENTAMEN Avd. Matematisk statistik 13 januari 2014 Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14 Examinator: Martin Sköld, tel. 16 45 62, mskold@math.su.se. Tillåtna hjälpmedel: Formelsamling som delas ut vid tentamenstillfället. Miniräknare. Återlämning: Meddelas skrivande via epost. Resonemang skall vara tydliga och lätta att följa. Varje korrekt och fullständigt löst uppgift ger 10 poäng. Följande gränser gäller för betygen A-E: Uppgift 1 A B C D E 46 41 36 31 25 Höga partikelhalter i omgivnigsluften är ett miljöproblem som uppmärksammats på senare tid. I en studie i Wuqing City, Kina, mättes dagligen under en vecka PM2.5 (massa partiklar med diameter < 2, 5µm per m 3 ), BC (massa Black Carbon (sotpartiklar) per m 3 ) och OC (massa organiska kolföreningar per m 3 ). För att undersöka sambandet mellan storheterna ansattes tre linjära regressionsmodeller med PM2.5 som respons och förklarande variabler BC, OC samt (OC,BC). Notera att dessa inte är centrerade, eventuellt kan du dra nytta av att OC-mätningarna har medelvärde 39 och BC medelvärde 3,5. Nedan följer utskrifter från analys i R. a) Använd utskrifterna för att bestämma en lämplig modell för PM2.5 givet övriga variabler. Finns det några tecken på kolinearitet? (4 p.) b) Baserat på modellen med BC som förklarande variabel, bestäm ett 95% kondensintervall för dels lutningskoecienten, dels medelhalten PM2.5 då BC=5. (6 p.) - Förklarande variabel BC - (Intercept) 11.762 25.185 0.467 0.660127 BC 60.655 6.107 9.932 0.000177 *** Residual standard error: 34.49 on 5 degrees of freedom Multiple R-squared: 0.9518,Adjusted R-squared: 0.9421 1
F-statistic: 98.65 on 1 and 5 DF, p-value: 0.0001766 -- Förklarande variabel OC -- (Intercept) -3.2675 11.4308-0.286 0.786 OC 5.8347 0.2522 23.132 2.81e-06 *** Residual standard error: 15.11 on 5 degrees of freedom Multiple R-squared: 0.9907,Adjusted R-squared: 0.9889 F-statistic: 535.1 on 1 and 5 DF, p-value: 2.809e-06 -- Förklarande variabler OC,BC -- (Intercept) -3.656 12.808-0.285 0.7895 BC -3.637 15.821-0.230 0.8294 OC 6.172 1.492 4.137 0.0144 * Residual standard error: 16.78 on 4 degrees of freedom Multiple R-squared: 0.9909,Adjusted R-squared: 0.9863 F-statistic: 216.9 on 2 and 4 DF, p-value: 8.349e-05 -- Uppgift 2 Mätningar av OC och PM2.5 som i Uppgift 1 utfördes även i Zhongshan under samma period och man vill undersöka om data från de olika städerna kan beskrivas av samma linjära modell, det vill säga testa hypotesen H 0 : θ Z = θ W där θ Z betecknar intercept och lutning för regressionsmodellen med respons PM2.5 och förklarande variabel OC i Zhongshan och θ W betecknar motsvarigheten i Wuqing City. a) Låt y = (y T Z, yt W )T och x = (x T Z, xt W )T beteckna de sammanlagda PM2.5 och OC mätningarna och θ = (θ T Z, θt W )T. Beskriv designmatrisen A så att 2
ovanstående modell kan skrivas y = Aθ + ɛ under vanliga fördelningsantaganden. (3 p.) b) Inför lämpligt B och λ så att H 0 kan skrivas i form av en linjär hypotes θ = Bλ. (3 p.) c) Nedan ges variansanalystabeller för skattning av regressionslinjerna för de individuella materialen samt för de sammanslagna under H 0. Använd dessa för att konstruera hypotesens variansanalystabell och testa den samma på nivån 5%. (4 p.) Response: PM2.5, Wuqing OC 1 122144 122144 535.08 2.809e-06 *** Residuals 5 1141 228 Response: PM2.5, Zhongshan OC 1 18220.0 18220.0 779.12 1.105e-06 *** Residuals 5 116.9 23.4 - Response: PM2.5, Wuqing+Zhongshan OC 1 158916 158916 709.65 4.804e-12 *** Residuals 12 2687 224 - Uppgift 3 Antag en linjär statistisk modell Y = Aθ + ɛ, ɛ N(0, σ 2 I), dim(y ) = n, dim(θ) = 2. a) Låt (ˆθ 1, ˆθ 2 ) vara MK-skattaren av θ, visa att ˆθ 1 och ˆθ 2 är oberoende om och endast om kolonnerna i matrisen A är ortogonala. (5 p.) b) En skattares medelkvadratfel E((ˆγ γ) 2 ) kan skrivas som summan av dess varians och kvadrerade bias. Vi vill skatta en linjärkombination γ = c T θ under ovanstående modell då kolonnerna i A är ortogonala, och överväger att bortse från den andra komponenten då θ 2 antas vara litet. Under vilka förutsättningar har skattaren γ = c 1 ˆθ1 mindre medelkvadratfel än ˆγ = c T ˆθ? (5 p.) Uppgift 4 I en anläggning för bränning av klinkers ville man studera variationen i färg mellan färdiga klinkerplattor av en viss typ. Olika bränningar ger nämligen en oavsiktlig variation i färgstyrka, men färgstyrkan varierar också mellan plattor inom en bränning. Man mätte färgstyrkan hos två på måfå utplockade plattor ur vardera av sex bränningar, som i sin tur var utvalda för att representera 3
variationen inom en viss tidsperiod. Bränningarna benämns 16, och de två plattorna 12, i godtycklig ordning. Här är data. Bränning 1 2 3 4 5 6 Medelv Kvs Varians Platta 1 54 52 37 45 48 51 47.833 190.83 38.17 Platta 2 52 51 40 47 50 47 47.833 94.83 18.97 Medelv 53.0 51.5 38.5 46.0 49.0 49.0 47.833 133.33 26.67 Totalkvadratsumman är 285.67 Radernas kvadratsummor och varianser är beräknade kring respektive medelvärde. Observera dock att alla dessa hjälpstorheter inte nödvändigtvis behövs eller är användbara i analysen av data. a) Ställ upp en statistisk modell som tar hänsyn till variation mellan bränningar och variation mellan plattor. Testa inom modellen om variationen mellan bränningar är statistiskt påvisbar (5%-nivån). (3 p.) b) Skatta modellens varianskomponenter, samt den varians som representerar variationen i uppmätt färgstyrka mellan plattor utvalda på måfå ur tidsperiodens hela sammanlagda produktion av plattor av denna typ. (4 p.) c) Beräkna ett 95% kondensintervall för färgstyrkan i medeltal för tidsperiodens produktion av plattor av denna typ. (3 p.) Uppgift 5 Vi skall se på resultat från en studie av hur tillgången på kol, kväve och fosfor inverkade på tillväxten av blågröna alger (microcystis aeruginosa), hämtat ur boken av Box, Hunter & Hunter. De tre faktorerna, som benämns C, N och P, varierades i ett fullständigt faktorförsök på två nivåer vardera (benämnda och +). Den respons (av era) som vi skall se på, är algpopulationens uppmätta storlek efter 4 dagars inkubationstid. Här är data från försöket: Faktor/nivå Punkt C N P Respons 1 0.312 2 + 0.479 3 + 0.412 4 + + 0.465 5 + 0.391 6 + + 0.481 7 + + 0.376 8 + + + 0.451 a) Undersök vilken eekt som är kraftigast, och skatta den eektens storlek (litet grova räkningar godtas). (3 p.) 4
b) Eekten i a) är faktiskt den enda märkbara. Låt oss därför förutsätta om faktorer som inte är inblandade i den eekten, att den/de helt saknar inverkan. Under den förutsättningen, skatta försöksfelsvariansen (litet grova räkningar godtas), och därur medelfelet för eekten i a). Ange även motsvarande antal frihetsgrader. (4 p.) c) Medelfelet i b) kan alternativt beräknas med utgångspunkt från en fullständig lista över eektskattningarna (Ĉ, N, P, ĈN,..., ĈNP ). Ange (med formler) hur detta skulle gå till. (3 p.) Lycka till! 5