STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 17 februari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus 6, fredag 26/2 kl 16.00. Efter återlämningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Lösningar finns på www.math.su.se/matstat/tentor efter skrivtidens slut. Krav för godkänt: För varje betygssteg krävs både ett visst minsta antal poäng på teoridelen (uppgifterna 1 och 2) och på problemdelen (uppgifterna 3-5) enligt nedanstående tabell. Resonemang skall vara klara och tydliga att följa. A B C D E Teoridel 18 15 10 10 10 Problemdel 25 25 20 15 10 Teoridel: Uppgift 1 Den så kallade hatt-matrisen H definieras som H = A(A T A) 1 A T, där A är designmatrisen i en linjär modell med full rang. Beteckna modellens väntevärdesvektor med µ och dennas MK-skattning med ˆµ. Låt Y beteckna vektorn av försöksutfall. a) En enkel formel ger skattningen ˆµ uttryckt i H och Y. Härled den formeln! Det allmänna uttrycket för MK-skattningen ˆθ av den linjära modellens parametervektor θ får förutsättas bekant. (3 p) b) Matrisen H kan tolkas geometriskt som vinkelrät projektion: Om x är en godtycklig vektor så är Hx den vinkelräta projektionen av x på det rum som spänns upp av kolonnvektorerna i designmatrisen. Det geometriska
Linjära statistiska modeller, 17 februari 2010 2 faktumet att projektionen av projektionen av en vektor x alltid ger samma resultat som projektionen av x själv kan man vänta sig att det finns ett speciellt enkelt samband mellan H och H 2. Formulera detta samband och bevisa det genom att utnyttja definitionen av H. (4 p) c) Låt R beteckna residualvektorn R = Y ˆµ. Visa att för alla Y gäller att R är ortogonal mot ˆµ. (3 p) Teoridel: Uppgift 2 En grupp biologer har bedömt att enkel linjär regression är en bra modell för att förklara hur vikten Y av fullvuxna rävhannar beror på längden X. Man har gjort tolv mätningar, men fyra av dem är gjorda i Finland, fyra i Sverige och fyra i Norge. För säkerhets skull utgår man därför från en modell som har sex okända parametrar (förutom variansen), nämligen interceptet α i och lutningen β i där index i är 1 för Finland, 2 för Sverige och 3 för Norge. Forskarna betecknar de tolv paren av data med (x ij, y ij ), där index j löper från 1 till 4. Vi förutsätter att x-värdena är centrerade land för land, alltså x i. = 0, för i = 1, 2, 3, där x i. = (1/4) Σ 4 j=1 x ij. a) Man kan skriva modellen på formen Y = A Θ +ɛ, där Y = (Y 11, Y 12,..., Y 34 ). Skriv upp hur designmatrisen A och parametervektorn Θ ser ut i det här fallet. (2p) b) Forskarna är intresserade av att testa hypotesen att alla tre regressionslinjerna har samma lutning, alltså att β 1 = β 2 = β 3 = β, för något okänt värde på β. Intercepten är forskarna däremot ointresserade av. Om denna nollhypotes är sann kan Θ skrivas som en produkt av en matris och en ny parametervektor av lägre dimension: Θ = B Λ. Ange hur B och Λ ser ut. (4p) c) Härled designmatrisen i hypotesmodellen, (uttryckt i x ij ). (2 p) d) Härled minstakvadrat-skattningen av β i hypotesmodellen (uttryckt i x ij ). (2 p) Det kan vara praktiskt att införa följande förenklande beteck- Ledning: ningar: ȳ i. = (1/4) Σ 4 j=1 y ij, S (i) xx = Σ 4 j=1 (x ij) 2 och S (i) xy = Σ 4 j=1 x ij(y ij ȳ i. ). Problemdel: Uppgift 3 a) Nedanstående tabell är en del av en ANOVA-tabell för ett fall där villkoren för ensidig variansanalys, modelltyp II, är uppfyllda. Med andra ord,
Linjära statistiska modeller, 17 februari 2010 3 man kan anta att data Y ij beskrivs av formeln Y ij = µ + δ i + ɛ ij, där δ i är normalfördelade variabler med varians σ δ 2, och ɛ ij är normalfördelade med varians σ 2. Alla δ i och ɛ ij är oberoende och har väntevärde noll. Vi förutsätter att alla stickproven är lika stora. Skatta σ δ 2 och σ 2. (4 p) b) Beräkna ett 90 %-igt tvåsidigt konfidensintervall för kvoten σ δ 2 /σ 2. (6 p) Frihetsgrader Kvadratsumma Mellan stickprov 6 103 Inom stickprov 49 270 Totalt 55 373 Problemdel: Uppgift 4 I en metallurgisk process ytbehandlades metallremsor. Man ville ta reda på hur ytans jämnhet berodde på de fyra faktorerna Valsspänning, F, (låg eller hög) Valsstorlek, R, (liten eller stor) Lösningens koncentration, C, (låg eller hög) Lösningens temperatur, T, (låg eller hög) Två remsor per nivåkombination behandlades, och ytjämnheten mättes (lågt tal anger god jämnhet). Medelvärden blev för de olika nivåkombinationerna:
Linjära statistiska modeller, 17 februari 2010 4 F R C T Mätvärden Medelvärde 10, 16 13.0 + 10, 12 11.0 + 8, 12 10.0 + + 9, 19 14.0 + 9, 7 8.0 + + 8, 7 7.5 + + 14, 10 12.0 + + + 12, 10 11.0 + 21, 16 18.5 + + 15, 14 14.5 + + 21, 15 18.0 + + + 17, 21 19.0 + + 24, 15 19.5 + + + 4, 18 11.0 + + + 13, 4 8.5 + + + + 13, 13 13.0 Kvadratsumman inom stickprov blev 308.5. ˆR = 0.156, Ĉ = 1.719 och ˆT = 2.219. Tre av huvudeffekterna blev a) Beräkna den fjärde huvudeffekten ( ˆF ) och försöksfelets standardavvikelse. (4 p) b) Fem av tvåfaktorsamspelen ges i tabellen nedan. Beräkna det sjätte. (2 p) Samspel Skattning F R 1.469 F C 0.281 F T 0.469 RC 0.344 RT 0.781 c) Avgör vilka huvudeffekter och tvåfaktorsamspel som är statistiskt säkerställda på nivån 5 %. (4 p) Problemdel: Uppgift 5 En grupp forskare vid ett större oljebolag undersökte hur bensinförbrukning varierar med hastighet, för bilar av en bestämd typ. En och samma testbil användes vid 14 olika hastigheter, inalles 28 observationer. Bensinförbrukningen framgår av nedanstående tabell och figur 1. När forskarna ser figur 1 bestämmer de sig för att prova ett andragradsberoende mellan bensinförbrukning (y) och hastighet (x), dvs man ansätter modellen
Linjära statistiska modeller, 17 februari 2010 5 Y i = α + β 1 x i + β 2 x i 2 + ɛ i, för i = 1,..., 28, med sedvanliga förutsättningar om ɛ i. Figurerna 2-4 visar residualplott och parameterskattningar. Variabeln hast2 är hastighetens kvadrat. Vi kallar detta Modell 1. a) Kommentera residualplottarna i figur 2 och 3. Finns det något som strider mot den multipla linjära regressionsmodellens förutsättningar? Vad skulle man kunna göra för att avhjälpa detta? (2 p) b) Oavsett vad du svarar i a-delen så valde gruppen att följa två vägar. Den första vägen var att logaritmera data. Vi kallar detta Modell 2, och den beskrivs alltså av sambandet log(y i ) = α + β 1 x i + β 2 x i 2 + ɛ i, för i = 1,..., 28. Figur 5-7 visar resultatet nu. Forskarna drog slutsatsen att den nya modellen är bättre, eftersom den förklarar mer av variationen, R 2 blir större. Förklara varför detta inte är en relevant motivering. (3 p) c) Den andra vägen som forskarna följde var att identifiera den största residualen i Modell 1 (figur 2). Den visade sig härröra från experiment i = 1, ett av de båda experiment som gjordes med lägst hastighet, 10 mph 1.6 mil per timme. Denna observation uteslöts, och en ny regression av bensinförbrukningen (inte logaritmerade värden) genomfördes. Vi kallar resultatet för Modell 3. Den beskrivs alltså av samma formel som Modell 1, men i löper inte från 1 till 28, utan bara från 2 till 28. För resultat, se figurerna 8-10. Betrakta nu frågan vid vilken hastighet bensinförbrukningen är som lägst, alltså vid vilket x-värde som E[Y ] minimeras. Härled en formel för minimivärdet, uttryckt i regressionsmodellens parametrar, och ge en numerisk skattning, baserat på data från den av de tre modellerna som du tycker är lämpligast (eller minst olämplig). (5 p)
Linjära statistiska modeller, 17 februari 2010 6 Hastighet Hastighet Förbrukning i (mph) (mil per tim) (l/mil) 1 10 1.6 4.921 2 10 1.6 4.144 3 15 2.4 2.747 4 15 2.4 3.236 5 20 3.2 2.410 6 20 3.2 2.109 7 25 4.0 1.724 8 25 4.0 1.905 9 30 4.8 1.298 10 30 4.8 1.406 11 35 5.6 1.187 12 35 5.6 1.243 13 40 6.4 1.054 14 40 6.4 1.005 Vi har räknat om y från miles per gallon till liter per mil. För att få bekvämare värden har vi uttryckt x i tiotal km/tim. En modern läsare kan tycka att bensinförbrukningarna är höga, men studien gäller inte samtida bilar. Källa: Berenson & Levine: Basic Business Statistics, Prentice & Hall 1999 Figure 1: Bensinförbrukning vid olika hastigheter
Linjära statistiska modeller, 17 februari 2010 7 Figure 2: ANOVA-tabell för modell 1, samt residualer plottade mot predikterade värden Figure 3: Modell 1, residualer plottade mot hastigheten
Linjära statistiska modeller, 17 februari 2010 8 Figure 4: Modell 1, parameterskattningar Figure 5: ANOVA-tabell för modell 2, samt residualer plottade mot predikterade värden
Linjära statistiska modeller, 17 februari 2010 9 Figure 6: Modell 2, residualer plottade mot hastigheten Figure 7: Modell 2, parameterskattningar
Linjära statistiska modeller, 17 februari 2010 10 Figure 8: ANOVA-tabell för modell 3, samt residualer plottade mot predikterade värden Figure 9: Modell 3, residualer plottade mot hastigheten
Linjära statistiska modeller, 17 februari 2010 11 Figure 10: Modell 3, parameterskattningar