Tentamen för kursen. Linjära statistiska modeller. 13 januari

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 13 januari 2011 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 32, hus 5, fredag 21/1 kl 12.15. Efter återlämningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Lösningar finns på www.math.su.se/matstat/tentor efter skrivtidens slut. Krav för godkänt: För varje betygssteg krävs både ett visst minsta antal poäng på teoridelen (uppgifterna 1 och 2) och på problemdelen (uppgifterna 3-5) enligt nedanstående tabell. Resonemang skall vara klara och tydliga att följa. A B C D E Teoridel 18 15 10 10 10 Problemdel 25 25 20 15 10 Teoridel: Uppgift 1 Betrakta modellen tvåsidig indelning, en observation per cell, modelltyp I. Vi använder de beteckningar som finns på sidan 9 i formelsamlingen. På vanligt sätt skattar vi α i med ˆα i = Ȳi. Ȳ.. och β j med ˆβ j = Ȳ.j Ȳ... a) Hitta ett uttryck för ˆα i som endast innehåller modellens parametrar (dvs µ, α i, β j ) och variablerna ɛ ij. (2 p) b) Beräkna Var(ˆα i ) uttryckt i r, s och σ 2. (3 p) Ledning: Om n variabler Z 1,..., Z n är oberoende och likafördelade med varians τ så gäller att Var(Z i Z) = (n 1)τ/n. Denna formel får användas utan bevis.

Linjära statistiska modeller, 13 januari 2011 2 c) När man bara har en observation per cell brukar man säga att man är tvungen att anta att faktorerna inverkar additivt - man har ju ingen möjlighet att skatta ett eventuellt samspel γ ij separerat från feltermen ɛ ij. Men detta resonemang förutsätter att feltermens varians σ 2 är okänd. Antag att man vet (t.ex av erfarenhet) att σ 2 = 5, och att datorn har skrivit ut den ANOVA-tabell som visas här nedan. Då finns det ett sätt att testa hypotesen att samspelseffekter mellan rad- och kolonnfaktorn saknas. Genomför det testet! Använd signifikansnivån 5 %. (5 p) Variationskälla Antal fr.gr Kvadratsumma Medel. kv.sum Mellan rader 4 54.0 13.50 Mellan kolonner 3 82.7 27.6 Residualer 12 100.3 8.36 Totalt 19 237.0 Teoridel: Uppgift 2 a) En grupp forskare genomför ett fullständigt 2 4 -försök (utan replikat). På grund av slarv råkar ett av de 16 mätvärdena bli mycket större än det borde bli. Följaktligen blir alla de 16 skattningarna (medelvärdesskattningen och de 15 effektskattningarna) också fel. Vi kallar de fyra faktorerna A, B, C och D. Antag att det experiment som har gått fel är den kombination där faktorn A är på plusnivån och faktorerna B, C och D på minusnivån (med andra ord, värdet på y + har blivit mycket större än det borde bli). Hur kommer detta fel att påverka skattningen av trefaktorsamspelet ABC? Blir den större eller mindre än den borde bli? Motivera svaret. (3 p) b) Vid ett annat tillfälle granskar en forskare resultatet av ett 2 4 -försök och gör en konstig upptäckt. Hon finner att både trefaktorsamspelet ABC och fyrfaktorsamspelet ABCD har blivit negativa tal med så stora absolutbelopp att de är statistiskt signifikanta. Forskaren misstänker att detta kan bero på ett allvarligt fel i något av de 16 experimenten. Vad är den mest troliga nivån på faktorn D i det felaktiga experimentet? Har D varit på minusnivå eller plusnivå? Motivera svaret. (3 p) c) Effektskattningarna i Tabell 1 härrör från ett 2 4 -försök i syfte att studera hur halten aktiv substans i en viss hudkräm varierade med olika förhållanden. Resultatet är konstigt, eftersom tre- och fyrfaktorsamspelen inte alls är försumbara jämfört med huvudeffekter och tvåfaktorsamspel, vilket ju är det vanliga. Man kan misstänka att ett grovt fel har inträffat vid ett (och bara ett) av de 16 bakomliggande experimenten. Vilket experiment bör man i första hand misstänka att det är? (Beskriv det genom att

Linjära statistiska modeller, 13 januari 2011 3 ange vilka faktorer som har varit på plus- respektive minusnivå). Motivera svaret. (4 p) Effekt Effekt ˆµ 94.88 BC 0.00 Â 0.02 BD 0.28 ˆB 0.36 ĈD 0.01 Ĉ 0.16 ABC 0.17 ˆD 0.09 ABD 0.27 ÂB 0.03 ACD 0.17 ÂC 0.22 BCD 0.11 ÂD 0.34 ABCD 0.21 Table 1: Till teoriuppgift 2c Problemdel: Uppgift 3 En grupp forskare vid en teknisk högskola vill ta reda på hur energiförbrukningen i en viss typ av småhus beror på bostadsyta, husets byggnadsår och årsmedeltemperaturen på orten. Man samlar in data för n = 64 hus av den aktuella typen. Bostadsytan varierar mellan 96 och 165 kvadratmeter, energiförbrukningen varierar mellan 18 och ungefär 30 MWh, och byggnadsår varierar ganska jämnt mellan 1950 och 1990. Husen finns i olika delar av Sverige, från Skåne till Norrbotten. Man bestämmer sig för att pröva linjär regression av energiförbrukningen på de tre förklaringsvariablerna och får en ANOVA-tabell som tabell 2 visar (något ofullständig). Vid närmare betraktande ser man att sambandet inte förefaller linjärt och provar därför också en andra ordningens modell, alltså en modell där förutom de tre förklaringsvariablerna även deras kvadrater och produkter ingår. Med en sådan modell blir kvadratsumman för regression lika med 519.3. a) Skatta feltermens varians i de båda modellerna. (4 p) b) Betrakta andra ordningens modell som grundmodell och testa hypotesen att kvadrat- och produkttermerna är betydelselösa för energiförbrukningen. Med andra ord, hypotesen att det sanna värdet på motsvarande regressionskoefficienter är lika med noll. (6 p) Problemdel: Uppgift 4 Ett företag som ska marknadsföra ett nytt tapetklister undersöker hur vidhäftningsförmågan hos klistret beror på tapettyp och underlag. Nedanstående

Linjära statistiska modeller, 13 januari 2011 4 Frihetsgrader Kvadratsumma Regression 3 163.26 Residualer 858.3 Totalt Table 2: Till problem 3a tabell visar data från ett försök med fyra olika underlag (betong, trä, gips respektive minerit) och två olika tapetsorter (slät respektive strukturtapet, betecknade A resp B). Båda faktorerna betraktas som systematiska. Två mätningar av vidhäftningsförmågan gjordes för varje kombination av underlag och tapettyp. Värdena inom parentes är cellmedelvärden. A B Betong 77 82 (79.5) 66 73 (69.5) Trä 67 69 (68) 54 52 (53) Gips 69 74 (71.5) 61 64 (62.5) Minerit 65 59 (62) 48 43 (45.5) Table 3: Uppmätt vidhäftningsförmåga för olika tapettyper och underlag Data analyserades med hjälp av ett statistiskt programpaket som gav totalmedelvärdet 63.94 och de här kvadratsummorna: Mellan underlag: 946.2, Mellan tapettyper: 637.6, Samspel: 40.69, Reisdualer: 88.5. a) Ange en lämplig modell för data. (2 p) b) Testa om underlag och tapettyp inverkar additivt på vidhäftningsförmågan. (3 p) c) Om det visar sig rimligt att anta att de inverkar additivt, så förenkla (reducera) modellen. Undersök sedan om det föreligger någon påvisbar skillnad mellan olika underlag respektive tapettyper. (3 p) d) Skatta den förväntade skillnaden i vidhäftningsförmåga mellan kombinationerna slät tapet på betongunderlag och strukturtapet på träunderlag. Oavsett resultaten i b- och c-delen, räkna på en additiv modell som inkluderar båda faktorerna (underlag och tapettyp). (2 p) Problemdel: Uppgift 5 Vid framställning av ett färgämne varierade man följande fem processbetingelser:

Linjära statistiska modeller, 13 januari 2011 5 A Temperatur Låg (-) Hög (+) Steg 1 B Materialkvalitet Låg (-) Hög (+) C Reduktiontryck Atmosfäriskt (-) Förhöjt (+) Steg 2 D Torkningstryck Lågt (-) Högt (+) E Vakuumläckage Låg (-) Hög (+) Av tekniska skäl visste man att A och B kunde samspela och likaså C, D och E. Däremot är inga samspel möjliga mellan Steg 1 och Steg 2, dvs samspel mellan A eller B å ena sidan och C, D eller E å den andra. Kvalitén mättes med en fotoelektrisk spektrometer där låga värden hörde samman med god kvalitet. Ett 2 5 1 -försök genomfördes och utbytet blev, för de olika faktornivåerna: A B C D E Utbyte 201.5 + + 178.0 + + 183.5 + + 176.0 + + 188.5 + + 178.5 + + 174.5 + + + + 196.5 + + 255.5 + + 240.5 + + 208.5 + + + + 244.0 + + 274.0 + + + + 257.5 + + + + 256.0 + + + + 274.5 Om man räknar effektskattningar som om försöket hade varit ett fullständigt 2 4 -försök i faktorerna A, B, C och D, så får man följande effektskattningar:

Linjära statistiska modeller, 13 januari 2011 6 Effekt Skattning A 0.22 B 3.78 C 7.03 D 33.34 AB 8.34 AC 1.53 AD 2.59 BC 4.16 BD 1.78 CD 7.16 ABC 0.03 ABD 2.34 ACD 3.84 BCD 1.16 ABCD 1.97 a) Med utgångspunkt från vad som ovan angavs om vilka samspelseffekter som bedömdes möjliga, bestäm hur många effektskattningar (och vilka) som kan användas för att skatta försöksfelens standardavvikelse. Beräkna dessa och skatta dels de enskilda försöksfelens standardavvikelse, dels effektskattningarnas standardavvikelse. Ange tydligt vilken som är vilken. (3 p) b) En effekt är betydligt större än alla andra. Den är uppenbar redan vid ett ögonkast på data. Kontrollera att den är statistiskt säkerställd. (3 p) c) CDE-effekten hörde inte till de redan i förväg uteslutna samspelseffekterna. Den effekten är kopplad till en annan effekt, vilken? Vilken av de två kopplade effekterna är troligast som förklaring till det observerade värdet på effektskattningen? Motivera! (4 p)