STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Sal 22, hus 5, fredag 22/1 kl 12.15. Efter återlämningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Lösningar finns på www.math.su.se/matstat/tentor efter skrivtidens slut. Krav för godkänt: För varje betygssteg krävs både ett visst minsta antal poäng på teoridelen (uppgifterna 1 och 2) och på problemdelen (uppgifterna 3-5) enligt nedanstående tabell. Resonemang skall vara klara och tydliga att följa. A B C D E Teoridel 18 15 10 10 10 Problemdel 25 25 20 15 10 Teoridel: Uppgift 1 I ett visst experiment vet man att en variabel Y beror på två förklarande variabler x och z på ett sätt som kan beskrivas av en multipel regressionsmodell utan intercept. Data beskrivs alltså av Y i = β 1 x i + β 2 z i + ɛ i, i = 1,..., N där β 1 och β 2 är två okända koefficienter och alla ɛ i är oberoende och normalfördelade med lika stor varians σ 2. a) Härled minsta-kvadrat-skattningarna ˆβ 1 och ˆβ 2 uttryckt i x i, Y i och z i. (5 p) b) Vad är väntevärdena E[ ˆβ 1 ] och E[ ˆβ 2 ]? Beräkna dem antingen genom att räkna fram dem eller genom att hänvisa till en allmän sats. (2 p)
Linjära statistiska modeller, 14 januari 2010 2 c) Om talen x i och z i uppfyller ett visst villkor så blir ˆβ 1 och ˆβ 2 oberoende. Hur lyder detta villkor? (3 p) Ledning: Inversen till en 2x2-matris kan beräknas såhär: ( ) 1 a b = c d 1 ad bc ( d b ) c a Teoridel: Uppgift 2 Betrakta en situation där villkoren för ensidig variansanalys, modelltyp II, är uppfyllda. Med andra ord, vi antar att data Y ij beskrivs av formeln Y ij = µ + δ i + ɛ ij, där δ i är normalfördelade variabler med varians σ δ 2, och ɛ ij är normalfördelade med varians σ 2. Alla δ i och ɛ ij är oberoende och har väntevärde noll. Vi ska nu intressera oss för skattning av µ när vi har k stickprov av storlek n. a) Om σ δ 2 och σ 2 är kända så kan man härleda ett konfidensintervall för µ baserat på normalfördelningen. Visa att detta konfidensintervall kan skrivas Ȳ.. ± z p/2 σ δ 2 k + σ2 nk där z p/2 är en lämpligt vald kvantil i den standardiserade normalfördelningen. (3 p) b) Om σ δ 2 och σ 2 är okända kan man härleda ett konfidensintervall för µ baserat på t-fördelningen. Gör det! (3 p) c) Antag att vi vill bestämma ett 95 % konfidensintervall för medelvikten µ av potatisar som är förpackade i säckar. Det finns variation mellan säckar, som beskrivs av σ δ 2 = 4. Det finns också variation inom säckar som beskrivs av σ 2 = 10. Vi betraktar σ δ 2 och σ 2 som kända. Vi bestämmer oss för att välja ut k säckar och väga n potatisar från varje säck. Det kostar tio kronor att knyta upp en säck och 25 öre att väga en potatis. Försöket får högst kosta 125 kronor. Bestäm k och n så att vi får kortaste möjliga konfidensintervall för µ. (4 p)
Linjära statistiska modeller, 14 januari 2010 3 Problemdel: Uppgift 3 Figure 1: Elförbrukning som funktion av temperatur och pris Ovanstående figur visar elförbrukningen under ett dygn för 24 hushåll i en amerikansk stad. Mätningarna är gjorda dels under en period när elpriset var 8 cent per kilowattimme (markerat med asterisker i figuren), dels under en period när elen kostade 10 cent per kwh (cirklar i figuren). Samtidigt med elförbrukningen noterades dygnets medeltemperatur. De stora dragen av figuren är lätta att förstå. Behovet av el för uppvärmning minskar när temperaturen ökar, men när det blir varmare än ungefär 65 grader Fahrenheit (ungefär 18 grader Celsius) sätter behovet av el för luftkonditionering in. Dessutom ser man en tendens att använda mindre el när den är dyrare. Ett elbolag vill använda dessa data för att konstruera en modell som skall prediktera elförbrukningen (y) när man vet temperatur (x 1 ) och pris (x 2 ). Eftersom variationen med temperaturen inte är monoton inkluderar man andragradstermer i x 1, men man ser inget behov av detta för x 2. Modellen blir alltså Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + β 12 x 1 x 2 + β 112 x 1 2 x 2 + ɛ (1) där ɛ är en slumpterm. Med denna modell får man bland annat de utskrifter som figur 2 visar.
Linjära statistiska modeller, 14 januari 2010 4 Figure 2: Utskrifter med modell 1 a) En person vid företaget hävdar att priset inte har någon betydelse, alltså att det bara är en slump att cirklarna i figuren ligger lägre än asteriskerna. Därför gör man också en kalkyl med samma modell som ovan, men stryker alla termer som innehåller x 2. Modellen är alltså Y = α + β 1 x 1 + β 11 x 1 2 + ɛ (2) Man får utskrifter enligt figur 3. Modell (2) kan betraktas som en linjär hypotes inom grundmodellen (1). Ställ upp en variansanalystabell för test av hypotesen (2) och visa att hypotesen förkastas på nivån 5 %. (5 p) Figure 3: Utskrifter med modell 2 b) Sedan man enats om att priset har betydelse uppstår frågan huruvida prisets betydelse är lika stor vid kallt väder som vid varmt väder. Efter en del diskussion kommer man fram till att man vill undersöka modellen Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + ɛ (3) Utskrifter med denna modell (modell 3) framgår av figur 4. Figure 4: Utskrifter med modell 3
Linjära statistiska modeller, 14 januari 2010 5 c) Med hjälp av denna tabell kan man, om man utgår från att modell (1) är rimlig, testa hypotesen att effekten av en prishöjning från 8 till 10 cent per kwh är lika stor för alla värden på temperaturen. Beskriv hur man gör, och genomför testet. (5 p) Problemdel: Uppgift 4 I en fabrik förkromas lock i elektrolytiska bad. Man har funnit att kromskiktets tjocklek varierar ganska mycket från lock till lock och ville därför i första hand se om den variationen kunde förklaras av skillnader mellan de tio olika bad som man hade till sitt förfogande. Man tog därför tio lock från vart och ett av de tio baden, mätte kromskiktstjockleken på varje lock och utförde en ensidig variansanalys på mätvärdena med bad som indelningsgrund. Kvadratsumma mellan bad blev 0.023 och inom bad 1.016. a) Sätt upp en variansanalystabell och testa om det föreligger någon skillnad mellan de olika baden. (Du behöver inte skriva ut variansanalystabellens väntevärdeskolumn.) (2 p) b) Senare insåg man att kromskiktets tjocklek sannolikt också påverkas av vilken höjd locken befann sig på när de var i baden. Eftersom dessa höjder inte noterats i det första försöket gjorde man ett nytt försök. Man tog fortfarande tio lock från varje bad, men fördelade dem med två stycken på vardera av fem fixa höjdnivåer. En nyanställd medarbetare matar in det nya försökets data i ett statistiskt programpaket och får ut följande kvadratsummor: Kvadratsumma Mellan bad 0.027 Mellan höjder 0.827 Samspel 0.072 Inom celler 0.103 Totalt 1.029 Bygg ut variansanalystabellen med kolumnerna Frihetsgrader och Medelkvadratsumma. (3 p) c) När medarbetarens mer erfarna kollegor får se resultatet säger de att de är alldeles säkra på att det inte existerar några samspelseffekter mellan bad och höjd. Modifiera variansanalystabellen mot bakgrund av detta, och avgör vilken eller vilka av faktorerna bad och höjd som har säkerställd inverkan på kromskiktets tjocklek. (5 p)
Linjära statistiska modeller, 14 januari 2010 6 Problemdel: Uppgift 5 Vid framställning av ett färgämne varierade man följande fem processbetingelser: A Temperatur Låg (-) Hög (+) Steg 1 B Materialkvalitet Låg (-) Hög (+) C Reduktiontryck Atmosfäriskt (-) Förhöjt (+) Steg 2 D Torkningstryck Lågt (-) Högt (+) E Vakuumläckage Låg (-) Hög (+) Av tekniska skäl visste man att A och B kunde samspela och likaså C, D och E. Däremot är inga samspel möjliga mellan Steg 1 och Steg 2, dvs samspel mellan A eller B å ena sidan och C, D eller E å den andra. Kvalitén mättes med en fotoelektrisk spektrometer där låga värden hörde samman med god kvalitet. Ett 2 5 1 -försök genomfördes och utbytet blev, för de olika faktornivåerna: A B C D E Utbyte 201.5 + + 178.0 + + 183.5 + + 176.0 + + 188.5 + + 178.5 + + 174.5 + + + + 196.5 + + 255.5 + + 240.5 + + 208.5 + + + + 244.0 + + 274.0 + + + + 257.5 + + + + 256.0 + + + + 274.5 Om man räknar effektskattningar som om försöket hade varit ett fullständigt 2 4 -försök i faktorerna A, B, C och D, så får man följande effektskattningar:
Linjära statistiska modeller, 14 januari 2010 7 Effekt Skattning A 0.22 B 3.78 C 7.03 D 33.34 AB 8.34 AC 1.53 AD 2.59 BC 4.16 BD 1.78 CD 7.16 ABC 0.03 ABD 2.34 ACD 3.84 BCD 1.16 ABCD 1.97 a) Var och en av skattningarna i tabellen ovan kan ses som en skattning av en summa av två av effekterna i ett fullständigt 2 5 -försök (eller av skillnaden mellan två sådana effekter). Ange vilka dessa sexton parvisa summor (eller skillnader) är. (2 p) b) Med utgångspunkt från att ingen av variablerna i Steg 1 samspelar med någon variabel i Steg 2, bestäm vilka av de sexton paren av effektskattningar som kan användas för att skatta försöksfelens standardavvikelse. Använd dem för att skatta dels de enskilda försöksfelens standardavvikelse, dels effektskattningarnas standardavvikelse. Ange tydligt vilken skattning som är vilken. (3 p) c) En effekt är betydligt större än alla andra. Den är uppenbar redan vid ett ögonkast på data. Kontrollera att den är statistiskt säkerställd. (3 p) d) CDE-effekten hörde inte till de redan i förväg uteslutna samspelseffekterna. Den effekten är kopplad till en annan effekt, vilken? Vilken av de två kopplade effekterna är troligast som förklaring till det observerade värdet på effektskattningen? Motivera! (2 p)