STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 20 mars 2015 9 14 Examinator: Anders Björkström, bjorks@math.su.se Återlämning: Fredag 27/3 kl 12.00, Hus 5, Sal 32 eller strax utanför. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Resonemang skall vara klara och tydliga att följa. Betygsgränser enligt nedanstående tabell. A B C D E Lägsta poängtal 45 40 35 30 25 Uppgift 1 I en plastsäcksindustri undersöktes hållfastheten hos en viss sorts plastsäckar. Avsikten var att uppskatta medelhållfastheten µ i produktionen och få en uppfattning om variationen i produktionen. Fyra säckar uttogs slumpmässigt ur produktionen och från varje säck uttogs sju prover som hållfasthetsprovades. Resultatet blev: Medel- Standard- Säck Hållfasthet värde avvikelse 1 41.60 41.31 41.27 42.36 41.70 41.62 42.49 41.764 0.4803 2 46.31 44.64 44.23 45.02 44.91 44.66 46.39 45.166 0.8468 3 42.39 41.20 40.88 40.83 40.66 40.91 40.90 41.110 0.5866 4 46.53 45.56 44.87 45.75 46.05 46.24 46.21 45.887 0.5521 a) Ange en lämplig statistisk modell. (1 p)
Linjära statistiska modeller, 20 mars 2015 2 b) Testa om variationen av hållfastheten mellan säckar är signifikant skild från noll. (3 p) c) Beräkna ett 95 % konfidensintervall för variansen mellan hållfasthetsprov inom säckar. (3 p) d) Beräkna ett 95 % konfidensintervall för medelhållfastheten i säckproduktionen. (3 p) Uppgift 2 En grupp forskare har bedömt att enkel linjär regression är en bra modell för att förklara hur variabeln Y beror på variabeln X. Man har erhållit 95 % konfidensintervall för regressionslinjens intercept α och lutning β (i ekvationen y = α + β x) enligt följande: Parameter Undre gräns Övre gräns α 1.73 8.62 β 0.089 0.617 Vid en kontroll visar det sig att man har råkat dubblera sitt dataset. Det består av n = 15 observationer, men SAS har läst in varje rad två gånger och räknat som om n = 30. a) Beräkna vad skattningen ˆβ skulle bli om man hade haft rätt data. (2p) b) Är det möjligt att beräkna ett korrekt konfidensintervall för β enbart med ledning av ovan nämnda data? Om du svarar ja, räkna ut konfidensintervallet. Om du svarar nej, förklara varför det inte går. (4p) c) Är det möjligt att beräkna ett korrekt konfidensintervall för α enbart med ledning av ovan nämnda data? Om du svarar ja, räkna ut konfidensintervallet. Om du svarar nej, förklara varför det inte går. (4p) Uppgift 3 Figur 1 visar elförbrukningen under ett dygn för 24 hushåll i en amerikansk stad. Mätningarna är gjorda dels under en period när elpriset var 8 cent per kilowattimme (markerat med asterisker i figuren), dels under en period när elen kostade 10 cent per kwh (cirklar i figuren). Samtidigt med elförbrukningen noterades dygnets medeltemperatur. De stora dragen av figuren är lätta att förstå. Behovet av el för uppvärmning minskar när temperaturen ökar, men när det blir varmare än ungefär 65 grader Fahrenheit (ungefär 18 grader Celsius) sätter behovet av el för luftkonditionering in. Dessutom ser man en tendens att använda mindre el när den är dyrare.
Linjära statistiska modeller, 20 mars 2015 3 Figure 1: Elförbrukning som funktion av temperatur och pris Ett elbolag vill använda dessa data för att konstruera en modell som skall prediktera elförbrukningen (y) när man vet temperatur (x 1 ) och pris (x 2 ). Eftersom variationen med temperaturen inte är monoton inkluderar man andragradstermer i x 1, men man ser inget behov av detta för x 2. Modellen blir alltså Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + β 12 x 1 x 2 + β 112 x 1 2 x 2 + ɛ (1) där ɛ är en slumpterm. Med denna modell får man bland annat de utskrifter som figur 2 visar. Figure 2: Utskrifter med modell 1
Linjära statistiska modeller, 20 mars 2015 4 a) En person vid företaget hävdar att priset inte har någon betydelse, alltså att det bara är en slump att cirklarna i figuren ligger lägre än asteriskerna. Därför gör man också en kalkyl med samma modell som ovan, men stryker alla termer som innehåller x 2. Modellen är alltså Y = α + β 1 x 1 + β 11 x 1 2 + ɛ (2) Man får utskrifter enligt figur 3. Modell (2) kan betraktas som en linjär hypotes inom grundmodellen (1). Ställ upp en variansanalystabell för test av hypotesen (2) och visa att hypotesen förkastas på nivån 5 %. (5 p) Figure 3: Utskrifter med modell 2 b) Sedan man enats om att priset har betydelse uppstår frågan huruvida prisets betydelse är lika stor vid kallt väder som vid varmt väder. Efter en del diskussion kommer man fram till att man vill undersöka modellen Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + ɛ (3) Utskrifter med denna modell (modell 3) framgår av figur 4. Figure 4: Utskrifter med modell 3 Med hjälp av denna tabell kan man, om man utgår från att modell (1) är rimlig, testa hypotesen att effekten av en prishöjning från 8 till 10 cent per kwh är lika stor vid alla temperaturer. Beskriv hur man gör, och genomför testet. (5 p)
Linjära statistiska modeller, 20 mars 2015 5 Uppgift 4 Vid en sjö ligger tre populära badplatser som heter Vänstabadet, Fränstabadet och Skönstabadet. Hälsovårdsmyndigheten misstänker att badplatserna har problem med förhöjda bakteriehalter i vattnet, och genomför en serie mätningar för att klarlägga problemet. Syftet med studien är dels att få en allmän överblick över bakterieläget, dels att undersöka huruvida det finns en skillnad mellan Vänstabadet och Skönstabadet. (Att Fränstabadet har högre bakteriehalter än de båda andra är känt sedan tidigare, och behöver inte bekräftas ännu en gång). Varje badplats har en avdelning med grunt vatten och en med djupt vatten. Inspektörerna tar tre prover både från det grunda vattnet och det djupa vattnet på varje badplats, alltså inalles sex kombinationer med tre mätningar i varje. Inspektörerna räknar ut alla sex provmedelvärdena, och kvadratsummor (se nedan), men på grund av bristande statistiska kunskaper raderar man de ursprungliga mätvärdena. När den statistskt kompetenta personen får tag i data finns följande bevarat: 3 2 3 (y ijk y... ) 2 = 958438, i=1 j=1 k=1 samt cellmedelvärdena Vänstabadet Fränstabadet Skönstabadet Grunt vatten 573 1062 555 Djupt vatten 532 1006 532 Table 1: Medelvärden av tre mätningar i samma cell Någon har analyserat ovanstående cellmedelvärden som om det vore fråga om modellen tvåsidig indelning, en observation per cell, och fått den här ANOVA-tabellen: Variations- Frihets- Kvadratkälla grader summa Mkvs Mellan djup 1 2400 2400.0 Mellan bad 2 315009 157504.5 Residualer 2 273 136.5 Totalt 5 317682 Table 2: ANOVA som om cellmedelvärdena vore data a) Ange en lämplig statistisk modell för ursprungliga provdata. Använd den
Linjära statistiska modeller, 20 mars 2015 6 befintliga informationen för att genomföra en variansanalys med tvåsidig indelning, tre observationer per cell. Testa på nivån 5 % vilka effekter som är signifikanta. Reducera modellen om det är möjligt. (4 p) b) Är det någon skillnad i bakteriehalt mellan djupt och grunt vatten? Undersök detta genom att beräkna ett lämpligt 95 % konfidensintervall. (3 p) c) Kan man säkerställa en skillnad mellan Vänstabadets och Skönstabadets bakteriehalter? (3 p) Uppgift 5 Vid en studie undersöktes hur utbytet av en industriell process berodde på temperatur (A), tryck (B) och kolhalt (C). Varje faktor varierades på två nivåer, och för varje faktorkombination gjordes två mätningar (replikat). Teckenschema för försökspunkterna, responsens medelvärde och stickprovsvariansen för varje försökspunkt blev enligt följande tabell: A B C responsmedelv. s 2 75.5 6 + 87.5 16 + 73.1 7 + + 90.3 3 + 86.5 10 + + 89.4 4 + + 81.6 2 + + + 87.0 8 Här är en lista över nästan alla effektskattningar: totalmv. 83.85 A 4.70 B 0.85 C 2.28 AB 0.95 BC 0.98 ABC 0.33 a) Komplettera med den effektskattning som saknas. (2 p) b) Skatta försöksfelets standardavvikelse σ med ledning av replikaten (2 p) c) Beräkna effektskattningarnas medelfel och ange ett symmetriskt konfidensintervall för A med 95% konfidensgrad. (3 p)
Linjära statistiska modeller, 20 mars 2015 7 d) Reducera modellen genom att utesluta alla icke säkerställda effekter. I den reducerade modellen, vad är det förväntade utbytet vid ett försök där alla faktorer är på plusnivå? (3 p)