STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus 6, torsdag 23/8 2007 kl 14.00. Den som vill veta sitt resultat tidigare kan skriva sin epostadress på skrivningsomslaget. Efter återlämningen finns de ej avhämtade skrivningarna hos Christina Nordgren, rum 303, hus 6. Lösningar: Lösningar kan hämtas från adress www.math.su.se/matstat/und/linmod efter klockan 14.00 idag. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Varje korrekt löst uppgift ger 10 poäng. Gränsen för godkänt är preliminärt 25 poäng. För VG krävs preliminärt 37 poäng. Uppgift 1 En statistiklärare förklarar begreppet enkel linjär regression för sina studenter. Hon beskriver vad som menas med minstakvadrat-skattningarna ˆα och ˆβ, skattade värden ŷ i och förklarar begreppet residualer r i = y i ŷ i. Sen ger hon studenterna ett datamaterial som består av 10 observationer att öva på. Datamaterialets x-värden är de tio heltalen 1, 2, 3,..., 10, och y-värdena har hon hittat på lite på måfå. Läraren ber studenterna att räkna ut den skattade linjen och sedan redovisa residualerna r i. När läraren ska rätta uppgifterna har hon pinsamt nog råkat glömma bort vilka y-värden hon gav eleverna. a) Som svar på uppgiften redovisar Kalle de här residualerna: x i 1 2 3 4 5 6 7 8 9 10 r i 0.45 1.32 0.78 0.56 2.45 4.32 1.66 0.77 0.98 3.14 Här ser läraren omedelbart att Kalle måste ha räknat fel någonstans. Förklara hur man kan se det. (1 p)
Linjära statistiska modeller, 16 augusti 2007 2 b) Efter att ha räknat en gång till kommer Kalle till de här residualerna: x i 1 2 3 4 5 6 7 8 9 10 r i 0.45 1.32 0.78 0.56 2.45 4.32 2.23 0.77 0.98 3.14 Efter en enkel kontroll ser läraren att Kalle fortfarande har räknat fel. Vad ser man det på? (2 p) c) Stina redovisar de här residualerna: x i 1 2 3 4 5 6 7 8 9 10 r i 1.69 1.32 0.78 0.56 1.45 1.32 2.23 0.77 0.98 3.14 Efter att ha tänkt en stund, och ritat en liten figur, inser läraren att Stina också har räknat fel. Vad ser man det på? (7 p) Uppgift 2 Tre råvaruvarianter R1, R2 och R3 skall jämföras. Råvaran behandlas i en maskin, varefter ett mätvärde bestäms. Resultatet beror eventuellt på valet av maskin och på andra yttre betingelser. Man bestämmer sig därför för att använda tre olika maskiner M1, M2 och M3 och att utföra jämförelsen som ett romersk-kvadratförsök under tre dagar, 1-3. Man valde slumpmässigt en kvadrat och fick mätvärden enligt tabellen som följer. Det första talet i varje cell anger vilken dag försöket utfördes, det andra talet är mätvärdet. Mätvärdenas stokastiska komponenter kan betraktas som normalfördelade, och faktorerna får anses som systematiska och utan nämnvärt samspel. Maskin 1 Maskin 2 Maskin 3 Råvara 1 (3, 54) (1, 56) (2, 53) Råvara 2 (1, 52) (2, 46) (3, 47) Råvara 3 (2, 50) (3, 42) (1, 54) Mätvärdenas totalmedelvärde är 50.444. Kvadratsumman mellan råvaror blir 68.22 och mellan maskiner 27.56. Totalkvadratsumman är 168.22. a) Skatta kontrasten mellan råvarorna R1 och R3. (2 p) b) Ställ upp en variansanalystabell och skatta försöksfelens standardavvikelse. (4 p) c) Beräkna ett 95 % konfidensintervall för kontrasten mellan råvarorna R1 och R3. Är det säkerställt att dessa båda råvaror har olika inverkan på mätvärdet? (4 p)
Linjära statistiska modeller, 16 augusti 2007 3 Uppgift 3 En grupp tjänstemän vid hälsovårdsnämnden i en stad i USA vill ta reda på vilka meteorologiska variabler som är viktigast för att förklara variationerna i luftens halt av kväveoxider (NO x ). Man genomför en serie om n = 20 mätningar. Samtidigt med NO x mäter man luftens fuktighet, tryck och temperatur. Resultatet blir som tabellen visar. NO x Fuktighet Tryck Temperatur (ppm) (procent) (inches of Hg) (Fahrenheit) 0, 9 72, 4 29, 18 76, 3 0, 91 41, 6 29, 35 70, 3 0, 96 34, 3 29, 24 77, 1 0, 89 35, 1 29, 27 68, 0 1 10, 7 29, 78 79, 0 1, 1 12, 9 29, 39 67, 4 1, 15 8, 3 29, 69 66, 8 1, 03 20, 1 29, 48 76, 9 0, 77 72, 2 29, 09 77, 7 1, 07 24, 0 29, 60 67, 7 1, 07 23, 2 29, 38 76, 8 0, 94 47, 4 29, 35 86, 6 1, 1 31, 5 29, 63 76, 9 1, 1 10, 6 29, 56 86, 3 1, 1 11, 2 29, 48 86, 0 0, 91 73, 3 29, 40 76, 3 0, 87 75, 4 29, 28 77, 9 0, 78 96, 6 29, 29 78, 7 0, 82 107, 4 29, 03 86, 8 0, 85 54, 9 29, 37 70, 9 Medelvärde 0, 977 43, 155 29, 392 76.52 Standardavvikelse 0, 118 30, 461 0, 194 6, 514 Man plottar alla dessa fyra variabler mot varandra i ett antal scatterplots. Resultatet ser ut som Figur 1 visar.
Linjära statistiska modeller, 16 augusti 2007 4 Figure 1: Scatterplots med i tur och ordning NOx, Fuktighet, Temperatur och Tryck Tjänstemännen, som inte kan så mycket statistik, har tillgång till ett program för multipel linjär regression. De gör lite olika körningar, där vissa x-variabler är med och andra är uteslutna. En del av datorutskrifterna visas i Figur 2-5. Elementen i matrisen X T X, alltså de produktsummor som med vanliga beteckningar brukar skrivas Σ i (X ij X.j )(X ik X.k ), blir: NO x Fuktighet Tryck Temperatur NO x 0.2667 59.768 0.3315 2.0194 Fuktighet 17630 84.840 955.68 Tryck 0.7153 4.6498 Temperatur 806.112 (Observera att vi även har inkluderat NO x i tabellen, trots att det ju inte är en x-variabel i det här fallet.)
Linjära statistiska modeller, 16 augusti 2007 5 Figure 2: En del av utskriften från tjänstemännens statistikprogram, när alla tre x-variablerna ingår (hör till Uppgift 3) Om x-variablerna räknas upp i ordningen Fuktighet, Tryck, Temperatur, så blir matrisen (X T X) 1 såhär: 0.0001 0.0157 0.0001 0.0157 3.2569 0.0002 0.0001 0.0002 0.0013 Vi ska nu hjälpa tjänstemännen att hitta en bra regressionsmodell. a) En tänkbar möjlighet är att endast inkludera fuktighet som förklaringsvariabel, och bortse helt från temperatur- och tryckdata. Vilken förklaringsgrad (R 2 ) uppnår man med en sådan modell? (2 p) b) Formulera den som du anser bästa modellen som tjänstemännen bör använda för att förklara kväveoxidhaltens variation. Motivera ditt val. Observera att det finns fler tänkbara modeller än de fyra som tjänstemännen har räknat på. Ange noga vilka parametrar din valda modell innehåller och beskriv hur du skattar dem. (6 p) c) En viss dag är fuktigheten 50 %, lufttrycket 29.93 inches of Hg, och temperaturen 85 grader Fahrenheit. Beräkna ett intervall inom vilket man kan säga att kväveoxidhalten med 95% sannolikhet kommer att ligga. (2 p)
Linjära statistiska modeller, 16 augusti 2007 6 Figure 3: En del av utskriften från tjänstemännens statistikprogram, när tryck och temperatur ingår (hör till Uppgift 3) Uppgift 4 En grupp farmaceutiska forskare har utvecklat ett nytt läkemedel. När man injicerar detta i en patient dröjer det en viss tid innan en reaktion uppstår. Man vill nu jämföra tre olika varianter av läkemedlet, betecknade A - C, och den intressanta frågan är huruvida reaktionstiden är lika lång för de tre formerna. Fyra slumpvis utvalda försökspersoner, betecknade 1-4, har testat de tre formerna, och reaktionstiden framgår av tabellen (reaktionstid i sekunder). Vi förutsätter att tiden mellan två experiment på samma försöksperson är så lång att den ena mätningen inte påverkar den andra. Person 1 2 3 4 Variant A 1.7 1.5 0.1 0.6 B 3.4 2.6 2.3 2.2 C 2.3 2.1 0.8 1.6 a) Skriv upp en lämplig statistisk modell för dessa data. Ange tydligt vilka termer som betecknar stokastiska variabler respektive konstanter. Uttryck hypotesen att de tre varianterna ger lika långa reaktionstider, med hjälp av de beteckningar du har infört. (2 p) b) Med hjälp av data kan man sätta upp följande ANOVA-tabell:
Linjära statistiska modeller, 16 augusti 2007 7 Figure 4: En del av utskriften från tjänstemännens statistikprogram, när fuktighet och temperatur ingår (hör till Uppgift 3) Variations- Antal frihets- Kvadrat- MKVSUM F källa grader summa Mellan varianter 5.48 Mellan försökspersoner 3.48 Residualer 0.45 Totalt Avgör om de tre varianterna är likvärdiga med avseende på reaktionstid. (3 p) c) Vid närmare efterforskning visar det sig att vart och ett av de tolv värdena i tabellen i själva verket är ett medelvärde av två mätningar. Vi har inte tillgång alla de 24 mätvärdena, men vi får veta att en skattning av försöksfelet, baserad på variationerna inom cellerna, ger ˆσ 2 = 0.125. Sätt upp en ny ANOVA-tabell med ledning av detta, och testa återigen hypotesen att de tre varianterna är likvärdiga. (5 p)
Linjära statistiska modeller, 16 augusti 2007 8 Figure 5: En del av utskriften från tjänstemännens statistikprogram, när fuktighet och tryck ingår (hör till Uppgift 3) Uppgift 5 Ett 2 3 -försök har gjorts för att undersöka inverkan på spänningen i en kloratcell av faktorerna: A Avstånd B Höjd C Surhet De uppmätta spänningarna rapporteras ha blivit: A B C Spänning 3.39 + 3.51 + 3.42 + + 3.54 + 3.37 + + 3.51 + + 3.40 + + + 3.52 Table 1: Uppmätta spänningar vid försöket
Linjära statistiska modeller, 16 augusti 2007 9 Som inledning till den statistiska analysen utförs följande summeringar: +3.39 + 3.51 + 3.42 + 3.54 + 3.37 + 3.51 + 3.40 + 3.52 = 27.66 3.39 + 3.51 3.42 + 3.54 3.37 + 3.51 3.40 + 3.52 = 0.50 3.39 3.51 + 3.42 + 3.54 3.37 3.51 + 3.40 + 3.52 = 0.10 3.39 3.51 3.42 3.54 + 3.37 + 3.51 + 3.40 + 3.52 = 0.06 +3.39 3.51 3.42 + 3.54 + 3.37 3.51 3.40 + 3.52 = 0.02 +3.39 3.51 + 3.42 3.54 3.37 + 3.51 3.40 + 3.52 = 0.02 +3.39 + 3.51 3.42 3.54 3.37 3.51 + 3.40 + 3.52 = 0.02 3.39 + 3.51 + 3.42 3.54 + 3.37 3.51 3.40 + 3.52 = 0.02 Av kemiska skäl tror man att effekterna inverkar additivt, dvs alla samspelseffekter kan försummas. Från tidigare erfarenheter vet man också att försöksfelets standardavvikelse σ är högst 0.001 (med andra ord, σ 2 10 6 ). a) Skatta huvudeffekterna av faktorerna A, B och C med utgångspunkt i dessa data. (2 p) b) Skatta σ med hjälp av antagandet att alla samspelseffekter är noll. (3 p) c) Testa hypotesen σ = 0.001 mot den ensidiga alternativhypotesen σ > 0.001. (3 p) d) Om du har löst (b)- och (c)- uppgifterna rätt så har du fått ett resultat som är svårt att förena med forskarnas vetskap om att σ skall vara högst 0.001. Man kan misstänka att något fel har insmugit sig i den ovanstående spänningstabellen (Table 1). Det visar sig att det räcker med att ändra ett enda av de åtta värdena i tabellen för att man ska få en mycket rimligare σ-skattning. Identifiera det värde som troligen är fel, och föreslå hur det ska justeras. (2 p) Ledning: Om man går efter de inrapporterade värdena så har alla skattningar av samspelseffekter lika stort absolutbelopp, men vissa av dem är positiva och andra är negativa. Mönstret av plus- och minustecken ger en antydan om var det felaktiga värdet finns.