Tentamen för kursen. Linjära statistiska modeller. 22 augusti

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus 6, torsdag 28/8 2008 kl 10.00. Den som vill veta sitt resultat snabbare kan skriva sin epostadress på skrivningsomslaget. Efter återlämningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6. Krav för godkänt: För lägsta godkända betyg (E) krävs minst 10 poäng på teoridelen och minst 10 poäng på problemdelen. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Komplettering: Sist i den här tentan finns en extra teoriuppgift. Den är avsedd enbart för dem som kompletterar teoridelen. Övriga studenter skall enbart behandla de fem första uppgifterna, i vanlig ordning. Teoridel: Uppgift 1 a) Antag att vi har data i form av n par, (x i, y i ), där i = 1,..., n. Vi genomför en enkel linjär regressionsanalys och får fram en viss förklaringsgrad R 2, samt skattade värden ŷ i = ˆα + x i ˆβ och residualer ri = y i ŷ i. Om vi nu gör en enkel linjär regression av residualerna r i på de skattade värdena ŷ i, vad blir då interceptet och lutningskoefficienten för den skattade regressionslinjen? (4 p) b) Om vi i stället skulle göra regression av residualerna på de ursprungliga observationerna (y i ), vad blir då interceptet och lutningskoefficienten för den skattade regressionslinjen? (4 p) c) Varför utgör resultatet i (a)- och (b)-uppgiften ett argument för att man hellre bör plotta residualer mot skattade värden (och inte mot observerade y) när man undersöker utfallet av en regression? (2 p)

Linjära statistiska modeller, 22 augusti 2008 2 Teoridel: Uppgift 2 a) Om en stokastisk variabel W har en F-fördelning med f 1 frihetsgrader i täljaren och f 2 i nämnaren, vad har den då för väntevärde? Det finns en formel för E[W ], men den ser man inte så ofta, ty när F-fördelningen används är det oftast kvantilerna som är det viktiga, inte momenten. I Wikipedias engelskspråkiga artikel om The F Distribution hittar man dock en formel där det påstås att om W har den nämnda fördelningen så existerar dess väntevärde om f 2 > 2 och då gäller E[W ] = f 2 f 2 2. Man kan spontant tycka att denna formel är mystisk, eftersom parametern f 1 saknas i högerledet. Alla uppgifter man hittar på Internet bör tas med en stor nypa salt, så vi ställer frågan: Har vi här upptäckt ett fel i Wikipedia eller finns det någon naturlig förklaring till att antalet frihetsgrader i täljaren inte har någon betydelse för väntevärdet av en F-fördelad variabel? Ange den förklaringen i så fall. (4 p) b) Betrakta den vanliga modellen för ensidig variansanalys och antag att vi har 365 stickprov av storlek 30 (en sådan situation kan uppstå om en variabel misstänks ha en årlig cykel och vi har observerat den varje dag under 30 års tid). Från en studie av vindhastigheten vid Gotska Sandön hämtar vi den här ANOVA-tabellen: Variationskälla Antal frihets- Kvadrat- MKVSUM F grader summa Mellan stickprov 364 2 672 7.34 1.262 Inom stickprov 10 585 61 605 5.82 Totalt 10 949 Den viktiga frågan är om F-kvoten 1.262 är så stor att man ska förkasta hypotesen att alla 365 populationerna har samma väntevärde. Antag nu att vi inte har tillgång till några statistiska tabeller alls, vare sig över F- fördelningen eller någon annan fördelning. Det enda vi kan utnyttja är att om en variabel är N(µ, σ 2 ) så ligger dess övre 0.05-kvantil vid µ + 1.64σ. (Detta råkar vi komma ihåg utantill). Avgör med hjälp härav vad vi ska dra för slutsats av variansanalysen, på signifikansnivån 5 %. Var inte rädd för att göra en del ganska grova approximationer. (6 p) Problemdel: Uppgift 3 Volymen av blod som strömmas från hjärtat efter en hjärtmuskelsammandragning kallas slagvolymen. För en individ som vilar är slagvolymen i medeltal cirka

Linjära statistiska modeller, 22 augusti 2008 3 75 ml. Vid en medicinsk undersökning av sambandet mellan slagvolym och ålder fick man följande data: Ålder(x) 20 25 30 35 40 45 50 55 60 65 70 Slagvolym(y) 74 76 77 74 71 72 70 68 67 64 62 Figure 1: Slagvolym mot ålder för försökspersonerna Hjälpsummor: Σ i (x i x) 2 = 2750, Σ i (y i ȳ) 2 = 232.7273, Ȳ = 70.4545 a) Ansätt en enkel linjär regressionsmodell för data, och skatta parametrarna i modellen, inklusive variansen. (2 p) b) Testa om åldern har någon systematisk inverkan på slagvolymen. Använd 5 % signifikansnivå (2 p) c) Beräkna ett 95 % konfidensintervall för den förväntade slagvolymen hos en 50-åring. (2 p) d) Man ansatte också modellen Y = a + bx + cx 2 + ɛ där ɛ är N(0, σ 2 ), x ålder och Y slagvolym. Från ovanstående data erhöll man då skattningarna â = 74.1203, ˆb = 0.1660, ĉ = 0.004895, och ˆσ 2 =

Linjära statistiska modeller, 22 augusti 2008 4 1.5745. Testa hypotesen att andragradstermen är obefintlig i verkligheten, d.v.s. testa hypotesen c = 0. (4 p) Problemdel: Uppgift 4 I en plastsäcksindustri undersöktes hållfastheten hos en viss sorts plastsäckar. Avsikten var att uppskatta medelhållfastheten µ i produktionen och få en uppfattning om variationen i produktionen. Fyra säckar uttogs slumpmässigt ur produktionen och från varje säck uttogs sju prover som hållfasthetsprovades. Resultatet blev: Medel- Standard- Säck Hållfasthet värde avvikelse 1 41, 60 41, 31 41, 27 42, 36 41, 70 41, 62 42, 49 41, 764 0, 4803 2 46, 31 44, 64 44, 23 45, 02 44, 91 44, 66 46, 39 45, 166 0, 8468 3 42, 39 41, 20 40, 88 40, 83 40, 66 40, 91 40, 90 41, 110 0, 5866 4 46, 53 45, 56 44, 87 45, 75 46, 05 46, 24 46, 21 45, 887 0, 5521 a) Ange en lämplig statistisk modell. (1 p) b) Testa om variationen av hållfastheten mellan säckar är signifikant skild från noll. (3 p) c) Beräkna ett 95 % konfidensintervall för variansen mellan hållfasthetsprov inom säckar. (3 p) d) Beräkna ett 95 % konfidensintervall för medelhållfastheten i säckproduktionen. (3 p) Problemdel: Uppgift 5 Man vill undersöka effekten av två faktorers inverkan på en viss biokemisk process och låter därför två laboratorier lägga upp var sitt 2 2 -försök. Det kan anses rimligt att anta att mätvärden vid de två laboratorierna har samma varians σ 2. Därmot kan man inte bortse från att det kan vara en systematisk skillnad mellan laboratorierna, dvs för varje faktorkombination är den förväntade skillnaden mellan laboratoriernas mätvärden konstant lika med d. Försöken ger följande resultat:

Linjära statistiska modeller, 22 augusti 2008 5 Lab 1: Faktor A B Mätvärde 32 + 35 + 15 + + 27 Lab 2: Faktor A B Mätvärde 37 + 42 + 21 + + 34 För Lab 1 är medelvärdet av de fyra mätvärdena 27.25 och för Lab 2 är medelvärdet av mätvärdena 33.50. Om vi betraktar alla åtta mätvärdena som ett enda stickprov så har detta standardavvikelsen 8.879. a) Ställ upp en lämplig statistisk modell. Tänk särskilt på vilka samspelseffekter som bör vara med i modellen. (3 p) b) Skatta huvudeffekter och samspelseffekter samt testa på nivån 5 % vilka effekter som är säkerställda. Svara speciellt på frågan om det är någon skillnad mellan laboratorierna. (7 p) Teoridel: Uppgift 3 Extrauppgift, endast avsedd för vissa studenter Följande uppgift är enbart avsedd för dem som skriver en komplettering av teoridelen. a) Hur lyder Gauss-Markovs sats? Du behöver inte bevisa satsen, men förklara tydligt vilka förutsättningar som skall vara uppfyllda och vad satsen säger. (3 p) b) Det så kallade kvadratiska medelfelet är ett vanligt mått på kvaliten hos en skattning ˆθ av en okänd parameter θ. Det betecknas MSE( θ) och definieras som väntevärdet av kvadraten på avståndet mellan skattningens utfall och det sanna värdet av den parameter som skulle skattas, alltså MSE( θ) = E[( θ θ) 2 ].

Linjära statistiska modeller, 22 augusti 2008 6 Om en skattning inte är väntevärdesriktig så definierar man dess bias som skillnaden mellan dess väntevärde och det sanna värdet på parametern, alltså bias(ˆθ) = E[ˆθ] θ. Om en skattning är väntevärdesriktig så är bias(ˆθ) = 0. Det finns ett samband mellan MSE( θ), Var( θ) och bias( θ). Härled detta. Det är tillåtet att anta att θ är ett tal (alltså inte en vektor). (3 p) c) Antag att de N variablerna Y 1,..., Y N har väntevärden som är funktioner av två okända parametrar θ 1 och θ 2. Antag också att den allmänna linjära modellen gäller, alltså att vektorn Y = Aθ + ɛ där A är en känd designmatris med N rader och två kolonner, och θ är kolonnvektorn (θ 1, θ 2 ) T. Variabeln ɛ har en multivariat normalfördelning med variansmatris σ 2 I N. Vi vill skatta differensen = θ 1 θ 2 med en väntevärdesriktig skattning vars kvadratiska medelfel E[( ) 2 ] skall vara så litet som möjligt. Ett sätt att gå tillväga är att beräkna minstakvadrat-skattningarna ˆθ 1 och ˆθ 2 och skatta med skillnaden mellan dessa båda. Men det finns många sätt att bilda linjärkombinationer av Y 1,..., Y N som är väntevärdesriktiga skattningar av. Låt c T Y vara en sådan linjärkombination. Bevisa att kvadratiska medelfelet för c T Y inte kan vara mindre än det för = ˆθ 1 ˆθ 2. (Gauss-Markovs sats får åberopas). (4 p)