UMEÅ UNIVERSITET Institutionen för matematisk statistik Regressions- och variansanalys, 5 poäng MSTA35 Leif Nilsson TENTAMEN 2003-01-10 TENTAMEN I MATEMATISK STATISTIK Regressions- och variansanalys, 5 poäng Tillåtna hjälpmedel: Tabellsamling och egen miniräknare. Studenterna för behålla tentamensuppgifterna. Skrivtid: 09.00-15.00, Östra paviljongen sal 3 Betygsgränser: Godkänd vid 12p, Väl godkänd vid 18p (max 24p) Telefon till lärare vid frågor: 090-786 5380 (Leif) 1. Antag att vi vill studera förhållandet mellan vikt, längd och ålder hos barn med en viss typ av sjukdom (nutritional deficiency). Vikt, längd och ålder mättes hos 12 stycken barn med sjukdomen nutritional deficiency och följande resultat erhölls: vikt Längd Ålder 64 57 8 71 59 10 53 49 6 67 62 11 55 51 8 58 50 7 77 55 10 57 48 9 56 42 10 51 42 6 76 61 12 68 57 9 En regressionsmodell med de förklarande variablerna längd, ålder och ålder 2 ansattes och följande resultat erhölls.
Regression Analysis The regression equation is vikt = 3,4 + 0,724 längd + 2,78 ålder - 0,042 ålder^2 Predictor Coef StDev T P Constant 3,44 33,61 0,10 0,921 längd 0,7237? 2,61 0,031 ålder 2,777 7,427 0,37 0,718 ålder^2-0,0417 0,4224-0,10 0,924 S = 4,940 R-Sq = 78,0% R-Sq(adj) = 69,8% Analysis of Variance Regression 3 693,06 231,02 9,47 0,005 Residual Error 8 195,19 24,40 Total 11 888,25 Source DF Seq SS längd 1 588,92 ålder 1 103,90 ålder^2 1 0,24 a) Redogör för de modellantaganden som krävs för att kunna skatta och "testa" parametrar. b) Antag att modellantagandena är uppfyllda och bestäm ett 95%-igt konfidensintervall för parametern framför längden. c) Testa hypotesen att parametrarna framför ålder och ålder 2 båda är noll (simultant). Till ert förfogande har ni även regressionsanpassningen nedan där enbart längd är förklarande variabel: Regression Analysis The regression equation vikt = 6,2 + 1,07 längd is Predictor Coef StDev T P Constant 6,19 12,85 0,48 0,640 längd 1,0722 0,2417 4,44 0,001 S = 5,471 R-Sq =? % Analysis of Variance Regression 1 588,92 588,92 19,67 0,001 Residual Error 10 299,33 29,93 Total 11 888,25 d) Visa, för den enkla regressionsmodellen, att den totala kvadratsumman kan delas upp i två kvadratsummor (residualkvadratsumma och regressionskvadratsumma). e) Redogör i ord för begreppet förklaringsgrad samt bestäm den för den enkla regressionsanpassningen ovan.
f) Antag att variablerna vikt och längd kan ses som en bivariat normalfördelad variabel. Bestäm korrelationskoefficienten mellan vikt och längd samt testa om korrelationen är noll. g) För den enkla regressionsanpassningen ovan, beräkna residualer och anpassade värden samt "plotta" dem mot varandra. Finns det något i den bilden som tyder på att modellen är dålig (motivera)? h) Redogör för begreppen "outliers" och inflytelserika punkter. i) Ett 95%-igt prediktionsintervall för vikten hos ett barn som har sjukdomen och är 55 cm lång blir (52,42, 77,91) om man använder den enkla linjära regressionsanpassningen ovan. Bestäm ett 95%-igt konfidensintervall för den genomsnittliga vikten hos barn som har sjukdomen och är 55 cm långa. 2. Man har gjort en undersökning av hur 3 olika laboratorium lyckas mäta halten av en natriumförening (lasalocid sodium) i en viss mängd hönsfoder. Man skickade ut en mängd hönsfoder till de 3 olika laboratorierna vardera innehållande 85 mg/kg natriumämne. Man bad sedan laboratorierna att vardera göra 5 bestämningar på halten natriumämne. Man vill sedan jämföra resultaten från de olika laboratorierna. Resultatet visas nedan. Lab A 82,3 84,1 85,8 86,8 83,3 Lab B 87,5 89,1 86,3 89,6 88,7 Lab C 82,2 88,4 83,1 85,1 84,8 One-way ANOVA: Natrium versus Lab Analysis of Variance for Natrium Lab 2 44,56 22,28 6,15 0,014 Error 12 43,46 3,62 Total 14 88,02 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ----------+---------+---------+------ A 5 84,458 1,848 (-------*------) B 5 88,247 1,325 (------*------) C 5 84,739 2,387 (------*------) ----------+---------+---------+------ Pooled StDev = 1,903 85,0 87,5 90,0 Tukey's pairwise comparisons Family error rate = 0,0500 Individual error rate = 0,0206 Critical value = 3,77 Intervals for (column level mean) - (row level mean) A B B -6,997-0,580 C -3,489 0,299 2,928 6,717
Normal Probability Plot Probability,999,99,95,80,50,20,05,01,001 Average: -0,0000000 StDev: 1,76187 N: 15-2,5 0,0 RESI2 2,5 Anderson-Darling Normality Test A-Squared: 0,164 P-Value: 0,927 Test for Equal Variances for Natrium 95% Confidence Intervals for Sigmas Factor Levels A Bartlett's Test Test Statistic: 1,190 P-Value : 0,552 B Levene's Test Test Statistic: 0,421 P-Value : 0,666 C 0 1 2 3 4 5 6 7 8 9 10 a) Redogör för de modellantaganden man gör vid ensidig variansanalys. b) Redogör för skillnaden mellan fixa och slumpmässiga effekter. Har vi fixa eller slumpmässiga effekter i denna analys (motivera)? c) Visa att medelkvadratsumman för den faktor man vill studera vid ensidig variansanalys (MSA) endast är en väntevärdesriktig skattning av mätfelets varians om nollhypotesen att alla faktornivåer har samma väntevärde är sann. d) Redogör för begreppet massignifikans.
e) Beräkna residualerna och anpassade värdena samt "plotta" dem mot varandra. Finns det något i den bilden som tyder på att modellen är dålig? f) Vilka slutsatser kan man utifrån Minitab-utskrifterna ovan dra angående de olika laboratorierna? Vilket/vilka laboratorium skulle du rekommendera att man anlitar i framtiden? Ge utförlig motivering. g) Genomför motsvarande test (som vid ensidig variansanalys) med ett parameterfritt test. Vilka modellantaganden, görs samt hur er hypoteserna ut? (3p) h) Vid flersidig variansanalys är man ofta intresserad av att utröna om det finns samspel mellan faktorer. Redogör för begreppet samspel samt vad krävs för att man skall kunna testa om samspel föreligger.