TAMS 28 DATORÖVNING 2 Datorövningen behandlar enkel och multipel linjär regression. Du kommer att använda filerna syra.mpj, fosfat.mpj, smog.mpj och mogel.mpj. Om regressionskommandot: Det underlättar tolkningen av regressionsanalyserna om Du sätter namn på kolumnerna, t ex x1, x2 och y, om inte detta redan är gjort. Du kan skriva in namnen i namnraden i datafönstret. För att titta på vad man kan göra, så kan du gå in under menyn Stat - Regression - Regression. Du får då upp en dialogruta, där man kan skriva in (fast inte ännu) Response: Y Predictors: x1 x2 om man vill göra en regressionsanalys för Y med två förklaringsvariabler x 1 och x 2. Under Options kan man ta bort konstanttermen β 0, beställa prediktionsintervall för enstaka x-värden eller för x-värden i kolumner. Man måste ange aktuellt x-värde för var och en av de förklaringsvariabler som används i regressionsmodellen och i samma ordning som man skrivit in dem vid Predictors. Under Graphs: Kan man beställa residualplottar av olika sorter. Då man sedan tittar på residualplottarna är det smidigast att skriva ut de intressanta vartefter man tittar på dem. UPPGIFT 1. Enkel linjär regression. I en bioprocess för framställning av fettsyra vill man fastställa syrakoncentrationen. Traditionellt har man då använt en omständlig mätprocedur via extraktion och vägning. En mycket enklare, snabbare och billigare mätprocedur som utnyttjar titrering för mätning av en indikeringsvariabel har tagits fram. För att undersöka hur bra man med den nya mätmetoden kan beräkna syrakoncentrationen har man vid 20 olika jäsningar dels mätt indikeringsvariabeln (x) enligt den nya metoden, dels syrakoncentrationen (y) enligt den traditionella metoden. I filen syra.mpj i ditt directory finns de samhörande värdena på x och y. Rensa fönsterna och öppna filen syra.mpj via File - Open Project. Nu har du x-värdena i c1 och y-värdena i c2. Skriv in variabelnamnen i namnraden. Vi skall analysera datamaterialet enligt modellen Y j = β 0 + β 1 x j + ε j där ε 1,..., ε n är oberoende och N(0, σ). För att se om det är rimligt att anpassa en rät linje till datamaterialet kan du plotta y j mot x j plot c2 c1 Om du vill skriva ut plotten går du in under File - Print Graph Även korrelationskoefficienten är ett mått på graden av linjärt samband. Beräkna 1
den med hjälp av kommandot corr c1 c2 Gör sedan en regressionsanalys via Stat - Regression - Regression - Fit Regression Model; skriv in att du har Responses (y) i c2 och Continuous predictors (x) i c1. Under Graphs klickar du för Histogram of residuals och beställer Residuals versus the variables: x. Ta sedan OK. Under Stat - Regression - Regression - Predict - Enter individual values 100. Klickar du för Options - Confidence level 95%. Ta sedan OK, så får du analysen i sessionsfönstret. a) Hur ser den skattade regressionslinjen ut? Skriv upp ekvationen. b) I datautskriften hittar du de skattade standardavvikelserna se( ˆβ 0 ) och se( ˆβ 1 ). Frihetsgrad för σ 2 -skattningens 2? Formel för s 2? c) Testa på nivån 0.01 H 0 : β 1 = 0 mot H 1 : β 1 0. med hjälp av t-test; ledning: T-värdet i datautskriften har beräknats enligt formeln ( ˆβ 1 0)/se( ˆβ 1 ) se boken eller föreläsning. d) Leta upp prediktionsiontervallet för Y 0 då x = 100. e) Studera residualplottarna. Verkar antagandet om normalfördelning rimligt? Skriv eventuellt ut plottarna via FILE: Print Graph. Redigera innehållet i sessionsfönstret och skriv eventuellt ut det i två exemplar; File - Print Session Window. Om du inte gör utskrifter sparar du dina resultat via File: Save Project as så att du kan visa upp dina resultat vid redovisningen. Fyll i redovisningsbladet och redovisa uppgiften så snart någon lärare är ledig. UPPGIFT 2. Bedömning av lineariteten. Anpassning av andragradspolynom. Organiska fosfatföreningar används som bekämpningsmedel. Det är viktigt att studera effekterna på de arter som utsätts för dem. I en studie har fem grupper med fem möss i varje exponerats för olika doser av en speciell sådan förening. De fem mössen var helt jämförbara i fråga om ålder och hälsotillstånd, men delades för säkerhets skull upp slumpmässigt i fem grupper. Responsvariabeln y i tabellen nedan är ett mått på hjärnans aktivitet och x är dosen. Datamaterialet finns lagrat i filen fosfat.mpj, x-värdena finns i en kolumn och y- värdena i en. Rensa fönsterna och öppna fosfat.mpj. Vi skall försöka hitta en modell som beskriver sambandet mellan dosen av bekämpningsmedlet och hjärnaktiviteten, så att man kan prediktera hjärnaktiviteten för en viss dos så bra som möjligt. I den här uppgiften kommer Du att göra diverse plottar. Skriv ut dem vartefter via File -Print - Graph. Plotta y mot x 2
plot c2 c1 Det verkar inte helt orimligt att använda ett linjärt samband mellan x och y. Modell 1: Y = β 0 + β 1 x + ε där ε N(0, σ 1 ) Du skall göra en analys enligt denna modell. Eftersom vi vill bedöma prediktionsförmågan låter vi Minitab konstruera prediktionsintervall för Y och även konfidensintervall för E(Y ). Gå in under Stat - Regression - Fitted line plot. Skriv in i dialogrutan att Y finns i c2 och x i c1. Under Options klickar Du på Display confidence interval och prediction interval; vid Title skriver Du Modell 1. Under Storage klickar Du för Residuals. Ta sedan OK. Skriv eventuellt ut plotten i två exemplar. a) Anteckna σ 1 -skattningen och förklaringsgraden R 2 = R sq. b) Leta upp den kolumn där residualerna finns. Plotta residualerna mot x plot c3 c1 I residualplotten hittar du ett ganska tydligt mönster vilket innebär att den linjära modellen kanske inte är så bra. Formen på residualplotten för modell 1 antyder att Modell 2: Y = β 0 + β 1 x + β 2 x 2 + ε där ε N(0, σ 2 ) kan vara aktuell. Genomför en regressionsanalys enligt modell 2 med beräkning av residualer och prediktionsintervall genom att gå in under Stat - Regression - Fitted Line Plot och välj alternativet kvadratiskt samband. Gå in under Options och ändra rubriken till Modell 2. Skriv ut plotten i två exemplar. c) Anteckna σ 2 -skattningen och förklaringsgraden R 2 = R sq. d) Leta upp den kolumn där residualerna för modell 2 finns. Plotta residualerna mot x plot c4 c1 Är du nöjd med residualplotten? e) Är du nöjd med modell 2? f) Skulle man kunna använda regressionssambandet för att förutsäga hjärnaktiviteten vid dosen 25? Redigera innehållet i Sessionfönstret och skriv eventuellt ut det. Fyll i redovisningsbladet och redovisa uppgiften. UPPGIFT 3. Stegvis regression med hjälp av bakåtelimination. Ibland har man en responsvariabel Y och en hel uppsättning tänkbara förklaringsvariabler, men man vet inte vilka ev dessa förklaringsvariabler som är relevanta. Man kan då välja förklaringsvariabler med hjälp av s k stegvis regression. Det finns många metoder för stegvis regression. En sådan är stegvis regression genom 3
bakåtelimination. Steg 1: Gör en analys enligt den regressionsmodell där alla förklaringsvariablerna ingår. Använd Stat-Regression-Regression-Fit Regression Model. Du får då bl a upp en tablå med de skattade regressionskoefficienterna och deras skattade standardavvikelser. I denna tablå finns också ett P-värde som anger i vilken utsträckning en koefficient är skild från noll. Stort P-värde antyder att förklaringsvariabeln inte gör någon större nytta. Leta upp det största P-värdet. Om detta är < 0.05, så ska alla förklaringsvariablerna utnyttjas och proceduren är avslutad; om det är > 0.05, ta bort motsvarande förklaringsvariabel. OBS! I allmänhet tar man inte bort konstanttermen β 0. Steg 2: Gör en ny analys där en förklaringsvariabel är borttagen. Leta upp det största P-värdet och fatta beslut som i steg 1. Fortsätt på samma sätt tills det inte går att plocka bort fler förklaringsvariabler. I Los Angeles vill man konstruera statistiska modeller för att med hjälp av meteorologiska morgondata kunna förutsäga den maximala luftföroreningsnivån under dagen. Syftet är att på morgonen kunna varna och eventuellt via trafikrestriktioner kunna förhindra alltför höga föroreningsnivåer. Man har samlat in data över en viss oxidant (en fotokemisk förorening) samt morgonvärdena på fyra meteorologiska variabler, vindhastighet, temperatur, luftfuktighet och solens instrålning: Rensa Minitabfönsterna. Datamaterialet finns på filen smog.mpj. Öppna den. I c1 finns nummer på dagen och detta är inte någon egentlig förklaringsvariabel, men det kan vara intressant att i en residualplott studera eventuellt beroende mellan närliggande dagar. Skriv in namnen d, w, t, h, i, y i namnraden för c1-c6. Det är w, t, h, i som är tänkbara förklaringsvariabler. 4
a) Plotta y mot var och en av förklaringsvariablerna för att se vilka av dem som ser ut att fungera bäst. b) Genomför stegvis regression enligt bakåteliminationsprincipen. Använd Stat- Regression-Regression-Fit Regression Model utan tilläggskommandon. Skriv in y som responsavariabel och de aktuella förklaringsvariablerna (predictors) w, t, h, i. Redovisa Dina slutsatser steg för steg på redovisningsbladet. Anteckna residualkvadratsumman och dess frihetsgrad för varje analys, P-värdet för den sämsta förklaringsvariabeln samt vilken förklaringsvariabel som eventuellt kan plockas bort; (nivå 5% för samtliga test). Vilken blir Din slutgiltiga modell? c) Gör ytterligare en analys enligt den valda modellen genom att gå in under Stat- Regression-Regression. Beställ residualplottar mot c1-c5 under Graphs. Studera residualplottarna, särskilt den mot d. Finns det tendens till beroende mellan närliggande residualer? Fyll i redovisningsbladet. UPPGIFT 4. Transformation av data. Do mould colonies grow exponentially? In an investigation of the growth of moulds, biologists inoculated flasks containing a growth medium with equal amounts of spores of the mould Aspergillus nidulans. They measured the size of a colony by analyzing how much remains of a radioactive tracer substance that is consumed by the muld as it grows. Each size measurement requires destroying that colony, so that the data below refer to 30 separate colonies. Rensa dina fönster och öppna filen mogel.mpj. Plotta Y mot x. a) Är det tänkbart med exponentiell tillväxt? b) Skriv i sessionsfönstret let c3=logten(c2) Döp c3 till logy. Plotta c3 mot c1. Ser sambandet linjärt ut? Mikrobiologer brukar dela upp tillväxten hos mögelkolonier i tre faser. I fas 2 har 5
man exponentiell tillväxt. För det aktuella försöket omfattar denna fas tidpunkterna 6 till och med 24. Skriv i sessionsfönstret copy c1 c2 c5 c6; omit 1:6 28:30. Radbyte med returtangenten. Semikolon innebär att man kommer på underkommandonivå och underkommandot måste avslutas med punkt. Nu har du data för fas 2 i c5 och c6. Kalla dem t ex x2 och Y 2 för att markera att det handlar om värden från fas nr 2. Gå in under Stat-Regression-Fitted Line Plot och begär en analys enligt modellen 10 log Y 2 = α + βx2 + ε för data från fas 2. Du anger alltså Y 2 som Y-variabel och x2 som x-variabel. Under Options klickar du för Log10 of Y, Display logscale for Y, Display Confidence Interval och Display Prediction Interval Under Storage klickar du för Fits och Fits in original units. Under Graphs begär du Residuals versus x2. Sedan tar du OK. Nu hamnar Fits, dvs värdena för den skattade regressionslinjen troligen i C7 och motsvarande värden för de ursprungliga mätvärdena BFits i c8. b1) Vad är det för samband mellan Fits och BFits? b2) Är du nöjd med utseendet hos Fitted Line Plot? b3) Är du nöjd med residualplotten? c) Det är intressant att jämföra BFits med de ursprungliga Y2-värdena. Gå in under Graph-Scatter plots-simple och beställ plottar av c8 mot c5 och c6 mot c5. Gå också in under Multiple Graphs och välj Overlaid on the same graph så kommer plottarna i samma diagram. Är du nöjd med plotten? Skriv ev. ut plotten. d) Ställ upp det skattade regressionssambandet mellan y2 och x2 under fasen med exponentiell tillväxt, beräkna värdet för tidpunkten 36 och jämför med de observerade värdena. Skriv ut ev. via File: Print Session Window. Fyll i redovisningsbladet och redovisa uppgiften. 6
REDOVISNINGSBLAD Fyll i namn och personnr med bläck. 1)... 2)... Du ska även kunna visa upp plottar och analysresultat för de olika uppgifterna i datorn eller på papper då du redovisar. UPPGIFT 1 a) Skattad korrelation r =... Skattad regressionslinje... b) se( ˆβ 0 ) =... se( ˆβ 1 ) =... Formel s 2 = Frihetsgrad för s 2 :... c) Teststorheten T S =...; rejection region C =... ; H 0 förkastas?... d) Prediktionsintervall för Y 0 då x = 100:... e) Är du nöjd med histogrammet? OK...... UPPGIFT 2 a) s 1 =......... R 2 =......... b) Vad är det för mönster i residualplotten? c) s 2 =......... R 2 =......... d) Är residualplotten OK?... e) Svar:... f) Svar:... Varför? OK...... 7
UPPGIFT 3 a) Vilka förklaringsvariabler ser bäst ut enligt de inledande plottarna?... b) Analys 1 Analys 2 Analys 3 Residualkvadratsumma SS E........................... Frihetsgrad för SS E.................. P-värde för sämsta förkl.var................... Förkl.variabel att ta bort.................. Modell enligt bakåteliminationsmetoden (skriv in den teoretiska modellen inte det skattade regressionsuttrycket):... c) Är du nöjd med residualerna? Verkar det finnas beroende mellan närliggande residualer i plotten mot d?... Förklaring? OK...... UPPGIFT 4 a), b) och c): Diskutera plottarna med handledaren. b1) Samband:............... d) Skattat regressionssamband mellan 10 log y2 och x2 i fas 2:... Skattat regressionssamband mellan y2 och x2 i fas 2:... Förväntat värde för x = 36:... Observerade värden för x = 36:........................... Då alla uppgifterna är godkända ska Du skriva upp Dig på lablistan. OK...... 8