Lunds tekniska högskola, Matematikcentrum, Matematisk statistik Matematisk statistik kompletterande projekt, FMSF Övning om regression Denna övningslapp behandlar regression och är tänkt som förberedelse inför kursens datorlaboration. Teorin nns i kompendiet Sambandsanalys. Lektionens och datorlaborationens mål: Du ska kunna beskriva modellen enkel linjär regression och de antaganden man gör i den med hjälp av Matlab kunna studera frågeställningar som är intressanta i regressionsmodellen och dra relevanta slutsatser (t.ex. skattning av parametrar och intervall) kunna undersöka om modellen passar bra till data och relatera detta till modellbeskrivningen tolka korrelationskoecienten kunna jämföra lutningarna i två regressionsmodeller i viss mån kunna jämföra olika modeller och välja bland olika modeller för samband mellan variabler EXEMPEL (EMEP-mätningar): Inom det europeiska övervakningsnätet EMEP har man sedan 979 mätt svaveldioxidhalten i luft vid fem olika stationer i Sverige bl.a. för att undersöka eventuella trender i SO -halt. Årsmedelvärdena (µg/m ) från Rörvik i norra Halland och från Hoburgen på södra Gotland är följande (källa: IVL Svenska Miljöinstitutet AB; www.ivl.se/) År: 979 98 98 98 98 98 98 986 987 988 Rörvik:.67.6...78..79..9.8 Hoburgen:..86.8.97..98.96..7.9 År: 989 99 99 99 99 99 99 996 997 998 Rörvik:.69.8.67..9.97.8..6.6 Hoburgen:.8.6.......7.69 I gur nedan är de årsmedelvärdena från de två mätstationerna utritade. Antag att SO -halterna y,... y från Hoburgen kan beskrivas linjärt av tiden, och där slumpfelen tänks vara oberoende och normalfördelade med konstant varians. När man analyserade data i Matlab (kommandot reggui) ck man det resultat som anges i gur.
Matematisk statistik kompletterande projekt, HT-7 Årsmedelhalter av svaveldioxid i luft vid Rörvik svaveldioxidhalt (mu g/m ) 978 98 98 98 986 988 99 99 99 996 998 Årtal Årsmedelhalter av svaveldioxid i luft vid Hoburgen svaveldioxidhalt (mu g/m ) 978 98 98 98 986 988 99 99 99 996 998 Årtal Figure : SO -halt vid Rörvik och Hoburgen hoburgen 7 8 8 9 9 ar Normplot of.9.9..7.. 7 8 9..... Figure : Linjär regressionsmodell anpassad till mätningar från Hoburgen
Matematisk statistik kompletterande projekt, HT-7 Läs i avsnitt. i kompendiet Sambandsanalys om modellantaganden. Om y är SO - halt och t är tiden, formulera en linjär regressionsmodell för data från Hoburgen. Tolkning av modellens parametrar: Vad är tolkningen av parametrarna α och β generellt i en linjär regressionsmodell? Vad blir tolkningen i SO -exemplet? Tolkning av modellens σ: Vad innebär det om data om σ är stort? Vad innebär det om σ är litet? Tolkning av den antagna fördelningen: I modellen antas att variationen kring linjen är normalfördelad, se gur i kompendiet. Vad är alltså fördelningen för SO -halten som vi observerar ett specikt år, t.ex. 99? Skattning av parametrar: Vad är skattningarna av de angivna parametrarna α, β och σ i SO -data från Hoburgen? 6 Kondensintervall för parametrar: Ange kondensintervallen för α och β i SO - exemplet. Vad kan du dra för slutsatser från intervallet för β? 7 Läs om residualer i avsnitt.8. Vad är en residual? Hur ser de ut om den ansatta modellen är rimlig? Vad ger de två undre gurerna i SO -exemplet ovan för information? 8 Kondensintervall för en punkt på linjen och prediktionsintervall för enstaka observation: Läs avsnitten. och.6 om kondensintervall för µ, linjens läge vid x, samt om prediktionsintervall för observationen y vid x-värdet x. Det är viktigt att man skiljer de två olika intervalltyperna åt. Antag att man är intresserad av vad den förväntade SO -halten var år 99, vilket av de två intervallen ska man titta på då? Hur får man detta intervall utifrån guren ovan? Antag att vi är intresserade av att prognosticera vad uppmätt SO -halt kan vara för värde år 999. Vilket av de två intervallen ska man titta på då och hur får man detta intervall utifrån guren ovan? 9 Vad är modellens förklaringsgrad? Hur tolkar ni den? Vad är korrelationskoecienten r mellan x-variabeln (år) och y-variabeln (SO -halt)? Gör uppgiften om blodtryck nedan. Åter till SO -data: I gur ges motsvarande analys på data från Rörvik. Man är intresserad av att unersöka om den årliga förändringen i svaveldioxid den samma vid de båda mätstationerna? Vilka två parametrar i modellerna vill man alltså jämföra? I avsnitt. i kompendiet nns beskrivet hur man kan jämföra lutningarna i två regressionssamband. Det intressanta kondensintervallet nns längst ner på sidan 9 och en del av er kommer att arbeta med det i ert Miniprojekt II. För data från Rörvik och Hoburgen är följande kvadratsummor beräknade S tt = (t i t) S ty = (t i t)(y i ȳ) S yy = (y i ȳ) Rörvik 66.. Hoburgen 66 89.8.699 Använd dessa för att undersöka om den årliga förändringen i svaveldioxid den samma vid de båda mätstationerna. Svar: I βr β h = (.6,.8)
Matematisk statistik kompletterande projekt, HT-7 6 rorvik 7 8 8 9 9 ar Normplot of.9.9..7.. 7 8 9..... Figure : Linjär regressionsmodell anpassad till data från Rörvik Regressionsuppgift I en studie av riskfaktorer för typ- diabetes undersöktes män i åldern år. Nedan ges värden på diastoliskt blodtryck och ålder för ett urval av av dessa män: Ålder (år) 8 9 7 Blodtryck (mm Hg) 7 8 7 6 8 7 9 9 8 Ålder (år) 9 Blodtryck (mm Hg) 8 9 7 8 7 8 7 9 8 8 Ålder (år) 6 7 8 8 8 7 7 9 Blodtryck (mm Hg) 8 7 8 7 8 9 7 8 8 Man analyserade data enligt enkel linjär regression och ck följande datorutskrifter. Skattning 9% intervall P-värde Konstant. (.6, 8.). Ålder.87 (.,.7).9 (a) Ange den antagna modellen. (b) Motivera varför det är rimligt att anta denna modell. (c) Ange det skattade regressionssambandet. (d) Hur mycket ökar blodtrycket, i genomsnitt, när en man blir ett år äldre i det aktuella åldersintervallet? Uppskatta ett lämpligt intervall. Verkar åldern påverka blodtrycket? Motivera ditt svar.
Matematisk statistik kompletterande projekt, HT-7 9 blodtryck 8 7 6 6 alder Normplot of.999.997.98.99.9.9.7........ Figure : Överst skattad linje med 9% kondensintervall för linjen samt prediktionsintervall för enskilda värden; nederst till vänster ses en residualplot mot ålder; nederst till höger visas residualer i normalfördelningsdiagram (e) Vad är det förväntade blodtrycket hos en -årig man? Uppskatta ett lämpligt intervall. (f) Du ska mäta blodtrycket på -årige Anders. Uppskatta mellan vilka värden hans blodtryck kommer att ligga med 9% sannolikhet. (g) Blodtrycket påverkas naturligtvis även av andra faktorer än ålder uppskatta hur stor del av variationen i blodtrycket vi förklarat med faktorn ålder? (h) I materialet fanns mätningar på tre -åringar. Använd enbart dessa tre mätningar för att göra ett 9% kondensintervall för förväntad blodtryck hos en -åring. Jämför och diskutera skillnader med det intervall du gjorde i deluppgift (e).