Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Relevanta dokument
oberoende av varandra så observationerna är

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Instruktioner till arbetet med miniprojekt II

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 12: Linjär regression

Laboration 2: Styrkefunktion samt Regression

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

F13 Regression och problemlösning

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Föreläsning 12: Regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 4 R-versionen

LABORATION 3 - Regressionsanalys

Föreläsning 13: Multipel Regression

Matematisk statistik, Föreläsning 5

MVE051/MSG Föreläsning 14

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Regressions- och Tidsserieanalys - F1

LABORATION 3 - Regressionsanalys

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

10.1 Enkel linjär regression

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Laboration 4 Regressionsanalys

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Tentamen för kursen. Linjära statistiska modeller. 13 januari

TAMS65 - Seminarium 4 Regressionsanalys

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Regressions- och Tidsserieanalys - F1

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Grundläggande matematisk statistik

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Instruktioner till arbetet med miniprojekt II

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik för B, K, N, BME och Kemister

Lycka till!

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1 Förberedelseuppgifter

LKT325/LMA521: Faktorförsök

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Laboration 4: Lineär regression

Matematisk statistik för B, K, N, BME och Kemister

1 Förberedelseuppgifter

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Medicinsk statistik II

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning 7: Punktskattningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 15: Faktorförsök

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Statistik B Regressions- och tidsserieanalys Föreläsning 1

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Resultatet läggs in i ladok senast 13 juni 2014.

Föreläsning 7: Punktskattningar

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

tentaplugg.nu av studenter för studenter

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Höftledsdysplasi hos dansk-svensk gårdshund

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Lektionsanteckningar 11-12: Normalfördelningen

Läs noggrant informationen nedan innan du börjar skriva tentamen

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Finansiell statistik. Multipel regression. 4 maj 2011

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Härledning av Black-Littermans formel mha allmänna linjära modellen

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Laboration 5: Regressionsanalys

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Räkneövning 4. Om uppgifterna. 1 Uppgift 1. Statistiska institutionen Uppsala universitet. 14 december 2016

Tentamentsskrivning: Matematisk statistik TMA Tentamentsskrivning i Matematisk statistik TMA321, 4.5 hp.

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Transkript:

Lunds tekniska högskola, Matematikcentrum, Matematisk statistik Matematisk statistik kompletterande projekt, FMSF Övning om regression Denna övningslapp behandlar regression och är tänkt som förberedelse inför kursens datorlaboration. Teorin nns i kompendiet Sambandsanalys. Lektionens och datorlaborationens mål: Du ska kunna beskriva modellen enkel linjär regression och de antaganden man gör i den med hjälp av Matlab kunna studera frågeställningar som är intressanta i regressionsmodellen och dra relevanta slutsatser (t.ex. skattning av parametrar och intervall) kunna undersöka om modellen passar bra till data och relatera detta till modellbeskrivningen tolka korrelationskoecienten kunna jämföra lutningarna i två regressionsmodeller i viss mån kunna jämföra olika modeller och välja bland olika modeller för samband mellan variabler EXEMPEL (EMEP-mätningar): Inom det europeiska övervakningsnätet EMEP har man sedan 979 mätt svaveldioxidhalten i luft vid fem olika stationer i Sverige bl.a. för att undersöka eventuella trender i SO -halt. Årsmedelvärdena (µg/m ) från Rörvik i norra Halland och från Hoburgen på södra Gotland är följande (källa: IVL Svenska Miljöinstitutet AB; www.ivl.se/) År: 979 98 98 98 98 98 98 986 987 988 Rörvik:.67.6...78..79..9.8 Hoburgen:..86.8.97..98.96..7.9 År: 989 99 99 99 99 99 99 996 997 998 Rörvik:.69.8.67..9.97.8..6.6 Hoburgen:.8.6.......7.69 I gur nedan är de årsmedelvärdena från de två mätstationerna utritade. Antag att SO -halterna y,... y från Hoburgen kan beskrivas linjärt av tiden, och där slumpfelen tänks vara oberoende och normalfördelade med konstant varians. När man analyserade data i Matlab (kommandot reggui) ck man det resultat som anges i gur.

Matematisk statistik kompletterande projekt, HT-7 Årsmedelhalter av svaveldioxid i luft vid Rörvik svaveldioxidhalt (mu g/m ) 978 98 98 98 986 988 99 99 99 996 998 Årtal Årsmedelhalter av svaveldioxid i luft vid Hoburgen svaveldioxidhalt (mu g/m ) 978 98 98 98 986 988 99 99 99 996 998 Årtal Figure : SO -halt vid Rörvik och Hoburgen hoburgen 7 8 8 9 9 ar Normplot of.9.9..7.. 7 8 9..... Figure : Linjär regressionsmodell anpassad till mätningar från Hoburgen

Matematisk statistik kompletterande projekt, HT-7 Läs i avsnitt. i kompendiet Sambandsanalys om modellantaganden. Om y är SO - halt och t är tiden, formulera en linjär regressionsmodell för data från Hoburgen. Tolkning av modellens parametrar: Vad är tolkningen av parametrarna α och β generellt i en linjär regressionsmodell? Vad blir tolkningen i SO -exemplet? Tolkning av modellens σ: Vad innebär det om data om σ är stort? Vad innebär det om σ är litet? Tolkning av den antagna fördelningen: I modellen antas att variationen kring linjen är normalfördelad, se gur i kompendiet. Vad är alltså fördelningen för SO -halten som vi observerar ett specikt år, t.ex. 99? Skattning av parametrar: Vad är skattningarna av de angivna parametrarna α, β och σ i SO -data från Hoburgen? 6 Kondensintervall för parametrar: Ange kondensintervallen för α och β i SO - exemplet. Vad kan du dra för slutsatser från intervallet för β? 7 Läs om residualer i avsnitt.8. Vad är en residual? Hur ser de ut om den ansatta modellen är rimlig? Vad ger de två undre gurerna i SO -exemplet ovan för information? 8 Kondensintervall för en punkt på linjen och prediktionsintervall för enstaka observation: Läs avsnitten. och.6 om kondensintervall för µ, linjens läge vid x, samt om prediktionsintervall för observationen y vid x-värdet x. Det är viktigt att man skiljer de två olika intervalltyperna åt. Antag att man är intresserad av vad den förväntade SO -halten var år 99, vilket av de två intervallen ska man titta på då? Hur får man detta intervall utifrån guren ovan? Antag att vi är intresserade av att prognosticera vad uppmätt SO -halt kan vara för värde år 999. Vilket av de två intervallen ska man titta på då och hur får man detta intervall utifrån guren ovan? 9 Vad är modellens förklaringsgrad? Hur tolkar ni den? Vad är korrelationskoecienten r mellan x-variabeln (år) och y-variabeln (SO -halt)? Gör uppgiften om blodtryck nedan. Åter till SO -data: I gur ges motsvarande analys på data från Rörvik. Man är intresserad av att unersöka om den årliga förändringen i svaveldioxid den samma vid de båda mätstationerna? Vilka två parametrar i modellerna vill man alltså jämföra? I avsnitt. i kompendiet nns beskrivet hur man kan jämföra lutningarna i två regressionssamband. Det intressanta kondensintervallet nns längst ner på sidan 9 och en del av er kommer att arbeta med det i ert Miniprojekt II. För data från Rörvik och Hoburgen är följande kvadratsummor beräknade S tt = (t i t) S ty = (t i t)(y i ȳ) S yy = (y i ȳ) Rörvik 66.. Hoburgen 66 89.8.699 Använd dessa för att undersöka om den årliga förändringen i svaveldioxid den samma vid de båda mätstationerna. Svar: I βr β h = (.6,.8)

Matematisk statistik kompletterande projekt, HT-7 6 rorvik 7 8 8 9 9 ar Normplot of.9.9..7.. 7 8 9..... Figure : Linjär regressionsmodell anpassad till data från Rörvik Regressionsuppgift I en studie av riskfaktorer för typ- diabetes undersöktes män i åldern år. Nedan ges värden på diastoliskt blodtryck och ålder för ett urval av av dessa män: Ålder (år) 8 9 7 Blodtryck (mm Hg) 7 8 7 6 8 7 9 9 8 Ålder (år) 9 Blodtryck (mm Hg) 8 9 7 8 7 8 7 9 8 8 Ålder (år) 6 7 8 8 8 7 7 9 Blodtryck (mm Hg) 8 7 8 7 8 9 7 8 8 Man analyserade data enligt enkel linjär regression och ck följande datorutskrifter. Skattning 9% intervall P-värde Konstant. (.6, 8.). Ålder.87 (.,.7).9 (a) Ange den antagna modellen. (b) Motivera varför det är rimligt att anta denna modell. (c) Ange det skattade regressionssambandet. (d) Hur mycket ökar blodtrycket, i genomsnitt, när en man blir ett år äldre i det aktuella åldersintervallet? Uppskatta ett lämpligt intervall. Verkar åldern påverka blodtrycket? Motivera ditt svar.

Matematisk statistik kompletterande projekt, HT-7 9 blodtryck 8 7 6 6 alder Normplot of.999.997.98.99.9.9.7........ Figure : Överst skattad linje med 9% kondensintervall för linjen samt prediktionsintervall för enskilda värden; nederst till vänster ses en residualplot mot ålder; nederst till höger visas residualer i normalfördelningsdiagram (e) Vad är det förväntade blodtrycket hos en -årig man? Uppskatta ett lämpligt intervall. (f) Du ska mäta blodtrycket på -årige Anders. Uppskatta mellan vilka värden hans blodtryck kommer att ligga med 9% sannolikhet. (g) Blodtrycket påverkas naturligtvis även av andra faktorer än ålder uppskatta hur stor del av variationen i blodtrycket vi förklarat med faktorn ålder? (h) I materialet fanns mätningar på tre -åringar. Använd enbart dessa tre mätningar för att göra ett 9% kondensintervall för förväntad blodtryck hos en -åring. Jämför och diskutera skillnader med det intervall du gjorde i deluppgift (e).