Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Relevanta dokument
Laboration 4 R-versionen

Laboration 4 Regressionsanalys

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 5 Regressionsanalys

1 Förberedelseuppgifter

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Linjär regression

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

10.1 Enkel linjär regression

Föreläsning 12: Regression

Laboration 2: Styrkefunktion samt Regression

F13 Regression och problemlösning

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematisk statistik, Föreläsning 5

LABORATION 3 - Regressionsanalys

Grundläggande matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Regressions- och Tidsserieanalys - F1

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Föreläsning G60 Statistiska metoder

Regressions- och Tidsserieanalys - F1

Examinationsuppgifter del 2

oberoende av varandra så observationerna är

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Metod och teori. Statistik för naturvetare Umeå universitet

Matematisk statistik för B, K, N, BME och Kemister

1 Grundläggande begrepp vid hypotestestning

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

TVM-Matematik Adam Jonsson

LABORATION 3 - Regressionsanalys

Laboration 3: Enkel linjär regression och korrelationsanalys

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Laboration 4: Lineär regression

Datorövning 1 Enkel linjär regressionsanalys

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Obligatorisk uppgift, del 1

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Instruktioner till arbetet med miniprojekt II

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

TAMS65 DATORÖVNING 2

Sänkningen av parasitnivåerna i blodet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

InStat Exempel 4 Korrelation och Regression

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

tentaplugg.nu av studenter för studenter

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen i Matematisk statistik Kurskod S0001M

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning G60 Statistiska metoder

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Medicinsk statistik II

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

TENTAMEN I MATEMATISK STATISTIK

Regressionsanalys av lägenhetspriser i Spånga

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

1 Förberedelseuppgifter

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

TENTAMEN I MATEMATISK STATISTIK

Lektionsanteckningar 11-12: Normalfördelningen

Laboration 2 multipel linjär regression

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Laboration 4: Hypotesprövning och styrkefunktion

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Datorövning 5 Exponentiella modeller och elasticitetssamband

Transkript:

Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta dig med lite av de funktioner som finns i R vad det gäller korrelations- och regressionsanalys arbeta med Miniprojekt II. Förberedelseuppgifter Du måste ha arbetat ordentligt med de väsentligaste begreppen i kapitlet om regression i kursboken. Repetera vid behov begreppen +emphregresionslinje, residualer, konfidensintervall för förväntat värde samt prediktionsintervall. Du skall ha gjort följande uppgift innan du kommer till laborationen. Hemuppgift 1: Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). 1 Introduktion - regressionsanalys i R 1.1 Datamaterial: torskar För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Fisk 1 2 3 4 5 6 7 8 9 10 Längd (cm) 15 30 35 50 55 60 58 25 12 43 Ålder (år) 1 2 3 4 5 6 5 2 1 4 Kan vi påvisa något (linjärt) samband mellan längd och ålder? Inläsning av data Börja med att mata in data till R. Lägg in värdena i en dataframe, som du döper till torskar, med värdena i två kolumner: Längd och Ålder: torskar <- data.frame(längd=c(15,30,35,50,55,60,58,25,12,43), Ålder=c(1,2,3,4,5,6,5,2,1,4)) Datamaterialet skall alltså innehålla 2 kolumner med 10 värden i varje kolumn.

Beskrivning av data Gör en grafisk beskrivning av sambandet genom att rita ett spridningsdiagram med Ålder på x-axeln och Längd på y-axeln: plot(torskar$ålder, torskar$längd) Ser det ut som det finns ett linjärt samband? Korrelationer Vi börjar med att beskriva sambandet mellan variablerna med hjälp av korrelationskoefficienten. Beräkna korrelationskoefficienten (Pearson) och testa om den är skild från noll med cor(torskar$ålder, torskar$längd) cor.test(torskar$ålder, torskar$längd) Uppgift 1.1: Tyder resultaten på att det finns något linjärt samband mellan Längd och Ålder? Enkel linjär regression Vi skall nu undersöka hur sambandet mellan variablerna ser ut genom att anpassa en rät linje till data. Kommandot lm(y x) anpassar en linjär modell för den beroende variabeln y som funktion av en eller flera förklarande variabler x (lm är förkortning av linear model). Sedan kan vi få ut olika egenskaper hos modellen och skattningarna med ytterligare kommandon: modell <- lm(längd ~ Ålder, data=torskar) modell # skattningarna av beta0 och beta1 summary(modell) # mer information, t.ex. signifikanser för skattningarna confint(modell) # konfidensintervall för beta0 och beta1 Uppgift 1.2: Gör analysen. Identifiera följande mått i utskriften: r korrelationskoefficienten, R 2 förklaringsgraden, s - residualspridningen, de skattade koefficienterna med standardfel, t-test och konfidensintervall. För att få den skattade regressionslinjen utritad i figuren ni skapade tidigare kan du använda kommandot abline(modell) Prognoser och konfidensintervall Om man vill använda sin regressionsmodell för att göra prognoser så kan detta enkelt göras efter att man skattat modellen. I R kan man prediktera i samma datamaterial som man använde för att 2

skatta modellen. Då får man en prediktion för varje individ=rad. Man kan också mycket enkelt ange en helt annan uppsättning individer som man vill prediktera för istället. Det är praktiskt när man t.ex. vill rita ut konfidensintervall och prediktionsintervall snyggt. # vi vill prediktera för en ålderssekvens i steg om halvår: # 0.5, 1.0, 1.5,..., 7.0, 7.5: x0 <- data.frame(ålder=seq(0.5,7.5,0.5)) mu0konf <- predict(modell, x0, interval=confidence) # konfidensintervall mu0pred <- predict(modell, x0, interval=prediction) # prediktionsintervall cbind(x0, mu0pred) Uppgift 1.3: Vad blir prognosen för längden för en sju år gammal torsk? Vad blir prognosintervallet? För att få intervallen utritade i figur ritar vi linjer med våra prediktionsåldrar på x-axeln och tillhörande intervallgränser på y-axeln. Vi vill dessutom rita konfidensintervallet som streckade blå linjer och prediktionsintervallet som prickade röda: lines(x0$ålder, mu0konf[,lwr], col=blue, lty=2) lines(x0$ålder, mu0konf[,upr], col=blue, lty=2) lines(x0$ålder, mu0pred[,lwr], col=red, lty=3) lines(x0$ålder, mu0pred[,upr], col=red, lty=3) # undre (lower) gränsen # övre (upper) gränsen Kontroll av förutsättningar Vi skall nu kontrollera två av de antagande som finns i analysen. För det första antagandet om normalfördelning och för det andra antagandet om lika varianser. Residualerna beräkna med kommandot res <- residuals(modell) Undersök nu om residualerna är normalfördelade genom att göra en Q-Q-plot (qqnorm). Antagandet om lika varianser (konstant spridning kring linjen) kan vi undersöka genom att plotta residualerna mot Ålder. plot(torskar$ålder, res) Uppgift 1.4: Verkar antagandena om normalfördelning och konstant varians uppfyllda? 1.2 Datamaterial: Bradfordmetoden I laborationen Proteinbestämning enligt Bradford-metoden i kursen cellbiologi undersöktes absorbansen hos prov med olika spädningar av Bovint Serum Albumin (BSA)-standard. Prov med 0 10 μg protein spädes till 100 μl med vatten och två prover förberedes per koncentration. 3

Data för en laborationsgrupp finns i filen Labbdata.RData som du hittar på kursens hemsida. Modell: Enligt Lambert-Beers lag gäller att absorbansen (A) kan beskrivas som en linjär funktion av koncentrationen (c): A = k c där konstanten k beror på ämnets molära absorptionskoefficient vid en viss våglängd samt kyvettens längd. Vid mätningar får man naturligtvis räkna med en viss slumpmässig variation, en rimlig modell är att absorbansen vid mätning nr i, A i, beskrivs linjärt av koncentrationen ci plus ett slumpmässigt fel: A i = β 0 + β 1 c i + ε i där ε i är oberoende och normalfördelad slumpfel med väntevärde 0 och standardavvikelse σ. Här motsvaras konstanten β 1 av den tidigare k medan β 0 är absorbansen i den lösning som BSA:n är löst. Uppgift 1.5: Undersök på labbdata om den linjära regressionsmodellen ovan är rimlig att anpassa. Uppgift 1.6: Hur mycket ökar absorbansen då man ökar koncentrationen en enhet? Ange ett 95 % konfidensintervall för denna storhet. Uppgift 1.7: Vad är genomsnittlig absorbans för prov med koncentration 50 (mg/l). Ange ett 95 % konfidensintervall för denna storhet. Skapa först en dataframe där värdet för koncentrationen läggs in: x50 <- data.frame(koncentration=c(50)) mu50konf <- predict(modell2,x50,interval="confidence") Uppgift 1.8: Vi har ett prov med koncentration 50 (mg/l). Ange ett 95 % prediktionsintervall för absorbansen i just detta prov. Huvudsyftet med mätningarna var att erhålla en standardkurva för hur absorbansen påverkas av koncentrationen. Anta att vi på ett prov med okänd koncentration c 0 uppmätte absorbansen 0.43. En skattning av c 0 kan vi få fram genom att lösa ut x ur sambandet 0.43 = β 0 + β 1 x så här (om den anpassade modellen sparats i variabeln modell2): beta0 <- modell2$coefficients[1] beta1 <- modell2$coefficients[2] c0 <- (0.43 beta0) / beta1 c0 Uppgift 1.9: Vad blev den skattade koncentrationen? 4

Fortsätt med att göra klart Miniprojekt II, se laboration 3 Svar 1.1 Ja! r = 0.9828, t = 15.0709; P-värde=0.000 Man kan förkasta hypotesen om inget samband 1.2 R 2 = 0.966; r = 0.9828; s = 3.443; β 0 = 5.993(2.4044); β 1 = 9.790(0.6496); t = 15.071; p = 3.72 10 7 1.3 Prognos vid åldern 7 år = 74.52; prediktionsintervall är (64.52, 84.53) 1.4 NF: Njä; Konstant varians: Ej helt lätt att bedöma (få värden) 1.6 0.0008 intervall: (0.00063, 0.0011) 1.7 konfidensintervall: (0.425, 0.441) 1.8 prediktionsintervall: (0.407, 0.459) 1.9 c 0 skattas till 47 mg/l Sammanfattning R cor(x, y) Korrelationskoefficient cor.test(x, y) Test för korrelationskoefficient lm(y ~ x) Regression av y som funktion av x lm(y ~ x, data=dataframen som innehåller x och y)... i ett visst datamaterial summary(modell) Skattningar, signifikanser, etc, confint(modell) Konfidensintervall för parametrarna predict(modell, x0) Prediction av förväntat värde när x=x0 predict(modell, x0, interval=confidence)... med konfidensintervall predict(modell, x0, interval=prediction)... med prediktionsintervall residuals(modell) Residualer 5