Laboration 4 R-versionen

Relevanta dokument
Laboration 4 Regressionsanalys

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 5 Regressionsanalys

1 Förberedelseuppgifter

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

F13 Regression och problemlösning

Föreläsning 12: Linjär regression

10.1 Enkel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Laboration 2: Styrkefunktion samt Regression

Grundläggande matematisk statistik

Föreläsning 12: Regression

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

LABORATION 3 - Regressionsanalys

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Matematisk statistik för D, I, Π och Fysiker

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Föreläsning G60 Statistiska metoder

Matematisk statistik, Föreläsning 5

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

oberoende av varandra så observationerna är

Datorövning 1 Enkel linjär regressionsanalys

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Regressions- och Tidsserieanalys - F1

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

LABORATION 3 - Regressionsanalys

Matematisk statistik för B, K, N, BME och Kemister

Metod och teori. Statistik för naturvetare Umeå universitet

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Sänkningen av parasitnivåerna i blodet

Statistik 1 för biologer, logopeder och psykologer

Laboration 4: Lineär regression

Obligatorisk uppgift, del 1

Examinationsuppgifter del 2

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

TVM-Matematik Adam Jonsson

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Medicinsk statistik II

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

tentaplugg.nu av studenter för studenter

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Laboration 3: Enkel linjär regression och korrelationsanalys

Instruktioner till arbetet med miniprojekt II

1 Förberedelseuppgifter

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I MATEMATISK STATISTIK

InStat Exempel 4 Korrelation och Regression

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

TAMS65 DATORÖVNING 2

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Statistiska samband: regression och korrelation

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Datorövning 5 Exponentiella modeller och elasticitetssamband

Tentamen Tillämpad statistik A5 (15hp)

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Lektionsanteckningar 11-12: Normalfördelningen

TAMS 28 DATORÖVNING 2

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Linjär regressionsanalys. Wieland Wermke

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 4. Regressionsanalys

MVE051/MSG Föreläsning 14

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Resultatet läggs in i ladok senast 13 juni 2014.

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Medicinsk statistik II

Föreläsning G60 Statistiska metoder

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Transkript:

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 VT13, lp3 Laboration 4 R-versionen Regressionsanalys 2013-03-07

Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns i R vad det gäller korrelations- och regressionsanalys. När ni arbetat er igenom laborationshandledningen fortsätter ni med projektet. 1. Introduktion - Regressionsanalys i R Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. Vi skall börja med att göra en regressionsanalys på följande datamaterial: Datamaterial: För 6 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Längd (cm) Ålder (år) 15 1 30 2 35 3 50 4 55 5 60 6 2 Kan vi påvisa något samband (linjärt) mellan längd och ålder? Inläsning av data. Börja med att mata in data till R. Lägg in värdena i en dataframe, som du döper till torskar, med värdena i två kolumner: Längd och Ålder. torskar <- data.frame(längd=c(15,30,35,50,55,60), Ålder=c(1,2,3,4,5,6)) Datamaterialet skall alltså innehålla 2 kolumner med 6 värden i varje kolumn. a) Beskrivning av data. Börja nu med en grafisk beskrivning av sambandet genom att rita ett spridningsdiagram med Ålder på x-axeln och Längd på y-axeln: plot(torskar$ålder, torskar$längd) Ser det ut som om det kan finnas ett linjärt samband? b) Korrelationer. Vi börjar med att beskriva sambandet mellan variablerna med hjälp av korrelationskoefficienten. Beräkna korrelationskoefficienten (Pearson) och testa om den är skild från noll med cor(torskar$ålder, torskar$längd) cor.test(torskar$ålder, torskar$längd) Tyder resultaten på att det finns något linjärt samband mellan Längd och Ålder? c) Enkel linjär regression. Vi skall nu undersöka hur sambandet mellan variablerna ser ut genom att anpassa en rät linje till data. Kommandot lm(y ~ x) (linear model) anpassar en linjär modell för den beroende variabeln y som funktion av en eller flera förklarande variabler x. Sedan kan vi få ut olika egenskaper hos modellen och skattningarna med ytterligare kommandon: modell <- lm(längd ~ Ålder, data=torskar) modell # skattningarna av beta0 och beta1

3 summary(modell) # mer information, t.ex. signifikanser för skattningarna confint(modell) # konfidensintervall för beta0 och beta1 Gör analysen. Identifiera följande mått i utskriften: r korrelationskoefficienten, r 2 förklaringsgraden, s residualspridningen, de skattade koefficienterna med standardfel, t-test och konfidensintervall. För att få den skattade regressionslinjen utritad i figuren ni skapade i 1 a) kan du använda kommandot abline(modell) d) Prognoser och konfidensintervall. Om man vill använda sin regressionsmodell för att göra prognoser så kan detta enkelt göras efter att man skattat modellen. I R kan man prediktera i samma datamaterial som man använde för att skatta modellen. Då får man en prediktion för varje individ=rad. Man kan också mycket enkelt ange en helt annan uppsättning individer som man vill prediktera för istället. Det är praktiskt när man t.ex. vill rita ut konfidensintervall och prediktionsintervall snyggt. # vi vill prediktera för en ålderssekvens i steg om halvår: 0.5, 1.0, 1.5,, 7.0, 7.5: x0 <- data.frame(ålder=seq(0.5,7.5,0.5)) mu0konf <- predict(modell, x0, interval= confidence ) # konfidensintervall mu0pred <- predict(modell, x0, interval= prediction ) # prediktionsintervall cbind(x0, mu0pred) Vad blir prognosen för längden för en sju år gammal torsk? Vad blir prognosintervallet? För att få intervallen utritade i figur ritar vi linjer med våra prediktionsåldrar på x-axeln och tillhörande intervallgränser på y-axeln. Vi vill dessutom rita konfidensintervallet som streckade blå linjer och prediktionsintervallet som prickade röda: lines(x0$ålder, mu0konf[,lwr], col= blue, lty=2) # undre (lower) gränsen lines(x0$ålder, mu0konf[,upr], col= blue, lty=2) # övre (upper) gränsen lines(x0$ålder, mu0pred[,lwr], col= red, lty=3) lines(x0$ålder, mu0pred[,upr], col= red, lty=3) e) Kontroll av förutsättningar. Vi skall nu kontrollera två av de antagande som finns i analysen. För det första antagandet om normalfördelning och för det andra antagandet om lika varianser. Residualerna beräkna med kommandot res <- residuals(modell) Undersök nu om residualerna är normalfördelade genom att göra en Q-Q-plot (qqnorm). Antagandet om lika varianser (konstant spridning kring linjen) kan vi undersöka genom att plotta residualerna mot Ålder. Gör det! plot(torskar$ålder, res)

2. Datamaterial: Bradfordmetoden. I laborationen Proteinbestämning enligt Bradfordmetoden i kursen cellbiologi undersöktes absorbansen hos prov med olika spädningar av Bovint Serum Albumin (BSA)-standard. Prov med 0-10 μg protein spädes till 100 μl med vatten och två prover förberedes per koncentration. Data för en laborationsgrupp finns i filen Labbdata.RData som du hittar på kursens hemsida. Modell: Enligt Lambert-Beers lag gäller att absorbansen (A) kan beskrivas som en linjär funktion av koncentrationen (c): A=k c där konstanten k beror på ämnets molära absorptionskoefficient vid en viss våglängd samt kyvettens längd. Vid mätningar får man naturligtvis räkna med en viss slumpmässig variation, en rimlig modell är att absorbansen vid mätning nr i, A i, beskrivs linjärt av koncentrationen c i plus ett slumpmässigt fel: A i = β 0 + β 1 c i + e i där e i är oberoende och normalfördelad slumpfel med väntevärde 0 och standardavvikelse σ. Här motsvaras konstanten β 1 av den tidigare k medan β 0 är absorbansen i den lösning som BSA:n är löst. a) Undersök på labbdata om den linjära regressionsmodellen ovan är rimlig att anpassa. b) Hur mycket ökar absorbansen då man ökar koncentrationen en enhet? Ange ett 95 % konfidensintervall för denna storhet c) Vad är genomsnittlig absorbans för prov med koncentration 50 (mg/l). Ange ett 95 % konfidensintervall för denna storhet. d) Vi har ett prov med koncentration 50 (mg/l). Ange ett 95 % prediktionsintervall för absorbansen i just detta prov. e) Huvudsyftet med mätningarna var att erhålla en standardkurva för hur absorbansen påverkas av koncentrationen. Anta att vi på ett prov med okänd koncentration c 0 uppmätte absorbansen 0.43. En skattning av c 0 kan vi få fram genom att lösa ut x ur sambandet 0.43 = β 0 + β 1 x så här (om den anpassade modellen sparats i variabeln modell2): 4 beta0 <- modell2$coefficients[1] beta1 <- modell2$coefficients[2] c0 <- (0.43 beta0) / beta1 c0 Vad blev den skattade koncentrationen? f) Man skulle också vilja ha ett intervall som uppskattar inom vilka gränser c 0 kan ligga ett sådant intervall kallas kalibreringsintervall. Tyvärr kan man inte få det direkt i R. Däremot kan man få en uppfattning om hur brett intervallet är eftersom kalibreringsintervallet är omvändningen till prediktionsintervallet. Om vi beräknar prediktionsintervallet för ett antal koncentrationer kan vi sedan undersöka för vilka koncentrationer som intervallet gränser blir den uppmätta absorbansen 0.43. Vi börjar med att beräkna prediktionsintervallet för koncentrationerna 0, 1,, 100 och rita upp dem samt den linje, y=0.43, som vi vill hitta skärningarna till: x0 <- data.frame(koncentration=seq(0,100)) mu0pred <- predict(modell2, x0, interval= prediction ) plot(labbdata$koncentration, Labbdata$absorbans, ylim=c(0.35, 0.5)) abline(modell2) lines(x0$koncetration, mu0pred[, lwr ], col= red, lty=3)

5 lines(x0$koncetration, mu0pred[, upr ], col= red, lty=3) abline(h=0.43) # horisontell linje på y=0.43 Vi kan försöka hitta skärningarna i figuren men eftersom vi har sparat beräkningarna av prediktionsgränserna kan vi leta där istället. Vi skriver ut koncentrationerna och tillhörande prediktionsintervall: cbind(x0, mu0pred) Leta upp det koncentrationsvärde där övre prediktionsgränsen upr är lika med 0.43 (vi kan kalla det c_lwr eftersom det kommer att bli undre gränsen i kalibreringsintervallet). Leta också upp det koncentrationsvärde där undre prediktionsgränsen lwr är lika med 0.43 (vi kallar denna koncentration för c_upr). c_lwr <-? # skriv dit ditt avlästa värde istället för? c_upr <-? # skriv dit ditt avlästa värde istället för? För att se hur det fungerade lägger vi till kalibreringsintervallet i figuren: abline(v=c_lwr) abline(v=c_upr) # vertikal linje på x=c_lwr # vertikal linje på x=c_upr Vad blev kalibreringsintervallet? Är det användbart? Svar: 1. b) Ja! r p = 0.982 => p=0.000 Det finns ett samband c) r = 0.982; r 2 = 0.964; s = 3.651; β 0=9.333 (3.399); β 1 =9.000 (0.873); t=10.311; p=0.000 d) Prognos vid åldern 7 år = 72.33; PI 58.5 86.2 e) NF: Njä;Konstant varians: Ej helt lätt att bedöma (få värden) 2. b) 0.0008 intervall: 0.00063 0.0011 c) KI 0.425 0.441 d) PI 0.407 0.459 e) c 0 skattas till 47 mg/l f) Intervallet skattas till 15 78; tämligen brett. Sammanfattning R cor(x, y) cor.test(x, y) lm(y ~ x) lm(y ~ x, data=dataframen som innehåller x och y) summary(modell) confint(modell) predict(modell, x0) predict(modell, x0, interval= confidence ) predict(modell, x0, interval= prediction ) residuals(modell) Korrelationskoefficient Test för korrelationskoefficient regression av y som funktion av x i ett visst datamaterial skattningar, signifikanser, etc, konfidensintervall för parametrarna prediction av förväntat värde när x=x0 med konfidensintervall med prediktionsintervall residualer