1 Förberedelseuppgifter



Relevanta dokument
Laboration 2: Styrkefunktion samt Regression

6 Skattningar av parametrarna i en normalfördelning

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 4 R-versionen

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 4: Lineär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Laboration 4 Regressionsanalys

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

1 Förberedelseuppgifter

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Matematisk statistik för D, I, Π och Fysiker

Laboration 5: Regressionsanalys

10.1 Enkel linjär regression

oberoende av varandra så observationerna är

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

F13 Regression och problemlösning

Datorövning 5 Regression

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

LABORATION 3 - Regressionsanalys

Föreläsning 12: Linjär regression

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Instruktioner till arbetet med miniprojekt II

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

TVM-Matematik Adam Jonsson

Matematisk statistik, Föreläsning 5

Matematisk statistik för B, K, N, BME och Kemister

LABORATION 3 - Regressionsanalys

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Grundläggande matematisk statistik

Föreläsning 15, FMSF45 Multipel linjär regression

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Bayesiansk statistik, 732g43, 7.5 hp

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 13: Multipel Regression

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Statistik B Regressions- och tidsserieanalys Föreläsning 1

bli bekant med summor av stokastiska variabler.

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Resultatet läggs in i ladok senast 13 juni 2014.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning G60 Statistiska metoder

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Matematisk statistik för B, K, N, BME och Kemister

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Laboration 2 multipel linjär regression

Datorövning 1: Fördelningar

Datorövning 1 Fördelningar

Avd. Matematisk statistik

Medicinsk statistik II

Föreläsning G60 Statistiska metoder

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Thomas Önskog 28/

Lycka till!

Sänkningen av parasitnivåerna i blodet

TAMS65 DATORÖVNING 2

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

TAMS65 - Seminarium 4 Regressionsanalys

Enkel linjär regression

InStat Exempel 4 Korrelation och Regression

Datorövning 5 Exponentiella modeller och elasticitetssamband

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Enkel och multipel linjär regression

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Datorövning 1 Enkel linjär regressionsanalys

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Regressions- och Tidsserieanalys - F4

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 26 november 2015 Sida 1 / 28

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Metod och teori. Statistik för naturvetare Umeå universitet

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 2 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02 Syfte: Syftet med dagens laborationen är att du skall: bli mer förtrogen med regressionsanalysen. undersöka modellen enkel linjär regression och hur de olika parametrarna i modellen påverkar data. träna på att anpassa regressionsmodellerna och använda de resulterande modellerna för prediktion och kalibrering. få förståelse för begreppet residualer. arbeta med polynomregression och förstå hur denna modell relaterar till modellen för multipel linjär regression. Kurskompendium: Olbjer kap 10, 11.1 11.7, 11.9 1 Förberedelseuppgifter Till laborationens start har du med dig lösningar till uppgifterna nedan. Godkända uppgifter är ett krav för att bli godkänd på laborationen. 1. Antag att givet är talpar (x i, y i ), i=1,...,10 där man anser att sambandet mellan x och y är linjärt. Modellen är y i = α + βx i + ε i där ε i är oberoende observationer från N ( 0, σ 2). (a) Vad är den grafiska tolkningen av α och β i modellen? (b) Residualanalys är ett viktigt instrument vid analys av regressionsmodeller. Hur definieras residualerna i ovanstående modell? (c) Skattningen av σ 2 i modellen bygger på residualerna. Hur ser skattningen ut? (d) Vad är skillnaden mellan konfidensintervallet och prediktionsintervallet i en regressionsmodell? Använd gärna ett konkret exempel för att klargöra skillnaden. (e) Vid kalibrering vill man för ett givet värde på y, y 0, skaffa ett intervall för motsvarande x 0. Visa grafiskt hur detta kan göras utgånde från ett prediktionsintervall. 2. Antag att y, responsvariabeln, beror linjärt av två oberoende variabler x 1 och x 2. Vid 10 olika försök har man noterat (x 1, x 2, y). Modellen är nu y i = β 0 +β 1 x 1i +β 2 x 2i +ε i, i = 1,..., 10 och där ε i är oberoende observationer från N ( 0, σ 2) som tidigare. (a) Ange matriserna i matrisformuleringen av modellen. (b) Vad menas med att x-variablerna är kolinjära? (c) Hur ser modellen ut vid polynomregression? Läs igenom hela handledningen före laborationstillfället. Notera vilka resultat och figurer du behöver till den muntliga redovisningen.

2 Laboration 2, Matstat B, K, N, BME och Kemister, HT-15 2 Enkel linjär regression Illustration av modell: I ett enkelt simuleringsexperiment ska du undersöka hur värdet på σ påverkar modellen och de slutsatser man kan dra från data. (För att ge illustrativa bilder ges fullständiga Matlab kommandon i denna del av laborationen.) Skapa en vektor x med värden 1, 2,..., 10 och en variabel y som erhålls genom det teoretiska linjära sambandet y=α+βx, där α och β är kända. Välj t ex y=10+2x. Till variabeln y adderas två uppsättningar av normalfördelade mätfel N ( 0, σ 2) med olika värden på σ, förslagsvis σ=1 och σ=5. >> x=[1:10] >> y1=10+2*x+normrnd(0,1,10,1); >> y2=10+2*x+normrnd(0,5,10,1); Vektorn y1 består alltså nu av 10 observationer från N ( 10 + 2x, 1 2) medan y2 består av 10 observationer från N ( 10 + 2x, 5 2). Titta på data i samma diagram och jämför. >> plot(x,10+2*x) >> hold on >> plot(x,y1, x ) >> plot(x,y2, o ) För att skatta regressionslinjen och titta på residualerna utnyttjar vi den specialskrivna m-filen reggui. >> reggui(x,y1) >> reggui(x,y2) Titta på residualerna för de båda linjerna. Hur påverkas de av värdet på σ? I figurerna som alstras av reggui ges även skattningar och konfidensintervall för modellens parametrar. Jämför de erhållna intervallen med de sanna värdena på α och β; täcker intervallen över parametrarna? Matlabs egen inbyggda regressionsrutin I Matlab finns en inbyggd funktion för regressionsanalys, regress, som kan användas vid multipel linjär regression (och därmed förstås även vid enkel linjär regression). Observera att reggui endast kan användas vid enkel linjär regression samt vid polynomregression som är ett specialfall av multipel linjär regression. Pröva hjälpkommandot help regress för att ta reda på hur in- och utargumenten ser ut. Använd regress för att skatta en av de två regressionslinjerna ovan. Då måste vi först bilda matrisen X som är en (10 2) matris med första kolumnen enbart ettor och andra kolumnen bestående av x-värdena. >> X=[ones(10,1) x] >> [b bint r]=regress(y1,x,0.05) Utargumentet bint ger konfidensintervall för parametrarna α och β (med konfidensgrad 0.95 här ovan). Kontrollera att de erhållna skattningarna och intervallen stämmer med de du fick från reggui.

Laboration 2, Matstat B, K, N, BME och Kemister, HT-15 3 3 Kalibreringskurva Man vill göra en kalibreringskurva för en kalorimetrisk analys av fluorjoner i vatten och mäter därför transmittansen två oberoende gånger för ett antal kända koncentrationer av fluorjoner. Resultat (finns i fil kalibrer.mat). Eftersom vi har två mätningar per koncentration (x-värde) måste koncentrations vektorn replikeras innan vi kan göra en regression: >> x = [Konc ; Konc ]; >> y = [Trans(1,:) ; Trans(2,:) ]; Pröva att anpassa en enkel linjär regressionsmodell till data med hjälp av reggui (observera att reggui behöver ej den inledande kolumnen av ettor) Verifiera att modellen är rimlig genom att titta på residualerna. Prediktion: Vad är den förväntade transmittansen då fluorkoncentrationen är 5.0? Vad är motsvarande 95% prediktionsintervall? Kalibrering (invers prediktion): Då man i framtiden ska använda linjen som kalibreringskurva, vill man till ett värde y bestämma ett intervall som med 95% sannolikhet täcker provets verkliga halt. Skatta ett 95% intervall för fluorkoncentrationen då man för ett prov med okänd koncentration avläst trans=82.8. Kalibreringsintervallet ovan basera på en mätning av transmittansen och ges av Ix 0 = x 0 s ± t α/2 (n 2) β 1 + 1 n + (x 0 x)2 där x0 = ȳ0 α S xx β från formelsamlingen. För att minska osäkerheten i kalibreringsintervallet görs 10 mätningar av transmittansen (observationerna finns i vectorn obs). För att ta hänsyn till flera mätningar av y får kalibreringsintervallet i formelsamlingen modifieras något till: Ix 0 = x 0 s ± t α/2 (n 2) β 1 k + 1 n + (x 0 x)2 där x0 = ȳ0 α β där 1 k under kvadratroten tidigare var 1. k är här antalet observerade y-värden. Använd detta, eller matlab-kommandot kalibk för att göra ett kalibreringsintervall baserat 3 eller 10 av värdena i obs. Hur ändras kalibreringsintervallet vid fler observationer? 4 Exponentiella samband Provfiske har genomförs i Bolmen sedan 1967, vid provfiskning undersöks förekomsten av olika arter, deras vikt och längd samt halten av olika miljögifter i fisken (kvicksilver, kadmium, PCB, dioxiner, etc). Filen BolmenGadda.mat innehåller längd (cm) och vikt (g) för 183 gäddor från Bolmen. Vi vill undersöka om det finns ett samband mellan längd och vikt. Börja med att plotta vikt som funktion av längd hos gäddorna >> plot(langd,vikt,. ) S xx

4 Laboration 2, Matstat B, K, N, BME och Kemister, HT-15 Använd reggui för att undersöka om modellen Vikt = α + βlangd + ε ε N ( 0, σ 2) är rimlig för data. Ett bättre alternativ kan vara att använda ett log-log samband Vikt = alangd k ε log Vikt } {{ } y = log a + }{{} }{{} k α β log Langd + log ε log ε N ( 0, σ 2) } {{ } x För att undersöka sambandet kan man plotta data i ett loglog-diagram >> loglog(langd,vikt,. ) Använd reggui för att undersöka den nya modellens lämplighet. Beräkna (med reggui s hjälp) den predikterade vikten och ett 95% procentigt prediktionsintervall för vikten hos fiskar som är 58 cm långa. Spara värdena i två lämpliga variabler (ersätt? nedan med lämpliga värden) >> yhat58 =?; >> predi58 = [??]; För att kunna jämföra modellen med data i sin naturliga skala sparar vi parametrarna från reggui, konstruerar en vektor med längder från den minsta till den största fisken >> v = linspace(min(langd), max(langd), 100); och plottar både data och den anpassade modellen (ersätt? med det skattade sambandet mellan längd och vikt) >> plot(langd,vikt,., v,?, r ) Genom att plotta prediktionen för vikten då Langd = 58 i samma figur kan vi undersöka hur intervallbredden stämmer med spridningen i data. >> hold on %lägg till fler linjer i en existerande figur >> plot(58, yhat58, *r ) %har du kommit ihåg att transformera? >> plot(58, predi58, +r ) 5 Polynomregression ett specialfall av multipel linjär regression Kontroll av cyanid Följande problem presenteras i Meier & Zund: Statistical methods in analytical chemistry. Vid en kemisk industri ville man utveckla en metod för att undersöka mängden av cyanid (CN ) i avloppsvattnet. I litteraturen fann man en fotometrisk metod som verkade vara lämplig och nästa steg var att finna en lämplig kalibreringsfunktion. En cyanidlösning gjordes och en elektromekanisk automat användes för att erhålla en spädningsserie med 10, 30,..., 250 μg CN /100 ml. Till 10 ml av kalibreringslösningen tillsattes 90 ml av den färggivande reagentlösningen varefter absorbansen mättes (1 cm kyvett). Data finns i fil cyanid.mat.

Laboration 2, Matstat B, K, N, BME och Kemister, HT-15 5 Beskriver en linjär kalibreringskurva sambandet väl? Ansätt istället en kvadratisk kalibreringskurva: y = β 0 + β 1 x + β 2 x 2 + ε. Denna modell är ett specialfall av en multipel linjär regressionsmodell; vilka är de två oberoende variablerna? Använd reggui för att jämnföra denna modell med en linjära kalibreringskurvan. Vilken model passar bäst till data? Bokens författare ger följande kemiska förklaring: Stray light in the photometer dominates at high absorbances, which can be responsible for lower slopes at high concentrations. The chemical workup can also produce lower yields of the chromophore at higher concentrations. 6 Muntlig Redovisning Diskutera följande frågor med labhandledaren 1. Hur påverkar σ residualerna och konfidensintervallen för α och β i simuleringsexperimentet? 2. Vad blev 95%-intervall för fluorkoncentrationen då man för ett prov med okänd koncentration avläst trans=82.8? 3. Hur påverkas kalibreringsintervallet vid fler observationer? 4. Hur ser modellen i naturlig skala ut för sambandet mellan längd och vikt hos gäddorna från Bolmen (visa figuren)? 5. Hur stämmer prediktionsintervallet för vikt då Langd = 58 med de observerade vikterna (zooma i figuren)? 6. Beskriv hur du använde reggui för att jämnföra modellerna för cyaniddata. Om ni har tid över börja gärna med Projekt 2.