Laboration 2: Styrkefunktion samt Regression

Relevanta dokument
1 Förberedelseuppgifter

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Laboration 4: Lineär regression

6 Skattningar av parametrarna i en normalfördelning

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Matematisk statistik för B, K, N, BME och Kemister

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Instruktioner till arbetet med miniprojekt II

1 Förberedelseuppgifter

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

oberoende av varandra så observationerna är

Laboration 4 R-versionen

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Matematisk statistik för D, I, Π och Fysiker

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Föreläsning 12: Regression

Laboration 5: Regressionsanalys

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

LABORATION 3 - Regressionsanalys

F13 Regression och problemlösning

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

1 Grundläggande begrepp vid hypotestestning

10.1 Enkel linjär regression

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Laboration 4 Regressionsanalys

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

TVM-Matematik Adam Jonsson

Laboration 4: Hypotesprövning och styrkefunktion

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 5 Regression

LABORATION 3 - Regressionsanalys

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning 15, FMSF45 Multipel linjär regression

Statistik 1 för biologer, logopeder och psykologer

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

bli bekant med summor av stokastiska variabler.

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning G60 Statistiska metoder

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 12: Linjär regression

Enkel linjär regression

Föreläsning 13: Multipel Regression

Sänkningen av parasitnivåerna i blodet

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

Matematisk statistik, Föreläsning 5

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Matematisk statistik för B, K, N, BME och Kemister

Laboration 2 multipel linjär regression

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Resultatet läggs in i ladok senast 13 juni 2014.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Del A: Schema för ifyllande av svar nns på sista sidan

F19, (Multipel linjär regression forts) och F20, Chi-två test.

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Grundläggande matematisk statistik

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

TAMS65 DATORÖVNING 2

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Datorövning 1 Fördelningar

Datorövning 5 Exponentiella modeller och elasticitetssamband

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Datorövning 1: Fördelningar

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

3 Maximum Likelihoodestimering

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 1 Enkel linjär regressionsanalys

Matematisk statistik för B, K, N, BME och Kemister

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Transkript:

Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens laborationen om styrkefunktionen är att du skall: bli mer förtrogen med kondensintervall. bli mer förtrogen med hypotestest. bli mer förtrogen med styrkefunktion. använda styrkefunktionen för att konstruera en enkel försöksplan. Regression Syftet med detta laborationsavsittet är att du skall: bli mer förtrogen med regressionsanalysen. undersöka modellen enkel linjär regression och de olika parametrarna i modellen. anpassa regressionsmodellerna och använda modellerna för prediktion och kalibrering. få förståelse för begreppet residualer. Kurskompendium: Olbjer kap 7.17.8 samt kap 10, 11.111.7. Läs igenom hela handledningen före laborationstillfället. Notera vilka resultat och gurer du behöver till den muntliga redovisningen. Till laborationens start är det underlättar det om du med dig lösningar till uppgifterna nedan. Förberedelseuppgifter Styrkefunktion 1. Givet 10 observationer av x i 2 N(; 2 ), hur konstrueras ett kondensintervall för om (a) är känd? (b) är okänd? 2. Hur kan intervallet ovan användas för att testa H 0 : = 0 mot H 1 : 6= 0? 3. Vilket intervall borde användas om mot-hypotesen är H 1 : > 0? 4. Givet n x observationer av x i 2 N( x ; 2 ) och n y observationer av y i 2 N( y ; 2 ). Hur konstrueras ett intervall för skillnaden y x om är okänd? 5. Hur tolkas signikansnivån,, i ett hypotestest? 6. Styrkefunktionen kan ses som en betingad sannolikhet, vilken?

2 Laboration 2, för FMSF70MASB02, HT19 Förberedelseuppgifter Regression 1. Antag att givet är talpar (x i ; y i ), i=1,: : :,10 där man anser att sambandet mellan x och y är linjärt. Modellen är y i = + x i + i där i är oberoende observationer från N(0; 2 ). (a) Vad är den graska tolkningen av och i modellen? (b) Residualanalys är ett viktigt instrument vid analys av regressionsmodeller. Hur denieras residualerna i ovanstående modell? (c) Skattningen av 2 i modellen bygger på residualerna. Hur ser skattningen ut? (d) Vad är skillnaden mellan kondensintervallet och prediktionsintervallet i en regressionsmodell? Använd gärna ett konkret exempel för att klargöra skillnaden. (e) Vid kalibrering vill man för ett givet värde på y, y 0, skaa ett intervall för motsvarande x 0. Visa graskt hur detta kan göras utgånde från ett prediktionsintervall. 2. Antag att y, responsvariabeln, beror av två oberoende variabler x 1 och x 2. Vid 10 olika försök har man noterat (x 1 ; x 2 ; y). Modellen är nu y i = 0 + 1 x 1i + 2 x 2i + 3 x 1i x 2i + i ; i = 1; : : : ; 10 i 2 N(0; 2 ) (a) Ange matriserna i matrisformuleringen av modellen. (b) Vad menas med att x-variablerna är kolinjära? Styrkefunktion och hypotestest 1 Kondensintervall för Illustration av kondensintervall För att undersöka hur antalet observationer och påverkar kondensintervall, gör uppgift 4.26 och 4.30 i övningshäftet. Jämför resultaten med förberedelseuppgift 1 och 2. 2 Hypotestest för Illustration av styrkefunktion För att undersöka hur styrkefunktionen beror av n, och, gör uppgift 4.38. Fundera på sambandet mellan, sannolikheten att felaktigt förkasta H 0, styrkefunktionen och möjligheten att upptäcka en avvikelse från H 0. Konstruera en försöksplan En viktig fråga i medicinska prövningar är hur många patienter som behöver ingå i en studie för att upptäcka en läkemedels-eekt. Gör övningsuppgift 4.37 och undersöka hur många patienter som behövs för att upptäcka en biverkning.

Laboration 2, för FMSF70MASB02, HT19 3 Regression 3 Enkel linjär regression Illustration av modell: I ett enkelt simuleringsexperiment ska du undersöka hur värdet på påverkar modellen och de slutsatser man kan dra från data. (För att ge illustrativa bilder ges fullständiga Matlab kommandon i denna del av laborationen.) Skapa en vektor x med värden 1, 2, : : :, 10 och en variabel y som erhålls genom det teoretiska linjära sambandet y=+x, där och är kända. Välj t ex y=10+2x. Till variabeln y adderas två uppsättningar av normalfördelade mätfel N(0; 2 ) med olika värden på, förslagsvis =1 och =5. >> x=[1:10]' >> y1=10+2*x+normrnd(0,1,10,1); >> y2=10+2*x+normrnd(0,5,10,1); Vektorn y1 består alltså nu av 10 observationer från N(10 + 2x; 1 2 ) medan y2 består av 10 observationer från N(10 + 2x; 5 2 ). Titta på data i samma diagram och jämför. >> plot(x,10+2*x) >> hold on >> plot(x,y1,'x') >> plot(x,y2,'o') För att skatta regressionslinjen och titta på residualerna utnyttjar vi den specialskrivna m-len reggui. >> reggui(x,y1) >> reggui(x,y2) Titta på residualerna för de båda linjerna. Hur påverkas de av värdet på? I gurerna som alstras av reggui ges även skattningar och kondensintervall för modellens parametrar. Jämför de erhållna intervallen med de sanna värdena på och ; täcker intervallen över parametrarna? Matlabs egen inbyggda regressionsrutin I Matlab nns en inbyggd funktion för regressionsanalys, regress, som kan användas vid multipel linjär regression (och därmed förstås även vid enkel linjär regression). Observera att reggui endast kan användas vid enkel linjär regression samt vid polynomregression som är ett specialfall av multipel linjär regression. Pröva hjälpkommandot help regress för att ta reda på hur in- och utargumenten ser ut. Använd regress för att skatta en av de två regressionslinjerna ovan. Då måste vi först bilda matrisen X som är en (10 2) matris med första kolumnen enbart ettor och andra kolumnen bestående av x-värdena. >> X=[ones(10,1) x] >> [b bint r]=regress(y1,x,0.05) Utargumentet bint ger kondensintervall för parametrarna och (med kondensgrad 0.95 här ovan) och r är residualerna från regressionen. Kontrollera att de erhållna skattningarna och intervallen stämmer med de du ck från reggui.

4 Laboration 2, för FMSF70MASB02, HT19 4 Kalibreringskurva Man vill göra en kalibreringskurva för en kalorimetrisk analys av uorjoner i vatten och mäter därför transmittansen två oberoende gånger för ett antal kända koncentrationer av uorjoner. Resultat nns i len kalibrer.mat. Eftersom vi har två mätningar per koncentration (x-värde) måste koncentrations vektorn replikeras innan vi kan göra en regression: >> x = [Konc'; Konc']; >> y = [Trans(1,:)' ; Trans(2,:)']; Pröva att anpassa en enkel linjär regressionsmodell till data med hjälp av reggui (observera att reggui behöver ej den inledande kolumnen av ettor) Veriera att modellen är rimlig genom att titta på residualerna. Prediktion: Vad är den förväntade transmittansen då uorkoncentrationen är 5.0? Vad är motsvarande 95% prediktionsintervall? Kalibrering (invers prediktion): Då man i framtiden ska använda linjen som kalibreringskurva, vill man till ett värde y bestämma ett intervall som med 95% sannolikhet täcker provets verkliga halt. Skatta ett 95% intervall för uorkoncentrationen då man för ett prov med okänd koncentration avläst trans=82.8. 5 Exponentiella samband Provske har genomförs i Bolmen sedan 1967, vid provskning undersöks förekomsten av olika arter, deras vikt och längd samt halten av olika miljögifter i sken (kvicksilver, kadmium, PCB, dioxiner, etc). Filen BolmenGadda.mat innehåller längd (cm) och vikt (g) för 183 gäddor från Bolmen. Vi vill undersöka om det nns ett samband mellan längd och vikt. Börja med att plotta vikt som funktion av längd hos gäddorna >> plot(langd,vikt,'.') Använd reggui för att undersöka om modellen Vikt = + Langd + 2 N(0; 2 ) är rimlig för data. Ett bättre alternativ kan vara att använda ett log-log samband Vikt = alangd k log Vikt = log a + k log Langd + log log 2 N(0; 2 ) {z} y x För att undersöka sambandet kan man plotta data i ett loglog-diagram >> loglog(langd,vikt,'.') Använd reggui för att undersöka den nya modellens lämplighet. Beräkna (med reggui's hjälp) den predikterade vikten och ett 95% procentigt prediktionsintervall för vikten hos skar som är 58 cm långa. Spara värdena i två lämpliga variabler (ersätt? nedan med lämpliga värden) >> yhat58 =?; >> predi58 = [??];

Laboration 2, för FMSF70MASB02, HT19 5 För att kunna jämföra modellen med data i sin naturliga skala sparar vi parametrarna från reggui, konstruerar en vektor med längder från den minsta till den största sken >> v = linspace(min(langd), max(langd), 100); och plottar både data och den anpassade modellen (ersätt? med det skattade sambandet mellan längd och vikt) >> plot(langd,vikt,'.', v,?, 'r') Genom att plotta prediktionen för vikten då Langd = 58 i samma gur kan vi undersöka hur intervallbredden stämmer med spridningen i data. >> hold on %l\"{a}gg till fler linjer i en existerande figur >> plot(58, yhat58, '*r') %har du kommit ih\aa{}g att transformera? >> plot(58, predi58, '+r') 6 Muntlig Redovisning Diskutera följande frågor med labhandledaren 6.1 Styrkefunktion 1. Givet 100 st 95%-kondensintervall för. Hur många av intervallen kan förväntas inte innehålla? 2. Varför används den större t-kvantil istället för en normal-kvantil när är okänt? 3. Hur ser en ideal styrkefunktion ut? 4. Hur påverkas styrkefunktionen av n, och? 5. Föklara avvägningen mellan testets styrka och. 6. I 4.37, hur många personer måste man mäta på för att upptäcka den nedsatta salivproduktionen? 6.2 Regression 1. Hur påverkar residualerna och kondensintervallen för och i simuleringsexperimentet? 2. Vad blev 95%-intervall för uorkoncentrationen då man för ett prov med okänd koncentration avläst trans=82.8? 3. Hur ser modellen i naturlig skala ut för sambandet mellan längd och vikt hos gäddorna från Bolmen (visa guren)? 4. Hur stämmer prediktionsintervallet för vikt då Langd = 58 med de observerade vikterna (zooma i guren)? faktorförsök. Använd gurerna från avsnittet Illustration av modell.