Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Relevanta dokument
Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Multipel Regressionsmodellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

10.1 Enkel linjär regression

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F1

Matematisk statistik, Föreläsning 5

Regressions- och Tidsserieanalys - F3

Metod och teori. Statistik för naturvetare Umeå universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Föreläsning G60 Statistiska metoder

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Laboration 2 multipel linjär regression

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F3

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Linjär regressionsanalys. Wieland Wermke

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

LABORATION 3 - Regressionsanalys

oberoende av varandra så observationerna är

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 12: Regression

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

F11. Kvantitativa prognostekniker

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Föreläsning 12: Linjär regression

Grundläggande matematisk statistik

Föreläsning G60 Statistiska metoder

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Examinationsuppgifter del 2

Regressions- och Tidsserieanalys - F4

Höftledsdysplasi hos dansk-svensk gårdshund

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Medicinsk statistik II

Regressions- och Tidsserieanalys - F7

MVE051/MSG Föreläsning 14

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning G60 Statistiska metoder

Statistisk försöksplanering

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

TENTAMEN I STATISTIK B,

Resursfördelningsmodellen

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Finansiell statistik. Multipel regression. 4 maj 2011

Sänkningen av parasitnivåerna i blodet

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

InStat Exempel 4 Korrelation och Regression

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

LABORATION 3 - Regressionsanalys

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Laboration 4 R-versionen

Matematisk statistik för B, K, N, BME och Kemister

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

ÖVNINGSUPPGIFTER KAPITEL 4

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

ANOVA Faktoriell (tvåvägs)

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Statistik 1 för biologer, logopeder och psykologer

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

, s a. , s b. personer från Alingsås och n b

Föreläsning 15, FMSF45 Multipel linjär regression

Transkript:

Föreläsning 9 Statistik; teori och tillämpning i biologi 1

(kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en beroende variabel Y. Denna metodik går att expandera genom att man lägger till fler oberoende variabler X som tillsammans förklarar variationen i Y. Detta kallas för multipel linjär regression. En multipel linjär regression kan bestå av många oberoende variabler, men analysen blir komplex och svårtolkad om för många variabler tas med. Dessutom kan vissa andra problem uppstå, som kommer diskuteras senare under föreläsningen. 2

Modell (GB s. 452-453, BB s. 424-425) Den sanna modellen (populationsmodellen) skrivs: Y j = α + β 1 X 1j + β 2 X 2j + + β m X mj + ε j där m är antalet oberoende variabler X. Den skattade modellen skrivs: Y j = a + b 1 X 1j + b 2 X 2j + + b m X mj Dessa skattningar är beräkningstunga, så för multipel linjär regression är vi hänvisade till datorer för att beräkna de olika regressionskoefficienterna. Tolkningen av en regressionskoefficient blir: förväntad förändring i Y när variabeln X ökar en enhet, under förutsättning att de övriga oberoende variablerna X hålls konstanta. 3

Analysstart Det är svårt att rent visuellt beskriva multipel linjär regression, eftersom det kan bestå av så många dimensioner. En god rutin är att först visuellt undersöka vilka samband den beroende variabeln Y har med var och en av de oberoende variablerna X. Alltså, att först göra m stycken spridningsdiagram. 4

Exempel Vi bygger vidare på exemplet med tomatodlaren. Odlaren har även mätt koncentrationen av fosfor och kalium i jorden där de 12 olika plantorna står. Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) 1 18 4 2 4 2 14 1 6 2 3 10 3 1 2 4 12 2 2 1 5 21 5 3 3 6 19 2 6 1 7 10 2 1 1 8 18 5 2 5 9 22 6 1 4 10 5 1 1 2 11 21 5 2 3 12 19 2 7 5 5

Exempel Scatterplot of Antal tomater vs Fosfor (%) 22,5 20,0 17,5 22,5 Scatterplot of Antal tomater vs Kväve (%) Antal tomater 15,0 12,5 10,0 20,0 7,5 Antal tomater 17,5 15,0 12,5 10,0 7,5 5,0 5,0 22,5 20,0 1 2 3 4 5 6 Fosfor (%) Scatterplot of Antal tomater vs Kalium (%) 7 1 2 3 4 Kväve (%) 5 6 Antal tomater 17,5 15,0 12,5 10,0 7,5 5,0 1 2 3 Kalium (%) 4 5 6

Exempel Den skattade regressionen blir: Y = 0,99 + 3,41 X 1 + 1,90 X 2-0,525 X 3 Där: Y = antalet förväntade tomater X 1 = Kvävekoncentration (%) X 2 = Fosforkoncentration (%) X 3 = Kaliumkoncentration (%) Tolka regressionskoefficienterna. (GB s. 453-454, BB s. 425-426) 7

Är regressionen signifikant? I multipel linjär regression testar inte F-testet och t-testet samma sak, som de gör i fallet enkel linjär regression. F-testet undersöker om regressionen är signifikant, medan det görs ett t-test för varje koefficient för att undersöka om just den koefficienten är signifikant. Vi fokuserar först på F-testet. (GB s.455-456, BB s.427-428) H 0 : β 1 = β 2 = = β m = 0 H a : minst en β 0 regression MS F = residual MS Testvariabeln jämförs med F α 1,m,n m 1. Om testvariabeln är större än det kritiska värdet förkastas nollhypotesen. 8

Är regressionen signifikant? (GB s.455, BB s.427) Variationskälla SS DF MS Regression Y j തY 2 m SS/DF Residual Y j Y j 2 n m 1 SS/DF Total Y j തY 2 n 1 SS/DF 9

Hur bra är regressionen? (GB s. 456, BB s. 428) Även i multipel linjär regression är det intressant att veta hur bra den är med hjälp av förklaringsgraden (R 2 ). R 2 regression SS = total SS Dock ökar alltid förklaringsgraden när en ny oberoende variabel läggs till i regressionen. Därför används en justerad förklaringsgrad (R 2 a ) när man ska jämföra två modeller med olika antal oberoende variabler. R 2 residual MS residual SS Τ(n m 1) a = 1 = 1 total MS total SS Τ(n 1) 10

Test och intervall för koefficienter (GB 458-59,BB 430-31) Om F-testet visar att regressionen är signifikant så är det intressant att undersöka vilken/vilka av regressionskoefficienterna som är signifikanta. Detta görs med hjälp av t-test: H 0 : β i = β 0 H a : β i β 0 t = b i β 0 s bi där s bi hämtas från datorutskrift. Konfidensintervall kan också skapas: b i ± t α 2,n m 1 s bi 11

Exempel Nyttja utskriften från SPSS nedan och undersök om regressionen är signifikant, beräkna förklaringsgrad, justerad förklaringsgrad och undersök vilka koefficienter som är signifikanta. 12

Prediktera Y För att prediktera förväntade värden på Y används först den skattade regressionsekvationen för att beräkna ett förväntat värde på Y och därefter kan man skapa konfidensintervall eller prediktionsintervall. Konfidensintervall: Y ± t α 2,n m 1 s y Prediktionsintervall: Y ± t α 2,n m 1 s Y p Där standardavvikelsen hämtas från datorutskrift enligt kommande exempel. 13

Prediktera Y, exempel Tomatodlaren vill prediktera antalet tomater för plantor som står i jord med 4,7 % kvävekoncentration och 3,5 % fosforkoncentration. Eftersom kaliumkoncentration ej var signifikant enligt tidigare exempel har denna tagits bort ur analysen. Skapa både konfidens- och prediktionsintervall. 14

Indikatorvariabler (GB s. 471, BB s. 443) I regression kan det vara lämpligt att införa så kallade indikatorvariabler (dummyvariabler). Detta är variabler som antar antingen värdet 0 eller 1 och motsvarar en kategori hos variabeln, t.ex. kön där hanar kodas som 0 och honor 1. För exemplet med tomatodlaren kanske tomaterna odlas i två olika växthus. Då kan en fjärde oberoende variabel (X 4 ) införas: 1 om plantan odlas i växthus 1 X 4 = ቊ 0 om plantan inte odlas i växthus 1 Så i detta fallet blir β 4 skillnaden i genomsnittsantalet tomater på en planta mellan de två växthusen. 15

Exempel indikatorvariabel Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) Växthus 1 18 4 2 4 1 2 14 1 6 2 1 3 10 3 1 2 0 4 12 2 2 1 0 5 21 5 3 3 1 6 19 2 6 1 0 7 10 2 1 1 0 8 18 5 2 5 1 9 22 6 1 4 1 10 5 1 1 2 1 11 21 5 2 3 0 12 19 2 7 5 1 Antal tomater = 1,03 + 3,37 Kväve (%) + 1,90 Fosfor (%) - 0,385 Kalium (%) - 0,45 Växthus 16

Interaktionsvariabler (GB s. 472, BB s. 444) En annan typ av variabel som kan införas är interaktionsvariabler. Denna införs om två eller flera oberoende variabler interagerar (samspelar) med varandra. T.ex. om effekten på Y från X 1 kan vara olika för olika nivåer på X 2. En interaktionsvariabel har då följande utseende: X 1 *X 2. 17

Problem som kan uppstå Ett problem som kan uppstå när man använder sig av multipel linjär regression är så kallad multikollinearitet. Detta uppstår när två eller flera oberoende variabler är starkt beroende av varandra, dvs. de är högt korrelerade. Den vanligaste konsekvensen av detta är att de skattade koefficienterna blir ologiska. Det kan upptäckas genom att observera t-testen och F- testet. Visar dessa test olika resultat (m.a.p. p-värden) är det stor risk för att det finns multikollinearitet i regressionen. Multikollinearitet ska inte förväxlas med interaktion. 18

Tack för idag! Nästa tillfälle: Lektion 5, måndag 15 maj 10-12, sal E330 19