Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Relevanta dokument
Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Multipel Regressionsmodellen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F19, (Multipel linjär regression forts) och F20, Chi-två test.

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Statistisk försöksplanering

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

10.1 Enkel linjär regression

Metod och teori. Statistik för naturvetare Umeå universitet

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Matematisk statistik, Föreläsning 5

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Föreläsning G60 Statistiska metoder

F11. Kvantitativa prognostekniker

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F3

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Regressions- och Tidsserieanalys - F3

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

ANOVA Faktoriell (tvåvägs)

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Laboration 2 multipel linjär regression

Medicinsk statistik II

Matematisk statistik för D, I, Π och Fysiker

Statistisk försöksplanering

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Examinationsuppgifter del 2

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning G60 Statistiska metoder

Föreläsning 12: Regression

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Höftledsdysplasi hos dansk-svensk gårdshund

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Elementa om Variansanalys

Regressions- och Tidsserieanalys - F4

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

oberoende av varandra så observationerna är

Föreläsning 12: Linjär regression

MVE051/MSG Föreläsning 14

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Linjär regressionsanalys. Wieland Wermke

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F3

Föreläsning G60 Statistiska metoder

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

7.5 Experiment with a single factor having more than two levels

, s a. , s b. personer från Alingsås och n b

Föreläsning G60 Statistiska metoder

Medicinsk statistik II

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

FACIT (korrekta svar i röd fetstil)

Regressions- och Tidsserieanalys - F7

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

LABORATION 3 - Regressionsanalys

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Statistik 1 för biologer, logopeder och psykologer

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Sänkningen av parasitnivåerna i blodet

InStat Exempel 4 Korrelation och Regression

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Transkript:

Föreläsning 9 Statistik; teori och tillämpning i biologi 1

(kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en beroende variabel Y. Denna metodik går att expandera genom att man lägger till fler oberoende variabler X som tillsammans förklarar variationen i Y. Detta kallas för multipel linjär regression. En multipel linjär regression kan bestå av många oberoende variabler, men analysen blir komplex och svårtolkad om för många variabler tas med. Dessutom kan vissa andra problem uppstå, som kommer diskuteras senare under föreläsningen. 2

Modell (GB s. 452-453, BB s. 424-425) Den sanna modellen (populationsmodellen) skrivs: Y j = α + β 1 X 1j + β 2 X 2j + + β m X mj + ε j där m är antalet oberoende variabler X. Den skattade modellen skrivs: Y j = a + b 1 X 1j + b 2 X 2j + + b m X mj Dessa skattningar är beräkningstunga, så för multipel linjär regression är vi hänvisade till datorer för att beräkna de olika regressionskoefficienterna. Tolkningen av en regressionskoefficient blir: förväntad förändring i Y när variabeln X ökar en enhet, under förutsättning att de övriga oberoende variablerna X hålls konstanta. 3

Analysstart Det är svårt att rent visuellt beskriva multipel linjär regression, eftersom det kan bestå av så många dimensioner. En god rutin är att först visuellt undersöka vilka samband den beroende variabeln Y har med var och en av de oberoende variablerna X. Alltså, att först göra m stycken spridningsdiagram. 4

Exempel Vi bygger vidare på exemplet med tomatodlaren. Odlaren har även mätt koncentrationen av fosfor och kalium i jorden där de 12 olika plantorna står. Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) 1 18 4 2 4 2 14 1 6 2 3 10 3 1 2 4 12 2 2 1 5 21 5 3 3 6 19 2 6 1 7 10 2 1 1 8 18 5 2 5 9 22 6 1 4 10 5 1 1 2 11 21 5 2 3 12 19 2 7 5 5

Antal tomater Antal tomater Antal tomater Multipel linjär regression Exempel Scatterplot of Antal tomater vs Fosfor (%) 22,5 20,0 17,5 15,0 12,5 22,5 Scatterplot of Antal tomater vs Kväve (%) 10,0 20,0 7,5 17,5 15,0 5,0 1 2 3 4 Fosfor (%) 5 6 7 12,5 10,0 Scatterplot of Antal tomater vs Kalium (%) 7,5 5,0 22,5 20,0 1 2 3 4 Kväve (%) 5 6 17,5 15,0 12,5 10,0 7,5 5,0 1 2 3 Kalium (%) 4 5 6

Exempel Den skattade regressionen blir: Y = 0,99 + 3,41 X 1 + 1,90 X 2-0,525 X 3 Där: Y = antalet förväntade tomater X 1 = Kvävekoncentration (%) X 2 = Fosforkoncentration (%) X 3 = Kaliumkoncentration (%) Tolka regressionskoefficienterna. (GB s. 453-454, BB s. 425-426) 7

Multipel linjär regression Är regressionen signifikant? I multipel linjär regression testar inte F-testet och t-testet samma sak, som de gör i fallet enkel linjär regression. F-testet undersöker om regressionen är signifikant, medan det görs ett t-test för varje koefficient för att undersöka om just den koefficienten är signifikant. Vi fokuserar först på F-testet. (GB s.455-456, BB s.427-428) H 0 : β 1 = β 2 = = β m = 0 H a : minst en β 0 regression MS F = residual MS Testvariabeln jämförs med F α 1,m,n m 1. Om testvariabeln är större än det kritiska värdet förkastas nollhypotesen. 8

Är regressionen signifikant? (GB s.455, BB s.427) Variationskälla SS DF MS Regression Y j Y 2 m SS/DF Residual Y j Y 2 n m 1 SS/DF Total Y j Y 2 n 1 SS/DF 9

Hur bra är regressionen? (GB s. 456, BB s. 428) Även i multipel linjär regression är det intressant att veta hur bra den är med hjälp av förklaringsgraden (R 2 ). R 2 regression SS = total SS Dock ökar alltid förklaringsgraden när en ny oberoende variabel läggs till i regressionen. Därför används en justerad förklaringsgrad (R a 2 ) när man ska jämföra två modeller med olika antal oberoende variabler. R a 2 = 1 residual MS total MS = 1 residual SS n m 1 total SS n 1 10

Test och intervall för koefficienter (GB 458-59,BB 430-31) Om F-testet visar att regressionen är signifikant så är det intressant att undersöka vilken/vilka av regressionskoefficienterna som är signifikanta. Detta görs med hjälp av t-test: H 0 : β i = β 0 H a : β i β 0 t = b i β 0 s bi där s bi hämtas från datorutskrift. Konfidensintervall kan också skapas: b i ± t α 2,n m 1 s bi 11

Exempel Nyttja utskriften från SPSS nedan och undersök om regressionen är signifikant, beräkna förklaringsgrad, justerad förklaringsgrad och undersök vilka koefficienter som är signifikanta. 12

Prediktera Y För att prediktera förväntade värden på Y används först den skattade regressionsekvationen för att beräkna ett förväntat värde på Y och därefter kan man skapa konfidensintervall eller prediktionsintervall. Konfidensintervall: Prediktionsintervall: Y ± t α 2,n m 1 s y Y ± t α 2,n m 1 s Y p Där standardavvikelsen hämtas från datorutskrift enligt kommande exempel. 13

Prediktera Y, exempel Tomatodlaren vill prediktera antalet tomater för plantor som står i jord med 4,7 % kvävekoncentration och 3,5 % fosforkoncentration. Eftersom kaliumkoncentration ej var signifikant enligt tidigare exempel har denna tagits bort ur analysen. Skapa både konfidens- och prediktionsintervall. 14

Indikatorvariabler (GB s. 471, BB s. 443) I regression kan det vara lämpligt att införa så kallade indikatorvariabler (dummyvariabler). Detta är variabler som antar antingen värdet 0 eller 1 och motsvarar en kategori hos variabeln, t.ex. kön där hanar kodas som 0 och honor 1. För exemplet med tomatodlaren kanske tomaterna odlas i två olika växthus. Då kan en fjärde oberoende variabel (X 4 ) införas: 1 om plantan odlas i växthus 1 X 4 = 0 om plantan inte odlas i växthus 1 Så i detta fallet blir β 4 skillnaden i genomsnittsantalet tomater på en planta mellan de två växthusen. 15

Exempel indikatorvariabel Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) Växthus 1 18 4 2 4 1 2 14 1 6 2 1 3 10 3 1 2 0 4 12 2 2 1 0 5 21 5 3 3 1 6 19 2 6 1 0 7 10 2 1 1 0 8 18 5 2 5 1 9 22 6 1 4 1 10 5 1 1 2 1 11 21 5 2 3 0 12 19 2 7 5 1 Antal tomater = 1,03 + 3,37 Kväve (%) + 1,90 Fosfor (%) - 0,385 Kalium (%) - 0,45 Växthus 16

Interaktionsvariabler (GB s. 472, BB s. 444) En annan typ av variabel som kan införas är interaktionsvariabler. Denna införs om två eller flera oberoende variabler interagerar (samspelar) med varandra. T.ex. om effekten på Y från X 1 kan vara olika för olika nivåer på X 2. En interaktionsvariabel har då följande utseende: X 1 *X 2. 17

Problem som kan uppstå Ett problem som kan uppstå när man använder sig av multipel linjär regression är så kallad multikollinearitet. Detta uppstår när två eller flera oberoende variabler är beroende av varandra, dvs. de är korrelerade. Den vanligaste konsekvensen av detta är att de skattade koefficienterna blir ologiska. Det kan upptäckas genom att observera t-testen och F- testet. Visar dessa test olika resultat (m.a.p. p-värden) är det stor risk för att det finns multikollinearitet i regressionen. Multikollinearitet ska inte förväxlas med interaktion. 18

ANOVA eller regression? När använda de två metoderna? ANOVA står för variansanalys och används oftast när man planerar ett experiment från början, t.ex. hur många observationer man ska ha i varje cell osv. Nivåerna på faktorerna är kategoriska och inte mätbara. Envägs-ANOVA En faktor med ett visst antal nivåer. Tvåvägs-ANOVA Två faktorer som kan ha ett olika antal nivåer, och där varje nivå i den ena faktorn kan korsas med varje nivå i den andra faktorn. Hierarkisk ANOVA (nästlad ANOVA) Två eller flera faktorer, där den ena faktorn kan ses som undergrupper till den andra faktorn. 19

ANOVA eller regression? När använda de två metoderna? Regression används (oftast) när man redan har ett insamlat datamaterial och vill undersöka om några oberoende variabler kan förklara en beroende variabel. Variablerna är till största delen kontinuerliga och mätbara. Enkel linjär regression En oberoende variabel X förklarar en beroende variabel Y. Multipel linjär regression m stycken oberoende variabler X förklarar en beroende variabel Y. 20

Repetition Statistik är grunden för all kvantitativ vetenskaplig metodik. I statistik utgår man från ett stickprov för att dra slutsatser om en hel population. Om något är signifikant innebär det att utifrån det/de stickprov vi baserar vårat test på finns det, med en viss risk för fel, säkerställda skillnader i/mellan populationen/ populationerna. Om p-värdet är lägre än signifikansnivån förkastas nollhypotesen, och testet är signifikant. 21

Tack för idag! Nästa tillfälle: Lektion 5, onsdag 11 maj 10-12, sal P42 22