Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Relevanta dokument
Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning G60 Statistiska metoder

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Regressions- och Tidsserieanalys - F1

10.1 Enkel linjär regression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Matematisk statistik för D, I, Π och Fysiker

Grundläggande matematisk statistik

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F1

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Sänkningen av parasitnivåerna i blodet

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning G60 Statistiska metoder

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Examinationsuppgifter del 2

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Multipel Regressionsmodellen

Korrelation och autokorrelation

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Metod och teori. Statistik för naturvetare Umeå universitet

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

F13 Regression och problemlösning

Matematisk statistik för B, K, N, BME och Kemister

MVE051/MSG Föreläsning 14

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 12: Linjär regression

Föreläsning 12: Regression

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Medicinsk statistik II

Matematisk statistik, Föreläsning 5

Föreläsning G60 Statistiska metoder

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Laboration 4 R-versionen

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Statistisk försöksplanering

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Introduktion till statistik för statsvetare

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

oberoende av varandra så observationerna är

Finansiell statistik

Industriell matematik och statistik, LMA /14

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Föreläsning 13: Multipel Regression

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

LABORATION 3 - Regressionsanalys

Statistiska samband: regression och korrelation

Regressions- och Tidsserieanalys - F3

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 12, FMSF45 Hypotesprövning

Laboration 4 Regressionsanalys

Föreläsning 5. Kapitel 6, sid Inferens om en population

AMatematiska institutionen avd matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

7.5 Experiment with a single factor having more than two levels

tentaplugg.nu av studenter för studenter

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

TENTAMEN I MATEMATISK STATISTIK

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Matematisk statistik KTH. Formelsamling i matematisk statistik

Transkript:

Föreläsning 8 Statistik; teori och tillämpning i biologi 1

Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad (kap 17.3) o Prediktioner (kap 17.5bc) o Korrelation (kap 19.1) o Korrelationskoefficienten (kap 19.1) o Skillnad mellan korrelation och regression 2

Tillämpning En tomatodlare vill undersöka om kvävekoncentrationen i jorden påverkar antalet tomater på tomatplantorna. Odlaren undersöker 12 slumpmässigt utvalda plantor. Planta Kvävekoncentration (%) Antal tomater 1 4 18 2 1 14 3 3 10 4 2 12 5 5 21 6 2 19 7 2 10 8 5 18 9 6 22 10 1 5 11 5 21 12 2 19 3

Antal tomater Enkel linjär regression Tillämpning För att visualisera sambandet kan man visa materialet i ett spridningsdiagram (scatter plot). 25 20 15 10 5 0 0 1 2 3 4 5 6 7 Kvävekoncentration (%) 4

Antal tomater Enkel linjär regression Tillämpning Finns det ett samband mellan de två variablerna? Är sambandet linjärt? Är det ett positivt eller negativt samband? Är det ett starkt samband? Avviker någon/några observationer (outliers)? 25 20 15 10 5 0 0 1 2 3 4 5 6 7 Kvävekoncentration (%) 5

Antal tomater Enkel linjär regression Tillämpning Tanken med enkel linjär regression är att anpassa en rät linje med så korta avstånd som möjligt till punkterna. Detta görs med minstakvadrat-metoden (least squares). 25 20 15 10 5 0 0 1 2 3 4 5 6 7 Kvävekoncentration (%) 6

Introduktion Enkel linjär regression består av två stycken variabler. En oberoende (förklarande) variabel (X) och en beroende variabel (Y). Det som är av intresse är hur den beroende variabeln påverkas när den oberoende variabeln förändras. Relationen mellan de två variablerna betecknas med denna funktion: (GB s. 354, BB s. 330) Y i = α + βx i + ε i där α är linjens skärningspunkt med y-axeln och β är lutningen på linjen. ϵ är en så kallad residual, vilket är skillnaden mellan sanna Y i och det skattade Y i. Väntevärdet för denna residual är 0. 7

Bestämma linjen (GB s. 356-358, BB s. 332-334) Funktionen på föregående sida är den sanna relationen mellan Y och X, α och β är alltså populationsparametrarna. För att kunna beräkna dessa behövs information om hela populationen, vilket man i praktiken väldigt sällan har. Man skattar istället α och β utifrån ett stickprov. Den skattade funktionen skrivs: a och b beräknas enligt: Y i = a + bx i b = σ X i തX Y i തY σ X i തX 2 a = തY b തX = σ X σ X iy i i σ Y i n σ X 2 i σ X i 2 n 8

Bestämma linjen När a och b har beräknats ska dessa tolkas. a är som sagt linjens skärningspunkt med y-axeln, alltså vilket värde Y förväntas ha när X = 0. Denna skärningspunkt tolkas endast när X = 0 finns med i intervallet för variabeln X. Lutningen på linjen, b, tolkas som den förväntade förändringen av variabeln Y när variabeln X ökar med en enhet. Residualerna (ϵ) skattas med Y i Y i. Vi kommer inte gå djupare i residualanalysen i denna kurs. 9

Bestämma linjen, exempel Beräkna och tolka a och b åt den omtalade tomatodlaren. Planta Kvävekoncentration (%) Antal tomater 1 4 18 2 1 14 3 3 10 4 2 12 5 5 21 6 2 19 7 2 10 8 5 18 9 6 22 10 1 5 11 5 21 12 2 19 10

Är lutningen signifikant? Eftersom vi har skattat lutningen (β) utifrån ett stickprov är det av intresse att undersöka om lutningen är signifikant, dvs. om den är skild från noll. Om den inte är skild från noll har inte variabeln X en signifikant påverkan på variabeln Y. Detta kan göras med hjälp av två test, antingen med hjälp av ANOVA-test eller t-test. Båda dessa test följer de fyra stegen för hypotesprövning, men testvariabeln och kritiskt värde skiljer sig åt. 11

Är lutningen signifikant? (ANOVA) (GB s. 362-364, BB s. 338-340) För att kunna genomföra detta test behövs tre kvadratsummor beräknas. total SS = Y i തY 2 = Y i 2 σ Y i 2 n regression SS = Y i തY 2 = σ X i Y i σ X i σ Y i n σ X 2 i σ X i 2 n 2 residual SS = Y i Y i 2 = total SS regression SS Dessa kvadratsummor brukar sammanställas i en ANOVA-tabell. 12

Är lutningen signifikant? (ANOVA) Varationskälla SS DF MS Regression Y i തY 2 1 SS/DF Residual Y i Y i 2 n 2 SS/DF Total Y i തY 2 n 1 SS/DF 13

Är lutningen signifikant? (ANOVA) Hypoteserna formuleras enligt: H 0 : β = 0 H a : β 0 Signifikansnivån (α) sätts till 0.10, 0.05 eller 0.01. Testvariabeln, F, beräknas enligt: F = regression MS residual MS = regression SSΤ1 residual SS Τ(n 2) Denna testvariabel jämförs sedan med ett kritiskt värde, nämligen F α 1,1,n 2 som hittas i tabell B.4. Om testvariabeln är större än det kritiska värdet förkastas H 0. 14

Är lutningen signifikant? (t-test) (GB s. 365,BB s. 341) Hypoteserna formuleras enligt (detta test kan även göras enkelsidigt): H 0 : β = β 0 H a : β β 0 Signifikansnivån (α) sätts till 0.10, 0.05 eller 0.01. Testvariabeln, t, beräknas enligt: t = b β 0 s b = b β 0 residual MS σ X i 2 σ X i 2 n Denna testvariabeln jämförs med det kritiska värdet t α 2,n 2 som finns i tabell B.3. Om t är större än det kritiska värdet förkastas H 0. 15

Konfidensintervall för lutningen (GB s. 367,BB s. 343) Ett konfidensintervall för lutningen (β) beräknas enligt: Vi kommer ihåg att: b ± t α 2,n 2 s b s b = residual MS σ X i 2 σ X i 2 n Det går även att beräkna enkelsidiga konfidensintervall. 16

Hur bra är regressionen? (GB s. 364, BB s. 340) För att undersöka hur bra regressionen är kan man beräkna förklaringsgraden (coefficient of determination), r 2. Den beräknas enligt: r 2 = regression SS total SS r 2 blir något mellan 0 och 1, och denna siffra tolkas som procent. Om r 2 är till exempel 0.72 säger det att variabeln X kan förklara 72 % av variationen i variabeln Y. 17

Exempel Vi återvänder till vår tomatodlare. Undersök om lutningen är signifikant med ANOVA-test, beräkna ett konfidensintervall för lutningen och beräkna förklaringsgraden. X i = 38 Y i = 189 X i Y i = 673 X 2 i = 154 Y 2 i = 3301 Planta Kvävekoncentration (%) Antal tomater 1 4 18 2 1 14 3 3 10 4 2 12 5 5 21 6 2 19 7 2 10 8 5 18 9 6 22 10 1 5 11 5 21 12 2 19 18

Prediktera Y Det vanligaste användningsområdet för regression är att prediktera värden på Y utifrån givna värden på X. Detta gör man med hjälp av den skattade funktionen: Y i = a + bx i OBS: prediktioner bör enbart göras på värden på X som ligger inom intervallet för variabeln X. Den skattade funktionen gäller enbart för de värden vi har observerat. Vi vet inte om funktionen är densamma för värden på X som ligger ovan eller under intervallet. 19

Prediktera Y, intervall (GB s. 367,BB s. 343) Man kan beräkna två olika intervall för prediktionerna: Konfidensintervall: ett intervall för medelvärdet på alla Y i i populationen för det givna värdet på X i. (GB s.368,bb s.344) Y i ± t α 2,n 2 residual MS 1 n + X i തX 2 σ X i 2 σ X i 2 n Prediktionsintervall: ett intervall för medelvärdet på m stycken Y i för de m givna värdena på X i. (m är oftast 1).(GB 370,BB 346) Y i ± t α 2,n 2 residual MS 1 m + 1 n + X i തX 2 20 σ X i 2 σ X i 2 n

Prediktera Y, exempel Tomatodlaren vill nu veta hur många tomater plantor som står i jord med 4,6 % kvävekoncentration ger. Beräkna ett konfidensintervall för medelantalet tomater samtliga plantor som står i denna jord ger samt ett prediktionsintervall för en planta. 21

Skillnaden regression och korrelation Något som ofta nämns i statistik är korrelation. Detta är närbesläktat med regression, men det finns en avgörande skillnad. Korrelation är ett mått på sambandet mellan två variabler, hur de påverkar varandra X Y. Regression undersöker hur en variabel påverkar en annan variabel X Y. 22

Korrelation Korrelationskoefficienten (GB s. 406, BB s. 380) Ett vanligt mått för att beskriva hur starkt linjärt samband två variabler har är korrelationskoefficienten (r). Den beräknas enligt följande formel: r = σ XY σ X 2 σ X 2 n σ X σ Y n σ Y 2 σ Y 2 n Den antar värden mellan -1 och 1 och kan tolkas enligt nedanstående figur. -1 0 1 Starkt negativt linjärt samband Inget linjärt samband Starkt positivt linjärt samband 23

Tack för idag! Nästa tillfälle: Föreläsning 9, tisdag 2 maj 13-15, sal U6 24