Föreläsning 8 Statistik; teori och tillämpning i biologi 1
Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad (kap 17.3) o Prediktioner (kap 17.5bc) o Korrelation (kap 19.1) o Korrelationskoefficienten (kap 19.1) o Skillnad mellan korrelation och regression 2
Tillämpning En tomatodlare vill undersöka om kvävekoncentrationen i jorden påverkar antalet tomater på tomatplantorna. Odlaren undersöker 12 slumpmässigt utvalda plantor. Planta Kvävekoncentration (%) Antal tomater 1 4 18 2 1 14 3 3 10 4 2 12 5 5 21 6 2 19 7 2 10 8 5 18 9 6 22 10 1 5 11 5 21 12 2 19 3
Antal tomater Enkel linjär regression Tillämpning För att visualisera sambandet kan man visa materialet i ett spridningsdiagram (scatter plot). 25 20 15 10 5 0 0 1 2 3 4 5 6 7 Kvävekoncentration (%) 4
Antal tomater Enkel linjär regression Tillämpning Finns det ett samband mellan de två variablerna? Är sambandet linjärt? Är det ett positivt eller negativt samband? Är det ett starkt samband? Avviker någon/några observationer (outliers)? 25 20 15 10 5 0 0 1 2 3 4 5 6 7 Kvävekoncentration (%) 5
Antal tomater Enkel linjär regression Tillämpning Tanken med enkel linjär regression är att anpassa en rät linje med så korta avstånd som möjligt till punkterna. Detta görs med minstakvadrat-metoden (least squares). 25 20 15 10 5 0 0 1 2 3 4 5 6 7 Kvävekoncentration (%) 6
Introduktion Enkel linjär regression består av två stycken variabler. En oberoende (förklarande) variabel (X) och en beroende variabel (Y). Det som är av intresse är hur den beroende variabeln påverkas när den oberoende variabeln förändras. Relationen mellan de två variablerna betecknas med denna funktion: (GB s. 354, BB s. 330) Y i = α + βx i + ε i där α är linjens skärningspunkt med y-axeln och β är lutningen på linjen. ϵ är en så kallad residual, vilket är skillnaden mellan sanna Y i och det skattade Y i. Väntevärdet för denna residual är 0. 7
Bestämma linjen (GB s. 356-358, BB s. 332-334) Funktionen på föregående sida är den sanna relationen mellan Y och X, α och β är alltså populationsparametrarna. För att kunna beräkna dessa behövs information om hela populationen, vilket man i praktiken väldigt sällan har. Man skattar istället α och β utifrån ett stickprov. Den skattade funktionen skrivs: a och b beräknas enligt: Y i = a + bx i b = σ X i തX Y i തY σ X i തX 2 a = തY b തX = σ X σ X iy i i σ Y i n σ X 2 i σ X i 2 n 8
Bestämma linjen När a och b har beräknats ska dessa tolkas. a är som sagt linjens skärningspunkt med y-axeln, alltså vilket värde Y förväntas ha när X = 0. Denna skärningspunkt tolkas endast när X = 0 finns med i intervallet för variabeln X. Lutningen på linjen, b, tolkas som den förväntade förändringen av variabeln Y när variabeln X ökar med en enhet. Residualerna (ϵ) skattas med Y i Y i. Vi kommer inte gå djupare i residualanalysen i denna kurs. 9
Bestämma linjen, exempel Beräkna och tolka a och b åt den omtalade tomatodlaren. Planta Kvävekoncentration (%) Antal tomater 1 4 18 2 1 14 3 3 10 4 2 12 5 5 21 6 2 19 7 2 10 8 5 18 9 6 22 10 1 5 11 5 21 12 2 19 10
Är lutningen signifikant? Eftersom vi har skattat lutningen (β) utifrån ett stickprov är det av intresse att undersöka om lutningen är signifikant, dvs. om den är skild från noll. Om den inte är skild från noll har inte variabeln X en signifikant påverkan på variabeln Y. Detta kan göras med hjälp av två test, antingen med hjälp av ANOVA-test eller t-test. Båda dessa test följer de fyra stegen för hypotesprövning, men testvariabeln och kritiskt värde skiljer sig åt. 11
Är lutningen signifikant? (ANOVA) (GB s. 362-364, BB s. 338-340) För att kunna genomföra detta test behövs tre kvadratsummor beräknas. total SS = Y i തY 2 = Y i 2 σ Y i 2 n regression SS = Y i തY 2 = σ X i Y i σ X i σ Y i n σ X 2 i σ X i 2 n 2 residual SS = Y i Y i 2 = total SS regression SS Dessa kvadratsummor brukar sammanställas i en ANOVA-tabell. 12
Är lutningen signifikant? (ANOVA) Varationskälla SS DF MS Regression Y i തY 2 1 SS/DF Residual Y i Y i 2 n 2 SS/DF Total Y i തY 2 n 1 SS/DF 13
Är lutningen signifikant? (ANOVA) Hypoteserna formuleras enligt: H 0 : β = 0 H a : β 0 Signifikansnivån (α) sätts till 0.10, 0.05 eller 0.01. Testvariabeln, F, beräknas enligt: F = regression MS residual MS = regression SSΤ1 residual SS Τ(n 2) Denna testvariabel jämförs sedan med ett kritiskt värde, nämligen F α 1,1,n 2 som hittas i tabell B.4. Om testvariabeln är större än det kritiska värdet förkastas H 0. 14
Är lutningen signifikant? (t-test) (GB s. 365,BB s. 341) Hypoteserna formuleras enligt (detta test kan även göras enkelsidigt): H 0 : β = β 0 H a : β β 0 Signifikansnivån (α) sätts till 0.10, 0.05 eller 0.01. Testvariabeln, t, beräknas enligt: t = b β 0 s b = b β 0 residual MS σ X i 2 σ X i 2 n Denna testvariabeln jämförs med det kritiska värdet t α 2,n 2 som finns i tabell B.3. Om t är större än det kritiska värdet förkastas H 0. 15
Konfidensintervall för lutningen (GB s. 367,BB s. 343) Ett konfidensintervall för lutningen (β) beräknas enligt: Vi kommer ihåg att: b ± t α 2,n 2 s b s b = residual MS σ X i 2 σ X i 2 n Det går även att beräkna enkelsidiga konfidensintervall. 16
Hur bra är regressionen? (GB s. 364, BB s. 340) För att undersöka hur bra regressionen är kan man beräkna förklaringsgraden (coefficient of determination), r 2. Den beräknas enligt: r 2 = regression SS total SS r 2 blir något mellan 0 och 1, och denna siffra tolkas som procent. Om r 2 är till exempel 0.72 säger det att variabeln X kan förklara 72 % av variationen i variabeln Y. 17
Exempel Vi återvänder till vår tomatodlare. Undersök om lutningen är signifikant med ANOVA-test, beräkna ett konfidensintervall för lutningen och beräkna förklaringsgraden. X i = 38 Y i = 189 X i Y i = 673 X 2 i = 154 Y 2 i = 3301 Planta Kvävekoncentration (%) Antal tomater 1 4 18 2 1 14 3 3 10 4 2 12 5 5 21 6 2 19 7 2 10 8 5 18 9 6 22 10 1 5 11 5 21 12 2 19 18
Prediktera Y Det vanligaste användningsområdet för regression är att prediktera värden på Y utifrån givna värden på X. Detta gör man med hjälp av den skattade funktionen: Y i = a + bx i OBS: prediktioner bör enbart göras på värden på X som ligger inom intervallet för variabeln X. Den skattade funktionen gäller enbart för de värden vi har observerat. Vi vet inte om funktionen är densamma för värden på X som ligger ovan eller under intervallet. 19
Prediktera Y, intervall (GB s. 367,BB s. 343) Man kan beräkna två olika intervall för prediktionerna: Konfidensintervall: ett intervall för medelvärdet på alla Y i i populationen för det givna värdet på X i. (GB s.368,bb s.344) Y i ± t α 2,n 2 residual MS 1 n + X i തX 2 σ X i 2 σ X i 2 n Prediktionsintervall: ett intervall för medelvärdet på m stycken Y i för de m givna värdena på X i. (m är oftast 1).(GB 370,BB 346) Y i ± t α 2,n 2 residual MS 1 m + 1 n + X i തX 2 20 σ X i 2 σ X i 2 n
Prediktera Y, exempel Tomatodlaren vill nu veta hur många tomater plantor som står i jord med 4,6 % kvävekoncentration ger. Beräkna ett konfidensintervall för medelantalet tomater samtliga plantor som står i denna jord ger samt ett prediktionsintervall för en planta. 21
Skillnaden regression och korrelation Något som ofta nämns i statistik är korrelation. Detta är närbesläktat med regression, men det finns en avgörande skillnad. Korrelation är ett mått på sambandet mellan två variabler, hur de påverkar varandra X Y. Regression undersöker hur en variabel påverkar en annan variabel X Y. 22
Korrelation Korrelationskoefficienten (GB s. 406, BB s. 380) Ett vanligt mått för att beskriva hur starkt linjärt samband två variabler har är korrelationskoefficienten (r). Den beräknas enligt följande formel: r = σ XY σ X 2 σ X 2 n σ X σ Y n σ Y 2 σ Y 2 n Den antar värden mellan -1 och 1 och kan tolkas enligt nedanstående figur. -1 0 1 Starkt negativt linjärt samband Inget linjärt samband Starkt positivt linjärt samband 23
Tack för idag! Nästa tillfälle: Föreläsning 9, tisdag 2 maj 13-15, sal U6 24