Föreläsning 9 Statistik; teori och tillämpning i biologi 1
(kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en beroende variabel Y. Denna metodik går att expandera genom att man lägger till fler oberoende variabler X som tillsammans förklarar variationen i Y. Detta kallas för multipel linjär regression. En multipel linjär regression kan bestå av många oberoende variabler, men analysen blir komplex och svårtolkad om för många variabler tas med. Dessutom kan vissa andra problem uppstå, som kommer diskuteras senare under föreläsningen. 2
Modell (GB s. 452-453, BB s. 424-425) Den sanna modellen (populationsmodellen) skrivs: Y j = α + β 1 X 1j + β 2 X 2j + + β m X mj + ε j där m är antalet oberoende variabler X. Den skattade modellen skrivs: Y j = a + b 1 X 1j + b 2 X 2j + + b m X mj Dessa skattningar är beräkningstunga, så för multipel linjär regression är vi hänvisade till datorer för att beräkna de olika regressionskoefficienterna. Tolkningen av en regressionskoefficient blir: förväntad förändring i Y när variabeln X ökar en enhet, under förutsättning att de övriga oberoende variablerna X hålls konstanta. 3
Analysstart Det är svårt att rent visuellt beskriva multipel linjär regression, eftersom det kan bestå av så många dimensioner. En god rutin är att först visuellt undersöka vilka samband den beroende variabeln Y har med var och en av de oberoende variablerna X. Alltså, att först göra m stycken spridningsdiagram. 4
Exempel Vi bygger vidare på exemplet med tomatodlaren. Odlaren har även mätt koncentrationen av fosfor och kalium i jorden där de 12 olika plantorna står. Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) 1 18 4 2 4 2 14 1 6 2 3 10 3 1 2 4 12 2 2 1 5 21 5 3 3 6 19 2 6 1 7 10 2 1 1 8 18 5 2 5 9 22 6 1 4 10 5 1 1 2 11 21 5 2 3 12 19 2 7 5 5
Exempel Scatterplot of Antal tomater vs Fosfor (%) 22,5 20,0 17,5 22,5 Scatterplot of Antal tomater vs Kväve (%) Antal tomater 15,0 12,5 10,0 20,0 7,5 Antal tomater 17,5 15,0 12,5 10,0 7,5 5,0 5,0 22,5 20,0 1 2 3 4 5 6 Fosfor (%) Scatterplot of Antal tomater vs Kalium (%) 7 1 2 3 4 Kväve (%) 5 6 Antal tomater 17,5 15,0 12,5 10,0 7,5 5,0 1 2 3 Kalium (%) 4 5 6
Exempel Den skattade regressionen blir: Y = 0,99 + 3,41 X 1 + 1,90 X 2-0,525 X 3 Där: Y = antalet förväntade tomater X 1 = Kvävekoncentration (%) X 2 = Fosforkoncentration (%) X 3 = Kaliumkoncentration (%) Tolka regressionskoefficienterna. (GB s. 453-454, BB s. 425-426) 7
Är regressionen signifikant? I multipel linjär regression testar inte F-testet och t-testet samma sak, som de gör i fallet enkel linjär regression. F-testet undersöker om regressionen är signifikant, medan det görs ett t-test för varje koefficient för att undersöka om just den koefficienten är signifikant. Vi fokuserar först på F-testet. (GB s.455-456, BB s.427-428) H 0 : β 1 = β 2 = = β m = 0 H a : minst en β 0 regression MS F = residual MS Testvariabeln jämförs med F α 1,m,n m 1. Om testvariabeln är större än det kritiska värdet förkastas nollhypotesen. 8
Är regressionen signifikant? (GB s.455, BB s.427) Variationskälla SS DF MS Regression Y j തY 2 m SS/DF Residual Y j Y j 2 n m 1 SS/DF Total Y j തY 2 n 1 SS/DF 9
Hur bra är regressionen? (GB s. 456, BB s. 428) Även i multipel linjär regression är det intressant att veta hur bra den är med hjälp av förklaringsgraden (R 2 ). R 2 regression SS = total SS Dock ökar alltid förklaringsgraden när en ny oberoende variabel läggs till i regressionen. Därför används en justerad förklaringsgrad (R 2 a ) när man ska jämföra två modeller med olika antal oberoende variabler. R 2 residual MS residual SS Τ(n m 1) a = 1 = 1 total MS total SS Τ(n 1) 10
Test och intervall för koefficienter (GB 458-59,BB 430-31) Om F-testet visar att regressionen är signifikant så är det intressant att undersöka vilken/vilka av regressionskoefficienterna som är signifikanta. Detta görs med hjälp av t-test: H 0 : β i = β 0 H a : β i β 0 t = b i β 0 s bi där s bi hämtas från datorutskrift. Konfidensintervall kan också skapas: b i ± t α 2,n m 1 s bi 11
Exempel Nyttja utskriften från SPSS nedan och undersök om regressionen är signifikant, beräkna förklaringsgrad, justerad förklaringsgrad och undersök vilka koefficienter som är signifikanta. 12
Prediktera Y För att prediktera förväntade värden på Y används först den skattade regressionsekvationen för att beräkna ett förväntat värde på Y och därefter kan man skapa konfidensintervall eller prediktionsintervall. Konfidensintervall: Y ± t α 2,n m 1 s y Prediktionsintervall: Y ± t α 2,n m 1 s Y p Där standardavvikelsen hämtas från datorutskrift enligt kommande exempel. 13
Prediktera Y, exempel Tomatodlaren vill prediktera antalet tomater för plantor som står i jord med 4,7 % kvävekoncentration och 3,5 % fosforkoncentration. Eftersom kaliumkoncentration ej var signifikant enligt tidigare exempel har denna tagits bort ur analysen. Skapa både konfidens- och prediktionsintervall. 14
Indikatorvariabler (GB s. 471, BB s. 443) I regression kan det vara lämpligt att införa så kallade indikatorvariabler (dummyvariabler). Detta är variabler som antar antingen värdet 0 eller 1 och motsvarar en kategori hos variabeln, t.ex. kön där hanar kodas som 0 och honor 1. För exemplet med tomatodlaren kanske tomaterna odlas i två olika växthus. Då kan en fjärde oberoende variabel (X 4 ) införas: 1 om plantan odlas i växthus 1 X 4 = ቊ 0 om plantan inte odlas i växthus 1 Så i detta fallet blir β 4 skillnaden i genomsnittsantalet tomater på en planta mellan de två växthusen. 15
Exempel indikatorvariabel Planta Antal tomater Kväve (%) Fosfor (%) Kalium (%) Växthus 1 18 4 2 4 1 2 14 1 6 2 1 3 10 3 1 2 0 4 12 2 2 1 0 5 21 5 3 3 1 6 19 2 6 1 0 7 10 2 1 1 0 8 18 5 2 5 1 9 22 6 1 4 1 10 5 1 1 2 1 11 21 5 2 3 0 12 19 2 7 5 1 Antal tomater = 1,03 + 3,37 Kväve (%) + 1,90 Fosfor (%) - 0,385 Kalium (%) - 0,45 Växthus 16
Interaktionsvariabler (GB s. 472, BB s. 444) En annan typ av variabel som kan införas är interaktionsvariabler. Denna införs om två eller flera oberoende variabler interagerar (samspelar) med varandra. T.ex. om effekten på Y från X 1 kan vara olika för olika nivåer på X 2. En interaktionsvariabel har då följande utseende: X 1 *X 2. 17
Problem som kan uppstå Ett problem som kan uppstå när man använder sig av multipel linjär regression är så kallad multikollinearitet. Detta uppstår när två eller flera oberoende variabler är starkt beroende av varandra, dvs. de är högt korrelerade. Den vanligaste konsekvensen av detta är att de skattade koefficienterna blir ologiska. Det kan upptäckas genom att observera t-testen och F- testet. Visar dessa test olika resultat (m.a.p. p-värden) är det stor risk för att det finns multikollinearitet i regressionen. Multikollinearitet ska inte förväxlas med interaktion. 18
Tack för idag! Nästa tillfälle: Lektion 5, måndag 15 maj 10-12, sal E330 19