Kvalster och regression: lineära modeller för bivariata samband Matematik och statistik för biologer, 10 hp En viss sorts kvalster (Demodex folliculorum) trivs bra i människors hårsäckar. Enligt en studie från 1976 förekommer de hos de flesta vuxna människor. Fredrik Jonsson Januari 2012 I följande datamaterial undersöktes tio personer i olika åldrar. Antal observerade kvalster noterades bland 50 undersökta ögonbryn: Ålder 3 6 9 12 15 18 21 24 27 30 Antal 5 13 16 14 18 23 20 32 29 28, vt12 (1 : 31), vt12 (2 : 31) Spridningsdiagram Bivariata samband Följande spridningsdiagram indikerar att det finns ett klart samband mellan de två variablerna. Två faktorer, x och y. Data: ett urval parvisa observationer (x 1, y 1 ),..., (x n, y n ). Relevanta frågor: Samverkar eller motverkar faktorerna av varandra? Är de oberoende av varandra? Vad kan stickprovet säga om det allmänna sammanhanget? Är x och y korrelerade? Finns det något kausalt samband mellan x och y?, vt12 (3 : 31), vt12 (4 : 31)
, kausalitet och oberoende Exempel Begreppet korrelation syftar på i vilken grad och riktning två faktorer samverkar. Man kan tänka sig flera förklaringar till vad som orsakar en korrelation. Ett annat ord för orsakssamband är kausalitet. Att två faktorer är okorrelerade brukar oftast tolkas som att de inte samverkar, dvs. att de inverkar oberoende av varandra. KOMMENTAR: syftar för det mesta på graden av lineär samverkan. Det betyder att det kan finnas icke-lineära beroenden som klassas som icke-korrelation. Man kan på olika sätt observera en markant korrelation mellan rökning och lungcancer. Beror det på att rökning orsakar lungcancer? Eller beror det på att rökare ofta står utomhus på vintern och drar i sig kall luft, vilket i sin tur orsakar lungproblem? Hur ofta drabbas rökare respektive icke-rökare? När klassas man som rökare?, vt12 (5 : 31), vt12 (6 : 31) skoefficient Exempel Räknar man ut syftar på olika mått på graden av samverkan mellan två faktorer. Vi ska här enbart behandla så kallad Pearson-korrelation, vilket även kallas Produkt-moment korrelation. Denna korrelationskoefficient definieras: r = (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 r = (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 för föregående exempel med x 3 6 9 12 15 18 21 24 27 30 y 5 13 16 14 18 23 20 32 29 28 finner man: r = 0.93 ( x = 16.5, ȳ = 19.8), vt12 (7 : 31), vt12 (8 : 31)
Positiv och negativ korrelation Signifikant korrelation Den givna definitionen uppfyller följande matematiska egenskaper: 1 r 1 r = 1 precis då y = a + bx med b > 0 r = 1 precis då y = a + bx med b < 0 Ej väldefinierad om endera x eller y uppvisar total brist på variation. Även om två faktorer är totalt oberoende av varandra så blir den observerade korrelationen i allmänhet endera positiv eller negativ. Detta till följd av slumpmässighet orsakad av de begränsade urvalet. Man brukar skilja på: Positiv korrelation: r > 0 (samverkande faktorer) Statistisk programvara brukar därför rapportera p-värden i samband med beräkningar av korrelationskoefficienter. Negativ korrelation: r < 0 (motverkande faktorer) Okorrelerat samband: r = 0, vt12 (9 : 31), vt12 (10 : 31) och p-värden Nytt spridningsdiagram skoefficienten r = 0.93 i föregående exempel med kvalster brukar i allmänhet klassas som hög, dvs. nära det maximala värdet 1. Antag nu att vi kastar om ordningen i åldrarna i föregående exempel enligt följande beskrivning: I detta fall blir motsvarande p-värde 0.000. Detta indikerar att vi kan känna oss förhållandevis säkra i slutsatsen om positiv korrelation, trots att urvalet var begränsat. Motsvarande korrelationskoefficient blir då: r = 0.52, vt12 (11 : 31), vt12 (12 : 31)
Icke-signifikant korrelation sanalys I exemplet med r = 0.52 råder fortfarande en positiv tendens. Den är dock mindre tydlig jämfört med r = 0.93. Motsvarande p-värde är 0.12. sanalys går ut på att anpassa ett lineärt samband y = a + bx med hänsyn till att y inte bara förklaras av x, utan även påverkas av slumpmässig variation. a och b kallas för anpassade koefficienter. Närmare bestämt, a brukar kallas för intercept och b för lutningskoefficient. Med andra ord är vi inte lika säkra längre på att det verkligen råder en positiv korrelation. TOLKNING: Givet noll-korrelation och 10 observationer är det cirka 12% sannolikhet att observera r 0.52., vt12 (13 : 31), vt12 (14 : 31) sanalys: modell Varför regressionsanalys? Modellen vi utgår ifrån brukar beskrivas: y i = α + βx i + ε i, i = 1,..., n, där ε i syftar på regelbundna, slumpmässigt normalfördelade effekter med samma variation. De erhållna koefficienterna a och b brukar kallas för skattade parametrar. Ett enkelt sätt att få en kvantitativ bild över hur de två variablerna är relaterade. Om x är lätt att mäta men inte y så kan det vara värdefullt att känna till sambandet. Om man har en idé om att det bör finnas ett samband mellan x och y så kan det vara bra att göra analysen för att: bekräfta, åskådliggöra och få mer evidens. Möjlighet till prediktion: Om x = x 0 vad blir då y?, vt12 (15 : 31), vt12 (16 : 31)
Vad regressionsanalysen primärt åstadkommer 1. Att anpassa intercept och lutning 1. Lämpliga skattningar a och b av parametrarna α och β. 2. Ett mått på modellens anpassning/den slumpmässiga effektens betydelse, så kallad förklaringsgrad. Görs med den så kallade minsta-kvadrat-metoden (). Den erhållna linjen kan illustreras grafiskt: 3a. Två p-värden motsvarande frågorna huruvida α och β är nollskilda. 3b. Möjlighet till prediktion och så kallade prediktionsintervall. I detta fall är a = 5.7 och b = 0.85., vt12 (17 : 31), vt12 (18 : 31) Minsta-kvadrat-metoden 2. Förklaringsgrad Idén bakom minsta-kvadrat-metoden är att välja koefficienter a och b som ger den bästa anpassningen i termer av att minimera följande kvadratsumma: n ( yi (a + bx i ) ) 2 skoefficienten i kvadrat, r 2, brukar i samband med regression kallas för motsvarande förklaringsgrad, och anges i procent. Svaret blir: b = (x i x)(y i ȳ) (x i x) 2 a = ȳ b x I detta fall är r 2 = 86%., vt12 (19 : 31), vt12 (20 : 31)
Förklaringsgrad: tolkning Förklaringsgraden r 2 brukar tolkas på följande sätt: Höga procentvärden: god anpassning av den lineära modellen. Ett lågt procentvärde kan indikera att den slumpmässiga variationen har en stor inverkan. Ett lågt procentvärde kan även indikera att sambandet mellan x och y är icke-lineärt. EXEMPEL: r 2 = 86% är en klart godkänd förklaringsgrad. Spridningsdiagrammet visar att den slumpmässiga variationen har en viss inverkan, men inga tydliga tecken på icke-linearitet., vt12 (21 : 31) Exempel: ändrad ordning i data Med den omkastade ordningen får vi istället följande regressionsanalys: I detta fall blir a = 11.8, b = 0.48 och r 2 = 0.27. p-värden motsvarande de två koefficienterna är p = 0.05 och p = 0.12., vt12 (22 : 31) Jämförelse: ordnad/oordnad data a b r 2 V 5.7 0.85 0.86 H 11.8 0.48 0.27 Lutningen är mer markant till vänster. Förklaringsgraden är avsevärt högre till vänster, med bättre anpassning av den lineära modellen och mindre variation., vt12 (23 : 31) 3a. Huruvida α och β är nollskilda Motsvarande p-värden beräknas med en metod som är en direkt utveckling av t-testen som vi studerade mer noggrant tidigare i kursen. I detta fall är motsvarande p-värden väldigt små, vilket innebär stor säkerhet i att lutningen är positiv och att linjen skär y-axeln i det övre halvplanet., vt12 (24 : 31)
t-test för nollskilda koefficienter 3b. Prediktionsintervall Givet modellen: y i = α + βx i + ε i blir den skattade lutningen: b = (x i x)(y i ȳ) (x i x) 2 n = β + (x i x)(ε i ε) (x i x) 2 Den slumpmässiga tillskottet b β beter sig därmed som ett viktat medelvärde av oberoende slumpvariabler, och det går att tillämpa samma idéer som när man analyserar osäkerheten i stickprovsmedelvärde. Om x = x 0 vad blir då y? PRELIMINÄRT SVAR: y = a + bx 0 TOLKNING AV SVARET: Det finns två möjliga tolkningar av detta svar. Antingen ser vi y som en skattning av parametern α + βx 0 (genomsnittligt y-värde då x = x 0 ) Eller så ser vi y som en prediktion av responsvariabeln då x = x 0. PREDIKTIONSINTERVALL/KONFIDENSINTERVALL: Konfidensintervall fångar den korrekta parametern med 95% säkerhet. Prediktionsintervall fångar responsvariabeln med 95% säkerhet., vt12 (25 : 31), vt12 (26 : 31) Exempel: Prediktionsintervall Förutsättningar: sanalys Hur många kvalser har man vid 29 års ålder? Modellen vi utgår ifrån brukar beskrivas: Motsvarande y-värde blir 30.46. Det genomsnittliga värdet fångas med ett 95 % KI: [26.2, 34.7]. Motsvarande predktionsintervall blir: [21.7, 39.2]., vt12 (27 : 31) y i = α + βx i + ε i, i = 1,..., n. Denna modell bygger på en del antaganden, exempelvis: Linjäritet. Är sambandet mellan x och y någorlunda linjärt? Varianshomogenitet. Är det rimligt med ε i N(0, σ 2 ) Normalfördelning hos felen. Finns det markanta skevheter eller avvikande värden (outliers)? En välskriven rapport innehåller diskussion och ev. grafisk illustration av dessa punkter., vt12 (28 : 31)
: korrelation : regression Givet parvisa observationer (x 1, y 1 ),..., (x n, y n ) beräknas motsvarande korrelationskoefficient: r = (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 Vi har sett exempel på hur man tolkar denna i termer av grad och riktning av lineär samverkan. Vi har även sett exempel på motsvarande p-värden och tolkning i termer av att utesluta/ej utesluta så kallad noll-korrelation. Givet parvisa observationer (x 1, y 1 ),..., (x n, y n ) anpassas ett lineärt samband y = a + bx med den så kallade minsta-kvadrat-metoden. Vi har sett exempel på hur denna anpassning kan tolkas i termer av en statistisk modell med okända parametrar α och β. Begreppet förklaringsgrad har introducerats, som ett mått på graden av anpassning mellan observationerna (x 1, y 1 ),..., (x n, y n ) och det erhållna sambandet. Konfidensintervall och p-värden rörande: specifika parametervärden samt prediktionsintervall rörande responsvariabeln., vt12 (29 : 31), vt12 (30 : 31) Parvisa observationer hanteras lämpligast genom att mata in stickproven bredvid varandra i två separata kolumner. Beräkning av korrelationskoefficient och motsvarande p-värde: Stat Basic Statistics Corr sanalys: Stat... Prediktionsintervall hittar man under: Options..., vt12 (31 : 31)