Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 6 Statistik; teori och tillämpning i biologi 1

Analysis of Variance (ANOVA) (GB s. 202-218, BB s. 190-206) ANOVA är en metod som används när man ska undersöka skillnader mellan flera olika grupper (i ett planerat experiment). Under denna föreläsning kommer vi att diskutera envägs-anova, vilket innebär att man vill undersöka skillnader mellan grupper som är indelade efter en variabel (faktor). Hypoteserna formuleras på följande vis: H 0 : μ 1 = μ 2 = = μ k H a : minst två μ är olika där k är antalet grupper som ska jämföras. 2

Beteckningar Först ska vi gå igenom vad de olika beteckningarna står för i ANOVA. Notera att detta är kursbokens beteckningar och det kan vara annorlunda i andra böcker. k antalet grupper X ij observation nummer j i grupp nummer i n i antalet observationer i grupp nummer i N totala antalet observationer X i stickprovsmedelvärde för grupp nummer i X stickprovsmedelvärde för alla grupper 3

Beteckningar (GB s. 205-207, BB s. 193-195) total SS är den totala variansen och beräknas: k n i i=1 j=1 X ij X 2 groups SS är variansen mellan grupperna: k i=1 n i X i X 2 error (within-groups) SS är variansen inom grupperna: k n i i=1 j=1 X ij X i 2 4

Beteckningar (GB s. 209, BB s. 197) total SS = groups SS + error SS De olika kvadratsummorna har olika antal frihetsgrader (DF), och dessa är: o total DF = N 1 o groups DF = k 1 o error DF = N k groups MS = groups SS groups DF error MS (MSE) = error SS error DF 5

Jämföra medelvärden När man undersöker om två eller flera medelvärden är skilda från varandra med hjälp av ANOVA genomförs det enligt de fyra stegen för hypotesprövning. Först formuleras hypoteser enligt: H 0 : μ 1 = μ 2 = = μ k H a : minst två μ är olika Signifikansnivån sätts vanligtvis till 0.10, 0.05 eller 0.01. 6

Jämföra medelvärden Därefter beräknas testvariabeln, F: (GB s. 209(c), BB s. 197(c)) F = groups MS error MS = groups SS (k 1) error SS (N k) Denna testvariabel jämförs sedan med det kritiska värdet F α 1, k 1,(N k) (tabell B.4). Om testvariabeln är större än det kritiska värdet kan nollhypotesen förkastas. Om nollhypotesen är sann (alla medelvärden lika) finns det ingen signifikant skillnad för variansen mellan grupperna jämfört med variansen inom grupperna. Om medelvärdena är olika stora kommer groups MS vara större än error MS. Med hjälp av testvariabeln och det kritiska värdet undersöks det om groups MS är signifikant större än error MS. 7

Jämföra medelvärden (GB s. 210, BB s. 198) I en datorutskrift brukar alla dessa beräkningar sammanställas i en ANOVA-tabell. DF SS MS F P-värde k Groups k 1 n i X i X 2 i=1 SS DF Groups MS Error MS För F- testet Error N k X ij X i 2 k i=1 n i j=1 SS DF Total N 1 X ij X 2 k n i i=1 j=1 8

Jämföra medelvärden, exempel En grisuppfödare ska testa fyra olika foder på sina grisar. Då uppfödaren tjänar mer pengar på grisar som väger mer vill uppfödaren undersöka vilket foder som leder till att grisarna går upp mest i vikt. Uppfödaren väljer ut 21 identiska grisar och ger dessa fyra olika foder. Efter två månader vägs grisarna och deras viktökning i kg noteras. Är det skillnad i viktökning mellan fodren? Foder 1 Foder 2 Foder 3 Foder 4 2,3 4,5 0,9 5,7 2,1 6,4 0,7 7,3 1,7 6,2 2,3 7,9 3,6 3,9 1,2 6,2 2,4 4,9 0,6 7,6 5,2 9

Multipla jämförelser Om nollhypotesen förkastas vet vi att det finns skillnad mellan minst två medelvärden. Men det är intressant att veta mellan vilka medelvärden det är signifikant skillnad! Detta kan undersökas med hjälp av multipla jämförelser. Det är metoder som används för att göra flera hypotesprövningar och konfidensintervall som tillsammans får den eftersökta konfidensgraden (1 α). De olika multipla jämförelserna vi ska diskutera är Tukeys test, Dunnetts test och Scheffes test (nästa föreläsning). 10

Multipla jämförelser, Tukeys test Om man vill undersöka alla möjliga par av medelvärden ska Tukeys test användas. Detta test genomför hypotesprövning för alla möjliga par av medelvärden, så det är de vanliga fyra stegen i hypotesprövning som ska genomföras. Vid handräkning är det smidigt att börja med att rangordna medelvärdena och först testa om det största är skilt från det minsta, därefter om det största är skilt från det näst minsta osv. Testvariabeln q beräknas enligt: (GB s. 243-244, BB s. 229-230) q = X B X A SE där SE beräknas på olika sätt beroende på om n är lika eller inte i de två avsedda grupperna. 11

Multipla jämförelser, Tukeys test Om n är lika: SE = s2 n = error MS n Om n är olika (kallas även Tukey-Kramer test): SE = s2 2 1 n B + 1 n A = error MS 2 1 n B + 1 n A q jämförs sedan med det kritiska värdet q α, N k,k som hämtas från tabell B.5. Är testvariabeln q större än det kritiska värdet förkastas nollhypotesen. SE kan även beräknas när man inte kan anta att varianserna är lika i grupperna, se formel (11.5) i BB och (5) på s. 246 i GB. 12

Multipla jämförelser, Dunnetts test Dunnetts test används när en av grupperna är kontrollgrupp, och de andra grupperna bara ska jämföras med denna kontrollgrupp. De fyra stegen för hypotesprövning följs. Testvariabeln q beräknas enligt: (GB s. 249, BB s. 235) Där: q = X control X A SE SE = 2s2 n = 2 error MS n SE = s 2 1 n A + 1 n control = error MS 1 n A + 1 n control 13

Multipla jämförelser, Dunnetts test Vid användning av Dunnetts test går det att göra både enkelsidiga och dubbelsidiga test, vilket inte går vid användning av Tukeys test. Så, beroende på hypotesernas utformning förkastas nollhypotesen : när q är större än q α 2,N k,k när q är större än q α 1,N k,k (dubbelsidigt test) (enkelsidigt test) 14

Multipla jämförelser, konfidensintervall Tukeys metod (GB s. 247, BB s. 233) X i ± t α 2,N k error MS n i X B X A ± q α,n k,k SE Dunnetts metod (GB s. 250-251, BB s. 236-237) X control X A ± q α 2,N k,k SE X control X A q α 1,N k,k X control X A + q α 1,N k,k SE SE 15

Multipla jämförelser, exempel Vi återvänder till exemplet gällande grisfoder. Med hjälp av hypotesprövning upptäcktes en statistiskt säkerställd skillnad i viktökning mellan de fyra fodren. Följande frågeställningar ska utredas: a) Undersök mellan vilka foder det finns statistiskt säkerställd skillnad. b) Skapa ett 95 % konfidensintervall för den största skillnaden. c) Anta att foder 1 är samma foder som grisarna ätit sedan födseln, och därmed kan ses som kontrollgrupp. Jämför övriga foder med denna kontrollgrupp. d) Skapa ett 95 % konfidensintervall för den största skillnaden. 16

Icke-parametriskt test, Kruskal-Wallis Vi återgår till de test vi pratade om i början av föreläsningen. När testvariabeln F beräknas antar vi att stickproven för de olika grupperna kommer från normalfördelade populationer. När detta antagande ej uppfylls ska ett icke-parametriskt test användas, Kruskal-Wallis test. Hypoteserna formuleras i ord: H 0 : Det finns inga skillnader mellan grupperna H A : Det finns skillnader mellan grupperna Det första som görs är att observationerna rangordnas. Den lägsta observationen får rangtal 1, nästa lägsta rangtal 2 osv. 17

Icke-parametriskt test, Kruskal-Wallis Testvariabeln H beräknas enligt: (GB s. 226-230, BB s. 214-218) H = 12 N(N + 1) k i=1 R i 2 n i 3(N + 1) där R i är summan av rangtalen i grupp i. Om det finns ties (observationer som hamnar på samma rangtal) justeras H: H C = H C m i=1(t 3 i t i ) C = 1 N 3 N där t i är antalet ties i den i: te gruppen med ties. Testvariabeln jämförs sedan med ett kritiskt värde från tabell B.13 om k 5, 2 annars jämförs den med χ k 1 (tabell B.1). Om testvariabeln är större än det kritiska värdet förkastas nollhypotesen. 18

Icke-parametriskt test, exempel Kruskal-Wallis Om någon ifrågasätter antagandet att stickproven för de olika fodergrupperna i det tidigare exemplet kommer från normalfördelade populationer kan vi beräkna ett icke-parametriskt test. Utred om det finns skillnader i viktökning mellan de olika fodren med hjälp av Kruskal-Wallis test. 19

Tack för idag! Nästa tillfälle: Lektion 3, onsdag 2 mars 8-10, sal E324 20