Föreläsning 4 Statistik; teori och tillämpning i biologi 1
Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar (kap 24) o Binomialfördelning (kap 24.1) 2
Icke-parametriska test De metoder som diskuterats hittills bygger på att de observerade variablerna eller att fördelningen för deras medelvärden kan anses vara approximativt normalfördelade. Dessa metoder kallas parametriska. Men vad gör man om det ej går att anta normalfördelning? Då kan man använda sig av icke-parametriska test. Dessa test kallas även för fördelningsfria test, vilket kommer ifrån att de inte bygger på något antagande om normalfördelning. Dock måste stickproven vara slumpmässigt dragna och oberoende av varandra. 3
Icke-parametriska test Mann-Whitney Mann-Whitneys test används när man vill jämföra två oberoende stickprov. Hypoteserna formuleras lite annorlunda vid ickeparametriska test: H 0 : Det finns inga skillnader mellan population 1 och population 2 H a : Det finns skillnader mellan population 1 och population 2 Det går även att göra enkelsidiga test: H 0 : Det finns inga skillnader mellan population 1 och population 2 H a : Population 1 har högre värden än population 2 För att göra det enkelt för sig då man för testet ska leta upp kritiskt värde i tabell kan man välja population 1 och population 2 så att n 1 n 2. 4
Icke-parametriska test Mann-Whitney Det första som görs är att man rangordnar alla observationer från minsta till största värde. Minsta värdet får rangtal 1, näst minsta rangtal 2 och så vidare. Om två eller fler värden får samma rangtal kallas de för ties. Alla dessa värden får då samma rangtal, genom att man beräknar medelvärdet på de aktuella rangtalen. Därefter summeras alla rangtal för vardera stickprov, summan för grupp 1 kallas R 1 och för grupp 2 R 2. Vid dubbelsidigt test beräknas två testvariabler: (GB s. 171, BB s. 163) U = n 1 n 2 + n 1(n 1 + 1) R 2 1 U = n 1 n 2 + n 2(n 2 + 1) R 2 2 5
Icke-parametriska test Mann-Whitney Vid en dubbelsidig mothypotes jämförs det största värdet av U och U med det kritiska värdet U α 2,n1,n 2. H 0 förkastas när U eller U är större än det kritiska värdet. Vid enkelsidig mothypotes behövs bara en testvariabel beräknas, och vilken det är beror på hypotesformuleringen: (GB s. 174 (c), BB s. 166 (c)) H a : Population 1 har lägre värden än population 2 H a : Population 1 har högre värden än population 2 Testvariabel U U Kritiskt värde U α 1,n1,n 2 U α 1,n1,n 2 6
Icke-parametriska test Exempel Mann-Whitney Man vill undersöka om det är någon skillnad i hur snabbt palmplantor växer i lerig respektive sandig jord. De planteras och växer i sex veckor, sedan mäts deras höjd i centimeter. Lerig jord Sandig jord 24 22 41 6 17 11 38 15 31 4 a) Undersök på 5 % signifikansnivå om det är någon skillnad i växthastighet. b) Undersök på 1 % signifikansnivå om palmplantor växer snabbare i lerig jord. 13 7
Icke-parametriska test Wilcoxons test för parvisa observationer När man vill göra ett icke-parametriskt test för parvisa observationer används Wilcoxons test. Hypoteserna formuleras på samma sätt som för Mann-Whitneys test. Först beräknas differenserna för varje enhet, och sedan rangordnas de absoluta differenserna från minsta till största. Därefter summeras rangtalen för de negativa differenserna (T ) och de positiva differenserna (T + ) var för sig. Vid dubbelsidiga test förkastas H 0 om någon av dessa summor är mindre än T α 2 ;n, där n är antalet differenser som inte är 0. (GB s. 194, 196(1), BB s. 184, 186(1)) Enkelsidiga test kan också genomföras och beslutsregler för detta finns att läsa för Wilcoxons test i boken. 8
Icke-parametriska test Exempel: Wilcoxons test för parvisa observationer Normalfördelningen kan ifrågasättas gällande exemplet för sprinters prestationer på en okänd bana, speciellt med tanke på stickprovets storlek. Frågan om sprinters presterar bättre på en bana de känner till bör då utredas med hjälp av Wilcoxons test. Sprinter Dag 1 Dag 2 1 20,23 20,19 2 20,10 20,11 3 20,33 20,25 4 20,18 20,16 5 20,41 20,43 6 20,02 19,99 7 20,17 20,17 8 20,36 20,32 9 20,07 20,08 10 20,21 20,15 9
Transformationer Istället för att använda sig av icke-parametriska test kan man välja att transformera datamaterialet. Att transformera innebär att originalvärdena görs om till nya värden, som (teoretiskt) uppfyller normalfördelningskravet. Boken tar upp tre olika transformationer: 1. Logaritm-transformation 2. Kvadratrots-transformation 3. Arcsin-transformation 10
Transformationer Logaritm-transformationen När datamaterialet är skevt fördelat kan logaritmtransformationen användas. Det spelar ingen roll om den naturliga logaritmen eller 10-logaritmen används. På grund av att log 0 = och att log( X) ej är definierat får datamaterialet ej innehålla 0 eller negativa värden. Men, om datamaterialet innehåller en relativt stor del små värden och eventuellt nollor kan X transformeras enligt: (GB s. 304, BB s. 288) X = log (X + 1) 11
Frekvens Transformationer Exempel logaritm-transformationen 180 Histogram över totalfosfor (μg/l) 160 140 120 100 80 60 40 20 0 10 20 30 40 50 Totalfosfor (μg/l) 60 70 12
Transformationer Exempel logaritm-transformationen 13
Transformationer Exempel logaritm-transformationen Beräknat medelvärde och konfidensintervall för de transformerade värdena från Minitab: Variable N Mean 95% CI C2 1641 3,17554 (3,15763; 3,19346) För att kunna tolka dessa värden måste de antilogaritmeras! Och om log (X + 1) har använts måste 1 subtraheras från dessa antilogaritmerade värden. 14
Transformationer Kvadratrots- och arcsintransformation Kvadratrotstransformation används när variansen är proportionell mot medelvärdet, dvs. när medelvärdet ökar så ökar variansen. Transformationen sker enligt: (GB s. 307, BB s. 291) X = X + 0,5 Arcsintransformation används framförallt för binomialfördelade datamaterial. Denna fördelning kommer vi att diskutera nu. 15
Andelar (proportioner) En andel (proportion) betecknas med p och är en del av en population med en viss egenskap. Andelen som ej har denna egenskap betecknas med q = 1 - p. Angående andelar kommer vi diskutera hur man kan: Beräkna sannolikheter utifrån andelar Använda hypotesprövning och konfidensintervall för en andel Använda hypotesprövning och konfidensintervall för att jämföra två andelar Använda olika approximationer vid beräkningar av andelar 16
Sannolikhet (%) Binomialfördelningen Binomialfördelningen är enklast att beskriva med ett exempel. Antag att 30 % av invånarna i Sverige är blåögda. Ett obundet slumpmässigt urval om 10 personer dras. Vi definierar variabeln X = antal blåögda personer i stickprovet. Denna variabel X blir binomialfördelad enligt bin(n=10, p=0.3). 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 Antalet blåögda personer i stickprovet 9 10 17
Binomialfördelningen För att beräkna sannolikheter för ett visst antal i stickprovet används formeln: (GB s. 556, BB s. 520) P X = n X px q n X n! = X! n X! px q (n X) Beräkna för stickprovet bestående av 10 stycken slumpmässigt valda svenska invånare: a) Sannolikheten att exakt två personer i stickprovet är blåögda b) Sannolikheten att två personer eller färre i stickprovet är blåögda 18
Binomialfördelningen Poissonfördelning och normalapproximation När p är väldigt litet och n är väldigt stort bör Poissonfördelningen användas. Denna fördelning diskuteras ej i kursen, men den finns förklarad i kapitel 25. När vi senare kommer att genomföra hypotesprövning och konfidensintervall för andelar kommer normal-approximation att användas. Detta är dock inte helt perfekt: Inte bra när p är nära 0 eller 1. Inte bra när n är litet. Författaren föreslår som regel att p 0 n och q 0 n ska vara minst 5 för att normalapproximation ska kunna användas. 19
Tack för idag! Nästa tillfälle: Lektion 2, tisdag 16 feb, kl. 10-12, sal U10 20