ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 ) NBIB44 Lars Westerberg INNEHÅLLSFÖRTECKNING Introducera en metod att statistiskt testa: avvikelser från förväntat, eller samband mellan parametrar När används den? Vilka hypoteser kan besvaras? Hur ska data se ut? Vilka svar kan den ge? Hur ska svaren tolkas och presenteras? Demo Börjar mer generellt 1
NÄR BEHÖVS STATISTIK? Ekologi är komplext statistik behövs Statistik håller koll på osäkerheten och hjälper oss att dra kloka och säkra slutsatser från data För att förstå hur kunskap blir till: Observation tolkning/hypotes prediktion (- test) Hypotesprövning, försöksplanering och statistik Undvika hypoteser som är: Omöjliga frågor där svar ej finns Orealistiska frågor där svar finns men är ej åtkomligt Oprecisa frågor som först måste preciseras ÄR STATISTIK SVÅRT? En del tycker att statistik är svårt Egentligen väldigt lätt att tillämpa trots svår matematik bakom Acceptera vissa saker nu som kan komma förstås senare Bra design lätt statistik; ostrukturerad design mer komplicerad 2
HUR LÄR MAN SIG? Skapa kunskapen själv Olika lärstilar: Visuellt Auditivt Kinestetiskt Taktilt Laborationer, seminarier, grupparbete OK OK Kursböcker, föreläsningar, egenstudier OK? OK? ALTERNATIVT MATERIAL FÖR ATT SKAPA KUNSKAP http://en.wikipedia.org/wiki/pearson%27s_chisquared_test http://www.youtube.com/watch?v=2qedrsxsf9m http://www.youtube.com/watch?v=dnj_xxtix7e http://www.youtube.com/watch?v=wxpbofdqnvk http://mathworld.wolfram.com/chi-squaredtest.html http://www2.math.uu.se/~uwe/statistik_och_biologi_vt 2009/ http://udel.edu/~mcdonald/statchigof.html 3
NÄR BEHÖVS STATISTIK? 1. Hur många mögliga jordgubbar finns det i skålen? 2. Hur många mögliga jordgubbar finns i genomsnitt i en kartong? 3. Hur många mögliga jordgubbar finns i affären? Nja: en siffra ex. 6 st. eller 6 av 57 Ja: kan t.ex. anta att skålen är ett representativt stickprov (N=57) 6/57 Ja: kan t.ex. multiplicera 2. med antal kartonger i affären NÄR BEHÖVS STATISTIK? 1. Hur många elever i klassen klarar standardprovet? 2. Hur många av Sveriges elever klarar standardprovet? 3. Klarar dyslektiker provet sämre? Nja: en siffra bara, 25 av 27 Nja: bara en siffra, 12650 av 12903 Ja: undersök antalet dyslektiker i en delmängd och testa om dyslektiker klarar provet sämre 4
TESTA OBSERVERAT = FÖRVÄNTAT Observation: Fågelbon sitter ofta på södra sidan av trädstammen Tolkning/hypotes: Fåglar föredrar att bygga på södra sidan Nollhypotes (H0): Fåglar väljer att bygga på slumpmässig sida av trädstammen Prediktion: andelen fågelbon på södra stamsidan är högre P0: alla sidor lika vanliga TESTA OBSERVERAT = FÖRVÄNTAT Totalinventerar ett skogsparti på fågelbon Vi finner 200 st Registrerar bl.a. sida på stam Metod: Ett chi2-test användes för att testa nollhypotesen att fåglar inte väljer vilken sida att bygga bo på. Obs Exp(%) Exp freq (O-E) 2 /E N 46 25% 50 0.32 Ö 42 25% 50 1.28 S 60 25% 50 2 V 52 25% 50 0.08 200 100% 200 Cih2: 3.68 Df(4-1): 3 P: 0.121 Resultat: Chi2-testet var inte signifikant och fåglar verkar välja stamsida oberoende av kompassriktning (X2=3.68, df=3, P=0.12) 5
BEGREPP OCH ANTAGANDEN Nollhypotes: formuleras som motsatsen till hypotesen H0: Ingen skillnad mellan eller ingen effekt av Bara ett redskap Stickprov eller replikat N st. oberoende replikat (observationer) Representativt för populationer du vill uttala dig för (åtminstone begränsa extrapolation) Hela populationen Sant antal på varje stamsida Stickprov antal obs. = N BEGREPP OCH ANTAGANDEN Frihetsgrader Oftast N-1 (4-1=3) Antal värden som är fria N beror på det statistiska testet: vad betraktas som ett replikat? (O-E)2/E Obs Exp freq N 46 50 0.32 0.32 0 Ö 42 50 1.28 1.28 0 S 60 50 2 2 3 V 52 50 0.08?? 200 200 P-värde Sannolikheten för data om nollhypotesen är sann: P(data H0) Signifikant om P<0.05 (95%, 1/20); olika nivåer Chi2: 3.68 3.68 3.68 6
TESTA SAMBAND MELLAN PARAMETERAR Observation: Två arter av muräna hittas på olika ställen* Tolkning/hypotes: Muränearterna har olika habitatpreferens Nollhypotes: De har samma habitatpreferens *Young and Winn (2003) Prediktion: Olika arter förekommer oftare på områden med olika bottensubstrat P0: Båda förekommer lika ofta på de olika bottensubstraten TESTA SAMBAND MELLAN PARAMETRAR Ingen på förhand bestämd fördelning Två variabler: muräna-art och bottensubstrat Låtsas att en variabel inte finns (t.ex. art) Beräkna andel av observationer på de olika bottnarna Multiplicera med totalt antal obs för den arten Botten Art1 G. moringa Art2 G. vicinus Botten1; Gräs, obs obs a 127 b (c1*r1/s) (?) (c2*r1/s) Botten2; obs c d Sand, obs (c1*r2/s) 99 (c2*r2/s) Botten3; obs e (?) f (c1*r3/s) (c2*r3/s) Gräns, obs 264 c1=a+c+e(?) c2=b+d+f 116 r1=a+b (?) r2=c+d 67 (?) r3=e+f S=a+b+c+ 161 d+e+f (?) 7
TESTA SAMBAND MELLAN PARAMETRAR Ingen på förhand bestämd fördelning Två variabler: muräna-art och bottensubstrat Låtsas att en variabel inte finns (t.ex. art) Beräkna andel av observationer på de olika bottnarna Multiplicera med totalt antal obs för den arten Metod: Ett chi2-test användes för att testa nollhypotesen att muränearterna har samma habitat-preferens. Botten G. moringa G. vicinus Gräs, obs Sand, obs Gräns, obs 127 (142.8) 99 (97.5) 264 (249.7) Chi2=6.26; Df=(r-1)(c-1)=2 116 (100.2) 67 (68.5) 161 (175.3) Resultat: Chi2-testet var signifikant och G.vicinius verkar föredra gräsbotten medan G. moringa hittas i gränshabitatet mellan sand och gräs (tab. 1; chi2=6.26, df=2, P=0.044) OLIKA TYPER AV CHI2 TEST Goodness-of-fit (Anpassningstest) Passar observationerna till en på förhand känd fördelning? Test of association, Independence/homogeneity test (Oberoendetest) Är det någon skillnad mellan två observerade populationer? (Homogeneity) Är det någon samband mellan två variabler som båda mäts för varje observation? (Independence) Contingency table 8