Vad man bör tänka på innan man börjar analysera sina data SLU
Datakvalitet Fyra olika dataset gav följande samband: y = 3 + 0,5 x r 2 = 0,67 p = 0,002 Finns det ett samband mellan x och y?
Datakvalitet Titta på data: y1 y3 11 10 9 8 7 6 5 4 13 12 11 10 9 8 7 6 5 2 4 6 8 10 12 14 16 x1 2 4 6 8 10 12 14 16 x3
Bedömning av datakvalitet Finns det skrivfel? Finns det saknade värden eller saknade perioder? Finns det avvikande värden (Outliers) eller avvikande perioder? Finns det tillräckligt med data? Finns det brytpunkter i serien?
Datamaterialets egenskaper Hur ser data ut? Är observationerna oberoende? Finns det värden under en eller flera detektionsgräns(er)? Vilken fördelning har observationerna?
Ytterligare problem vid analys av data Homogenitet i Y Många nollor i Y Samvariation i X
Skrivfel Första kontroll av ett digitalt dataset bör omfatta: Har alla variabler rätt typ Numerisk / Text / Heltal, etc. Medel-, max- och minvärden Är dessa inom rimliga gränser? Hur kodas saknade värden? Tom cell, 0, -99, punkt
Skrivfel Vanliga misstag: Decimalkomma eller -punkt: 3,14 eller 3.14 Mellanrum eller apostrofer i nummer: 10 236 eller 10 236 Censurerade värden, t.ex. <100 Byte av enhet mitt i en kolumn: µg * l -1 till mg * l -1 Feltolkning av noll (0): mätvärde i stället för saknat värde Kolumnfel vid import av data
Saknade värden Enstaka, slumpvis fördelade saknade värden = inget stort problem Systematiska luckor i data = problem Var medveten om hur ditt program och din metod hanterar saknade värden: Tar bort hela raden Tar bort hela kolumnen Modelleras (imputeras) Inget program klarar av saknade värden!
Avvikande värden Stort problem i vissa statistiska metoder Litet eller inget problem i andra metoder Vagt definierat som ett avvikande värde
Box plot Hur hittar man avvikare? y3 y1 11 10 9 8 7 6 5 4 2 4 6 8 10 12 14 16 x1 13 12 11 10 9 8 7 6 5 2 4 6 8 10 12 14 16 x3 Cleveland plot, observerat värde mot radnummer 15000 Row number 10000 5000 0 0 50 100 150 200 TOC (mg/l)
Avvikande värden Visuell inspektion av data Grubbs test Relaterat till t-test. Avgör om ett värde tillhör samma statisiska population som resten av värdena. Flera andra test för kontroll av avvikande värden Finns även för multivariata data
När tar man bort avvikande värden? Uppenbara felaktigheter Endast om avvikande värden påverkar analysen Mindre riskabelt i stora dataset Borttagning måste baseras på ämneskunskap (miljö, biologi, kemi, etc.) När tar man inte bort avvikande värden? Om det avvikande värdet är korrekt och visar sanna variationen När analysen inte påverkas av avvikande värden Bör övervägas vid små dataset
Finns tillräckligt med data? Vilken fråga vill jag ha svar på? Hur stor risk är jag villig att ta att data råkar vara en samling extremvärden? Vad är kostnaden (ekonomiskt, ekologiskt, trovärdighet) för att: a) Missa en påverkan på miljön (typ II-fel) b) Felaktigt påstå att det finns en miljöpåverkan (typ I-fel)
Finns det brytpunkter i en dataserie? R 2 =.42 P <.001 P(x1) = 0.12 P(x2) <.001 Före Efter Utan hänsyn till brytpunkten: Y = α + β X + ε Bra samband mellan X 1 och Y Med hänsyn till brytpunkten: Y = α + β 1 X 1 + β 2 X 2 + ε Inget samband mellan X 1 och Y. Brytpunkten (X 2 ) signifikant
Finns det brytpunkter i en dataserie? Brytpunkt: I medelvärde I variation Orsak till brytpunkt måste undersökas Viktigt resultat i sig!
Hur ser data ut? Titta på data! y1 y3 11 10 9 8 7 6 5 4 13 12 11 10 9 8 7 6 5 2 4 6 8 10 12 14 16 x1 2 4 6 8 10 12 14 16 x3
Stationsko Min Max Abs_OF Abs_F Stationsnam ordinat Stationsko Stationsty Provtagnin Provtagnin Provtagnin Provdjup Provdjup SO4_IC NO2_NO3 Kjeldahl_N NH4_N Ca Kond_25 PO4_P Mg (420nm/5c Fluorid Tot_N_ps Alk (420nm/5c Na n N/X ordinat E/Y p Provdatum gs? gsm?ad gsdag (m) (m) (mekv/l) TOC (mg/l) Cl (mekv/l) _N (?g/l) (?g/l) Si (mg/l) (?g/l) (mekv/l) (ms/m25) ph () (?g/l) (mekv/l) m) (mg/l) (?g/l) (mekv/l) K (mekv/l) m) (mekv/l) Vattendra 1999-01- Alelyckan 321683 6406368 g 19 1999 1 19 0,5 0,5 0,265 4,9 0,232 512 360 0,81 29 0,375 9,57 7,15 7 0,135 0,188 0,11 994 0,26 0,032 0,046 0,316 Vattendra 1999-02- Alelyckan 321683 6406368 g 16 1999 2 16 0,5 0,5 0,27 4,2 0,24 489 336 0,28 18 0,375 9,87 7,17 5 0,139 0,127 0,12 871 0,269 0,03 0,045 0,329 Vattendra 1999-03- Alelyckan 321683 6406368 g 16 1999 3 16 0,5 0,5 0,264 5,7 0,241 507 487 1,43 20 0,38 9,6 7,12 3 0,134 0,177 0,1 846 0,26 0,028 0,046 0,305 Vattendra 1999-04- Alelyckan 321683 6406368 g 13 1999 4 13 0,5 0,5 0,262 4 0,245 559 255 0,7 13 0,383 9,7 7,22 4 0,14 0,112 0,11 878 0,267 0,031 0,036 0,331 Vattendra 1999-05- Always good to have a look at the relationships! Alelyckan 321683 6406368 g 18 1999 5 18 0,5 0,5 0,256 4,1 0,223 580 360 0,56 10 0,378 9,41 7,08 6 0,14 0,157 0,11 762 0,267 0,031 0,049 0,298 Vattendra 1999-06- Alelyckan 321683 6406368 g 15 1999 6 15 0,5 0,5 0,257 4,5 0,202 520 321 0,98 10 0,371 9,19 7,11 4 0,133 0,156 0,1 762 0,255 0,028 0,044 0,291 Vattendra 1999-07- Alelyckan 321683 6406368 g 12 1999 7 12 0,5 0,5 0,251 4,9 0,21 545 336 0,75 10 0,369 9,29 7,48 5 0,13 0,131 0,1 730 0,262 0,03 0,034 0,287 Vattendra 1999-08- Alelyckan 321683 6406368 g 17 1999 8 17 0,5 0,5 0,261 4,1 0,191 461 323 0,46 19 0,38 9,19 7,61 3 0,129 0,1 0,1 664 0,271 0,03 0,028 0,289 Vattendra 1999-09- Alelyckan 321683 6406368 g 14 1999 9 14 0,5 0,5 0,265 4,3 0,204 434 312 0,27 14 0,383 9,21 7,29 2 0,132 0,07 0,11 701 0,268 0,031 0,029 0,293 Vattendra 1999-10- Alelyckan 321683 6406368 g 12 1999 10 12 0,5 0,5 0,264 4,6 0,211 450 434 0,64 8 0,369 9,13 7 3 0,132 0,118 0,15 674 0,271 0,031 0,042 0,293 Vattendra 1999-11- Alelyckan 321683 6406368 g 16 1999 11 16 0,5 0,5 0,255 4,3 0,2 494 280 0,44 23 0,38 9,31 7,15 3 0,133 0,106 0,1 768 0,274 0,031 0,038 0,295 Vattendra 1999-12- Alelyckan 321683 6406368 g 14 1999 12 14 0,5 0,5 0,252 4,8 0,232 520 360 1,57 32 0,361 9,42 7,16 9 0,134 0,131 0,12 874 0,263 0,031 0,054 0,304 Vattendra 2000-01- Alelyckan 321683 6406368 g 11 2000 1 11 0,5 0,5 0,258 4,9 0,264 507 310 1,29 23 0,378 9,61 7,2 1 0,141 0,159 0,11 875 0,265 0,033 0,056 0,32 Vattendra 2000-02- Alelyckan 321683 6406368 g 15 2000 2 15 0,5 0,5 0,254 3,9 0,241 553 294 0,86 18 0,371 9,46 7,18 4 0,136 0,152 0,12 697 0,268 0,032 0,051 0,316 Vattendra 2000-03- Alelyckan 321683 6406368 g 14 2000 3 14 0,5 0,5 0,257 4,5 0,214 546 275 0,75 14 0,379 9,17 7,22 3 0,134 0,145 0,12 927 0,248 0,033 0,051 0,299 Vattendra 2000-04- Alelyckan 321683 6406368 g 18 2000 4 18 0,5 0,5 0,254 4,6 0,23 534 415 1,55 17 0,374 9,98 7,26 5 0,143 0,2 0,07 893 0,282 0,033 0,045 0,317 Vattendra 2000-05- Alelyckan 321683 6406368 g 16 2000 5 16 0,5 0,5 0,257 4,3 0,226 557 328 0,38 13 0,383 9,31 7,39 1 0,139 0,117 0,11 730 0,279 0,029 0,033 0,294 Vattendra 2000-06- Alelyckan 321683 6406368 g 13 2000 6 13 0,5 0,5 0,253 4,2 0,24 464 353 0,5 14 0,377 9,55 7,35 2 0,139 0,141 0,11 698 0,276 0,03 0,033 0,308 Vattendra 2000-07- Alelyckan 321683 6406368 g 06 2000 7 6 0,5 0,5 0,26 4,7 0,209 447 263 0,28 17 0,374 9,48 7,36 9 0,129 0,123 0,11 703 0,271 0,027 0,031 0,295 Vattendra 2000-08- Alelyckan 321683 6406368 g 15 2000 8 15 0,5 0,5 0,258 4,3 0,197 571 284 0,48 13 0,375 9,02 7,19 5 0,133 0,106 0,11 883 0,28 0,03 0,047 0,285 Vattendra 2002-03- Alelyckan 321683 6406368 g 19 2002 3 19 0,5 0,5 0,234 4,7 0,215 483 322 0,62 11 0,365 8,85 7,2 4 0,135 0,119 0,11 867 0,26 0,032 0,056 0,312 Vattendra 2002-04- Alelyckan 321683 6406368 g 16 2002 4 16 0,5 0,5 0,236 4 0,191 464 362 0,23 15 0,369 8,68 7,33 4 0,135 0,087 0,11 733 0,271 0,031 0,042 0,302 Vattendra 2002-05- Alelyckan 321683 6406368 g 28 2002 5 28 0,5 0,5 0,232 4,6 0,203 350 377 0,28 22 0,354 9,15 7,31 4 0,131 0,101 0,12 648 0,278 0,03 0,025 0,301 Vattendra 2002-06- Alelyckan 321683 6406368 g 18 2002 6 18 0,5 0,5 0,241 4,9 0,202 463 365 0,35 49 0,372 8,19 7,23 7 0,137 0,132 0,1 613 0,281 0,031 0,04 0,307 Vattendra 2004-10- Alelyckan 321683 6406368 g 21 2004 10 21 0,5 0,5 0,233 4,6 0,223 475 368 0,35 35 0,372 9,33 7,08 10 0,138 0,243 0,11 600 0,316 0,04 0,049 0,338 Vattendra 2006-03- Alelyckan 321683 6406368 g 13 2006 3 13 0,5 0,5 0,233 4,7 0,231 459 371 0,15 43 0,368 9,37 7,19 6 0,134 0,089 0,12 564 0,317 0,033 0,029 0,336 Vattendra 2007-07- Alelyckan 321683 6406368 g 10 2007 7 10 0,5 0,5 0,201 5,3 0,211 410 520 2,55 26 0,356 9,06 7,11 9 0,129 0,3 0,12-9999 0,313 0,034 0,072 0,304 Vattendra 2007-08- Alelyckan 321683 6406368 g 14 2007 8 14 0,5 0,5 0,21 4,2 0,199 432 282 0,54 17 0,351 8,6 7,45 5 0,117 0,106 0,11-9999 0,302 0,031 0,04 0,275 Vattendra 2007-09- Alelyckan 321683 6406368 g 18 2007 9 18 0,5 0,5 0,214 4,3 0,202 467 386 0,46 19 0,352 8,85 7,14 5 0,12 0,104 0,11-9999 0,316 0,032 0,034 0,285 Vattendra 2007-10- Alelyckan 321683 6406368 g 16 2007 10 16 0,5 0,5 0,429 4,4 2809 414 349 0,65 27 0,438 42,7 7,24 6 0,608 0,147 0,24-9999 0,328 0,083 0,035 2316 Vattendra 2007-11- Alelyckan 321683 6406368 g 13 2007 11 13 0,5 0,5 0,677 4,8 5136 421 325 0,59 23 0,542 73,6 7,28 8 1001 0,147 0,37-9999 0,355 0,131 0,039 3776 Vattendra 2007-12- Alelyckan 321683 6406368 g 18 2007 12 18 0,5 0,5 0,21 4,6 0,207 466 328 0,61 18 0,366 8,98 7,27 8 0,124 0,144 0,11-9999 0,315 0,031 0,034 0,288 Vattendra 2008-01- Alelyckan 321683 6406368 g 15 2008 1 15 0,5 0,5 0,203 5,2 0,23 512 320 1,34 20 0,348 8,98 7,28 13 0,129 0,23 0,12-9999 0,304 0,035 0,072 0,295 Vattendra 2007-08- Alelyckan 321683 6406368 g 14 2007 8 14 0,5 0,5 0,21 4,2 0,199 432 282 0,54 17 0,351 8,6 7,45 5 0,117 0,106 0,11-9999 0,302 0,031 0,04 0,275 Vattendra 2007-09- Alelyckan 321683 6406368 g 18 2007 9 18 0,5 0,5 0,214 4,3 0,202 467 386 0,46 19 0,352 8,85 7,14 5 0,12 0,104 0,11-9999 0,316 0,032 0,034 0,285 Vattendra 2007-10- Alelyckan 321683 6406368 g 16 2007 10 16 0,5 0,5 0,429 4,4 2809 414 349 0,65 27 0,438 42,7 7,24 6 0,608 0,147 0,24-9999 0,328 0,083 0,035 2316 Vattendra 2007-11- Hur ser data ut? Alelyckan 321683 6406368 g 13 2007 11 13 0,5 0,5 0,677 4,8 5136 421 325 0,59 23 0,542 73,6 7,28 8 1001 0,147 0,37-9999 0,355 0,131 0,039 3776
Hur ser data ut? Always good to have a look at the relationships! Avvikande värden Nollor mätvärde eller saknat värde? Fördelning Typ av samband Saknade värden / felkodade värden Trender
Oberoende observationer De flesta statistiska tester förutsätter att variablerna är oberoende av varandra! Om inte, måste detta tas med vid analys av data! Exempel: Hierarkiska försöksupplägg Naturreservat i länet Våtmarker i reservaten Provytor i våtmarkerna Upprepad provtagning i samma objekt Tidsseriedata på vattenkemi Personpåverkan Mindre variation mellan prover tagna av samma protagare, än mellan två slumpvis utvalda provtagare
Censurerade data Värden över/under detektionsgränsen lägsta koncentration en analysmetod klarar av när siktdjup > vattendjup Se t.ex. miljostatistik.se för förslag på lösning!
Vilken fördelning har mina data? Många statistiska tester förutsätter normalfördelade data, t.ex. ANOVA regression t-test Andra tester har inga krav på fördelning, t.ex.: Multivariata metoder Icke-parametriska tester Chi-två tester
Vilken fördelning har mina data? Visuell inspektion Många statistiska tester av normalfördelning Goodness-of-Fit Test Shapiro-Wilk W Test W Prob<W 0.846354 <0.0001* Note: Ho = The data is from the Normal distribution. Small p-values reject Ho. Goodness-of-Fit Test Shapiro-Wilk W Test W Prob<W 0.998062 0.8481 Note: Ho = The data is from the Normal distribution. Small p-values reject Ho.
Vilken fördelning har mina data? Om data inte är normalfördelade: Transformera data om lämpligt Använd andra statistiska tester, t.ex.: Icke-parametriska tester Generalized linear model (GLIM), (avancerad statistik)
Vilken fördelning har mina data? Transformering inte alltid lämpligt! Dela upp ett dataset i faktorer för att kontrollera Vår Alla data Sommar Goodness-of-Fit Test Shapiro-Wilk W Test W Prob<W 0,860624 <,0001* Note: Ho = The data is from the Normal distribution. Small p-values reject Ho. Vinter Honor Hanar
Heterogenitet i Y Variationen i Y-led måste vara lika stor för alla X Testas enklast genom plot av residualer mot predikterat Y 40 35 30 25 20 15 10 5 0 R² = 0,4554 0 Regression är inte tillåten -5 på dessa data! -10-15 -20 0 5 10 15 20 Predicted Y 0 100 200 300 400 Residuals 20 15 10 5
Heterogenitet i Y Transformering av Y kan ta bort heterogeneiteten Ett annat alternativ är Generalized linear models 2 1 log Y 1,5 1 0,5 0-0,5-1 -1,5-2 R² = 0,3432 Residuals 0,5 0-0,5-1 -1,5-2 -2,5-2,5 0 100 200 300 400-3 0 0,5 1 1,5 X Predicted log Y
Många nollor Kallas ibland zero inflated data Kan ställa till problem Det finns statistiska tester för dataset med många nollor Problem vid analys av förekomstdata: Dubbel frånvaro
Många nollor Den gröna blomman saknas i yta 2 och 3 Vilket är det ekologiska avståndet mellan yta 2 och 3? Ligger ytorna bredvid varandra Ligger en yta i tropikerna och en Arktis? Går inte att svar på!
Pseudosamband IQ Skostorlek
Pseudosamband När en tredje variabel kontrollerar x och y IQ och skostorlek båda bestäms av ålder Förekomst av blåbär och vattenföring båda bestäms (bl.a.) av nederbörd
Samvariation Korrelerade variabler i samma modell kan ge felaktiga resultat t.ex. både vattendjup och avstånd till strand Y ** ** ** ** N.S. ** X1 X2 X3 X4 X5 X6 Signifikant samband mellan vart och ett av paren: Y-X 1, Y-X 2, Y-X 3 förutom Y-X 5.
Samvariation Hur upptäcker man samvariation? Korrelationsmatris Principalkomponentanalys (PCA)
Samvariation Samband mellan vart och ett: y-x1; y-x2, y-x3 Y ** ** ** ** N.S. ** X1 X2 X3 X4 X5 X6 Hur ser en sammansatt modell ut? Y = α + β 1 X 1 + β 2 X 2 + β 3 X 3 + β n X n + ε
Samvariation Variance Inflation Factor, VIF, kan ge svar Y ** ** ** ** N.S. ** X1 X2 X3 X4 X5 X6 Y = α + β 1 X 1 + β 2 X 2 + β 3 X 3 + β n X n + ε Term Estimate Std Error t Ratio Prob> t VIF Intercept -5,33 0,62-8,63 0,001*. X1-0,09 0,15-0,61 0,57 17,73 X2 0,39 0,1 4,12 0,015* 6,31 X3 0,45 0,06 8,02 0,001* 2,32 X4 0,88 0,07 11,77 0,0003* 4 Random number 0,16 0,12 1,3 0,26 2,95 Korrelerad till X1 0,25 0,13 1,89 0,13 23,23 VIF > 10 indikerar korrelation
Samvariation Variance Inflation Factor, VIF, kan ge svar Y ** ** ** ** N.S. ** X1 X2 X3 X4 X5 X6 Y = α + β 1 X 1 + β 2 X 2 + β 3 X 3 + β n X n + ε Term Estimate Std Error t Ratio Prob> t VIF Intercept -6,2 0,51-12,1 <,0001. X1 0,17 0,09 1,89 0,12 3,75 X2 0,52 0,08 6,27 0,0015* 3,15 X3 0,49 0,07 7,51 0,0007* 2,04 X4 0,82 0,08 9,79 0,0002* 3,33 Random number 0,31 0,12 2,64 0,05 1,76 VIF > 10 indikerar korrelation
Samvariation Vilken variabel ska man ta bort i ett par? Behåll den mest relevanta Behåll den enklaste Behåll den som är billigast att mäta
Mer att läsa Detta föredrag är baserat på: www.miljostatistik.se Zuur, A.F. m.fl.(2010) A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution 1: 3-14.