Statistiska Institutionen Höstterminen 2016 Examensarbete på Kandidat nivå i Statistik, 15 högskolepoäng Under ytan En studie om hur detektionsgränser påverkar väntevärdesskattningar vid mätning av fosfat och kadmium i svenska vattendrag. Författare: Victor Boman, Martin Norlander Handledare: Universitetslektor Måns Thulin 1
Sammanfattning Uppsatsen ämnar utvärdera olika estimatorers egenskaper för att beräkna medelvärdesskattningar för delvis censurerad miljödata erhållen från Sveriges Lantbruks Universitet (SLU). Detta undersöks genom en simuleringsstudie i vilken data har simulerats från en χ2 fördelning där censureringsgrad och frihetsgrader har varierats. Därefter har de erhållna medelvärdesskattningarna utvärderats med hjälp av estimatorns medelkvadratfel (MSE) samt bias. Vidare har medelvärdesberäkningar gjorts på erhållen data från SLU. Alla simuleringar har gjorts i R, för medelvärdesberäkningar har tilläggspaketet Nondetects And Data Analysis for environmental data (NADA) använts. De estimatorer som utvärderats är Maximum Likelihood (MLE), Regression on order statistics (ROS), Kaplan-Meier samt substitution. Resultaten visar att MLE samt ROS ger konstant bättre MSE och bias när data antas följa en lognormalfördelning oavsett grad av censurering samt skevhet på data än vid normalfördelningsantagande. Vid hög skevhet på data ger substitution resultat nära det sanna medelvärdet oavsett grad av censurering. De mest väntevärdesriktiga estimatorerna finnes vara ROS under lognormalantagande samt substitution när data är skevt fördelad, för ickeskev data rekommenderas ROS med lognormalantagande, oavsett censureringsgrad. 2
Innehållsförteckning 1. Inledning... 4 1.2 Syfte... 5 1.3 Frågeställning... 5 2. Teori... 5 2.1 Terminologi och definitioner... 5 2.2 Substitution... 6 2.3 Maximum likelihood estimation... 6 2.4 Kaplan-Meier... 7 2.5 Regression on order statistics (ROS)... 8 3. Metod... 9 4. Resultat... 13 4.1 Förändringar av väntevärdesskattningar vid olika censuringsgrader.... 13 4.2 Förändringar av väntevärdesskattningar när antalet frihetsgrader förändras.... 15 4.3 Beräkningar på data erhållen från SLU... 18 5. Slutsats... 20 6. Vidare forskning... 20 7. Litteraturförteckning... 21 8. Appendix... 22 3
1. Inledning En generellt ökande konsumtion och produktion i dagens samhälle innebär allt större påfrestningar på naturen. Det faktum att vi blir allt fler människor som är i behov av köttproduktion och vegetabiliska produkter innebär att mängden gödningsmedel som används på våra åkrar ökar. De ämnen som inte absorberas av marken hamnar i bäckar och diken runt åkrarna och förs sedan till våra sjöar, älvar och andra vattendrag där de ackumuleras. Fosfater och kadmium är några av de ämnen som ofta tillförs åkrarna via gödningsmedel. Vissa fosfater är livsnödvändiga för allt liv, i lagom mängd. I för stora mängder orsakar de övergödning och är således skadliga ur flera aspekter (Natur och miljö, 2016). Kadmium är i större mängder farligt för alla former av liv och kan hos människor orsaka bland annat njurskador och skelettdeformationer. Ämnet användes ofta i industriella produkter som plaster, färger och ytbehandlingsämnen fram till 1980-talet men förbjöds därefter. Sedan dess har mängden kadmium minskat i vissa områden men förblivit densamma inom andra. För stora mängder kadmium och fosfater i vattendragen kan alltså ha negativa konsekvenser för både vattenkvalitén, fiskbeståndet och den allmänna miljöhälsan samt människors hälsa (Lundberg, 2016). För att kunna identifiera vilka vattendrag som har problem med för höga halter av dessa ämnen är det av stor vikt att de mätmetoder som används ger tillförlitliga resultat. Eftersom det i absoluta tal handlar om små värden är ett vanligt förekommande problem att det är svårt att skilja de observationer som görs från värdet noll. Under ett visst gränsvärde går det inte att avgöra om ämnet finns i vattenprovet eller inte, trots att instrumentet visar att en mängd har observerats. Detta på grund av att mätinstrumentet inte är tillräckligt känsligt. Gränsvärdet kallas för mätinstrumentets detektionsgräns (Limit of detection, LOD) och ligger vanligtvis 3 standardavvikelser från 0 (även kallat blank ) (Uhrovcik, 2014). Den här typen av data kallas för vänstercensurerad och är något som beskrevs redan i slutet av 1800-talet (Cohen, 1991). Sedan dess har det gjorts en hel del forskning på området om hur den typen av data ska hanteras (Akritas et. al, 1994). Det lägsta möjliga värdet då kvantiteten av ämnet med säkerhet kan bestämmas kallas för kvantifieringsgräns (Limit of quantification, LOQ). Var denna gräns hamnar är beroende av hur data är fördelad, ett vanligt mått är dock 10 standardavvikelser från blanken (Uhrovcik, 2014). Tas kvantifieringsgränsen i beaktande innebär det således att fler observationer antingen måste substitueras eller estimeras. Ett vanligt förfarande är att dela upp datan i intervall när den undersöks. Man tar då både detektionsgräns och kvantifieringsgräns i beaktning. Eftersom värden under detektionsgränsen enbart kan konstateras ligga i ett intervall mellan noll och detektionsgränsen så innebär detta svårigheter att med noggrannhet bestämma de statistikor som är av intresse, till exempel medelvärden och spridningsmått. För att få ett mer exakt värde på de observationer som ligger i intervallet används ett antal olika metoder, vilken av dessa metoder som ger bäst resultat råder det i nuläget ingen konsensus kring. Enligt EUdirektiv (2009/90/EC) ska värden under kvantifieringsgränsen ersättas med halva kvantifieringsgränsen, ett förfarande som kallas för substitution. Helsel (2006, 2011;2012) menar att mer avancerade metoder, som till exempel Maximum Likelihood Estimation (MLE), ger de mest precisa resultaten och att substitution rentav innebär en felaktig fabricering av data. Helsel (2011; 2012) argumenterar vidare att substitution förvränger datans fördelning. Helsel skriver främst om substitution av detektionsgränsen, men samma resonemang borde gå att applicera på substitution av kvantifieringsgränsen. Antweiler och Taylor (2008) undersöker verklig data vars mätvärden uppmätts med två olika känsliga mätmetoder vilka 4
ger upphov till olika andelar censurerad data. De använder sedan den känsligaste analysen som facit för vilken estimator som ger de bästa estimaten och kommer fram till, i motsats till Helsel, att MLE är den överlägset sämsta metoden och att istället substitution eller Kaplan- Meier ger de bästa estimaten. Eftersom det inte råder någon fullständig enighet kring vilken av metoderna för att extrahera information från censurerad data som ger de mest precisa resultaten ämnar denna uppsats undersöka de metoder som Helsel (2011;2012) föreslår (MLE, ROS och Kaplan-Meier) samt substitutionsmetoden förordnad i EU-direktivet (applicerad på detektionsgränsen). Uppsatsen ämnar även undersöka, med hjälp av simulerad censurerad data, hur estimatorernas väntevärden förändras när andelen censurerad data förändras samt när graden av skevhet i data förändras. 1.2 Syfte Denna uppsats ämnar undersöka vilken estimator som ger mest väntevärdesriktiga medelvärdesskattningar när stickprovsdata innehåller olika andelar censurerad data samt när skevheten i data förändras. De estimatorer som undersöks är Maximum Likelihood-metoden, Kaplan-Meier, Regression on order statistics (ROS) samt substitution. 1.3 Frågeställning Hur skiljer sig väntevärdeskattningarna mellan de undersökta estimatorerna för fosfat- och kadmiumkoncentrationer i vatten när censurerade värden tas i beaktande? Vilken av estimatorerna ger de mest väntevärdesriktiga medelvärdesskattningarna för fosfat och kadmium? 2. Teori 2.1 Terminologi och definitioner Detektionsgräns (LOD) Detektionsgränsen är den nedre gräns där mätinstrument inte kan skilja mellan en indikation på en förekomst av ämnet från det bakgrundsbrus (av elspänning) som mätinstrumentet självt genererar och som ofta blir ett problem vid mätning av mycket små kvantiter av kemiska substanser. Detta leder till att värden under detektionsgränsen inte med statistisk säkerhet kan skiljas från noll, området mellan detektionsgräns och noll kallas även för blank (se figur 2:1:1 nedan för illustration) Detektionsgränsen ligger ofta tre standardavvikelser från blank. (Uhrovcik 2014) Kvantifieringsgräns (LOQ) Kvantifieringsgräns anger det minsta värde då det är möjligt att med säkerhet bestämma kvantiteten av det observerade värdet. Kvantifieringsgräns skiljer sig från detektionsgränsen då den ofta sätts 10 standardavvikelser från blank. (Uhrovcik 2014) 5
Figur 2:1:1 Illustration av förhållandet mellan blank, detektionsgräns och kvantifieringsgräns för symetrisk fördelad data med avstånd uttryckt i antal standardavvikelser. (Figuren är baserad på bild tagen från Wikipedia 1 ) Censurerad data samt censureringsgrad Censurerad data är data vars fullständiga fördelning inte med säkerhet kan bestämmas. Miljödata av den typ som undersöks i detta arbete är ett exempel på vänstercensurerad data eftersom det är de låga värdena, den vänstra delen/svansen av fördelningen som inte kan bestämmas. Censureringsgrad är den andel av stickprovsdata som är censurerad uttryckt i procent. Rapporteringsgräns Samlingsnamn för detektionsgräns och kvantifieringsgräns (i enlighet med Helsel 2011:2012). 2.2 Substitution Med substitution räknar man ut medelvärdet på vanligt vis men byter ut de observationer som ligger under rapporteringsgränsen. Det vanligaste är att man antingen sätter alla dessa värden till noll eller multiplicerar rapporteringsgränsens värde med 0,5 och sedan ersätter observationerna med det nya värdet. EU-direktiv 2009/90/EC förordnar att substitution med 0,5 gånger kvantifieringsgränsen är det värde som ska användas. Helsel (2006, 2011;2012) framför många invändningar mot substitution och kallar dessa värden för fabricerade och godtyckliga. Han visar också att de med substitutionsmetoden erhållna medelvärdena ligger längre ifrån de faktiska värdena än om andra metoder används. Antweiler och Taylor (2008) kom fram till att substitution inte är så dålig som Helsel menar. 2.3 Maximum likelihood estimation Det går att använda maximum likelihood estimation (MLE) för att skatta medelvärden. Metoden kräver att ett antagande görs om det undersökta datasetets fördelning, i uppsatsen antas antingen lognormal- eller normalfördelning. MLE använder tre delar av informationen: numeriska värden ovanför rapporteringsgränsen, andelen av data under rapporteringsgränsen 1 Detection limit - https://en.wikipedia.org/wiki/detection_limit 6
och den fördelning som datasetet antas följa. Det viktigaste kriteriet för användning av MLE för estimering av medelvärden är hur väl datasetet passar in på den antagna fördelningen, eftersom MLE räknar ut den bästa matchningen givet den antagna fördelningen (Helsel 2011:2012). För att använda sig av MLE krävs ett stickprov större än 30 observationer för icke-skeva fördelningar och större än 50-70 observationer för skeva fördelningar (Helsel 2011:2012). Andelen data under rapporteringsgräns/detektionsgräns får inte vara för stor då det måste vara möjligt att kunna göra ett antagande om en fördelning. Under antagandet om normal- eller lognormalfördelning löser MLE en likelihoodfunktion med två parametrar, väntevärde samt varians. I praktiken så löser man den logaritmerade likelihood funktionen och då ser funktionen ut som (1) nedan. [ ] (1) Där funktionen förändras givet vilken fördelning som antas. Likelihoodfunktionen består av två delar, där de två olika delarna representerar censurerade observationer respektive ocensurerade. Denna kan ses i ekvation (2) nedan där [ ] är täthetsfunktionen för den antagna fördelningen och [ ] är den kumulativa empiriska fördelningsfunktionen (edf). [ ] [ ] (2) är en binärvariabel som antar värdet 1 om observationen är ovanför censureringsgränsen och 0 om observationen ligger under censureringsgränsen. Så vid beräkning av de ocensurerade observationerna är vilket gör att den andra termen i ekvation (2) blir 1. För de censurerade observationerna så blir den första termen 1 och faller bort. Vid beräkning sätts den partiella derivatan till 0 och därefter löses ekvationen iterativt. Ekvationens lösning ger det estimerade medelvärdet och standardavvikelsen. Det vill säga de parametrar för den antagna fördelningen som har den högsta sannolikheten att producera de observerade värdena för de ocensurerade observationerna samt den observerade andelen data under censureringsgränsen (Helsel 2011;2012). 2.4 Kaplan-Meier Det är möjligt att använda sig av icke-parametrisk överlevnadsanalys för att undersöka medelvärden gällande censurerad data. Icke-parametriska metoder förutsätter inget antagande om en fördelning för att möjliggöra beräkningar utan använder observationernas relativa positioner det vill säga ranger. Icke-parametriska metoder är användbara vid hantering av censurerad data då de enbart använder den redan givna informationen i datasetet. Den vanligaste metoden för att beräkna deskriptiv statistik vid överlevnadsanalys är att använda Kaplan-Meier (KM) metoden. Kaplan-Meier metoden används ofta vid medicinska överlevnadsstudier, då vissa patienter kan avlida under studietiden, andra kan välja att dra sig ur studien samt andra typer av bortfall. Dessa observationer blir då censurerade. Då censurerade observationer inom miljödata ofta är vänstercensurerade och en förutsättning för användning av Kaplan-Meier är att datasetet är högercensurerat, används linjär 7
transformation för att vända datasetet som i ekvation (3). Användningen av linjär transformation förändrar inte datasetets form förutom att riktningen blir omvänd (Helsel 2011:2012). där C är en konstant. Kaplan-Meier räknar ut estimat för överlevnadssannolikhetsfunktionen kallad S. Vilket i sin tur går att skriva som Vilket nu ger att även är den kumulativa fördelningsfunktionen för originaldatan x. För att beräkna deskriptiv statistik med Kaplan-Meier rangordnas det vända datasetet från högst till lågt, vilket innebär att censurerade observationer får högst rang. Den kumulativa sannolikheten att överleva ges av ekvation (6) (3) (4) (5) (6) är överlevnadskurvan för det transformerade datasetet, är både antalet censurerade och ocensurerade observationer med koncentrationer vid, samt alla observationer med koncentrationer under, den rangen. Slutligen är antalet ocensurerade observationer vid den för övre koncentrationen. Med hjälp av ekvation (6) kan en överlevnadskurva ritas upp och medelvärdet för Kaplan- Meier räknas ut genom att integrera arean under kurvan. (Helsel 2011;2012) 2.5 Regression on order statistics (ROS) Regression on order statistics (ROS) är en metod som kan användas till att beräkna deskriptiv statistik när datasetet innehåller censurerad data. I uppsatsen används robust ROS som är en semiparametrisk metod. Metoden antar att de censurerade observationerna är normal- eller lognormalfördelade, för de ocensurerade observationerna antas ingen fördelning. ROS använder minsta kvadratmetoden för att beräkna deskriptiv statistik, estimatorn plottar de ocensurerade och censurerade observationerna mot en sannolikhetskurva och beräknar en linjär regression för att approximera parametrarna för den antagna fördelningen. (Helsel 2011;2012) ROS jämför datasetets spridningsdiagram mot kvantilerna för en normal- eller lognormalfördelning. Om fördelningsantagandet är uppfyllt så beräknas en linjär regression för de ocensurerade observationerna. Parametrarna för regressionen används för att imputera värden för de censurerade observationerna. Därefter beräknas stickprovsmedelvärdet. 8
På grund av att estimatorn endast antar en fördelning för de censurerade observationerna och inte för de ocensurerade är den i jämförelse med andra metoder väldigt robust mot avvikelser från den antagna fördelningen. ROS ger därför vanligen väntevärdesriktiga estimat upp till en censureringsgrad på ca 80 procent. (Helsel 2011;2012) 3. Metod I undersökningen används programmeringsspråket R för att simulera ett stort antal olika - fördelningar. Simuleringen görs i syfte att försöka efterlikna erhållen undersökningsdata från SLU, sett till bland annat skevhet samt stickprovsstorlek. R-paketet NADA (Nondetects And Data Analysis for environmental data) erbjuder ett mångsidigt verktyg för att undersöka censurerad data och de estimatorer som används i uppsatsen finns inkluderade. Data för fosfat och kadmium i vattendrag från olika delar av Sverige har av Sveriges Lantbruksuniversitet (SLU) samlats in en gång per vattendrag varje månad under åren 2013 till 2015. Totalt ger detta 119 observationer för fosfat och 119 för kadmium. Proverna för fosfat har inhämtats från vattendragen Skellefte Älv, Mesjön och Lill-Fämtan. Proverna för kadmium kommer från Liffedarve, Stormyrbäck och Dalälven vid Mockfjärd. Det förutsätts att rapporteringsgränserna är desamma för alla provresultat. Detektionsgränsen för fosfat är enligt SLU 1 µg/l och kvantifieringsgränsen 3 µg/l. Detektionsgränsen för kadmium är 0,002 µg/l och kvantifieringsgränsen 0,006 µg/l. Nedan i figur 3:1:1 och figur 3:1:2 visas hur den erhållna data för kadmium respektive fosfat är fördelad. Utifrån de erhållna värdena för fosfat och kadmium simuleras data med approximativt samma fördelning och därefter görs beräkningar för simuleringarna. Utgångspunkten är att miljödata är ungefärligt log-normalfördelad utifrån tidigare forskning (Helsel, 1992). Med hjälp av simuleringarna utvärderas vilken metod att extrahera information från censurerad data som ger de bästa estimeringarna av medelvärdena för fosfat och kadmium. För att utvärdera de estimerade medelvärdena används bland annat estimatorns bias och MSE. 9
Figur 3:1:1 Histogram och kernel-densiteter för kadmium för respektive provtagningsområde. Figur 3:1:2 Histogram och kernel-densiteter för fosfat för respektive provtagningsområde. 10
Figur 3:1:1 samt 3:1:2 visar originaldata erhållen från SLU. Observera att inga justeringar av värden under detektionsgränsen har gjorts. Fosfatdata innehåller även negativa värden vilket förvränger histogram och densiteter. I tabellerna 3:1:1 och 3:1:2 nedan visas den andel av den erhållna data som är censurerad vid detektionsgränsen respektive kvantifieringsgränsen. När detektionsgränsen används som rapporteringsgräns ligger andelen censurerad data mellan 2 % och 9 % för kadmium medan den ligger mellan 38 % och 75 % för fosfat. När kvantifieringsgränsen används som rapporteringsgräns ligger andelen censurerad data mellan 57 % och 69 % för kadmium och mellan 83 % och 100% för fosfat. Tabell 3:1:1 Antal observationer samt andel censurerade observationer med detektionsgräns som rapporteringsgräns. Provtagningsområde n n censurerade (detektionsgräns) % censurerade Stormyrbäck(cd) 48 1 2,1 Vdalälven(cd) 36 2 5,6 Liffedarve(cd) 35 3 8,6 Lill-Fämtan(Po4) 47 18 38,3 Mesjön(Po4) 35 16 45,7 Skellefteälv(Po4) 36 27 75,0 Tabell 3:1:2 Antal observationer samt andel censurerade observationer med kvantifieringsgräns som rapporteringsgräns. Provtagningsområde n n censurerade (kvantifieringsgräns) % censurerade Stormyrbäck(cd) 48 33 68,8 Vdalälven(cd) 36 23 63,9 Liffedarve(cd) 35 20 57,1 Lill-Fämtan(Po4) 47 39 83,0 Mesjön(Po4) 35 35 100,0 Skellefteälv(Po4) 36 36 100,0 Dataset för Lill-Fämtan, Mesjön samt Skellefteälv har diverse negativa värden. De negativa mätvärderna är kopplade till hur mätinstrumentet är kalibrerat. Dock så är koncentrationer med negativa värden självklart omöjliga att observera (antingen finns ämnet eller inte i stickprovet) och därför har inga resultat för dessa dataset tagits med i uppsatsen. Försök att beräkna medelvärden för dessa dataset gjordes med hjälp av transformationer, men utan tillfredsställande resultat. Även om inga beräknar görs med kvantifieringsgräns taget i beaktande och inte heller på fosfatdatan, tas dessa med i tabellerna för att visa på hur verkliga mätvärden kan se ut. Det kan noteras att andelen censurerad data för fosfat generellt är betydligt högre än för kadmium. 11
För att utvärdera vilken metod som bör användas givet vilken grad av censurering har dataset med olika andelar censurerad data som överensstämmer med den erhållna data simulerats och resultaten rapporteras i nästa avsnitt. I simuleringstudien simuleras data utifrån en fördelning där antalet frihetsgrader varieras. är en optimal fördelning att simulera utifrån då den har intressanta egenskaper. Vid låga antal frihetsgrader har fördelningen en hög skevhet men konvergerar mot en normalfördelning vid högre antal frihetsgrader vilket delvis går att utläsa av ekvation 7 samt figur 3:1:3. (7) Figur 3:1:3 visar en fördelning plottad mot en normalfördelning med samma parametrar. I den vänstra grafen är väntevärdet för de båda fördelningarna fyra och för den högra grafen är väntevärdet 50. Vid fyra frihetsgrader är fördelningen rejält skev (assymetrisk) men när frihetsgraderna ökar så minskar skevheten och vid 50 frihetsgrader liknar fördelningen en normalfördelning. fördelningen lämpar sig således väl för att undersöka hur estimatorerna presterar när skevheten i datan förändras. Dataset har simulerats utifrån en fördelning med 4 respektive 50 frihetsgrader för att se hur bias och standardiserad MSE förändras givet en ökning i censureringsgraden. För varje censureringsgrad har 10000 dataset med 35 observationer i respektive dataset simulerats. Andelen censurerad data ökar med två procentenheter i intervallet 0 till 75%. Censureringsgraden kan variera mellan dataset om 35 observationer men vid simulering över 10000 dataset blir den angivna censureringsgraden genomsnittet över alla simulerade dataset. MSE samt standardiserat MSE definieras som: ( ) ( ) (8) ( ) ( ) ( ) (9) Dataset har även simulerats utifrån en fördelning givet en specificerad censureringsgrad för att se hur bias och standardiserad MSE förändras givet en ökning i antalet frihetsgrader. Där 10000 dataset för varje frihetsgrad i intervallet 1 till 50 frihetsgrader med ett stickprov om 35 observationer i respektive dataset har simulerats. 12
NADA paketet i R använder tre metoder för att beräkna medelvärden givet att datasetet har censurerade observationer. Dessa metoder är beskrivna i avsnitt 2. I R antar MLE samt ROS antingen normalfördelning eller lognormalfördelning vid estimeringar, i resultatet utvärderas båda antaganden. Vid beräkning av substitution har halva detektionsgränsen använts för att ersätta de censurerade värdena och sedan har stickprovsmedelvärdet beräknats. 4. Resultat Nedan presenteras hur simulerad -fördelad data under olika förutsättningar, såsom ökande censureringsgrad samt med ökande antal frihetsgrader, påverkar de estimerade medelvärdena för respektive metod. För MLE samt ROS antas data vara antingen normalfördelad eller lognormalfördelad och påverkar således estimaten. För substitution samt Kaplan-Meier görs inget sådant antagande. De i figurerna angivna fördelningarna påverkar alltså enbart MLE och ROS. Läsaren uppmanas att vara uppmärksam på axlarnas skalor vid jämförelse mellan graferna då dessa är kan skilja något från varandra. Utifrån resultatet av simuleringstudien görs slutligen beräkningar på data erhållen från SLU. För den som är intresserad av ytterligare simuleringar under andra förutsättningar, såsom större stickprov, finns det många fler att studera i Appendix. 4.1 Förändringar av väntevärdesskattningar vid olika censuringsgrader Figur 4:1:1 (A) Standardiserat MSE mot censureringsgrad (Normalfördelningsantagande, Df=50, n=35. (B) Bias mot censureringsgrad (Normalfördelningsantagande, 50 DF, n=35). (C) Standardiserad MSE mot censureringsgrad (lognormalfördelningsantagande, Df50, n=35. (D) Bias mot censureringsgrad Df50, n=35. Figur 4:1:1 (A) visar hur det standardiserade medelkvadratfelet förändras när censureringsgraden ökar för icke-skev data. Vid låga grader av censurering presterar alla metoder bra. Vid en censureringsgrad på över 25 procent av data så ökar medelkvadratfelet 13
för MLE och substitution, Kaplan-Meier och ROS ger inte samma ökning vid samma grad av censurering. Figur 4:1:1 (B) visar hur estimatorernas bias förändras när censureringgraden ökar med ickeskev data. ROS, MLE och substitution underskattar medelvärdet mer med ökande censureringsgrad medan Kaplan-Meier överskattar medelvärdet mer. ROS ger lägst bias oavsett andel censurerad data. Kaplan-Meier och MLE är tillsynes varandras spegelbilder på varsin sida om nollstrecket även om Kaplan-Meier är konstant något bättre. Substitution har konsekvent den största biasen i absoluta tal förutom vid 75 % censureringsgrad då MLE blir än sämre. Vid ett lognormaltantagande för MLE och ROS, har inte MLE samma ökning i MSE som vid normalantagande, se Figur 4:1:1 (C). Både MLE och ROS ger bättre estimat när ett lognormalantagande görs även då data är icke-skev. ROS har ett lägre standardiserat medelkvadratfel även vid en relativt hög censureringgrad (>50 procent) jämfört med normalantagande. Vid lognormalantagande förändras inte biasen avsevärt för de olika estimatorerna. ROS uppvisar dock en lägre bias vid lognormalantagande än vid normalantagande och är den estimator som ger de mest väntevärdesriktiga resultaten oavsett fördelningsantagande för icke-skev data se figur 4:1:1 (D). Figur 4:1:2 (A) Standardiserad MSE mot censureringsgrad (normalfördelningsantagande, Df=4, n=35). (B) Bias mot censureringsgrad (normalfördelningsantagande, Df=4, n=35). (C) Standardiserad MSE mot censureringsgrad(lognormalfördelningsantagande, Df=4, n=35). (D) Bias mot censureringsgrad (lognormalfördelningsantagade, Df=4, n=35). Vid simulering av data med hög grad av skevhet (4 frihetsgrader) och normalfördelningsantagande noteras att ROS inte ger tillförlitliga resultat, i jämförelse med de övriga metoderna, redan vid 15% censurerad data. När andelen censurerad data ökar tenderar 14
ROS att bli än sämre. MLE och substitution visar sig, under dessa förutsättningar, vara de mest robusta estimatorerna se figur 4:1:2 (A). När istället ett antagande om lognormalfördelning görs enligt figur 4:1:2 (C) ovan presterar MLE sämst fram till drygt 50% censurerad data då Kaplan-Meier istället får det högsta medelkvadratfelet. ROS och substitution följer varandra fram till ca 40% censurerad data då ROS gradvis börjar prestera sämre. Substitution tenderar att vara tämligen opåverkad när andelen censurerad data ökar. Figur 4:1:2 (B) ovan visar hur ROS under normalfördelningsantagande presterar sämst av alla estimatorer och underskattar successivt mer och mer medelvärdet med ökande censureringsgrad. Substitution ger genomgående en liten bias och är den enda estimatorn som inte blir sämre när andelen censurerad data ökar. En jämförelse mellan figur 4:1:2(B) och figur 4:1:2 (D) ovan visar att MLE något överraskande ger en högre bias mellan 2 och 50% censurerad data under lognormalfördelningsantagande än under normalfördelningsantagande. Över 50% tenderar MLE dock att återigen närma sig det faktiska medelvärdet. ROS och substitution ger konsekvent de bästa estimaten med en ungefär lika stor överskattning för ROS som substitution underskattar medelvärdet. 4.2 Förändringar av väntevärdesskattningar när antalet frihetsgrader förändras Vid simulering med ökande antal frihetsgrader har 10000 dataset simuleras per frihetsgrad utifrån en fördelning i intervallet 1 till 50 frihetsgrader. Figur 4:2:1 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.05, n=35). (B) Bias mot Df (normalfördelningsantagande, cens=0.05, n=35, start 2 df). (C)Standardiserad MSE mot Df (lognormalfördelningsantagande, cens=0.05, n=35). (D) Bias mot Df (lognormalfördelningsantagande, cens=0.05, n=35, start 2 df). Figur 4:2:1 (A) visar hur medelkvadratfelet förändras över olika frihetsgrader. De olika estimatorerna följer varandra, dock uppvisar substitution ett ökande standardiserat medelkvadratfel vid ökning av antalet frihetsgrader. Kaplan-Meier är konsekvent den bästa 15
estimatorn vid låg andel censurerad data. Vid låga frihetsgrader har Kaplan-Meier, MLE samt substitution minst bias. Kaplan-Meier uppvisar en ökande positiv bias, substitution har en starkt ökande negativ bias vid ökning av frihetsgrader och blir den klart sämsta estimatorn vid cirka 15 frihetsgrader. Vid ett högre antal frihetsgrader >15 uppvisar ROS minst bias se figur 4:2:1(B). Vid lognormalfördelningsantagande samt vid låga frihetsgrader har MLE högst standardiserat medelkvadratfel men det är avtagande med ökning i antalet frihetsgrader. Kaplan-Meier har konstant över frihetsgrader lägst medelkvadratfel. Även ROS har ett lågt standardiserat medelkvadratfel som följer Kaplan-Meier tätt. När simulerad data blir mer och mer icke-skev fungerar substitution sämre. Skillnaden mellan övriga metoder är väldigt liten förutom under 10 frihetsgrader då MLE är klart sämst se figur 4:2:1(C). Vid låga frihetsgrader uppvisar Kaplan-Meier, ROS samt substitution låg bias, när antalet frihetsgrader ökar uppvisar substitution en ökad negativ bias. ROS har låg bias över ökningen i frihetsgrader se figur 4:2:1 (B). Figur 4:2:2 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.25, n=35). (B) Bias mot Df (normalfördelningsantagande, cens=0.25, n=35). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande, cens=0.25, n=35). (D) Bias mot Df (lognormalfördelningsantagande, cens=0.25, n=35). Vid en högre grad av censurering (25%) uppvisar substitution samt MLE högre standardiserat medelkvadratfel än vid lägre grad av censurering. Kaplan-Meier visar ett lågt standardiserat medelkvadratfel över antalet frihetsgrader. ROS uppvisar ett högt medelkvadratfel vid lågt antal frihetsgrader som sedan avtar, detta avtagande beror rimligtvis på normalfördelningsantagande vid beräkningar se figur 4:2:2(A). Vid normalfördelningsantagande uppvisar ROS en konstant negativ bias. Kaplan-Meier har ett ökande bias med ökande frihetsgrader. MLE och substitution har en låg bias vid låga frihetsgrader men den ökar med antalet frihetsgrader se figur 4:2:2 (B). 16
Vid lognormalfördelningsantagande och vid en censureringsgrad på 25 procent, har ROS lägst standardiserat medelkvadratfel. Kaplan-Meier har ett högre medelkvadratfel och det är ökande i bland lägre frihetsgrader, se figur 4:2:2 (C). Vid lognormalfördelningsantagande visar ROS en låg positiv bias. Kaplan-Meier har en ökande bias med ökande frihetsgrader. MLE och Substitution visar en ökande negativ bias med ökning i antalet frihetsgrader (figur 4:2:2 (D)). Figur 4:2:3 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.6, n=35). (B) Bias mot Df (normalfördelningsantagande, cens=0.6, n=35). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande, cens=0.6, n=35). (D) Bias mot Df (lognormalfördelningsantagande, cens 0.6, n=35). Vid en censureringsgrad på 60 procent givet en skev fördelning uppvisar ROS ett högt standardiserat medelkvadratfel, det är dock avtagande när fördelningen blir allt mer icke skev. MLE samt substitution uppvisar ett ökande standardiserat medelkvadratfel vid ökning i frihetsgrader medans Kaplan-Meier uppvisar ett ökande standardiserat medelkvadratfel vid låga frihetsgrader för att sedan jämna ut sig och ligger därefter konsekvent på samma nivå, se figur 4:2:3(A). Figur 4:2:3 (B) visar de olika estimatorernas bias vid ökning i frihetsgrader, vid skev data (under ca 6 frihetsgrader) har Kaplan-Meier, MLE och substitution den lägsta biasen. När data sedan blir mer och mer icke-skev tenderar dessa estimatorer att ge en större bias i absoluta tal. ROS däremot underskattar medelvärdet konsekvent oavsett skevheten på data vilket är en fördel. Över 30 frihetsgrader ger MLE en mindre bias än substitution. Vid lognormalfördelningsantagande visar inte ROS ett lika högt medelkvadratfel som vid normalantagande, oavsett fördelningens skevhet. MLE förändras avsevärt då estimatorn vid låga frihetsgrader visar ett högt men avtagande medelkvadratfel och vid 5 frihetsgrader ökar medelkvadratfelet igen, se figur 4:2:3 (C). ROS uppvisar lägst bias av de i studien testade metoderna över förändringar i datasetets skevhet. Bias ligger strax över noll vilket tyder på att 17
det är en bra estimator även vid en hög grad av censurering. Kaplan-Meier överskattar medelvärdet mer, givet en ökning i censureringsgrad. MLE och substitution uppvisar en ökande underskattning av medelvärdet, givet en ökning i censureringsgrad se figur 4:2:3 (D). 4.3 Beräkningar på data erhållen från SLU Tabell 4:3:1 Skattade medelvärden på erhållen data (kadmium, lognormalitetsantagande). Estimator Lifferdarve µg/l Vdalälven µg/l Stormyrbäck µg/l KM 0.006967429 0.005262222 0.006115000 ROS 0.006887107 0.005241795 0.006096894 MLE 0.006970098 0.005306367 0.005869853 SUB 0.006856 0.00519 0.006084583 Tabell 4:3:1 ovan visar de skattade medelvärdena för de från SLU erhållna mätvärdena för kadmium, vilka har en censurerad andel observationer mellan cirka noll och 10 procent. Det lämpar sig därför att jämföra dessa skattningar med de simulerade dataseten i figur 4:1:2 vid låga censureringsgrader, samt figur 4:2:1. Uppskattningsvis ger, utifrån dessa figurer, Kaplan- Meier, ROS och substitution de mest väntevärdesriktiga stickprovsmedelvärdena för kadmiumdatan. För att undersöka detta närmare redovisas nedan ett lådagram (figur 4:3:1) för simulerad data med egenskaper liknande den för kadmium. ROS tenderar enligt lådogrammet att överskatta medelvärdet något medan substitution underskattar det. Det faktiska medelvärdet ser ut att ligga mittemellan dessa två estimat. Substitution är dock känslig för hur skev data är och försämras konsekvent när data blir mer icke-skev. Eftersom histogrammen i figur 3:1:1 för Liffedarve och Stormyrbäck visar på en fördelning relativt lik den simulerade χ2-fördelningen med fyra frihetsgrader borde skattningarna av substitution- och ROSestimatorerna användas för att beräkna stickprovsmedelvärden av kadmiumdata. Kadmiumproverna från Västra Dalälven är däremot mer icke-skevt fördelad och det blir därför en avvägning vilken metod som anses passa bäst. I de fall där det råder osäkerhet kring ämnets fördelning är, utifrån resultatet från simuleringarna, ROS under lognormalfördelningsantagande den mest tillförlitliga estimatorn. 18
Figur 4.3.1 Lådagram över simulering(10000 stickprov): n=35, medelvärde=4, Censurerade andel 0.05. Tabell 4:3:2 Simulering(10000 stickprov): n=35, medelvärde=4, Censurerade andel=0.05, lognormalantagande.. Estimator Bias Var St.MSE KM 0.028026 0.2212251 0.0784927 ROS 0.019401 0.2229476 0.0789569 MLE 0.305351 0.3328481 0.1506446 SUB -0.000133 0.2242275 0.0792763 En tydligare bild av hur estimatorerna presterar under de förutsättningar som råder för de erhållna kadmiumproverna presenteras i tabell 4.3.2 ovan. Där tydliggörs att MLE är den estimator som har högst varians samt bias. Alla de övriga metoderna har i jämförelse med MLE en relativt låg bias och ett lågt standardiserat medelkvadratfel och ligger generellt sett nära populationsmedelvärdet. MLE-estimatorns generellt sett dåliga prestation relativt de övriga metoderna kan bero bland annat på att MLE är känsligare för små stickprov. I Appendix, figur 8.8, kan det noteras att MLE är den estimator som förbättras mest av ett stort strickprov på 200 observationer. 19
5. Slutsats En samlad bedömning av resultaten från simuleringarna visar att ROS under ett antagande om lognormalfördelad data är den bästa av de undersökta estimatorerna oavsett censureringsgrad. Dock är det viktigt att notera att om data antas vara icke-skev men i själva verket är skev så ger ROS de sämsta estimaten. MLE underskattar medelvärdet ungefär lika mycket som Kaplan-Meier överskattar medelvärdet, Kaplan-Meier tenderar dock att i absoluta tal ge en något lägre bias. MLE och ROS ger konsekvent lägre standardiserat medelkvadratfel och bias när data antas vara lognormalfördelad oavsett censureringsgrad och skevhet på data. När andelen censurerad data ökar presterar samtliga estimatorer föga förvånande successivt sämre. ROS-estimaten ligger dock i genomsnitt relativt nära populationsmedelvärdet oavsett censureringsgrad och estimatorn verkar näst intill opåverkad av en större andel censurerad data. Först vid 60% börjar medelkvadratfelet för ROS öka märkvärt. För icke-skev data är substitution den minst väntevärdesriktiga estimatorn men vid strax över 70% censureringsgrad blir MLE än sämre. Kaplan-Meier överskattar konsekvent medelvärdet oavsett skevhet eller grad av censurering, medan de övriga estimatorerna oftast tenderar att underskatta medelvärdet, med vissa undantag. Det faktum att MLE tenderar att överskatta estimaten kan bero på ett eventuellt felaktigt fördelningsantagande, men kan även bero på att data är simulerad utifrån en fördelning som till och med vid 50 frihetsgrader inte är helt symmetrisk. ROS är däremot robust mot avvikelser från normalitet samt lognormalitet när lognormalitet antas. Slutligen kan det konstateras att substitution ger, vid skev data och oavsett graden av censurering, skattningar nära det sanna populationsmedelvärdet. Under dessa förutsättningar tenderar substitution att vara den mest väntevärdesriktiga estimatorn. När data blir mer och mer icke-skev presterar dock substitution successivt sämre. I de fall då det råder osäkerhet kring hur data är fördelad är därför ROS under lognormalfördelningsantagande den mest tillförlitliga estimatorn av de undersökta alternativen, oavsett censureringsgrad. 6. Vidare forskning Även om den här studien gett ett tillförlitligt svar på frågeställningen så kvarstår det många frågor som kräver vidare forskning. Det bör göras ytterligare simuleringar för att undersöka hur olika stickprovsstorlekar påverkar estimatorerna samt simuleringar utifrån andra sannolikhetsfördelningar, exempelvis utifrån mixturefördelningar eftersom densitetskurvorna från originaldatan till viss del uppvisar en sådan karaktär. Då denna studie begränsar sig till att undersöka hur olika censureringsgrader påverkar väntevärdesskattningar med enbart detektionsgränsen taget i beaktande, rekommenderas ytterligare forskning kring kvantifieringsgräns samt intervallskattning för att estimera medelvärden. 20
7. Litteraturförteckning Akritas, M.G., Ruscitti T.F. & Patil, G.P. 1994. "7 Statistical analysis of censored environmental data". Elsevier Science & Technology. s. 221-242. Antweiler, R.C. & Taylor, H.E. 2008. "Evaluation of statistical treatments of left-censored environmental data using coincident uncensored data sets: I. Summary statistics". Environmental science & technology. vol. 42, nr. 10, s. 3732-3738. Cohen, A.C. 1991. Truncated and censored samples: theory and applications. 1:a uppl. New York. Marcel Dekker. Detection Limit, Wikipedia, https://en.wikipedia.org/wiki/detection_limit (Hämtad 2017-01-08). EU-kommissionens direktiv (2009/90/EC) av den 31 juli 2009 om tekniska specifikationer för kemisk analys och övervakning av vattenstatus. Helsel, D.R. 2006. "Fabricating data: How substituting values for nondetects can ruin results, and what can be done about it". Chemosphere. vol. 65, nr. 11, s. 2434-2439. Helsel, D.R. 2012;2011. Statistics for censored environmental data using Minitab and R. 2:a uppl. Hoboken. N.J. Wiley. Helsel, D.R. & Hirsch, R.M. 1992. Statistical Methods in Water Resources. 1:a uppl. Amsterdam. Elsevier. Lee, L. & Helsel, D. 2005. Statistical analysis of water-quality data containing multiple detection limits: S-language software for regression on order statistics. Computers and Geosciences. vol. 31, nr. 10, s.1241-1248. Uhrovcik, J. 2014. "Strategy for determination of LOD and LOQ values - Some basic aspects". TALANTA. vol. 119, s. 178-180. Internet: Detection Limit. Wikipedia. https://en.wikipedia.org/wiki/detection_limit (Hämtad 2017-01-08). Lundberg, Tove. 2016. Kadmium i fisk. http://www.naturvardsverket.se/sa-marmiljon/statistik-a-o/kadmium-i-fisk/ (Hämtad 2016-11-01). Natur och miljö. 2016. Använd fosfatfria tvättmedel i glesbygden!. http://www.naturochmiljo.fi/vad_vi_gor/vatten_och_fiske/article-28545-9549-anvandfosfatfria-tvattmedel-i-glesbygden (Hämtad 2016-11-01). 21
8. Appendix Figur 8:1 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.1, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:2 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.15, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). 22
Figur 8:3 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.20, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:4 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.4, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). 23
Figur 8:5 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.45, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:6 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.5, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). 24
Figur 8:7 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.55, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:8 (A) Standardiserad MSE mot censureringsgrad (normalfördelningsantagande, 4 df, n=200). (B) Bias mot cens (normalfördelningsantagande). (C) Standardiserad MSE mot cens (lognormalfördelningsantagande. (D) Bias mot cens (lognormalfördelningsantagande). 25
Figur 8:9 (A) Standardiserad MSE mot censureringsgrad (normalfördelningsantagande, 50 df, n=200). (B) Bias mot cens (normalfördelningsantagande). (C) Standardiserad MSE mot cens (lognormalfördelningsantagande. (D) Bias mot cens (lognormalfördelningsantagande). 26