Del 2: Hantering och bedömning av data och osäkerheter

Relevanta dokument
Gasverkstomten Västerås. Statistisk bearbetning av efterbehandlingsåtgärderna VARFÖR STATISTIK? STANDARDAVVIKELSE MEDELVÄRDE OCH MEDELHALT

Om att använda statistik vid förorenade områden. Tidigare arbeten. Upplägg. Målsättning. Syften och strategier vid miljötekniska

TMS136. Föreläsning 10

BERÄKNING AV FÖRORENADE SEDIMENTVOLYMER


Kan verkligen några enstaka prover representera ett helt område?

Sannolikhetsbaserad riskmodell för beräkning av riskreduktion - exempel från ett dioxinförorenat område

Dataanalys kopplat till undersökningar

Statistik och epidemiologi T5

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Lektionsanteckningar 11-12: Normalfördelningen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Förorenad mark på bilskrotar

Provtagning och avfallsklassning av fyllnadsjord Slump eller vetenskap?

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Hur skriver man statistikavsnittet i en ansökan?

Föreläsning 12: Regression

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Grundläggande om riskbedömning

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Metodik för statistisk utvärdering av miljötekniska undersökningar i jord

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

F3 Introduktion Stickprov

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Undersökning av förekomst av metallförorening i ytlig jord, bostadsrättsföreningarna Hejaren 2 och Hejaren 3 i Sundbybergs kommun.

FÖRELÄSNING 7:

Studietyper, inferens och konfidensintervall

Föreläsning G60 Statistiska metoder

Forskningsmetodik 2006 lektion 2

Thomas Önskog 28/

Miljökontroll av omgivningspåverkan

Medicinsk statistik I

Utvärdering av klassificering SÅGVERKSOMRÅDET

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Bilaga 5.9 Bedömning av förorenade volymer relativt bakgrundshalter

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

9. Konfidensintervall vid normalfördelning

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

F9 Konfidensintervall

Medicinsk statistik II

FÖRELÄSNING 8:

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Parade och oparade test

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Riskbedömning och NVs riktvärdesmodell

BILAGA 9. SPRIDNINGSBERÄKNINGAR

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Statistik och epidemiologi T5

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Dioxinförorenade områden kan fördjupad riskbedömning leda till effektivare åtgärder?

2.1 Minitab-introduktion

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Arsenik vid Vällnora bruk riskvärdering och kommunikation. Celia Jones, Ida Lindén, Johan Eriksson.

Föreläsning G60 Statistiska metoder

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistiskt säkerställande av skillnader

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Bilaga 4.1 Uppskattning av antalet erforderliga provpunkter och analyser vid detaljundersökningen. Bakgrund. Metod. Konfidensintervallens utveckling

Statistik 1 för biologer, logopeder och psykologer

Inferensstatistik. Hypostesprövning - Signifikanstest

Föreläsning 12: Repetition

Uttagsrapport Eget scenario: Bostäder 0-1 m Naturvårdsverket, version 1.00 Generellt scenario: KM

Grundläggande matematisk statistik

TMS136. Föreläsning 11

a) Facit till räkneseminarium 3

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901 Sannolikhetsteori och statistik I

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Hantering av osäkerheter vid riskbedömningar

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M MAM801 IEK309 Institutionen för matematik Datum Skrivtid

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Platsspecifika riktvärden

Hypotestestning och repetition

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

7.3.3 Nonparametric Mann-Whitney test

Riktvärdesmodellen Hur hittar man rätt bland alla flikar?

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

7.5 Experiment with a single factor having more than two levels

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Uppgift a b c d e Vet inte Poäng

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Hur man tolkar statistiska resultat

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

F9 SAMPLINGFÖRDELNINGAR (NCT

2 Dataanalys och beskrivande statistik

Transkript:

Del 2: Hantering och bedömning av data och osäkerheter Praktikfall: Kv. Verkstaden 14 Teori: Representativ halt, referenshalt, stickprov & beskrivande statistik, konfidensintervall & UCLM95 Diskussion: Vad är en rimlig representativ halt? Vad är ett rimligt krav på tillåten risk/osäkerhet? Vid riskbedömning av ett område/ett egenskapsområde? Vid klassning av SEV? Tillsynsperspektiv: Vad ska vi ställa för krav på redovisning?

Beslutsrymden (efter Back, 2003) Verklig koncentration Felaktigt beslut (felaktigt negativt) Kostnader: Hälsa och miljö, framtida ansvar Rätt beslut Kostnader: Inga Rätt beslut Kostnader: Saneringskostnader Riktvärde Felaktigt beslut (felaktigt positivt) Kostnader: Saneringskostnader, miljöbelastning av sanering Uppskattad koncentration

Riktvärden och säkerhet Är området förorenat? Behöver vi efterbehandla?? Var det gropen eller högen jag skulle provta? - Riktvärde = 40 mg/kg - Avses medel? Median? 90% percentil? Näst högsta halten? UCLM95? Maxvärde? För hur stor volym? Med vilken säkerhet? Är 39,6 mg/kg OK? Är 40,4 mg/kg OK? - Att enbart ange ett riktvärde som beslutsnivå för om ett område är förorenat kan ställa till problem. Bör kopplas till en representativ halt och krav på säkerhet. - 100% säkerhet är omöjligt!

Vad jämföra med? Och mot? Och hur? Dioxin, 25 mätvärden, referenshalt 50 ng/kg Vilket värde skall vi beräkna med stickprovet? (representativ halt) Vad skall värdet jämföras mot? (referens halt) Typ av representativ halt Medelvärde: Aritmetiskt medelvärde Medelvärde baserat på lognormalfördelade data, MVU-skattning enligt Gilbert (1987) Medelvärde baserat på lognormalfördelade data, förenklad skattning enligt Gilbert (1987) 95% UCL för medelvärde: Baserat på normalfördelning (Students t-fördelning) Baserat på lognormalfördelning (Land, se Gilbert, 1987) Baserat på lognormalfördelning (Chebyshev, se Singh&Singh, 2007) Utan antagen fördelning (standard bootstrap) Utan antagen fördelning (Halls bootstrap, se Singh&Singh, 2007) Utan antagen fördelning (Chebyshev, se Singh&Singh, 2007) Percentil: Medianvärde 90-percentilen 99,9-percentilen (extrapolering från data) Maximalt värde 280 41 Värde [ng/kg] 440 13 66 240 000 2100 65 68 106 9,1 165 Ca 500

Representativ halt Definieras som den halt som bäst representerar risksituationen på området utan att risken underskattas och som jämförs med referenshalten Bör vara ett statistiskt mått t.ex. aritmetiskt medelvärde den övre konfidensgränsen för medelhalten (UCLM) maximalt uppmätt halt en viss percentil av uppmätta värden Valet baseras på: Typ av risk (långtids-, akut), acceptabel felmarginal, vilken metod man vill använda, dataunderlaget, mätdatas representativitet, förhandskunskap och annan information

Referenshalt Med referenshalt avses den halt som stickprovet jämförs med för att bedöma föroreningsgraden i området Riktvärde: generella eller platsspecifika Jämförvärde för bakgrundshalt Referenshalt för akuttoxicitet

Risk Förorening i en liten volym kan ha stor betydelse om t ex intag av jord är styrande och om man kan ha akuttoxiska effekter. För många exponeringsvägar är det däremot föroreningar över större volymer som blir viktigt att utreda. EKOLOGISK RISK Ekotox ytvatten Ekotox mark Vilka risker är styrande för: Arsenik? Vanadin? Bensen? HÄLSORISK Lokal odling Dricksvatten Ångor Damm Hudkontakt Se t ex NV 5976, tabell 8.2 Intag av jord 1 10 100 1000 10000 Ungefärlig representativ area (m 2 )

Att analysera STICKPROVET

Vad är vad? Medelvärdet är det man mäter och används för att skatta medelhalten. Ibland säger man medelhalten när man menar medelvärdet! Medianen är 50-percentilen. Ju skevare fördelning, desto större skillnad mellan medelvärde och median

y-axeln: sannolikheten för ett visst utfall Statistisk fördelning/sannolikhetsfördelning Betecknar ett uttryck för hur sannolika olika utfall är Vanliga teoretiska fördelningar: Normalfördelning (från - till +, symmetrisk) Lognormalfördelning (från 0 till +, skev) X-axeln: de olika utfall variabeln (här: halten) kan anta

Statistik fördelning, forts En teoretisk sannolikhetsfördelning beskrivs vanligen av två parametrar: väntevärdet (μ), variansen (σ 2 ) eller standardavvikelsen (σ) Väntevärdet är ett mått på läge, dvs var på x-axeln man befinner sig. Standardavvikelsen beskriver hur variabeln (här: halten) varierar från punkt till punkt. Man kan säga att den är ett mått på hur stor en typisk avvikelse från väntevärdet är.

Målpopulation Målpopulationen är alltså den totala mängd jordvolymer vi är intresserade av att uttala oss om. Haltens fördelning i jordvolymerna är okänd för oss. För målpopulationen gäller att de två parametrar som beskriver fördelningen är: medelhalt (μ), variansen (σ 2 ) eller standardavvikelsen (σ)

Stickprov För stickprovet gäller att de två parametrar som beskriver fördelningen är: Medelvärdet (m), variansen (s 2 ) eller standardavvikelsen (s) Ett praktiskt mått på variationen i data är variationskoefficienten: CV = s/m CV=0,3 CV=1,6 median - medelvärde

CV HS 5888:Tabell 3-1. Variationskoefficienten CV och förslag på hur den kan tolkas för förorenad jord. Tabellen kan användas som hjälp vid skattning av variabilitet vid planering av en provtagning. CV Kommentar < 0,5 Mycket liten variation i data, homogen datamängd. Data är troligen normalfördelade. 0,5 1 Måttlig variation i data, relativt homogen datamängd. Data kan troligen betraktas som normalfördelade. 1 1,5 Relativt stor variation i data. Data följer en skev fördelning, t.ex. lognormalfördelning. Dataspannet är några tiopotenser. 1,5 2 Stor variation i data, heterogen datamängd. Data följer en skev fördelning, t.ex. lognormalfördelning. Dataspannet är några tiopotenser. 2 3 Mycket stor variation i data, mycket heterogen datamängd. Data följer en mycket skev fördelning, t.ex. lognormalfördelning. Dataspannet är åtskilliga tiopotenser. Kontrollera om en annan indelning i mer homogena delområden kan göras. > 3 Extremt stor variation i data, extremt heterogen datamängd. Dataspannet är åtskilliga tiopotenser. Gör en annan indelning i mer homogena delområden.

? Varför är det intressant att undersöka (m h a stickprovet) om vi kan anta att målpopulationen följer en viss teoretisk fördelning? Typ av representativ halt Medelvärde: Aritmetiskt medelvärde Medelvärde baserat på lognormalfördelade data, MVU-skattning enligt Gilbert (1987) Medelvärde baserat på lognormalfördelade data, förenklad skattning enligt Gilbert (1987) 95% UCL för medelvärde: Baserat på normalfördelning (Students t-fördelning) Baserat på lognormalfördelning (Land, se Gilbert, 1987) Baserat på lognormalfördelning (Chebyshev, se Singh&Singh, 2007) Utan antagen fördelning (standard bootstrap) Utan antagen fördelning (Halls bootstrap, se Singh&Singh, 2007) Utan antagen fördelning (Chebyshev, se Singh&Singh, 2007) Percentil: Medianvärde 90-percentilen Dioxin, 25 mätvärden, referenshalt 50 ng/kg 99,9-percentilen (extrapolering från data) Maximalt värde 280 41 Värde [ng/kg] 440 13 66 240 000 2100 65 68 106 9,1 165 Ca 500

Beskrivande statistik stickprov Kv. Verkstaden 14

Beräkning av representativ halt Kv. Verkstaden 14 Vad betyder UCLM95, UPL95 och 99:e perc? Vad innebär det att data följer olika fördelningar?

Konfidensintervall För att beräkna ett intervall för hur den verkliga medelhalten kan variera Konfidensintervall anger graden av osäkerhet runt en skattning. Anges ofta i form av ett intervall samt den konfidensgrad som gäller, t ex medelhalten är 30±3, med 95% sannolikhet. Konfidensgraden anger då med vilken sannolikhet den verkliga medelhalten ligger inom det beräknade konfidensintervallet. Undre konfidens gräns 27 30 Bästa skattningen av medelhalten 33 Övre konfidensgräns (Tvåsidigt) Konfidensintervall med en konfidensgrad, t ex 95%

UCLM95 Vid förorenade områden redovisas ofta UCLM95 95% Upper Confidence Limit of the Mean. Då är man intresserad av ett ensidigt 95-procentigt konfidensintervall. Det är endast 5% risk (sannolikhet) att den verkliga medelhalten ligger över UCLM95. (Minsta värdet som fördelningen kan anta) 0 Bästa skattningen av medelhalten Ensidigt konfidensintervall med en konfidensgrad, t ex 95% 30 32 Övre konfidensgräns (UCLM: 95%)

Koppling till SKALA OCH SANERING?

Vilken skala görs riskbedömning på? Egenskapsområdesskala: UCLM95 > referenshalt Tittar man på medelhalten i varje SEV så kan det se ut så här (ungefär)

Vilken skala görs sanering på? Typiskt på SEV-skala: medelhalten SEV < ref.halt alla SEV med medelhalt > referenshalten saneras Se exjobb av Pernilla Regårdh: http://www.renaremark.se/filarkiv/exjobb/pernilla_regardh.pdf

Vilken skala görs sanering på? Om egenskapsområdesskala: UCLM95 < ref.halt så många SEV saneras så att medelhalten i hela området < referenshalten Här är det viktigt att tänka på exponeringsvägar och risker! Skulle man kunna ha två referenshalter? En som gäller för maxhalter och en som gäller för medelhalt över hela området?

Vad är OUTLIERS?

Outliers Engelskt uttryck för ett mätvärde som numeriskt avviker från resten av datamängden Kan vara en indikation på att mätvärdet egentligen hör till en annan population Kan också vara mätfel eller slumpen Finns metoder för att statistiskt testa om ett värde är en outlier (finns bl a test i ProUCL) Om man utesluter ett mätvärde ur sina statistiska beräkningar för att man anser att det är en outlier, så måste detta tydligt motiveras. Mätpunkten måste också följas upp. Är det en hot-spot? Var det ett mätfel eller något fel hos labbet?

Kv. Verkstaden 14 Är det olika ställen man bör förvänta sig hotspots? Är det rimligt att särbehandla olika provpunkter som hotspots (outliers) endast utifrån provtagningen?

Är det olika ställen man bör förvänta sig hotspots? Är det rimligt att särbehandla olika provpunkter som hotspots (outliers) endast utifrån provtagningen?

Vad är NON-DETECTS (ND)?

Data under detektionsgränsen (non-detects, NDs) Ibland kan vissa av analyserna ha halter som ligger under analysmetodens detektionsgräns då kallas de non-detects, kort NDs. Detta kan vara ett stort problem om referenshalten ligger nära detektionsgränsen (kan vara fallet vid t ex dioxin) eller om datamängden innehåller en stor mängd NDs. Det finns i princip 3 olika sätt att hantera detta i statistiska beräkningar Enkla ersättningsmetoder Parametriska metoder Icke-parametriska metoder OBS! NDs bör inte uteslutas eftersom det är mätningar som innehåller information

NDs forts Enkla ersättningsmetoder innebär typiskt att alla mätvärden sätts till samma halt, t ex: Detektionsgränsen (DG) Halva detektionsgränsen (DG/2) Noll (0) USEPA ger dock rekommendation om att inte använda dessa metoder om t ex UCLM95 skall beräknas. Varför? Vad blir resultatet av att använda dessa 3 olika metoder? I ProUCL kan man använda parametriska metoder för att hantera NDs

Hur ska man bestämma ANTAL PROVER?

Hur många prover ska jag ta? Samples are like potato chips. You're never satisfied with just one. Every one you take makes you want more. And you're never sure you've had enough until you've had too many! J. C. Myers I grunden ett mycket svårt problem, som beror på vilken värderingsgrund vi har Säkerhetsbaserad? Ekonomisk? Annan?

Koppling till area 10 prover från ett litet område ger lika mycket information om medelhalten som 10 prover från ett mycket stort område givet att båda områdena innehåller en enskild målpopulation. Provtagningstätheten spelar dock roll om man är intresserad av att titta närmare på hur halter varierar i området. Det finns också en viktig koppling mellan hur stort området är och hur säker man vill vara på att ta rätt beslut, dvs konsekvensen av fel beslut! OBS! Viktigt att dela upp undersökningsområdet i egenskapsområden!

Antal prov Antalet - lognormalfördelning Antal prov vid lognormalfördelade data HS 5888 100 90 80 70 60 50 40 30 20 10 0 0 0.5 1 1.5 2 2.5 3 3.5 Variationskoefficient, CV D=1.1 D=1.15 D=1.2 D=1.25 D=1.3 D=1.4 D=1.5 D=1.6 D=1.7 D=1.8 D=1.9 D=2.0 D=2.5 D=3.0 D = UCL / verklig medelhalt. Grafen gäller för ensidigt 95%-konfidensintervall. Exempel: D =1,3 = upp till 30% fel accepteras, dvs om den verkliga medelhalten är 100 mg/kg så accepteras en UCLM på 130 mg/kg

Övning Man har 10 prover med en variationskoefficient (CV) på 1,3. Man planerar att samla in ytterligare ca 37 prover för att räkna ut ett UCLM95 (baserat på de totalt 47 proverna) att jämföra med riktvärdet på 120 mg/kg. Hur säker är man på att ta rätt beslut om beslutet att sanera grundas på huruvida UCLM95 är högre än riktvärdet? A) Om verklig (okänd) medelhalt = 100 mg/kg? B) Om verklig (okänd) medelhalt = 50 mg/kg? C) Om verklig (okänd) medelhalt = 300 mg/kg? LEDTRÅDAR! 1. Antag CV = 1,3 och 47 prover 2. Använd diagrammet och hitta acceptabelt fel. 3. Räkna ut hur högt UCLM95 som accepteras i fall A, B och C. 4. Hur relaterar det till riktvärdet?

NÄR DU GRANSKAR, VAR OBSERVANT PÅ

Representativ halt och när måste säkerheten vara hög? Ställ krav på en tydlig motivering till vald representativ halt detta skall kopplas till risksituationen. EKOLOGISK RISK Det bör också kopplas till konsekvensen av att ta ett felaktigt beslut Ekotox ytvatten Ekotox mark HÄLSORISK Lokal odling Dricksvatten Ångor Damm Hudkontakt Intag av jord 1 10 100 1000 10000 Ungefärlig representativ area (m 2 )

Hot-spots Det är dyrt att hitta en liten okänd (misstänkt) hotspot på ett stort område med hög säkerhet. I de flesta fall krävs så många prover att det orimligt. Vilka är riskerna om det finns en? Är det viktigt? I så fall: - kan sökområdet minskas? - kan identifiering ske med annan metod än traditionell provtagning?

Antal prov 100 Kolla Antal säkerhet!? prov vid lognormalfördelade data Lognormal fördelning 90 80 70 60 50 40 30 20 10 0 0 0.5 1 1.5 2 2.5 3 3.5 Variationskoefficient, CV D=1.1 D=1.15 D=1.2 D=1.25 D=1.3 D=1.4 D=1.5 D=1.6 D=1.7 D=1.8 D=1.9 D=2.0 D=2.5 D=3.0 Cu, ej hot-spots: 11 prover. CV är 1,5. detta ger D ungefär 3,0. Dvs ett fel på ca 200% accepteras. Om verklig medelhalt är 200 mg/kg, så accepteras ett UCLM95 på 200 + 400 = 600 mg/kg. Om verklig medelhalt är 150 mg/kg, så accepteras ett UCLM95 på 150 + 300 = 450 mg/kg. (Riktvärde 80/200) (Exempel från Kv verkstaden: UCLM95 = 474 mg/kg ) SEPA 5888, p. 36

DISKUSSION