Dataanalys kopplat till undersökningar

Relevanta dokument
Statistisk utvärdering av miljötekniska undersökningar i jord

Om att använda statistik vid förorenade områden. Tidigare arbeten. Upplägg. Målsättning. Syften och strategier vid miljötekniska

Studietyper, inferens och konfidensintervall

Kan verkligen några enstaka prover representera ett helt område?

Del 2: Hantering och bedömning av data och osäkerheter

Gasverkstomten Västerås. Statistisk bearbetning av efterbehandlingsåtgärderna VARFÖR STATISTIK? STANDARDAVVIKELSE MEDELVÄRDE OCH MEDELHALT

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 5. Kapitel 6, sid Inferens om en population

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Sannolikhetsbaserad riskmodell för beräkning av riskreduktion - exempel från ett dioxinförorenat område

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Thomas Önskog 28/

TMS136. Föreläsning 10

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 7: Punktskattningar

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Introduktion till statistik för statsvetare

Hypotestestning och repetition

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Konfidensintervall, Hypotestest

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

FÖRELÄSNING 8:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Föreläsning 12: Linjär regression

Föreläsning 12: Regression

8 Inferens om väntevärdet (och variansen) av en fördelning

MVE051/MSG Föreläsning 7

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Hur man tolkar statistiska resultat

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

MVE051/MSG Föreläsning 14

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Föreläsning 12: Repetition

Föreläsning 7: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Stockholms Universitet Statistiska institutionen Termeh Shafie

F9 Konfidensintervall

Matematisk statistik för B, K, N, BME och Kemister

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Hur skriver man statistikavsnittet i en ansökan?

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 4 mars 2006, kl

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Matematisk statistik för D, I, Π och Fysiker

Föreläsning G60 Statistiska metoder

Några vanliga fördelningar från ett GUM-perspektiv

Lektionsanteckningar 11-12: Normalfördelningen

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsningsanteckningar till kapitel 8, del 2

TMS136. Föreläsning 11

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Bilaga 6 till rapport 1 (5)

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Föreläsning 7: Punktskattningar

OBS! Vi har nya rutiner.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

EXAMINATION KVANTITATIV METOD

Matematisk statistik KTH. Formelsamling i matematisk statistik

Inferensstatistik. Hypostesprövning - Signifikanstest

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Medicinsk statistik II

Provtagning och avfallsklassning av fyllnadsjord Slump eller vetenskap?

Uppgift a b c d e Vet inte Poäng

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

TMS136. Föreläsning 13

Att välja statistisk metod

Metodik för statistisk utvärdering av miljötekniska undersökningar i jord

Statistik 1 för biologer, logopeder och psykologer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 11, Matematisk statistik Π + E

Transkript:

Dataanalys kopplat till undersökningar Seminarium om undersökningsmetoder för förorenade områden, Malmö 6-7 maj Jenny Norrman, SGI, Chalmers FRIST På säker grund för hållbar utveckling

Innehåll Inledning Provtagningssyften Terminologi Konceptuell modell Provtagningsstrategier Provtagningsosäkerhet Hur många prover? Datautvärdering Programvaror Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 2

Inledning Varför provtar man? Del i beslutsunderlag Forskning Viktiga frågor att ställa sig: Vad är provtagningssyftet? Hur skall resultaten från provtagningen användas? Enligt Bättre Markundersökningar (SGI, 2006 14 rapporter) är det ofta brister i hur man preciserar provtagningssyftet. Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 3

Provtagningssyften Vad finns det? Hur mycket finns det? Var finns det? Sker det någon förändring över tiden? Kombinationer av ovanstående Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 4

Terminologi Population och variabel Stickprov: Statistisk definition: n stycken observationer Ofta i fält: ett insamlat prov Support och representativitet Samlingsprover Rumslig korrelation Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 5

Population, variabel, observation, stickprov Population: en grupp individer eller ett antal fysiska objekt Population observation Individerna eller de fysiska objekten har en eller flera egenskaper av intresse, vilka är observerbara storheter eller variabler stickprov (här fem observationer) Variabel, t ex halten i en observation Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 6

Support och representativitet Sample support strikt definierat som provets volym, form och orientering Representativitet ett uttryck för vilken grad ett prov kan användas för att karaktärisera den population som ska undersökas i förhållande till det beslut som skall fattas Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 7

Samlingsprov Man använder sig av delprov i en större volym för att skatta medelkoncentrationen Fördelar: Färre analyser, dvs. mindre kostsamt Större support, dvs. mindre variabilitet i data Nackdelar: Mindre information om variabilitet Stora provvolymer som kan påverka labkostnaden Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 8

Rumslig korrelation Graden av beroende mellan två punkter i rummet Modelleras ofta mha variogramanalys γ Avstånd Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 9

Konceptuell modell Vad är en konceptuell modell? Sammanfattning av all tillgänglig kunskap, både kvalitativt och kvantitativt, av områdets föroreningssituation Hur används den? Utforma provtagningen Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 10

Provtagningsstrategier Sannolikhetsbaserad provtagning Princip: varje element i en population har samma sannolikhet att bli utvald Statistiska metoder kan användas för utvärdering Riktad provtagning Princip: baserad på förhandskunskap Analys med statistiska metoder ger inte representativa resultat i de flesta fall en blandning av dessa. Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 11

Slumpmässiga urval I små populationer är det möjligt att göra en totalundersökning. I stora populationer är det sällan möjligt. Då får man göra ett urval och dra slutsatser om hela populationen på basis av det begränsade urvalet. Eftersom man drar slutsatser ifrån ett begränsat urval är det bra att kunna beräkna felet i extrapolationen Det kan man göra om urvalet sker slumpmässigt. Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 12

Provtagningsosäkerhet Beredning Inneboende variabilitet Analysosäkerheter Osäkerheter i provtagningsteknik Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 13

Strategier att hantera osäkerheter när man planerar provtagningen 1. Osäkerheter minimeras för en given budget 2. Kostnaden minimeras utifrån en given accepterad osäkerhet 3. Osäkerheter hanteras genom att följa ett regelverk för hur provtagning skall utföras 4. Osäkerheter ställs i relation till en potentiell risk och provtagningen planeras utifrån en balans mellan kostnaden för prover (att minska osäkerheterna) och hur stor riskkostnad osäkerheterna är förknippade med (datavärdesanalys) (Back, 2006) Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 14

Hur många prover? US EPA strategi: kostnaden minimeras utifrån en given accepterad osäkerhet Den accepterade osäkerheten kan dock variera beroende på platsspecifika förutsättningar. Verkligt förhållande Förorenat Tolkning av data Ej förorenat Typ I-fel, alfa Ej förorenat Korrekt beslut, 1-beta Förorenat Korrekt beslut, 1-alfa Typ II-fel, beta Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 15

Ex: Givet ett acceptabelt typ 1-fel Antalet prov baserat på ett konfidensintervall för medelvärdet: 2 t 1-α;n-1 = från Student s t-fördelning, α acceptabelt typ I fel, n-1 frihetsgrader e = max acceptabelt fel i medelskattningen (bredden på konfidensintervallet) s = standardavvikelsen n = t 1 α ; n 1 e s Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 16

Ex forts. α = 0.05 e = 50 mg/kg s =? Skatta genom (Back, 2004) s max min 4 = 600 4 200 = 100mg / kg Första gissning på n, t ex 11 (z-förd) Iterera fram: n = 18 prover Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 17

Ex: Givet acceptabelt typ I och II fel Antal prover det krävs för att upptäcka en given minsta detekterbar skillnad från riktvärdet (efter Grandin, 2006): n ( t t ) 2 s 1 α ; n 1 + = MDS 1 β; n 1 s = standardavvikelsen för populationen t 1-α;n-1 från Student s t-fördelning, α acceptabelt typ I fel, n- 1 frihetsgrader t 1-β;n-1 från Student s t-fördelning, β acceptabelt typ II fel MDS = Minsta Detekterbara Skillnad i absoluta tal. Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 18

Ex forts. α = 0.05 β = 0.20 MDS = 50 mg/kg s = 100 mg/kg Första gissning på n, t ex 26 (z-förd) Iterera fram: n = 44 prover OBS! Antagen normalfördelad data! Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 19

Varför kvantifiera osäkerheter och använda statistik? Kvantifiering: minskar behovet av bedömningar/tyckande. möjliggör någon form av vetenskaplig kritik. ökar (förhoppningsvis) transparensen i våra ställningstaganden. ökar möjligheten till oberoende jämförelser. ökar vår egen förståelse för olika risker. Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 20

Datautvärdering Optimerad utvärdering 1. Klassning 2. Bedömning av andel förorenade massor 3. Rumslig korrelation 4. Interpolation Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 21

1. Klassning Jmf representativ parameter med riktvärden (eller bakgrundshalt) Jmf representativ parameter med akuttox-värden Bedömning av missad hotspot Slutsats: förorenat/ej förorenat Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 22

2. Bedömning av andel förorenade massor Använda en teoretisk fördelning Använda datas fördelning Använda en betafördelning Ev inkludera subjektiv kunskap i betafördelningen Slutsats: behov av avgränsning eller inte Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 23

3 & 4 Rumslig korrelation och interpolation Bedömning av om det föreligger rumslig korrelation på en skala som är praktisk för interpolation T ex variogramanalys Slutsats: avgränsning med interpolation eller annan metod Deterministiska: inverse distance, triangulering Geostatistiska: kriging, geostatistisk simulering Korsvalidering Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 24

Data verifiering, validering Se över provtagningssyftet Support? Riktad provtagning eller slumpmässig? Stratifiering? Data under detektionsgränsen? Outliers? Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 25

Sammanfattning Syftet med en undersökning är av avgörande betydelse för hur undersökningsstrategin bör utformas. En konceptuell modell (hypotes) av föroreningssituationen är avgörande för kvalitén på provtagningen och dataanalysen. Hur säker behöver du vara för att ta beslut? Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 26

Gratis programvaror (US EPA) VSP (Visual Sample Plan) planering av undersökningar och utvärdering av data SADA (Spatial Analysis and Decision Assistance) utvärdering av data, även interpolation, samt planering av undersökningar ProUCL endast utvärdering av data, ej interpolation Seminarium om undersökningsmetoder för förorenade områden, Malmö, 6-7 maj 2008 27