Under ytan. Statistiska Institutionen Höstterminen Examensarbete på Kandidat nivå i Statistik, 15 högskolepoäng

Storlek: px
Starta visningen från sidan:

Download "Under ytan. Statistiska Institutionen Höstterminen Examensarbete på Kandidat nivå i Statistik, 15 högskolepoäng"

Transkript

1 Statistiska Institutionen Höstterminen 2016 Examensarbete på Kandidat nivå i Statistik, 15 högskolepoäng Under ytan En studie om hur detektionsgränser påverkar väntevärdesskattningar vid mätning av fosfat och kadmium i svenska vattendrag. Författare: Victor Boman, Martin Norlander Handledare: Universitetslektor Måns Thulin 1

2 Sammanfattning Uppsatsen ämnar utvärdera olika estimatorers egenskaper för att beräkna medelvärdesskattningar för delvis censurerad miljödata erhållen från Sveriges Lantbruks Universitet (SLU). Detta undersöks genom en simuleringsstudie i vilken data har simulerats från en χ2 fördelning där censureringsgrad och frihetsgrader har varierats. Därefter har de erhållna medelvärdesskattningarna utvärderats med hjälp av estimatorns medelkvadratfel (MSE) samt bias. Vidare har medelvärdesberäkningar gjorts på erhållen data från SLU. Alla simuleringar har gjorts i R, för medelvärdesberäkningar har tilläggspaketet Nondetects And Data Analysis for environmental data (NADA) använts. De estimatorer som utvärderats är Maximum Likelihood (MLE), Regression on order statistics (ROS), Kaplan-Meier samt substitution. Resultaten visar att MLE samt ROS ger konstant bättre MSE och bias när data antas följa en lognormalfördelning oavsett grad av censurering samt skevhet på data än vid normalfördelningsantagande. Vid hög skevhet på data ger substitution resultat nära det sanna medelvärdet oavsett grad av censurering. De mest väntevärdesriktiga estimatorerna finnes vara ROS under lognormalantagande samt substitution när data är skevt fördelad, för ickeskev data rekommenderas ROS med lognormalantagande, oavsett censureringsgrad. 2

3 Innehållsförteckning 1. Inledning Syfte Frågeställning Teori Terminologi och definitioner Substitution Maximum likelihood estimation Kaplan-Meier Regression on order statistics (ROS) Metod Resultat Förändringar av väntevärdesskattningar vid olika censuringsgrader Förändringar av väntevärdesskattningar när antalet frihetsgrader förändras Beräkningar på data erhållen från SLU Slutsats Vidare forskning Litteraturförteckning Appendix

4 1. Inledning En generellt ökande konsumtion och produktion i dagens samhälle innebär allt större påfrestningar på naturen. Det faktum att vi blir allt fler människor som är i behov av köttproduktion och vegetabiliska produkter innebär att mängden gödningsmedel som används på våra åkrar ökar. De ämnen som inte absorberas av marken hamnar i bäckar och diken runt åkrarna och förs sedan till våra sjöar, älvar och andra vattendrag där de ackumuleras. Fosfater och kadmium är några av de ämnen som ofta tillförs åkrarna via gödningsmedel. Vissa fosfater är livsnödvändiga för allt liv, i lagom mängd. I för stora mängder orsakar de övergödning och är således skadliga ur flera aspekter (Natur och miljö, 2016). Kadmium är i större mängder farligt för alla former av liv och kan hos människor orsaka bland annat njurskador och skelettdeformationer. Ämnet användes ofta i industriella produkter som plaster, färger och ytbehandlingsämnen fram till 1980-talet men förbjöds därefter. Sedan dess har mängden kadmium minskat i vissa områden men förblivit densamma inom andra. För stora mängder kadmium och fosfater i vattendragen kan alltså ha negativa konsekvenser för både vattenkvalitén, fiskbeståndet och den allmänna miljöhälsan samt människors hälsa (Lundberg, 2016). För att kunna identifiera vilka vattendrag som har problem med för höga halter av dessa ämnen är det av stor vikt att de mätmetoder som används ger tillförlitliga resultat. Eftersom det i absoluta tal handlar om små värden är ett vanligt förekommande problem att det är svårt att skilja de observationer som görs från värdet noll. Under ett visst gränsvärde går det inte att avgöra om ämnet finns i vattenprovet eller inte, trots att instrumentet visar att en mängd har observerats. Detta på grund av att mätinstrumentet inte är tillräckligt känsligt. Gränsvärdet kallas för mätinstrumentets detektionsgräns (Limit of detection, LOD) och ligger vanligtvis 3 standardavvikelser från 0 (även kallat blank ) (Uhrovcik, 2014). Den här typen av data kallas för vänstercensurerad och är något som beskrevs redan i slutet av 1800-talet (Cohen, 1991). Sedan dess har det gjorts en hel del forskning på området om hur den typen av data ska hanteras (Akritas et. al, 1994). Det lägsta möjliga värdet då kvantiteten av ämnet med säkerhet kan bestämmas kallas för kvantifieringsgräns (Limit of quantification, LOQ). Var denna gräns hamnar är beroende av hur data är fördelad, ett vanligt mått är dock 10 standardavvikelser från blanken (Uhrovcik, 2014). Tas kvantifieringsgränsen i beaktande innebär det således att fler observationer antingen måste substitueras eller estimeras. Ett vanligt förfarande är att dela upp datan i intervall när den undersöks. Man tar då både detektionsgräns och kvantifieringsgräns i beaktning. Eftersom värden under detektionsgränsen enbart kan konstateras ligga i ett intervall mellan noll och detektionsgränsen så innebär detta svårigheter att med noggrannhet bestämma de statistikor som är av intresse, till exempel medelvärden och spridningsmått. För att få ett mer exakt värde på de observationer som ligger i intervallet används ett antal olika metoder, vilken av dessa metoder som ger bäst resultat råder det i nuläget ingen konsensus kring. Enligt EUdirektiv (2009/90/EC) ska värden under kvantifieringsgränsen ersättas med halva kvantifieringsgränsen, ett förfarande som kallas för substitution. Helsel (2006, 2011;2012) menar att mer avancerade metoder, som till exempel Maximum Likelihood Estimation (MLE), ger de mest precisa resultaten och att substitution rentav innebär en felaktig fabricering av data. Helsel (2011; 2012) argumenterar vidare att substitution förvränger datans fördelning. Helsel skriver främst om substitution av detektionsgränsen, men samma resonemang borde gå att applicera på substitution av kvantifieringsgränsen. Antweiler och Taylor (2008) undersöker verklig data vars mätvärden uppmätts med två olika känsliga mätmetoder vilka 4

5 ger upphov till olika andelar censurerad data. De använder sedan den känsligaste analysen som facit för vilken estimator som ger de bästa estimaten och kommer fram till, i motsats till Helsel, att MLE är den överlägset sämsta metoden och att istället substitution eller Kaplan- Meier ger de bästa estimaten. Eftersom det inte råder någon fullständig enighet kring vilken av metoderna för att extrahera information från censurerad data som ger de mest precisa resultaten ämnar denna uppsats undersöka de metoder som Helsel (2011;2012) föreslår (MLE, ROS och Kaplan-Meier) samt substitutionsmetoden förordnad i EU-direktivet (applicerad på detektionsgränsen). Uppsatsen ämnar även undersöka, med hjälp av simulerad censurerad data, hur estimatorernas väntevärden förändras när andelen censurerad data förändras samt när graden av skevhet i data förändras. 1.2 Syfte Denna uppsats ämnar undersöka vilken estimator som ger mest väntevärdesriktiga medelvärdesskattningar när stickprovsdata innehåller olika andelar censurerad data samt när skevheten i data förändras. De estimatorer som undersöks är Maximum Likelihood-metoden, Kaplan-Meier, Regression on order statistics (ROS) samt substitution. 1.3 Frågeställning Hur skiljer sig väntevärdeskattningarna mellan de undersökta estimatorerna för fosfat- och kadmiumkoncentrationer i vatten när censurerade värden tas i beaktande? Vilken av estimatorerna ger de mest väntevärdesriktiga medelvärdesskattningarna för fosfat och kadmium? 2. Teori 2.1 Terminologi och definitioner Detektionsgräns (LOD) Detektionsgränsen är den nedre gräns där mätinstrument inte kan skilja mellan en indikation på en förekomst av ämnet från det bakgrundsbrus (av elspänning) som mätinstrumentet självt genererar och som ofta blir ett problem vid mätning av mycket små kvantiter av kemiska substanser. Detta leder till att värden under detektionsgränsen inte med statistisk säkerhet kan skiljas från noll, området mellan detektionsgräns och noll kallas även för blank (se figur 2:1:1 nedan för illustration) Detektionsgränsen ligger ofta tre standardavvikelser från blank. (Uhrovcik 2014) Kvantifieringsgräns (LOQ) Kvantifieringsgräns anger det minsta värde då det är möjligt att med säkerhet bestämma kvantiteten av det observerade värdet. Kvantifieringsgräns skiljer sig från detektionsgränsen då den ofta sätts 10 standardavvikelser från blank. (Uhrovcik 2014) 5

6 Figur 2:1:1 Illustration av förhållandet mellan blank, detektionsgräns och kvantifieringsgräns för symetrisk fördelad data med avstånd uttryckt i antal standardavvikelser. (Figuren är baserad på bild tagen från Wikipedia 1 ) Censurerad data samt censureringsgrad Censurerad data är data vars fullständiga fördelning inte med säkerhet kan bestämmas. Miljödata av den typ som undersöks i detta arbete är ett exempel på vänstercensurerad data eftersom det är de låga värdena, den vänstra delen/svansen av fördelningen som inte kan bestämmas. Censureringsgrad är den andel av stickprovsdata som är censurerad uttryckt i procent. Rapporteringsgräns Samlingsnamn för detektionsgräns och kvantifieringsgräns (i enlighet med Helsel 2011:2012). 2.2 Substitution Med substitution räknar man ut medelvärdet på vanligt vis men byter ut de observationer som ligger under rapporteringsgränsen. Det vanligaste är att man antingen sätter alla dessa värden till noll eller multiplicerar rapporteringsgränsens värde med 0,5 och sedan ersätter observationerna med det nya värdet. EU-direktiv 2009/90/EC förordnar att substitution med 0,5 gånger kvantifieringsgränsen är det värde som ska användas. Helsel (2006, 2011;2012) framför många invändningar mot substitution och kallar dessa värden för fabricerade och godtyckliga. Han visar också att de med substitutionsmetoden erhållna medelvärdena ligger längre ifrån de faktiska värdena än om andra metoder används. Antweiler och Taylor (2008) kom fram till att substitution inte är så dålig som Helsel menar. 2.3 Maximum likelihood estimation Det går att använda maximum likelihood estimation (MLE) för att skatta medelvärden. Metoden kräver att ett antagande görs om det undersökta datasetets fördelning, i uppsatsen antas antingen lognormal- eller normalfördelning. MLE använder tre delar av informationen: numeriska värden ovanför rapporteringsgränsen, andelen av data under rapporteringsgränsen 1 Detection limit - 6

7 och den fördelning som datasetet antas följa. Det viktigaste kriteriet för användning av MLE för estimering av medelvärden är hur väl datasetet passar in på den antagna fördelningen, eftersom MLE räknar ut den bästa matchningen givet den antagna fördelningen (Helsel 2011:2012). För att använda sig av MLE krävs ett stickprov större än 30 observationer för icke-skeva fördelningar och större än observationer för skeva fördelningar (Helsel 2011:2012). Andelen data under rapporteringsgräns/detektionsgräns får inte vara för stor då det måste vara möjligt att kunna göra ett antagande om en fördelning. Under antagandet om normal- eller lognormalfördelning löser MLE en likelihoodfunktion med två parametrar, väntevärde samt varians. I praktiken så löser man den logaritmerade likelihood funktionen och då ser funktionen ut som (1) nedan. [ ] (1) Där funktionen förändras givet vilken fördelning som antas. Likelihoodfunktionen består av två delar, där de två olika delarna representerar censurerade observationer respektive ocensurerade. Denna kan ses i ekvation (2) nedan där [ ] är täthetsfunktionen för den antagna fördelningen och [ ] är den kumulativa empiriska fördelningsfunktionen (edf). [ ] [ ] (2) är en binärvariabel som antar värdet 1 om observationen är ovanför censureringsgränsen och 0 om observationen ligger under censureringsgränsen. Så vid beräkning av de ocensurerade observationerna är vilket gör att den andra termen i ekvation (2) blir 1. För de censurerade observationerna så blir den första termen 1 och faller bort. Vid beräkning sätts den partiella derivatan till 0 och därefter löses ekvationen iterativt. Ekvationens lösning ger det estimerade medelvärdet och standardavvikelsen. Det vill säga de parametrar för den antagna fördelningen som har den högsta sannolikheten att producera de observerade värdena för de ocensurerade observationerna samt den observerade andelen data under censureringsgränsen (Helsel 2011;2012). 2.4 Kaplan-Meier Det är möjligt att använda sig av icke-parametrisk överlevnadsanalys för att undersöka medelvärden gällande censurerad data. Icke-parametriska metoder förutsätter inget antagande om en fördelning för att möjliggöra beräkningar utan använder observationernas relativa positioner det vill säga ranger. Icke-parametriska metoder är användbara vid hantering av censurerad data då de enbart använder den redan givna informationen i datasetet. Den vanligaste metoden för att beräkna deskriptiv statistik vid överlevnadsanalys är att använda Kaplan-Meier (KM) metoden. Kaplan-Meier metoden används ofta vid medicinska överlevnadsstudier, då vissa patienter kan avlida under studietiden, andra kan välja att dra sig ur studien samt andra typer av bortfall. Dessa observationer blir då censurerade. Då censurerade observationer inom miljödata ofta är vänstercensurerade och en förutsättning för användning av Kaplan-Meier är att datasetet är högercensurerat, används linjär 7

8 transformation för att vända datasetet som i ekvation (3). Användningen av linjär transformation förändrar inte datasetets form förutom att riktningen blir omvänd (Helsel 2011:2012). där C är en konstant. Kaplan-Meier räknar ut estimat för överlevnadssannolikhetsfunktionen kallad S. Vilket i sin tur går att skriva som Vilket nu ger att även är den kumulativa fördelningsfunktionen för originaldatan x. För att beräkna deskriptiv statistik med Kaplan-Meier rangordnas det vända datasetet från högst till lågt, vilket innebär att censurerade observationer får högst rang. Den kumulativa sannolikheten att överleva ges av ekvation (6) (3) (4) (5) (6) är överlevnadskurvan för det transformerade datasetet, är både antalet censurerade och ocensurerade observationer med koncentrationer vid, samt alla observationer med koncentrationer under, den rangen. Slutligen är antalet ocensurerade observationer vid den för övre koncentrationen. Med hjälp av ekvation (6) kan en överlevnadskurva ritas upp och medelvärdet för Kaplan- Meier räknas ut genom att integrera arean under kurvan. (Helsel 2011;2012) 2.5 Regression on order statistics (ROS) Regression on order statistics (ROS) är en metod som kan användas till att beräkna deskriptiv statistik när datasetet innehåller censurerad data. I uppsatsen används robust ROS som är en semiparametrisk metod. Metoden antar att de censurerade observationerna är normal- eller lognormalfördelade, för de ocensurerade observationerna antas ingen fördelning. ROS använder minsta kvadratmetoden för att beräkna deskriptiv statistik, estimatorn plottar de ocensurerade och censurerade observationerna mot en sannolikhetskurva och beräknar en linjär regression för att approximera parametrarna för den antagna fördelningen. (Helsel 2011;2012) ROS jämför datasetets spridningsdiagram mot kvantilerna för en normal- eller lognormalfördelning. Om fördelningsantagandet är uppfyllt så beräknas en linjär regression för de ocensurerade observationerna. Parametrarna för regressionen används för att imputera värden för de censurerade observationerna. Därefter beräknas stickprovsmedelvärdet. 8

9 På grund av att estimatorn endast antar en fördelning för de censurerade observationerna och inte för de ocensurerade är den i jämförelse med andra metoder väldigt robust mot avvikelser från den antagna fördelningen. ROS ger därför vanligen väntevärdesriktiga estimat upp till en censureringsgrad på ca 80 procent. (Helsel 2011;2012) 3. Metod I undersökningen används programmeringsspråket R för att simulera ett stort antal olika - fördelningar. Simuleringen görs i syfte att försöka efterlikna erhållen undersökningsdata från SLU, sett till bland annat skevhet samt stickprovsstorlek. R-paketet NADA (Nondetects And Data Analysis for environmental data) erbjuder ett mångsidigt verktyg för att undersöka censurerad data och de estimatorer som används i uppsatsen finns inkluderade. Data för fosfat och kadmium i vattendrag från olika delar av Sverige har av Sveriges Lantbruksuniversitet (SLU) samlats in en gång per vattendrag varje månad under åren 2013 till Totalt ger detta 119 observationer för fosfat och 119 för kadmium. Proverna för fosfat har inhämtats från vattendragen Skellefte Älv, Mesjön och Lill-Fämtan. Proverna för kadmium kommer från Liffedarve, Stormyrbäck och Dalälven vid Mockfjärd. Det förutsätts att rapporteringsgränserna är desamma för alla provresultat. Detektionsgränsen för fosfat är enligt SLU 1 µg/l och kvantifieringsgränsen 3 µg/l. Detektionsgränsen för kadmium är 0,002 µg/l och kvantifieringsgränsen 0,006 µg/l. Nedan i figur 3:1:1 och figur 3:1:2 visas hur den erhållna data för kadmium respektive fosfat är fördelad. Utifrån de erhållna värdena för fosfat och kadmium simuleras data med approximativt samma fördelning och därefter görs beräkningar för simuleringarna. Utgångspunkten är att miljödata är ungefärligt log-normalfördelad utifrån tidigare forskning (Helsel, 1992). Med hjälp av simuleringarna utvärderas vilken metod att extrahera information från censurerad data som ger de bästa estimeringarna av medelvärdena för fosfat och kadmium. För att utvärdera de estimerade medelvärdena används bland annat estimatorns bias och MSE. 9

10 Figur 3:1:1 Histogram och kernel-densiteter för kadmium för respektive provtagningsområde. Figur 3:1:2 Histogram och kernel-densiteter för fosfat för respektive provtagningsområde. 10

11 Figur 3:1:1 samt 3:1:2 visar originaldata erhållen från SLU. Observera att inga justeringar av värden under detektionsgränsen har gjorts. Fosfatdata innehåller även negativa värden vilket förvränger histogram och densiteter. I tabellerna 3:1:1 och 3:1:2 nedan visas den andel av den erhållna data som är censurerad vid detektionsgränsen respektive kvantifieringsgränsen. När detektionsgränsen används som rapporteringsgräns ligger andelen censurerad data mellan 2 % och 9 % för kadmium medan den ligger mellan 38 % och 75 % för fosfat. När kvantifieringsgränsen används som rapporteringsgräns ligger andelen censurerad data mellan 57 % och 69 % för kadmium och mellan 83 % och 100% för fosfat. Tabell 3:1:1 Antal observationer samt andel censurerade observationer med detektionsgräns som rapporteringsgräns. Provtagningsområde n n censurerade (detektionsgräns) % censurerade Stormyrbäck(cd) ,1 Vdalälven(cd) ,6 Liffedarve(cd) ,6 Lill-Fämtan(Po4) ,3 Mesjön(Po4) ,7 Skellefteälv(Po4) ,0 Tabell 3:1:2 Antal observationer samt andel censurerade observationer med kvantifieringsgräns som rapporteringsgräns. Provtagningsområde n n censurerade (kvantifieringsgräns) % censurerade Stormyrbäck(cd) ,8 Vdalälven(cd) ,9 Liffedarve(cd) ,1 Lill-Fämtan(Po4) ,0 Mesjön(Po4) ,0 Skellefteälv(Po4) ,0 Dataset för Lill-Fämtan, Mesjön samt Skellefteälv har diverse negativa värden. De negativa mätvärderna är kopplade till hur mätinstrumentet är kalibrerat. Dock så är koncentrationer med negativa värden självklart omöjliga att observera (antingen finns ämnet eller inte i stickprovet) och därför har inga resultat för dessa dataset tagits med i uppsatsen. Försök att beräkna medelvärden för dessa dataset gjordes med hjälp av transformationer, men utan tillfredsställande resultat. Även om inga beräknar görs med kvantifieringsgräns taget i beaktande och inte heller på fosfatdatan, tas dessa med i tabellerna för att visa på hur verkliga mätvärden kan se ut. Det kan noteras att andelen censurerad data för fosfat generellt är betydligt högre än för kadmium. 11

12 För att utvärdera vilken metod som bör användas givet vilken grad av censurering har dataset med olika andelar censurerad data som överensstämmer med den erhållna data simulerats och resultaten rapporteras i nästa avsnitt. I simuleringstudien simuleras data utifrån en fördelning där antalet frihetsgrader varieras. är en optimal fördelning att simulera utifrån då den har intressanta egenskaper. Vid låga antal frihetsgrader har fördelningen en hög skevhet men konvergerar mot en normalfördelning vid högre antal frihetsgrader vilket delvis går att utläsa av ekvation 7 samt figur 3:1:3. (7) Figur 3:1:3 visar en fördelning plottad mot en normalfördelning med samma parametrar. I den vänstra grafen är väntevärdet för de båda fördelningarna fyra och för den högra grafen är väntevärdet 50. Vid fyra frihetsgrader är fördelningen rejält skev (assymetrisk) men när frihetsgraderna ökar så minskar skevheten och vid 50 frihetsgrader liknar fördelningen en normalfördelning. fördelningen lämpar sig således väl för att undersöka hur estimatorerna presterar när skevheten i datan förändras. Dataset har simulerats utifrån en fördelning med 4 respektive 50 frihetsgrader för att se hur bias och standardiserad MSE förändras givet en ökning i censureringsgraden. För varje censureringsgrad har dataset med 35 observationer i respektive dataset simulerats. Andelen censurerad data ökar med två procentenheter i intervallet 0 till 75%. Censureringsgraden kan variera mellan dataset om 35 observationer men vid simulering över dataset blir den angivna censureringsgraden genomsnittet över alla simulerade dataset. MSE samt standardiserat MSE definieras som: ( ) ( ) (8) ( ) ( ) ( ) (9) Dataset har även simulerats utifrån en fördelning givet en specificerad censureringsgrad för att se hur bias och standardiserad MSE förändras givet en ökning i antalet frihetsgrader. Där dataset för varje frihetsgrad i intervallet 1 till 50 frihetsgrader med ett stickprov om 35 observationer i respektive dataset har simulerats. 12

13 NADA paketet i R använder tre metoder för att beräkna medelvärden givet att datasetet har censurerade observationer. Dessa metoder är beskrivna i avsnitt 2. I R antar MLE samt ROS antingen normalfördelning eller lognormalfördelning vid estimeringar, i resultatet utvärderas båda antaganden. Vid beräkning av substitution har halva detektionsgränsen använts för att ersätta de censurerade värdena och sedan har stickprovsmedelvärdet beräknats. 4. Resultat Nedan presenteras hur simulerad -fördelad data under olika förutsättningar, såsom ökande censureringsgrad samt med ökande antal frihetsgrader, påverkar de estimerade medelvärdena för respektive metod. För MLE samt ROS antas data vara antingen normalfördelad eller lognormalfördelad och påverkar således estimaten. För substitution samt Kaplan-Meier görs inget sådant antagande. De i figurerna angivna fördelningarna påverkar alltså enbart MLE och ROS. Läsaren uppmanas att vara uppmärksam på axlarnas skalor vid jämförelse mellan graferna då dessa är kan skilja något från varandra. Utifrån resultatet av simuleringstudien görs slutligen beräkningar på data erhållen från SLU. För den som är intresserad av ytterligare simuleringar under andra förutsättningar, såsom större stickprov, finns det många fler att studera i Appendix. 4.1 Förändringar av väntevärdesskattningar vid olika censuringsgrader Figur 4:1:1 (A) Standardiserat MSE mot censureringsgrad (Normalfördelningsantagande, Df=50, n=35. (B) Bias mot censureringsgrad (Normalfördelningsantagande, 50 DF, n=35). (C) Standardiserad MSE mot censureringsgrad (lognormalfördelningsantagande, Df50, n=35. (D) Bias mot censureringsgrad Df50, n=35. Figur 4:1:1 (A) visar hur det standardiserade medelkvadratfelet förändras när censureringsgraden ökar för icke-skev data. Vid låga grader av censurering presterar alla metoder bra. Vid en censureringsgrad på över 25 procent av data så ökar medelkvadratfelet 13

14 för MLE och substitution, Kaplan-Meier och ROS ger inte samma ökning vid samma grad av censurering. Figur 4:1:1 (B) visar hur estimatorernas bias förändras när censureringgraden ökar med ickeskev data. ROS, MLE och substitution underskattar medelvärdet mer med ökande censureringsgrad medan Kaplan-Meier överskattar medelvärdet mer. ROS ger lägst bias oavsett andel censurerad data. Kaplan-Meier och MLE är tillsynes varandras spegelbilder på varsin sida om nollstrecket även om Kaplan-Meier är konstant något bättre. Substitution har konsekvent den största biasen i absoluta tal förutom vid 75 % censureringsgrad då MLE blir än sämre. Vid ett lognormaltantagande för MLE och ROS, har inte MLE samma ökning i MSE som vid normalantagande, se Figur 4:1:1 (C). Både MLE och ROS ger bättre estimat när ett lognormalantagande görs även då data är icke-skev. ROS har ett lägre standardiserat medelkvadratfel även vid en relativt hög censureringgrad (>50 procent) jämfört med normalantagande. Vid lognormalantagande förändras inte biasen avsevärt för de olika estimatorerna. ROS uppvisar dock en lägre bias vid lognormalantagande än vid normalantagande och är den estimator som ger de mest väntevärdesriktiga resultaten oavsett fördelningsantagande för icke-skev data se figur 4:1:1 (D). Figur 4:1:2 (A) Standardiserad MSE mot censureringsgrad (normalfördelningsantagande, Df=4, n=35). (B) Bias mot censureringsgrad (normalfördelningsantagande, Df=4, n=35). (C) Standardiserad MSE mot censureringsgrad(lognormalfördelningsantagande, Df=4, n=35). (D) Bias mot censureringsgrad (lognormalfördelningsantagade, Df=4, n=35). Vid simulering av data med hög grad av skevhet (4 frihetsgrader) och normalfördelningsantagande noteras att ROS inte ger tillförlitliga resultat, i jämförelse med de övriga metoderna, redan vid 15% censurerad data. När andelen censurerad data ökar tenderar 14

15 ROS att bli än sämre. MLE och substitution visar sig, under dessa förutsättningar, vara de mest robusta estimatorerna se figur 4:1:2 (A). När istället ett antagande om lognormalfördelning görs enligt figur 4:1:2 (C) ovan presterar MLE sämst fram till drygt 50% censurerad data då Kaplan-Meier istället får det högsta medelkvadratfelet. ROS och substitution följer varandra fram till ca 40% censurerad data då ROS gradvis börjar prestera sämre. Substitution tenderar att vara tämligen opåverkad när andelen censurerad data ökar. Figur 4:1:2 (B) ovan visar hur ROS under normalfördelningsantagande presterar sämst av alla estimatorer och underskattar successivt mer och mer medelvärdet med ökande censureringsgrad. Substitution ger genomgående en liten bias och är den enda estimatorn som inte blir sämre när andelen censurerad data ökar. En jämförelse mellan figur 4:1:2(B) och figur 4:1:2 (D) ovan visar att MLE något överraskande ger en högre bias mellan 2 och 50% censurerad data under lognormalfördelningsantagande än under normalfördelningsantagande. Över 50% tenderar MLE dock att återigen närma sig det faktiska medelvärdet. ROS och substitution ger konsekvent de bästa estimaten med en ungefär lika stor överskattning för ROS som substitution underskattar medelvärdet. 4.2 Förändringar av väntevärdesskattningar när antalet frihetsgrader förändras Vid simulering med ökande antal frihetsgrader har dataset simuleras per frihetsgrad utifrån en fördelning i intervallet 1 till 50 frihetsgrader. Figur 4:2:1 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.05, n=35). (B) Bias mot Df (normalfördelningsantagande, cens=0.05, n=35, start 2 df). (C)Standardiserad MSE mot Df (lognormalfördelningsantagande, cens=0.05, n=35). (D) Bias mot Df (lognormalfördelningsantagande, cens=0.05, n=35, start 2 df). Figur 4:2:1 (A) visar hur medelkvadratfelet förändras över olika frihetsgrader. De olika estimatorerna följer varandra, dock uppvisar substitution ett ökande standardiserat medelkvadratfel vid ökning av antalet frihetsgrader. Kaplan-Meier är konsekvent den bästa 15

16 estimatorn vid låg andel censurerad data. Vid låga frihetsgrader har Kaplan-Meier, MLE samt substitution minst bias. Kaplan-Meier uppvisar en ökande positiv bias, substitution har en starkt ökande negativ bias vid ökning av frihetsgrader och blir den klart sämsta estimatorn vid cirka 15 frihetsgrader. Vid ett högre antal frihetsgrader >15 uppvisar ROS minst bias se figur 4:2:1(B). Vid lognormalfördelningsantagande samt vid låga frihetsgrader har MLE högst standardiserat medelkvadratfel men det är avtagande med ökning i antalet frihetsgrader. Kaplan-Meier har konstant över frihetsgrader lägst medelkvadratfel. Även ROS har ett lågt standardiserat medelkvadratfel som följer Kaplan-Meier tätt. När simulerad data blir mer och mer icke-skev fungerar substitution sämre. Skillnaden mellan övriga metoder är väldigt liten förutom under 10 frihetsgrader då MLE är klart sämst se figur 4:2:1(C). Vid låga frihetsgrader uppvisar Kaplan-Meier, ROS samt substitution låg bias, när antalet frihetsgrader ökar uppvisar substitution en ökad negativ bias. ROS har låg bias över ökningen i frihetsgrader se figur 4:2:1 (B). Figur 4:2:2 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.25, n=35). (B) Bias mot Df (normalfördelningsantagande, cens=0.25, n=35). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande, cens=0.25, n=35). (D) Bias mot Df (lognormalfördelningsantagande, cens=0.25, n=35). Vid en högre grad av censurering (25%) uppvisar substitution samt MLE högre standardiserat medelkvadratfel än vid lägre grad av censurering. Kaplan-Meier visar ett lågt standardiserat medelkvadratfel över antalet frihetsgrader. ROS uppvisar ett högt medelkvadratfel vid lågt antal frihetsgrader som sedan avtar, detta avtagande beror rimligtvis på normalfördelningsantagande vid beräkningar se figur 4:2:2(A). Vid normalfördelningsantagande uppvisar ROS en konstant negativ bias. Kaplan-Meier har ett ökande bias med ökande frihetsgrader. MLE och substitution har en låg bias vid låga frihetsgrader men den ökar med antalet frihetsgrader se figur 4:2:2 (B). 16

17 Vid lognormalfördelningsantagande och vid en censureringsgrad på 25 procent, har ROS lägst standardiserat medelkvadratfel. Kaplan-Meier har ett högre medelkvadratfel och det är ökande i bland lägre frihetsgrader, se figur 4:2:2 (C). Vid lognormalfördelningsantagande visar ROS en låg positiv bias. Kaplan-Meier har en ökande bias med ökande frihetsgrader. MLE och Substitution visar en ökande negativ bias med ökning i antalet frihetsgrader (figur 4:2:2 (D)). Figur 4:2:3 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.6, n=35). (B) Bias mot Df (normalfördelningsantagande, cens=0.6, n=35). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande, cens=0.6, n=35). (D) Bias mot Df (lognormalfördelningsantagande, cens 0.6, n=35). Vid en censureringsgrad på 60 procent givet en skev fördelning uppvisar ROS ett högt standardiserat medelkvadratfel, det är dock avtagande när fördelningen blir allt mer icke skev. MLE samt substitution uppvisar ett ökande standardiserat medelkvadratfel vid ökning i frihetsgrader medans Kaplan-Meier uppvisar ett ökande standardiserat medelkvadratfel vid låga frihetsgrader för att sedan jämna ut sig och ligger därefter konsekvent på samma nivå, se figur 4:2:3(A). Figur 4:2:3 (B) visar de olika estimatorernas bias vid ökning i frihetsgrader, vid skev data (under ca 6 frihetsgrader) har Kaplan-Meier, MLE och substitution den lägsta biasen. När data sedan blir mer och mer icke-skev tenderar dessa estimatorer att ge en större bias i absoluta tal. ROS däremot underskattar medelvärdet konsekvent oavsett skevheten på data vilket är en fördel. Över 30 frihetsgrader ger MLE en mindre bias än substitution. Vid lognormalfördelningsantagande visar inte ROS ett lika högt medelkvadratfel som vid normalantagande, oavsett fördelningens skevhet. MLE förändras avsevärt då estimatorn vid låga frihetsgrader visar ett högt men avtagande medelkvadratfel och vid 5 frihetsgrader ökar medelkvadratfelet igen, se figur 4:2:3 (C). ROS uppvisar lägst bias av de i studien testade metoderna över förändringar i datasetets skevhet. Bias ligger strax över noll vilket tyder på att 17

18 det är en bra estimator även vid en hög grad av censurering. Kaplan-Meier överskattar medelvärdet mer, givet en ökning i censureringsgrad. MLE och substitution uppvisar en ökande underskattning av medelvärdet, givet en ökning i censureringsgrad se figur 4:2:3 (D). 4.3 Beräkningar på data erhållen från SLU Tabell 4:3:1 Skattade medelvärden på erhållen data (kadmium, lognormalitetsantagande). Estimator Lifferdarve µg/l Vdalälven µg/l Stormyrbäck µg/l KM ROS MLE SUB Tabell 4:3:1 ovan visar de skattade medelvärdena för de från SLU erhållna mätvärdena för kadmium, vilka har en censurerad andel observationer mellan cirka noll och 10 procent. Det lämpar sig därför att jämföra dessa skattningar med de simulerade dataseten i figur 4:1:2 vid låga censureringsgrader, samt figur 4:2:1. Uppskattningsvis ger, utifrån dessa figurer, Kaplan- Meier, ROS och substitution de mest väntevärdesriktiga stickprovsmedelvärdena för kadmiumdatan. För att undersöka detta närmare redovisas nedan ett lådagram (figur 4:3:1) för simulerad data med egenskaper liknande den för kadmium. ROS tenderar enligt lådogrammet att överskatta medelvärdet något medan substitution underskattar det. Det faktiska medelvärdet ser ut att ligga mittemellan dessa två estimat. Substitution är dock känslig för hur skev data är och försämras konsekvent när data blir mer icke-skev. Eftersom histogrammen i figur 3:1:1 för Liffedarve och Stormyrbäck visar på en fördelning relativt lik den simulerade χ2-fördelningen med fyra frihetsgrader borde skattningarna av substitution- och ROSestimatorerna användas för att beräkna stickprovsmedelvärden av kadmiumdata. Kadmiumproverna från Västra Dalälven är däremot mer icke-skevt fördelad och det blir därför en avvägning vilken metod som anses passa bäst. I de fall där det råder osäkerhet kring ämnets fördelning är, utifrån resultatet från simuleringarna, ROS under lognormalfördelningsantagande den mest tillförlitliga estimatorn. 18

19 Figur Lådagram över simulering(10000 stickprov): n=35, medelvärde=4, Censurerade andel Tabell 4:3:2 Simulering(10000 stickprov): n=35, medelvärde=4, Censurerade andel=0.05, lognormalantagande.. Estimator Bias Var St.MSE KM ROS MLE SUB En tydligare bild av hur estimatorerna presterar under de förutsättningar som råder för de erhållna kadmiumproverna presenteras i tabell ovan. Där tydliggörs att MLE är den estimator som har högst varians samt bias. Alla de övriga metoderna har i jämförelse med MLE en relativt låg bias och ett lågt standardiserat medelkvadratfel och ligger generellt sett nära populationsmedelvärdet. MLE-estimatorns generellt sett dåliga prestation relativt de övriga metoderna kan bero bland annat på att MLE är känsligare för små stickprov. I Appendix, figur 8.8, kan det noteras att MLE är den estimator som förbättras mest av ett stort strickprov på 200 observationer. 19

20 5. Slutsats En samlad bedömning av resultaten från simuleringarna visar att ROS under ett antagande om lognormalfördelad data är den bästa av de undersökta estimatorerna oavsett censureringsgrad. Dock är det viktigt att notera att om data antas vara icke-skev men i själva verket är skev så ger ROS de sämsta estimaten. MLE underskattar medelvärdet ungefär lika mycket som Kaplan-Meier överskattar medelvärdet, Kaplan-Meier tenderar dock att i absoluta tal ge en något lägre bias. MLE och ROS ger konsekvent lägre standardiserat medelkvadratfel och bias när data antas vara lognormalfördelad oavsett censureringsgrad och skevhet på data. När andelen censurerad data ökar presterar samtliga estimatorer föga förvånande successivt sämre. ROS-estimaten ligger dock i genomsnitt relativt nära populationsmedelvärdet oavsett censureringsgrad och estimatorn verkar näst intill opåverkad av en större andel censurerad data. Först vid 60% börjar medelkvadratfelet för ROS öka märkvärt. För icke-skev data är substitution den minst väntevärdesriktiga estimatorn men vid strax över 70% censureringsgrad blir MLE än sämre. Kaplan-Meier överskattar konsekvent medelvärdet oavsett skevhet eller grad av censurering, medan de övriga estimatorerna oftast tenderar att underskatta medelvärdet, med vissa undantag. Det faktum att MLE tenderar att överskatta estimaten kan bero på ett eventuellt felaktigt fördelningsantagande, men kan även bero på att data är simulerad utifrån en fördelning som till och med vid 50 frihetsgrader inte är helt symmetrisk. ROS är däremot robust mot avvikelser från normalitet samt lognormalitet när lognormalitet antas. Slutligen kan det konstateras att substitution ger, vid skev data och oavsett graden av censurering, skattningar nära det sanna populationsmedelvärdet. Under dessa förutsättningar tenderar substitution att vara den mest väntevärdesriktiga estimatorn. När data blir mer och mer icke-skev presterar dock substitution successivt sämre. I de fall då det råder osäkerhet kring hur data är fördelad är därför ROS under lognormalfördelningsantagande den mest tillförlitliga estimatorn av de undersökta alternativen, oavsett censureringsgrad. 6. Vidare forskning Även om den här studien gett ett tillförlitligt svar på frågeställningen så kvarstår det många frågor som kräver vidare forskning. Det bör göras ytterligare simuleringar för att undersöka hur olika stickprovsstorlekar påverkar estimatorerna samt simuleringar utifrån andra sannolikhetsfördelningar, exempelvis utifrån mixturefördelningar eftersom densitetskurvorna från originaldatan till viss del uppvisar en sådan karaktär. Då denna studie begränsar sig till att undersöka hur olika censureringsgrader påverkar väntevärdesskattningar med enbart detektionsgränsen taget i beaktande, rekommenderas ytterligare forskning kring kvantifieringsgräns samt intervallskattning för att estimera medelvärden. 20

21 7. Litteraturförteckning Akritas, M.G., Ruscitti T.F. & Patil, G.P "7 Statistical analysis of censored environmental data". Elsevier Science & Technology. s Antweiler, R.C. & Taylor, H.E "Evaluation of statistical treatments of left-censored environmental data using coincident uncensored data sets: I. Summary statistics". Environmental science & technology. vol. 42, nr. 10, s Cohen, A.C Truncated and censored samples: theory and applications. 1:a uppl. New York. Marcel Dekker. Detection Limit, Wikipedia, (Hämtad ). EU-kommissionens direktiv (2009/90/EC) av den 31 juli 2009 om tekniska specifikationer för kemisk analys och övervakning av vattenstatus. Helsel, D.R "Fabricating data: How substituting values for nondetects can ruin results, and what can be done about it". Chemosphere. vol. 65, nr. 11, s Helsel, D.R. 2012;2011. Statistics for censored environmental data using Minitab and R. 2:a uppl. Hoboken. N.J. Wiley. Helsel, D.R. & Hirsch, R.M Statistical Methods in Water Resources. 1:a uppl. Amsterdam. Elsevier. Lee, L. & Helsel, D Statistical analysis of water-quality data containing multiple detection limits: S-language software for regression on order statistics. Computers and Geosciences. vol. 31, nr. 10, s Uhrovcik, J "Strategy for determination of LOD and LOQ values - Some basic aspects". TALANTA. vol. 119, s Internet: Detection Limit. Wikipedia. (Hämtad ). Lundberg, Tove Kadmium i fisk. (Hämtad ). Natur och miljö Använd fosfatfria tvättmedel i glesbygden!. (Hämtad ). 21

22 8. Appendix Figur 8:1 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.1, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:2 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.15, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). 22

23 Figur 8:3 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.20, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:4 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.4, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). 23

24 Figur 8:5 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.45, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:6 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.5, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). 24

25 Figur 8:7 (A) Standardiserad MSE mot Df (normalfördelningsantagande, cens=0.55, n=35). (B) Bias mot Df (normalfördelningsantagande). (C) Standardiserad MSE mot Df (lognormalfördelningsantagande. (D) Bias mot Df (lognormalfördelningsantagande). Figur 8:8 (A) Standardiserad MSE mot censureringsgrad (normalfördelningsantagande, 4 df, n=200). (B) Bias mot cens (normalfördelningsantagande). (C) Standardiserad MSE mot cens (lognormalfördelningsantagande. (D) Bias mot cens (lognormalfördelningsantagande). 25

26 Figur 8:9 (A) Standardiserad MSE mot censureringsgrad (normalfördelningsantagande, 50 df, n=200). (B) Bias mot cens (normalfördelningsantagande). (C) Standardiserad MSE mot cens (lognormalfördelningsantagande. (D) Bias mot cens (lognormalfördelningsantagande). 26

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Skottarevet, Kattegatt Provtagningsredskap: Ponar och Boxcorer Beställare: Triventus Consulting AB Littera: 210417 Koncentrationer av metaller, PAHer, PCBer, alifatiska och aromatiska kolväten Datum: 2005-12-15

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Samplingfördelningar 1

Samplingfördelningar 1 Samplingfördelningar 1 Parametrar och statistikor En parameter är en konstant som karakteriserar en population eller en modell. Exempel: Populationsmedelvärdet Parametern p i binomialfördelningen 2 Vi

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

TMS136. Föreläsning 11

TMS136. Föreläsning 11 TMS136 Föreläsning 11 Andra intervallskattningar Vi har sett att vi givet ett stickprov och under vissa antaganden kan göra intervallskattningar för väntevärden Man kan även gör intervallskattningar för

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

TMS136. Föreläsning 7

TMS136. Föreläsning 7 TMS136 Föreläsning 7 Stickprov När vi pysslar med statistik handlar det ofta om att baserat på stickprovsinformation göra utlåtanden om den population stickprovet är draget ifrån Situationen skulle kunna

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

Datorövning 1: Fördelningar

Datorövning 1: Fördelningar Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS012/MASB03: MATEMATISK STATISTIK, 9 HP, VT-17 Datorövning 1: Fördelningar I denna datorövning ska du utforska begreppen sannolikhet och

Läs mer

TMS136. Föreläsning 10

TMS136. Föreläsning 10 TMS136 Föreläsning 10 Intervallskattningar Vi har sett att vi givet ett stickprov kan göra punktskattningar för fördelnings-/populationsparametrar En punkskattning är som vi minns ett tal som är en (förhoppningsvis

Läs mer

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3 Laboration 2 Fördelningar och simulering Introduktion 2014-02-06 Syftet med laborationen är dels

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) Aktuella avsnitt i boken: Kap 61 65 Lektionens mål: Du ska

Läs mer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

Föreläsning 7. Statistikens grunder.

Föreläsning 7. Statistikens grunder. Föreläsning 7. Statistikens grunder. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016 Föreläsningens innehåll Översikt, dagens föreläsning: Inledande

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Obligatorisk uppgift, del 1

Obligatorisk uppgift, del 1 Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten

Läs mer

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:... Avd. Matematisk statistik TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Examinator för SF94/SF96: Tatjana Pavlenko, 08-790 84 66 Examinator för

Läs mer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Uppgift 1. f(x) = 2x om 0 x 1

Uppgift 1. f(x) = 2x om 0 x 1 Avd. Matematisk statistik TENTAMEN I Matematisk statistik SF1907, SF1908 OCH SF1913 TORSDAGEN DEN 30 MAJ 2013 KL 14.00 19.00. Examinator: Gunnar Englund, 073 321 3745 Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 3 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

Parade och oparade test

Parade och oparade test Parade och oparade test Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning: möjliga jämförelser Jämförelser mot ett

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17 1/17 F8 Skattningar Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 14/2 2013 Inledande exempel: kullager Antag att diametern på kullager av en viss typ är normalfördelad N(µ,

Läs mer

Weibullanalys. Maximum-likelihoodskattning

Weibullanalys. Maximum-likelihoodskattning 1 Weibullanalys Jan Enger Matematisk statistik KTH Weibull-fördelningen är en mycket viktig fördelning inom tillförlitlighetsanalysen. Den används ofta för att modellera mekaniska komponenters livslängder.

Läs mer

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 1, 1 APRIL 215 FÖRDELNINGAR, SIMULERING OCH FÖRDELNINGSANPASSNING Syfte Syftet med dagens laboration är att du ska

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) SF1901: Sannolikhetslära och statistik Föreläsning 9. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 21.02.2012 Jan Grandell & Timo Koski () Matematisk statistik 21.02.2012

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 11 Johan Lindström 13 november 2018 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 1/25 Repetition Stickprov & Skattning Maximum likelihood

Läs mer

F22, Icke-parametriska metoder.

F22, Icke-parametriska metoder. Icke-parametriska metoder F22, Icke-parametriska metoder. Christian Tallberg Statistiska institutionen Stockholms universitet Tidigare när vi utfört inferens, dvs utifrån stickprov gjort konfidensintervall

Läs mer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Deskriptiv statistik Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Deskriptiv statistik Tabeller Figurer Sammanfattande mått Vilken

Läs mer

9. Konfidensintervall vid normalfördelning

9. Konfidensintervall vid normalfördelning TNG006 F9 09-05-016 Konfidensintervall 9. Konfidensintervall vid normalfördelning Låt x 1, x,..., x n vara ett observerat stickprov av oberoende s.v. X 1, X,..., X n var och en med fördelning F. Antag

Läs mer

LMA521: Statistisk kvalitetsstyrning

LMA521: Statistisk kvalitetsstyrning Föreläsning 5 Föregående föreläsningar Acceptanskontroll: Konsten att kontrollera producerade enheter så att man kan garantera kvalitet samtidigt som kontrollen inte blir för kostsam att genomföra Dagens

Läs mer

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 4. Kapitel 5, sid Stickprovsteori Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori 2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen 3 Statistisk inferens Population:

Läs mer

3 Maximum Likelihoodestimering

3 Maximum Likelihoodestimering Lund Universitet med Lund Tekniska Högskola Finansiell Statistik Matematikcentrum, Matematisk Statistik VT 2006 Parameterestimation och linjär tidsserieanalys Denna laborationen ger en introduktion till

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II G. Gripenberg Aalto-universitetet 13 februari 2015 G. Gripenberg (Aalto-universitetet) MS-A0509 Grundkurs i sannolikhetskalkyl och

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski SF1901: Sannolikhetslära och statistik Föreläsning 10. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 18.02.2016 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016

Läs mer

LABORATION 1. Syfte: Syftet med laborationen är att

LABORATION 1. Syfte: Syftet med laborationen är att LABORATION 1 Syfte: Syftet med laborationen är att ge övning i hur man kan använda det statistiska programpaketet Minitab för beskrivande statistik, grafisk framställning och sannolikhetsberäkningar, visa

Läs mer

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Något om sannolikheter, slumpvariabler och slumpmässiga urval LINKÖPINGS UNIVERSITET Matematiska institutionen Statistik Stig Danielsson 004-0-3 Något om sannolikheter, slumpvariabler och slumpmässiga urval 1. Inledning Observerade data innehåller ofta någon form

Läs mer

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN): Lunds tekniska högskola Matematikcentrum Matematisk statistik Matematisk statistik AK för ekosystemteknik, FMSF75 OH-bilder 2018-09-19 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Läs mer

Thomas Önskog 28/

Thomas Önskog 28/ Föreläsning 0 Thomas Önskog 8/ 07 Konfidensintervall På förra föreläsningen undersökte vi hur vi från ett stickprov x,, x n från en fördelning med okända parametrar kan uppskatta parametrarnas värden Detta

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

LMA522: Statistisk kvalitetsstyrning

LMA522: Statistisk kvalitetsstyrning Föreläsning 5 Föregående föreläsningar Acceptanskontroll: Konsten att kontrollera producerade enheter så att man kan garantera kvalitet samtidigt som kontrollen inte blir för kostsam att genomföra Dagens

Läs mer

a) Facit till räkneseminarium 3

a) Facit till räkneseminarium 3 3.1 Fig 1. Sammanlagt 30 individer rekryteras till studien. Individerna randomiseras till en av de fyra studiearmarna (1: 500 mg artemisinin i kombination med piperakin, 2: 100 mg AMP1050 i kombination

Läs mer

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är

Läs mer

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 2 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

TMS136. Föreläsning 4

TMS136. Föreläsning 4 TMS136 Föreläsning 4 Kontinuerliga stokastiska variabler Kontinuerliga stokastiska variabler är stokastiska variabler som tar värden i intervall av den reella axeln Det kan handla om längder, temperaturer,

Läs mer

Gamla tentor (forts) ( x. x ) ) 2 x1

Gamla tentor (forts) ( x. x ) ) 2 x1 016-10-10 Gamla tentor - 016 1 1 (forts) ( x ) x1 x ) ( 1 x 1 016-10-10. En liten klinisk ministudie genomförs för att undersöka huruvida kostomläggning och ett träningsprogram lyckas sänka blodsockernivån

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Del 2: Hantering och bedömning av data och osäkerheter

Del 2: Hantering och bedömning av data och osäkerheter Del 2: Hantering och bedömning av data och osäkerheter Praktikfall: Kv. Verkstaden 14 Teori: Representativ halt, referenshalt, stickprov & beskrivande statistik, konfidensintervall & UCLM95 Diskussion:

Läs mer

Demonstration av laboration 2, SF1901

Demonstration av laboration 2, SF1901 KTH 29 November 2017 Laboration 2 Målet med dagens föreläsning är att repetera några viktiga begrepp från kursen och illustrera dem med hjälp av MATLAB. Laboration 2 har följande delar Fördelningsfunktion

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

STATISTISK POWER OCH STICKPROVSDIMENSIONERING STATISTISK POWER OCH STICKPROVSDIMENSIONERING Teori UPPLÄGG Gemensam diskussion Individuella frågor Efter detta pass hoppas jag att: ni ska veta vad man ska tänka på vilka verktyg som finns vilket stöd

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 4 Statistiska metoder 1 Dagens föreläsning o Sannolikhet Vad är sannolikhet? o Slumpvariabel o Sannolikhetsfördelningar Binomialfördelning Normalfördelning o Stickprov och population o Centrala

Läs mer

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge Lunds tekniska högskola Matematikcentrum Matematisk statistik Matematisk statistik AK för ekosystemteknik, FMSF75 OH-bilder 28-9-3 Normalfördelningen, X N(µ, σ) f(x) = e (x µ)2 2σ 2, < x < 2π σ.4 N(2,).35.3.25.2.5..5

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17 Matematisk statistik slumpens matematik

Läs mer

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I MATEMATISK STATISTIK UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för Teknologer, 5 poäng MSTA33 Ingrid Svensson TENTAMEN 2004-01-13 TENTAMEN I MATEMATISK STATISTIK Statistik för Teknologer, 5 poäng Tillåtna

Läs mer

Stokastiska processer med diskret tid

Stokastiska processer med diskret tid Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna

Läs mer

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Sid (7) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift Nedanstående beräkningar från Minitab är gjorda för en Poissonfördelning med väntevärde λ = 4.

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare "Det finns inget så praktiskt som en bra teori" November 2011 Repetition Vad vi gjort hitills Vi har börjat med att studera olika typer av mätningar och sedan successivt tagit fram olika beskrivande mått

Läs mer

Punktskattning 1 Ett exempel

Punktskattning 1 Ett exempel Matematisk statistik för STS vt 004 004-05 - 04 Bengt Rosén Punktskattning Ett exempel Vid utveckling av nannoelektronik vill man väga en mycket liten "pryl", med vikt någonstans mellan 00 och 50 mg. "Prylen"

Läs mer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,

Läs mer

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa. Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten

Läs mer

F9 Konfidensintervall

F9 Konfidensintervall 1/16 F9 Konfidensintervall Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 18/2 2013 2/16 Kursinformation och repetition Första inlämningsuppgiften rättas nu i veckan. För att

Läs mer

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial? MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.

Läs mer

Medicinsk statistik I

Medicinsk statistik I Medicinsk statistik I Läkarprogrammet T5 VT 2013 Susanna Lövdahl, Msc, Doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Medicinsk statistik VT-2013 Tre stycken

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF1913 MATEMATISK STATISTIK FÖR IT OCH ME ONSDAGEN DEN 12 JANUARI 2011 KL 14.00 19.00. Examinator: Camilla Landén, tel. 7908466. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer