1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Relevanta dokument
Datorövning 3 Hypotesprövning och styrka

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

Laboration 4: Intervallskattning och. Hypotesprövning. 1 Förberedelseuppgifter LABORATION 4 MATEMATISK STATISTIK AK FÖR ED, FMS022, VT02

Laboration 4: Intervallskattning och hypotesprövning

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning

Laboration 5: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Föreläsning 5: Hypotesprövningar

Thomas Önskog 28/

Avd. Matematisk statistik

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Föreläsningsanteckningar till kapitel 8, del 2

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Matematisk statistik för B, K, N, BME och Kemister

Laboration 4: Hypotesprövning och styrkefunktion

TMS136. Föreläsning 10

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematisk statistik för B, K, N, BME och Kemister

9. Konfidensintervall vid normalfördelning

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

SF1901 Sannolikhetsteori och statistik I

F9 Konfidensintervall

Matematisk statistik KTH. Formelsamling i matematisk statistik

bli bekant med summor av stokastiska variabler.

Datorövning 1: Fördelningar

Avd. Matematisk statistik

Föreläsning 12: Regression

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Repetition 2, inför tentamen

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 11: Mer om jämförelser och inferens

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik för B, K, N, BME och Kemister

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Lektionsanteckningar 11-12: Normalfördelningen

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

FÖRELÄSNING 8:

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Hur man tolkar statistiska resultat

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Matematisk statistik för D, I, Π och Fysiker

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

TAMS65 - Föreläsning 6 Hypotesprövning

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Avd. Matematisk statistik

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Mer om konfidensintervall + repetition

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 11, FMSF45 Konfidensintervall

Binomialfördelning, två stickprov

Föreläsning 12: Repetition

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

FÖRELÄSNING 7:

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 5. Kapitel 6, sid Inferens om en population

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TMS136. Föreläsning 11

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Grundläggande matematisk statistik

TAMS28 DATORÖVNING VT1

Föreläsning 11, Matematisk statistik Π + E

Hypotestest och fortsättning av skattningar och konfidensintervall

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

10. Konfidensintervall vid två oberoende stickprov

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Uppgift a b c d e Vet inte Poäng

Föreläsning G60 Statistiska metoder

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF20 Syfte: Syftet med dagens laborationen är att du skall: få förståelse för punkt- och intervallskattningar. få förståelse för hypotestest och styrkefunktioner. arbeta igenom ett riktigt exempel baserat på Radon mätningar. Specialrutiner finns att hämta på: www.maths.lu.se/kurshemsida/fmsf45masb03/ 1 Bakgrund Under den här laborationen kommer vi arbeta igenom ett exempel på en statistisk analys av Radonmätningar samt illustrera de teoretiska egenskaperna hos skattningar och hypotestest. Uppgifterna i laborationen växlar mellan analysen av Radon-mätningarna och simulerings baserade illustrationer av punkt- och intervallskattningar, hypotestest och styrkefunktioner 1.1 Något om Radon och Radonmätningar Radon är en ädelgas som är radioaktiv där den vanligast förekommande isotopen har en halveringstid på 3.8 dygn. Vid sönderfallen bildas alfa-partiklar, som kan orsaka (stor) skada i sin allra närmaste omgivning. Om gasen har inandats utgör lungvävnaden den närmaste omgivningen och Radon i inomhusmiljö beräknas orsaka 400 fall av lungcancer per år. 2004 sänktes riktvärden för bostäder från 400 Bq/m 3 till 200 Bq/m 3 (1 Bq/m 3 innebär att en atom sönderfaller per sekund i varje kubikmeter luft). Socialstyrelsens mål är att alla bostäder och offentliga utrymmen ska uppnå riktvärden senast 2020 (Världshälsoorganisationen, WHO, rekommenderar högst 100 Bq/m 3 ; enligt en analys från Boverket 1 är 100 Bq/m 3 inte samhällsekonomiskt rimligt.) Ett sätt att mäta radonkoncentrationen i inomhusluften är att hänga upp en alfa-känslig film. När filmen träffas av alfa-partiklar uppstår hål i filmen, antalet hål på en yta är ett mått på radonkoncentrationen. 1.2 Statistisk modell För att kunna göra en ordentlig statistisk analys av ett mätmaterial behöver vi en statistisk model för radioaktivt sönderfall. Det visar sig att sönderfallen bildar en poisson-process, där antalet sönder fall under en tidsperiod är Poissonfördelat enligt Po (λ T ), där λ beror av ämnets koncentration och halveringstid; T är längden av tidsperioden. För våra filmer blir nu antalet hål på en given yta också Poisson-fördelat med ett väntevärde som är proportionellt mot Radonkoncentrationen, exponeringstiden och ytans storlek. Vidare är antalet hål på disjunkta (ej överlappande) ytor på en film oberoende stokastiska variabler. 1 www.boverket.se/globalassets/publikationer/dokument/2011/radon-i-inomhusmiljon.pdf

2 Laboration 3, Matstat E, HT-18 1.3 Förberedelseuppgifter 1. Repetera teorin för punkt- och intervallskattningar. 2. Mozquizto 1: Om X i Po ( μ i ) och oberoende vilken fördelning har då summan Y = n i=1 X i? 3. Mozquizto 2: Givet ett stickprov x från X Po (λ T ) ange en skattning av λ och skattningens medelfel. 4. Givet ett stickprov x 1,..., x 5 från X i Po (λ T ) när kan skattningen λ = x T normalapproximeras? 5. Mozquizto 3: Vi har ett stickprov x 1,..., x 5 från X i N ( μ, 3 ). En lämplig skattning av det okända väntevärdet μ är μ = x. Vilken fördelning kommer skattningen μ = x att följa? 6. Mozquizto 4: Givet stickprovet i fråga 5, hur konstrueras ett 95%-igt konfidensintervall för μ? Vad händer om σ är okänd? 7. Förvissa dig om att du förstår hur hypotesprövning går till och vad styrkefunktionen innebär. 8. Mozquizto 5: Givet stickprovet och skattningen i fråga 5, vill vi testa H 0 : μ = 0 mot H 1 : μ 0 på signifikansnivån α = 0.05 med hjälp av en teststorhet. Hur ser teststorheten och när ska H 0 förkastas? 9. Givet en observation x = 3 från X Po ( μ ) där vi vill test H 0 : μ = 8 mot H 1 : μ < 8 på signifikansnivån α = 0.05 med hjälp av direktmetoden. Beräkna testets P-värde och avgör om H 0 ska förkastas eller ej. 2 Skattningar av Radonkoncentrationen Det datamaterial som vi skall arbeta med har uppmätts genom att ett antal rum i en bostad har försetts med var sin film. Dessa filmer har efter framkallning avlästs på tio, lika stora, icke överlappande ytor. Vi inför följande beteckningar: n = antalet upphängda filmer, dvs antalet rum, γ i = radonkoncentrationen i rum i, mätt i Bq/m 3, X ij = antalet hål i film i på yta j, i = 1,..., n, j = 1,..., 10. Enligt ovan gäller då X ij Po(K γ i ), där proportionalitetskonstanten K beror på avläsningsytornas storlek, exponeringstiden och framkallning/avläsningen av filmerna. 2.1 Radonmätningarna Datamaterialet är uppmätt i en nybyggd bostad under 32 dagar i mars och april. i Rum X ij 1 Vardagsrum 20 17 22 15 20 22 24 22 34 20 2 Sovrum 14 15 17 13 14 11 15 16 22 15 3 Mikaels rum 11 17 19 14 25 17 18 16 23 21 Datamaterialet finns i radon200.dat och läses in i Matlab med >> radon=load( radon200.dat ) Kolonn 1 i variabeln radon innehåller nu mätvärdena för vardagsrummet, kolonn 2 sovrummet och kolonn 3 Mikaels rum. Efter förbredelse uppgifterna i Mozquizto kommer du att få ett eget värde på K att arbeta med.

Laboration 3, Matstat E, HT-18 3 >> K =? %värde från Mozquizto Syftet med analysen av datamaterialet är att utreda om riktvärdet på 200 Bq/m 3 överskrids eller inte. 2.2 Punktskattningar Vi startar med att studera de tre rummen var för sig. Tänk igenom att en väntevärdesriktig punktskattning γ i av γ i, i = 1, 2, 3, ges av γ i = 1 10K 10 X ij = X i K Beräkna skattningarna för datamaterialet ovan: >> g3rum = mean(radon)/k Mozquizto 6: Vad blev de tre γ-skattningarna? där X i är medelvärdet i rum i. För att kunna beräkna konfidensintervall behöver vi ta reda på de statistiska egenskaperna hos punktskattningarna. Vi har att V(γ i ) = V 1 10 10 X ij 1 = 10K (10K ) 2 V (X ij ) = 10K γ i (10K ) 2 = γ i 10K vilket ger medelfelet d(γ i ) för vart och ett av de tre rummen: >> d3rum = sqrt(g3rum/(10*k)) Mozquizto 7: Vad blev de tre medelfelen? 2.3 Intervallskattningar För att få en uppfattning om hur stor radonkoncentrationen kan tänkas vara i de olika rummen gör vi 95 % konfidensintervall för γ i. Det förutsätter att vi kan normalapproximera, dvs att 10 Y i = X ij Po ( ) 10K γ i >> g3rum*10*k där 10K γ i > 15 Uppgift: Kan vi normalapproximera i alla tre rummen? ( Eftersom γ i N γ i, ) γ i /(10K ) ges konfidensintervallet av I γi = γ i ± λ α/2 d(γ i ): >> I3rum = [g3rum-norminv(1-0.05/2)*d3rum; g3rum+norminv(1-0.05/2)*d3rum] Den första raden ger de lägre gränserna i de tre intervallen, den andra raden ger de övre gränserna. Mozquizto 8: Finns det en risk att radonkoncentrationen över 200 Bq/m 3 i något av rummen (d.v.s. innehåller intervallet 200 Bq/m 3 )?

4 Laboration 3, Matstat E, HT-18 3 Skattningars egenskaper Konfidensintervallet för radonkoncentrationen ovan bygger på en normalapproximation av Poissonfördelningen. För att få en uppfattning om hur punkt- och intervallskattningar fungerar studerar vi därför ett simulerings exempel med normalfördelad data. 3.1 Punktskattningar Antag att vi har ett stickprov x 1,..., x n från X i N ( μ, 3 ). En lämplig skattning av det okända väntevärdet μ är nu μ = x. En viktig fråga är hur bra skattningen blir för olika värden på n och σ. Matlab rutinen skattningar simulerar 1 000 olika stickprov och jämför skattningarna med det sanna värdet. Låts se vad som händer om vi har n 1 = 5 eller n 2 = 25 observationer med sant μ = 1 >> skattningar(1, 3, 5, 25, muskatt ) Använd rutinen för att undersöka vad som händer när antalet observationer, n, och osäkerheten, σ, ändras. Mozquizto 9: Hur bör vi välja antalet observationer, n, och standardavvikelsen, σ för att få en så bra skattning som möjligt? 3.2 Intervallskattningar Med rutinen skattningar kan vi också illustrera de konfidensintervall för μ som våra 1 000 stickprov genererar. Intervallet för μ ges ju av (känt σ) I μ = μ ± λ α/2 D(μ ) = μ ± λ α/2 σ n För att plotta 100 intervall baserade på n 1 = 5 eller n 2 = 25 observationer med sant μ = 1 kan vi använda >> skattningar(1, 3, 5, 25, konfint ) Använd rutinen för att undersöka vad som händer när antalet observationer, n, och osäkerheten, σ, ändras. Ändras antalet intervall som inte innehåller rätt värde på μ (de röda intervallen)? Mozquizto 10: Hur påverkas intervallbredden av antalet observationer och standardavvikelsen? 4 Test av Radonkoncentrationen 4.1 Hypotesprövning med direktmetoden Man kan också välja att utföra analysen som ett hypotesprövningsproblem. Den som ska bo i ett rum vill testa H 0 :γ i = 200 Bq/m 3, mot H 1 :γ i < 200 Bq/m 3. Mozquizto 11: Varför vill invånarna ha ett ensidigt test åt detta hållet?

Laboration 3, Matstat E, HT-18 5 Tidigare gjorde vi punkt- och intervallskattingar av γ i, vilket ger kvantitativ information om var de sanna värdena kan tänkas ligga. För att göra hypotestest kan vi i det här fallet använda direktmetoden, d.v.s. vi räknar ut ett p-värde som p = P (Få det vi fått eller värre om H 0 är sann) och förkastar H 0 om p < α. För att räkna utan normalapproximation kan vi räkna direkt med observationerna X ij Po ( K γ i ) och framförallt utnyttja att summan av observationerna i ett rum också är Poissonfördelad, 10 Y i = X ij Po ( ) 10K γ i. >> gamma0 = 200; >> mu03rum = 10*K*gamma0 % väntevärdet för summan när H0 är sann >> y3rum = sum(radon) % summorna i de tre rummen >> P3rum = poisscdf(y3rum,mu03rum) % P(Y_i <= y_i) Mozquizto 12: Kan nollhypotesen förkastas på signifikansnivån 5% i något av rummen? Summan av samtliga observationer i alla rummen är också poissonfördelad. Vi räknar ut ett p-värde som gäller för hela huset och avgör med direktmetoden om H 0 : γ = 200 skall förkastas, där γ är medelradonkoncentrationen i hela huset. Utgå från koden ovan och ertsätt... nedan för beräkna p-värdet >> mu0hus =... % väntevärdet för hela huset när H0 är sann >> yhus =... % summan för hela huset >> Phus =... % använd poisscdf för att beräkna p-värdet Mozquizto 13: Vad blir p-värdet för testet av medelradonkoncentrationen i hela huset? 5 Hypotestest Grundläggande egenskaper Ett alternativ till direktmetoden är att räkna med normalapproximation och teststorhet. Vi behöver då vara försiktiga med att räkna medelfelet under H 0. Om H 0 är sann gäller att γ = X ( ) 1 + X 2 + X 3 γ0 3K N γ 0, 30K och teststorheten blir T = γ γ 0 d 0 (γ ) = γ γ 0 γ0 /30K Uppgift: Blir det någon skillnad i resultatet jämfört med direktmetoden? Precis som för konfidensintervallet ser vi att hypotestestet kan genomföras genom normalapproximation av Poisson-fördelningen. För data som är normalfördelad från början kan vi använda styrkefunktionen för att undersöka hur stora skillnader som testet kan upptäcka. (Det går att räkna ut styrka även för Poisson baserade test, men det är lite krångligare.)

6 Laboration 3, Matstat E, HT-18 5.1 Styrkefunktion för normalfördelningar med känt σ Funktionen styrkefkn illustrerar styrkefunktionen om h(μ) = P(förkasta H 0 om μ är det rätta värdet) för test av nollhypotesen H 0 : μ = μ 0 om observationerna är X i N ( μ, σ ) med känd standardavvikelse σ och μ = x. För att illustrera h(μ) vid ett test av H 0 : μ = 0 mot H 0 : μ 0 på signifikansnivån α = 0.05 med n = 10 observationer och σ = 1 >> styrkefkn(1, 10, 0, 0.05,!= ) För ensidiga test har vi >> styrkefkn(1, 10, 0, 0.05, < ) >> styrkefkn(1, 10, 0, 0.05, > ) Uppgift: Hur påverkas styrkefunktionen av antalet observationer, n, standardavvikelsen, σ, och konfidensgraden, α? Mozquizto 14: Undersök också hur styrkan ser ut för ensidiga test. För vilka värden är blir h(μ) stor eller liten, verkar det rimligt? Genom att ange ytterliggare en parameter beräknas styrkan i en punkt. T.ex. så ger >> styrkefkn(1, 10, 0, 0.05,!=, 0.5) värdet av h(0.5) och illustrerar regionerna för typ 1 och typ 2 fel. Uppgift: Vad illustrerar de blå och röda området i den övre figuren? Mozquizto 15: Vad är sannolikheten att upptäcka att μ 0 om det sanna värdet är μ = 0.5? 5.2 Styrkefunktion för normalfördelning med okänt σ I de flesta praktiska situationer känner vi inte σ utan den måste skattas med σ = s. Det gör att teststorheten T = μ μ 0 d(μ ), där d(μ ) = s/ n blir t(n 1)-fördelad när H 0 är sann. Den kommer då att variera mer än tidigare, eftersom s i nämnaren också varierar slumpmässigt. Det gör det något besvärligare att beräkna styrkan. Som tidigare vet vi att teststorheten T = μ μ 0 d(μ ) = μ μ 0 s/ n följer en t(n 1)-fördelning som är symmetrisk kring 0. I allmänhet, kan styrkan (d.v.s. h(μ) när μ μ 0 ) beräknas med hjälp av en icke-central t-fördelning med f = n 1 frihetsgrader och centreringsparameter Δ = μ 1 μ 0 σ/. Den intresserade kan läsa mer på n en.wikipedia.org/wiki/noncentral_t-distribution.