Laboration 4: Intervallskattning och hypotesprövning



Relevanta dokument
Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och. Hypotesprövning. 1 Förberedelseuppgifter LABORATION 4 MATEMATISK STATISTIK AK FÖR ED, FMS022, VT02

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Laboration 4: Intervallskattning och hypotesprövning

Laboration 5: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning

Datorövning 3 Hypotesprövning och styrka

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsningsanteckningar till kapitel 8, del 2

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Thomas Önskog 28/

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Föreläsning 12: Repetition

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 12: Regression

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Matematisk statistik för B, K, N, BME och Kemister

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1901 Sannolikhetsteori och statistik I

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Laboration 2: Sannolikhetsteori och simulering

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Laboration 4: Hypotesprövning och styrkefunktion

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 11: Mer om jämförelser och inferens

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsningsanteckningar till kapitel 9, del 2

F9 Konfidensintervall

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Mer om konfidensintervall + repetition

TMS136. Föreläsning 10

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Binomialfördelning, två stickprov

Avd. Matematisk statistik

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

TMS136. Föreläsning 13

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

9. Konfidensintervall vid normalfördelning

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 11, FMSF45 Konfidensintervall

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Matematisk statistik KTH. Formelsamling i matematisk statistik

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

, s a. , s b. personer från Alingsås och n b

Föreläsning 11, Matematisk statistik Π + E

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Matematisk statistik för B, K, N, BME och Kemister

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Matematisk statistik för D, I, Π och Fysiker

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12, FMSF45 Hypotesprövning

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Avd. Matematisk statistik

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Lektionsanteckningar 11-12: Normalfördelningen

Laboration 2: Statistisk hypotesprövning

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

bli bekant med summor av stokastiska variabler.

TMS136. Föreläsning 4

Avd. Matematisk statistik

FACIT: Tentamen L9MA30, LGMA30

Tentamen i Matematisk statistik Kurskod S0001M

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

F3 Introduktion Stickprov

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 4 MATEMATISK STATISTIK AK FÖR CDIFYSIKER, FMS012/MASB03, HT12 Laboration 4: Intervallskattning och hypotesprövning Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden Intervallskattning Hypotesprövning Normalapproximation Dessutom får du möjlighet att arbeta igenom ett något större verkligt problem. Vi kommer att ägna oss åt statistisk analys av radonmätningar i bostadshus och försöka bedöma om gällande gränsvärden kan anses vara över- eller underskridna. 1 Förberedelseuppgifter Som förberedelse till laborationen bör du läsa igenom Kapitel 12 och 13 i kursboken samt hela laborationshandledningen. Till laborationens start har du med dig lösningar till förberedelseuppgifterna. a) Redogör för de viktigaste begreppen inom teorin för hypotesprövning; nollhypotes, mothypotes och signifikansnivå. b) Redogör för sambandet mellan intervallskattning och hypotesprövning. Om man vill testa H 0 :μ =μ 0 mot H 1 :μ >μ 0 med hjälp av motsvarande intervall, hur skall detta intervall konstrueras? Tvåsidigt, uppåt begränsat eller nedåt begränsat? c) Vi har ett stickprov x 1,...,x n från X i Po(μ). Ange en lämplig skattning,μ, avμoch beräkna väntevärde och varians för denna skattning, dvs beräkna E(μ ) och V(μ ). Ange också hur man beräknar medelfelet d(μ ). d) Konstruera ett konfidensintervall för μ baserat på normalapproximation och ange ett villkor för när du kan göra approximationen. e) Ange modellen för stickprov i par och hur man kan testa H 0 :Δ = 0 mot H 1 :Δ 0 med hjälp av ett konfidensintervall. f) Ange modellen för två oberoende normalfördelade stickprov och hur man kan testa H 0 : μ x =μ y mot H 1 :μ x μ y med hjälp av ett konfidensintervall.

2 Laboration 4, Matstat AK för CDIFysiker, HT12 2 Radon 2.1 Något om radonmätningar Radon är en ädelgas som är radioaktiv. Den vanligast förekommande isotopen har en halveringstid på 3,8 dygn. Radonisotopen sönderfaller till nya ämnen, s.k. radondöttrar, som i sin tur är radioaktiva med mycket kort halveringstid. Vid sönderfallen bildas alfa-partiklar, som, när de far fram, kan orsaka skada i sin allra närmaste omgivning. Om gasen eller någon av döttrarna har inandats utgör lungvävnaden den närmaste omgivningen. Radon och dess döttrar är delar av en lång sönderfallskedja som startar med uran och slutar med bly. Ett sätt att mäta radonkoncentrationen i inomhusluften är att hänga upp en alfa-känslig film. När den träffas av en alfa-partikel uppstår en skada i filmen i träffpunkten. Denna skada förstärks vid framkallning av filmen så att det blir ett hål i filmen. Bilden nedan visar hur ett hål kan se ut efter framkallning då man tittar på filmen i mikroskop. Hålen har maximalt diametern 7 μm. Antalet hål på en yta är ett mått på radonkoncentrationen. Figur 1: Framkallad alfa-känslig film. Bilden såväl som delar av texten har tillhandahållits av Gilbert Jönsson vid Atomfysik, LTH 2.2 Statistisk modell För att kunna göra en ordentlig statistisk analys av ett mätmaterial behöver vi mer statistisk kunskap om radioaktivt sönderfall. Det visar sig att tidpunkterna och platserna (rumskoordinaterna) för sönderfallen bildar en s.k. poisson-process (efter den franske matematikern Poisson). Poisson-processen behandlas utförligt i fortsättningskursen i stokastiska processer. Enkelt kan man säga att sannolikheten för att en given radonatom skall sönderfalla i ett givet tidsintervall är fix, och oberoende av vad som har hänt tidigare. Bl.a. innebär detta att antalet hål på en given yta av en film är poissonfördelat med ett väntevärde som är proportionellt mot radonkoncentrationen, exponeringstiden och ytans storlek. Vidare är antalet hål på olika disjunkta (ej överlappande) ytor på en film oberoende stokastiska variabler. Detta är vad som visar sig väsentligt i den fortsatta analysen. Det datamaterial som vi skall arbeta med har uppmätts genom att ett antal rum i en bostad har försetts med var sin film. Dessa filmer har efter framkallning avlästs på tio olika icke överlappande ytor, med fix storlek, var. Vi inför följande beteckningar: n = antalet upphängda filmer, dvs antalet rum, γ i = radonkoncentrationen i rum i, mätt i Bq/m 3, X ij = antalet hål i film i på yta j, i = 1,...,n, j = 1,...,10.

Laboration 4, Matstat AK för CDIFysiker, HT12 3 Enligt ovan gäller då X ij Po(Kγ i ), där proportionalitetskonstanten K, som nämnts, beror på avläsningsytornas storlek och exponeringstiden, men också på bl.a. förstoringen vid avläsningen av filmerna. 3 Arbete med data Datamaterialet är uppmätt i en nybyggd bostad den 24/3 25/4 1994. Detta skall tolkas så att filmerna hängdes upp vid en viss tidpunkt den första dagen och togs ned vid samma tidpunkt den sista dagen. i Rum X ij 1 Vardagsrum 20 17 22 15 20 22 24 22 34 20 2 Sovrum 14 15 17 13 14 11 15 16 22 15 3 Mikaels rum 11 17 19 14 25 17 18 16 23 21 Datamaterialet finns i Ö ÓÒ¾¼¼º Ø och läses in på vanligt sätt. Kolonn 1 innehåller mätvärdena för vardagsrummet, kolonn 2 sovrummet och kolonn 3 Mikaels rum. Konstanten K är 0.0962 för en yta vid 30 dagars exponering. Eftersom den aktuella exponeringstiden är längre måste en kompensation för detta göras. Enligt resonemanget i förra stycket skall detta helt enkelt göras linjärt, eftersom väntevärdena för X -variablerna är proportionella mot exponeringstiden. Eftersom våra filmer exponerats 32 dagar bör vårt värde på K vara 0.0962 32/30 = 0.1026. Syftet med analysen av datamaterialet är att utreda om gränsvärdet på 200 Bq/m 3 överskrids. Vi kommer att beräkna punktskattningar av radonkoncentrationen dels för rummen var för sig, dels för hela huset. Punktskattningarna kommer att kompletteras med motsvarande intervallskattningar. 3.1 Punktskattningar Uppgift: Vi startar med att studera de tre rummen var för sig. Tänk igenom att en väntevärdesriktig punktskattningγ i avγ i, i = 1, 2, 3, ges avγ i = 1 10 X ij. Beräkna skattningarna för 10K datamaterialet ovan: Ö¾¼¼ ÐÓ ³Ö ÓÒ¾¼¼º سµ à ¼º½¼¾ ÖÙÑ ½» ½¼ õ ÙÑ Ö¾¼¼µ För att gå vidare i vår statistiska analys och (så småningom) beräkna konfidensintervall behöver vi ta reda på de statistiska egenskaperna hos punktskattningarna. Uppgift: Vi har att V(γ i ) = V 1 10 10 X ij 1 = 10K (10K ) 2 V (X ij ) = 10Kγ i (10K ) 2 = γ i 10K vilket ger medelfelet d(γ i ) för vart och ett av de tre rummen: Ñ Ð ÖÙÑ ÕÖØ ÖÙÑ»½¼»Ãµ

4 Laboration 4, Matstat AK för CDIFysiker, HT12 Uppgift: Vi studerar nu medelvärdet av radonkoncentrationen över de tre rummen, vilken ges av γ = 1 3 γ i. En skattning av denna storhet ges avγ = 1 3 γ i, medγ i som tidigare i texten. 3 3 i=1 Variansen för skattningen blir (återigen egenskaper hos Poissonfördelning): V(γ ) = V 1 10 30K ( 10 10 X 1j + X 2j + X 3j ) = 10K (γ 1 +γ 2 +γ 3 ) (30K ) 2. Beräkna medelvärdetγ och dess medelfel: Ù Ñ Ò ÖÙѵ Ñ Ð Ù ÕÖØ ½¼ à ÙÑ ÖÙѵµ» ¼ õ ¾µ i=1 Den skattning avγdu får fram skall jämföras med gränsvärdet för nybyggda hus som är 200 Bq/m 3. Om gränsvärdet överstigs måste kostsamma åtgärder vidtagas. Punktskattningen kompletteras nedan med ett approximativt konfidensintervall och vi behöver då de beräknade medelfelen. 3.2 Intervallskattning För att på ett bättre sätt kunna uttala oss om huruvida radonkoncentrationen överstiger gränsvärdet eller ej, vill vi göra konfidensintervall förγ i, i = 1, 2, 3 (varje enskilt rum) samtγ(medelvärde över alla rum). Uppgift: För att kunna göra konfidensintervall för de punktskattningar som du tog fram ovan, måste vi känna till dessa skattningars fördelningar, åtminstone approximativt. Bestäm lämpliga approximationer av skattningarnas fördelningar. Uppgift: Konfidensintervall kan vara tvåsidiga eller ensidiga, ensidiga intervall kan dessutom vara uppåt begränsade eller nedåt begränsade. Vilken typ av intervall för radonkoncentrationen är intressant för invånarna i huset att studera? Uppgift: Beräkna konfidensintervall (den typ som ni bestämt) förγ i, i = 1, 2, 3 ochγ. Använd en approximativ konfidensgrad på 0.95. Normalfördelningens kvantiler fås i Matlab med λ α/2 =ÒÓÖÑ ÒÚ ½¹ ÐÔ»¾µ. Kan man för något rum med fog påstå att radonkoncentrationen ligger under eller över gränsvärdet? Vad gäller för medelvärdet över huset?

Laboration 4, Matstat AK för CDIFysiker, HT12 5 3.3 Hypotesprövning Man kan också välja att utföra analysen som ett hypotesprövningsproblem. Vi vill testa H 0 :γ = 200 Bq/m 3, H 1 :γ < 200 Bq/m 3. Uppgift: Testa H 0 mot H 1. Kan vi förkasta H 0, dvs vågar vi påstå att radonhalten för huset ligger under gällande gränsvärde? Använd resultaten i föregående avsnitt. 3.4 Data från äldre hus Nu kan du jobba mer självständigt med ett annat datamaterial av liknande typ. Har ni ont om tid på laborationen så kan ni göra nästa avsnitt först och göra detta efteråt i mån av tid. Data är uppmätt i ett äldre hus den 6/12 1993 4/3 1994. Rum X ij Sovrum 1 13 9 11 12 10 12 12 14 9 12 Sovrum 2 10 12 8 10 11 10 15 12 12 13 Gillestuga 10 10 15 6 7 10 14 16 12 10 Datamaterialet finns i Ö ÓÒ ¼¼º Ø och läses in på vanligt sätt. Konstanten K är nu 0.00663 (för en yta) vid 30 dagars exponering, dvs. med tanke på den aktuella perioden skall vi räkna med korrigerat K = 0.00663 88/30 = 0.0194. Uppgift: Utför analysen även för detta material. Gränsvärdet för den här typen av bostäder är 400 Bq/m 3. Om detta överskrids kan fastighetsägaren åläggas att vidtaga åtgärder. Hur ser analysen ut om ni gör den från fastighetsägarens perspektiv? Skiljer det sig från de inneboendes perspektiv? Använd resultat och kommandon från den tidigare delen av laborationen. 4 Mottagarkänslighet Under laboration 1 och i datamaterialet Ò Ø Ú ØÝºÑ Ø studerade vi mottagarkänslighet för 76 telefoner för en radiokanal kring 947.5 MHz (mitt på GSMs mottagarfrekvensband), kolumn 2, och för en radiokanal kring 935 MHz (en kanal längst ner på frekvensbandet), kolumn 1. Ett högre värde på mottagarkänsligheten motsvarar att det behövs en högre mottagen signaleffekt för att nå något visst resultat i mottagaren. Under laboration 1 studerade vi histogrammen nedan och ställde frågan om det var någon skillnad mellan väntevärdena. Börja med att rita upp data igen: ÐÓ Ò Ø Ú ØÝ Ð Ò Ø Ú ØÝ ½µ Ñ Ò Ø Ú ØÝ ¾µ Ù ÔÐÓØ ¾½½µ Ø Ðµ Ü ¹½½¼ ¹½¼ ¼ ¼ µ Ù ÔÐÓØ ¾½¾µ Ø Ñµ Ü ¹½½¼ ¹½¼ ¼ ¼ µ

6 Laboration 4, Matstat AK för CDIFysiker, HT12 Ser det ut som om det finns en skillnad mellan Ð och Ñ? Uppgift: Innan vi går vidare med analysen ska vi hitta en lämplig modell. Eftersom data ligger i två kolumner i en och samma variabel ska vi vara uppmärksamma. De hör nämligen ihop så att data på samma rad är uppmätta på samma telefon. Man kan då misstänka att det finns ett starkt samband mellan dem: Ð ÔÐÓØ Ð Ñ ³ ³µ Ser det ut att vara ett samband mellan Ð och Ñ? Uppgift: Både Ð och Ñ varierar mycket från telefon till telefon men de följs åt. För att inte variationen mellan olika telefoner ska dränka skillnaden mellan frekvensbanden måste vi alltså analysera data som stickprov i par och titta på de parvisa skillnaderna mellan Ð och Ñ: Þ Ð¹ Ñ Ø Þµ Ser det ut som om väntevärdet,δ = E(Z i ), för skillnaden Z i mellan Ð och Ñ kan vara noll? Ser det ut som om Z i kan vara normalfördelad? Kan vi anta attδ = Z är (ungefär) normalfördelad? Uppgift: Eftersom vi har många (76 st) mätningar kan vi anta att åtminstomeδ är ungefär normalfördelad. Beräkna skattningen, dess medelfel och ett konfidensintervall och testa om Δ 0, dvs om Ð och Ñ skiljer sig signifikant åt: H 0 :Δ = 0, H 1 :Δ 0. 4.1 Skillnad mellan väntevärden Uppgift: Antag att vi inte tänkte på att mätningarna hörde ihop parvis utan analyserade Ñ och Ð som två oberoende normalfördelade stickprov. Beräkna ett tvåsidigt konfidensintervall för skillnaden mellan väntevärdena för Ð och Ñ. Vad händer nu med konfidensintervallet? Förlorar vi något på att göra på detta sätt istället? Tack! Tack till Gilbert Jönsson vid Atomfysik, LTH som gett oss datamaterial och hjälpt till med bakgrundsbeskrivningen av radonmätningarna.