Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Relevanta dokument
Laboration 5: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och. Hypotesprövning. 1 Förberedelseuppgifter LABORATION 4 MATEMATISK STATISTIK AK FÖR ED, FMS022, VT02

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning

Datorövning 3 Hypotesprövning och styrka

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 4: Hypotesprövning och styrkefunktion

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 12: Regression

TMS136. Föreläsning 10

Avd. Matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Föreläsningsanteckningar till kapitel 8, del 2

Föreläsning 12: Repetition

Matematisk statistik för D, I, Π och Fysiker

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

TMS136. Föreläsning 13

Föreläsning 12, FMSF45 Hypotesprövning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

TAMS65 - Föreläsning 6 Hypotesprövning

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Matematisk statistik för B, K, N, BME och Kemister

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

, s a. , s b. personer från Alingsås och n b

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Thomas Önskog 28/

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Avd. Matematisk statistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

bli bekant med summor av stokastiska variabler.

Matematisk statistik för B, K, N, BME och Kemister

Laboration 2: Styrkefunktion samt Regression

TAMS65 - Föreläsning 6 Hypotesprövning

F9 Konfidensintervall

Matematisk statistik för B, K, N, BME och Kemister

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901 Sannolikhetsteori och statistik I

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Mer om konfidensintervall + repetition

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Uppgift a b c d e Vet inte Poäng

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 5: Hypotesprövningar

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

9. Konfidensintervall vid normalfördelning

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

0 om x < 0, F X (x) = c x. 1 om x 2.

Några extra övningsuppgifter i Statistisk teori

Matematisk statistik TMS064/TMS063 Tentamen

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 11: Mer om jämförelser och inferens

Uppgift 1. f(x) = 2x om 0 x 1

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Datorövning 1: Fördelningar

Konfidensintervall, Hypotestest

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Avd. Matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i Matematisk statistik Kurskod S0001M

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Matematisk statistik för D, I, Π och Fysiker

TMS136. Föreläsning 11

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Repetition 2, inför tentamen

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 5 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/200, HT-03 Laboration 5: Intervallskattning och hypotesprövning Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden Intervallskattning Hypotesprövning Normalapproximation Dessutom får du möjlighet att arbeta igenom några större verkliga problem. Vi kommer att ägna oss åt statistisk analys av radonmätningar i bostadshus och försöka bedöma om gällande gränsvärden kan anses vara över- eller underskridna. De data-filer och -filer du behöver till denna laboration är, och. De finns som vanligt på kursens hemsida. 1 Förberedelseuppgifter Som förberedelse till laborationen bör du läsa igenom Kapitel 21 och 22, Blom: Bok B (20 och 21 i gamla upplagan), samt hela laborationshandledningen. Fräscha också upp minnet av mottagarkänslighet hos mobiltelefoner i Laboration 2. Till laborationens start har du med dig lösningar, som du kan redogöra för, till uppgift (a) (f): (a) Ett intervall I som med sannolikheten 1! täcker över " kallas ett konfidensintervall för " med konfidensgraden 1 #. Ge en frekvenstolkning av begreppet konfidensgrad. (b) Redogör för sambandet mellan intervallskattning och hypotesprövning. Om du vill testa H 0 : m $ m 0 mot H 1 : m % m 0 med hjälp av ett intervall, hur skall detta intervall konstrueras: tvåsidigt, uppåt begränsat eller nedåt begränsat? (c) Vi har ett stickprov x 1('('(') x n från N(m+* ) där m och * är okända. Hur bildas ett tvåsidigt 95% konfidensintervall för m? Hur bildas ett tvåsidigt 95% konfidensintervall för *? (d) Vi har två stora, oberoende stickprov x 1('('(') x n1 med E(X i ) $ m 1 och V(X i ) $ * 2 samt y 1('('(', y n2 med E(Y i ) $ m 2 och V(Y i ) $ * 2 där m 1, m 2 och * är okända. Hur testar man H 0 : m 1 $ m 2 mot H 1 : m 1 % m 2 på den approximativa signifikansnivån 5 %? Varför blir det inte en exakt signifikansnivå? (e) Vi har två stickprov x 1('('(', x n med E(X i ) $ m i-/. och V(X i ) $ 2 * 1 samt y 1('('(', y n med E(Y i ) $ m i och V(Y i ) $ 2 * 2 där m i,., * 1 och * 2 är okända. Vi vet också att X i Y i är normalfördelade. Hur testar man H 0 :. $ 0 mot H 1 :. % 0 på signifikansnivån 5 %? Hur ser styrkefunktionen för testet ut? (Ledning: Räkna först ut hur fördelningen för X i och se sedan avsnittet om styrkefunktion i den här labhandledningen). Y i blir

( (f) Repetera inlämningsuppgift 3(b). Ange hur man bör skatta 1, 2, 3 och. Ange också hur man ur data beräknar skattningarnas medelfel samt vilka approximativa normalfördelningar 1, 2, 3 och har? (Annorlunda mot inlämningsuppgiften) Hur ser ensidiga uppåt begränsade 95 %-iga konfidensintervall för 1, 2, 3 och ut? 2 Tolkning av konfidensintervall Vi utgår från en normalfördelning N(3 2) och antar att väntevärdet 3 och standardavvikelsen 2 är okända för oss. Vi vill skatta dem genom att ta stickprov, x 1('('(', x n, om n observationer och bilda m $ x respektive * $ s och göra konfidensintervall på vanligt sätt, se förberedelseuppgift (c). För att räkna ut konfidensintervallen behövs kvantilerna t 2(n 1), 2 2 (n 1) och 2 1 2 (n 1). De fås i MATLAB med, respektive. Observera att kvantildefinitionen i MATLAB är omvänd mot den i bok A och i figurerna i kursens tabeller. Uppgift 1: Simulera 1000 stickprov med vardera 5 värden från N(3 2) och skatta m och * stickprov. för varje (a) Beräkna 95 %-iga konfidensintervall för m och för * för alla stickproven. Plotta övre och undre gränserna i konfidensintervallen för några stickprov (förslagsvis ett 50-tal). Om skattningarna ligger i radvektorn, de undre gränserna i och de övre i kan vi rita ut de 50 första konfidensintervallen med! "$#% ' )( Kommentar: +*, -,.,* / 01/ (b) Hur många av intervallen för m ligger för högt, dvs har en undre gräns som är större än m $ 3? Hur många ligger för lågt? Ska det vara någon skillnad? Hur många intervall ska enligt teorin i genomsnitt missa m? (c) Hur många av intervallen för * ligger för högt, dvs har en undre gräns som är större än * $ 2? Hur många ligger för lågt? Ska det vara någon skillnad? Hur många intervall ska enligt teorin i genomsnitt missa *? Uppgift 2: Simulera 1000 nya stickprov med vardera 25 värden istället och gör om beräkningarna. Hur påverkar stickprovsstorleken konfidensintervallens bredd? Hur många missar blev det nu? Skall det vara någon skillnad mot tidigare? 3 Mottagarkänslighet Under laboration 2 och datamaterialet studerade vi mottagarkänslighet för 76 telefoner för en radiokanal kring 947.5 MHz (mitt på GSMs mottagarfrekvensband), kolonn 2, och för en 2

# radiokanal kring 935 (en kanal längst ner på frekvensbandet), kolonn 1. Under laboration 1 studerade vi histogrammen nedan och ställde frågan om det var någon skillnad mellan väntevärdena. )# ( )# # ' $ )(! ' ( $ )(! *, *, I histogrammen ser man en tydlig skillnad men är den signifikant? 3.1 Test av skillnad mellan väntevärden Uppgift 3: Beräkna medelvärde och standardavvikelse för de två kolonnerna, anta att standardavvikelserna är lika, samt testa på nivån om det finns någon skillnad mellan väntevärdena m smc och m slc ; se förberedelseuppgift (d). H 0 : m smc $ m slc H 1 : m smc % m slc ' Om du vill får du gärna konstruera motsvarande ensidiga konfidensintervall i stället och på så sätt avgöra om data styrker vår uppfattning om att känsligheten är sämre för kanaler nära frekvensbandets ändpunkter. 3.2 Stickprov i par I själva verket hör mätningarna ihop parvis. Den första mätningen av SMC och SLC är gjord på samma telefon och är knappast oberoende; en dålig telefon är antagligen dålig över hela frekvensbandet. Plotta SMC mot SLC för att se att så är fallet. De * -skattningar vi gjorde ovan innefattar alltså även variationen mellan telefoner och ger en kraftig överskattning av variationen i skillnad mellan de två frekvensbanden för en enskild telefon. Uppgift 4: Beräkna de parvisa skillnaderna mellan SMC och SLC och gör ett histogram. Skatta väntevärdet (. $ m smc m slc ) och standardavvikelsen för skillnaderna och testa H 0 :. $ 0 H 1 :. % 0' Hur blir det nu med signifikansen? 3

3.3 Styrkefunktion Antag att du har observationer z 1('('(') z n från N(. * ) och vill testa om H 0 :. $ 0 mot H 1 :. % 0 genom att, som ovan, göra ett test på signifikansnivån. Hur bra är detta test? Om den sanna skillnaden inte är 0 utan 0' 5, med vilken sannolikhet kommer jag då att, med detta test, upptäcka att H 0 är falsk? Hur många mätningar måste jag göra för att med sannolikhet 0.90 upptäcka att H 0 är falsk då. själva verket är 0' 1? Dessa frågor kan besvaras med hjälp av styrkefunktionen som i det här fallet definieras och kan räknas ut på följande sätt: i h( ) $ P(H 0 förkastas Z N( +* )) Z $ [teststorheten är och det kristiska området är (, t (n 1))] s n Z $ P( s n % t (n 1) Z N( +* n)) $ P( Z s n % t (n 1) s n ( Z ) N(0 * n)) $ P( Z s n % t (n 1) s n Z * n N(0 1)) $ P( Z s n % t (n 1) s n Z s n t(n 1)) $ F T t (n 1) s n där F T (x) är fördelningsfunktionen för en t(n 1)-fördelad stokastisk variabel ( i MATLAB). Styrkefunktionen beror alltså på signifikansnivån (som vi kan välja själva), stickprovsstorleken n (som beror på budgeten) och standardavvikelsen * (som vi får gissa med hjälp av skattningen). Uppgift 5: Använd den specialskrivna funktionen för att se hur styrkefunktionen beter sig. för att se vilka parametrar den vill ha. Gör först ' (a) Rita upp styrkefunktionen då $ 0' 05, * $ 0' 4 och n $ 5. Är du nöjd med funktionen? Hur stor är sannolikheten att förkasta H 0 om är 0' 5? Om är 0' 1? (b) Hur bör styrkefunktionen ändra sig om vi ändrar stickprovsstorleken? Om vi ändrar signifikansnivån? Om vi ändrar standardavvikelsen? Vilken strategi är bäst för att uppnå en idealisk styrkefunktion? (c) Rita upp styrkefunktionen då n $ 76, * $ 0' 4 och /$ 0' 05. Hur små kan avvikelserna från H 0 vara om vi fortfarande skall ha minst 90 % chans att upptäcka att H 0 är falsk? (Du kan behöva välja -värden själv och utnyttja och.) (d) Hur ändrar sig styrkefunktionen om vi gör ett tvåsidigt test istället? Blir det lättare eller svårare att upptäcka att H 0 är felaktig när är 0' 5? Experimentera lite med och se vad som händer när du ändrar parametrarna. 4

4 Radon (frivillig uppgift) 4.1 Något om radonmätningar Radon är en ädelgas som är radioaktiv. Den vanligast förekommande isotopen har en halveringstid på 3.8 dygn. Radonisotopen sönderfaller till nya ämnen, s.k. radondöttrar, som i sin tur är radioaktiva med mycket kort halveringstid. Vid sönderfallen bildas alfa-partiklar, som, när de far fram, kan orsaka skada i sin allra närmaste omgivning. Om gasen eller någon av döttrarna har inandats utgör lungvävnaden den närmaste omgivningen. Radon och dess döttrar är delar av en lång s.k. sönderfallskedja som startar med uran och slutar med bly. Ett sätt att mäta radonkoncentrationen i inomhusluften är att hänga upp en alfa-känslig film. När den träffas av en alfa-partikel uppstår en skada i filmen i träffpunkten. Denna skada förstärks vid framkallning av filmen så att det blir ett hål i filmen. Bilden nedan visar hur hålen kan se ut efter framkallning då man tittar på filmen i mikroskop. Hålen har maximalt diametern 7 m. Antalet hål på en yta är ett mått på radonkoncentrationen. Figur 1: Framkallad alfa-känslig film. Bilden såväl som delar av texten har tillhandahållits av Gilbert Jönsson vid Atomfysik, LTH 4.2 Statistisk modell För att kunna göra en ordentlig statistisk analys av ett mätmaterial behöver vi mer statistisk kunskap om radioaktivt sönderfall. Det visar sig att tidpunkterna och platserna (rumskoordinaterna) för sönderfallen bildar en s.k. poisson-process (efter den franske matematikern Poisson). Poisson-processen behandlas utförligt i fortsättningskursen i stokastiska processer. Enkelt kan man säga att sannolikheten för att en given radonatom skall sönderfalla i ett givet tidsintervall är fix, och oberoende av vad som har hänt tidigare. Bl.a. innebär detta att antalet hål på en given yta av en film är poisson-fördelat med ett väntevärde som är proportionellt mot radonkoncentrationen, exponeringstiden och ytans storlek. Vidare är antalet hål på olika disjunkta (ej överlappande) ytor på en film oberoende stokastiska variabler. Detta är vad som visar sig väsentligt i den fortsatta analysen. Det datamaterial som vi skall arbeta med har uppmätts genom att ett antal rum i en bostad har försetts med var sin film. Dessa filmer har efter framkallning avlästs på tio olika icke överlappande ytor, med fix storlek, var. Vi inför följande beteckningar: n $ antalet upphängda filmer, dvs antalet rum i $ radonkoncentrationen i rum i, mätt i Bq/m 3 X ij $ antalet hål i film i på yta j, i $ 1('('(', n, j $ 1('('(') 10. 5

Enligt ovan gäller då att X ij Po(K i) där proportionalitetskonstanten K, som nämnts, beror på avläsningsytornas storlek och exponeringstiden, men också på bl.a. förstoringen vid avläsningen av filmerna. 4.3 Punktskattning Datamaterialet är uppmätt i en nybyggd bostad den 24/3 25/4 1994. Detta skall tolkas så att filmerna hängdes upp vid en viss tidpunkt den första dagen och togs ned vid samma tidpunkt den sista dagen. i Rum X ij 1 Vardagsrum 20 17 22 15 20 22 24 22 34 20 2 Sovrum 14 15 17 13 14 11 15 16 22 15 3 Mikaels rum 11 17 19 14 25 17 18 16 23 21 Datamaterialet finns i och läses in på vanligt sätt. (Kolonn 1 innehåller mätvärdena för vardagsrummet, kolonn 2 sovrummet och kolonn 3 Mikaels rum.) Konstanten K är 0.0962 (för en yta) vid 30 dagars exponering. Eftersom den aktuella exponeringstiden är längre måste en kompensation för detta göras. Enligt resonemanget i förra stycket skall detta helt enkelt göras linjärt, eftersom väntevärdena för X -variablerna är proportionella mot exponeringstiden. Eftersom våra filmer exponerats 32 dagar bör vårt värde på K vara 0' 0962 32 30 $ 0' 1026. $ Uppgift 6: (a) Beräkna väntevärdesriktiga punktskattningar i ningarnas medelfel. av i, i 1 2 3 och beräkna skatt- 3 1 (b) Vi är också intresserade av $ i, dvs medelvärdet av radonkoncentrationen över de 3 i 1 tre rummen. Beräkna en skattning av denna storhet och beräkna dess medelfel. Den skattning av du får fram skall jämföras med gränsvärdet för nybyggda hus som är 200 Bq/m 3. Om gränsvärdet understigs slipper vi vidtaga kostsamma åtgärder. 4.4 Intervallskattning och hypotesprövning För att på ett bättre sätt kunna uttala oss om huruvida radonkoncentrationen understiger gränsvärdet eller ej, dvs testa H 0 : $ 200 Bq/m 3 mot H 1 : % 200 Bq/m 3, vill vi göra konfidensintervall för i, i $ 1 2 3 och. Uppgift 7: Beräkna ensidiga, uppåt begränsade, approximativt 95 %-iga konfidensintervall för i, i $ 1 2 3 och för datamaterialet ovan. Se förberedelseuppgift (f). Kan man för något rum med fog påstå att radonkoncentrationen ligger under gränsvärdet? Vad gäller för medelvärdet över huset? 6