20.1 Intervallskattning

Relevanta dokument
Uppgift 2) Datum: 23 okt TENTAMEN I MATEMATIK OCH MATEMATISK STATISTIK, kurskod 6H3000

19.1 Funktioner av stokastiska variabler

Detta formelblad får användas under både KS2T och KS2D, samt ordinarie tentamen. x = 1 n. x i. with(stats): describe[mean]([3,5]); 4.

0 om x < 0, F X (x) = c x. 1 om x 2.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

9. Konfidensintervall vid normalfördelning

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

FÖRELÄSNING 7:

TMS136. Föreläsning 10

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

17.1 Kontinuerliga fördelningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Lektionsanteckningar 11-12: Normalfördelningen

F3 Introduktion Stickprov

TENTAMEN Datum: 14 feb 2011

Avd. Matematisk statistik

F9 Konfidensintervall

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsningsanteckningar till kapitel 8, del 2

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Avd. Matematisk statistik

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

SF1911: Statistik för bioteknik

Föreläsning 4: Konfidensintervall (forts.)

Thomas Önskog 28/

Extrauppgifter i matematisk statistik

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

13.1 Matematisk statistik

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Grundläggande matematisk statistik

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 7: Punktskattningar

Demonstration av laboration 2, SF1901

Grundläggande matematisk statistik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Statistik 1 för biologer, logopeder och psykologer

SF1901: Sannolikhetslära och statistik

Antal ögon Vinst (kr) Detta leder till följande uttryck E(x) = x x p X(x) x f X(x)dx

TMS136. Föreläsning 4

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 7. Statistikens grunder.

Föreläsning 2, FMSF45 Slumpvariabel

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

FACIT: Tentamen L9MA30, LGMA30

Avd. Matematisk statistik

F10 Problemlösning och mer om konfidensintervall

Föreläsning 7: Punktskattningar

Tentamen. Matematik 2 Kurskod HF1003. Skrivtid 8:15-12:15. Fredagen 13 mars Tentamen består av 3 sidor. Maple samt allt tryckt material

Avd. Matematisk statistik

10. Konfidensintervall vid två oberoende stickprov

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Extrauppgifter - Statistik

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

1 Föreläsning V; Kontinuerlig förd.

FÖRELÄSNING 8:

Lufttorkat trä Ugnstorkat trä

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

SF1901 Sannolikhetsteori och statistik I

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tentamen LMA 200 Matematisk statistik,

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 7: Punktskattningar

Föreläsning 3. Sannolikhetsfördelningar

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Tentamen MVE302 Sannolikhet och statistik

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Våra vanligaste fördelningar

Formel- och tabellsamling i matematisk statistik

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

4.1 Grundläggande sannolikhetslära

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Repetitionsföreläsning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

4 Diskret stokastisk variabel

Kapitel 5 Multivariata sannolikhetsfördelningar

Föreläsning G60 Statistiska metoder

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 12: Regression

Studietyper, inferens och konfidensintervall

Mer om slumpvariabler

, s a. , s b. personer från Alingsås och n b

SF1901: Sannolikhetslära och statistik

Tentamen den 11 april 2007 i Statistik och sannolikhetslära för BI2

TMS136. Föreläsning 11

Transkript:

0. Intervallskattning En intervallskattning för en parameter är ett intervall med stokastiska variabler som gränser. Konfidensgraden för intervallskattningen är sannolikheten att intervallet skall innehålla parametern i fråga. Den observerade intervallskattningen kallas för konfidensintervall för parametern. Om vi endast vet att vårt stickprov kommer från en kontinuerlig fördelning och inte vet vilken fördelning, så kan vi bilda konfidensintervall med någon icke-parametrisk metod. Men har vi mer information och vet vilken fördelning stickprovet kommer ifrån, så använder vi den informationen för att skapa ett kortare konfidensintervall för till exempel µ. Om vi ska skapa ett konfidensintervall för µ från en N(µ, σ)-fördelning finns det två möjligheter. En mer ovanlig (men enklare att förstå) då σ är känd och en då σ är okänd. Konfidensintervall för µ hos N(µ, σ) då σ är känt Låt X i,x,...,x n beteckna livslängden hos n komponenter. Vi kan anta att X i,x,...,x n är oberoende och att alla X i N(µ,σ). Vi ska nu bilda ett intervall kring X, a < X < b så att intervallet innehåller µ med sannolikheten 95%. P(X a < µ < X + b) = 0.95 σ Dessutom vill vi ha intervallet symmetriskt kring X. Eftersom X N(µ, n ). Vi har att lösa ekvationen X+a e n(x X) σ σ = 0.95 n π X a n:=proc (m,s,x) return exp(-(/)*(m-x)^/s^)/(s*sqrt(*pi)) end proc; evalf(solve(int(n(0,,x), x=-a..a)=0.95,a));.959963985 Exempel. Vi har att ta reda på µ och σ för vikten hos ett mycket sällsynt däggdjur. Vi har anledning att anta att det handlar om N(µ,σ). Det finns bara cirka 000 fullvuxna djur av denna art i hela värden och det kostar för mycket att söka upp dem alla. Därför får vi försöka uppskatta µ och σ genom stickprov. Håkan Strömberg KTH Syd

0.. INTERVALLSKATTNING Vi fångar in ett av djuren och finner att dess vikt, i kg, är 87.37 Detta är en första skattning av medelvikten. Våra kollegor i Ryssland lyckas fånga in och väga två exemplar 98.67, 0.88 De ger oss sin uppskattning av µ = 00.77 och σ =.98. Vi har kommit en aning närmare rimliga uppgifter, men nu har vi ju totalt tre djur och kan göra en ny uppskattning av µ genom 00.77, 87.8, 05.4 Vi får µ = 97.9 med σ = 9.00, som inte gör oss mer säkra. Ett år senare har vi fått in vikter från inte mindre än 98 djur. Våra nya uppskattningar av µ = 99.68 och σ = 0.74. Självfallet är vi nu ganska säkra på att µ är cirka 00 kg. Men hur säkra kan vi vara på att medelvikten ligger mellan 99 och 00 kg? Om vi gör ett uttalande om att µ [99,0] med 99% har vi bildat en konfidensintervall, [99,0] och en bestämt en konfidensgrad, 99%. Vi har gjort en intervallskattning Här har vi bara tagit tre tal mer eller mindre ur luften, två konfidensgränser och en konfidensgrad. Detta kan ju inte vara någon speciellt vetenskaplig metod. Frågan är nu, om man kan räkna fram konfidensgränserna om man har bestämt sig för en konfidensgrad. 0.. Standardavvikelsen σ är känd Till att börja med låtsas vi att det otroliga har inträffat. Vi känner standardavvikelsen för den fördelning N(µ, σ) som vi först antog gällde innan vi började väga djuren. Om den nu visar sig vara 0 kg I så fall kan de 98 vikterna ses som lika många utfall av N(µ,0), X,X,...,X 98 Vi drar oss till minnes att då X N(µ,σ ) och X N(µ,σ ) så är ( ) X + X N µ + µ, σ + σ Att visa detta kräver mer matematik än vi har i ryggsäcken idag, så därför får detta bli en kokboksformel. Men närliggande är då, om X och X tillhör samma fördelning, om X N(µ,σ) och X N(µ,σ) att X + X = X N ( µ + µ, ) σ + σ ( = N µ, Den sista lilla snutten algebra, som leder till det slutliga uttrycket: ) σ σ + σ = σ = σ = σ = σ Håkan Strömberg KTH Syd

Nu kan vi skriva ned denna formel som vi sett tidigare Om X,X,... X n är oberoende och alla X i N(µ,σ) samt X = n n i= X i så gäller ( ) σ X N µ, n Om vi tillämpar denna formel på de tre urvalen, först med, sedan med 3 och till sist med 98 djur så får vi tre olika fördelningar När vi plottar dessa grafer får vi 0.4 N(00.77, 0 ) = N(00.77,7.07) N(97.9, 0 3 ) = N(97.9,5.77) N(99.68, 0 98 ) = N(99.68,.0) 0.3 0. 0. 90 95 00 05 0 Figur 0.: Vi ser hur säkerheten växer då vi ökar stickprovets storlek Graferna har ganska olika utseende. Ju lägre värde på standardavvikelsen desto smalare graf med den största delen av arean koncentrerad kring det framräknade medelvärdet X. Tänk nu på att den standardavvikelse σ = 0 vi fått reda på är spridningen i vikten hos djuren och att den standardavvikelse vi presenterat i de tre graferna är standardavvikelsen hos medelvärdet. Detta är alltså inte samma mått. Nu ska vi se hur man kan använda dessa grafer för att bestämma ett 99% konfidensintervall. Använder vi Maple har vi att lösa följande ekvation: X+a X a e n(x X) σ σ = 0.99 n π Håkan Strömberg 3 KTH Syd

0.. INTERVALLSKATTNING I Maple kan vi skriva n:=proc (m,s,x) return exp(-(/)*(m-x)^/s^)/(s*sqrt(*pi)) end proc; evalf(solve(int(n(00.77,7.07,x), x=00.77-a..00.77+a)=0.99,a)); 8. Gränserna kan också bestämmas genom statevalf[icdf, normald[00.77, 7.07]](0.995); statevalf[icdf, normald[00.77, 7.07]](0.005); Vi är alltså på jakt efter ett tal a där (00.77 a,00.77 + a) innesluter 99% procent eller 0.99 av sannolikhetsmassan. Här låter vi Maple göra nio beräkningar, för tre olika konfidensgrader för tre olika stickprov. evalf(solve(int(n(00.77,7.07,x),x=00.77-a..00.77+a)=0.99,a)); 8. evalf(solve(int(n(00.77,7.07,x),x=00.77-a..00.77+a)=0.95,a)); 3.86 evalf(solve(int(n(00.77,7.07,x),x=00.77-a..00.77+a)=0.90,a));.63 evalf(solve(int(n(97.9,5.77,x),x=97.9-a..97.9+a)=0.99,a)); 4.86 evalf(solve(int(n(97.9,5.77,x),x=97.9-a..97.9+a)=0.95,a));.3 evalf(solve(int(n(97.9,5.77,x),x=97.9-a..97.9+a)=0.90,a)); 9.49 evalf(solve(int(n(99.68,.0,x),x=99.68-a..99.68+a)=0.99,a));.60 evalf(solve(int(n(99.68,.0,x),x=99.68-a..99.68+a)=0.95,a));.98 evalf(solve(int(n(99.68,.0,x),x=99.68-a..99.68+a)=0.90,a));.66 Som vi här sammanställer i en tabell Storlek X σ n Konfidensgrad Undre gräns Övre gräns 00.77 7.07 0.99 8.56 8.98 00.77 7.07 0.95 86.9 4.63 00.77 7.07 0.90 89.4.40 3 97.9 5.77 0.99 83.05.77 3 97.9 5.77 0.95 86.60 09. 3 97.9 5.77 0.90 88.4 07.40 98 99.68.0 0.99 97.08 0.8 98 99.68.0 0.95 97.70 0.66 98 99.68.0 0.90 98.0 0.34 Håkan Strömberg 4 KTH Syd

Intervallet blir (troligtvis) som kortast då konfidensgraden är som lägst och stickprovet som störst. Efter ytterligare ett år hade man lyckats väga 350 djur och därvid bestämt X = 00.. Om vi denna gång vill bestämma ett konfidensintervall med konfidensgraden endast 60% får vi med Maple evalf(solve(int(n(00.,0.53,x),x=00.-a..00.+a)=0.60,a)); 0.45 och vi påstår nu att, med sannolikheten 0.6, ligger viktens medelvärde på den djurart vi studerat i intervallet [99.66,00.56]. 0.. Standardavvikelsen σ är okänd Men nu får vi inte glömma att det här med att σ = 0 var en uppgift vi troligtvis inte skulle känna till vid den här typen av undersökningar. Frågan är då hur man kan bestämma ett konfidensintervall för µ, när man inte känner σ. En idé är förstås att använda s, den standardavvikelse vi kan räkna fram från stickprovet i stället för det tidigare kända σ. Nu säger statistikerna att detta inte är ett helt pålitligt sätt, eftersom det finns ett beroende mellan s och X. Nej, istället får vi ta till metoder, som vi saknar matematisk kunskap för att bevisa, med andra ord en ny kokbokssituation. Vi presenterar några idéer som ligger bakom tekniken. Gamma-funktionen Γ(x) = 0 t x e t dt En ovanlig funktion på det sättet att om man vill bestämma Γ(x) måste man beräkna en generaliserad integral. Till exempel Γ(3) = 0 t e t dt = som man knäcker med partiell integrering, åtminstone så länge x är ett heltal. För x icke heltal, tror jag att man måste ta till numerisk integrering. u v dt = u v v u dt Här blir då v = e t och u = t x. Ju större värde på x desto fler gånger måste man integrera partiellt. Till exempel är Γ(6) = t 5 e t dt = e t ( 0 0t 60t 0t 3 5t 4 t 5 ) Vi får till sist Γ(6) = 0 t 6 e t dt = 0 Håkan Strömberg 5 KTH Syd

0.. INTERVALLSKATTNING Om man får reda på att till exempel Γ(7) = 70 och Γ(4) = 6 kanske man kan gissa att Γ(n) = (n )!, för så är det. Detta betyder att även 4.35! = Γ(5.35) = 4. har fått ett värde. Eftersom 4 = 4! < 4.35! < 5! = 0 känns det ju rimligt. Plötsligt har kan man kanske räkna ut x! för alla reella tal? Studerar vi grafen i figur 0. för Γ(x) ser vi att det finns ett antal vertikala asymptoter som verkar gå genom de negativa heltalen. Just för dessa är inte Γ(x) definierad. Varför detta rundsnack om Γ(x)? 8 6 4-4 -3 - - 3 4 - -4-6 -8 Figur 0.: Vi ser att funktionen har vertikala asymptoter placerade vid negativa heltal Jo, vi ska presentera en ny sannolikhetsfördelning, t-fördelningen (även kallad Student t-fördelning) med följande utseende hos frekvensfunktionen: ) f(x) = Γ ( r+ ( r π Γ r ) ( + x r Komplicerad eller hur? Hade vi inte givit en liten introduktion till Γ-funktionen, hade vi förstås inte köpt den här. Vi kan se att funktionen innehåller en parameter r, kallad frihetsgrader. För varje värde på r får vi en ny funktion. Här är grafer av t-fördelningen för frihetsgraderna,5 och 000. Ju högre frihetsgrad desto högre når kurvan. 0.4 ) r+ 0.3 0. 0. -3 - - 3 Figur 0.3: Stu OK, nu har vi en känsla för vad t-funktionen är för något. Nu ska använda den för att bestämma ett konfidensintervall för µ då σ är okänd. µ = X ± t s n Håkan Strömberg 6 KTH Syd

X står som tidigare för stickprovets medelvärde, s för stickprovets standardavvikelse, n för stickprovets storlek och t för ett värde vi får från t-fördelningen. Vi bestämmer t i formeln ovan genom att först bestämma antalet frihetsgrader som är r = n. Nu är t-fördelningens frekvensfunktion f(x) bestämd enligt uttrycket ovan. Om vi är på jakt efter ett konfidensintervall med konfidensgraden a, till exempel 0.95 och 9 frihetsgrader använder vi Maple och koden statevalf[icdf,studentst[9]](0.975).65763 där idcf står för inverterade fördelningsfunktionen F (x). Så här ser F(X) (till vänster) och F (x) (till höger) ut: 0.8 0.6 0.4 0. -3 - - 3 - - 0. 0.4 0.6 0.8 Det är alltså den högra grafen vi använder. När vi bestämt konfidensgraden söker vi upp den på den på x-axeln och avläser t-värdet på y-axeln. Nu är det dags att bestämma några konfidensintervall där data är desamma vi använt tidigare ovan. För att inte göra listan för lång tar vi en från varje stickprov och en från varje konfidensgrad evalf(00.77+statevalf[icdf,studentst[]](0.950)*.98/sqrt()); 4.074996 evalf(00.77-statevalf[icdf,studentst[]](0.950)*.98/sqrt()); 87.46580040 evalf(97.6+statevalf[icdf,studentst[]](0.975)*9.00/sqrt(3)); 9.967394 evalf(97.6-statevalf[icdf,studentst[]](0.975)*9.00/sqrt(3)); 75.576059 evalf(99.68+statevalf[icdf,studentst[97]](0.995)*0.74/sqrt(98)); 0.5305499 evalf(99.68-statevalf[icdf,studentst[97]](0.995)*0.74/sqrt(98)); 96.894504 Eftersom vi saknar kunskap om σ ökar förstås osäkerheten och och vi får längre intervall Storlek X s Konfidensgrad Undre gräns Övre gräns 00.77.98 0.90 87.47 4.07 3 97.9 9.00 0.95 75.5 9.97 98 99.68 0.74 0.99 96.83 0.53 Håkan Strömberg 7 KTH Syd

0.. INTERVALLSKATTNING 0..3 Lathund då σ är känd När σ är känt för N(µ,σ) finns det tal som underlättar när vi ska bestämma ett konfidensintervall för µ Konfidensgrad Konfidensgränserna 0.99 X ±.56 σ n 0.95 X ±.96 σ n 0.90 X ±.64 σ n Vi nämner dessa konfidensgrader därför att de är speciellt vanliga och att man med dem klarar sig utan Maple! Vi testar det sista resultatet från tabellen ovan 99.68.64.09 98 = 98.0 99.68 +.64.09 98 = 0.34 Maple Under funktionen statevalf[] använder vi följande diskreta fördelningar binomiald[n,p] hypergeometric[n,n,n] poisson[mu] dcdf idcdf pf Fördelningsfunktion Inverterad fördelningsfunktion Frekvensfunktion Maple koden statevalf[pf, binomiald[0, /4]](4); 0.4599800 ger höjden på stapel 4 i figur 0.4, som är samma sak som sannolikheten att göra 4 lyckade försök av 0 om sannolikheten är 4 att lyckas. Maple koden statevalf[dcdf, binomiald[0, /4]](3) 0.775875096 ger höjden på stapel 3 i figur 0.5, som är samma sak som sannolikheten för att göra 3 lyckade försök utav 0, om sannolikheten för lyckat försök är 4 Maple-koden Håkan Strömberg 8 KTH Syd

0.5 0. 0.5 0. 0.05 0 3 4 5 6 7 8 9 0 Figur 0.4: 0.8 0.6 0.4 0. 0 3 4 5 6 7 8 9 0 Figur 0.5: statevalf[idcdf, binomiald[0, /4]](0.8); 3 Funktionsanropet tar reda på för vilket värde x som P(X x) = 0.8. Resultatet tolkar vi som att för att fånga in 0.8 av sannolikhetsmassan måste vi ta med 0,,,3 lyckade försök. 0 8 6 4 0 0.0.0.30.40.50.60.70.80.9. Figur 0.6: Håkan Strömberg 9 KTH Syd

0.. INTERVALLSKATTNING och följande kontinuerliga: exponential[alpha,a] normald[mu,sigma] studentst[nu] uniform[a,b] cdf icdf pdf Fördelningsfunktion Inverterad fördelningsfunktion Frekvensfunktionen Maple-koden statevalf[pdf,normald[80,0]](70); 0.04970745 ger frekvensfunktionens värde för givet x. I figur 0.7 kan vi kanske avläsa 0.04 för x = 70. Denna funktion används inte så ofta. 0.04 0.03 0.0 0.0 60 70 80 90 00 0 Figur 0.7: Maple-koden statevalf[cdf,normald[80,0]](70); 0.58655539 ger P(X x). sannolikhetsmassan för x 70 i figur 0.8 är ungefär 0.59 0.8 0.6 0.4 0. 60 70 80 90 00 0 Figur 0.8: Håkan Strömberg 0 KTH Syd

Maple-koden statevalf[icdf,normald[80, 0]](0.95); 96.4485363 ger i exemplet den längd man måste ha för att 95% av populationen ska vara kortare. Alltså visar figur 0.9 inget annat än inversen till grafen i figur 0.8 00 90 80 70 60 50 40 0. 0.4 0.6 0.8 Figur 0.9: Exempel. Utbytet av en viss kemisk tillverkningsprocess antas vara normalfördelat. Vid 0 tillverkningsomgångar fick man följande utbyten i kg: 600 570 580 650 700 630 560 60 70 580 Beräkna ett symmetriskt 95% konfidensintervall för väntevärdet µ för utbytet. Lösning: Här är X = 60 och s = 5.9. Då vi har 0 observationer, ska vi använda en t-fördelning med 9 frihetsgrader. Om motsvarande fördelningsfunktion är F, söker vi ett a så att F(a) = 0.975. Genom Maple får vi with(stats); statevalf[icdf,studentst[9]](.975);.65763 Med detta värde kan vi nu bestämma intervallet 60 ±.6 5.9 0 = 60 ± 37.7 Exempel 3. Den SV X är exponentialfördelad med det okända väntevärdet Θ och har alltså frekvensfunktionen f X (x) = Θ e x Θ för x 0 Vi har en enda observation x av X. Som punktskattning av Θ kan vi till exempel ta Θ = x Vi har då angivit ett förslag angående värdet av Θ. Att det inte är särskilt troligt att denna skattning blir helt rätt inses av att P(X = Θ) = 0 Håkan Strömberg KTH Syd

0.. INTERVALLSKATTNING eftersom X ju är en kontinuerlig SV. Vi vill då i stället med hjälp av x ange en mängd av tal sådan att vi är ganska säkra på att det okända väntevärdet Θ ligger i den angivna mängden. Det förefaller rimligt att gissa att denna mängd bör vara ett intervall runt punktskattningen Θ. Men hur bör detta intervall väljas? Om vi tar intervallet (0.0Θ,00Θ ) förefaller det troligt att intervallet kommer att innehålla Θ; om vi däremot tar intervallet (0.99Θ,.0Θ ) förefaller det mera tveksamt. Låt oss på försök ansätta intervallet (c Θ,c Θ ) Dess konfidensgrad är sannolikheten att intervallet innehåller den okända parametern Θ. P(c Θ < Θ < c Θ ) Eftersom Θ = x är en observation av X blir konfidensgraden och eftersom kan konfidensgraden även skrivas Det vill säga Men nu är ju P(c X < Θ < c X) c l X < Θ < c X Θ/c < X < Θ/c P(Θ/c < X < Θ/c ) F X (Θ/c ) F X (Θ/c ) F X (x) = { 0 x < 0 e x Θ x 0 och om vi förutsätter att c och c är positiva tal blir konfidensgraden ( ) e c e c = e c e c Om vi vill ha konfidensgraden 95% (vilket är ett vanligt önskemål) skall vi alltså välja c och c så att e c e c = 0.95 Det finns många tänkbara val ett sådant är c = ln 0.05 vilket ger konfidensintervallet = 0.7 c = (0.7x,39.5x ) ln 0.0.975 = 39.5 Exempel 4. Låt livslängden för glödlampor av en viss typ vara en SV X med frekvensfunktionen F X (x) = Θ e x Θ för x 0 Då är Θ medellivslängden. Man köper en lampa och konstaterar att den lyser 00 timmar. Konstruera ett konfidensintervall för Θ med konfidensgraden 95% Lösning: Vi använder intervallet i exemplet ovan Ett intervall till ingen nytta! (0.7 00,39.5 00) = (35,47400) Håkan Strömberg KTH Syd

Exempel 5. Om man vill ha ett ensidigt konfidensintervall för Θ kan man ta (c Θ, ). Ange hur c skall väljas för att konfidensgraden skall bli 95%. Hur ser intervallet ut om man har observationen x = 00? Lösning: Allt låter mer komplicerat än det är. I Maple skriver vi f:=proc(t, x) return exp(-x/t)/t end proc; evalf(solve(int(f(00, x),x=y..infinity)=0.95, y)); 6.559537 Den allmänna beskrivningen av begreppet konfidensintervall ser ut så: Låt x = (x l,x,...,x n ) vara ett stickprov på en SV X vars fördelning beror av en okänd parameter Θ och låt X = (X,X,...,X n ) vara en n-dimensionell SV vars komponenter är oberoende och har samma fördelning som X, så att alltså x kan betraktas som en observation av X. Om a l (x) och a (x) är två funktioner från R n till R sådana att P(a l (X) < Θ < a (X)) = α för alla Θ så är intervallet (a l (x),a (x)) ett konfidensintervall för Θ med konfidensgraden α. I vårt exempel var n = och alltså x = x l, X = X. Vidare var de två funktionerna a (X) och a (X) av mycket enkelt utseende a (X) = 0.7Xa (X) = 39.5X Problem. För två numeriska material x,x,x 3,x 4 och y,y,y 3,y 4,y 5 beräknade man medelvärde och varians och fick x = 3.8 y =.0 s x = 5.5 s y = 7.9 Om 9 talen hade betraktats som ett enda material, vilket medelvärde och vilken varians hade detta då haft? Problem. I ett numeriskt material är 3 av 4 tal kända, [,5,8]. Materialets varians är s = 0. Vilket är det fjärde talet? Problem 3. Vi har följande mätvärden 3.55, 3.58, 3.45, 3.63 och vill bestämma ett 95% konfidensintervall för µ då σ = 0.005. Problem 4. I ett laboratorium utför dagligen mätningar för att bestämma halten µ av ett viss ämne i en råvara. Mätningarna kan betraktas som observationer från N(µ, σ). Från tidigare mätningar har man bestämt standardavvikelsen för en mätning till σ = 0. En dag fås följande 6 mätvärden: Bestäm ett 95% konfidensintervall för µ 5.68, 5.58, 5.98, 6.30, 4.93, 4.98 Håkan Strömberg 3 KTH Syd

0.. INTERVALLSKATTNING Problem 5. Vid ett reningsverk mättes dagligen syrekoncentrationen i vattnet. Den ansågs normalfördelad. Av erfarenheter kan man anta att σ = mg/l. Efter 30 dagar fick man medelvärdet av syrekoncentrationen till x =.5 mg/l. Bestäm ett 99% konfidensintervall för den genomsnittliga syrekoncentrationen µ. Problem 6. Spelarna i ett fotbollslag har en kroppsvikt som kan anses vara normalfördelad enligt N(8, 3.5) Hur stor är sannolikheten att de spelare som ingår tillsammans väger mer än 740 kg? Vi antar att vikterna är oberoende av varandra! Problem 7. Diametern för skruvar som tillverkas tillhör N(4., 0.6) (mm). Diametern hos hålen i muttrar som tillverkas är N(4.35,0.) (mm). En mutter anses passa till en skruv om hålets diameter är större än skruvens diameter, men att skillnaden inte överstiger 0.60 mm. Man parar slumpmässigt samman en skruv med en mutter. Hur stor är sannolikheten att muttern passar till skruven? Problem 8. För att ta reda på hur många fiskar det finns i sjön, tar man upp 34 fiskar och märker dem med röd färg, vartefter man släpper tillbaka dem. Efter några dygn tar man upp 876 fiskar. Bland dessa har 3 röd färg (har ingenting med rödingar att göra). Uppskatta hur många fiskar det finns i sjön, om man antar att alla fiskar med samma chans att bli upptagna vid båda tillfällena. Problem 9. Vi utgår från N(,0) och vill ha de två x-värden, symmetriskt placerade, mellan vilka a) 90% av sannolikhetsmassan ligger b) 95% av sannolikhetsmassan ligger c) 99% av sannolikhetsmassan ligger Detta kalla konfidensintervall Problem 0. Händelserna A och B har sannolikheterna 0. respektive 0.. Sannolikheten att ingen av händelserna inträffar är 0.75. Beräkna sannolikheten att exakt en av händelserna A och B inträffar. Problem. Vårsolen skiner och lusten att så frön växer. Antag att man köper en fröpåse med 0 frön i. På påsen anges att groddbarheten är 85% för dessa frön. Vad är sannolikheten att minst 8 av fröna i påsen gror vid sådd? Problem. Vid en tillverkningsprocess kontrolleras de tillverkade enheterna i en datorstyrd sensor. Härvid klassificeras defekta enheter som defekta med sannolikheten 0.9 och som korrekta med sannolikheten 0.. Vidare klassificeras korrekta enheter som korrekta med sannolikheten 0.85 och som defekta med sannolikheten 0.5. Vad är den betingade sannolikheten att en enhet är defekt givet att den klassificerats som defekt, om processens felsannolikhet är 0.? Problem 3. Weibullfördelningen är en av de mest använda fördelningarna för att beskriva livslängder hos olika sorters komponenter. Den stokastiska variabeln X är Weibullfördelad om P(X > x) = e axc där a och c är givna parametrar. Härled frekvensfunktionen till X. För en viss sorts komponenter är c = och a =.9. Beräkna percentilen L 0. Med L 0 menas det värde som uppfyller P(X L 0 ) = 0% Håkan Strömberg 4 KTH Syd

Problem 4. En tunnel av längden 70 m skall borras från två håll. Av erfarenhet tror man sig veta, att vad som hinns med olika dagar från ett håll kan uppfattas som oberoende observationer av en stokastisk variabel med väntevärdet 5.0 m och standardavvikelsen. m. Beräkna sannolikheten att det tar längre tid än 8 dagar att borra tunneln. Antag längden av en dags borrning X är normalfördelad. Problem 5. Vid en undersökning av böjhållfasthetens beroende av bränntemperaturen hos gult tegel erhölls följande observationsmaterial på 5 tegelbitar vid temperaturen 700 och 5 andra tegelbitar vid temperaturen 800. Temperatur Böjhållfasthet 700 47 40 38 39 800 93 7 0 07 Antag att slumpmässigheten i data kan beskrivas som normalfördelad med standardavvikelsen 0 vid båda temperaturerna och oberoende mellan samtliga 0 observationer. Beräkna ett 99% konfidensintervall för den systematiska skillnaden i böjhållfasthet för de två temperaturerna. Problem 6. 0.5 0. 0.5 0. 0.05 0 3 4 5 6 7 8 9 0 3 Figur 0.0: Stolpdiagram i figur 0.0 visar sannolikhetsfunktionen p X (x) för en diskret stokastisk variabel X. Tyvärr har en stolpe fallit bort. a) Bestäm den saknade stolpen då man vet att väntevärdet för X är 8. b) Beräkna standardavvikelsen för X. Håkan Strömberg 5 KTH Syd

0.. INTERVALLSKATTNING Problem 7. För händelserna A och B gäller P(A) = 0., P(B) = 0. och P(A B) = 0.5. a) Beräkna sannolikheten att ingen av händelserna A och B inträffar. b) Visa att A och B ej är oberoende händelser. Problem 8. Ett företag som tillverkar batterier av en viss typ har tillverkningen förlagt i tre olika fabriker. Fabrik A står för 60% av tillverkningen, fabrik B 30% och fabrik C 0%. Sannolikheten för att ett batteri från fabrik A är korrekt är 95%. Motsvarande sannolikheter för ett korrekt batteri från B är 90% respektive 85% för C. Man köper ett batteri och finner att det är korrekt. Vad är sannolikheten att det tillverkats i fabrik B? Problem 9. En stokastisk variabel X har följande frekvensfunktion { a x f X (x) = 0 x 3 0 annars a) Beräkna konstanten a. b) Beräkna väntevärdet E(X). c) Beräkna den betingade sannolikheten P(X X > ). Problem 0. Livslängden hos en vis typ av elektroniska komponenter är exponentialfördelad med väntevärdet 0 år. a) Vad är sannolikheten att en sådan komponent går sönder under ett år. b) En komplicerad utrustning för automatisk styrning av en produktionsprocess innehåller 00 sådana elektroniska komponenter. Olika komponenter går sönder oberoende av varandra. Bestäm väntevärde och varians för det antal komponenter som går sönder under ett år. Problem. Ett elektronikföretag tillverkar motstånd som har en förväntad resistans på 00 Ω och standardavvikelse 0 Ω. Bestäm sannolikheten för att medelvärdet för resistans i ett parti om 5 motstånd skall vara större än 95Ω. Problem. För att jämföra två gödselmedel lär man 5 lantbrukare gödsla hälften av sin veteareal med medel A och den andra hälften med medel B. Man fick följande skördar per hektar: Lantbrukare 3 4 5 Medel A 5.8 3.0.8 09.8 6.3 Medel B.. 8.0 4.9 9. För att få en enkel statistisk modell antog man att samtliga skördeutfall kan ses som utfall av oberoende normalfördelade stokastiska variabler med samma men okänd varians. Observera dock att lantbrukarna har gårdar med lite olika odlingsförutsättningar för vete. Beräkna ett lämpligt 95%-igt konfidensintervall för skillnaden i förväntad skörd mellan arealer som gödslats med A respektive B. Håkan Strömberg 6 KTH Syd

Svar. z = 7.8 s z = 0.43 Medelvärdet är enkelt att finna. För att få tag i s är det bra att känna till formeln ( s = n x i n n ) x i n Svar. Svar 3. Först bestämmer vi X = 3.55. Med Maple 3.55+a 3.55 a i= i= x = x = 5 3 e 4(x 3.55) 0.005 0.005 = 0.95 4 π m:=(3.55+3.58+3.45+3.63)/4: statevalf[icdf,normald[m,0.005/]](0.975); 3.6050 statevalf[icdf,normald[m,0.005/]](0.05); 3.50350 Vi får intervallet [3.60,3.503]. Inom detta ligger µ med 95% sannolikhet. Svar 4. m:=(5.68+5.58+5.98+6.30+4.93+4.98)/6; 5.575000000 statevalf[icdf,normald[m,0./sqrt(6)]](0.95); 5.70930736 statevalf[icdf,normald[m,0./sqrt(6)]](0.05); 5.44069864 Vårt 95% konfidensintervall är [5.44,5.7] Svar 5. Vi kan nå resultatet på ett alternativt sätt till det i uppgiften ovan evalf(solve(int(n(.5,/sqrt(30),x),x=.5-a...5+a)=0.99,a)); 0.9405598759 Intervallet blir nu [.5 0.94,.5 + 0.94] = [.58,3.46] Svar 6. Summerar vi de SV X i,i =,,...,X får vi Y N( 8, 3.5 = N(70,6.093) 740 P(Y > 740) = 6.093 (x 70) π e 6.093 0.75% Håkan Strömberg 7 KTH Syd

0.. INTERVALLSKATTNING Svar 7. X N(4.,0.6) och X N(4.35,0.). Skillnaden på diametrarna är då en SV Y = X X. Enligt formel är Y N(4.35 4., 0.6 + 0. ) = N(0.5,0.) 0.6 P(0 < Y < 0.6) = 0 0. (x 0.5) π e 0. 0.85% Svar 8. Antag att det finns x omärkta fiskar efter första upptaget x 34 = 645 3 ger x = 3736. Totalt finns 34 + 3736 = 4790 fiskar i sjön Svar 9. a) [.64,.64] b) [.96,.96] c) [.58,.58] Svar 0. P(A B) = 0.5 P(A B) = P(A) + P(B) P(A B) P(A B) = 0.05 P(exakt en av A och B) = P(A B) P(A B) = 0.5 0.05 = 0.0 Svar. X Bin(0, 0.85) P(X 8) = P(X = 8) + P(X = 9) + P(X = 0) P(X = 8) = ( 0 8) 0.858 0.5 = 0.76 P(X = 9) = ( 0 9) 0.859 0.5 = 0.347 P(X = 0) = ( 0) 0.85 0 0.5 0 = 0.0.97 Svar. Vi använder följande beteckningar Givet är K =enheten är korrekt D =enheten defekt k =enheten klassificeras som korrekt d =enheten klassificeras som defekt P(D) = 0., P(d D) = 0.9, P(k D) = 0., P(k K) = 0.85, P(d K) = 0.5 Vi söker Vi behöver P(D d) = P(d D) P(D) P(d) P(d) = P(d D) P(D) + P(D k) P(K) = 0.9 0. + 0.5( 0.) = 0.5 och får nu P(D d) = 0.9 0. 0.5 = 0.4 Håkan Strömberg 8 KTH Syd

Svar 3. Låt X ha frekvensfunktionen f X (x) och fördelningsfunktionen F X (x). Vi vet att f X (X) = F X (X) FX(x) = P(X x) = P(X > x) = e ax c f X (x) = F X (x) = acxc e axc x 0 P(X x) = F X (x) = 0. e.9x = 0. x = 0.9 Svar 4. Låt X i,i =,,... 36 beteckna borrlängden vid borrning. De olika X i är oberoende med samma fördelning och med E(X) = 5.0 och S(X) =.. På 8 dagar blir den totala borrlängden X + X +... + X 36 Den sökta sannolikheten blir Svar 5. N(5.0 36,. 36) = N(80,7.) P(X + X +... + X 36 < 70) = 70 N(80, 7.) dx = 0.08 X i N(µ,0) Y i N(µ,0) ( ) ( ) X N µ, 0 Y N µ 5, 0 5 X = 37.0 Y = 09.0 ( ) 0 X Y N µ µ, 5 + 0 5 [x y λ 0.005 σ,x y + λ 0.005 σ] [37 09.5758.649,37 09 +.5758.649] = [ 05, 39] Svar 6. Den saknade stolpen har frekvensen 0.3, eftersom summan av sannolikheterna är. Låt den saknade stolpen ha värde k. Vi får ekvationen ger k =. σ =.95 Svar 7. 8 = 0.5 + 7 0. + 8 0.5 + 0 0. + k 0.3 P(Ingen av A och B inträffar) = P( A B) = P(A B) = 0.5 = 0.75 P(A B) = P(A) + P(B) P(A B) P(A B) = 0. + 0. 0.5 = 0.05 men P(A) P(B) = 0. 0. = 0.0 Vi ser att P(A B) P(A) P(B), alltså är inte A och B oberoende Svar 8. Låt K beteckna händelsen Batteriet är korrekt och B händelsen Batteriet har tillverkats i fabrik B. Totalsannolikheten: P(K) = 0.60 0.95 + 0.30 0.90 + 0.85 0.0 = 0.95 P(B K) = P(B K) P(K) = 0.7 0.95 = 0.9 Håkan Strömberg 9 KTH Syd

0.. INTERVALLSKATTNING Svar 9. 3 0 ax3 dx = [ ] 3 a x3 3 = 0 9a = a = 9 E(X) = x ax dx = 9 0 4 Låt A vara händelse X och B händelsen X >. Det gäller att 3 P(A B) = P(A B) P(B) Vi får och Till sist P(B) = P(X > ) = P(A B) = P( < X ) = P(A B) = P(A B) P(B) = 3 ax dx = 6 7 7 7 6 7 = ax dx = 7 7 = 7 6 = 0.69 Svar 0. Sätt T =tiden tills en komponent går sönder. T är exponentialfördelad med E(X) = 0, λ = 0. Då gäller P(T ) = e Sannolikheten att en komponent går sönder under ett år är p = e /0. Sätt X=antalet komponenter som går sönder under ett år. 0 Y = Bin(00, e /0 ) Då gäller att E(X) = n p = 00( e /0 ) = 9.5. eller med Maple evalf(sum(binomial(00,x)*x*(-exp(-/0))^x* (exp(-/0))^(00-x),x=0..00)); 9.565898 Svar. Betrakta de oberoende X,...,X 5 med E(X i ) = 00 och σ(x i ) = 0. Sätt Y = X +... + X 5 5 E(Y) = 00 och σ(y) = 0 5 = och Y N(00,). Maple ger P(Y > 95) = P(Y 95) = 0.9938 -statevalf[cdf,normald[00,]](95); 0.9937903347 Håkan Strömberg 0 KTH Syd

Svar. Vi har observationer i par. Vi bildar nya data genom Medel A - Medel B. Nya data blir X,X,...,X 5 med observerade värden Låt µ = (X + X +... + X 5 )/5. Vi får 5.4, 0.9, 5., 5.,.9 m = 5.4 + 0.9 5. 5..9 5 = 3.54 Genom t-fördelningen får vi som vi får genom µ ± t 0.05 (4) V(X) = 7.9 s(x) =.68 s.78 68 = 3.54 ± = 3.54 ± 3.33 5 5 evalf(-3.54+.68*statevalf[icdf, studentst[4]](0.975)/sqrt(5)); -0.340486 evalf(-3.54-.68*statevalf[icdf, studentst[4]](0.975)/sqrt(5)); -6.86765954 [ 6.87, 0.] Håkan Strömberg KTH Syd