Föreläsning 3: Konfidensintervall

Relevanta dokument
Stokastiska vektorer och multivariat normalfördelning

9. Konfidensintervall vid normalfördelning

Föreläsning 7: Stokastiska vektorer

Föreläsning 4: Konfidensintervall (forts.)

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

TMS136. Föreläsning 10

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Thomas Önskog 28/

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

TAMS79: Föreläsning 6. Normalfördelning

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

SF1901 Sannolikhetsteori och statistik I

F9 Konfidensintervall

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Stokastiska vektorer

FÖRELÄSNING 8:

FÖRELÄSNING 7:

TMS136. Föreläsning 11

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 6: Hypotestester (forts.)

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 7: Punktskattningar

Föreläsning 5: Hypotesprövningar

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 7: Punktskattningar

Föreläsningsanteckningar till kapitel 8, del 2

Föreläsning 12: Linjär regression

SF1901: Sannolikhetslära och statistik

TMS136. Föreläsning 13

Formel- och tabellsamling i matematisk statistik

TAMS24: Statistisk inferens ht 2018

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Repetitionsföreläsning

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Regression

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik för D, I, Π och Fysiker

Enkel och multipel linjär regression

Kap 2. Sannolikhetsteorins grunder

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Tentamen MVE302 Sannolikhet och statistik

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Grundläggande matematisk statistik

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Grundläggande matematisk statistik

Föreläsning 11, FMSF45 Konfidensintervall

F3 Introduktion Stickprov

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Föreläsning 12, FMSF45 Hypotesprövning

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Avd. Matematisk statistik

Föreläsning 11, Matematisk statistik Π + E

Sannolikheter och kombinatorik

Tenta i Statistisk analys, 15 december 2004

Avd. Matematisk statistik

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Föreläsning 6, Matematisk statistik Π + E

Mer om konfidensintervall + repetition

Formler och tabeller till kursen MSG830

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Lufttorkat trä Ugnstorkat trä

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Föresläsningsanteckningar Sanno II

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

SF1901 Sannolikhetsteori och statistik I

Våra vanligaste fördelningar

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Matematisk statistik för B, K, N, BME och Kemister

Betingning och LOTS/LOTV

Lektionsanteckningar 11-12: Normalfördelningen

F10 Problemlösning och mer om konfidensintervall

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Föreläsning 1: Repetition och punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

10. Konfidensintervall vid två oberoende stickprov

Uppgift 1. f(x) = 2x om 0 x 1

Föreläsning 7: Punktskattningar

Föreläsning 15: Försöksplanering och repetition

TMS136. Föreläsning 4

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Transkript:

Föreläsning 3: Konfidensintervall Johan Thim (johan.thim@liu.se) 5 september 8 [we are] Eplorers in the further regions of eperience. Demons to some. Angels to others. Pinhead Intervallskattningar Vi har nu studerat hur man mer eller mindre systematiskt kan hitta skattningar för okända parametrerar när vi har stickprov från en fördelning som beror på parametern. Den naturliga följdfrågan är givetvis hur bra skattningen är. Vi har vissa mått i form av väntevärdesriktighet, konsistens och effektivitet, men går det att säga något med en given sannolikhet? Kan vi hitta ett intervall som med en viss given sannolikhet måste innehålla den okända parametern? Konfidensintervall Definition. Låt,..., n vara ett stickprov av en fördelning som beror på en okänd parameter θ och låt α [, ]. Ett intervall I α θ = ( θ L, θ U ) kallas för ett konfidensintervall för θ med konfidensgrad α om P ( Θ L < θ < Θ U ) = α. Gränserna θ L = a(,..., n ) och θ U = b(,..., n ) är skattningar som beräknas från stickprovet. Dessa ändpunkter kallas konfidensgränser. Så hur fungerar detta i praktiken? Säg att vi har tillgång till olika stickprov (i) = ( (i), (i),..., (i) n ) från en och samma fördelning som beror på samma okända parameter θ. Vi hittar konfidensintervall för alla stickproven med konfidensgrad α. Då kommer ( α) av dessa intervall att innehålla θ (i snitt). I [ ] I [ ] I 3 [ ] I 4 [ ] I 5 [ ] I 6 [ ] I 7 [ ] I 8 [ ] I 9 [ ] I [ ] I [ ] I [ ] I 3 [ ] I 4 [ ] I 5 [ ] I 6 [ ] θ

Av 6 intervall är det 4 som inte innehåller det verkliga värdet på θ. Så med andra ord verkar det som att ungefär /6 = 3/4 av intervallen innehåller det verkliga värdet på θ. Detta innebär att konfidensgraden vid skattningen är ungefär 75%. Notera att det är gränserna i konfidensintervallet som är stokastiska variabler (eller skattningar därav). Storheten θ är okänd (och behöver inte ens ligga i intervallet). Inga intervall är mer värda Vi kan inte säga att till eempel I 9 är ett bättre intervall än I 3, utan det är en binär fråga: gäller det att θ I k eller inte. Så då kommer vi till nästa rimliga fråga: hur hittar vi systematiskt konfidensintervall med given konfidensgrad? Konstruktion av konfidensintervall. Ställ upp en lämplig skattningsvariabel Θ för θ. Här kan vi använda de metoder vi tagit fram tidigare (moment-, MK- och ML-skattningar till eempel).. Konstruera en hjälpvariabel H (teststorhet) utifrån Θ. Hjälpvariabeln får endast innehålla kända storheter utöver θ (och om θ förekommer flera gånger kan vi behöva skatta bort en del instanser för att få något användbart). 3. Stäng in hjälpvariabeln i ett intervall I = (c, d) så att P (c < H < d) = α. 4. Lös ut θ ur olikheten c < H < d: c < H < d a(x,..., X n ) < θ < b(x,..., X n ) vilket ger att P (a(x,..., X n ) < θ < b(x,..., X n )) = α. 5. Ersätt de stokastiska storheterna X,..., X n med observationerna,..., n vilket ger intervallet I α θ = (a(,..., n ), b(,..., n )). Något som kommer bli viktigt är följande definition från sannolikhetsteorin. Kvantil Definition. En α-kvantil λ α för en stokastisk variabel X är ett tal λ α sådant att P (X > λ α ) = α. Vi finner ofta kvantiler i tabell endera genom en eplicit kvantiltabell eller genom att söka upp sannolikheten α och identifiera (approimativt) vilket värde på som gör att vi erhåler F () = α, där F är fördelningsfunktionen. Saknar vi tabell får vi istället lösa ekvationen α = ˆ λα Observera att svaret inte nödvändigtvis är entydigt. f X () d.

χ -fördelningen En situation som dyker upp frekvent i statistik inferens är summor av kvadrater av normalfördelade variabler, så en naturlig fråga är så klart vilken fördelning en sådan summa får (åtminstone då variablerna antas vara oberoende). Svaret fås i form av χ -fördelningen. χ -fördelning Definition. Om X är en stokastisk variabel med täthetsfunktionen f X () = k/ Γ(k/) k/ e /, om k >, kallar vi X för χ (k)-fördelad med k frihetsgrader, där k =,,... Här är Γ gamma-funktionen och Γ(n) = (n )! och Γ(n + /) = (n)! π om n N. 4 n n!.5 y k = k = k = 3 k = 4 k = 5 k = 6 k = 5 3 4 5 6 7 8 9 Om X χ (k) är E(X) = k och V (X) = k. Bevis. Låt täthetsfunktionen skrivas f() = c k/ e /. Då gäller att E(X) = c = k ( [ k/ e / d = c k/ e /] ) + k k/ e / d f() d = k. På samma sätt följer att ( ) k E(X ) = c k/+ e / d = + c k/ e / d = (k + )E(X) = k + k, så V (X) = E(X ) E(X) = k + k k = k. Se avsnitt nedan för mer detaljer. 3

Sats. Om X χ ( ) och Y χ ( ) är oberoende så är X + Y χ ( + ). Bevis. Enklast är att betrakta Fouriertransformen för täthetsfunktionen (alternativt den närbesläktade karakteristiska funktionen definierad enligt E(e itx )). Det är nämligen så att F(f X )(t) = ( + it) /, F(f Y )(t) = ( + it) / och så f X+Y χ ( + ). F(f X f Y ) = F(f X )F(f Y ) = ( + it) ( + )/, Sats. Om X, X,..., X n är oberoende och X k N(, ) så är n Xk χ (n). k= Bevis. Eftersom variablerna är oberoende ges den simultana täthetsfunktionen av f(,..., n ) = n k= π e k / = ( ep ( ) ) n/ πn/ + + n. Vi söker fördelningen för Z = X + Xn, så låt oss ställa upp fördelningsfunktionen: ˆ F Z (z) = P (Z z) = f(,..., n )d d d n = = = ˆ n/ π n/ S n π n/ n/ π n/ Γ(n/) n/ Γ(n/) ˆ z + n z ˆ z ˆ z r n e r / dr ds r n e r / dr t n/ e t/ dt, där S n är enhetssfären i R n och ds är ytmåttet på S n. Då enhetssfären har ytmåttet S n = πn/ Γ(n/) följer likheten ovan efter ett variabelbyte i sista integralen (låt t = r ). Analysens huvudsats medför nu att (för z > ) att f Z (z) = F Z(z) = n/ Γ(n/) zn/ e z/. För z < är givetvis f Z (z) = (varför?). 4

3 t-fördelningen t-fördelning Definition. Om X är en stokastisk variabel med täthetsfunktionen f X () = Γ ( ) + ) + ( π Γ ( + ), R och >, kallar vi X för t()-fördelad med frihetsgrader. Denna fördelning är symmetrisk och om antalet frihetsgrader går mot oändligheten konvergerar täthetsfunktionen mot täthetsfunktionen för normalfördelning..5 y k = k = k = 3 k = 4 k = 5 k = 6 k = 7 6 5 4 3 3 4 5 6 7 Sats. Om X t() är E(X) = (om > ) och V (X) = /( ) (om > ). Bevis. Om > är integralen E(X) absolutkonvergent (visa det) och då integranden är udda blir således E(X) =. För att beräkna E(X ) låter vi c = Γ ( ) + ( πγ ). Om > ser vi genom partialintegration att ) + ˆ E(X ) = c ( + d = c ˆ ) = c ( + d = c c 3/ ( ) c ) ( + u 5 ) ( + du = d c c 3/ ( )

där vi bytte variabel så = u och utnyttjade att integralen som dök upp är precis integralen av täthetsfunktionen för en t( )-fördelad variabel (om > ). Vi förenklar uttrycket och finner att c c 3/ ( ) = Γ = ( + ) ( Γ ) ( )π ( πγ ( ) Γ ) Γ ( ) ( Γ ) Γ ( ) ( Γ ) = 3/ ( ), där vi nyttjat att Γ(z + ) = zγ(z). Eftersom E(X) = följer det nu att V (X) = E(X ). 6

3. t-fördelningens kvantiler Kvantilerna för t-fördelningen är de tal t α (n) sådana att P (T > t α (n)) = α. Det vill säga gränser t α (n) sådana att för T t(n) gäller att andelen α av sannolikhetsmassan ligger till höger om t α (n). Eftersom gränserna är jobbiga att räkna fram för hand brukar vi använda tabellverk enligt nedan (studera även formelsamlingen). y t α(n) α n..5.5..5..5 3.78 6.34.76 3.8 63.657 38.39 636.69.886.9 4.33 6.965 9.95.37 3.599 3.638.353 3.8 4.54 5.84.5.94 4.533.3.776 3.747 4.64 7.73 8.6 5.476.5.57 3.365 4.3 5.893 6.869 6.44.943.447 3.43 3.77 5.8 5.959 7.45.895.365.998 3.499 4.785 5.48 8.397.86.36.896 3.355 4.5 5.4 9.383.833.6.8 3.5 4.97 4.78.37.8.8.764 3.69 4.44 4.587.363.796..78 3.6 4.5 4.437.356.78.79.68 3.55 3.93 4.38 3.35.77.6.65 3. 3.85 4. 4.345.76.45.64.977 3.787 4.4 5.34.753.3.6.947 3.733 4.73 6.337.746..583.9 3.686 4.5 7.333.74..567.898 3.646 3.965 8.33.734..55.878 3.6 3.9 9.38.79.93.539.86 3.579 3.883.35.75.86.58.845 3.55 3.85.33.7.8.58.83 3.57 3.89.3.77.74.58.89 3.55 3.79 3.39.74.69.5.87 3.485 3.768 4.38.7.64.49.797 3.467 3.745 5.36.78.6.485.787 3.45 3.75 6.35.76.56.479.779 3.435 3.77 7.34.73.5.473.77 3.4 3.69 8.33.7.48.467.763 3.48 3.674 9.3.699.45.46.756 3.396 3.659 3.3.697.4.457.75 3.385 3.646 4.33.684..43.74 3.37 3.55 5.99.676.9.43.678 3.6 3.496 6.96.67..39.66 3.3 3.46 7.94.667.994.38.648 3. 3.435 8.9.664.99.374.639 3.95 3.46 9.9.66.987.368.63 3.83 3.4.9.66.984.364.66 3.74 3.39.8.645.96.36.576 3.9 3.9 7

4 Vektorer med stokastiska variabler Låt X = (X, X,..., X n ) T vara en vektor vars komponenter är stokastiska variabler. Vi strävar efter att skriva vektorer som kolonnvektorer. Det faller sig naturligt att definera väntevärdet av X genom E(X) = (E(X ), E(X ),..., E(X n )). På samma sätt definerar vi väntevärdet av en matris av stokastiska variabler. Variansen blir lite konstigare så vi introducerar den så kallade kovariansmatrisen mellan två vektorer (av samma dimension). Låt Y = (Y, Y,..., Y n ) T och definiera C(X, Y ) enligt C(X, Y ) C(X, Y ) C(X, Y n ) C(X, Y ) C(X, Y ) C(X, Y n ) C(X, Y ) =...... C(X n, Y ) C(X n, Y ) C(X n, Y n ) där C(X i, Y j ) = E(X i Y j ) E(X i )E(Y j ) är kovariansen mellan X i och Y j. En stor anledning att blanda in vektorer och matriser är givetvis att få tillgång till maskineriet från linjär algebra. Kovariansen (en matris) mellan två vektorer X och Y kan då lite mer kompakt skrivas C(X, Y ) = E(XY T ) E(X)E(Y ) T, där ( ) T innebär transponering. En produkt A = y T brukar kallas för den yttre produkten och består av element (a) ij = i y j, i, j =,,..., n. Detta är alltså inte skalärprodukten (X T Y ). Låt A, B R n n vara matriser. Då är AX en linjärkombination av X, X,..., X n och BY en linjärkombination av Y, Y,..., Y n. Dessutom kan alla linjärkombinationer skrivas på detta sätt. Vidare gäller nu tack varje linjäriteten att E(AX) = AE(X) och C(AX, BY ) = AX(BY ) T = AXY T B T. 5 Cochrans sats Vi ska nu betrakta ett speciallfall av en ganska generell sats (Cochrans sats).. Sats. Låt X, X,..., X n vara oberoende likafördelade stokastiska variabler där X k N(µ, σ ) för k =,,..., n. Då gäller att σ n (X X) χ (n ). Bevis. Låt Y k = X k µ så att Y k N(, σ ). Vi ser att n n (X k X) = (Y k Y ). k= k= Låt J vara n n-matrisen vars samtliga element är och låt Y = (Y, Y,..., Y n ) T. Då kan vi skriva Y Y Y Y. = IY JY = QY, n Y n Y 8 k=

där Q = I (/n)j. Låt P = I Q = (/n)j. Då är P + Q = I, P = P T = P, Q = Q T = Q samt P Q = QP =. Matriserna P och Q representerar alltså ortogonala projektioner på R n och av naturliga skäl är rank(p ) = så rank(q) = n (eftersom P + Q = I). Vidare gäller att C(P Y, QY ) = P C(Y, Y )Q T = P σ IQ T = P Q T = P Q = då E(Y ) = och C(Y i, Y j ) = σ om i = j och C(Y i, Y j ) = då i j eftersom olika Y k är oberoende. Således är Y i Y och Y oberoende stokastiska variabler (eftersom kovariansen noll mellan normalfördelade variabler är ekvivalent med oberoende). Eftersom rank(q) = n så kan vi representera QY i en ortogonal bas så att σ n (Y i Y ) = σ (QY )T QY = σ Y T QY = Z + Z + + Zn, k= där Z k N(, ) och dessa variabler är oberoende. Vi kan nu nyttja den tidigare satsen om att summan av n stycken kvadrater av N(, )-fördelade variabler är χ (n)-fördelad för att dra slutsatsen att σ XT QX χ (n ). 6 t- och χ -fördelning; Gossets sats Det finns givetvis en anledning till att vi studerar just dessa två fördelningar. William Gosset bevisade nämligen följande sats. Sats. Låt Z N(, ) och V χ () vara oberoende. Då är Z V/ t(). Bevis. Eftersom Z och V är oberoende ges den simultana täthetsfunktionen av f(z, v) = π / Γ ( )e z / v / e v/, z R, v. Låt T = Z och c = V/ π / Γ ( ). Vi söker täthetsfunktionen f T för T. Betrakta P (T t) = ˆ ˆ f(z, v) dz dv z/ v/ t = c ˆ ˆ e z / v / e v/ dz dv. z/ v/ t Vi gör ett variabelbyte, v u, w = v d(z, v) d(u, w) = w u w = w, 9

så integralen blir ˆ ˆ c u t w e u w/() w / e v/ dz dv = c ˆ t = c ˆ t = c ˆ t ( + u ( w + ep w r + ) + ( + u ) + e r dr du, )) ( + u dw du r + e r dr du, ) där vi gjorde ett variabelbyte r = w ( + u i den innersta integralen och bröt ut den faktor som inte beror på u. Den innersta integralen är nu nästan (upp till normeringskonstanten) integralen av täthetsfunktionen för en χ ( + )-variabel, så ( ) r +3 e r + dr = (+)/ Γ. Således ges fördelningsfunktionen F T (t) = (+)/ Γ ( ) + ˆ t ) + π / Γ ( ) ( + u du = Γ ( ) + ( π Γ ) vilket efter derivering ger täthetsfunktionen f T (t) = Γ ( ) + ) + ( π Γ ( + ) t, vilket är precis täthetsfunktionen för en t()-fördelad variabel. ˆ t ) + ( + u du Följdsats. Om X, X,..., X n är oberoende och likafördelade med fördelningen N(µ, σ ) så är T = X µ S/ n t(n ), där S är stickprovsvariansen. Bevis. Detta följer direkt från föregående resultat och Cochrans sats. Vi kan formulera T enligt där Z N(, ) och V = σ n k= T = X µ σ/ n σ S = Z, V n (X k X) χ (n ) (med S = n V ). 7 Konfidensintervall för µ och σ i normalfördelning 7. Konfidensintervall för µ när σ är känd Låt,,..., n vara ett stickprov från en N(µ, σ )-fördelning där vi känner σ och vill hitta ett konfidensintervall för µ. En punktskattning för väntevärdet ges av M = X = n X k N(µ, σ /n). n k=

Vi skapar testvariabeln Z = M µ σ/ n Det följer då att vi kan välja ett tal λ α/ så att N(, ). P ( λ α/ < Z < λ α/ ) = α. () Talet λ α/ är α/-kvantilen för en N(, )-fördelning och ges av λ α/ = Φ ( α/). Eftersom vi saknar eplicit uttryck för denna invers är det enklast (utan dator åtminstone) att slå i tabell. Standardtabell som finns i formelsamlingen enligt nedan (vi får uttnyttja symmetri för att finna sannolikheter mindre än.5). y λ α/ λ α/ Det skuggade områdena är sannolikheten att P (Z < λ α/ ) + P (Z > λ α/ ). Vi löser ut µ ur olikheten i sannolikhetsmåttet i ekvation () ovan: λ α/ < Z < λ α/ σ λ α/ n < M σ µ < λ α/ n M σ λ α/ n < µ < M σ + λ α/ n Om vi ersätter M med den observerade punktskattningen µ = (medelvärdet av observationerna) så får vi ett konfidensintervall ) σ σ I µ = ( λ α/ n, + λ α/ n med konfidensgrad α. Eempel Vid en mätning av en process fick man följande mätdata: 6.4 4.96 4.93 3.4 7.4 4.73 3.57 7.7 4.55 3.8 Antag att mätningarna är ett stickprov på en normalfördelad variabel X N(µ, ) (man tycker sig veta så pass mycket om processen att standardavvikelsen anses vara känd). Beräkna ett 99% konfidensintervall för väntevärdet µ. Lösning. Vi betraktar siffrorna som ett stickprov från oberoende s. v. X j N(µ, σ = 4). Vi punktskattar väntevärdet µ med M = X = j= X j N(µ, 4/).

Vi skapar testvariabeln Det följer då att Z = M µ σ/ N(, ). P ( λ α/ < Z < λ α/ ) = α, () och då vi söker ett 99% konfidensintervall så är α =. och λ.5.575 (det sista ur tabell). y λ α/ λ α/ Det skuggade området är α % av sannolikhetsmassan jämt fördelad på svansarna. Vi löser ut µ ur olikheten i sannolikhetsmåttet i ekvation () ovan och erhåller att M.575 < µ < M +.575. Om vi ersätter M med den observerade punktskattningen µ = 5.74 (medelvärdet av observationerna) så får vi ett konfidensintervall I µ = (3.45, 6.7) med konfidensgrad 99%.

7.. Normalfördelningstabell y Det skuggade området är sannolikheten att P (Z ), där Z N(, ).....3.4.5.6.7.8.9..5.54.58.5.56.599.539.579.539.5359..5398.5438.5478.557.5557.5596.5636.5675.574.5753..5793.583.587.59.5948.5987.66.664.63.64.3.679.67.655.693.633.6368.646.6443.648.657.4.6554.659.668.6664.67.6736.677.688.6844.6879.5.695.695.6985.79.754.788.73.757.79.74.6.757.79.734.7357.7389.74.7454.7486.757.7549.7.758.76.764.7673.774.7734.7764.7794.783.785.8.788.79.7939.7967.7995.83.85.878.86.833.9.859.886.8.838.864.889.835.834.8365.8389..843.8438.846.8485.858.853.8554.8577.8599.86..8643.8665.8686.878.879.8749.877.879.88.883..8849.8869.8888.897.895.8944.896.898.8997.95.3.93.949.966.98.999.95.93.947.96.977.4.99.97.9.936.95.965.979.99.936.939.5.933.9345.9357.937.938.9394.946.948.949.944.6.945.9463.9474.9484.9495.955.955.955.9535.9545.7.9554.9564.9573.958.959.9599.968.966.965.9633.8.964.9649.9656.9664.967.9678.9686.9693.9699.976.9.973.979.976.973.9738.9744.975.9756.976.9767..977.9778.9783.9788.9793.9798.983.988.98.987..98.986.983.9834.9838.984.9846.985.9854.9857..986.9864.9868.987.9875.9878.988.9884.9887.989.3.9893.9896.9898.99.994.996.999.99.993.996.4.998.99.99.995.997.999.993.993.9934.9936.5.9938.994.994.9943.9945.9946.9948.9949.995.995.6.9953.9955.9956.9957.9959.996.996.996.9963.9964.7.9965.9966.9967.9968.9969.997.997.997.9973.9974.8.9974.9975.9976.9977.9977.9978.9979.9979.998.998.9.998.998.998.9983.9984.9984.9985.9985.9986.9986 3..9987.9987.9987.9988.9988.9989.9989.9989.999.999 3..999.999.999.999.999.999.999.999.9993.9993 3..9993.9993.9994.9994.9994.9994.9994.9995.9995.9995 3.3.9995.9995.9995.9996.9996.9996.9996.9996.9996.9997 3.4.9997.9997.9997.9997.9997.9997.9997.9997.9997.9998 3.5.9998.9998.9998.9998.9998.9998.9998.9998.9998.9998 3

7. Okänd varians Låt,,..., n vara ett stickprov från en N(µ, σ )-fördelning där vi inte vet vad σ är och vi vill hitta ett konfidensintervall för µ. En punktskattning för väntevärdet ges av M = X = n n X k N(µ, σ /n). k= Eftersom σ är okänd behöver vi en skattning och förslagsvis väljer vi stickprovsstandardavvikelsen. Vi skapar sedan testvariabeln T = M µ S/ n t(n ), där faktumet att T är t-fördelad följer från Gossets sats. Det följer då att vi kan välja ett tal t α/ så att P ( t α/ (n ) < T < t α/ (n )) = α. (3) Talet t α/ (n ) är α/-kvantilen för en t(n )-fördelning (vi finner denna i tabell). Vi löser ut µ ur olikheten i sannolikhetsmåttet i ekvation (3) ovan: t α/ (n ) < T < t α/ (n ) t α/ (n ) S n < M µ < t α/ (n ) S n M t α/ (n ) S n < µ < M + t α/ (n ) S n Om vi ersätter M med den observerade punktskattningen µ = (medelvärdet av observationerna) och S med stickprovsstandardavvikelsen så får vi ett konfidensintervall I µ = ( t α/ (n ) s, + t α/ (n ) s ) n n med konfidensgrad α. Eempel Samma eempel som tidigare där man vid en mätning av en process fick man följande mätdata: 6.4 4.96 4.93 3.4 7.4 4.73 3.57 7.7 4.55 3.8 En som arbetar med processen håller inte med om att standardavvikelsen kan antas vara given, utan tycker att man måste skatta den utifrån datan. Hjälp personen i fråga med att ställa upp ett 99% konfidensintervall för väntevärdet µ då mätningarna är ett stickprov på en normalfördelad variabel X N(µ, σ ) och σ är okänd. Lösning. Vi betraktar siffrorna som ett stickprov från oberoende s. v. X j N(µ, σ ). Vi punktskattar med M = X N(µ, σ /) som tidigare och skattar σ med s, där s = 9 i= ( i ).84 4

är stickprovsvariansen. Vi skapar testvariabeln Som i förra deluppgiften följer det att T = M µ S/ t(9). P ( t α/ (9) < T < t α/ (9) ) = α, där t β (9) är kvantilerna till t(9)-fördelningen, β [, ]. y t α/ (9) t α/ (9) Ur tabell finner vi t.5 (9) = 3.5. Genom att lösa ut µ ur olikheten i sannolikhetsmåttet får vi M 3.5 S < µ < M + 3.5 S. Om vi ersätter M med de observerade punktskattningarna µ = 5.74 (medelvärdet av observationerna) och s =.84 =.444 (stickprovsstandardavvikelsen) så får vi ett konfidensintervall I µ = (3.59, 6.56) med konfidensgrad 99%. 7.3 Konfidensintervall för varians Kan man avgöra om en gissning på variansen är rimlig? Vi behöver en testvariabel där vi (n )S känner fördelningen. Enligt Cochrans sats är χ (n ), så vi kan stänga in denna σ variabel. Således är χ α/(n ) < (n )S σ < χ α/(n ) χ α/ (n ) > σ (n )S > (n ) (n )S χ α/ (n ) < σ < χ α/ (n )S (n ), χ α/ där χ β () är β-kvantilen för χ ()-fördelningen: P (V > χ β()) = β, då V χ (). 5

y χ β () α k.5.5...95.975.99.999.39... 3.845 5.39 6.6349.876.6.56.. 5.995 7.3778 9.3 3.855 3.358.58.48.43 7.847 9.3484.3449 6.66 4.77.4844.97.98 9.4877.433 3.767 8.4668 5.455.83.5543..75.835 5.863.55 6.6354.373.87.38.596 4.4494 6.89.4577 7.673.6899.39.5985 4.67 6.8 8.4753 4.39 8.736.797.6465.857 5.573 7.5345.9 6.45 9 3.35.74.879.59 6.99 9.8.666 7.877 3.943 3.47.558.4787 8.37.483 3.93 9.5883 4.5748 3.857 3.535.8339 9.675.9 4.75 3.64 5.6 4.438 3.576.4.6 3.3367 6.7 3.995 3 5.899 5.88 4.69.67.36 4.7356 7.688 34.58 4 6.576 5.687 4.664 3.47 3.6848 6.89 9.4 36.33 5 7.69 6.6 5.93 3.487 4.9958 7.4884 3.5779 37.6973 6 7.966 6.977 5.8 3.946 6.96 8.8454 3.9999 39.54 7 8.678 7.564 6.478 4.46 7.587 3.9 33.487 4.79 8 9.395 8.37 7.49 4.948 8.8693 3.564 34.853 4.34 9.7 8.965 7.637 5.468 3.435 3.853 36.99 43.8.858 9.598 8.64 5.9 3.44 34.696 37.566 45.347.593.89 8.897 6.4467 3.676 35.4789 38.93 46.797.338.983 9.545 6.983 33.944 36.787 4.894 48.679 3 3.95.6886.957 7.59 35.75 38.756 4.6384 49.78 4 3.8484.4.8564 8.849 36.45 39.364 4.9798 5.786 5 4.64 3.97.54 8.6493 37.655 4.6465 44.34 5.697 6 5.379 3.8439.98 9. 38.885 4.93 45.647 54.5 7 6.54 4.5734.8785 9.88 4.33 43.945 46.969 55.476 8 6.979 5.379 3.5647.399 4.337 44.468 48.78 56.893 9 7.784 6.47 4.565.986 4.557 45.73 49.5879 58.3 3 8.497 6.798 4.9535.588 43.773 46.979 5.89 59.73 4 6.593 4.433.643 7.964 55.7585 59.347 63.697 73.4 5 34.7643 3.3574 9.767 4.6739 67.548 7.4 76.539 86.668 6 43.88 4.487 37.4849 3.7383 79.89 83.977 88.3794 99.67 7 5.7393 48.7576 45.447 39.364 9.53 95.3.45.369 8 6.395 57.53 53.54 46.599.8795 6.686.388 4.839 9 69.6 65.6466 6.754 54.55 3.453 8.359 4.63 37.84 77.995 74.9 7.649 6.979 4.34 9.56 35.867 49.4493 6

Eempel Samma eempel (igen!) som tidigare där man vid en mätning av en process fick man följande mätdata: 6.4 4.96 4.93 3.4 7.4 4.73 3.57 7.7 4.55 3.8 Ställ upp ett 95%-igt konfidensintervall för variansen. Var antagandet att σ = rimligt? Lösning. Stickprovsstorleken är n = och vi låter V = 9 S. Under antagande att det är ett σ stickprov från en N(µ, σ )-fördelning kommer V χ (9). Ur tabell hittar vi gränser a och b så att P (a < V < b) =.95 genom att välja a = χ.975(9) =.7 och b = χ.5(9) = 9.. y.7 9. Vi löser nu ut σ ur olikheten: a < 9 S < b 9 S σ b < σ < 9 S a och skattar S med stickprovsvariansen s =.8 och erhåller då intervallet I σ = (.98, 6.93). Vi kan utifrån detta även skatta ett konfidensintervall för standardavvikelsen enligt I σ = (.99,.63). Eftersom I σ kan vi inte säga att σ = är orimligt. 8 Enkelsidiga konfidensintervall De konfidensintervall vi arbetat med har varit tvåsidiga i den meningen att båda gränserna har varit observationer av stokastiska variabler. Det innebär att vi lagt ut den osäkerhet vi tillåter på båda svansarna i fördelningen. Men det är givetvis inte nödvändigt. Kanske är vi bara intresserade av gränsen åt ena hållet? Typeemplet är konfidensintervall för variansen. Att variansen är liten brukar inte vara något större bekymmer, så vi lägger allt krut på att hålla koll på gränsen uppåt. Men det kan även handla om väntevärdet (eller ett predikterat värde; se nästa avsnitt). Kanske mäter vi något där vi inte får överstiga en viss nivå. Kanske en situation där det inga problem är om koncentrationen av något skadligt ämne är låg, men ett betydligt större problem om koncentrationen är hög? 7

Så hur åstadkommer vi detta? Vi betraktar ett par eempel. Eempel Samma eempel (igen igen!) som tidigare där man vid en mätning av en process fick man följande mätdata: 6.4 4.96 4.93 3.4 7.4 4.73 3.57 7.7 4.55 3.8 Ställ upp ett 95%-igt konfidensintervall för variansen där vi endast är intresserade av hur stor variansen är. Skulle antagandet att σ =.5 vara rimligt? Jämför med föregående eempel. Lösning. Stickprovsstorleken är n = och vi låter även nu V = 9 S vi en gräns c så att P (c < V ) =.95 genom att välja c = χ.95(9) = 3.33. y σ χ (9). Ur tabell hittar 3.33 Vi löser nu ut σ ur olikheten: c < 9 S σ < 9 S σ c och skattar S med stickprovsvariansen s =.8 och erhåller då intervallet I σ = (, 5.6). Vi kan utifrån detta även skatta ett konfidensintervall för standardavvikelsen enligt I σ = (,.37). Eftersom I σ kan vi inte säga att σ = är orimligt. Däremot kan vi säga att σ =.5 är orimligt (vilket vi inte kunde göra i föregående eempel!). 9 Prediktionsintervall Vi har hittat konfidensintervall för både väntevärde och varians (och därigenom skattat intervall för standardavvikelsen), men kan man säga något om vart en enskild observation hamnar? Det är ju en stokastisk variabel, så det måste gå. Det vanliga är följande manöver. Låt X, X,..., X n vara ett slumpmässigt stickprov från N(µ, σ ). Vi vill stänga in en enskild observation av en variabel X (som antags vara oberoende) från denna fördelning. Givetvis vill vi utnyttja stickprovet, så vi betraktar variabeln X X som är normalfördelad med E(X X) = och V (X X) = σ + σ n. 8

Alltså kommer T = X X S + n t(n ), eftersom S fortfarande är χ (n )-fördelad. Vi kan på samma sätt som tidigare stänga in denna variabel med sannolikhet α, y t α/ (n ) t α/ (n ) och sedan lösa ut X : t α/ (n ) < X X < t α/ (n ) S + n X t α/ (n ) S + n < X < X + t α/ (n ) S + n. Vi ersätter nu X med det observerade medelvärdet och S med stickprovsstandardavvikelsen s och får då intervallet ( I X = t α/ (n ) s + ) n, + t α/(n ) s +. n Se upp med om en fråga ställs angående konfidensintervall för väntevärde eller ett prediktionsintervall. Det är helt olika frågor! Svarar du med ett konfidensintervall för väntevärdet när det efterfrågas ett prediktionsintervall blir det noll poäng. Om vi jämför intervallen för väntevärde respektive predikterat värde ser vi att vi alltid har I Xo I µ med den metod vi använt ovan (och aldrig likhet). Bonus: Gammafunktionen För z C med Re z > är integralen Γ(z) = 9 z e d

absolutkonvergent. Detta är ett sätt att definiera gammafunktionen på. Funktionen ovan går även att analytiskt utvidga till Re z förutom för negativa heltal. Ifrån definitionen ovan kan vi medelst partialintegration erhålla att Γ(z + ) = z e d = [ z e ] ˆ + z z e d = zγ(z). Eftersom Γ() = visar denna likhet att Γ(n) = (n )! för alla positiva heltal. Gamma-funktionen utvidgar således fakultetet till alla komplea z förutom negativa heltal. Kopplingen till normaliseringen av χ -fördelningen är ganska naturlig. Vi ser att om X χ (k) så är f X () d = k/ e / d k/ Γ(k/) / / u = / = variabelbyte: = d = du = Γ(k/) =. Γ(k/) k/ Γ(k/) k/ u k/ e u du Även identiteten Γ(z + ) = z Γ(z) är det vi använde när vi beräknade E(X) och V (X) (gå tillbaka och studera partialintegrationen!). För att identifera Γ(n+/) kan vi till eempel göra variabelbytet u = och partialintegrera n gånger: Γ(n + /) = n+/ e d = u n e u du = u n (ue u ) du = [u n e u] + (n ) u n 3 (ue u ) du ( = (n ) [u n 3 e u] + n 3 ) u n 5 (ue u ) du ( (n )(n 3) = [u n 5 e u] + n 5 ) u n 7 (ue u ) du ˆ (n )(n 3) (n (n )) = = u n n e u du n (n )(n 3) (n (n )) π = n = (n)! π, 4 n n! π där vi i sista steget använde den välkända identiteten e u du =. Det finns mer eleganta sätt att ta fram identiteten för Γ(n + /) genom eempelvis Eulers reflektionsformel: Γ( z)γ(z) = π sin(πz), z Z, men den likheten är lite mer komplicerad att bevisa, så vi nöjer oss med ovanstående.