MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Relevanta dokument
MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Grundläggande matematisk statistik

Föreläsning 2: Punktskattningar

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Introduktion till statistik för statsvetare

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

F10 ESTIMATION (NCT )

θx θ 1 om 0 x 1 f(x) = 0 annars

4.2.3 Normalfördelningen

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

1. Test av anpassning.

TMS136: Dataanalys och statistik Tentamen med lösningar

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

a) Beräkna E (W ). (2 p)

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Formelblad Sannolikhetsteori 1

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

Datorövning 2 Fördelningar inom säkerhetsanalys

S0005M V18, Föreläsning 10

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

Föreläsning G04: Surveymetodik

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Statistik för bioteknik SF1911 // KTH Matematisk statistik // Formler och tabeller. 1 Numeriska sammanfattningar (statistikor)

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

Tentamen i Sannolikhetsteori III 13 januari 2000

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

P (A) = k A P (A ) = 1 P (A) P (A B) P (B) P (M i ) = 1 P (A) P (X = k) = p X (k) p X (k) = 1 P (A B) p X (k)

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR CDEFI, NANO OCH PI, MAS233, 2004 FMS 012, FMS 022, FMS 121 OCH MAS233

Matematisk statistik TMS063 Tentamen

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

SAMMANFATTNING TAMS65

2. Konfidensintervall för skillnaden mellan två proportioner.

Datorövning 2 Fördelningar inom säkerhetsanalys

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Avd. Matematisk statistik

Föreläsning G70 Statistik A

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

F12 Stickprovsteori, forts

Id: statistik.tex :48:29Z joa

F6 Uppskattning. Statistikens grunder 2 dagtid. Beteckningar, symboler, notation. Grekiskt-romerskt

Matematisk statistik

b 1 och har för olika värden på den reella konstanten a.

Borel-Cantellis sats och stora talens lag

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

Laboration 5: Konfidensintervall viktiga statistiska fördelningar

STATISTIK FÖR LÄKARSTUDENTER

Tentamentsskrivning: Tillämpad Statistik 1MS026 1

MS-A0409 Grundkurs i diskret matematik I

Lösningsförslag

Tentamen i Matematisk statistik för V2 den 28 maj 2010

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 3.5hp

E ( X ) = (här ska ni skriva en viss bokstav! Vilken? Varför)

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

Tentamen i matematisk statistik

================================================

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

101. och sista termen 1

TENTAMEN I MATEMATISK STATISTIK

. Mängden av alla möjliga tillstånd E k kallas tillståndsrummet.

Sannolikhetslära statistisk inferens F10 ESTIMATION (NCT )

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

Transkript:

MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, del II G. Gripeberg Aalto-uiversitetet 13 februari 015 G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 1 / 39 1 Stickprov Två yttiga fördeligar Estimerig 3 Kofidesitervall 4 Hypotesprövig 5 Korrelatio och regressio G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II / 39

Stickprov Målsättige är att få iformatio om slumpvariabel X. För att få iformatio gör ma tex. mätigar som ger resultate x 1, x,..., x och ma täker att x j är värdet av e slumpvariabel X j. Slumpvariablera X 1,..., X är ett stickprov med storleke och x 1, x,..., x är ett observerat stickprov med storleke. Vi atar (valige och uta att säga det explicit) att X 1, X,..., X är oberoede och har samma fördelig, som är fördelige av de slumpvariabel vi är itresserade av. Mätskalor Nomialskala: Olika grupper uta aturlig ordig. Ordialskala: Olika grupper med e aturlig ordig. Itervallskala: Numeriska värde, skillader meigsfulla, olla godtycklig. Kvotskala: Numeriska värde, aturligt ollvärde. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 3 / 39 Obs! Atagadet att slumpvariablera X j i ett stickprov är oberoede förutsätter att vi aväder dragig med återläggig, me detta villkor uppfylls sälla! Det fis dessutom måga adra större svårigheter är ma i praktike skall ta ett stickprov och detta är ett viktigt problem som ite behadlas här! Fördelige av de observerade värdea och hur de beskrivs Av de observerade värdea x 1, x,..., x i ett stickprov ka ma bilda e diskret saolikhetsfördelig, e sk. empirisk fördelig så att Pr(H = x) = 1 { j : x j = x } (som alltså är e jäm diskret fördelig om värdea är olika). Ma ka beskriva dehär fördelige med vätevärdet, variase, mediae, adra kvatiler mm. me också med stapeldiagram eller histogram beroede på situatioe. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 4 / 39

Stapeldiagram Om mätskala är e omial- eller ordialskala och/eller de ursprugliga slumpvariabel är diskret så ka det observerade stickprovet x 1, x,..., x beskrivas med ett stapeldiagram där höjde av varje stapel y k är de observerade frekvese f k = { j : x j = y k } och alla staplar har samma bredd. 4 3 1 y 1 y y 3 y 4 Histogram Om slumpvariabel är kotiuerlig 3 och mätskala är e itervall- eller kvotskala så ka det observerade stickprovet x 1, x,..., x beskrivas med ett histogram, 1 dvs. klassidelade frekveser så att ma väljer klassgräser a 0 < a 1 <... < a m, räkar frekvesera f k = { j : a k 1 < x j a k } och 0.5.5 3.5 4.5 ritar dessa som rektaglar vars ytor är proportioella mot frekvesera. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 5 / 39 Aritmetiskt medelvärde Om X j, j = 1,..., är ett stickprov av slumpvariabel X så är dess (aritmetiska) medelvärde X = 1 X j och E(X ) = E(X ) och Var(X ) = 1 Var(X ). eftersom vätevärdet är lijärt, variase av e summa av oberoede slumpvariabler är summa av variasera och Var(cX ) = c Var(X ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 6 / 39

Stickprovsvarias Om X j, j = 1,..., är ett stickprov av slumpvariabel X så är dess stickprovsvarias S = 1 (X j X ) 1 och E(S ) = Var(X ), så att stickprovsvariase är e vätevärdesriktig estimator av variase vilket är motiverige för valet av 1 istället för i ämare. Obs Om x 1, x,..., x är observerade värde i ett stickprov av slumpvariabel X så är deras medeltal x = 1 x j och (observerade) stickprovsvarias s = 1 1 (x j x). Om ma i Matlab/Octave har observatioera i vektor x så räkar ma medelvärdet med kommadot mea(x) och stickprovsvariase med kommadot var(x). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 7 / 39 χ -fördelige Ifall X j N(0, 1), j = 1,,..., m, är oberoede och m C = i=1 så säger vi att C är χ -fördelad med m frihetsgrader eller C χ (m). Då är E(C) = m och Var(C) = m, X i och C har täthetsfuktioe och f C (t) = 0 då t < 0. f C (t) = 1 m ( ) t m 1 e t, t 0. Γ m Stickprovsvarias för ormalfördelige Om X j, j = 1,,..., är ett stickprov av e N(µ, σ ) fördelad slumpvariabel så gäller för stickprovsvariase 1 σ S χ ( 1). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 8 / 39

t-fördelige Ifall Z N(0, 1) och C χ (m) är oberoede och W = Z 1 m C så säger vi att W är t-fördelad med m frihetsgrader eller W t(m). Då är E(W ) = 0 om m > 1 och Var(W ) = m m ( ) f W (t) = 1 Γ m+1 ( ) mπ Γ m om m > och W har täthetsfuktioe ( 1 + t m ) m+1, t R. Stickprov av ormalfördelige Om X j, j = 1,,..., är ett stickprov av e N(µ, σ )-fördelad slumpvariabel så är X µ 1 S t( 1). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 9 / 39 Puktestimat och estimator Atag att vi vet (eller tror) att X är e slumpvariabel med frekves- eller täthetsfuktio f (x, θ) där parameter θ (som också ka vara e vektor) är okäd. Vad ka vi göra för att estimera eller skatta θ? Vi tar ett observerat stickprov x j, j = 1,..., av X. Vi räkar ut ett estimat ˆθ = g(x 1, x,..., x ) där g är ågo fuktio. Observera att ˆθ är ett tal eller e vektor me om vi byter ut tale x j mot motsvarade slumpvariabler X j så får vi slumpvariable ˆΘ = g(x 1, X,..., X ). Iblad är det fuktioe g som avses med ordet estimator och iblad slumpvariabel ˆΘ. Itervallestimat Istället för att bara räka ut ett tal (eller e vektor) som estimat för e parameter ka ma också räka ut ett itervall. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 10 / 39

Mometmetode Om frekves- eller täthetsfuktioe f (x, θ) för e saolikhetsfördelig är såda att θ ka skrivas som e fuktio av E(X ), dvs. θ = h(e(x )) så är mometestimator av θ ˆΘ = h 1 X j. Om parameter, eller parametrara ka skrivas som e fuktio h(e(x ), E(X )) blir estimator på motsvarade sätt ( ˆΘ = h 1 X j, 1 ) Xj. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 11 / 39 Maximum likelihood - metode Om f (x, θ) är e frekves- eller täthetsfuktio för e saolikhetsfördelig så är Maximum likelihood -estimatet av θ talet θ sådat att L( θ, x 1, x,..., x ) = max L(θ, x 1, x, x ), θ där L(θ, x 1, x, x ) = f (x 1, θ) f (x, θ)... f (x, θ) är de sk. likelihood -fuktioe och x j, j = 1,..., är ett observerat stickprov av e slumpvariabel med frekves- eller täthetsfuktioe f (x, θ). I det diskreta fallet är L(θ, x 1, x, x ) saolikhete för att ma då parameter är θ får det observerade stickprovet x j, j = 1,...,. I fallet med täthetsfuktio är (h) L(θ, x 1,..., x ) för små positiva h ugefär saolikhete att få ett observerat stickprov y j, j = 1,..., så att y j x j < h för alla j. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 1 / 39

Kofidesitervall Ett kofidesitervall med kofidesgrade 1 för e parameter θ i e saolikhetsfördelig är e itervallestimator I (X 1, X,..., X ) = [a(x 1, X,..., X ), b(x 1, X,..., X )] så att Pr ( θ I (X 1, X,..., X ) ) = 1. Oftast aväds också ordet kofidesitervall för itervallet I (x 1, x,..., x ), dvs. värdet av slumpvariabel är ma fått ett observerat stickprov x j, j = 1,...,. Obs! Valige väljer ma kofidesitervallet symmetriskt så att Pr(θ < a(x 1, X,..., X )) = Pr(θ > b(x 1, X,..., X )) = 1. Oftast får ma öja sig med att villkore för kofidesitervallet gäller edast approximativt. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 13 / 39 Kofidesitervall för vätevärdet då X N(µ, σ ) Om X 1, X,..., X är ett stickprov med medelvärde X och stickprovsvarias S av e N(µ, σ )-fördelad slumpvariabel så är [ X F 1 ( ) t( 1) 1 S, X + F 1 ( ) ] t( 1) 1 S, ett kofidesitervall för µ med kofidesgrade 1. Varför? Ifall W är e t( 1)-fördelad slumpvariabel och t = F 1 ( ) ( t( 1) 1 = F 1 ) t( 1) så är Pr( t u W = X µ S edast om X t W så är t S t ) = 1. Om W t µ X + t om och S. t 1 t G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 14 / 39

Kofidesitervall för p då X Beroulli(p) Om X 1, X,..., X är ett stickprov med medelvärde X av e Beroulli(p)-fördelad slumpvariabel så är X F 1 N(0,1) ( ) 1 X (1 X ), X + F 1 N(0,1) ( ) 1 X (1 X ) ett approximativt kofidesitervall för µ med kofidesgrade 1. Varför? Om Z är approximativt N(0, 1)-fördelad och z = F 1 N(0,1) Pr( z 1 Z z ) 1. Nu är X p p(1 p) ämare med estimator X och om Z = precis då X z X (1 X ) p X + z ( 1 ) så är a N(0, 1) me p ersätts i X p X (1 X ) X (1 X ). så är z 1 Z z G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 15 / 39 Obs! Ofta aväds beteckige t = t,m = F 1 1 t(m) () = Ft(m) (1 ), vilket alltså betyder att om X är e t(m)-fördelad slumpvariabel så är Pr(X t ) = Pr(X t ) = och Pr( X t ) =. Motsvarade beteckig för ormalfördelige N(0, 1) är z så att om Z N(0, 1) så är Pr(Z z ) = Pr(Z z ) = och Pr( Z z ) =. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 16 / 39

Kofidesitervall för σ då X N(µ, σ ) Om X 1, X,..., X är ett stickprov med stickprovsvarias S av e N(µ, σ ) fördelad slumpvariabel så är [ ] ( 1)S ( 1)S F 1 ( ), χ ( 1) 1 F 1 ( ) χ ( 1) ett kofidesitervall för σ med kofidesgrade 1. Varför? Om C är e χ ( 1) fördelad slumpvariabel så gäller Pr(C < F 1 χ ( 1) ( )) = och Pr(C > F 1 χ ( 1) (1 )) =. Om u 1 F 1 χ ( 1) ( ) F 1 χ ( 1) (1 ) C = ( 1)S så är σ < ( 1)S 1 då C > F σ F 1 χ (1 ) χ ( 1) (1 ) och ( 1) σ > ( 1)S 1 då C < F F 1 χ ( ) χ ( 1) ( ) så att saolikhete för båda ( 1) hädelsera är. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 17 / 39 Hypotesprövig Vi udersöker om det fis skäl att förkasta e hypotes H 0, de sk. ollhypotese, för att de resultat vi fått är mycket osaolika om ollhypotese gäller eller om allt bara beror på slumpe. Nollhypotese är valige ett motpåståede eller atites som vi behöver argumet för att förkasta. För att kua göra ågra beräkigar måste ma som ollhypotes välja ett tillräckligt etydigt påståede, tex. θ = θ 0 och ite θ θ 0 som är för diffust. Oftast räcker det om ollhypotese har ett etydigt extremfall, tex. θ θ 0. I ollhypotese igår oftast måga adra atagade om fördeligar, oberoede osv. som ka ha stor betydelse för resultatet me som ma ite ödvädigtvis försöker förkasta. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 18 / 39

Hypotesprövig, forts. När ma tagit ett stickprov räkar vi ut värdet på e testvariabel som vi valt så att om ollhypotese gäller så har testvariabel (åtmistoe approximativt) ågo stadardfördelig som vi käer väl till. Med stöd av ollhypotese räkar ma ut saolikhete, det sk. p-värdet, för att testvariabel får ett mist lika extremt värde i förhållade till ollhypotese som det observerade stickprovet gav. Om p-värdet är midre ä e give sigifikasivå förkastar ma ollhypotese. Sigifikasivå är alltså saolikhete (ofta ett ärmevärde och om ollhypotese iehåller olikheter, e övre gräs) för att ma förkastar ollhypotese trots att de gäller. För att beräka saolikhete att ma ite förkastar ollhypotese fastä de ite gäller behövs specifika tilläggsatagade vilket gör dea fråga svårare att behadla. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 19 / 39 Normalfördelad slumpvariabel, testig av vätevärdet Ifall X j, j = 1,,..., är ett stickprov av slumpvariabel X som är N(µ, σ )-fördelad och ollhypotese är µ = µ 0 (eller µ µ 0 eller µ µ 0 ) så väljer vi som testvariabel X µ 0 S t( 1), där X är medelvärdet och S stickprovsvariase. Obs! Det är e följd av atagadet om ormalfördelig att här ite aväds approximatioer så det är ite ödvädigtvis ett problem om stickprovsstorleke är lite. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 0 / 39

Testig av adel eller saolikhet med ormalapproximatio Ifall X j, j = 1,,..., är ett stickprov av e Beroulli(p)-fördelad slumpvariabel och ollhypotese är p = p 0 (eller p p 0 eller p p 0 ) så ka vi som testvariabel välja X p 0 p 0 (1 p 0 ) a N(0, 1). Vi ka lika väl räka summa Y = X j av stickprovet som är Bi(, p)-fördelad och testvariabel (som ite ädras) ka vi skriva i forme Y p 0 p0 (1 p 0 ) a N(0, 1). Obs! I dethär fallet aväder vi e approximativ fördelig och som e tumregel ka ma aväda att approximatioe är tillräckligt bra om mi(p 0, (1 p 0 )) 10. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 1 / 39 p-värde, kritiskt område, t(m)- eller N(0, 1)-testvariabel Vi atar att testvariabel U är t(m)- eller (approximativt) N(0, 1)-fördelad så att dess fördeligsfuktio är F U och att de i testet får värdet u. Om alterativet till ollhypotese är tvåsidigt, dvs. ollhypotese är µ = µ 0, p = p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller: p-värdet är Pr(U u eller U u ) = F U ( u ). Nollhypotese förkastas på sigifikasivå ifall p < dvs. om testvariabels värde ligger i det kritiska området (, u ) (u, ) där u = F 1 U ( ) = F 1 U (1 ). u u G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II / 39

p-värde, kritiskt område, t(m)- eller N(0, 1)-testvariabel, forts. Om alterativet till ollhypotese är esidigt, och ollhypotese är µ µ 0, p p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller p-värdet är Pr(U u ) = 1 F U (u ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariables värde ligger i det kritiska området (u, ) där u = F 1 1 U () = FU (1 ). u G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 3 / 39 p-värde, kritiskt område, t(m)- eller N(0, 1)-testvariabel, forts. Om alterativet till ollhypotese är esidigt, och ollhypotese är µ µ 0, p p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller p-värdet är Pr(U u ) = F U (u ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabels värde ligger i det kritiska området (, u ) där u = F 1 1 U () = FU (1 ). u G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 4 / 39

Testig av två vätevärde, ormalfördelig, samma varias Om X j, j = 1,,..., x och Y j, j = 1,,..., y är (oberoede) stickprov av slumpvariablera X och Y där X N(µ x, σ ) och Y N(µ y, σ ) och ollhypotese är µ x = µ y (eller µ x µ y eller µ x µ y ) så väljer vi som testvariabel Varför X Y (x 1)S x +( y 1)S y x + y ( 1 x + 1 y ) (x 1)S x +( y 1)S y x + y ( 1 x + 1 y ) t( x + y ). Eftersom X j N(µ x, σ ) och Y j N(µ y, σ ) så gäller ( x 1)S x χ ( σ x 1) och ( y 1)Sy χ ( σ y 1) och eftersom X - och Y -slumpvariablera och därmed Sx och Sy är oberoede så är 1 (( σ x 1)Sx + ( y 1)Sy ) χ ( x 1 + y 1). Testvariabel ka Z alltså skrivas i forme där Z = X Y N(0, 1), 1 m C σ ( 1 x + 1 ) y m = x + y och C = 1 (( σ x 1)Sx + ( y 1)Sy ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 5 / 39 Testig av två adelar eller saolikheter Om X j, j = 1,,..., x och Y j, j = 1,..., y är två (oberoede) stickprov av slumpvariablera X och Y där X Beroulli(p x ) och Y Beroulli(p y ) och ollhypotese är p x = p y (eller p x p y eller p x p y ) så väljer vi som testvariabel X Y P(1 P)( 1 x + 1 y ) a N(0, 1) där P = xx + y Y x + y. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 6 / 39

Apassig eller Goodess-of-fit Om X j, j = 1,..., är ett stickprov av slumpvariabel X vars värdemägd är m k=1 A k där mägdera A k är disjukta och ollhypotese är H 0 : Pr(X A k ) = p k, k = 1,..., m så väljer vi som testvariabel m k=1 (O k p k ) p k a χ (m 1), där O k är atalet elemet i mägde { j : X j A k }. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 7 / 39 Test av variase, ormalfördelig Om X j, j = 1,,..., är ett stickprov av slumpvariabel X som är N(µ, σ )-fördelad och ollhypotese är σ = σ0 (eller σ σ0 eller σ σ0 ) så väljer vi som testvariabel ( 1)S σ 0 χ ( 1), där S är stickprovsvariase. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 8 / 39

p-värde, kritiskt område, χ -testvariabel Vi atar att testvariabel C är (approximativt) χ (k)-fördelad och att de i testet får värdet c. Om alterativet till ollhypotese är esidigt och små värde av testvariabel är föreliga med ollhypotese så gäller: p-värdet är Pr(C c ) = 1 F χ (k)(c ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området (F 1 χ (k) (1 ), ). Om alterativet till ollhypotese är esidigt och stora värde av testvariabel är föreeliga med ollhypotese så gäller p-värdet är Pr(C c ) = F χ (k)(c ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området (0, F 1 χ (k) ()). Om alterativet till ollhypotese är tvåsidigt så gäller p-värdet är mi(f χ (k)(c ), 1 F χ (k)(c )). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området (0, F 1 χ (k) ( )) (F 1 χ (k) (1 ), ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 9 / 39 Korrelatio Korrelatioe eller korrelatioskoefficiete mella slumpvariablera X och Y är Cov(X, Y ) ρ XY = Cor(X, Y ) = = E( (X E(X ))(Y E(Y )) ), Var(X )Var(Y ) Var(X )Var(Y ) och om (X j, Y j ), j = 1,..., är ett stickprov av slumpvariabel (X, Y ) så är stickprovskorrelatioskoefficiete R XY = (X j X )(Y j Y ) S xy (X j X ) =, (Y j Y ) Sx Sy där och S x = 1 1 S xy = 1 1 (X j X )(Y j Y ), (X j X ), S y = 1 1 (Y j Y ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 30 / 39

Stickprovskorrelatioskoefficietes fördelig Ifall (X j, Y j ), i = 1,..., är ett stickprov av e slumpvariabel (X, Y ) där X och Y är oberoede, så att ρ xy = 0, och de ea av slumpvariablera är ormalfördelad och de adra är kotiuerlig så gäller R XY t( ). 1 RXY Ifall (X j, Y j ), i = 1,..., är ett stickprov av e ormalfördelad slumpvariabel (X, Y ) med 1 < ρ xy < 1 (och σx > 0 och σ y > 0) så gäller ( ) ( ( ) 1 1 + l RXY 1 1 + a N 1 R l ρxy, XY 1 ρ XY ) 1 3 G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 31 / 39 Mista-kvadrat-metode då y b 0 + b 1 x Om ma atar att sambadet mella x och y är y b 0 + b 1 x, puktera (x j, y j ), j = 1,..., är giva och ma bestämmer b 0 och b 1 så att (y j b 0 b 1 x j ) är så lite som möjligt så blir svaret b 1 = (x j x)(y j y) (x j x) = s xy s x och b 0 = y b 1 x, där x = 1 x j och y = 1 y j. Varför? Vi ka skriva kvadratsumma (y j b 0 b 1 x j ) i forme f ( b 0, b 1 ) = (, (y j y) b 0 b 1 (x j x)) och villkoret att de partiella derivata med avseede på b 0 är 0 ger b 0 = 0, dvs. b 0 = 0 och villkoret att de partiella derivata med avseede på b 1 är 0 ger ( b1 (x j x) (y j y) ) (x j x) = 0 och dea ekvatio ger uttrycket för b 1. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 3 / 39

Obs I räkigara ova förekommer iga slumpvariabler me vi ka bra täka oss att sambadet mella variabler x och y är y = β 0 + β 1 x me då ma mäter värdea av y-variabel så förekommer det slumpmässiga fel som leder till att de uppmätta värdea blir y j = β 0 + β 1 x j + ε j, j = 1,..., där ε j är slumpvariabler. Det faktum att ma miimerar (y j b 0 b 1 x j ) (och ite ågot aat uttryck) är föruftigt om ma atar att det ite förekommer ågra fel i x j -värdea och att alla avvikelser frå e rät lije beror på felaktiga y j -värde. Att ma seda miimerar e kvadratsumma och ite tex. absolutbelopp är föruftigt om ma atar att slumpvariablera ε j är ormalfördelade. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 33 / 39 Regressio Vi atar att slumpvariabel Y förutom på slumpe beror på variabel x så att Y = β 0 + β 1 x + ε där ε är e slumpvariabel som vi atar att är oberoede av x. Ett stickprov av Y är därför av type (x j, Y j ), j = 1,..., där ε j = Y j β 0 β 1 x j är oberoede slumpvariabler med samma fördelig, som vi valige atar vara N(0, σ ). Med mista kvadratmetode (som är föruftig precis då ε N(0, σ )) får vi följade estimatorer för β 1, β 0 och σ : B 1 = S xy sx, B 0 = Y B 1 x, S = 1 (Y j B 0 B 1 x j ), där S xy = 1 1 (x j x)(y j Y ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 34 / 39

Regressio, testvariabler Atag att ε j N(0, σ ), j = 1,..., är oberoede och Y j = β 0 + β 1 x j + ε j, j = 1,...,. Då är ( 1 B 0 N (β 0, σ + x )) ( 1)sx, ( σ ) B 1 N β 1, ( 1)sx, ( )S σ χ ( ). Som testvariabler ka vi aväda W 0 = B 0 β 0 S ( 1 + x ( 1)s x ) t( ), W 1 = B 1 β 1 S t( ). ( 1)s x G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 35 / 39 Ett sambad mella estimatorera Av defiitioera ova följer också att S = 1 S y (1 R xy), Sx R xy = B 1 Sy, och B 1 S = R xy. 1 Rxy ( 1)S x Det seare resultatet visar att test av ollhypotesera β 1 = 0 och ρ xy = 0 ger samma resulat (då ma atar ormalfördelig). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 36 / 39

Betigade fördeligar av ormalfördeligar, förklarigsgrad Om (X, Y ) är ormalfördelad så är ( ) σ (Y X = x) N µ Y + ρ Y XY σ X (x µ X ), (1 ρ XY )σ Y, dvs. där E(Y X = x) = µ Y + ρ XY σ Y σ X (x µ X ) = β 0 + β 1 x, σ Y β 1 = ρ XY = σ XY σ X σx, β 0 = µ Y β 1 µ X. Med mista kvadratmetode får vi estimat för parametrara β 0 och β 1 som är s y b 1 = r xy = s xy s x sx, b 0 = y b 1 x. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 37 / 39 Betigade fördeligar av ormalfördeligar, förklarigsgrad, forts. Om (X, Y ) är ormalfördelad och X = x så ka vi alltså skriva där Y = β 0 + β 1 x + ε ε N(0, (1 ρ XY )σ Y ). Här är alltså restvariase (1 ρ XY )σ Y de del av variase av Y som ite ka förklaras med beroedet på X och de del av variase av Y som ka förklaras med beroedet på X är ρ XY σ Y σ Y = ρ XY. Aalogt med detta säger vi att talet r xy, som är ett estimat av ρ XY är regressiosmodelles Y j = b 0 + b 1 x j förklarigsgrad. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 38 / 39

Iterpolerig och extrapolerig Om ma har gjort mätigar av ågot slag och fått resultate (x j, y j ), j = 1,..., så vill ma ofta veta vilket värde y skulle få om x = x 0. Ett sätt att räka ut ett rimligt svar är att ata att y b 0 + b 1 x, bestämma b 0 och b 1 och seda räka ut b 0 + b 1 x 0. Ett ekelt sätt att förutom att göra dea räkig också få e uppfattig om hur stort felet ka bli är att ersätta värdea x j, j = 1,..., med x j = x j x 0 och seda i ormal ordig räka ut estimat och göra hypotesprövigar för β 0 i regressiosmodelle Y = β 0 + β 1 x + ε. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 39 / 39