MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

Relevanta dokument
MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

Föreläsning 2: Punktskattningar

Grundläggande matematisk statistik

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Formelblad Sannolikhetsteori 1

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

a) Beräkna E (W ). (2 p)

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

1. Test av anpassning.

TMS136: Dataanalys och statistik Tentamen med lösningar

θx θ 1 om 0 x 1 f(x) = 0 annars

4.2.3 Normalfördelningen

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

F10 ESTIMATION (NCT )

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

Föreläsning G04: Surveymetodik

Datorövning 2 Fördelningar inom säkerhetsanalys

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Introduktion till statistik för statsvetare

Matematisk statistik TMS063 Tentamen

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

2. Konfidensintervall för skillnaden mellan två proportioner.

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

P (A) = k A P (A ) = 1 P (A) P (A B) P (B) P (M i ) = 1 P (A) P (X = k) = p X (k) p X (k) = 1 P (A B) p X (k)

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

S0005M V18, Föreläsning 10

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

Statistik för bioteknik SF1911 // KTH Matematisk statistik // Formler och tabeller. 1 Numeriska sammanfattningar (statistikor)

Avd. Matematisk statistik

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Datorövning 2 Fördelningar inom säkerhetsanalys

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Borel-Cantellis sats och stora talens lag

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Id: statistik.tex :48:29Z joa

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR CDEFI, NANO OCH PI, MAS233, 2004 FMS 012, FMS 022, FMS 121 OCH MAS233

F6 Uppskattning. Statistikens grunder 2 dagtid. Beteckningar, symboler, notation. Grekiskt-romerskt

Föreläsning G70 Statistik A

Tentamen i Matematisk statistik för V2 den 28 maj 2010

SAMMANFATTNING TAMS65

Tentamen i Sannolikhetsteori III 13 januari 2000

F12 Stickprovsteori, forts

b 1 och har för olika värden på den reella konstanten a.

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 3.5hp

Tentamentsskrivning: Tillämpad Statistik 1MS026 1

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Matematisk statistik

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

Lösningsförslag

STATISTIK FÖR LÄKARSTUDENTER

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

101. och sista termen 1

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

E ( X ) = (här ska ni skriva en viss bokstav! Vilken? Varför)

MS-A0409 Grundkurs i diskret matematik I

================================================

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

TENTAMEN I MATEMATISK STATISTIK

F4 Enkel linjär regression.

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

Genomsnittligt sökdjup i binära sökträd

Tentamen i matematisk statistik

Laboration 5: Konfidensintervall viktiga statistiska fördelningar

Transkript:

MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig och exempel, del II Stickprov Två yttiga fördeligar Estimerig G. Gripeberg 3 Kofidesitervall Aalto-uiversitetet 3 februari 05 4 Hypotesprövig 5 Korrelatio och regressio G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, / del 78 II Stickprov Målsättige är att få iformatio om slumpvariabel X. För att få iformatio gör ma tex. mätigar som ger resultate x, x,..., x och ma täker att x j är värdet av e slumpvariabel X j. Slumpvariablera X, X,..., X är ett stickprov med storleke och x, x,..., x är ett observerat stickprov med storleke. Vi atar valige och uta att säga det explicit att X, X,..., X är oberoede och har samma fördelig, som är fördelige av de slumpvariabel vi är itresserade av. Mätskalor Nomialskala: Olika grupper uta aturlig ordig. Ordialskala: Olika grupper med e aturlig ordig. Itervallskala: Numeriska värde, skillader meigsfulla, olla godtycklig. Kvotskala: Numeriska värde, aturligt ollvärde. Obs! Atagadet att slumpvariablera X j i ett stickprov är oberoede förutsätter att vi aväder dragig med återläggig, me detta villkor uppfylls sälla! Det fis dessutom måga adra större svårigheter är ma i praktike skall ta ett stickprov och detta är ett viktigt problem som ite behadlas här! Fördelige av de observerade värdea och hur de beskrivs Av de observerade värdea x, x,..., x i ett stickprov ka ma bilda e diskret saolikhetsfördelig, e sk. empirisk fördelig så att PrH = x = { j : x j = x } som alltså är e jäm diskret fördelig om värdea är olika. Ma ka beskriva dehär fördelige med vätevärdet, variase, mediae, adra kvatiler mm. me också med stapeldiagram eller histogram beroede på situatioe. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 3 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 4 / del 78 II

Stapeldiagram Om mätskala är e omial- eller ordialskala och/eller de ursprugliga slumpvariabel är diskret så ka det observerade stickprovet x, x,..., x beskrivas med ett stapeldiagram där höjde av varje stapel y k är de observerade frekvese f k = { j : x j = y k } och alla staplar har samma bredd. Histogram 4 3 y y y 3 y 4 Om slumpvariabel är kotiuerlig 3 och mätskala är e itervall- eller kvotskala så ka det observerade stickprovet x, x,..., x beskrivas med ett histogram, dvs. klassidelade frekveser så att ma väljer klassgräser a 0 < a <... < a m, räkar frekvesera f k = { j : a k < x j a k } och 0.5.5 3.5 4.5 ritar dessa som rektaglar vars ytor är proportioella mot frekvesera. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 5 / del 78 II Medelvärde Om X j, j =,..., är ett stickprov av slumpvariabel X så är dess aritmetiska medelvärde X = X j och EX = EX och VarX = VarX, eftersom vätevärdet är lijärt, variase av e summa av oberoede slumpvariabler är summa av variasera och VarcX = c VarX. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 6 / del 78 II Stickprovsvarias Om X j, j =,..., är ett stickprov av slumpvariabel X så är dess stickprovsvarias S = X j X och ES = VarX, så att stickprovsvariase är e vätevärdesriktig estimator av variase vilket är motiverige för valet av istället för i ämare. Obs Om x, x,..., x är observerade värde i ett stickprov av slumpvariabel X så är deras medeltal x = x j och observerade stickprovsvarias s = x j x. Om ma i Matlab/Octave har observatioera i vektor x så räkar ma medelvärdet med kommadot meax och stickprovsvariase med kommadot varx. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 7 / del 78 II χ -fördelige Ifall X j N0,, j =,,..., m, är oberoede och m C = i= så säger vi att C är χ -fördelad med m frihetsgrader eller C χ m. Då är EC = m och VarC = m, och C har täthetsfuktioe och f C t = 0 då t < 0. X i f C t = m t m e t, t 0. Γ m Stickprovsvarias för ormalfördelige Om X j, j =,,..., är ett stickprov av e Nµ, σ fördelad slumpvariabel så gäller för stickprovsvariase σ S χ. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 8 / del 78 II

t-fördelige Ifall Z N0, och C χ m är oberoede och W = Z m C så säger vi att W är t-fördelad med m frihetsgrader eller W tm. Då är EW = 0 om m > och VarW = m m f W t = Γ m+ mπ Γ m Stickprov av ormalfördelige om m > och W har täthetsfuktioe + t m m+, t R. Om X j, j =,,..., är ett stickprov av e Nµ, σ -fördelad slumpvariabel så är X µ S t. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 9 / del 78 II Puktestimat och estimator Atag att vi vet eller tror att X är e slumpvariabel med frekves- eller täthetsfuktio f x, θ där parameter θ som också ka vara e vektor är okäd. Vad ka vi göra för att estimera eller skatta θ? Vi tar ett observerat stickprov x j, j =,..., av X. Vi räkar ut ett estimat ˆθ = gx, x,..., x där g är ågo fuktio. Observera att ˆθ är ett tal eller e vektor me om vi byter ut tale x j mot motsvarade slumpvariabler X j så får vi slumpvariable ˆΘ = gx, X,..., X. Iblad är det fuktioe g som avses med ordet estimator och iblad slumpvariabel ˆΘ. Itervallestimat Istället för att bara räka ut ett tal eller e vektor som estimat för e parameter ka ma också räka ut ett itervall. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 0 / del 78 II Exempel: Mometmetode Av slumpvariable X har vi fått följade observatioer 0.46, 0.0, 0.9, 0.09, 0.46 och 0.6. Vi har skäl att tro att X är Expλ-fördelad me vi käer ite till parameter λ. Hur ka vi uppskatta, dvs. estimera λ? Eftersom vi vet att EX = λ så är det aturligt att räka medelvärdet av de observerade värdea och vi får x = 6 6 = 0.46 + 0.0 + 0.9 + 0.09 + 0.46 + 0.6 = 0.6, 6 och seda aväda detta tal istället för EX i formel EX = λ så att vi får estimatet ˆλ = 0.6 3.8. För expoetialfördelige ka vi alltså som estimator för parameter aväda. X Dehär estimator är ite vätevärdesriktig eftersom E > λ me då X växer ärmar de sig det riktiga värdet, dvs. lim Pr λ X j > ɛ = 0 för alla ɛ > 0. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, / del 78 II Mometmetode Om frekves- eller täthetsfuktioe f x, θ för e saolikhetsfördelig är såda att θ ka skrivas som e fuktio av EX, dvs. θ = hex så är mometestimator av θ ˆΘ = h X j. Om parameter, eller parametrara ka skrivas som e fuktio hex, EX blir estimator på motsvarade sätt ˆΘ = h X j, Xj. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, / del 78 II

Maximum likelihood - metode Om f x, θ är e frekves- eller täthetsfuktio för e saolikhetsfördelig så är Maximum likelihood -estimatet av θ talet θ sådat att L θ, x, x,..., x = max Lθ, x, x, x, θ där Lθ, x, x, x = f x, θ f x, θ... f x, θ är de sk. likelihood -fuktioe och x j, j =,..., är ett observerat stickprov av e slumpvariabel med frekves- eller täthetsfuktioe f x, θ. I det diskreta fallet är Lθ, x, x, x saolikhete för att ma då parameter är θ får det observerade stickprovet x j, j =,...,. I fallet med täthetsfuktio är h Lθ, x,..., x för små positiva h ugefär saolikhete att få ett observerat stickprov y j, j =,..., så att y j x j < h för alla j. Exempel: Maximum-likelihood metode mm Du aläder till e främmade stad och på flygfältet ser du tre taxibilar med umrora 57, 3 och 758. Hur måga taxibilar fis det i dehär stade? Vi atar att att det fis N taxibilar med umrora,,..., N och att saolikhete att e taxibil på flygfältet har ummer j är N för alla j =,,..., N. Om vi aväder mometmetode så skall vi räka vätevärdet av e slumpvariabel X som är jämt fördelad i mägde {,..., N} och det är EX = N i= i N = NN+ N = N+, så att N = EX. Seda räkar vi medelvärdet av observatioera x = 3 57 + 3 + 758 = 309.33 och som estimat får vi ˆN = 309.33 68 vilket är ett för litet atal. E aa möjlighet är att aväda maximum-likelihood metode: Om atalet taxibilar är N så är saolikhete N att vi ser bile med ummer 57. Samma saolikhet gäller för bilara med ummer 3 och 758, förutsatt att N 758 för aars är saolikhete 0 att vi ser e bil med ummer 758. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 3 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 4 / del 78 II Exempel: Maximum-likelihood metode mm, forts. Dethär betyder att LN = Pr Du ser umrora 57, 3 och 758 = N 3, N 758, 0, N < 758. I elighet med maximum-likelihood metode väljer vi estimatet ˆN så att likelihoodfuktioe LN får ett så stort värde som möjligt, dvs. i detta fall ˆN = 758. Motsvarade resultat gäller också mera allmät, dvs. om X, X,..., X k är ett stickprov av e slumpvariabel som är jämt fördelad i mägde {,,..., N} eller i det kotiuerliga fallet i itervallet [0, N] så är maximum-likelihood estimatet av N ˆN = maxx, X,..., X k. Detta är ite ett vätevärdesriktigt estimat för det är klart att E ˆN < N me vad är EmaxX, X,..., X k? G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 5 / del 78 II Exempel: Maximum-likelihood metode mm, forts. Nu är PrmaxX, X,..., X k m = PrX j m, j =,..., k = m N av vilket följer att PrmaxX, X,..., X k = m = m k N m k N och vätevärdet blir E maxx, X,..., X k N m k m k = m. N N E följd av detta är att m= k k + N < EmaxX, X,..., X k < k k + N +. Dethär betyder att e bättre estimator för N kude vara k + k maxx, X,..., X k, som är vätevärdesriktigt i det kotiuerliga fallet Ett bättre estimat för atalet taxibilar är alltså 4 3 758 0. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 6 / del 78 II k

Exempel: Kofidesitervall för parameter i expoetialfördelige Vi atar att vi har ett stickprov av e Expλ-fördelad slumpvariabel så att stickprovets storlek är 50 och medelvärdet är 0.8. Med mometmetode får vi då estimatet ˆλ = 0.8 =.5 för parameter λ me här gäller det att bestämma ett itervall så att om vi med måga olika stickprov med samma metod bestämmer ett itervall så kommer i stort sett tex. 95% av itervalle att vara sådaa att parameter hör till det itervall vi räkat ut med hjälp av de observerade värdea i det fallet. För detta behöver vi e slumpvariabel vars fördelig vi åtmistoe approximativt käer till, dvs. de iehåller iga okäda parametrar. Med stöd av de cetrala gräsvärdessatse aväder ma för dethär ofta ormalfördelige N0, och det gör vi u också. Vi strutar för e stud i de umeriska värdea och atar att vi har ett stickprov X, X,..., X 50 av e slumpvariabel X Expλ. Vätevärdet av medelvärdet X = 50 X j är då EX = EX = λ och variase VarX = 50 VarX = 50. λ G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 7 / del 78 II Exempel: Kofidesitervall för parameter i expoetialfördelige, forts. Om vi tror att = 50 är tillräckligt stort så är X λ 50λ a N0,. Ifall Z N0, så gäller Pr F N0, 0.05 Z FN0, 0.975 = Pr.96 Z.96 = 0.95, så att Nu är Pr.96 X λ.96 0.95. 50λ.96 X λ.96 50λ.96 50 X λ +.96 50, X G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 8 / del 78 II Exempel: Kofidesitervall för parameter i expoetialfördelige, forts. så att saolikhete att λ ligger mella slumpvariablera 0.7.8 och X X också är ugefär 0.95. Detta betyder att ett 95% approximativt kofidesitervall för parameter i expoetialfördelige då stickprovets storlek är 50 är [ 0.7 X,.8 ]. X I dethär fallet blir kofidesitervallet [0.9,.6]. För expoetialfördelige är det ite speciellt svårt att få fram olikheter för parameter, me om detta ite skulle ha varit fallet detta gäller tex. Beroulli-fördelige så skulle vi i uttrycket λ för variase ha kuat aväda estimator X för λ och då skulle kofidesitervallet ha blivit X +.96 X, X.96 = X 50 50 och dethär kofidesitervallet blir [0.97,.73] om x = 0.8. [ 0.78 X,.38 ], X G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 9 / del 78 II Kofidesitervall Ett kofidesitervall med kofidesgrade för e parameter θ i e saolikhetsfördelig är e itervallestimator I X, X,..., X = [ax, X,..., X, bx, X,..., X ] så att Pr θ I X, X,..., X =. Oftast aväds också ordet kofidesitervall för itervallet I x, x,..., x, dvs. värdet av slumpvariabel är ma fått ett observerat stickprov x j, j =,...,. Obs! Valige väljer ma kofidesitervallet symmetriskt så att Prθ < ax, X,..., X = Prθ > bx, X,..., X =. Oftast får ma öja sig med att villkore för kofidesitervallet gäller edast approximativt. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 0 / del 78 II

Kofidesitervall för vätevärdet då X Nµ, σ Om X, X,..., X är ett stickprov med medelvärde X och stickprovsvarias S av e Nµ, σ -fördelad slumpvariabel så är [ X F t S, X + F ] t S, ett kofidesitervall för µ med kofidesgrade. Kofidesitervall för p då X Beroullip Om X, X,..., X är ett stickprov med medelvärde X av e Beroullip-fördelad slumpvariabel så är X F N0, X X, X + F N0, X X ett approximativt kofidesitervall för µ med kofidesgrade. Varför? Ifall W är e t -fördelad slumpvariabel och t = F t = F t så är Pr t u W = X µ S edast om X t W så är t S t =. Om W t µ X + t om och S. t t Varför? Om Z är approximativt N0, -fördelad och z = F N0, Pr z Z z. Nu är X p p p ämare med estimator X och om Z = precis då X z X X p X + z så är a N0, me p ersätts i X p X X X X. så är z Z z G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, / del 78 II Obs! Ofta aväds beteckige t = t,m = F tm = Ftm, vilket alltså betyder att om X är e tm-fördelad slumpvariabel så är PrX t = PrX t = och Pr X t =. Motsvarade beteckig för ormalfördelige N0, är z så att om Z N0, så är PrZ z = PrZ z = och Pr Z z =. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 3 / del 78 II Kofidesitervall för σ då X Nµ, σ Om X, X,..., X är ett stickprov med stickprovsvarias S av e Nµ, σ fördelad slumpvariabel så är [ S F χ, ] S F χ ett kofidesitervall för σ med kofidesgrade. Varför? Om C är e χ fördelad slumpvariabel så gäller PrC < F χ = och PrC > F χ =. Om u F χ F χ C = S så är σ < S då C > F σ F χ χ och σ > S då C < F F χ χ så att saolikhete för båda hädelsera är. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 4 / del 78 II

Hypotesprövig Vi udersöker om det fis skäl att förkasta e hypotes H 0, de sk. ollhypotese, för att de resultat vi fått är mycket osaolika om ollhypotese gäller eller om allt bara beror på slumpe. Nollhypotese är valige ett motpåståede eller atites som vi behöver argumet för att förkasta. För att kua göra ågra beräkigar måste ma som ollhypotes välja ett tillräckligt etydigt påståede, tex. θ = θ 0 och ite θ θ 0 som är för diffust. Oftast räcker det om ollhypotese har ett etydigt extremfall, tex. θ θ 0. I ollhypotese igår oftast måga adra atagade om fördeligar, oberoede osv. som ka ha stor betydelse för resultatet me som ma ite ödvädigtvis försöker förkasta. Hypotesprövig, forts. När ma tagit ett stickprov räkar vi ut värdet på e testvariabel som vi valt så att om ollhypotese gäller så har testvariabel åtmistoe approximativt ågo stadardfördelig som vi käer väl till. Med stöd av ollhypotese räkar ma ut saolikhete, det sk. p-värdet, för att testvariabel får ett mist lika extremt värde i förhållade till ollhypotese som det observerade stickprovet gav. Om p-värdet är midre ä e give sigifikasivå förkastar ma ollhypotese. Sigifikasivå är alltså saolikhete ofta ett ärmevärde och om ollhypotese iehåller olikheter, e övre gräs för att ma förkastar ollhypotese trots att de gäller. För att beräka saolikhete att ma ite förkastar ollhypotese fastä de ite gäller behövs specifika tilläggsatagade vilket gör dea fråga svårare att behadla. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 5 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 6 / del 78 II Exempel: Hypotestestig Till e polikliik kommer i geomsitt 9 patieter i timme. E dag då det varit halt väglag kommer det 30 patieter uder timmar. Kommer det mera patieter på grud av det dåliga väglaget eller är det fråga om slumpmässiga variatioer? Om det kommer i geomsitt 9 patieter i timme så ka vi räka med att vätevärdet av atalet patieter uder timmar är 9 = 08 och vi ka som ollhypotes ta atitese till fråga om det kommit ovaligt måga patieter att vätevärdet av atalet patieter är högst 08. Dessutom gör vi också atagadet att atalet patieter uder timmar är Poissoλ-fördelat där alltså λ 08. För räkigara aväder vi ädå extremfallet λ = 08. Det är ige idé att räka bara saolikhete för att PrX = 30 om X är atalet patieter, me däremot skall vi räka saolikhete PrX 30. Om vi räkar med Poisso-fördeliges fördeligsfuktio får vi p = PrX 30 = PrX 9 = F Poisso08 9 = 0.0645. Exempel: Hypotestestig, forts. Om vi aväder ormalapproximatio så får vi p = PrX 30 = Pr = Pr X EX 30 EX VarX VarX X EX 30 08 X EX = Pr.7 0.073. VarX 08 VarX Geom att räka PrX 9 med ormalapproximatio kommar ma ärmare det exakta svaret. Slutsatse är i alla fall att ollhypotese ka förkastas på sigifikasivå 0.05 me ite på sigifikasivå 0.0. Om vi istället som ollhypotes tagit λ = 08, vilket skulle ha varit föruftigt om vi frågat om det varit e ovalig dag på polikliike, så borde vi också beakta möjlighete att det kommit väldigt få patieter och då skulle p-värdet ha blivit det dubbla vilket ite exakt är PrX 30 + PrX 86. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 7 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 8 / del 78 II

Testa vätevärde, ormalfördelig, exempel Var mars 04 e ovalig måad beträffade ederbörde? I mars 04 var ederbördsmägdera på vissa mätstatioer följade: 3 4 5 6 7 8 9 0 Nederbörd 33 7 30 8 8 4 3 34 Motsarade medeltal för åre 98 00 var 3 4 5 6 7 8 9 0 Medeltal 39 37 38 36 36 6 35 9 30 Nu är det föruftigt att räka hur mycket värdea för år 04 avviker frå medelvärdea och skilladera är följade: 3 4 5 6 7 8 9 0 Skillad -6-0 -8-4 -8-4 Testa vätevärde, ormalfördelig, exempel, forts. Eftersom fråga var om mars var e ovalig måad så väljer vi som ollhypotes att de ite var det. Vi ka ite som ollhypotes aväda atagadet att de var ovalig för det ger igetig som ka avädas i räkigar och här sägs igetig om på vilket sätt de evetuellt var ovalig. Nollhypotese blir därför att skillade mella ederbördsmägdera 04 och medelvärdea frå e lägre tid är Nµ, σ -fördelade med µ = 0 och att dehär skilladera på olika orter är oberoede. Medelvärdet av skilladera är 4.8 och stickprovsvariase är 4.733. Det betyder att testvariabel W = X 0 får värdet.3496. Eftersom W S 0 eligt ollhypotese har fördelige t0 så blir p-värdet p = Pr W 0.3496 0 = PrW.3496 eller W.3496 = F t9.3496 + F t9.3496 = F t9.3496 = 0.043333, så vi ka förkasta ollhypotese på sigifikasivå 0.05. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 9 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 30 / del 78 II Testa vätevärde, ormalfördelig, exempel, forts. Om fråga skulle ha varit om ederbördsmägde i mars 04 var ovaligt lite skulle vi som ollhypotes ha valt påståedet att de ite var det, dvs. att fördelige av skilladera är Nµ, σ där µ 0. Testvariabel skulle ha varit precis desamma me p-värdet skulle ha blivit p = PrW.3496 = F t9.3496 = 0.0667. Om fråga skulle ha varit om ederbördsmägde i mars 04 var ovaligt stor skulle vi som ollhypotes ha valt påståedet att de ite var det, dvs. att fördelige av skilladera är Nµ, σ där µ 0. Eftersom medelvärdet är egativt är resultate helt i elighet med de här ollhypotese så det fis iget skäl att förkasta de och vi behöver ite heller räka ut stickprovsvariase, det räcker att vi räkar medelvärdet. Normalfördelad slumpvariabel, testig av vätevärdet Ifall X j, j =,,..., är ett stickprov av slumpvariabel X som är Nµ, σ -fördelad och ollhypotese är µ = µ 0 eller µ µ 0 eller µ µ 0 så väljer vi som testvariabel X µ 0 S t, där X är medelvärdet och S stickprovsvariase. Obs! Det är e följd av atagadet om ormalfördelig att här ite aväds approximatioer så det är ite ödvädigtvis ett problem om stickprovsstorleke är lite. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 3 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 3 / del 78 II

Testig av adel eller saolikhet med ormalapproximatio Ifall X j, j =,,..., är ett stickprov av e Beroullip-fördelad slumpvariabel och ollhypotese är p = p 0 eller p p 0 eller p p 0 så ka vi som testvariabel välja X p 0 p 0 p 0 a N0,. Vi ka lika väl räka summa Y = X j av stickprovet som är Bi, p-fördelad och testvariabel som ite ädras ka vi skriva i forme Y p 0 p0 p 0 a N0,. Obs! I dethär fallet aväder vi e approximativ fördelig och som e tumregel ka ma aväda att approximatioe är tillräckligt bra om mip 0, p 0 0. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 33 / del 78 II p-värde, kritiskt område, tm- eller N0, -testvariabel Vi atar att testvariabel U är tm- eller approximativt N0, -fördelad så att dess fördeligsfuktio är F U och att de i testet får värdet u. Om alterativet till ollhypotese är tvåsidigt, dvs. ollhypotese är µ = µ 0, p = p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller: p-värdet är PrU u eller U u = F U u. Nollhypotese förkastas på sigifikasivå ifall p < dvs. om testvariabels värde ligger i det kritiska området, u u, där u = F U = F U. u G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 34 / del 78 II u p-värde, kritiskt område, tm- eller N0, -testvariabel, forts. Om alterativet till ollhypotese är esidigt, och ollhypotese är µ µ 0, p p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller p-värdet är PrU u = F U u. Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariables värde ligger i det kritiska området u, där u = F = F. U U p-värde, kritiskt område, tm- eller N0, -testvariabel, forts. Om alterativet till ollhypotese är esidigt, och ollhypotese är µ µ 0, p p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller p-värdet är PrU u = F U u. Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabels värde ligger i det kritiska området, u där u = F = F. U U u u G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 35 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 36 / del 78 II

Testig av två vätevärde, ormalfördelig, samma varias Om X j, j =,,..., x och Y j, j =,,..., y är oberoede stickprov av slumpvariablera X och Y där X Nµ x, σ och Y Nµ y, σ och ollhypotese är µ x = µ y eller µ x µ y eller µ x µ y så väljer vi som testvariabel Varför X Y t x + y. x + y x + y x S x +y S y x S x + y S y x + y x + y Eftersom X j Nµ x, σ och Y j Nµ y, σ så gäller x Sx σ χ x och y S y χ σ y och eftersom X - och Y -slumpvariablera och därmed Sx och Sy är oberoede så är σ x Sx + y Sy χ x + y. Testvariabel ka Z X Y alltså skrivas i forme där Z = N0,, m C σ x + y m = x + y och C = σ x Sx + y Sy. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 37 / del 78 II Exempel: Skillade mella adelar Uder åre 660 740 föddes i Paris 377 649 flickor och 393 535 pojkar och uder samma tid föddes i Lodo 698 900 flickor och 737 687 pojkar. Fis det skillader i adele flickor? Låt X j vara e slumpvariabel som får värdet om bar ummer j i Paris är e flicka och 0 om det är e pojke och låt Y j vara motsvarade slumpvariabel för bare i Lodo. Dessutom atar vi att alla dehär slumpvariablera är oberoede och att PrX j = = p P och PrY j = = p L. Nollhypotese är i detta fall H o : p P = p L. Nollhypotese säger ite vad p P = p L är me vi ka räka ett estimat ˆp för dehär saolikhete geom att kostatera att det föddes sammalagt 07 77 bar och av dessa var 076 549 flickor så att 076 549 ˆp = 0.4876. Vi ka också räka medelvärdea av de 07 77 observerade stickprove och de är x = 0.4897 och y = 0.4865. ˆp ˆp Slumpvariabels X varias är ugefär där P = 7784 är P atalet bar födda i Paris. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 38 / del 78 II Exempel: Skillade mella adelar, forts. ˆp ˆp På samma sätt är variase av Y ugefär där L = 7784 är L atalet bar födda i Lodo. Det här betyder att slumpvariabels X Y varias är ugefär ˆp ˆp ˆp ˆp + så att testvariabel P L X Y Z = ˆp ˆp P + L är i stort sett N0, -fördelad. I dethär fallet får testvariabel värdet 0.48970 0.48650 z = 0.4876 0.4876 7784 + = 4.5350. 436587 p-värdet blir u p Pr Z 4.535 = F N0, 4.5350 = 0.00000576, vilket betyder att vi har goda skäl att förkasta ollhypotese. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 39 / del 78 II Testig av två adelar eller saolikheter Om X j, j =,,..., x och Y j, j =,..., y är två oberoede stickprov av slumpvariablera X och Y där X Beroullip x och Y Beroullip y och ollhypotese är p x = p y eller p x p y eller p x p y så väljer vi som testvariabel där X Y a N0, P P x + y P = xx + y Y x + y. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 40 / del 78 II

Exempel: Skillade mella två vätevärde, allmät fall Frå e viss process har vi samlat i data för att säkerställa produktkvalitete och seda gjorde vi ädrigar i processe för att miska på variase. Detta lyckades också me vi hoppas och också mätvärdea, dvs. kvalitete också stigit. För att udersöka detta gjorde vi mätigar före och efter förädrigara: Stickprovsstorlek Medelvärde Stickprovsvarias Före 0 4.50 0.08 Efter 50 4.56 0.04 Här har vi alltså stickprov X, X,..., X 0 före och Y, Y,..., Y 50 efter och vi atar att alla dessa slumpvariabler är oberoede, slumpvariablera X j har samma fördelig och slumpvariablera har samma fördelig. Däremot atar vi ite att de har samma varias eller är ormalfördelade me og att de är sådaa att medelvärdea X och Y är ugefär ormalfördelade på gud av de cetrala gräsvärdessatse. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 4 / del 78 II Exempel: Skillade mella två vätevärde, allmät fall, forts. Då gäller också X Y a N µ X µ Y, σ X 0 + σ Y. 50 I dethär fallet väljer vi som ollhypotes µ X µ Y som motpåståede till vår förmoda att kvalitete förbättrades, dvs. µ Y > µ X. Vi vet ite vad σx och σ Y är me vi ka estimera dem med stickprovsvariasera S X och SY så att testvariabel blir Z = X Y S x 0 + S Y 50 a N0,. Värdet av testvariabel är i detta fall.6 och eftersom positiva värde på testvariabel är i samklag med ollhypotese så blir p-värdet p = PrZ.6 F N0,.6 = 0.0044. Det här betyder att vi ka förkasta ollhypotese på sigifikasivå 0.0. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 4 / del 78 II Apassig eller Goodess-of-fit Om X j, j =,..., är ett stickprov av slumpvariabel X vars värdemägd är m k= A k där mägdera A k är disjukta och ollhypotese är så väljer vi som testvariabel H 0 : PrX A k = p k, k =,..., m m O k p k a χ m, p k k= där O k är atalet elemet i mägde { j : X j A k }. Exempel: Sigla slat Atag att vi siglar slat 400 gåger och får 70 klavor och 30 kroor. Som ollhypotes tar vi H 0 : p = 0.5 där p = PrT. Om Y är atalet klavor så är Y Biom, p med = 400 och p = 0.5. Y p Det betyder att a N0, så p-värdet blir, eftersom alterativet p p till ollhypotese är tvåsidigt, p = PrY 70 = Pr Y p p p 70 00 400 0.5 0.5 Y p = Pr 3 0.006998. p p G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 43 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 44 / del 78 II

Exempel: Sigla slat, forts. Ett aat sätt är att skriva de observerade tale i e tabell: T H 70 30 och räka värdet av testvariabel C = m O k p k k= p k χ -apassigstestet och det blir c = 70 400 0.5 400 0.5 + 30 400 0.5 400 0.5 i = 30 00 + 30 00 = 9. Nu är C ugefär χ -fördelad och det är bara stora värde på C som motsäger ollhypotese så testets p-värde blir p = PrC 9 = F χ 9 = 0.006998. Exempel: Sigla slat, forts. Hur kommer det sig att vi får exakt samma svar i båda falle? Om Y Biom, p är atalet klavor så är Y atalet kroor och Y p Y p + = p p Y p = p + = p Y p p Y p p p = + Y + p p Y p p p, så att testvariabel i χ -testet är kvadrate av testvariabel i ormalapproximatioe av de biomialfördelade slumpvariabel Y och e χ -fördelad slumpvariabel är eligt defiitioe kvadrate av e N0, -fördelad slumpvariabel. Ifall atalet klasser m i χ -testet är större ä så är det betydligt besvärligare att visa att C a χ m. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 45 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 46 / del 78 II Test av variase, ormalfördelig Om X j, j =,,..., är ett stickprov av slumpvariabel X som är Nµ, σ -fördelad och ollhypotese är σ = σ0 eller σ σ0 eller σ σ0 så väljer vi som testvariabel där S är stickprovsvariase. S σ 0 χ, G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 47 / del 78 II p-värde, kritiskt område, χ -testvariabel Vi atar att testvariabel C är approximativt χ k-fördelad och att de i testet får värdet c. Om alterativet till ollhypotese är esidigt och små värde av testvariabel är föreliga med ollhypotese så gäller: p-värdet är PrC c = F χ kc. Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området F χ k,. Om alterativet till ollhypotese är esidigt och stora värde av testvariabel är föreeliga med ollhypotese så gäller p-värdet är PrC c = F χ kc. Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området 0, F χ k. Om alterativet till ollhypotese är tvåsidigt så gäller p-värdet är mif χ kc, F χ kc. Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området 0, F χ k Fχ k,. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 48 / del 78 II

Exempel: Stickprovsvariases fördelig Om X j, j =, är ett stickprov av e Nµ, σ fördelad slumpvariabel så har S fördelige χ. Me vad häder om vi tar ett σ stickprov av e slumpvariabel X som är jämt fördelad i itervallet [0, ] så att VarX =? Som ollhypotes tar vi att S fortfarade är χ -fördelad, vi σ väljer = 5 och räkar variase för 00 stickprov. Klassera väljer vi som itervalle [0,, [, 4, [4, 6, [6, 8 och [8, och resultate blir följade då vi ser efter i vilket itervall 5 s hamar: A k [0, [, 4 [4, 6 [6, 8 [8, O k 6 4 5 6 Saolikhete att e χ 5 -fördelad slumpvariabel ligger i itervallet [a k, a k är F χ 4a k F χ 4a k och de här saolikhetera blir A k [0, [, 4 [4, 6 [6, 8 [8, p k 0.644 0.39753 0.06858 0.07570 0.09578 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 49 / del 78 II Exempel: Stickprovsvariases fördelig, forts. Värdet av testvariabel C = 5 O k 00 p k k= 00 p k blir u c = 6 6.44 6.44 4 3.9753 5 0.6858 + + 3.9753 0.6858 6 0.757 9.578 + + 0.757 9.578 = 5.5. Eftersom C är ugefär χ 5 -fördelad och edast stora värde på C motsäger ollhypotese så blir testets p-värde p = PrC 5.5 = F χ 45.5 = 0.0045. Det här betyder att det fis skäl att förkasta ollhypotese och om vi skulle ha räkat variase för äu flera stickprov skulle det här ha blivit äu tydligare. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 50 / del 78 II Exempel Vi vill testa om saolikhete att få e kroa då ma siglar e viss slat faktiskt är 0.5. Hur måga gåger måste vi sigla slate för att saolikhete att ollhypotese H 0 : p = 0.5 förkastas på sigifikasivå 0.05 är åtmistoe 0.9 om p 0.5? Eftersom vi vill räka ut e övre gräs för atalet kast räcker det att ata att p = 0.5. Vi siglar alltså slat gågar och adele kroor blir då ˆp. Testvariabel är för ormalapproximatio Z = ˆp p 0 p 0 p 0 där p 0 = 0.5. Eftersom sigifikasivå är vald till 0.05 och alterativet till ollhypotese är tvåsidigt så är de kritiska värdea ±z 0.05 = F N0, 0.05 = ±.96, dvs. ollhypotese förkastas om z >.96 eller z <.96. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 5 / del 78 II, Exempel, forts. Om u i verklighete p = p = 0.5 så är Pr ˆp p 0 p 0 p 0 = Pr = Pr >.96 = Pr ˆp p p p ˆp p p p >.96 ˆp p p p ˆp > p 0 +.96 > p 0 +.96 Pr a N0,, och vi får p0 p 0 p 0 p 0 p p p p 0 p 0 p p + p 0 p p p ˆp p p p >.96 0.04. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 5 / del 78 II

Exempel, forts. Vi får också ett motsvarade uttryck för Pr ˆp p 0 p0 p 0 <.96 me eftersom det räcker att få e edre gräs för och eftersom det är rimligt att ata att de seare saolikhete är mycket lite så blir kravet att vilket betyder att PrZ >.96 0.04 0.9.96 0.04.8 eftersom F N0, 0.9.8 och vi får villkoret Exempel, forts. Om u 6600 så visar e räkig att Pr ˆp p 0 p 0 p 0 <.96 = PrZ <.96 0.04 < PrZ <.96.96.8 0 7, så det var helt korrekt att struta i dea term..96 +.8 = 6569., 0.04 vilket betyder att det är skäl att välja 6600. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 53 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 54 / del 78 II Korrelatio Korrelatioe eller korrelatioskoefficiete mella slumpvariablera X och Y är CovX, Y ρ XY = CorX, Y = = E X EX Y EY, VarX VarY VarX VarY och om X j, Y j, j =,..., är ett stickprov av slumpvariabel X, Y så är stickprovskorrelatioskoefficiete R XY = X j X Y j Y S xy X j X =, Y j Y Sx Sy där och S x = S xy = X j X Y j Y, X j X, S y = Y j Y. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 55 / del 78 II Obs! Om X och Y är slumpvariabler med ädlig me positiv varias och a, b, c och d är tal med a 0 och c 0 så är CoraX + b, cy + d = sigaccorx, Y. Varför? Eftersom CorU, V = CorV, U så räcker det att visa att CoraX + b, Y = sigacorx, Y för då är CoraX + b, cy + d = sigacorx, cy + d = sigacorcy + d, X = sigasigccory, X = sigaccorx, Y Eftersom EaX + b = aex + b så är VaraX + b = EaX + b aex b = a VarX och CovaX + b, Y = EaX + b aex by EY så att CoraX +b, Y = = aex EX Y EY = acovx, Y, acovx, Y a VarX VarY = a CorX, Y = sigacorx, Y. a G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 56 / del 78 II

Stickprovskorrelatioskoefficietes fördelig Ifall X j, Y j, i =,..., är ett stickprov av e slumpvariabel X, Y där X och Y är oberoede, så att ρ xy = 0, och de ea av slumpvariablera är ormalfördelad och de adra är kotiuerlig så gäller R XY t. RXY Ifall X j, Y j, i =,..., är ett stickprov av e ormalfördelad slumpvariabel X, Y med < ρ xy < och σx > 0 och σ y > 0 så gäller + l RXY + a N R l ρxy, XY ρ XY 3 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 57 / del 78 II Mista-kvadrat-metode då y b 0 + b x Om ma atar att sambadet mella x och y är y b 0 + b x, puktera x j, y j, j =,..., är giva och ma bestämmer b 0 och b så att y j b 0 b x j är så lite som möjligt så blir svaret b = x j xy j y x j x = s xy s x och b 0 = y b x, där x = x j och y = y j. Varför? Vi ka skriva kvadratsumma y j b 0 b x j i forme f b 0, b =, y j y b 0 b x j x och villkoret att de partiella derivata med avseede på b 0 är 0 ger b 0 = 0, dvs. b 0 = 0 och villkoret att de partiella derivata med avseede på b är 0 ger b x j x y j y x j x = 0 och dea ekvatio ger uttrycket för b. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 58 / del 78 II Obs I räkigara ova förekommer iga slumpvariabler me vi ka bra täka oss att sambadet mella variabler x och y är y = β 0 + β x me då ma mäter värdea av y-variabel så förekommer det slumpmässiga fel som leder till att de uppmätta värdea blir y j = β 0 + β x j + ε j, j =,..., där ε j är slumpvariabler. Det faktum att ma miimerar y j b 0 b x j och ite ågot aat uttryck är föruftigt om ma atar att det ite förekommer ågra fel i x j -värdea och att alla avvikelser frå e rät lije beror på felaktiga y j -värde. Att ma seda miimerar e kvadratsumma och ite tex. absolutbelopp är föruftigt om ma atar att slumpvariablera ε j är ormalfördelade. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 59 / del 78 II Exempel: Regressioslije Vi har följade observatioer x.0.9.7 3. 3.8 4.7 5. 5.5 y -0.8-0.4-0.0 0.9..3.7. Först räkar vi medelvärdea och de är x = 3.4875, y = 0.75. Seda skall vi räka stickprovsvariase av x och stickprovskovariase av variablera x och y och vi får s x = s xy = x j x =.584, x j xy j y =.6. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 60 / del 78 II

Exempel: Regressioslije, forts. Det här betyder att b = s xy sx = 0.6405, b 0 = y b x =.485. Puktera och lije ser ut på följade sätt: G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 6 / del 78 II Regressio Vi atar att slumpvariabel Y förutom på slumpe beror på variabel x så att Y = β 0 + β x + ε där ε är e slumpvariabel som vi atar att är oberoede av x. Ett stickprov av Y är därför av type x j, Y j, j =,..., där ε j = Y j β 0 β x j är oberoede slumpvariabler med samma fördelig, som vi valige atar vara N0, σ. Med mista kvadratmetode som är föruftig precis då ε N0, σ får vi följade estimatorer för β, β 0 och σ : B = S xy sx, B 0 = Y B x, S = Y j B 0 B x j, där S xy = x j xy j Y. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 6 / del 78 II Regressio, testvariabler Atag att ε j N0, σ, j =,..., är oberoede och Y j = β 0 + β x j + ε j, j =,...,. Då är S B 0 N β 0, σ + x B N β, σ χ. Som testvariabler ka vi aväda B 0 β 0 W 0 = S + W = B β S s x σ s x x s x t. sx, t,, G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 63 / del 78 II Ett sambad mella estimatorera Av defiitioera ova följer också att och S = S y R xy, Sx R xy = B Sy, B S S x = R xy. Rxy Det seare resultatet visar att test av ollhypotesera β = 0 och ρ xy = 0 ger samma resulat då ma atar ormalfördelig. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 64 / del 78 II

Ett sambad mella estimatorera, varför? Eftersom B = Sxy, B sx 0 = Y B x, S = Y j B 0 B x j och S xy = R xy s x S y så är S = = B B0 + B x j y j = B x j x y j y x j x B x j xy j y + = B sx B S xy + Sy S xy sx = Sx 4 y j y S xy s x + S y = S y R xys y = S y R xy, Ett sambad mella estimatorera, varför?, forts. E följd av det här är att B S s x = s x S xy S y R xy s x = S xy s x S y R xy = R xy. Rxy så att S = S y R xy. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 65 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 66 / del 78 II Exempel: Trafikolyckor Eligt statistikcetrale var atalet förolyckade persoer i trafikolyckor uder åre 004 03 följade 004 005 006 007 008 009 00 0 0 03 375 379 336 380 344 79 7 9 55 48 I dethär fallet är det ädamålseligt att som x-variabel ta årtalet frå vilket vi subtraherar 05 så att tabelle ser ut på följade sätt: x - -0-9 -8-7 -6-5 -4-3 - y 375 379 336 380 344 79 7 9 55 48 Frå det här stickprovet ka vi räka följade estimat: Exempel: Trafikolyckor, regressioslije Nu får vi följade estimat för parametrara i regressiosmodelle Y j = β 0 + β x j + ε j : b = s xy sx = 5.879, b 0 = y b x =.79, r xy = s xy s x s y = 0.997. Lije och datapuktera ser ut på följade sätt: x y sx sy s xy 6.5 36 9.667 77.8889 45.5556 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 67 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 68 / del 78 II

Exempel: Trafikolyckor, β Vi ka räka ett estimat för restvariase atige direkt med formel s = 0 0 y j b 0 b x j, me i allmähet är det eklare att aväda formel s = s y r xy = 9 8 77.8889 0.997 = 59.35. Nu ka vi testa ollhypotese β = 0 och då är testvariabel W = B 0 S s x och de här testvariabel får värdet w = 5.879 59.35 9 9.667 t0, = 6.387. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 69 / del 78 II Exempel: Trafikolyckor, β, forts. Eftersom ollhypotese är β = 0 och ite tex. β 0 vilket ma väl kude motivera så blir p-värdet p = F t8 6.387 = 0.0006, Exempel: Trafikolyckor, β 0 Eftersom vi subtraherade 05 frå årtale är β 0 vätevärdet av atalet förolyckade i trafikolyckor år 05. Om vi vill testa hypotese β 0 40 så aväder vi som testvariabel B 0 β 0 W 0 = S + x s x t. När vi sätter i de tal vi tidigare räkat ut i de här formel så får vi G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 70 / del 78 II Exempel: Trafikolyckor, β 0, forts..79 40 w 0 = =.56 59.35 0 + 6.5 0 9.667 Eftersom ollhypotese var β 0 40 så är det edast stora egativa värde på testvariabel som motsäger ollhypotese, dvs. alterativet är esidigt så p-värdet blir p = F t8.56 = 0.08749, och vi förkastar ite ollhypotese es på sigifikasivå 0.05. Exempel: Trafikolyckor, kofidesitervall för parametrara Kofidesitervall för parametrara β 0 och β defiieras och beräkas på samma sätt som kofidesitervall för vätevärdet av e ormalfördelad slumpvariabel. Om vi tex. skall bestämma ett 99% kofidesitervall för parameter β så kostatterar vi först att eftersom W = B β S s x t och F t8 0.995 = Ft8 0.005 = 3.3554 så är Pr 3.3554 B β S s x 3.3554 = 0.005 0.005 = 0.99. Eftersom 3.3554 B β S 3.3554 om och edast om s x G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 7 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 7 / del 78 II

Exempel: Trafikolyckor, kofidesitervall för parametrara, forts. B 3.3554 Pr β [ S s x B 3.3554 β B + 3.3554 S sx, B + 3.3554 S s x S så är s x ] = 0.99. När vi sätter i de tal vi räkat ut tidigare så får vi som kofidesitervall med kofidesgrade 99% [ ] 59.35 59.35 5.879 3.3554, 5.879 + 3.3554 9 9.667 9 9.667 = [ 4.95, 7.468 ]. Betigade fördeligar av ormalfördeligar, förklarigsgrad Om X, Y är ormalfördelad så är σ Y X = x N µ Y + ρ Y XY σ X x µ X, ρ XY σ Y, dvs. där EY X = x = µ Y + ρ XY σ Y σ X x µ X = β 0 + β x, σ Y β = ρ XY = σ XY σ X σx, β 0 = µ Y β µ X. Med mista kvadratmetode får vi estimat för parametrara β 0 och β som är s y b = r xy = s xy s x sx, b 0 = y b x. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 73 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 74 / del 78 II Betigade fördeligar av ormalfördeligar, förklarigsgrad, forts. Om X, Y är ormalfördelad och X = x så ka vi alltså skriva där Y = β 0 + β x + ε ε N0, ρ XY σ Y. Här är alltså restvariase ρ XY σ Y de del av variase av Y som ite ka förklaras med beroedet på X och de del av variase av Y som ka förklaras med beroedet på X är ρ XY σ Y σ Y = ρ XY. Iterpolerig och extrapolerig Om ma har gjort mätigar av ågot slag och fått resultate x j, y j, j =,..., så vill ma ofta veta vilket värde y skulle få om x = x 0. Ett sätt att räka ut ett rimligt svar är att ata att y b 0 + b x, bestämma b 0 och b och seda räka ut b 0 + b x 0. Ett ekelt sätt att förutom att göra dea räkig också få e uppfattig om hur stort felet ka bli är att ersätta värdea x j, j =,..., med x j = x j x 0 och seda i ormal ordig räka ut estimat och göra hypotesprövigar för β 0 i regressiosmodelle Y = β 0 + β x + ε. Aalogt med detta säger vi att talet r xy, som är ett estimat av ρ XY är regressiosmodelles Y j = b 0 + b x j förklarigsgrad. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 75 / del 78 II G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 76 / del 78 II

Logistisk regressio Atag att vi av friska och isjukaade persoer mätt följade kocetratioer av fibrioge i blodet: Friska.5.56.9.8 3.4.46 3.. Friska 3.5.60.9.35 Isjukade 5.06 3.34.38 3.53.09 3.93 Om u fibriogekocetratioe i blodet på e viss perso är 3. så vad är saolikhete att he är frisk? Här atar vi alltså att saolikhete att e perso är frisk på ågot sätt beror på fibriogekocetratioe, som vi beteckar med x, dvs. Pr Persoe är frisk = px. Nu är det ite föruftigt att ata att detta sambad är lijärt för d å går det lätt så att px får värde som ite ligger i itervallet [0, ]. E bättre idé är att aväda odds och ata att log px px = c 0 + c x dvs. px = ec 0+c x + e c 0+c x. För att estimera c 0 och c aväder vi Maximum likelihood metode. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 77 / del 78 II Logistisk regressio, forts. Låt u f i, i =,..., vara kocetratioera hos de friska persoera och s i, i =,..., kocetratioera hos de isjukade persoera. Låt u Lc 0, c vara saolikhete, med de atagade vi gjort, att de friska är friska och de sjuka är sjuka, eller eftersom px = +e c 0 +c x Lc 0, c = e c 0+c t... e c 0+c t + e c 0+c t... + e c 0 +c t + e c 0+c s... + e c 0 +c s. Det är ite helt ekelt att bestämma de pukt i vilke dea fuktio uppår sitt största värde me med umeriska metoder får vi c 0 5.4 och c.6 så att p3. 0.6. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig 3 februari 05 och exempel, 78 / del 78 II