MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, del II Estimerig 2 Kofidesitervall G. Gripeberg Aalto-uiversitetet 3 februari 205 3 Hypotesprövig 4 Korrelatio och regressio G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 2 / 4 Exempel: Mometmetode Av slumpvariable har vi fått följade observatioer 0.46, 0.20, 0.9, 0.09, 0.46 och 0.6. Vi har skäl att tro att är Expλ-fördelad me vi käer ite till parameter λ. Hur ka vi uppskatta, dvs. estimera λ? Eftersom vi vet att E = λ så är det aturligt att räka medelvärdet av de observerade värdea och vi får x = 6 6 = 0.46 + 0.20 + 0.9 + 0.09 + 0.46 + 0.6 = 0.26, 6 och seda aväda detta tal istället för E i formel E = λ så att vi får estimatet ˆλ = 0.26 3.8. För expoetialfördelige ka vi alltså som estimator för parameter aväda. Dehär estimator är ite vätevärdesriktig eftersom E > λ me då växer ärmar de sig det riktiga värdet, dvs. lim Pr λ j > ɛ = 0 för alla ɛ > 0. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 3 / 4 Exempel: Maximum-likelihood metode mm Du aläder till e främmade stad och på flygfältet ser du tre taxibilar med umrora 57, 3 och 758. Hur måga taxibilar fis det i dehär stade? Vi atar att att det fis N taxibilar med umrora, 2,..., N och att saolikhete att e taxibil på flygfältet har ummer j är N för alla j =, 2,..., N. Om vi aväder mometmetode så skall vi räka vätevärdet av e slumpvariabel som är jämt fördelad i mägde {,..., N} och det är E = N i= i N = NN+ 2N = N+ 2, så att N = 2E. Seda räkar vi medelvärdet av observatioera x = 3 57 + 3 + 758 = 309.33 och som estimat får vi ˆN = 2 309.33 68 vilket är ett för litet atal. E aa möjlighet är att aväda maximum-likelihood metode: Om atalet taxibilar är N så är saolikhete N att vi ser bile med ummer 57. Samma saolikhet gäller för bilara med ummer 3 och 758, förutsatt att N 758 för aars är saolikhete 0 att vi ser e bil med ummer 758. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 4 / 4
Exempel: Maximum-likelihood metode mm, forts. Dethär betyder att LN = Pr Du ser umrora 57, 3 och 758 = N 3, N 758, 0, N < 758. I elighet med maximum-likelihood metode väljer vi estimatet ˆN så att likelihoodfuktioe LN får ett så stort värde som möjligt, dvs. i detta fall ˆN = 758. Motsvarade resultat gäller också mera allmät, dvs. om, 2,..., k är ett stickprov av e slumpvariabel som är jämt fördelad i mägde {, 2,..., N} eller i det kotiuerliga fallet i itervallet [0, N] så är maximum-likelihood estimatet av N ˆN = max, 2,..., k. Detta är ite ett vätevärdesriktigt estimat för det är klart att E ˆN < N me vad är Emax, 2,..., k? G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 5 / 4 Exempel: Maximum-likelihood metode mm, forts. Nu är Prmax, 2,..., k m = Pr j m, j =,..., k = m N av vilket följer att Prmax, 2,..., k = m = m k N m k N och vätevärdet blir E max, 2,..., k N m k m k = m. N N E följd av detta är att m= k k + N < Emax, 2,..., k < k k + N +. Dethär betyder att e bättre estimator för N kude vara k + k max, 2,..., k, som är vätevärdesriktigt i det kotiuerliga fallet Ett bättre estimat för atalet taxibilar är alltså 4 3 758 0. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 6 / 4 k Exempel: Kofidesitervall för parameter i expoetialfördelige Vi atar att vi har ett stickprov av e Expλ-fördelad slumpvariabel så att stickprovets storlek är 50 och medelvärdet är 0.8. Med mometmetode får vi då estimatet ˆλ = 0.8 =.25 för parameter λ me här gäller det att bestämma ett itervall så att om vi med måga olika stickprov med samma metod bestämmer ett itervall så kommer i stort sett tex. 95% av itervalle att vara sådaa att parameter hör till det itervall vi räkat ut med hjälp av de observerade värdea i det fallet. För detta behöver vi e slumpvariabel vars fördelig vi åtmistoe approximativt käer till, dvs. de iehåller iga okäda parametrar. Med stöd av de cetrala gräsvärdessatse aväder ma för dethär ofta ormalfördelige N0, och det gör vi u också. Vi strutar för e stud i de umeriska värdea och atar att vi har ett stickprov, 2,..., 50 av e slumpvariabel Expλ. Vätevärdet av medelvärdet = 50 j är då E = E = λ och variase Var = 50 Var = 50. λ 2 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 7 / 4 Exempel: Kofidesitervall för parameter i expoetialfördelige, forts. Om vi tror att = 50 är tillräckligt stort så är λ 50λ 2 a N0,. Ifall Z N0, så gäller Pr F N0, 0.025 Z FN0, 0.975 = Pr.96 Z.96 = 0.95, så att Nu är Pr.96 λ.96 0.95. 50λ 2.96 λ.96 50λ 2.96 50 λ +.96 50, G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 8 / 4
Exempel: Kofidesitervall för parameter i expoetialfördelige, forts. så att saolikhete att λ ligger mella slumpvariablera 0.72.28 och också är ugefär 0.95. Detta betyder att ett 95% approximativt kofidesitervall för parameter i expoetialfördelige då stickprovets storlek är 50 är [ 0.72,.28 ]. I dethär fallet blir kofidesitervallet [0.9,.6]. För expoetialfördelige är det ite speciellt svårt att få fram olikheter för parameter, me om detta ite skulle ha varit fallet detta gäller tex. Beroulli-fördelige så skulle vi i uttrycket λ 2 för variase ha kuat aväda estimator för λ och då skulle kofidesitervallet ha blivit +.96,.96 = 50 50 och dethär kofidesitervallet blir [0.97,.73] om x = 0.8. [ 0.78,.38 ], Exempel: Hypotestestig Till e polikliik kommer i geomsitt 9 patieter i timme. E dag då det varit halt väglag kommer det 30 patieter uder 2 timmar. Kommer det mera patieter på grud av det dåliga väglaget eller är det fråga om slumpmässiga variatioer? Om det kommer i geomsitt 9 patieter i timme så ka vi räka med att vätevärdet av atalet patieter uder 2 timmar är 9 2 = 08 och vi ka som ollhypotes ta atitese till fråga om det kommit ovaligt måga patieter att vätevärdet av atalet patieter är högst 08. Dessutom gör vi också atagadet att atalet patieter uder 2 timmar är Poissoλ-fördelat där alltså λ 08. För räkigara aväder vi ädå extremfallet λ = 08. Det är ige idé att räka bara saolikhete för att Pr = 30 om är atalet patieter, me däremot skall vi räka saolikhete Pr 30. Om vi räkar med Poisso-fördeliges fördeligsfuktio får vi p = Pr 30 = Pr 29 = F Poisso08 29 = 0.02645. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 9 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 0 / 4 Exempel: Hypotestestig, forts. Om vi aväder ormalapproximatio så får vi p = Pr 30 = Pr = Pr E 30 E Var Var E 30 08 E = Pr 2.7 0.0732. Var 08 Var Geom att räka Pr 29 med ormalapproximatio kommar ma ärmare det exakta svaret. Slutsatse är i alla fall att ollhypotese ka förkastas på sigifikasivå 0.05 me ite på sigifikasivå 0.0. Om vi istället som ollhypotes tagit λ = 08, vilket skulle ha varit föruftigt om vi frågat om det varit e ovalig dag på polikliike, så borde vi också beakta möjlighete att det kommit väldigt få patieter och då skulle p-värdet ha blivit det dubbla vilket ite exakt är Pr 30 + Pr 86. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 / 4 Testa vätevärde, ormalfördelig, exempel Var mars 204 e ovalig måad beträffade ederbörde? I mars 204 var ederbördsmägdera på vissa mätstatioer följade: 2 3 4 5 6 7 8 9 0 Nederbörd 33 27 30 22 28 28 24 3 34 22 Motsarade medeltal för åre 98 200 var 2 3 4 5 6 7 8 9 0 Medeltal 39 37 38 36 36 26 35 29 30 2 Nu är det föruftigt att räka hur mycket värdea för år 204 avviker frå medelvärdea och skilladera är följade: 2 3 4 5 6 7 8 9 0 Skillad -6-0 -8-4 -8 2-2 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 2 / 4
Testa vätevärde, ormalfördelig, exempel, forts. Eftersom fråga var om mars var e ovalig måad så väljer vi som ollhypotes att de ite var det. Vi ka ite som ollhypotes aväda atagadet att de var ovalig för det ger igetig som ka avädas i räkigar och här sägs igetig om på vilket sätt de evetuellt var ovalig. Nollhypotese blir därför att skillade mella ederbördsmägdera 204 och medelvärdea frå e lägre tid är Nµ, σ 2 -fördelade med µ = 0 och att dehär skilladera på olika orter är oberoede. Medelvärdet av skilladera är 4.8 och stickprovsvariase är 4.733. Det betyder att testvariabel W = 0 får värdet 2.3496. Eftersom W 0 eligt ollhypotese har fördelige t0 så blir p-värdet p = Pr W 0 2.3496 0 = PrW 2.3496 eller W 2.3496 = F t9 2.3496 + F t9 2.3496 = 2F t9 2.3496 = 0.043333, Testa vätevärde, ormalfördelig, exempel, forts. Om fråga skulle ha varit om ederbördsmägde i mars 204 var ovaligt lite skulle vi som ollhypotes ha valt påståedet att de ite var det, dvs. att fördelige av skilladera är Nµ, σ 2 där µ 0. Testvariabel skulle ha varit precis desamma me p-värdet skulle ha blivit p = PrW 2.3496 = F t9 2.3496 = 0.02667. Om fråga skulle ha varit om ederbördsmägde i mars 204 var ovaligt stor skulle vi som ollhypotes ha valt påståedet att de ite var det, dvs. att fördelige av skilladera är Nµ, σ 2 där µ 0. Eftersom medelvärdet är egativt är resultate helt i elighet med de här ollhypotese så det fis iget skäl att förkasta de och vi behöver ite heller räka ut stickprovsvariase, det räcker att vi räkar medelvärdet. så vi ka förkasta ollhypotese på sigifikasivå 0.05. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 3 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 4 / 4 Exempel: Skillade mella adelar Uder åre 660 740 föddes i Paris 377 649 flickor och 393 535 pojkar och uder samma tid föddes i Lodo 698 900 flickor och 737 687 pojkar. Fis det skillader i adele flickor? Låt j vara e slumpvariabel som får värdet om bar ummer j i Paris är e flicka och 0 om det är e pojke och låt Y j vara motsvarade slumpvariabel för bare i Lodo. Dessutom atar vi att alla dehär slumpvariablera är oberoede och att Pr j = = p P och PrY j = = p L. Nollhypotese är i detta fall H o : p P = p L. Nollhypotese säger ite vad p P = p L är me vi ka räka ett estimat ˆp för dehär saolikhete geom att kostatera att det föddes sammalagt 2 207 77 bar och av dessa var 076 549 flickor så att 076 549 ˆp = 0.48762. Vi ka också räka medelvärdea av de 2 207 77 observerade stickprove och de är x = 0.4897 och y = 0.4865. ˆp ˆp Slumpvariabels varias är ugefär där P = 7784 är P atalet bar födda i Paris. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 5 / 4 Exempel: Skillade mella adelar, forts. ˆp ˆp På samma sätt är variase av Y ugefär där L = 7784 är L atalet bar födda i Lodo. Det här betyder att slumpvariabels Y varias är ugefär ˆp ˆp ˆp ˆp + så att testvariabel P L Y Z = ˆp ˆp P + L är i stort sett N0, -fördelad. I dethär fallet får testvariabel värdet 0.48970 0.48650 z = 0.48762 0.48762 7784 + = 4.5350. 436587 p-värdet blir u p Pr Z 4.535 = 2 F N0, 4.5350 = 0.00000576, vilket betyder att vi har goda skäl att förkasta ollhypotese. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 6 / 4
Exempel: Skillade mella två vätevärde, allmät fall Frå e viss process har vi samlat i data för att säkerställa produktkvalitete och seda gjorde vi ädrigar i processe för att miska på variase. Detta lyckades också me vi hoppas och också mätvärdea, dvs. kvalitete också stigit. För att udersöka detta gjorde vi mätigar före och efter förädrigara: Stickprovsstorlek Medelvärde Stickprovsvarias Före 220 4.50 0.08 Efter 250 4.56 0.04 Här har vi alltså stickprov, 2,..., 220 före och Y, Y 2,..., Y 250 efter och vi atar att alla dessa slumpvariabler är oberoede, slumpvariablera j har samma fördelig och slumpvariablera har samma fördelig. Däremot atar vi ite att de har samma varias eller är ormalfördelade me og att de är sådaa att medelvärdea och Y är ugefär ormalfördelade på gud av de cetrala gräsvärdessatse. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 7 / 4 Exempel: Skillade mella två vätevärde, allmät fall, forts. Då gäller också Y a N µ µ Y, σ2 220 + σ2 Y. 250 I dethär fallet väljer vi som ollhypotes µ µ Y som motpåståede till vår förmoda att kvalitete förbättrades, dvs. µ Y > µ. Vi vet ite vad σ 2 och σ2 Y är me vi ka estimera dem med stickprovsvariasera S 2 och SY 2 så att testvariabel blir Z = Y x 220 + S2 Y 250 a N0,. Värdet av testvariabel är i detta fall 2.622 och eftersom positiva värde på testvariabel är i samklag med ollhypotese så blir p-värdet p = PrZ 2.622 F N0, 2.622 = 0.0044. Det här betyder att vi ka förkasta ollhypotese på sigifikasivå 0.0. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 8 / 4 Exempel: Sigla slat Atag att vi siglar slat 400 gåger och får 70 klavor och 230 kroor. Som ollhypotes tar vi H 0 : p = 0.5 där p = PrT. Om Y är atalet klavor så är Y Biom, p med = 400 och p = 0.5. Y p Det betyder att a N0, så p-värdet blir, eftersom alterativet p p till ollhypotese är tvåsidigt, p = 2 PrY 70 = 2 Pr Y p p p 70 200 400 0.5 0.5 Y p = 2 Pr 3 0.0026998. p p Exempel: Sigla slat, forts. Ett aat sätt är att skriva de observerade tale i e tabell: T H 70 230 och räka värdet av testvariabel C = m O k p k 2 k= p k χ 2 -apassigstestet och det blir c = 70 400 0.52 400 0.5 + 230 400 0.52 400 0.5 i = 302 200 + 302 200 = 9. Nu är C ugefär χ 2 2 -fördelad och det är bara stora värde på C som motsäger ollhypotese så testets p-värde blir p = PrC 9 = F χ 2 9 = 0.0026998. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 9 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 20 / 4
Exempel: Sigla slat, forts. Hur kommer det sig att vi får exakt samma svar i båda falle? Om Y Biom, p är atalet klavor så är Y atalet kroor och Y p 2 Y p2 + = p p Y p2 = p + = p Y p2 p Y p2 p p = + Y + p2 p Y p p p 2, så att testvariabel i χ 2 -testet är kvadrate av testvariabel i ormalapproximatioe av de biomialfördelade slumpvariabel Y och e χ 2 -fördelad slumpvariabel är eligt defiitioe kvadrate av e N0, -fördelad slumpvariabel. Ifall atalet klasser m i χ 2 -testet är större ä 2 så är det betydligt besvärligare att visa att C a χ 2 m. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 2 / 4 Exempel: Stickprovsvariases fördelig Om j, j =, är ett stickprov av e Nµ, σ 2 fördelad slumpvariabel så har S2 fördelige χ 2. Me vad häder om vi tar ett σ 2 stickprov av e slumpvariabel som är jämt fördelad i itervallet [0, ] så att Var = 2? Som ollhypotes tar vi att S2 fortfarade är χ 2 -fördelad, vi σ 2 väljer = 5 och räkar variase för 00 stickprov. Klassera väljer vi som itervalle [0, 2, [2, 4, [4, 6, [6, 8 och [8, och resultate blir följade då vi ser efter i vilket itervall 5 s2 2 hamar: A k [0, 2 [2, 4 [4, 6 [6, 8 [8, O k 6 4 25 6 2 Saolikhete att e χ 2 5 -fördelad slumpvariabel ligger i itervallet [a k, a k är F χ 2 4a k F χ 2 4a k och de här saolikhetera blir A k [0, 2 [2, 4 [4, 6 [6, 8 [8, p k 0.26424 0.329753 0.206858 0.07570 0.09578 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 22 / 4 Exempel: Stickprovsvariases fördelig, forts. Värdet av testvariabel C = 5 O k 00 p k 2 k= 00 p k blir u c = 6 26.4242 26.424 4 32.97532 25 20.68582 + + 32.9753 20.6858 6 0.7572 2 9.5782 + + 0.757 9.578 = 5.5. Eftersom C är ugefär χ 2 5 -fördelad och edast stora värde på C motsäger ollhypotese så blir testets p-värde p = PrC 5.5 = F χ 2 45.5 = 0.0045. Det här betyder att det fis skäl att förkasta ollhypotese och om vi skulle ha räkat variase för äu flera stickprov skulle det här ha blivit äu tydligare. Exempel Vi vill testa om saolikhete att få e kroa då ma siglar e viss slat faktiskt är 0.5. Hur måga gåger måste vi sigla slate för att saolikhete att ollhypotese H 0 : p = 0.5 förkastas på sigifikasivå 0.05 är åtmistoe 0.9 om p 0.52? Eftersom vi vill räka ut e övre gräs för atalet kast räcker det att ata att p = 0.52. Vi siglar alltså slat gågar och adele kroor blir då ˆp. Testvariabel är för ormalapproximatio Z = ˆp p 0 p 0 p 0 där p 0 = 0.5. Eftersom sigifikasivå är vald till 0.05 och alterativet till ollhypotese är tvåsidigt så är de kritiska värdea ±z 0.025 = F N0, 0.025 = ±.96, dvs. ollhypotese förkastas om z >.96 eller z <.96., G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 23 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 24 / 4
Exempel, forts. Om u i verklighete p = p = 0.52 så är Pr ˆp p 0 p 0 p 0 = Pr = Pr >.96 = Pr ˆp p p p ˆp p p p >.96 ˆp p p p ˆp > p 0 +.96 > p 0 +.96 Pr a N0,, och vi får p0 p 0 p 0 p 0 p p p p 0 p 0 p p + p 0 p p p ˆp p p p >.962 0.04. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 25 / 4 Exempel, forts. Vi får också ett motsvarade uttryck för Pr ˆp p 0 p0 p 0 <.96 me eftersom det räcker att få e edre gräs för och eftersom det är rimligt att ata att de seare saolikhete är mycket lite så blir kravet att vilket betyder att PrZ >.96 0.04 0.9.962 0.04.28 eftersom F N0, 0.9.28 och vi får villkoret.962 +.28 2 = 6569., 0.04 vilket betyder att det är skäl att välja 6600. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 26 / 4 Exempel, forts. Om u 6600 så visar e räkig att Pr ˆp p 0 p 0 p 0 <.96 = PrZ <.96 0.04 < PrZ <.96.962.28 0 7, så det var helt korrekt att struta i dea term. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 27 / 4 Obs! Om och Y är slumpvariabler med ädlig me positiv varias och a, b, c och d är tal med a 0 och c 0 så är Cora + b, cy + d = sigaccor, Y. Varför? Eftersom CorU, V = CorV, U så räcker det att visa att Cora + b, Y = sigacor, Y för då är Cora + b, cy + d = sigacor, cy + d = sigacorcy + d, = sigasigccory, = sigaccor, Y Eftersom Ea + b = ae + b så är Vara + b = Ea + b ae b 2 = a 2 Var och Cova + b, Y = Ea + b ae by EY så att Cora +b, Y = = ae E Y EY = acov, Y, acov, Y a 2 Var VarY = a Cor, Y = sigacor, Y. a G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 28 / 4
Exempel: Regressioslije Vi har följade observatioer x.0.9 2.7 3.2 3.8 4.7 5. 5.5 y -0.8-0.4-0.0 0.9.2.3.7 2. Först räkar vi medelvärdea och de är x = 3.4875, y = 0.75. Seda skall vi räka stickprovsvariase av x och stickprovskovariase av variablera x och y och vi får s 2 x = s xy = x j x 2 = 2.584, x j xy j y =.62. Exempel: Regressioslije, forts. Det här betyder att b = s xy sx 2 = 0.6405, b 0 = y b x =.4825. Puktera och lije ser ut på följade sätt: G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 29 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 30 / 4 Ett sambad mella estimatorera, varför? Eftersom B = Sxy, B sx 2 0 = Y B x, = 2 Y j B 0 B x j 2 och S xy = R xy s 2 x y så är 2 = = B 2 2 B0 + B x j y j = B x j x y j y 2 x j x 2 2B x j xy j y + = B 2 sx 2 2B S xy + Sy 2 S 2 xy sx 2 = Sx 4 y j y 2 2 xy s 2 x + y = y R 2 xy y = S 2 y R 2 xy, Ett sambad mella estimatorera, varför?, forts. E följd av det här är att B s 2 x = s 2 x S xy y R 2 xy 2 s 2 x = S xy s 2 x y R 2 xy 2 = R xy 2. Rxy 2 så att = 2 y R 2 xy. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 3 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 32 / 4
Exempel: Trafikolyckor Eligt statistikcetrale var atalet förolyckade persoer i trafikolyckor uder åre 2004 203 följade 2004 2005 2006 2007 2008 2009 200 20 202 203 375 379 336 380 344 279 272 292 255 248 I dethär fallet är det ädamålseligt att som x-variabel ta årtalet frå vilket vi subtraherar 205 så att tabelle ser ut på följade sätt: x - -0-9 -8-7 -6-5 -4-3 -2 y 375 379 336 380 344 279 272 292 255 248 Frå det här stickprovet ka vi räka följade estimat: Exempel: Trafikolyckor, regressioslije Nu får vi följade estimat för parametrara i regressiosmodelle Y j = β 0 + β x j + ε j : b = s xy sx 2 = 5.879, b 0 = y b x = 22.79, r xy = s xy s x s y = 0.9297. Lije och datapuktera ser ut på följade sätt: x y sx 2 sy 2 s xy 6.5 36 9.667 2772.8889 45.5556 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 33 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 34 / 4 Exempel: Trafikolyckor, β Vi ka räka ett estimat för restvariase atige direkt med formel s 2 = 0 2 0 y j b 0 b x j 2, me i allmähet är det eklare att aväda formel s 2 = 2 s2 y r 2 xy = 9 8 2772.8889 0.9297 2 = 59.35. Nu ka vi testa ollhypotese β = 0 och då är testvariabel W = B 0 s 2 x och de här testvariabel får värdet w = 5.879 59.35 9 9.667 t0 2, = 6.3287. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 35 / 4 Exempel: Trafikolyckor, β, forts. Eftersom ollhypotese är β = 0 och ite tex. β 0 vilket ma väl kude motivera så blir p-värdet p = 2F t8 6.3287 = 0.000226, Exempel: Trafikolyckor, β 0 Eftersom vi subtraherade 205 frå årtale är β 0 vätevärdet av atalet förolyckade i trafikolyckor år 205. Om vi vill testa hypotese β 0 240 så aväder vi som testvariabel B 0 β 0 W 0 = + x2 s 2 x t 2. När vi sätter i de tal vi tidigare räkat ut i de här formel så får vi G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 36 / 4
Exempel: Trafikolyckor, β 0, forts. 22.79 240 w 0 = =.526 59.35 0 + 6.52 0 9.667 Eftersom ollhypotese var β 0 240 så är det edast stora egativa värde på testvariabel som motsäger ollhypotese, dvs. alterativet är esidigt så p-värdet blir p = F t8.526 = 0.082749, och vi förkastar ite ollhypotese es på sigifikasivå 0.05. Exempel: Trafikolyckor, kofidesitervall för parametrara Kofidesitervall för parametrara β 0 och β defiieras och beräkas på samma sätt som kofidesitervall för vätevärdet av e ormalfördelad slumpvariabel. Om vi tex. skall bestämma ett 99% kofidesitervall för parameter β så kostatterar vi först att eftersom W = B β s 2 x t 2 och F t8 0.995 = Ft8 0.005 = 3.3554 så är Pr 3.3554 B β s 2 x 3.3554 = 0.005 0.005 = 0.99. Eftersom 3.3554 B β 3.3554 om och edast om s 2 x G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 37 / 4 G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 38 / 4 Exempel: Trafikolyckor, kofidesitervall för parametrara, forts. B 3.3554 Pr β [ s 2 x B 3.3554 β B + 3.3554 sx 2, B + 3.3554 s 2 x så är s 2 x ] = 0.99. När vi sätter i de tal vi räkat ut tidigare så får vi som kofidesitervall med kofidesgrade 99% [ ] 59.35 59.35 5.879 3.3554, 5.879 + 3.3554 9 9.667 9 9.667 = [ 24.295, 7.4628 ]. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 39 / 4 Logistisk regressio Atag att vi av friska och isjukaade persoer mätt följade kocetratioer av fibrioge i blodet: Friska 2.52 2.56 2.9 2.8 3.4 2.46 3.22 2.2 Friska 3.5 2.60 2.29 2.35 Isjukade 5.06 3.34 2.38 3.53 2.09 3.93 Om u fibriogekocetratioe i blodet på e viss perso är 3. så vad är saolikhete att he är frisk? Här atar vi alltså att saolikhete att e perso är frisk på ågot sätt beror på fibriogekocetratioe, som vi beteckar med x, dvs. Pr Persoe är frisk = px. Nu är det ite föruftigt att ata att detta sambad är lijärt för d å går det lätt så att px får värde som ite ligger i itervallet [0, ]. E bättre idé är att aväda odds och ata att log px px = c 0 + c x dvs. px = ec 0+c x + e c 0+c x. För att estimera c 0 och c aväder vi Maximum likelihood metode. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 40 / 4
Logistisk regressio, forts. Låt u f i, i =,..., vara kocetratioera hos de friska persoera och s i, i =,..., 2 kocetratioera hos de isjukade persoera. Låt u Lc 0, c vara saolikhete, med de atagade vi gjort, att de friska är friska och de sjuka är sjuka, eller eftersom px = +e c 0 +c x Lc 0, c = e c 0+c t... e c 0+c t + e c 0+c t... + e c 0 +c t + e c 0+c s... + e c 0 +c s 2. Det är ite helt ekelt att bestämma de pukt i vilke dea fuktio uppår sitt största värde me med umeriska metoder får vi c 0 5.4 och c.6 så att p3. 0.6. G. Gripeberg Aalto-uiversitetet MS-A0509 Grudkurs i saolikhetskalkyl och statistik Exempel, 3 februari del II 205 4 / 4