MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, del II G. Gripeberg Aalto-uiversitetet 13 februari 015 G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 1 / 39 1 Stickprov Två yttiga fördeligar Estimerig 3 Kofidesitervall 4 Hypotesprövig 5 Korrelatio och regressio G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II / 39
Stickprov Målsättige är att få iformatio om slumpvariabel X. För att få iformatio gör ma tex. mätigar som ger resultate x 1, x,..., x och ma täker att x j är värdet av e slumpvariabel X j. Slumpvariablera X 1,..., X är ett stickprov med storleke och x 1, x,..., x är ett observerat stickprov med storleke. Vi atar (valige och uta att säga det explicit) att X 1, X,..., X är oberoede och har samma fördelig, som är fördelige av de slumpvariabel vi är itresserade av. Mätskalor Nomialskala: Olika grupper uta aturlig ordig. Ordialskala: Olika grupper med e aturlig ordig. Itervallskala: Numeriska värde, skillader meigsfulla, olla godtycklig. Kvotskala: Numeriska värde, aturligt ollvärde. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 3 / 39 Obs! Atagadet att slumpvariablera X j i ett stickprov är oberoede förutsätter att vi aväder dragig med återläggig, me detta villkor uppfylls sälla! Det fis dessutom måga adra större svårigheter är ma i praktike skall ta ett stickprov och detta är ett viktigt problem som ite behadlas här! Fördelige av de observerade värdea och hur de beskrivs Av de observerade värdea x 1, x,..., x i ett stickprov ka ma bilda e diskret saolikhetsfördelig, e sk. empirisk fördelig så att Pr(H = x) = 1 { j : x j = x } (som alltså är e jäm diskret fördelig om värdea är olika). Ma ka beskriva dehär fördelige med vätevärdet, variase, mediae, adra kvatiler mm. me också med stapeldiagram eller histogram beroede på situatioe. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 4 / 39
Stapeldiagram Om mätskala är e omial- eller ordialskala och/eller de ursprugliga slumpvariabel är diskret så ka det observerade stickprovet x 1, x,..., x beskrivas med ett stapeldiagram där höjde av varje stapel y k är de observerade frekvese f k = { j : x j = y k } och alla staplar har samma bredd. 4 3 1 y 1 y y 3 y 4 Histogram Om slumpvariabel är kotiuerlig 3 och mätskala är e itervall- eller kvotskala så ka det observerade stickprovet x 1, x,..., x beskrivas med ett histogram, 1 dvs. klassidelade frekveser så att ma väljer klassgräser a 0 < a 1 <... < a m, räkar frekvesera f k = { j : a k 1 < x j a k } och 0.5.5 3.5 4.5 ritar dessa som rektaglar vars ytor är proportioella mot frekvesera. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 5 / 39 Aritmetiskt medelvärde Om X j, j = 1,..., är ett stickprov av slumpvariabel X så är dess (aritmetiska) medelvärde X = 1 X j och E(X ) = E(X ) och Var(X ) = 1 Var(X ). eftersom vätevärdet är lijärt, variase av e summa av oberoede slumpvariabler är summa av variasera och Var(cX ) = c Var(X ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 6 / 39
Stickprovsvarias Om X j, j = 1,..., är ett stickprov av slumpvariabel X så är dess stickprovsvarias S = 1 (X j X ) 1 och E(S ) = Var(X ), så att stickprovsvariase är e vätevärdesriktig estimator av variase vilket är motiverige för valet av 1 istället för i ämare. Obs Om x 1, x,..., x är observerade värde i ett stickprov av slumpvariabel X så är deras medeltal x = 1 x j och (observerade) stickprovsvarias s = 1 1 (x j x). Om ma i Matlab/Octave har observatioera i vektor x så räkar ma medelvärdet med kommadot mea(x) och stickprovsvariase med kommadot var(x). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 7 / 39 χ -fördelige Ifall X j N(0, 1), j = 1,,..., m, är oberoede och m C = i=1 så säger vi att C är χ -fördelad med m frihetsgrader eller C χ (m). Då är E(C) = m och Var(C) = m, X i och C har täthetsfuktioe och f C (t) = 0 då t < 0. f C (t) = 1 m ( ) t m 1 e t, t 0. Γ m Stickprovsvarias för ormalfördelige Om X j, j = 1,,..., är ett stickprov av e N(µ, σ ) fördelad slumpvariabel så gäller för stickprovsvariase 1 σ S χ ( 1). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 8 / 39
t-fördelige Ifall Z N(0, 1) och C χ (m) är oberoede och W = Z 1 m C så säger vi att W är t-fördelad med m frihetsgrader eller W t(m). Då är E(W ) = 0 om m > 1 och Var(W ) = m m ( ) f W (t) = 1 Γ m+1 ( ) mπ Γ m om m > och W har täthetsfuktioe ( 1 + t m ) m+1, t R. Stickprov av ormalfördelige Om X j, j = 1,,..., är ett stickprov av e N(µ, σ )-fördelad slumpvariabel så är X µ 1 S t( 1). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 9 / 39 Puktestimat och estimator Atag att vi vet (eller tror) att X är e slumpvariabel med frekves- eller täthetsfuktio f (x, θ) där parameter θ (som också ka vara e vektor) är okäd. Vad ka vi göra för att estimera eller skatta θ? Vi tar ett observerat stickprov x j, j = 1,..., av X. Vi räkar ut ett estimat ˆθ = g(x 1, x,..., x ) där g är ågo fuktio. Observera att ˆθ är ett tal eller e vektor me om vi byter ut tale x j mot motsvarade slumpvariabler X j så får vi slumpvariable ˆΘ = g(x 1, X,..., X ). Iblad är det fuktioe g som avses med ordet estimator och iblad slumpvariabel ˆΘ. Itervallestimat Istället för att bara räka ut ett tal (eller e vektor) som estimat för e parameter ka ma också räka ut ett itervall. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 10 / 39
Mometmetode Om frekves- eller täthetsfuktioe f (x, θ) för e saolikhetsfördelig är såda att θ ka skrivas som e fuktio av E(X ), dvs. θ = h(e(x )) så är mometestimator av θ ˆΘ = h 1 X j. Om parameter, eller parametrara ka skrivas som e fuktio h(e(x ), E(X )) blir estimator på motsvarade sätt ( ˆΘ = h 1 X j, 1 ) Xj. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 11 / 39 Maximum likelihood - metode Om f (x, θ) är e frekves- eller täthetsfuktio för e saolikhetsfördelig så är Maximum likelihood -estimatet av θ talet θ sådat att L( θ, x 1, x,..., x ) = max L(θ, x 1, x, x ), θ där L(θ, x 1, x, x ) = f (x 1, θ) f (x, θ)... f (x, θ) är de sk. likelihood -fuktioe och x j, j = 1,..., är ett observerat stickprov av e slumpvariabel med frekves- eller täthetsfuktioe f (x, θ). I det diskreta fallet är L(θ, x 1, x, x ) saolikhete för att ma då parameter är θ får det observerade stickprovet x j, j = 1,...,. I fallet med täthetsfuktio är (h) L(θ, x 1,..., x ) för små positiva h ugefär saolikhete att få ett observerat stickprov y j, j = 1,..., så att y j x j < h för alla j. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 1 / 39
Kofidesitervall Ett kofidesitervall med kofidesgrade 1 för e parameter θ i e saolikhetsfördelig är e itervallestimator I (X 1, X,..., X ) = [a(x 1, X,..., X ), b(x 1, X,..., X )] så att Pr ( θ I (X 1, X,..., X ) ) = 1. Oftast aväds också ordet kofidesitervall för itervallet I (x 1, x,..., x ), dvs. värdet av slumpvariabel är ma fått ett observerat stickprov x j, j = 1,...,. Obs! Valige väljer ma kofidesitervallet symmetriskt så att Pr(θ < a(x 1, X,..., X )) = Pr(θ > b(x 1, X,..., X )) = 1. Oftast får ma öja sig med att villkore för kofidesitervallet gäller edast approximativt. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 13 / 39 Kofidesitervall för vätevärdet då X N(µ, σ ) Om X 1, X,..., X är ett stickprov med medelvärde X och stickprovsvarias S av e N(µ, σ )-fördelad slumpvariabel så är [ X F 1 ( ) t( 1) 1 S, X + F 1 ( ) ] t( 1) 1 S, ett kofidesitervall för µ med kofidesgrade 1. Varför? Ifall W är e t( 1)-fördelad slumpvariabel och t = F 1 ( ) ( t( 1) 1 = F 1 ) t( 1) så är Pr( t u W = X µ S edast om X t W så är t S t ) = 1. Om W t µ X + t om och S. t 1 t G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 14 / 39
Kofidesitervall för p då X Beroulli(p) Om X 1, X,..., X är ett stickprov med medelvärde X av e Beroulli(p)-fördelad slumpvariabel så är X F 1 N(0,1) ( ) 1 X (1 X ), X + F 1 N(0,1) ( ) 1 X (1 X ) ett approximativt kofidesitervall för µ med kofidesgrade 1. Varför? Om Z är approximativt N(0, 1)-fördelad och z = F 1 N(0,1) Pr( z 1 Z z ) 1. Nu är X p p(1 p) ämare med estimator X och om Z = precis då X z X (1 X ) p X + z ( 1 ) så är a N(0, 1) me p ersätts i X p X (1 X ) X (1 X ). så är z 1 Z z G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 15 / 39 Obs! Ofta aväds beteckige t = t,m = F 1 1 t(m) () = Ft(m) (1 ), vilket alltså betyder att om X är e t(m)-fördelad slumpvariabel så är Pr(X t ) = Pr(X t ) = och Pr( X t ) =. Motsvarade beteckig för ormalfördelige N(0, 1) är z så att om Z N(0, 1) så är Pr(Z z ) = Pr(Z z ) = och Pr( Z z ) =. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 16 / 39
Kofidesitervall för σ då X N(µ, σ ) Om X 1, X,..., X är ett stickprov med stickprovsvarias S av e N(µ, σ ) fördelad slumpvariabel så är [ ] ( 1)S ( 1)S F 1 ( ), χ ( 1) 1 F 1 ( ) χ ( 1) ett kofidesitervall för σ med kofidesgrade 1. Varför? Om C är e χ ( 1) fördelad slumpvariabel så gäller Pr(C < F 1 χ ( 1) ( )) = och Pr(C > F 1 χ ( 1) (1 )) =. Om u 1 F 1 χ ( 1) ( ) F 1 χ ( 1) (1 ) C = ( 1)S så är σ < ( 1)S 1 då C > F σ F 1 χ (1 ) χ ( 1) (1 ) och ( 1) σ > ( 1)S 1 då C < F F 1 χ ( ) χ ( 1) ( ) så att saolikhete för båda ( 1) hädelsera är. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 17 / 39 Hypotesprövig Vi udersöker om det fis skäl att förkasta e hypotes H 0, de sk. ollhypotese, för att de resultat vi fått är mycket osaolika om ollhypotese gäller eller om allt bara beror på slumpe. Nollhypotese är valige ett motpåståede eller atites som vi behöver argumet för att förkasta. För att kua göra ågra beräkigar måste ma som ollhypotes välja ett tillräckligt etydigt påståede, tex. θ = θ 0 och ite θ θ 0 som är för diffust. Oftast räcker det om ollhypotese har ett etydigt extremfall, tex. θ θ 0. I ollhypotese igår oftast måga adra atagade om fördeligar, oberoede osv. som ka ha stor betydelse för resultatet me som ma ite ödvädigtvis försöker förkasta. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 18 / 39
Hypotesprövig, forts. När ma tagit ett stickprov räkar vi ut värdet på e testvariabel som vi valt så att om ollhypotese gäller så har testvariabel (åtmistoe approximativt) ågo stadardfördelig som vi käer väl till. Med stöd av ollhypotese räkar ma ut saolikhete, det sk. p-värdet, för att testvariabel får ett mist lika extremt värde i förhållade till ollhypotese som det observerade stickprovet gav. Om p-värdet är midre ä e give sigifikasivå förkastar ma ollhypotese. Sigifikasivå är alltså saolikhete (ofta ett ärmevärde och om ollhypotese iehåller olikheter, e övre gräs) för att ma förkastar ollhypotese trots att de gäller. För att beräka saolikhete att ma ite förkastar ollhypotese fastä de ite gäller behövs specifika tilläggsatagade vilket gör dea fråga svårare att behadla. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 19 / 39 Normalfördelad slumpvariabel, testig av vätevärdet Ifall X j, j = 1,,..., är ett stickprov av slumpvariabel X som är N(µ, σ )-fördelad och ollhypotese är µ = µ 0 (eller µ µ 0 eller µ µ 0 ) så väljer vi som testvariabel X µ 0 S t( 1), där X är medelvärdet och S stickprovsvariase. Obs! Det är e följd av atagadet om ormalfördelig att här ite aväds approximatioer så det är ite ödvädigtvis ett problem om stickprovsstorleke är lite. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 0 / 39
Testig av adel eller saolikhet med ormalapproximatio Ifall X j, j = 1,,..., är ett stickprov av e Beroulli(p)-fördelad slumpvariabel och ollhypotese är p = p 0 (eller p p 0 eller p p 0 ) så ka vi som testvariabel välja X p 0 p 0 (1 p 0 ) a N(0, 1). Vi ka lika väl räka summa Y = X j av stickprovet som är Bi(, p)-fördelad och testvariabel (som ite ädras) ka vi skriva i forme Y p 0 p0 (1 p 0 ) a N(0, 1). Obs! I dethär fallet aväder vi e approximativ fördelig och som e tumregel ka ma aväda att approximatioe är tillräckligt bra om mi(p 0, (1 p 0 )) 10. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 1 / 39 p-värde, kritiskt område, t(m)- eller N(0, 1)-testvariabel Vi atar att testvariabel U är t(m)- eller (approximativt) N(0, 1)-fördelad så att dess fördeligsfuktio är F U och att de i testet får värdet u. Om alterativet till ollhypotese är tvåsidigt, dvs. ollhypotese är µ = µ 0, p = p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller: p-värdet är Pr(U u eller U u ) = F U ( u ). Nollhypotese förkastas på sigifikasivå ifall p < dvs. om testvariabels värde ligger i det kritiska området (, u ) (u, ) där u = F 1 U ( ) = F 1 U (1 ). u u G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II / 39
p-värde, kritiskt område, t(m)- eller N(0, 1)-testvariabel, forts. Om alterativet till ollhypotese är esidigt, och ollhypotese är µ µ 0, p p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller p-värdet är Pr(U u ) = 1 F U (u ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariables värde ligger i det kritiska området (u, ) där u = F 1 1 U () = FU (1 ). u G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 3 / 39 p-värde, kritiskt område, t(m)- eller N(0, 1)-testvariabel, forts. Om alterativet till ollhypotese är esidigt, och ollhypotese är µ µ 0, p p 0 osv., dvs. resultate är helt i elighet med ollhypotese då testvariabel är 0 så gäller p-värdet är Pr(U u ) = F U (u ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabels värde ligger i det kritiska området (, u ) där u = F 1 1 U () = FU (1 ). u G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 4 / 39
Testig av två vätevärde, ormalfördelig, samma varias Om X j, j = 1,,..., x och Y j, j = 1,,..., y är (oberoede) stickprov av slumpvariablera X och Y där X N(µ x, σ ) och Y N(µ y, σ ) och ollhypotese är µ x = µ y (eller µ x µ y eller µ x µ y ) så väljer vi som testvariabel Varför X Y (x 1)S x +( y 1)S y x + y ( 1 x + 1 y ) (x 1)S x +( y 1)S y x + y ( 1 x + 1 y ) t( x + y ). Eftersom X j N(µ x, σ ) och Y j N(µ y, σ ) så gäller ( x 1)S x χ ( σ x 1) och ( y 1)Sy χ ( σ y 1) och eftersom X - och Y -slumpvariablera och därmed Sx och Sy är oberoede så är 1 (( σ x 1)Sx + ( y 1)Sy ) χ ( x 1 + y 1). Testvariabel ka Z alltså skrivas i forme där Z = X Y N(0, 1), 1 m C σ ( 1 x + 1 ) y m = x + y och C = 1 (( σ x 1)Sx + ( y 1)Sy ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 5 / 39 Testig av två adelar eller saolikheter Om X j, j = 1,,..., x och Y j, j = 1,..., y är två (oberoede) stickprov av slumpvariablera X och Y där X Beroulli(p x ) och Y Beroulli(p y ) och ollhypotese är p x = p y (eller p x p y eller p x p y ) så väljer vi som testvariabel X Y P(1 P)( 1 x + 1 y ) a N(0, 1) där P = xx + y Y x + y. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 6 / 39
Apassig eller Goodess-of-fit Om X j, j = 1,..., är ett stickprov av slumpvariabel X vars värdemägd är m k=1 A k där mägdera A k är disjukta och ollhypotese är H 0 : Pr(X A k ) = p k, k = 1,..., m så väljer vi som testvariabel m k=1 (O k p k ) p k a χ (m 1), där O k är atalet elemet i mägde { j : X j A k }. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 7 / 39 Test av variase, ormalfördelig Om X j, j = 1,,..., är ett stickprov av slumpvariabel X som är N(µ, σ )-fördelad och ollhypotese är σ = σ0 (eller σ σ0 eller σ σ0 ) så väljer vi som testvariabel ( 1)S σ 0 χ ( 1), där S är stickprovsvariase. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 8 / 39
p-värde, kritiskt område, χ -testvariabel Vi atar att testvariabel C är (approximativt) χ (k)-fördelad och att de i testet får värdet c. Om alterativet till ollhypotese är esidigt och små värde av testvariabel är föreliga med ollhypotese så gäller: p-värdet är Pr(C c ) = 1 F χ (k)(c ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området (F 1 χ (k) (1 ), ). Om alterativet till ollhypotese är esidigt och stora värde av testvariabel är föreeliga med ollhypotese så gäller p-värdet är Pr(C c ) = F χ (k)(c ). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området (0, F 1 χ (k) ()). Om alterativet till ollhypotese är tvåsidigt så gäller p-värdet är mi(f χ (k)(c ), 1 F χ (k)(c )). Nollhypotese förkastas på sigifikasivå om p < dvs. om testvariabel får sitt värde i det kritiska området (0, F 1 χ (k) ( )) (F 1 χ (k) (1 ), ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 9 / 39 Korrelatio Korrelatioe eller korrelatioskoefficiete mella slumpvariablera X och Y är Cov(X, Y ) ρ XY = Cor(X, Y ) = = E( (X E(X ))(Y E(Y )) ), Var(X )Var(Y ) Var(X )Var(Y ) och om (X j, Y j ), j = 1,..., är ett stickprov av slumpvariabel (X, Y ) så är stickprovskorrelatioskoefficiete R XY = (X j X )(Y j Y ) S xy (X j X ) =, (Y j Y ) Sx Sy där och S x = 1 1 S xy = 1 1 (X j X )(Y j Y ), (X j X ), S y = 1 1 (Y j Y ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 30 / 39
Stickprovskorrelatioskoefficietes fördelig Ifall (X j, Y j ), i = 1,..., är ett stickprov av e slumpvariabel (X, Y ) där X och Y är oberoede, så att ρ xy = 0, och de ea av slumpvariablera är ormalfördelad och de adra är kotiuerlig så gäller R XY t( ). 1 RXY Ifall (X j, Y j ), i = 1,..., är ett stickprov av e ormalfördelad slumpvariabel (X, Y ) med 1 < ρ xy < 1 (och σx > 0 och σ y > 0) så gäller ( ) ( ( ) 1 1 + l RXY 1 1 + a N 1 R l ρxy, XY 1 ρ XY ) 1 3 G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 31 / 39 Mista-kvadrat-metode då y b 0 + b 1 x Om ma atar att sambadet mella x och y är y b 0 + b 1 x, puktera (x j, y j ), j = 1,..., är giva och ma bestämmer b 0 och b 1 så att (y j b 0 b 1 x j ) är så lite som möjligt så blir svaret b 1 = (x j x)(y j y) (x j x) = s xy s x och b 0 = y b 1 x, där x = 1 x j och y = 1 y j. Varför? Vi ka skriva kvadratsumma (y j b 0 b 1 x j ) i forme f ( b 0, b 1 ) = (, (y j y) b 0 b 1 (x j x)) och villkoret att de partiella derivata med avseede på b 0 är 0 ger b 0 = 0, dvs. b 0 = 0 och villkoret att de partiella derivata med avseede på b 1 är 0 ger ( b1 (x j x) (y j y) ) (x j x) = 0 och dea ekvatio ger uttrycket för b 1. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 3 / 39
Obs I räkigara ova förekommer iga slumpvariabler me vi ka bra täka oss att sambadet mella variabler x och y är y = β 0 + β 1 x me då ma mäter värdea av y-variabel så förekommer det slumpmässiga fel som leder till att de uppmätta värdea blir y j = β 0 + β 1 x j + ε j, j = 1,..., där ε j är slumpvariabler. Det faktum att ma miimerar (y j b 0 b 1 x j ) (och ite ågot aat uttryck) är föruftigt om ma atar att det ite förekommer ågra fel i x j -värdea och att alla avvikelser frå e rät lije beror på felaktiga y j -värde. Att ma seda miimerar e kvadratsumma och ite tex. absolutbelopp är föruftigt om ma atar att slumpvariablera ε j är ormalfördelade. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 33 / 39 Regressio Vi atar att slumpvariabel Y förutom på slumpe beror på variabel x så att Y = β 0 + β 1 x + ε där ε är e slumpvariabel som vi atar att är oberoede av x. Ett stickprov av Y är därför av type (x j, Y j ), j = 1,..., där ε j = Y j β 0 β 1 x j är oberoede slumpvariabler med samma fördelig, som vi valige atar vara N(0, σ ). Med mista kvadratmetode (som är föruftig precis då ε N(0, σ )) får vi följade estimatorer för β 1, β 0 och σ : B 1 = S xy sx, B 0 = Y B 1 x, S = 1 (Y j B 0 B 1 x j ), där S xy = 1 1 (x j x)(y j Y ). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 34 / 39
Regressio, testvariabler Atag att ε j N(0, σ ), j = 1,..., är oberoede och Y j = β 0 + β 1 x j + ε j, j = 1,...,. Då är ( 1 B 0 N (β 0, σ + x )) ( 1)sx, ( σ ) B 1 N β 1, ( 1)sx, ( )S σ χ ( ). Som testvariabler ka vi aväda W 0 = B 0 β 0 S ( 1 + x ( 1)s x ) t( ), W 1 = B 1 β 1 S t( ). ( 1)s x G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 35 / 39 Ett sambad mella estimatorera Av defiitioera ova följer också att S = 1 S y (1 R xy), Sx R xy = B 1 Sy, och B 1 S = R xy. 1 Rxy ( 1)S x Det seare resultatet visar att test av ollhypotesera β 1 = 0 och ρ xy = 0 ger samma resulat (då ma atar ormalfördelig). G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 36 / 39
Betigade fördeligar av ormalfördeligar, förklarigsgrad Om (X, Y ) är ormalfördelad så är ( ) σ (Y X = x) N µ Y + ρ Y XY σ X (x µ X ), (1 ρ XY )σ Y, dvs. där E(Y X = x) = µ Y + ρ XY σ Y σ X (x µ X ) = β 0 + β 1 x, σ Y β 1 = ρ XY = σ XY σ X σx, β 0 = µ Y β 1 µ X. Med mista kvadratmetode får vi estimat för parametrara β 0 och β 1 som är s y b 1 = r xy = s xy s x sx, b 0 = y b 1 x. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 37 / 39 Betigade fördeligar av ormalfördeligar, förklarigsgrad, forts. Om (X, Y ) är ormalfördelad och X = x så ka vi alltså skriva där Y = β 0 + β 1 x + ε ε N(0, (1 ρ XY )σ Y ). Här är alltså restvariase (1 ρ XY )σ Y de del av variase av Y som ite ka förklaras med beroedet på X och de del av variase av Y som ka förklaras med beroedet på X är ρ XY σ Y σ Y = ρ XY. Aalogt med detta säger vi att talet r xy, som är ett estimat av ρ XY är regressiosmodelles Y j = b 0 + b 1 x j förklarigsgrad. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 38 / 39
Iterpolerig och extrapolerig Om ma har gjort mätigar av ågot slag och fått resultate (x j, y j ), j = 1,..., så vill ma ofta veta vilket värde y skulle få om x = x 0. Ett sätt att räka ut ett rimligt svar är att ata att y b 0 + b 1 x, bestämma b 0 och b 1 och seda räka ut b 0 + b 1 x 0. Ett ekelt sätt att förutom att göra dea räkig också få e uppfattig om hur stort felet ka bli är att ersätta värdea x j, j = 1,..., med x j = x j x 0 och seda i ormal ordig räka ut estimat och göra hypotesprövigar för β 0 i regressiosmodelle Y = β 0 + β 1 x + ε. G. Gripeberg (Aalto-uiversitetet) MS-A0509 Grudkurs i saolikhetskalkyl och statistik Sammafattig, 13 februari 015 del II 39 / 39