Statistik Språkligt och historiskt betyder statistik ugefär sifferkuskap om state E Statistisk udersökig består av fyra delar: Plaerig Dataisamlig Bearbetig Beskrivade statistik (kap 1) Statistisk aalys (kap 7-10) Presetatio Statistiska udersökigar förekommer iom ästa alla veteskaper. Tex aturveteskap, tekik och samhällsveteskap. Det fis tre sorters löger: lög, förbaad lög och statistik 1
Fyra syfte med statistik Deskriptiv iformera, kartlägga Hypotesprövade Verifiera eller förkasta ett atagade (hypotes) Utredade kausala sambad, orsakssammahag Progosticerade vad häder i framtide?, vad häder om vi gör så här? alltför måga försöker spå om framtide, uta att es kua historie
Några valiga begrepp Elemet (idivid) - de som iformatio söks om Mägde av dessa elemet kallas ofta populatio. Populatioe ka vara ädlig eller oädlig. Total udersökig hela populatioe studeras Stickprovsudersökig del av populatioe studeras Stickprov - e del av populatioe Validitet - mäter vi det vi avser att mäta? Reliabilitet - är de mätigar vi gör tillförlitliga? Kategori variabel, (Kvalitativ, icke-umerisk variabel) färg, ogift, god mat, attityd, servicegrad, kudöjdhet (ka ges siffervärde) Kvatitativ variabel (umerisk) Kotiuerlig - alla (oädligt atal) värde iom ett itervall Diskret - vissa (ädligt atal) värde iom ett itervall 3
Något om mätskalor Variabel Kvalitativ (Icke-umerisk) Kvatitativ (Numerisk) Nomialskala (ebart klassificerig) Ordialskala (ordig) Itervallskala (ordig + differes) Kvotskala (ordig + differes + kvot) Ex. Ögofärg Ex. Betyg Ex. Vikt Ex. Temp ( K) Mats Guarsso Statistik LP 013 4
Ett exempel på stickprovsudersökig (icke-experimetell udersökig) E firma tillverkar mätapparatur till vilke det behövs elektroiska kretskort. Det blir dyrt om ma får i för måga defekta kretskort i produktioe varför uderleveratöre lovar högst 0,5% defekta kretskort. Kretskorte ligger i förpackigar med 10 000 i varje. Ma udersöker 00 på måfå utvalda kort ur varje förpackig. I e sädig på 80 förpackigar fick ma följade resultat. (Detta är ett exempel på diskret variatio) 5
Ett exempel på stickprovsudersökig (icke-experimetell udersökig) Atal defekta kretskort blad 00 utvalda i 80 förpackigar. Gruddata 1 1 0 3 3 4 4 7 4 1 1 0 0 1 1 0 0 4 1 5 3 5 1 4 0 1 4 1 5 1 3 3 1 1 3 1 4 1 3 1 1 4 3 1 3 5 4 1 3 3 0 0 1 4 3 0 3 1 1 1 1 Vad ka ma säga om p, adel defekta kretskort i sädige? Fråga ka preciseras på 3 olika sätt: Puktskattigsproblem hur skattar ma p? Itervallskattigsproblem hur ager ma ett itervall som med give säkerhet iehåller p? Hypotesprövigsproblem hur prövar ma hypoteser rörade p? 6
Ett exempel på stickprovsudersökig (icke-experimetell udersökig) Frekvestabell för atalet defekta kretskort 7
Ett exempel på stickprovsudersökig (icke-experimetell udersökig) Totalt valdes 00*80 = 16000 kretskort ut för udersökig. Stickprovstorlek är på 16000, = 16000. Stickprovet valdes ut blad totalt 80*10000 = 800000 kort. Populatiosstorleke är på 800000, N = 800000 Felkvote i stickprovet var 168/16000 = 0.0105 dvs ågot större ä de utlovade. Vad ka ma säga om felkvote i sädige? Hur säkra uttalade ka ma göra om felkvote? 8
Ett exempel till på stickprovsudersökig (Experimetell udersökig) I Grägesberg gjordes ett fullskaleförsök för att bl.a studera hur låg tid det tar att fylla e m 3 vag med malm. Ma oterade tide frå det att lastmaskie började köra i i bergshöge tills att lastare kopplade loss vage. Följade resultat erhölls. (Detta är ett exempel på kotiuerlig variatio) 9
Ett exempel till på stickprovsudersökig Tidsåtgåg vid lastig i sek. (Experimetell udersökig) Gruddata 85,80,85,77,101,109,111,109,148,183,153,78,84,80,94,104,96,100 117,11,103,1,155,153,18,17,69,84,99,110,11,181,176,79,94 111,111,118,133,140,80,84,100,101,1,19,73,75,111,96,16,147 90,103,100,96,116,18,86,80,97,118,14,150,96,105,83,99,140,79 78,87,107,134,140,79,87,104,153,134,8,91,104,18,76,108,141 134,117,110,149,119,11,116,114,130,90,97,17,113,96,106,107, 108,18,110,109,85,95,116,118,110,91,16,97,11,107,104,19, 06,11,91,119,118,105 Vad ka ma säga om m, de geomsittliga tidsåtgåge för att lasta e vag? Fråga ka preciseras på 3 olika sätt: Puktskattigsproblem hur skattar ma m? Itervallskattigsproblem hur ager ma ett itervall som med give säkerhet iehåller m? Hypotesprövigsproblem hur prövar ma hypoteser rörade m? 10
Ett exempel på stickprovsudersökig (icke-experimetell udersökig) Frekvestabell för tidsåtgåg vid lastig, Klassidelat material Tidsåtgåg Frekves Rel.frekves Kum.frekves 75 1.60 1.60 75 85 17 13.6 15. 85 95 13 10.4 5.6 95 105 17.6 43. 105 115 5 0.0 63. 115 15 16 1.8 76.0 15 135 14 11. 87. 135 145 4 3.0 90.4 145 155 7 5.60 96.0 155 165 1 0.800 96.8 165 175 1 0.800 97.6 175 3.40 100. 11
Ett exempel på stickprovsudersökig (icke-experimetell udersökig) 1) Vad är de geomsittliga tidsåtgåge? De geomsittliga tidsåtgåge är x = 110. s. ) Hur mycket varierar det? Stadardavvikelse i stickprovet är s = 3.7 s. 3) Hur stor adel av vagara överstiger mi? Adele av vagara som överstiger mi är 8%. Hur säkra är dessa uttalade? 1
Huvudproblem iom statistikteori Verklighet 1. Formulera praktiskt problem 3. Isamla data 5. Drag praktiska slutsatser Modell. Gör slumpmodell 4. Gör statistisk aalys Vi kommer att syssla mest med teori krig pukt, 4 och 5
Puktskattig Defiitio Ett slumpmässigt stickprov x 1, x,... x frå ågo fördelig F utgörs av observatioer av oberoede stokastiska variabler X 1, X,... X var och e med fördelige F. Ett utfall x 1,..., x av stokastiska variabler X 1,..., X kallas för ett observerat stickprov av storleke Fördelige F beror av e (eller flera) okäd parameter q som vi är itresserade av att få iformatio om. Parameter ka ta värde i ett parameterrum W Q. Ex. W Q = (- < q < ) eller W Q = (0 < q < 1) 14
Puktskattigar - äve dessa beror av slumpe Vi är itresserade av att skatta de okäda parameter baserat på våra mätdata, x 1, x,... x med ågo lämplig fuktio. Defiitio E puktskattig θ obs = θ(x 1, x,, x ) (tal) av e okäd parameter θ är e fuktio av stickprovet, x 1, x,, x. Detta stickprov ska se som utfall av stokastiska variabler, X 1, X,, X, med fördeligar som alla beror på θ. Puktskattig θ obs är ett utfall av stickprovsvariabel θ = θ X 1, X,, X, (stokastisk variabel)
Öskvärda egeskaper på e puktskattig E puktskattig q obs * sägs vara: Vätevärdesriktig, om skattiges, q*, vätevärde är lika med q, dvs E[q*] = q (i geomsitt hamar ma rätt ) Kosistet, om för varje fixt q W Q och för givet e > 0 gäller att P( q *- q < e)1, stickprovsstorleke (Stora tales lag) Effektiv, om q 1 * och q * är två vätevärdesriktiga skattigar av q. Om V[q 1 *] < V[q 1 * ] sägs q 1 * vara e effektivare, saolikt bättre, skattig av q ä q *. Ha ett litet eller iget systematiskt fel, bias, E[q*] - q 0. Om q* är VVR är E[q*] - q = 0 16
Allmäa vätevärdesriktiga puktskattigar Låt X 1, X,... X, där X i är oberoede och likafördelade stokastiska variabler. Låt x 1, x,..., x vara ett stickprov på X "Bästa"sättet att skatta ett okät vätevärde, m, är * m X och μ * x eftersom dea är VVR och kosistet. obs "Bästa"sättet att skatta e okäd varias,, är 1 1 ) * ) och ) * S X X s x x) Eftersom dea är VVR. 1 1 i obs i1 i1 i
Låt kallas Maximum-Likelihood-metode Defiitio x, x 1 Fuktioe P( X1 x1, X x,.., X x; ) (diskreta variabler) L( ) f X,,... ( x1, x,.., x ; ) (kotiuerliga variabler 1 X X kallas likelihood - fuktioe eller L - fuktioe Det värde,.., x * obs var ett stickprov., för vilket L( ) atar sitt största värde iom ML - skattige av., 18
Mista-kvadrat-metode Defiitio Låt x 1, x,..., x vara ett stickprov på X 1, X,... X vars vätevärde är käda me beror av e okäd parameter θ, E(X i )=µ i (θ). Det värde q obs *, för vilket fuktioe Q θ = ( x i μ i (θ)) i=1 atar sitt mista värde kallas MK-skattige av θ. 19
Itervallskattig E itervallskattig av e parameter är ett itervall med slumpvariabler som gräser Kofidesgrade, (1-α), för e itervallskattig är saolikhete att parameter tillhör itervallet E observerad itervallskattig kallas för kofidesitervall Metoder som ite kräver käd fördelig kallas för icke-parametriska Metoder som kräver käd fördelig kallas för parametriska 0
Några hjälpfördeligar Om X 1, X,..., X är oberoede och N(0,1) så är i=1 X i χ () Chi--fördelad med frihetsgrader Om X 1, X,..., X är oberoede och N(µ,σ) så är 1 σ (X i X) i=1 χ ( 1) Chi--fördelad med frihetsgrader 1
Några hjälpfördeligar Om X 1, X,..., X är oberoede och N(µ,σ) så är X μ σ/ t 1 1 σ i=1 (X i X) / t-fördelad med -1 frihetsgrader
Kofidesitervall för m där är kät - ormalfördelig X är e stokastisk variabel Låt X 1, X,..., X vara ett stickprov av X, där X i är oberoede och N(µ,σ) Låt x 1, x,..., x vara e observatio av stickprovet Ett kofidesitervall för µ med kofidesgrade 1- fås då av σ μ x ± λα, 1 α 100% där / fås ur ( / ) 1 / 3
Kofidesitervall för m där är okät - ormalfördelig X är e stokastisk variabel Låt X 1, X,..., X vara ett stickprov av X, där X i är oberoede Låt x 1, x,..., x vara e observatio av stickprovet Ett kofidesitervall för µ med kofidesgrade 1- fås då av ( 1) σ μ x ± t α/, 1 α 100% ( 1) där t α/ fås ur t-fördelige, F(x), med -1 frihetsgrader X m F ( 1) t α/ = 1 α/ */ t( 1) t-fördelige är e släktig till ormalfördelige och fis i tabeller för olika atal frihetsgrader och olika saolikheter, / (eller 1-. /) Då atalet frihetsgrader blir stort, ärmar sig t-fördelige e ormalfördelig 4
Kofidesitervall för varias - N(m,) X är e stokastisk variabel Låt X 1, X,..., X vara ett stickprov av X, där X i är oberoede och ormalfördelade N(m,) * ( 1) ( 1) Ett kofidesitervall, som är uppåt begräsat och med udre gräs 0, med kofidesgrade 1- fås då av ( xi x) 1 1 0, 0, ( ) i s 1 1,( ) 1,( 1) 1 ( X X ) ( 1) i i1 där 1-,(-1) fås ur -fördelige, F(x), med -1 frihetsgrader: F( 1-,(-1) ) = 5
Tvåsidigt kofidesitervall för varias - N(m,) E tvåsidig itervallskattig av variase, ², kofidesgrade 1- fås av ( 1) s, ( 1 ) s 1 och för stadardavvikelse, /,( ) 1 /,( 1) ( 1) s ( 1) s, /,( 1) 1 /,( 1) 6
Stickprov i par - ormalfördelig Vi har parvisa observatioer (X i, Y i ), i = 1,..., X i är ormalfördelad N(m i, X ) Y i är ormalfördelad N(m i +, Y ) Pare (Xi, Yi), i = 1,..., är oberoede Studera Z i =X i - Y i, vilket är ormalfördelad vilket också ka skrivas N(,) N, V[ Y i X i ] Studera de observatioera av Z i (Behadlas som i e-stickprovsfallet med okäd s) 7
Två stickprov - ormalfördelig X 1, X,..., X 1 är stickprov med fördelige N(m 1,) Y 1, Y,..., Y är stickprov med fördelige N(m,) Stickprove är oberoede X Y (μ 1 μ ) σ 1 1 1 N 0,1, om σ käd X Y (μ 1 μ ) σ 1 1 1 t 1 +, om σ okäd Där σ = s p = 1 1 s x + 1 s y 1 + Stadardavvikelsera måste vara lika i modelle, aars går det ite att vikta ihop dem, se kap 11.7 s 67. 8
Om ma ite har ormalfördelig? Teckeitervall är e icke-parametrisk metod för itervallskattig av mediavärde Om vi har stora stickprov frå e fördelig med vätevärde E[X i ] = m och V[X i ] =, så är X / m N(0;1) X m N(0;1) * / Eligt Cetrala Gräsvärdes Satse
Teckeitervall - e icke-parametrisk metod Låt x vara e stokastisk variabel Låt X 1, X,..., X vara ett stickprov av storleke, där X i är oberoede Orda i storlek e observatio så att: X (1) X ()... X () Ett kofidesitervall för media,m, är [X (1), X () ] Kofidesgrade är 1-0.5 m Kofidesgrade miskas om ma i stället tar [X (), X (-1) ], och så vidare... X (1) X () Kofidesgrad 1 ( 05. 1 05. ) 30
Väljarbarometer - kofidesitervall för p I e mägd med N elemet är e adel p av speciellt slag. Blad de N elemete väljs elemet. X är atal speciella elemet blad de Då gäller: X Hyp(N,, p) Om N stort (/N<0.1) gäller approximativt: X Bi(, p) Om stort (>30) gäller approx: X N p; p(1 p) ) Om p * skattas med p * =x/, ger detta följade kofidesitervall: p p * / p * (1 p * ) med approximativa kofidesgrade 1-
Hypotesprövig Givet ett stickprov x =(x 1, x,..,x ) frå ågo fördelig. Vill pröva e ollhypotes H 0, H 0 iebär att fördelige specificeras ågot sätt. (ex. p = 0.5, H 0 : = 100) Sätt upp e mothypotes H 1, ett alt till H 0. Vi ska pröva ollhypotese H 0 mot mothypotese H 1 med hjälp e testvariabel eller teststorhet, t(x) vilke är e obs på stickprovsvariabel t(x). Age kritiskt område C, e del av det område t(x) varierar över Testet blir seda Förkasta H 0 om t(x) C, förkasta ite H 0 om t(x) C, Med testets sigifikasivå (felrisk),, meas = P(förkasta H 0 H 0 sa) Ett bra test har låg sigifikas ivå och hög saolikhet att upptäcka att H 1 sa dvs hög styrka. Testets styrka = P(förkasta H 0 H 1 sa) Observera att om H 0 ite förkastas så accepteras ite H 1 3
Test av m, kät - ormalfördelig X är e stokastisk variabel Låt X 1, X,..., X vara ett stickprov av där X i är oberoede och ormalfördelade N(m,) Låt x 1, x,..., x vara e observatio av stickprovet Esidig hypotesprövig på sigifikasivå H 0 : m = m 0 ; H 1 : m > m 0 (alterativt H 1 : m < m 0 ) Förkasta H 0 om x > m 0 (alterativt x m 0 ) Tvåsidig hypotesprövig på sigifikasivå H 0 : m = m 0 ; H 1 : m m 0 Förkasta H 0 om där fås ur x m eller x > m ( ) 0 / 0 / 1 33
H 0 : m = 100 H 1 : m = 110 34
Test av m, okät - ormalfördelig X är e stokastisk variabel Låt X 1, X,..., X vara ett stickprov av X där X i är oberoede och ormalfördelade N(m,) Låt x 1, x,..., x vara e observatio av stickprovet Esidig hypotesprövig med sigifikas H 0 : m = m 0 ; H 1 : m > m 0 (alterativt H 1 : m < m 0 ) s s Förkasta H 0 om x m0 t (alterativt x > m t,( 1) 0,( 1) ) Tvåsidig hypotesprövig med sigifikas H 0 : m = m 0 ; H 1 : m m 0 Förkasta H 0 om x t s eller x t s m0 / > m,( 1) 0 /,( 1) där t,(-1) fås ur t-fördelige, F(t,(-1) ) = 1-35
Kofidesitervall./. hypotesprövig Kofidesitervall För m, kät x x t, x / / s x t s, /,( 1) /,( 1) ormalfördelig x Hypotesprövig För m, kät x m eller x > m 0 / 0 / Esidig hypotesprövig För m, okät För m, okät m x > m 0 0 x t s eller x t s m0 / > m,( 1) 0 /,( 1) Esidig hypotesprövig x s m0 t x > m t,( 1) 0,( 1) s 36
Direktmetode H 0 : ollhypotese (om ett visst värde) Utgå frå e observatio Räka ut saolikhete, 0, att få ett lika extremt eller extremare värde på testvariabel uder förutsättig att H 0 är sa Jämför med sigifikasivå Om 0 < så förkastas H 0 Om 0 > så förkastas ite H 0 Speciellt avädbar för diskreta fördeligar 37
Tecketest Fördeligsoberoede Observatioer i par, (x i, y i ), i =1,..., där variatio mella pare söks H 0 : lika resultat H 1 : x är extremare ä y Jämför varje par Räka de gåger, X, då x i är extremare ä y i vid parvis jämförelse Direktmetode: beräka saolikhete för utfallet eller extremare Bi(, 0.5) i detta fall Jämför med sigifikasivå 38
Givet E hypotes H 0, ger ett förvätat utfall E i, i = 1,, k Mothypotes H 1 : H 0 gäller ite E sigifikasivå Ett observatiosmaterial, observatioer O i, i = 1,, k Beräka Q - test (hypotesprövig) k Oi E ( i ) E i1 i Q (k-1) Förkasta H 0 om Q,(k-1),,(k-1) fås ur tabell är sigifikasivå k-1 är atalet frihetsgrader F(,(k-1) ) = 1-, där F(x) är fördeligsfuktioe för 39
- test (exempel) E kudekät med tre glassar: A, B och C 40 kuder får välja glass H 0 : glassara är lika populära hos kudera mot H 1 : mist e av glassara skiljer sig frå de övriga ifråga om popularitet hos kudera Sigifikasivå: = 1 % Utfall (siffror iom paretes är förvätat utfall om H 0 sa) Beräka Q = (60-80) /80+ (68-80) /80 + (11-80) /80 = 19.6 Atalet frihetsgrader: k-1 = 3-1 = A B C Atal 30 (80) 68 (80) 11 (80) 1%,() = 9.10, således förkasta H 0 40
- test (fördelige F 0 helt käd) Låt x 1, x,..., x vara e observatioer frå e okäd fördelig, F F 0 är e helt käd fördelig, H 0 : F = F 0, H 1 : F F 0 Dela i observatiosmaterialet i klasser a i-1 < x a i, i = 1,..., k (a 0 och a k är obegräsade edåt respektive uppåt) O i, atal observatioer i klasse E i, förvätat atal observatioer i klasse om H 0 sa ka beräkas som p i, där p i är saolikhete för e observatio i klasse k Beräka Q Oi Ei Q Q (k-1) ( ) i1 Ei Förkasta H 0 om Q,(k-1), är sigifikasivå F(,(k-1) ) = 1-, där F(x) är fördeligsfuktioe med k-1 frihetsgrader 41
- test (fördelige F 0 ite helt käd) Låt x 1, x,..., x vara e observatioer frå e okäd fördelig, F F 0 är e ite helt käd fördelig, H 0 : F = F 0, H 1 : F F 0 Skatta de okäda parametrara i de ataga fördelige F 0 Gör på samma sätt som för helt käd fördelig, me atalet frihetsgrader är k-1-(atalet skattade parametrar) 4