Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: Kvantitativt beskriva fenomen Undersöka samband mellan variabler Undersöka skillnader mellan grupper i något avseende Undersöka skillnader inom gruppen
Population Observationsenhet Stickprov Variabel Ålder Kön Värden 37 år Kvinna Blodtryck 120/80
Diskret Kvantitativ Variabel Kontinuerlig Kvalitativ Dikotom Polykotom
Olika skalor Nominalskala = kategorisering Ordinalskala = rangordning Intervallskala = rangordning + lika långa intervall Kvotskala = rangordning + lika långa intervall + absolut nollpunkt
Nominalskala (nomen = namn) Markera det rätta alternativet nedan. 1. Kvinna 2. Man Vilket nationalitet du är?. svensk. finsk. norsk. dansk
Ordinalskala Hur uppfattar du din hälsa? Ringa in siffran framför det påstående som stämmer bäst med din uppfattning om din hälsa. 1. Min hälsa är mycket dålig 2. Min hälsa är ganska dålig 3. Min hälsa är ganska bra 4. Min hälsa är mycket bra
Intervallskala, kvotskala Längden på 10 personer var: 134.4, 125.6, 156.3, 173.9, 182.8, 183.9, 185.7, 188.5, 189.2, 199.9
Beskrivande statistik Överskådlig sammanfattning av data Frekvenser Centralmått - var tyngdpunkten ligger Spridningsmått - hur stor variationen är Diagram
Frekvenstabell Värde Frekvens Procent Kumulativ procent 110-119 10 IIIIIIIIII 33 33 120-129 12 IIIIIIIIIIII 40 73 130-139 5 IIIII 17 90 140-149 2 II 7 97 150-159 1 I 3 100 30
Centralmått Spridningsmått Typvärde (T) Variationsvidd (r) Median (Md) Kvartilavstånd (Q) Medelvärde (M) Standardavvikelse (s)
37, 37, 40, 39, 38, 41, 43, 44, 36, 37 36, 37, 37, 37, 38, 39, 40, 41, 43, 44 Q 1 =37 Q 3 =41 Md=38.5 T=37, r= 36-44 (r=8) M= X n = 39.2
S= (x-m) 2 M=39.2 n-1 36, 37, 37, 37, 38, 39, 40, 41, 43, 44 x x-m (x-m) 2 36-3.2 10.2 37-2.2 4.8 37-2.2 4.8 37-2.2 4.8 38-1.2 1.4 39-0.2 0.04 40 0.8 0.6 41 1.8 3.2 43 3.8 14.4 44 4.8 23 67.2 67.2 S = 9 S= 2.7
68.3% 95.4% 99.7%
1600 1400 1200 1000 800 600 400 200 0 1 2 3 4 5 6 7 8 9 10 11
800 700 600 500 400 300 200 100 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Stapeldiagram Hälsa Grundskola Gymn.skola Högskola Man Kvinna
Box & Whisker plot 75% Max 25% Md Max 75% Median 25% Min Min
Cirkeldiagram 17% Olika utbildningar 46% 37%
Statistisk inferens Att dra slutsatser om egenskaperna hos en population på basis av egenskaperna hos ett urval
Mätningsfel Urvalsfel Population Stickprov Mätfelet Standard error
Statistisk inferens Med hjälp av mätfelet kan vi uppskatta sannolikheten för att våra resultat beror på slumpfaktorer i urvals-och mätprocedurer. SE S n
Nollhypotes (H0) Ett antagande om ingen skillnad eller inget samband Alternativhypotes (H1) Ett antagande om att det finns skillnad eller samband
Signifikansnivå sannolikheten att få medelvärdet som vi fått i vår resultat under förutsättning att nollhypotesen är sann: p < 0.05, p < 0.01, p < 0.001
Typ I-fel Ett falskt positivt resultat Typ II-fel Ett falskt negativt resultat
Enkelsidig - dubbelsidig prövning
Analysområden Skillnader mellan grupper Skillnader inom samma grupp över tid Samband mellan variabler
Statistisk analys (analysverktyg) Parametrisk statistik Medelvärden och standardavvikelser Bakomliggande normalfördelning Intervall-, kvotskala (ev. ordinalskala) Icke parametrisk statistik Typvärde, median, variationsvidd, kvartilavstånd Rangordning Okänd bakomliggande fördelning Litet antal personer Alla typer av skalor
Parametriska Statistiska analyser Icke-parametriska Skillnader mellan grupper vid samma tidpunkt Oberoende / oparat t-test Mann Whitney U Independent / unpaired t-test Willcoxon rank sum test Willcoxon s rangsummetest Skillnader inom samma grupp över tid Beroende / parat t-test Wilcoxon s teckenrangtest Dependent / paired t-test Wilcoxon signed rank test Samband mellan variabler Pearson s produktmomentkorrelation Spearman s rangkorrelation Chi 2 test
Independent samples t-test Group Statistics SESTREM GRUPP 1,00 2,00 N Me a n St d. Deviat ion St d. Er ro r Me a n 51 157,92 37,37424 5,23344 32 125,53 40,17300 7,10165 Independent Samples Test SESTREM Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2- tailed) t- test for Eq uality of Means Mean Difference 95%Confidence Interval of the St d. Er ror Difference Difference Lower Uppe r,57 5,450 3,734 81,000 32,3903 8,67550 15,129 49,652 3,672 62,403,001 32,3903 8,82170 14,758 50,022
Mann-Whitney Test Ra nks SESTREM GRUPP 1,00 2,00 Total N 51 49,32 2515,5 32 30,33 970,50 83 Mean Rank Sum of Ranks Tes t Sta tis tics a Median (SES) Grupp 1: 157 Grupp 2: 125 Mann -Wh it ney U Wilcoxon W Z Asymp. Sig. (2- tailed) SESTREM 442,500 970,500-3,497,00 0 a. Grouping Variable: GRUPP
T-test Pair 1 SESTREM SESETTÅR Paired Samples Statistics Mean N Std. Deviation Std. Error Mean 145,2561 82 41,6164 4,5958 148,1220 82 45,9859 5,0783 Paired Samples Test Pair 1 SESTREM - SESE Paired Differences 95% Confidence Inte of the Difference Mean Std. DeviatioStd. Error Mea Lower Upper t df Sig. (2-tailed -2,8659 32,5405 3,5935-10,0158 4,2841 -,798 81,427
SESETTÅR - SESTREM a. b. c. Willcoxon Signed Rank Test Negative Ranks Positive Ranks Ties Total SESETTÅR < SESTREM SESETTÅR > SESTREM SESTREM = SESETTÅR Ranks N Mean Rank Sum of Ranks 27 a 39,41 1064,00 45 b 34,76 1564,00 10 c 82 Z Test Statistics Asymp. Sig. (2-tailed) a. b. Based on negative ranks. Wilcoxon Signed Ranks Test b SESETTÅR - SESTREM -1,403 a,161 Descriptive Statistics SESTREM SESETTÅR Percentiles N Mean Std. Deviation Minimum Maximum 25th 50th (Median) 75th 83 145,4337 41,3935 53,00 200,00 115,0000 158,0000 177,0000 85 148,8588 46,0743 37,00 200,00 106,5000 165,0000 191,0000
Samband (korrelation) mellan variabler Parvisa observationer x - och y Samvariation, inte orsaksförhållande Samband kan vara positiva eller negativa Graden av linjärt samband beräknas med den så kallade korrelationskoefficienten, r, som kan variera mellan -1 och +1
r=1 r=0 r=0 r=- 0.97 r= 0.63 r= -0.79
Correlations Correlations SESTREM VASTREM Descriptive Statistics Mean Std. Deviation N 145,4337 41,3935 83 3,0180 2,2083 82 SESTREM VASTREM SESTREM Pearson Correlation 1,000 -,665 ** Sig. (2-tailed),,000 N 83 82 VASTREM Pearson Correlation -,665 ** 1,000 Sig. (2-tailed),000, N 82 82 **. Correlation is significant at the 0.01 level (2-tailed). Correlations Spearman's rho SESTREM VASTREM Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N **. Correlation is significant at the.01 level (2-tailed). SESTREM VASTREM 1,000 -,713 **,,000 83 82 -,713 ** 1,000,000, 82 82
Statistiska analyser kvalitativa variabler För nominal- / kategoridata används analyser som är baserade på chi-två x 2 fördelningen. Räknemässigt används samma analys vare sig man undersöker 1. Skillnad mellan grupper 2. Samband mellan variabler För 1 gäller två eller flera stickprov och en variabel För 2 gäller ett stickprov och två variabler
Konfidensintervall Punktskattning av en variabels medelvärde i populationen är alltid osäker eftersom den gjorts utifrån enbart en del av populationen - stickprovet. Därför bildas ofta ett intervall inom vilket det sanna medlevärdet med viss sannolikhet ligger. Ett sådant intervall kallas konfidensintervall. Konfidensintervall kan bildas för enstaka medelvärde eller för medelvärdesskillnad. Konfidensintervall anges med sannolikheterna 95%, 99% eller 99.9%.