Disraeli, England, 1860 talet: Det finns tre grader av osanning. Går ej att mäta hela populationen. Deskriptiv statistik

Torbjörn Ledin Öronklin, Linköping Enkel medicinsk datorstödd statistik Föreläsning för ST utbildningsläkare i Landstinget Östergötland Åtvidaberg ht000 Historiskt grundantagande Disraeli, England, 1860 talet: Det finns tre grader av osanning Lögn Förbannad dikt Statistik 1 Statistiska varianter Varför medicinsk deduktiv statistik? Deskriptiv statistik räkna antalet enheter av olika slag befolkningsstatistik valresultat ingen värdering görs Deduktiv statistik dra slutsatser om det okända grundläggande antaganden om egenskaper samplade observationer av delmängder 3 Går ej att mäta hela populationen dyrt, tidskrävande skapa kunskap för framtiden så snart möjligt förstörande provning Annars enbart retrospektroskopi. Risker? Risker! Faktisk skillnad Ingen skillnad Testet "positivt" Testet "negativt" OK! Typ fel Typ 1 fel OK! Varje statistiskt baserat beslut innebär att man tar en liten (?) risk att påstå något felaktigt Typ 1 felet (alfa error) man tar en risk (stor?) att missa väsentligheter Typ felet (beta error) So what? Statistikern bryr sig inte om eventuella följder, ditt problem! 5 6

Typ 1 fel (alfa) normalfördelning (t, df=10) Probability Density Function Vilka är längst? Grupp 6 män medel 176 cm SD 6.5 cm Grupp 6 kvinnor medel 167 cm SD 5.5 cm t-test antag normalfördelat och rätt lika SD p<0.08 (two tail), accepteras som signifikant Alfafels risken är.8% för påståendet män och kvinnor är inte lika långa 7 y=student(x;10) 0.500 0.375 0.50 0.15 0.000-3.50-1.75 0.00 1.75 3.50 8 Typ fel (beta) t-fördelning df= Probability Density Function y=student(x;) Risken att missa en faktisk skillnad pga för litet antal undersökta individer tillräckligt dålig studie hittar ingenting Mät kvinnor (16 cm, 17 cm) och män (170 cm, 18 cm) t-test (OK!!) p<0.37 NS betauppskattning: >0% 9 0.500 0.375 0.50 0.15 0.000-3.50-1.75 0.00 1.75 3.50 10 Datakvalitet Nominal data Analys av data beror på typ av dem: Nominal (grupptillhörighet) Ordinal (kan ordnas i storleksföljd) Intervall (lika långt mellan stegen i skalan) Kvot (absolut och meningsfull nollpunkt) Klasstillhörighet, utan inbördes ordning Politiska partier, kön, bilsort, vilken klinik Man kan bara räkna antalet individer Begränsade statistik möjligheter Chi, Fisher, binomial, Poisson mfl 11 1

Nominaldata: en grupp Nominaldata: Två grupper Otogen facialispares är mycket ovanligt Sista 10 åren.1 fall /år Förra året 3 fall Dags ändra antibiotikapolicy? Nej! Poisson analys: p<0.16. Slumpen! Well, då? p<0.06 5? p<0.00!! 13 Jämför antalet sjuka i två grupper. Olika? Öron: 7 kv dr, 15 män KK: 1 kv, 11 män Segregerat? Nej, slumpen kan ej uteslutas. Chi: p<0.17 med Yates korrektion (ja!) p<0.8 Oron KK Kvinnor 7 1 Män 15 11 1 Nominal: grp, få pers Nominaldata: Flera grupper Antal super schackspelare i grp? USA Chess mates (16st): Deep Blue, Bobby F Moskva Krasnaja Ploshadj Tovarish (100 st): Gary Kasparov Chi ej OK om antalet pers mkt litet ( 5 ) Fishers exakta! p<0.09 Amris Russkij Super 1 Member 1 99 15 Chi Problem: visar bara OM skillnad finns Var skillnad? Repetera parvis, anpassa p Grp A Grp B Grp C V 11 66 S 5 110 15 C 17 0 5 Fp 6 1 6 M 1 99 0 16 Ordinal data Normalfördelning Kan rangordnas oantastligt T staging av tumörer Betyg G, VG, MVG Icke-parametrisk statistik (bas: ranger) Två grupper: Mann Whitney s U test Före-efter hos en grupp: Wilcoxon s Viktigt att veta om data är normalfördelade Ja => eleganta enkla statistiska metoder! Nej => ofta betydligt krångligare Transformera data? Om så, lucky you! Logaritmering? Roten ur?? Annat??? 17 18

Gaussiska klockkurvan Normalfördelning?? Probability Density Function y=normal(x;100;15) VIKT 0.09 10 9 8 0.0 7 0.015 No of obs 6 5 3 0.007 1 0 0 5 50 55 60 65 70 75 80 85 90 95 100 105 Expected Normal 0.000 50 60 70 80 90 100 110 10 130 10 150 19 Upper Boundaries (x <= boundary) 0 Kolmogorov Smirnovs vodkatest Histogram (MARK-OP.STA 87v*5c) y = 5 * inormal (x; 7.0889; 1.6195) Logaritmisk fördelning?? Variable AGE ; distribution: Lognormal Kolmogorov-Smirnov d =.1111939, p = n.s. Chi-Square: ------, df = 0, p = --- 100% 90% Percent of obs 80% 70% 60% 50% 0% 30% No of obs 3 1 0% 10% 0% <= 5 (50;55] (60;65] (70;75] (80;85] (90;95] (100;105] > 110 (5;50] (55;60] (65;70] (75;80] (85;90] (95;100] (105;110] VIKT 1 0 0 6 8 30 3 3 36 38 0 6 8 50 5 5 56 58 60 Category (upper limits) Expected Kolmogorov Smirnov Testval vid mätvärden No of obs 0 18 16 1 1 10 8 6 Variable AGE ; distribution: Lognormal Kolmogorov-Smirnov d =.1111939, p = n.s. Chi-Square: ------, df = 0, p = --- 0 0 6 8 30 3 3 36 38 0 6 8 50 5 5 56 58 60 Expected 3 Category (upper limits) Normalfördelning enligt K-S vodkatest: parametrisk statistik t-test (parad inom grupp, jämföra två grupper) ANOVA för flera grupper eller komplexa designer Ej normalfördelning: icke-parametrisk statistik Wilcoxon, Mann-Whitney ANOVAs bröder, liten skara

t-test ANalysis Of VAriance Världens mest missbrukade test? Krav: normalfördelning hyggligt lika SD (tumregel < ca 70% högre) Fördel: lättförståeligt enkelt räkna (m, SD, N för grupperna) 5 Enklaste form: envägs ANOVA (oneway) Svarar på: Finns skillnad mellan < 3 gruppers medel? Problem: Jaså, en skillnad nånstans, var då då? Krav: normalfördelning, hyggligt lika SD 6 Sport problemet Statisticas resultat text pentathlon marathon football canowing 1 5.3.3.5.6 5.9.5. 5 3.8 5 3.9 5.3.5 3.8 5. 5.8 5 6.1 5..1 5.5 6 5.5.7 5 6 7 5.3 5. 5.1 8 5.6 5..7.8 9.6.8. 5.6 10 5.3.1.9 5.3 7 DESIGN: 1 - way ANOVA, fixed effects DEPENDENT: 1 variable: VALUE BETWEEN: 1-GRUPPNR ( ): 1 3 WITHIN: none STAT. Summary of all Effects; design: (-anovor.sta) GENERAL 1-GRUPPNR MANOVA df MS df MS Effect Effect Effect Error Error F p-level 1 3* 1.55333* 36*.833* 5.9180*.0011* 8 Variable: VALUE 5. 5.3 5. 5.1 5.0.9.8.7.6 Medelvärden Plot of Means GRUPPNR Main Effect F(3,36)=5.9; p<.001 Och var låg skillnaderna? Post-hoc test (tex Tukey) STAT. Tukey HSD test; variable VALUE (-anovor.sta) GENERAL Probabilities for Post Hoc Tests MANOVA MAIN EFFECT: GRUPPNR {1} {} {3} {} 5.60000.610000.630000 5.300000 GRUPPNR 1.08161*.03998*.997916 {1} {}.999761.018015*.08161* 3 {3}.03998*.999761.0561* {}.997916.018015*.0561*.5 G_1:1 G_: G_3:3 G_: GRUPPNR 9 30

Komplex design ANOVA Solklart! Två grupper om tre personer Samma test vid tre tillfällen Tre upprepningar varje gång Repeated measures över två nivåer i två grupper Fyrvägs ANOVA 0 GRUPP T1D1 T1D T1D3 TD1 TD TD3 T3D1 T3D T3D3 35 1 1 5 53 60 0 5 57 8 37 6 30 1 35 1 50 30 37 7 5 3 1 5 3 1 60 65 75 58 5 70 0 7 50 0 GRUPP: G_1:1 50 8 61 5 3 51 16 3 35 15 REPEAT level_ REPEAT level_ REPEAT level_ GRUPP: 5 5 55 30 37 3 7 37 level_1 level_3 level_1 level_3 level_1 level_3 G_: 6 56 60 77 0 39 57 31 9 6 31 TIME: level_1 TIME: level_ TIME: level_3 3 65 Variable: Var.1 70 60 55 50 5 Plot of Means 3-way interaction F(,16)=.36; p<.8357 Fido Statistik? DESIGN CATEGORY PROCEDURES PARAMETRICS NONPARAMETRICS One group Binomial test Student's t-test Wilcoxon rank sum test Sign test Poisson test McNemar test Two groups Fisher's exact test Student's t-test Mann-Whitney U test Chi- test (Yates correction) Many groups Chi test ANOVA + nd stage e.g. Kruskall Wallis test Bonferroni methods Correlation - Pearson's r Spearman rank correlation Available descriptors Frequency counts mean, SD median, percentiles Datakvalitet Förutsättningar Metodval Beräkning Tolkning Riskuppskattning 33 3 Statistik tutorials Web länk Med statistik kompendium och nedladdningsbara tutorials: http://hem.fyristorg.com/medve OBS!! inget www i början. 35 36

Tack för uppmärksamheten! 37