Varför? Statistik e itroduktio Frida Eek frida.eek@med.lu.se Framtida forskig? Projektarbete? Förståelse! Tolkig! Kritisk graskig/utvärderig! Statistik 1 2 Upplägg Föreläsig 1 q Datatyper q Lägesmått och spridigsmått q Puktskattig och tillhörade osäkerhet q Itroduktio till hypotesprövig Föreläsig 2 q Mer om hypotesprövig q Itroduktio till statistiska test: q Gruppjämförelser q Itroduktio till korrelatio och lijär regressio Studiepopulatio Statistik e överblick Stickprov Dataisamlig Räkestuga/frågestud Examiatiosuppgift Skattigar och hypotes-prövigar à slutsatser Aalys Beskrivig 3 Aalytisk statistik Deskriptiv statistik 4 Deskriptiv statistik aväds för att beskriva urvalet/study sample/försökspersoera dvs dem/det du gjort mätigara på! Statistiska test aväds för att uttala dig om de bakomliggade populatioe ( alla ) Viktiga dimesioer vid val av test (och äve val av deskriptiv statistik) Urvalsstorlek Mätivå/skaltyp Fördelig av data Studiedesig 5 6 1
Variabeltyper och mätivåer Studiedesig: Tvärsitt eller upprepade mätigar? -Paired or opaired data? ( repeated measuremets ) Hur måga grupper? (1, 2 eller fler?) Variabel=ågot/e egeskap som ka ata olika värde Kategorisk eller metrisk/umerisk data? Samples size: Stort eller litet urval? Nomialskala Ordial eller ragskala Itervall skala Kvotskala Fördelig: Normalfördelat eller sedfördelat? (Symmetriskt eller asymmetriskt) 7 8 Skalor Skala för observatioera Kvalitativa data Nomial Ordial Olika kategorier Ja Kvatitativa (metriska) data Ja Itervall Ragordig Nej Avståd mella kat. Nollpukt Ja Ja oklart ---- Ja ---- ---- Ja ---- Exempel 1 Ma 2 Kvia 5. Ja, hela tide 4 Ja, ofta 3 Ja, iblad 2 Ja, ågo gåg 1. Nej, aldrig Temperatur Summerig av de viktigaste distiktioera Kategorisk data: Nomialskala: Olika kategorier, ige ibördes ragordig. (Ex husdjurs-art, utbildigsprogram/äme, typ av diagos osv) Om edast två möjliga värde (ma/kvia, sjuk/frisk) kallas det äve biär eller dikotom variabel. Ordialskala: Kategorier med ibördes ragordig, me ma ka ej säga exakt hur stor skillade är mella varje kategori. Evetuella ummer är edast etiketter. Ma vet att tex 5 (= alltid ) är mer ä 3 (= iblad ), me ite hur mycket mer (och kaske ite precis lika mycket mer som 3(= iblad ) är jämfört med 1 ( aldrig )). Kvot Ja Ja Ja Ja Ålder, vikt 9 10 Spelar skalivå ågo roll? Numerisk data Numerisk/metrisk/kvatitativ skala: värdet står för ågot exakt, siffra betyder ågot i sig. Ex lägd, vikt, reaktiostid, atal bar, atal kattugar. Lika itervall mella varje steg på skala. Ma vet att 3 kattugar är 1 kattuge mer ä 2 kattugar (och lika måga fler som 5 kattugar är jämfört med 4 kattugar!). Ma vet att ågo som är 20 år är dubbelt så gammal som ågo som är 10 år. Numeriska/kvatitativa skalor ka vara atige diskreta (ka ata edast heltal, tex atal bar (eller kattugar!)) eller kotiuerliga (ka ha vilket värde som helst ikl decimaler, tex reaktiostid, vikt). Val av deskriptiv presetatio styrs av skalivå Val av test: (kombiatioe av) olika skalivåer passar för olika test. Typ av test avgörs därför blad aat av skalivå (i kombiatio med studiedesig, sample size och huruvida ev metriska variabler är ormalfördelade eller ej) 11 12 2
Deskriptiv statistik Nomialdata: Beskriver gruppes data/värde på ett överskådligt sätt (uta att presetera alla idividuella värde), grafiskt eller umeriskt. Valet av hur data bäst ska preseteras/beskrivas görs utifrå hur data ser ut q Symmetriska kotiuerliga/metriska data q Asymmetriska kotiuerliga/metriska data q Ordialdata q Nomialdata Procet, typvärde Typvärde (mode)= mest förekommade värde Här: Skåe= 39% (Typvärde) Smålad= 29% Hallad = 32% 13 14 Varför procet? 15 16 Metriska data (Itervall-kvotskala) Viktiga frågor: q Var ligger tygdpukte? q Hur stor är spridige? 17 18 3
Alterativ till medelvärde: Ragordig 171 cm 178 cm 184 cm 175 cm 181 cm 171 cm 162 cm å x Medel: 174.6 171+ 178 + 184 + 175 + 181+ 162 + 171 = = 174,6 7 171 cm 178 cm 184 cm 175 cm 181 cm 162 cm 171 cm + Lätt att tolka och förstå (med varsamhet vid ordialskala!) - Käsligt för extremvärde/outliers 162 cm 171 cm 171 cm 175 cm 178 cm 181 cm 184 cm 1 2.5 2.5 4 5 6 7 19 20 Cetralmått för ragordad data Media det mittersta värdet är ma sorterat observatioera i storleksordig När ska ma aväda vad? Fördelige (av de metriska variabel som ska beskrivas) avgör! Normalfördelat/symmetriskt eller sedfördelat/asymmetriskt? Lägd 162 171 171 175 178 181 184 Rag 1 2,5 2,5 4 5 6 7 21 22 Symmetriska kotiuerliga data Asymmetriska kotiuerliga data Tygdpukte ligger mitt i Medel = media Exempel: IQ, BMI Aväd medel! Data förskjutet Medel < media ELLER medel > media Exempel: Måga biologiska prover Aväd media! I bilde: Medel =22,8, media =19.6 23 24 4
Ordialdata Md=5 Md=3 Det umeriska värdet är bara e etikett Tex självskattigsskalor Egetlige: aväd media. I praktike aväds dock ofta medelvärde (för ex självskattigsskalor) Symmetrisk data Medel Asymmetrisk data Ordial data Nomial data Cetralmått Media Media (medel?) --- (typvärde) 25 26 Spridig Lite spridig Stor spridig 27 28 Spridigsmått Beskriver hur pass kocetrerade data är krig cetralvärdet Är ite beroede av var tygdpukte ligger Stadardavvikelse sd (stadard deviatio) geomsittlig avvikelse frå medelvärdet Precis som för cetralvärde aväds olika mått för symmetriska och asymmetriska data q Symmetri spridigsmåttet baseras på medelvärdet q Asymmetri spridigsmåttet baseras ite på medelvärdet 29 Ady Field 30 5
Ady Field 31 L. PUENTE-MAESTU ET AL. Compariso of effects of supervised versus self-moitored traiig programmes i patiets with chroic obstructive pulmoary disease. Eur Respir J. 2000 Mar;15(3):517-25. 32 Spridig i ragordad data: Percetiler/Kvartiler Percetiler delar i gruppe i 100 lika delar Kvartiler delar i gruppe i 4 lika stora delar Variatiosvidd= differese mella max och mi BMI 19 20 21 21 22 23 24 26 Rag 1 2 3,5 3,5 5 6 7 8 25e percetile Lägre kvartile 20,5 Media 21,5 75e percetile Övre kvartile 23,5 33 Percetiler/kvartiler Percetile ager det värde edaför vilket e viss procet av observatioera av variable hamar q 10% av urvalet har ett värde lägre ä (eller lika med)10:e percetile q 20% har ett värde lägre ä 20:e percetile q Etc q Kvartilera delar i gruppe i 4 lika stora delar q 25:e perc/q1: æ q ö æ 25 ö ç ( -1) ç + 1 è100 100 ø è ø ( -1) + 1 34 Eek et al. Cortisol, sleep, ad recovery - Some geder differeces but o straight associatios.psychoeuroedocriology. 2012 Ja;37(1):56-64 35 Carlsso et al. Salivary cortisol ad self-reported stress amog persos with evirometal aoyace. Scad J Work Eviro 36 Health ; 2006 Apr;32(2):109-20 6
Cetralmått Spridigsmått Symmetrisk data Medel Varias eller stadardavvikelse Asymmetrisk data Media Percetiler Ordial data Media (medel..) Nomial data (Typvärde) --- Percetiler (sd) 37 38 Normalfördelige Bestäms etydigt av medelvärde (M) och stadardavvikelse (S) 39 Värde för stadardiserad ormalfördelig (M=0, S=1) fis i tabeller 40 Hur vet vi om data är ormalfördelade? Jämför medel och media Storlek på SD (i förhållade till medel)? Boxplot Histogram q Svårt att avgöra i små sample, me extrema outliers avslöjas Testa symmetri/ormalfördelig q (skewess, kurtosis, Kolmogorov smirov-test) Grafisk koll: box-plot Max Upper quartile Media Lower quartile Mi 41 42 7
Symmetriskt eller asymmetriskt? 43 Johasso G et al. Role stress amog first-lie urse maagers ad registered urses - a comparative study. Joural of Nursig Maagemet, April 2013, 21(3):449-458 44 Descriptives bmi Mea 95% Cofidece Lower Boud Iterval for Mea Upper Boud Media Variace Std. Deviatio Miimum Maximum Rage Statistic 25.0390 24.9636 25.1143 24.5779 14.647 3.82714 14.20 56.17 41.97 Descriptive Statistics bmi Valid N (listwise) N Rage Miimum Maximum Mea Std. Variace Deviatio Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Statistic 9912 41.97 14.20 56.17 25.0390.03844 3.82714 14.647 9912 45 46 KrTot Mea 95% Cofidece Iterval for Mea Descriptives Lower Boud Upper Boud Statistic Std. Error 8546,9098 261,42205 8034,4864 9059,3333 Size of sd? Media Variace Std. Deviatio Miimum Maximum 1874,8800 928555778,2 30472,21321,00 1275911 1275910,56 47 48 8
Vad gör ma om data är sedfördelad? Log-trasformerig (logaritmerig) av data Apassa statistike/test (välj icke-parametrisk statistik) eller Apassa data, om det går och är lämpligt: Log trasformatio Ta bort orealistiska outliers? Trasformera? 49 50 Outliers/extremvärde Varför bry sig om fördelige? Få extrema värde ka få stor påverka på resultatet (spec i små grupper), om ma ite är medvete om och haterar dem! Val av statistiskt test baseras delvis på fördelige av data Olika alterativ: Ta bort? Om det är uppebart fel (tex kotamierig av blod i saliv) Imatigs/läsigsfel? Ädra/korrigera? Omkoda: (Ex äst högsta värdet+ 1)? Parametriskt eller icke-parametriskt test? Vilke strategi som ä väljs: BESKRIV i metod!! 51 52 Parametriska vs icke-parametriska test Based o Normal distributio ecessary? Effect estimated with CI? P-values Parametric Value Yes Yes Yes No-parametric Rak No No Yes 53 54 9
Statistisk iferes och Hypotesprövig Studiepopulatio Statistik e överblick Stickprov Dataisamlig 55 Skattigar och hypotes-prövigar à slutsatser Aalytisk statistik Aalys Beskrivig Deskriptiv statistik 56 Urval (sample) vs populatio Urvalet q består av de idivider du udersökt q vet du reda allt om q du behöver ite gissa Populatioe q är alla de idivider du ite udersökt (+ de du udersökt), me som du vill kua säga ågot om q du VET iget om dem q me du vill kua dra slutsatser om dem Statistisk iferes (att dra slutsatser om populatioe baserat på iformatio frå urvalet) Natioalecyklopedi: iduktiv veteskap där ma drar slutsatser ur empiriska data uder e osäkerhet orsakad av slumpmässighet i data Estimat (av olika parameter, ex medelvärde) Hypotestestig 57 58 Estimat Data/iformatio frå urvalet aväds för att uttala sig om populatioe Populatioes meddellägd är okäd Estimerad/uppskattad medellägd= 174,6 cm Uppmätt medellägd= 174,6 cm Stadard error/stadardfel Uppskattige/estimatet är aldrig exakt Det fis viss osäkerhet i uppskattige. Dea osäkerhet ka uttryckas i stadard error (SE/SEM) eller stadardfel SE beror på q q spridig av data (stor eller lite varias?) atal observatioer SE = I vårt lilla urval är SE = 2,78 cm sd SE = sd 2 59 60 10
Precisio: Variatio Precisio: Sample size 61 62 µ = 10 Sammafattig, såhär lågt.. M = 10 M = 9 Frequecy M = 11 M = 10 M = 8 M = 11 M = 10 Mea = 10 SD = 1.22 4 3 2 1 M = 9 M = 12 Puktskattige q Urvalet aväds för att göra e uppskattig om populatioe ( gissa ) q Puktskattige ka tex vara medelvärde Osäkerhet q Stadardfelet är ett mått på osäkerhete vår uppskattig q Ju midre SE, desto större säkerhet/precisio I vår uppsakkig/ gissig 0 6 7 8 9 10 11 12 13 14 Sample Mea Ady Field. Discoverig statistics usig SPSS 63 64 Kofidesitervall Stadardfelet ka avädas att beräka ett kofidesitervall Med e viss saolikhet/säkerhet, täcker CI populatioes saa värde. Vidde på CI beror på q Storleke på SE (mao variase och storleke på urvalet) q Kofidesgrad hur säkra vill vi vara? Kofideesitervall -defiitio Om 95% kofidesgrad q Defiitio: OM vi (i teori) skulle göra 100 urval och beräkade ett CI för varje urval, skulle 95 av 100 täcka populatioes saa värde. q Eller, lite föreklat: Med 95% saolikhet, täcker CI populatioes saa värde. q Motsvarade tolkig för adra kofidesgrader, tex 90% eller 99% (95% absolut valigast!) 65 66 11
Förutsättigar för kofidesitervall Stickprovet måste vara represetativt för målpopulatioe Kotiuerlig data måste vara approximativt ormalfördelade q Stickprovet är ormalfördelat Eller q Stickprovet stort (och variabel ormalfördelad i populatioe) Kofidesitervall ka också avädas för adra puktskattigar, tex effektestimat: Medelvärdesskillader Regressioskoefficieter Oddskvoter 67 68 Vad är e hypotes? HYPOTESPRÖVNING Ett atagade som ma vill testa Nollhypotes(H0) : Det fis ige skillad/effekt (..mella två grupper/metoder/behadligar i populatioe) Alterativhypotes (H1) Det fis e skillad/effekt ( mella två grupper/behadligar/metoder i populatioe) 69 70 Alterativhypotese Preciserar aldrig exakt HUR stor skillad/effekt Hadlar INTE om urvalet (uta populatioe)! Esidig eller tvåsidig: Tvåsidig det fis e skillad (..avseede vad, mella vilka!) Esidig: ager riktig på skillade (variabel X ökar, eller miskar, eller a>b eller b>a ). Dvs, ma har ett atagade om hur skillade ser ut Statistical hypotheses are based o the cocept of proof by cotradictio. Egetlige är det ollhypotese som testas! Resultatet är att H0 atige accepteras, eller förkastas Fråga är: ka vi, med utgågspukt i de iformatio vi har frå vårt urval/sample, förkasta ollhypotese? 71 72 12
I vårt urval ser vi e skillad mella gruppera. Dvs, H0 verkar INTE vara sa p-värdet I populatioe H0 -är sa? (dvs, det fis ige skillad) -är ite sa? (dvs, det fis e skillad) Detta ka bero på: 1. Slumpe 2. Att H0 ite är sa, dvs det FINNS e skillad mella gruppera i populatioe! 73 74 Normalfördeligskurva P-value Probability value Saolikhete att du skulle få ett likadat (eller mer extremt) resultat som du fått i ditt urval (tex medelvärdesskillad mella två grupper) OM ollhypotese vore sa, dvs det fis ige skillad mella gruppera i populatioe. 75 76 Sigifikasivå Äve kallad α-ivå Gräse mella är saolikhete att resultatet beror på slump ases försumbar respektive ite försumbar. Valigtvis 5% p=0.05 Om p 0.05, förkastas Ho. Dvs vi tror att där FINNS e skillad (i populatioe!). Om p>0.05, ka vi ite igorera riske att vi hade kuat få detta resultat, äve om H0 vore sa. Dvs, vi ka INTE förkasta H0. CI och p-value Hypotesprövig ka geomföras med både p-värde och CI (förutsatt att data är ormalfödelade) Båda metodera leder till samma slutsats (givet samma sigifikasivå/kofidesgrad) Kofidesgrad+ sigifikasivå= 1 Om H 0 ligger utaför 95% CI är p < 5% Om H 0 ligger iaför 95% CI är p > 5% 77 78 13
Varför kofidesitervall? Kofidesitervallet ka avädas för hypotesprövige. Om ollhypotese (tex mea differece=0, RR=1) ligger utaför CI, ka ollhypotese förkastas Fördele med CI jämfört med bara p-värde, är att CI säger ite ebart om resultatet är sigifikat, uta ger äve e uppskattig om storleke på effekte/skillade! Statistisk sigifikas - kliisk relevas Lågt p-värde Hur stor är skillade? Statistisk sigifikas: Det fis e skillad Kliisk relevas: Har skillade ågo betydelse? Skattig av storleke på effekte behövs! 79 80 Sammafattig hypotesprövig: Förkasta H 0 (dvs, slutsats att det fis e skillad i populatioe) om: q H 0 ligger utaför CI q p < sigifikasivå Förkasta ite H 0 om: q H 0 ligger iaför CI q p > sigifikasivå Kom ihåg 1: H 0 ka aldrig bevisas! Kom ihåg 2:Vare sig CI eller p vill säga ågot om urvalet! Ady Field 81 82 Sammafattig Frågor?? Deskriptiv statistik aväds främst för att presetera och beskriva de udersökta gruppe Baserat på resultate frå de udersökta gruppe (urvalet/sample), görs uppskattigar (estimat) av variabler i populatioe Aalytisk/iferetiell statistik (statistiska test) aväds för att dra slutsatser om populatioe 83 84 14
Valet av statistiskt test baseras på: Urvalsstorlek (sample size) Typ av variabler kombiatioe av IV (oberoede-) och DV (beroede variabel) Fördelig av data Studiedesig 85 15