Statistik en introduktion

Relevanta dokument
Statistik en introduktion

Statistik och epidemiologi T5

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Medicinsk statistik I

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Medicinsk statistik II

Statistik Termin 10, Läkarprogrammet, HT16

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Medicinsk statistik I

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Hypotestestning och repetition

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Medicinsk statistik II

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

OBS! Vi har nya rutiner.

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

2.1 Minitab-introduktion

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

F3 Introduktion Stickprov

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Följande resultat erhålls (enhet: 1000psi):

Hur skriver man statistikavsnittet i en ansökan?

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Statistik och epidemiologi T5

Parade och oparade test

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

SOPA62 - Kunskapsproduktion i socialt arbete

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

ST-fredag epidemiologi och biostatistik 2017

7.3.3 Nonparametric Mann-Whitney test

7.5 Experiment with a single factor having more than two levels

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Statistik 1 för biologer, logopeder och psykologer

2 Dataanalys och beskrivande statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Introduktion till Biostatistik. Hans Stenlund, 2011

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Föreläsning G60 Statistiska metoder

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Föreläsning G70 Statistik A

OBS! Vi har nya rutiner.

BIOSTATISTIK OCH EPIDEMIOLOGI

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

SOPA62 - Kunskapsproduktion i socialt arbete

Statistik för teknologer, 5 poäng Skrivtid:

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Studietyper, inferens och konfidensintervall

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Metod och teori. Statistik för naturvetare Umeå universitet

Gamla tentor (forts) ( x. x ) ) 2 x1

Mata in data i Excel och bearbeta i SPSS

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Repetitionsföreläsning

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Bearbetning och Presentation

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Att välja statistisk metod

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Hur man tolkar statistiska resultat

Provmoment: Tentamen 2 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

Lektionsanteckningar 11-12: Normalfördelningen

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

MVE051/MSG Föreläsning 7

FACIT (korrekta svar i röd fetstil)

ANOVA Mellangruppsdesign

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

7.5 Experiment with a single factor having more than two levels

2. Test av hypotes rörande medianen i en population.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

TMS136. Föreläsning 10

Uppgift 1. Produktmomentkorrelationskoefficienten

Statistik Lars Valter

Laboration 2 Inferens S0005M VT18

Thomas Önskog 28/

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Transkript:

Statistik en överblick Statistik en introduktion Studiepopulation Stickprov Frida Eek Datainsamling frida.eek@med.lu.se Skattningar och hypotes-prövningar slutsatser Analytisk statistik Analys Beskrivning Deskriptiv statistik Deskriptiv statistik används för att beskriva urvalet/study sample/försökspersonerna dvs dem du gjort mätningarna på! Statistiska test används för att kunna uttala sig om den bakomliggande populationen (dvs, även alla (på gruppnivå) du inte har kunnat undersöka) Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Urvalsstorlek Mätnivå/skaltyp Fördelning av data (symmetri?) Studiedesign Variabeltyper och mätnivåer Skalor Kategorisk eller metrisk/numerisk data? Nominalskala Ordinal eller rangskala Intervall skala Kvotskala Skala för observationerna Kvalitativa data Nominal Ordinal Intervall Olika kategorier Ja Kvantitativa (metriska) data Rangordning Nej Avstånd mellan kat. Nollpunkt Ja Ja oklart ---- Ja Ja ---- ---- Ja ---- Exempel 1 Man 2 Kvinna 1 Ja, hela tiden 2 Ja, ofta 3 Ja, ibland 4 Ja, någon gång 5 Nej, aldrig Temperatur Kvot Ja Ja Ja Ja Ålder, vikt 1

Summering av de viktigaste distinktionerna Kategorisk data: Nominalskala: Olika kategorier, ingen inbördes rangordning. (Ex husdjurs-art, utbildningsprogram/ämne, typ av diagnos osv) Om endast två möjliga värden (man/kvinna, sjuk/frisk) kallas det även binär eller dikotom variabel. Ordinalskala: Kategorier med inbördes rangordning, men man kan ej säga exakt hur stor skillnaden är mellan varje kategori. Eventuella nummer är endast etiketter. Man vet att tex 5 (= alltid ) är mer än 3 (= ibland ), men inte hur mycket mer (och kanske inte precis lika mycket mer som 3(= ibland ) är jämfört med 1 ( aldrig )). Ordinalskalor kan ibland hanteras som vore den numerisk! Numerisk data Numerisk/metrisk/kvantitativ skala: värdet står för något exakt, siffran betyder något i sig. Ex längd, vikt, reaktionstid, antal barn, antal kattungar. Lika intervall mellan varje steg på skalan. Man vet att 3 kattungar är 1 kattunge mer än 2 kattungar (och lika många fler som 5 kattungar är jämfört med 4 kattungar!). Man vet att någon som är 20 år är dubbelt så gammal som någon som är 10 år. Numeriska/kvantitativa skalor kan vara antingen diskreta (kan anta endast heltal, tex antal barn (eller kattungar!)) eller kontinuerliga (kan ha vilket värde som helst inkl decimaler, tex reaktionstid, vikt). I praktiken har det sällan betydelse (mer än för tolkningen hur många svenska kvinnor får 1,9 barn?)) Spelar skalnivå någon roll? Deskriptiv statistik Val av deskriptiv presentation styrs av skalnivå Beskriv gruppens data/värde på ett överskådligt sätt (utan att presentera alla individuella värden) (Val av statistiskt test för analys (kombinationen av) olika skalnivåer passar för olika test). Grafiskt (figurer) Numeriskt (med siffror) 2

Nominaldata: Varför procent? Vare sig medel eller median är relevant Procent, typvärde Här: Skåne= 39% Småland= 29% Halland = 32% Metrisk skala (intervall/kvot) Viktiga frågor: Var ligger tyngdpunkten? Hur stor är spridningen? Valet av vilket centralmått som ska presenteras görs utifrån hur data ser ut Symmetriska kontinuerliga data Asymmetriska kontinuerliga data Ordinaldata (Nominaldata) 3

Rangordning 178 cm 171 cm 184 cm 175 cm 181 cm 171 cm 162 cm x n Medel: 174.6 171 178 184 175 181 162 171 174,6 7 171 cm 178 cm 184 cm 175 cm 181 cm 162 cm 171 cm + Lätt att tolka och förstå (med varsamhet vid ordinalskala!) - Känsligt för extremvärden/outliers 162 cm 171 cm 171 cm 175 cm 178 cm 181 cm 184 cm 1 2.5 2.5 4 5 6 7 Centralmått för rangordnad data Median det mittersta värdet när man sorterat observationerna i storleksordning Typvärde det mest förekommande värdet (används oftare vid kategorisk data) När ska man använda vad? Fördelningen (av den metriska variabeln som ska beskrivas) avgör! Normalfördelat/symmetriskt eller snedfördelat/asymmetriskt? Längd 162 171 171 175 178 181 184 Rang 1 2,5 2,5 4 5 6 7 Symmetriska kontinuerliga data Asymmetriska kontinuerliga data Tyngdpunkten ligger mitt i Medel = median Exempel: IQ, BMI Använd medel! I bilden: Medel = 24, median = 24 Data förskjutet Medel < median ELLER medel > median Exempel: Många biologiska prover Använd median! I bilden: Medel =22,8, median =19.6 4

Ordinaldata Md=5 Md=3 Det numeriska värdet är bara en etikett Tex självskattningsskalor Egentligen: använd median. I praktiken används dock ofta medelvärde (för ex självskattningsskalor) Symmetrisk data Medel Asymmetrisk data Ordinal data Nominal data Centralmått Median Median (medel?) --- (typvärde) Spridning Liten spridning Stor spridning Spridningsmått Beskriver hur pass koncentrerade data är kring centralvärdet Är inte beroende av var tyngdpunkten ligger Standardavvikelse sd (standard deviation) genomsnittlig avvikelse från medelvärdet Precis som för centralvärde används olika mått för symmetriska och asymmetriska data Symmetri spridningsmåttet baseras på medelvärdet Asymmetri spridningsmåttet baseras inte på medelvärdet Andy Field 5

Andy Field L. PUENTE-MAESTU ET AL. Comparison of effects of supervised versus self-monitored training programmes in patients with chronic obstructive pulmonary disease. Eur Respir J. 2000 Mar;15(3):517-25. Kvartiler Percentiler delar in grupppen i 100 lika delar Kvartiler delar in gruppen i 4 lika stora delar BMI 19 20 21 21 22 23 24 24 Rang 1 2 3,5 3,5 5 6 7 8 25e percentilen Lägre kvartilen 20,5 Median 21,5 75e percentilen Övre kvartilen 23,5 Percentiler/kvartiler Percentilen anger det värde nedanför vilket en viss procent av observationerna av variablen hamnar 10% av urvalet har ett värde lägre än (eller lika med)10:e percentilen 20% har ett värde lägre än 20:e percentilen Etc Kvartilerna delar in gruppen i 4 lika stora delar Eek et al. Cortisol, sleep, and recovery - Some gender differences but no straight associations.psychoneuroendocrinology. 2012 Jan;37(1):56-64 Carlsson et al. Salivary cortisol and self-reported stress among persons with environmental annoyance. Scand J Work Environ Health ; 2006 Apr;32(2):109-20 6

Centralmått Spridningsmått Symmetrisk data Medel Varians eller standardavvikelse Asymmetrisk data Median Percentiler Ordinal data Median (medel..) Nominal data (Typvärde) --- Percentiler (sd) Hur vet vi om data är normalfördelade? Första koll: min och max Jämför medel och median Storlek på SD (i förhållande till medel)? Boxplot Histogram Svårt att avgöra i små sample, men extrema outliers avslöjas Testa symmetri/normalfördelning (skewness, kurtosis, Kolmogorov smirnov-test) Grafisk koll: box-plot Symmetriskt eller assymmetriskt? Max Upper quartile Median Lower quartile Min 7

Johansson G et al. Role stress among first-line nurse managers and registered nurses - a comparative study. Journal of Nursing Management, April 2013, 21(3):449-458 bmi Descriptives Mean 95% Confidence Lower Bound Interv al for Mean Upper Bound Median Variance Std. Dev iation Minimum Maximum Range Statistic 25.0390 24.9636 25.1143 24.5779 14.647 3.82714 14.20 56.17 41.97 KrTot Descriptives Mean 95% Confidence Lower Bound Interv al for Mean Upper Bound Median Variance Std. Dev iation Minimum Maximum Statistic Std. Error 8546,9098 261,42205 8034,4864 9059,3333 1874,8800 928555778,2 30472,21321,00 1275911 1275910,56 Descriptive Statistics bmi Valid N (listwise) N Range Minimum Maximum Mean Std. Variance Deviation Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Statistic 9912 41.97 14.20 56.17 25.0390.03844 3.82714 14.647 9912 Storlek på standardavvikelse? Outliers/extremvärden Få extrema värden kan få stor påverkan på resultatet (spec i små grupper), om man inte är medveten om och hanterar dem! Olika alternativ: Ta bort? Om det är uppenbart fel Inmatnings/läsningsfel? Ändra/korrigera? Omkoda: (Ex näst högsta värdet+ 1)? Vilken strategi som än väljs: BESKRIV i metod!! 8

Att presentera i tabell Formellt: Vilka linjer ska vara ifyllda? Vilka variabler ska presenteras på vertikal resp horisontell axel? Vilka mått ska presenteras (procent, antal, medel, median, SD, percentiler, range (=min-max)?..) Beskriv tydligt vad det är du presenterar! Titta i publicerade artiklar! Duplicera inte information i tabell och text: sammanfatta i text, med referens till tabell Att presentera i figur Vissa resultat illustreras bäst i figur Duplicera ej information i tabell och figur (och/eller text..) Tänk på svartvitt print använd olika mönster istället för färger Beskriv tydligt vad det är du presenterar Figurer (och tabeller) ska kunna läsas fristående! OBS! Horisontella linjer ska INTE vara där! Katz, Richard C., Wertz, Robert T. (1997) The Efficacy of Computer-Provided Reading Treatment for Chronic Aphasic Adults. Journal of Speech, Language, and Hearing Research, (Volume 40, pp 493-507, June 1997). 9

Kom ihåg: Med deskriptiv statistik kan du presentera uttala dig om ditt urval, ej i allmänhet Skillnader mellan de undersökta individerna/grupperna, ej mellan grupperna/i populationen i allmänhet. (jf skillnad mellan de undersökta männen och kvinnorna kontra skillnad mellan män och kvinnor ) För att kunna generalisera krävs analytisk/inferentiell statistik! (statistiska test, hyotesprövning, p-värde etc) Statistik en överblick Studiepopulation Stickprov Datainsamling Deskriptiv statistik används för att beskriva urvalet/study sample/försökspersonerna dvs dem du gjort mätningarna på! Statistiska test används för att uttala dig om den bakomliggande populationen Skattningar och hypotes-prövningar slutsatser Analytisk statistik Analys Beskrivning Deskriptiv statistik Urval (sample) vs population Urvalet består av de individer du undersökt vet du redan allt om du behöver inte gissa Populationen är alla de individer du inte undersökt (+ de du undersökt), men som du vill kunna säga något om du VET inget om dem men du vill kunna dra slutsatser om dem (på gruppnivå) Statistisk inferens (att dra slutsatser om populationen baserat på information från urvalet) Nationalencyklopedin: induktiv vetenskap där man drar slutsatser ur empiriska data under en osäkerhet orsakad av slumpmässighet i data Estimat (av olika parameter, ex medelvärde) Hypotestestning 10

Estimat Data/information från urvalet används för att uttala sig om populationen Populationens meddellängd är okänd Estimerad/uppskattad medellängd= 174,6 cm Uppmätt medellängd= 174,6 cm Standard error/standardfel Uppskattningen/estimatet är aldrig exakt Det finns viss osäkerhet i uppskattningen. Denna osäkerhet kan uttryckas i standard error (SE/SEM) eller standardfel sd SE SE n SE beror på spridning av data (stor eller liten varians?) antal observationer I vårt lilla urval är SE = 2,78 cm sd n 2 Precision: Variation Precision: Sample size Sammanfattning, såhär långt.. Punktskattningen Urvalet används för att göra en uppskattning om populationen ( gissa ) Punktskattningen kan tex vara medelvärde Osäkerhet Standardfelet är ett mått på osäkerheten vår uppskattning Ju mindre SE, desto större säkerhet/precision I vår uppsakkning/ gissning Konfidensintervall Standardfelet kan användas att beräkna ett konfidensintervall Med en viss sannolikhet/säkerhet, täcker CI populationens sanna värde. Vidden på CI beror på Storleken på SE (mao variansen och storleken på urvalet) Konfidensgrad hur säkra vill vi vara? 11

Konfidenensintervall -definition Om 95% konfidensgrad Definition: OM vi (i teorin) skulle göra 100 urval och beräknade ett CI för varje urval, skulle 95 av 100 täcka populationens sanna värde. Eller, lite förenklat: Med 95% sannolikhet, täcker CI populationens sanna värde. Motsvarande tolkning för andra konfidensgrader, tex 90% eller 99% (95% absolut vanligast!) Konfidensintervall exempel Study sample: 100 individer med medellängd 150,4 SD 29 x c SE 150,4 1,96 2,9 144,7 156,1 Medellängden i populationen är, med 95% sannolikhet, någonstans mellan 144,7 cm och 156,1 cm I en vuxen population, med mindre spridning: Urval: Medellängd 176,0 cm, sd 12 cm. x c SE 176,0 1,96 1, 2 173,6-178,4 CI för andelar p(1-p) 95% CI= p +/- 1.96x n Förutsättningar: Konfidensintervall kan bara användas när urvalet är representativt för populationen. Metriska variabler ska vara normalfördelade (i urvalet och/eller populationen) Konfidensintervall kan också användas för andra punktskattningar, tex effektestimat: Medelvärdesskillnader Regressionskoefficienter Oddskvoter 12

Vad är en hypotes? Ett antagande som man vill testa HYPOTESPRÖVNING Nollhypotes(H0) : Det finns ingen skillnad/effekt (..mellan två grupper/metoder/behandlingar i populationen) Alternativhypotes (H1) Det finns en skillnad/effekt ( mellan två grupper/behandlingar/metoder i populationen) Alternativhypotesen Preciserar aldrig exakt HUR stor skillnad/effekt Handlar INTE om urvalet (utan populationen)! Ensidig eller tvåsidig: Tvåsidig det finns en skillnad Ensidig: anger riktning på skillnaden (variabel X ökar, eller minskar, eller a>b eller b>a ). Dvs, man har ett antagande om hur skillnaden ser ut Tvåsidig hypotesprövning ofta att föredra! Dessutom det som är default i ex SPSS test Statistical hypotheses are based on the concept of proof by contradiction. Egentligen är det nollhypotesen som testas! Resultatet är att H0 antingen accepteras, eller förkastas Frågan är: kan vi, med utgångspunkt i den information vi har från vårt urval/sample, förkasta nollhypotesen? I vårt urval ser vi en skillnad mellan grupperna. Dvs, H 0 verkar INTE vara sann p-värdet I populationen H 0 -är sann? (dvs, det finns ingen skillnad) -är inte sann? (dvs, det finns en skillnad) Detta kan bero på: 1. Slumpen 2. Att H 0 inte är sann, dvs det FINNS en skillnad mellan grupperna i populationen! 13

Normalfördelningskurvan P-value Probability value Sannolikheten att du skulle få ett likadant (eller mer extremt) resultat som du fått i ditt urval (tex medelvärdesskillnad mellan två grupper) OM nollhypotesen vore sann, dvs det finns ingen skillnad mellan grupperna i populationen. Signifikansnivå CI och p-value Även kallad α-nivå Gränsen mellan när sannolikheten att resultatet beror på slump anses försumbar respektive inte försumbar. Vanligtvis 5% p=0.05 Om p 0.05, förkastas Ho. Dvs vi tror att där FINNS en skillnad (i populationen!). Om p>0.05, kan vi inte ignorera risken att vi hade kunnat få detta resultat, även om H0 vore sann. Dvs, vi kan INTE förkasta H0. Hypotesprövning kan genomföras med både p-värde och CI (förutsatt att data är normalfödelade) Båda metoderna leder till samma slutsats (givet samma signifikansnivå/konfidensgrad) Konfidensgrad+ signifikansnivå= 1 Om H 0 ligger utanför 95% CI är p < 5% Om H 0 ligger innanför 95% CI är p > 5% Varför konfidensintervall? Konfidensintervallet kan användas för hypotesprövningen. Fördelen med CI jämfört med bara p-värde, är att CI säger inte enbart om resultatet är signifikant, utan ger även en uppskattning om storleken på effekten/skillnaden! Andy Field 14

Sammanfattning hypotesprövning: Förkasta H 0 (dvs, slutsats att det finns en skillnad i populationen) om: H 0 ligger utanför CI p < signifikansnivån Frågor?? Förkasta inte H 0 om: H 0 ligger innanför CI p > signifikansnivån Kom ihåg 1: H 0 kan aldrig bevisas! Kom ihåg 2:Vare sig CI eller p vill säga något om urvalet! Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Urvalsstorlek Mätnivå/skaltyp Fördelning av data Studiedesign Studiedesign: Tvärsnitt eller upprepade mätningar? -Paired or nonpaired data? ( repeated measurements ) Hur många grupper? (1, 2 eller fler?) Samples size: Stort eller litet urval? Fördelning: Normalfördelat eller snedfördelat? (Symmetriskt eller assymetriskt) Parametriska test: Förutsätter normalfördelning Stora urval/sample Ger både p-värde och effektmått Tex t-test, ANOVA, pearson correlation Icke-parametriska test Kräver ej normalfördelning Små sample OK Ger p-värden Ex Mann-whitney, spearman correlation 15

Variablernas mät/skalnivå Kategorisk? Binär? Ordinalskala? Metrisk/scale? Kombinationen av oberoende och beroende variabel (exponering och utfall) avgör test! Sammanfattning Deskriptiv statistik används främst för att presentera och beskriva den undersökta gruppen Baserat på resultaten från den undersökta gruppen (urvalet/sample), görs uppskattningar (estimat) av variabler i populationen Analytisk/inferentiell statistik (statistiska test) används för att dra slutsatser om populationen Valet av statistiskt test baseras på: Urvalsstorlek (sample size) Typ av variabler kombinationen av IV (oberoende-) och DV (beroende variabel) Fördelning av data Studiedesign 16