Hur man tolkar statistiska resultat

Hur man tolkar statistiska resultat Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Varför använder vi oss av statistiska tester? För att kunna göra några uttalanden om observerade förändringar och/eller skillnader i insamlade data så måste någon typ av statistiskt test tillämpas! 2

Vikten av att välja rätt test Det finns många statistiska test att välja mellan då man vill genomföra en hypotesprövning. I den här kursen har ni lärt er 15 olika tester! Olika typer av studier och olika studieupplägg kräver olika typer av hypotesprövningar. För att kunna dra rätt slutsatser är det väldigt viktigt att välja rätt test! 3

När ska testet användas? Analys av medelvärden Jämförelser mot ett specifikt värde 4

När ska testet användas? Analys av proportioner (2 klasser) Jämförelse mellan 2 grupper eller mot ett specifikt värde 5

När ska testet användas? Analys av frekvenser (2 eller flera klasser) Jämförelse mellan 2 eller flera grupper/klasser 6

När ska testet användas? Oparade gruppvisa jämförelser Jämförelse mellan 2 grupper 7

När ska testet användas? Oparade gruppvisa jämförelser Jämförelse mellan 2 grupper 8

När ska testet användas? Parade gruppvisa jämförelser Jämförelse före och efter för samma individer eller mellan tvillingar 9

När ska testet användas? Parade gruppvisa jämförelser Jämförelse före och efter för samma individer eller mellan tvillingar 10

När ska testet användas? Variansanalys Jämförelse mellan 2 eller flera grupper 11

Testvariabel mot kritiskt värde Det uträknade värdet på testvariabeln jämförs mot kritiskt/kritiska värde(n) i en tabell. Parametriska test Om värdet på testvariabeln är större än eller lika med det positiva kritiska värdet och/eller om värdet på testvariabeln är mindre än eller lika med det negativa kritiska värdet så Icke-parametriska test Oparade: Om rangsumman för det minsta stickprovet faller utanför intervallet (eller på intervallgränserna) som bildas av de kritiska värdena så Parade: Om den lägsta teckenrangsumman underskrider eller är lika med det kritiska värdet så förkastas nollhypotesen! 12

Vad säger testet oss? Vad innebär det att vi förkastar nollhypotesen? Kan vi säga att en behandling är bättre än en annan om vi har jämfört 2 eller flera grupper och vi efter analysen förkastar nollhypotesen? Nej Riktigt så enkelt är det faktiskt inte! Med hjälp av hypotestestet avgör vi om det finns någon statistisk skillnad mellan grupperna på en viss signifikansnivå! 13

Normalfördelade testvärden (Z) 1-sidigt test: Vid 5% signifikansnivå är det 5% sannolikhet att den beräknade testvariabeln hamnar i de blå fälten trots att nollhypotesen är sann! 2-sidigt test: 5% 2.5% 2.5% -6-4 -2 0 2 4 6-6 -4-2 0 2 4 6 5% signifikansnivå 14

Typ I fel Om vi förkastar nollhypotesen trots att den är sann så begår vi ett typ I fel Risken att begå ett typ I fel är lika med vår signifikansnivå! 15

Vad säger testet oss? Vad innebär det om vi inte kan förkasta nollhypotesen? Kan vi säga att behandlingarna är lika bra om vi har jämfört 2 eller flera grupper och vi efter analysen behåller nollhypotesen? Nej Så enkelt är det inte heller! Att vi inte har hittat en signifikant skillnad är inte samma sak som att det inte finns någon skillnad! 16

Typ II fel Om vi behåller vår nollhypotes trots att den är falsk så begår vi ett typ II fel Risken att begå ett typ II fel kan vi inte styra över på samma sätt som när det gäller typ I felen 17

Normalfördelade testvärden Typ I fel och typ II fel μ a μ b Variabelvärde Risken för typ II fel Sannolikhet: β Risken för typ I fel Sannolikhet: α 18

Typ I fel och typ II fel Verkligheten Resultat av hypotesprövning H 0 accepteras H 0 förkastas H 0 sann OK! Typ I-fel H 0 falsk Typ II-fel OK! Om vi förkastar nollhypotesen kan vi bara begå typ I fel Om vi behåller nollhypotesen kan vi bara begå typ II fel 19

Vad säger testet oss? Då vi förkastar nollhypotesen så är vår slutsats att vi har en signifikant skillnad på signifikansnivån α. Då vi behåller nollhypotesen så är vår slutsats att vi inte har tillräckligt med bevis för att förkasta vår nollhypotes på signifikansnivån α. Testet säger ingenting om hur stor skillnaden är mellan grupperna (hur nära eller långt ifrån vi är) och det säger ingenting om risken för typ II fel. 20

p-värde Genom att beräkna p-värdet får vi lite mer information om våra analysresultat. p-värdet talar om hur sannolikt det är att observera en skillnad som är minst så stor som den som observerats, förutsatt att nollhypotesen är sann! Hur stor är sannolikheten att skillnaden vi ser har uppkommit av en slump? 21

p-värde Om p-värdet är mindre än signifikansnivån så förkastar vi nollhypotesen! p-värdet säger lite mer om hur nära eller långt ifrån vi är men det säger inte så mycket om hur stor skillnaden är mellan grupperna och det säger ingenting om risken för typ II fel. 22

Konfidensintervall Genom att beräkna konfidensintervallet så får vi ett mått på osäkerheten. I grund fallet beräknar vi konfidensintervall för medelvärdet Vi får ett mått på hur pass osäker skattningen av populationsmedelvärdet är utifrån stickprovsmedelvärdet. Populationsmedelvärdet (det sanna medelvärdet) ligger inom konfidensintervallet med en viss säkerhet (1-α). 23

Konfidensintervall Vad beskriver konfidensintervallet då vi jämför skillnaden mellan 2 grupper? Konfidensintervallet beskriver skillnadens osäkerhet! Om intervallet inkluderar noll Ingen skillnad kunde påvisas Konfidensintervallet säger lite mer om hur stor skillnaden är mellan grupperna men det säger ingenting om risken för typ II fel. 24

Statistisk styrka (power) Statistisk styrka (power) är sannolikheten att förkasta nollhypotesen när den är falsk! Sannolikhet: 1-β Om vi minskar risken för typ I fel (sänker signifikansnivån) så ökar risken för typ II fel och därmed minskar den statistiska styrkan! Hur ökar vi den statistiska styrkan? μ a μ b 25

Statistisk styrka (power) Givet en viss definierad skillnad mellan två behandlingar så är en studies statistiska styrka lika med sannolikheten att studien kommer att kunna upptäcka (d.v.s. resultaten blir statistsikt signifikanta) en skillnad av den storleksordningen. Om vi från början vet hur stor skillnad vi vill kunna upptäcka så kan vi planera studien utifrån det! 26

Design av studier utifrån statistisk styrka Vi börjar med att besluta vilken skillnad (i behandlingseffekt) som vi vill kunna upptäcka Antalet individer i våra stickprov påverkar variansen av stickprovssannolikhetsfördelningen och därmed vår risk för typ II fel! Genom att öka antalet individer i våra stickprov så minskar risken för typ II fel Oftast designar vi studier med 80-90% statistisk styrka för att kunna upptäcka en viss skillnad 27

Design av studier utifrån statistisk styrka Powerkurva Ett sätt att illustrera den statistiska styrkan Idén är att inte bara beräkna den statistiska styrkan för ett givet alternativ utan se hur styrkan ändras då vi exempelvis ändrar antalet individer i stickproven Viktigt verktyg då vi planerar vår studie Vilka skillnader vill vi inte missa? Hur många individer måste vi i så fall inkludera? 28

Design av studier utifrån Statistisk styrka (power) statistisk styrka - Powerkurva 0.0 0.2 0.4 0.6 0.8 1.0 Skillnaden vi vill upptäcka mellan individerna är fast medan antalet individer per grupp kan varieras 25 individer behövs för att upptäcka den här specifika skillnaden med 80% power! 0 10 20 30 40 50 60 70 80 90 100 Antal individer per grupp 29

Statistisk styrka (power) Om vi inte får vara med och påverka studiedesignen så kan vi utifrån en powerkurva avgöra: Hur stora skillnader vi har chans att upptäcka med 80% statistisk styrka Vad vi har för statistisk styrka för att upptäcka en viss skillnad 30

Statistisk styrka (power) Design av studier utifrån statistisk styrka - Powerkurva Antal individer per grupp är fast medan skillnaderna mellan grupperna kan varieras Betydelsefull skillnad Obetydlig skillnad Betydelsefull skillnad Meningsfull skillnad Meningsfull skillnad μ 1 μ 2 31

Statistisk styrka (power) Design av studier utifrån statistisk styrka - Powerkurva n a = n b = 10 n a = n b = 30 Bredden (osäkerheten) minskar med ökande antal individer! μ 1 μ 2 32

Sammanfattning Det är väldigt viktigt att välja rätt test vid hypotesprövning Ett hypotestest avgör om vi kan förkasta nollhypotesen eller inte på en viss signifikansnivå - Vi kan förkasta nollhypotesen trots att den är sann Typ I fel, α - Vi kan behålla nollhypotesen trots att den är falsk Typ II fel, β - Vi kan förkasta nollhypotesen då den är falsk Statistisk styrka (power), 1-β 33

Sammanfattning Vi vill ha 80-90% statistisk styrka Powerkurvor kan hjälpa oss att designa vår studie och avgöra hur många individer vi behöver och/eller avgöra vad vi har för statistisk styrka med ett visst antal individer 34

Sammanfattning Ett statistiskt test säger ingenting om hur stor skillnaden är mellan grupperna p-värdet berättar hur stor sannolikhet det är att observera minst en så pass stor skillnad som har observerats, förutsatt att H 0 är sann Konfidensintervallet berättar om osäkerheten och dessa ger lite mer information om skillnaden mellan grupperna 35