Vad är p-värde? Det betyder: P(så extrema data H 0 är sann) Men det betyder inte P(H 0 är sann) Och därmed är inte P(H a är sann)=1-p så t ex om p=0.01 så är P (H a är sann) 0.99 Väldigt många forskare lyckas konstigt nog forska trots denna vanliga missuppfattning! P-värde belysande exempel Du vet att mördaren är vänsterhänt och att 13% av alla människor är vänterhänta. Du ser en man på gatan H 0 :Mannen är oskyldig H 1 :Mannen är skyldig Test: Kolla om han är vänsterhänt Resultat: Han är vänsterhänt P=0.13 Men det betyder inte P(skyldig)=0.87 Bayesians ansats A priori p=p(skyldig), Evidens E, A posteriori p E Staffan Nilsson, Chalmers 1
Bayesiansk uppdatering A posteriori 0.0 0.1 0.2 0.3 0.4 0.00 0.02 0.04 0.06 0.08 0.10 A priori Är H 0 sann? När vi inte förkastar H 0, säger vi att vi accepterar H 0. Vi har däremot inte visat att H 0 är sann. Vi hade kanske bara för litet stickprov. Titta på konfidensintervallet. Om viktiga skillnader finns där, så ska du kanske öka studien, om inte kan H 0 ur en praktisk aspekt anses vara sann. Multipelinferens Av 20 obeoende test kommer man i genomsnitt att hitta en signifikans även om nollhypoteserna är sanna i alla 20 testen. Med signifikansnivå α=0.05, blir multipla signifikansnivån P(minst ett falskt förkastande)= 1-P(inget falskt förkastande)=1-(1-0.05) 20 =0.64! Staffan Nilsson, Chalmers 2
Bonferroni Om α är den valda signifikansnivån kan man visa att oavsett om testen är oberoende eller ej så är P(minst en falskt förkastad) n α Med individuell nivå α/n kan vi alltså får multipel signifikansnivå α. Detta brukas tillämpas med det ekvivalenta förfarandet Bonferronikorrektion av nominella p-värden för varje test p c =np. Wanted Dead or Alive Bonferroni För 20 test betyder det att nominella p-värdet behöver vara lägre än 0.05/20=0.0025. Ofta är testerna positivt beroende och då är are Bonferronikorektion alldeles för konservativt. Det finns särskilda metoder för t ex ANOVA. För generella fall kan permutationsmetoder tillämpas. Sekventiella test Låt p = P(En rökares barn är pojke) Testa H 0 : p=½ mot H a :p ½ Om vi testar efter varje nytt barn kommer vi med 100% slh att kunna förkasta H 0 trots att den är sann. Why? Staffan Nilsson, Chalmers 3
Multipel testning simultan nivå Ursprungstanken med en multipel signifikansnivån är att man vill skydda en logiskt sammanhängande grupp av hypoteser så att risken att ngn av dem blir falskt signifikant är låg. Man ska inte korrigera hela livets tester! Stort antal test När man testar många hypoteser, där de flesta nollhypoteserna är sanna måste man ovillkorligen korrigera för multipelinferens. Typiska exempel finns inom storskaliga genetiska analyser, masspektrometri mm Ett vanligt dilemma Om du har 15 rimliga test, men inte direkt ser att de hänger samman logiskt får du kanske 3 signifikanta (p=0.02, 0.04, 0.05), men 12 som inte är det. Om du tvingas korrigera blir det (p c =0.3,0.6,0.75). Vad gör den fiffige? Jo, gömmer de 12 icke signifikanta. Gör inte så, du skadar dig själv i längden! Staffan Nilsson, Chalmers 4
Prespecificerade test p c =3*p p c =5*p Experiment Ett experiment en metod som syftar till att bestämma kausalitet till skillnad från en observationsstudie, som bara detekterar samband. I ett experiment strävar man efter studera påverkan på en resultatvariabel och en eller flera kontrollerade faktorer (kategoriska variabler). Försöksobjekten skall vara så identiska som möjligt i alla andra avseenden. Kontrollgrupp Ett experiment innebär ofta ngn slags behandling vars resultat man vill jämföra med icke behandling och eller andra behandlingar. Man skall randomisera till kontroll eller behandling. För människor vill man om möjligt att deltagarna inte ska känna till vilken grupp de tillhör (blinded) och ännu hellre att försöksledaren inte heller gör det (double blinded) Staffan Nilsson, Chalmers 5
Randomiserade block Randomiseringen kan vara fullständing, men man kan också använda sig av randomiserade block. Om två körningar behövs, se till att inte lägga alla kontroller på ena körningen och alla behandingar på den andra för att undvika batcheffekter. 50/50 50/50 Replikation Man ändrar inte paradigm pga ett ynka experiment. Förvissa dig om att det går att replikera av dig själv, av andra och i andra omgivningar. De olika replikationerna kan eventuellt slås samman för att få högre styrka. Antingen med varje experiment som egen faktor i en ANOVA eller genom metaanalys Styrkeberäkningar Styrka (power) = 1-β = P(förkasta H 0 ) beror av Stickprovsstorlek(n) Effektstorlek (medelskillnad, lutning, OR etc) Signifikansnivå(α) Styrkeberäkningar skall utföras före studiestart! Staffan Nilsson, Chalmers 6
Power vs n, given effekt d=0.55 Power vs effekt, givet n Hur väljer man effekt Kvalificerad gissning Preliminära resultat, andra studier Lägsta relevanta effekt Staffan Nilsson, Chalmers 7
Post hoc power Dear Professor Mean, The results of my study were negative, and the journal reviewer insists that I perform a post hoc power calculation. How do I do this? -Jittery Jerry Dear Jittery, Post hoc power calculations are very bad. If it's the only way you can get the paper published, we can do this calculation, but a confidence interval calculation is far better. http://www.childrens-mercy.org/stats/size/posthoc.asp Programvara för power Det finns som tillägg till SPSS, SAS m fl, men också mycket web-baserade program och en bra nedladdningsbar gratisversion: G*Power. Går lätt att simulera också. Staffan Nilsson, Chalmers 8
Staffan Nilsson, Chalmers 9