Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x.
Analytisk statistik Regression & Korrelation Oberoende & beroende variabel Oberoende variabel Beroende variabel Den variabel som man t.ex. systematiskt och kontrollerat förändrar i ett experiment. x-variabeln Den variabel man mäter och vars värde beror av den oberoende variabel som man förändrar. y-variabeln rökning lungcancer 1
Regression & Korrelation Variabler är data som observeras i undersökningar eller kontrollerade experiment. Regression skapar en funktion, ett samband, mellan två (eller flera) variabler som erhållits från experimenten. Korrelation visar hur starkt det funna sambandet är. Prediktion innebär att det erhållna sambandet används för att beräkna (förutsäga) värdet av en beroende variabel från värdet på den oberoende. Karies f socker? Linjär regression Hitta ett linjärt samband mellan en oberoende variabel (x) och en beroende variabel (y) Y-axel y ax b Observation Regression Korrelation Så borde y bli Prediktion Om x är X-axel
Linjär regression Enkel linjär regression ett linjärt samband mellan en oberoende (x) och en beroende variabel (y) Räta linjens ekvation: y ax b Spridningsdiagram - Linjärt samband Y 100 90 80 70 60 50 40 30 0 10 0 0 10 0 30 40 50 60 70 80 90 100 X Regression Frågeställning: Är det sannolikt att det finns ett samband mellan människors längd och vikt? 3
Regression - Exempel Vikt =f(längd)? Stickprov: 19 personer med varierande längd Dataset: Längd Vikt 163 49 173 56 141 4 157 51 159 51 143 4 150 4 156 56 156 4 148 50 18 5 161 45 141 39 166 56 180 75 16 64 168 67 144 43 166 56 Beskrivande statistik: Parameter Längd Vikt Medelvärde 155,9 50,1 Standardfel,9,6 Median 157 50 Typvärde 141 56 Standardavvikelse 1,9 11,4 Varians 165,3 19,6 Kurtosis -0,089 0,776 Skevhet -0,70 0,181 Variationsbredd 5 50 Minimum 18 5 Maximum 180 75 Summa 96 951 Antal 19 19 Konfidensnivå (95,0%) 6, 5,5 Regression - Exempel Vikt =f(längd)? Spridningsdiagram visar varje datapar som en punkt i diagrammet. Vikt [kg] 80 Vikt = f(längd) 70 60 50 40 30 0 10 130 140 150 160 170 180 190 Längd [cm] 4
Regression - Finns det något samband? Vikt [kg] 80 Vikt = f(längd) 70 60 50 40 30 0 10 130 140 150 160 170 180 190 Längd [cm] Regression - Linjär regression Anpassar en linjär funktion till punkterna i diagrammet Ger en ekvation och korrelationsmått! Vikt [kg] 80 70 60 y = 0,774x 70,6 r = 0,87 r = 0,76 Vikt = f(längd) 50 40 30 0 10 130 140 150 160 170 180 190 Längd [cm] 5
Regression - Minsta kvadratmetoden Minsta kvadratmetoden beräknar och anpassar en linjär funktion Minimerar kvadratsumman mellan funktionen och punkterna! min d 1 d d 3 d 4 Regression - Korrelation Hur starkt/svagt är sambandet? Korrelationskoefficienten r - anger sambandets styrka r varierar mellan -1 till +1 Determinationskoefficienten r - anger hur mycket av variationen av y som förklaras av x. 6
Prediktion 90 80 y = 1,04x 0,38 r = 0,996 r = 0.99 Förklarar 99,% av sambandet 70 60 50 40 30 0 10 0 0 10 0 30 40 50 60 70 80 90 Prediktion 7
Prediktion Prediktion 8
Är det ett verkligt samband? Lögn, förbannad lögn och statistik! För att fastställa att det finns ett verkligt samband mellan två variabler x (orsak) och y (effekt) krävs tre steg: 1. Visa på ett statistiskt samband mellan de två variablerna.. Fastställa rimligt orsakssamband mellan variablerna (t.ex. orsaken måste gå före effekten, eller vara samtidigt). Bra lön Bra utbildning? 3. Bedöma inverkan av alternativa tänkbara orsaksvariabler på effektvariabeln. Analytisk statistik Konfidensintervall 9
Konfidensintervall SE kan användas för att beräkna ett konfidensintervall (KI) Med en viss säkerhet täcker konfidensintervallet det sanna värdet Konfidensintervallets bredd beror av: Storleken på SE (spridningen & antalet individer i stickprovet) Konfidensgraden Hur säker man vill vara Konfidensintervall Om man gör 100 mätserier var och en med konfidensintervall med konfidensgrad 95% så kommer i genomsnitt 95 av de 100 intervallen att innehålla den sanna värdet. 10 130 140 150 160 170 10
Konfidensintervall Det intervall som populationens medelvärde ligger inom med en viss säkerhet när populationens medelvärde uppskattas med stickprov Används främst i beskrivande syfte Använd när du presenterar medelvärden! Genereras automatiskt när man begär beskrivande statistik i de flesta datorprogram. Konfidensintervall x ( z SE) x 1, 64 SE x 1, 96 SE x, 58 SE x 3, 30 SE x% konfidensintervall att μ ligger här 90% konfidensintervall att μ ligger här 95% konfidensintervall att μ ligger här 99% konfidensintervall att μ ligger här 99,9% konfidensintervall att μ ligger här s SE n 11
Konfidensintervall Du har mätt det tuggstimulerade salivflödet på 107 patienter. Medelvärdet var 1,480 ml/min med s = 0,437 ml/min. Hur stort är ett 95%-igt konfidensintervall för medelvärdet? CI 0,437 1,480 1,96 1,480 0,083 107 1,397;1,563 Patienternas medelsalivflöde ligger med 95% säkerhet mellan 1,397 och 1,563 ml/min! Konfidensintervall Hur många mätningar? Hur många individer behöver man för en undersökning? n z s CI Exempel: Vill ha ett 95%-igt konfidensintervall som är 0,1 ml/min brett! 0,437 n 1,960 0,1 93 1
Konfidensintervall för proportioner s p( 100 p) Exempel: Du intervjuade 33 personer på Riksstämman. 8% visade sig vara tandhygienister. Bestäm med ett 95%-igt konfidensintervall hur många tandhygienister som fanns på riksstämman! s 100 8 7, 1 8 s 7,1 SE 1,775 n 33 CI ( 95%) 8 1,9601,775 8 3,5 (4,5;11,5%) Med 95% säkerhet fanns det mellan 4,5 11,5% tandhygienister på Riksstämman. Regression - Konfidensintervall Konfidensintervall (CI) för linjen Konfidensintervall (CI) för enskilda punkter 13
Konfidensintervall Stickprovet appliceras på Hela populationen Statistisk inferens H 0 : 1 0 14
Statistisk inferens (slutledning) Statistisk inferens betyder att man från sitt stickprov generaliserar till hela populationen som man tagit prov från. Medelvärdet ( x ) får representera populationens medelvärde ( ). x Statistisk inferens 15
Hypotesprövning Vi vill jämföra två värden med varandra! Nollhypotesen: H 0 : Det finns ingen skillnad H 0 : 1 0 Alternativhypotesen: H 1 : Det finns en skillnad H 1 : 1 0 Nollhypotesprövning Om nollhypotesen H 0 är sann vad är sannolikheten för att våra data ska observeras? Om sannolikheten för H 0 är låg (ex p<0,05 dvs < 5%) förkastas H 0 och alternativhypotesen H 1 accepteras. På detta sätt har vi beräknat en statistiskt säkerställd skillnad mellan medelvärdena. H 0 : 1 0 H 1 : 1 0 16
Typ I- och Typ II-fel En sannolikhet < 5% betyder att vi riskerar att begå fel i fem fall av hundra! Typ I-fel: Nollhypotesen förkastad men är sann. Typ II-fel: Nollhypotesen accepterad men falsk. Signifikanstester Parametriska tester - t-test för ett stickprov - t-test för parvisa observationer - t-test för jämförelse av två medelvärden Parametriska tester är beroende på typ av fördelning! Ställer krav på datasetet! Chi -test ( - test ) Icke-parametriska tester - Wilcoxons tecken-rangtest - Wilcoxons rangsummetest Parametriska tester väljs i första hand! - De är kraftfullare! 17
t-fördelningen En teoretisk fördelning som används när n<30. - används för statistisk hypotesprövning - beräkning av konfidensintervall Liknar normalfördelningen när n>30 Det finns en t-fördelning för varje antal frihetsgrader - vid skattning av populationens μ med hjälp av x och s för stickprovet är antalet frihetsgrader df = n-1. Normalfördelningen 18
t-fördelningen t-fördelningen 19
t-fördelning vid bestämning av konfidensintervall Du har mätt det tuggstimulerade salivflödet på 1 patienter. Medelvärdet var 1,48 ml/min med s = 0,44 ml/min. Hur stort är ett 95%-igt konfidensintervall för medelvärdet? Leta upp värdet i t-fördelningstabellen vid n-1=11 frihetsgrader och α = 0,05. Där står,01. 0,44 CI 1,48,01 1,48 0,8 1,0;1,76 1 Patienternas medelsalivflöde ligger med 95% säkerhet mellan 1,0 och 1,76 ml/min! (Jfr med motsvarade med 107 patienter och z-fördelning!) 1,397 och 1,563 ml/min t-test Vad är det? Testar om medelvärdet överenstämmer med ett angivet värde Ja! eller Nej! 0
t-test Vad är det? Testar om medelvärdena är lika p=0.05 Skillnad p=0.0001 Ingen skillnad t-test Testar om värdena ligger innanför varandras konfidensintervall Hypotes: H0 : 1 0 p 0,05 Testfunktion: t calc 1 Diff SE Diff s n 1 df n 1 t calc jämförs mot tabellvärdet: t( p, df ) 1
t-test för ett stickprov - t-test mot en konstant Testar om medelvärdet överenstämmer med ett angivet värde. Den uppmätta variabeln bör vara hyfsat normalfördelad. Hypotes: Mothypotes: H H 0 : 1 1 : 1 0 0 Testfunktion: t d SE x konstant sd n df n 1 t-test för ett stickprov - Exempel Du undersöker salivflödet hos dina patienter: Du vet att normalt salivflöde > 1,0 [ml/min] Du tar stimulerat salivprov från 16 patienter. Frågeställning: Är de uppmätta salivflödena normala salivflöden, dvs > 1,0 [ml/min], med en konfidensnivå på 95%? Testfunktion: t d SE x konstant sd n Salivflöde Patient [ml/min] 1 1,3 1,56 3 1,3 4 1,07 5 1,93 6 1,58 7,40 8 1,56 9 1,3 10 1,34 11 1,10 1 1,10 13 1,54 14 1,0 15 1,50 16 1,3 H0 : x 1,0 0 [ml/ min] p 0,05 df n 1
t-test för ett stickprov - Exempel (forts.) Beskrivande statistik för variabeln Salivflöde Medel 1,431 Standardfel 0,0867 Median 1,33 Typvärde 1,3 Standardavviklse 0,347 Varians 0,10 Kurtosis 3,141 Skevhet 1,619 Intervall 1,33 Minimum 1,07 Maximum,4 Summa,89 Antal 16 Konfidensnivå (95,0%) 0,185 t d SE x konstant sd n 1,43 1,00 0,347 16 0,43 0,347 16 4,956 Använd nu t-fördelningstabellen! t-test för ett stickprov - Exempel (forts.) df t 4,956 p 0,05 n 1 16 1 15 df n 1 16 1 15 t 4,956 t(15),131 Svar: H 0 förkastas då sannolikheten < 5% att de är lika! Dvs salivflödet > 1 [ml/min] Således: Ja, medelvärdet tillhör normala salivflöden. 3
Parat t-test - t-test för parade observationer För att jämföra pavisa data - före - efter - cross-overstudie - split-mouthstudie - parade försökspersoner - tvillingstudier Testfunktion: t Diff SE Diff d sd n df n 1 Parat t-test - Exempel Försöksutförande: Stimulerat salivprov från 8 patienter. Efter 1 timme: en smärtstillande tablett. Efter ytterligare 30 min: nytt salivprov Frågeställning: Påverkade tabletten? Salivflöde [ml/min] Före Efter Skillnad 1,3 0,98 0,5 1,56 1,34 0, 1,3 1,10 0, 1,07 1,10-0,03 0,67 0,78-0,11 1,58 1,0 0,38,40 1,50 0,90 1,56 1,3 0,33 Testfunktion: t df Diff SE Diff n 1 d sd n 4
Parat t-test Exempel (forts.) Beskrivande statistik för variabeln Skillnad Medel 0,70 Standardfel 0,108 Median 0,35 Typvärde 0,0 Standardavviklse 0,305 Varians 0,093 Kurtosis,47 Skevhet 1,13 Intervall 1,01 Minimum -0,11 Maximum 0,90 Summa,16 Antal 8 Konfidensnivå (95,0%) 0,55 Parat t-test Före Efter Medel 1,44 1,154 Varians 0,51 0,048 Observationer 8 8 Pearson-korrelation 0,936 Antagen medelvärdesskillnad 0 df (Frihetsgrader) 7 t-kvot,50 p (T<=t) ensidig 0,00 t-kritisk ensidig 1,89 större än p (T<=t) tvåsidig 0,041 t-kritisk tvåsidig,36 Så här kan man beskriva resultatet: Medelvärdet för minskningen i salivflöde (x=0.70, s=0.305, n=8) var signifikant större än 0 med t(7)=.50, tvåsidig p = 0.04, vilket visar att den smärtstillande tabletten minskade salivflödet. Ett 95%-igt konfidensintervall för medelvärdet av det minskade salivflödet var 0,70 ± 0,55 = 0.015-0.55. Oparat t-test - t-test av två medelvärden För att jämföra medelvärden Krav: Hyfsat normalfördelade och varianserna ungefär lika Testfunktion: t diff SE x1 x diff SE x x 1 där SE x x 1 s 1 n n och s n1 1 s1 n 1 n 1 n 1 1 s 5
Oparat t-test Exempel Hypotes: Fickdjupet skiljer mellan män & kvinnor Du mäter fickdjupet på 15 slumpmässigt utvalda patienter. Det är 8 män och 7 kvinnor Du gör ett oparat t-test av två medelvärden. Testfunktion: SE x x 1 t s x x 1 df n1 1 n 1 SE x x 1 n n 1 s Medelfickdjup [mm] Män Kvinnor 3,5 3,4 3,5 3,9,8 3,8 3,1 3,5 3,0 3, 3, 3,5 3, 3,6,8 n1 1 s1 n 1 n 1 n 1 1 s Oparat t-test Exempel (forts.) Män Medel 3,14 Standardfel 0,096 Median 3,15 Typvärde 3,50 Standardavviklse 0,7 Varians 0,0741 Kurtosis -1,100 Skevhet 0,153 Intervall 0,7 Minimum,8 Maximum 3,5 Summa 5,1 Antal 8 Konfidensnivå (95,0%) 0,8 Kvinnor Medel 3,56 Standardfel 0,0896 Median 3,50 Typvärde 3,50 Standardavviklse 0,37 Varians 0,056 Kurtosis -0,345 Skevhet 0,086 Intervall 0,7 Minimum 3, Maximum 3,9 Summa 4,9 Antal 7 Konfidensnivå (95,0%) 0,19 6
Oparat t-test Exempel (forts.) Oparat t-test av medelvärden Män Kvinnor Medel 3,14 3,56 Varians 0,0741 0,056 Observationer 8 7 Poolad varians 0,0658 Antagen medelvärdesskillnad 0 df (Frihetsgrader) 13 t-kvot -3,16 p (T<=t) ensidig 0,0038 t-kritisk ensidig 1,77 p (T<=t) tvåsidig 0,0075 t-kritisk tvåsidig,16 absolutbelopp större än Varianserna ungefär lika Så här kan du beskriva resultatet: Skillnaden i fickdjup mellan kvinnor och män (d kvinnor -d män =3,56-3,14=0,4 mm) var signifikant större än 0 med t(13)=3,16, tvåsidig p = 0,008. Ett 95%-igt konfidensintervall för medelvärdet av det minskade salivflödet var 0.015-0.55. Signifikanstest av en korrelation Testar om korrelationskoefficienten r är signifikant skild från noll Hypotes: Mothypotes: H H 0 : 1 1 : 1 0 0 (dvs att r = 0) Testfunktion: t r SE r r 1 r n df n 7
Signifikanstest av korrelationer r 0,6734 n 0 df n 0 18 df n 0 18 r t SE r 0,6734 1 0,6734 0 3,86 t 4,956 t(15),131 Svar: p något större än 0,001 dvs: H 0 förkastas då sannolikheten att det inte är en korrelation är ungefär 1 på 1000! Noll-hypotesen förkastas och man accepterar att det finns en korrelation Analysis of Variance (ANOVA) Jämföra flera grupper Normalfördelade data av variabler på intervall/kvotskala Ungefär samma varians Nollhypotesen H0 : 1 3... k Alternativhypotesen H : 1 i j 8
ANOVA - Exempel Tre subspecies av S. mutans, A, B och C, producerar syra. Din hypotes: Det finns en skillnad i hur mycket syra de tre subspecies producerar. Du isolerar kolonier från ett antal patienters munnar och mäter syramängden. Du jämför medelvärdena av syraproduktionen med hjälp av envägs ANOVA. S. Mutans subspecies: A B C 5 8 4 6 9 3 4 11 1 3 13 7 5 6 5 6 7 7 9 3 8 3 5 5 ANOVA Exempel (forts) SUMMARY Groups Count Sum Average Variance A 11 57 5,18,36 B 7 63 9,00 5,67 C 9 9 3, 3,44 ANOVA Source of Variation SS df MS F P-value F crit Between Groups 133,5 66,77 18,81 0,00001 3,40 Within Groups 85, 4 3,55 Total 18,7 6 C A B 9
ANOVA Exempel (forts) A B Mean 5, 9,0 Variance,36 5,67 Observations 11 7 Pooled Variance 3,60 Hypothesized Mean Difference 0 df 16 t Stat -4,16 P(T<=t) one-tail 0,00037 t Critical one-tail 1,75 P(T<=t) two-tail 0,00074 t Critical two-tail,1 A C Mean 5, 3, Variance,36 3,44 Observations 11 9 Pooled Variance,84 Hypothesized Mean Difference 0 df 18 t Stat,59 P(T<=t) one-tail 0,0093 t Critical one-tail 1,73 P(T<=t) two-tail 0,0187 t Critical two-tail,10 B C Mean 9,0 3, Variance 5,67 3,44 Observations 7 9 Pooled Variance 4,40 Hypothesized Mean Difference 0 df 14 t Stat 5,47 P(T<=t) one-tail 0,000041 t Critical one-tail 1,76 P(T<=t) two-tail 0,000083 t Critical two-tail,14 Att välja statistisk metod Variabler Kvantitativa Kvalitativa Normalfördelad Sned fördelning Parametrisk test Icke-parametrisk test Icke-parametrisk test 30