Statistik och epidemiologi T5



Relevanta dokument
Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Statistik och epidemiologi T5

Medicinsk statistik II

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Linjär regressionsanalys. Wieland Wermke

Parade och oparade test

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Datorlaboration 2 Konfidensintervall & hypotesprövning

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Medicinsk statistik I

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Föreläsning 7 och 8: Regressionsanalys

BIOSTATISTIK OCH EPIDEMIOLOGI

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Avd. Matematisk statistik

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Resultatet läggs in i ladok senast 13 juni 2014.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

TENTAMEN KVANTITATIV METOD (100205)

Fråga nr a b c d 2 D

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Föreläsning 12: Regression

Hur man tolkar statistiska resultat

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Exempel från föreläsningar i Matematisk Statistik

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Lösningar till SPSS-övning: Analytisk statistik

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

9. Beräkna volymen av det område som begränsas av planet z = 1 och paraboloiden z = 5 x 2 y 2.

Statistik Lars Valter

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14

Att välja statistisk metod

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F3 Introduktion Stickprov

PM NÄTAVGIFTER Sammanfattning.

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Hur skriver man statistikavsnittet i en ansökan?

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

a) Facit till räkneseminarium 3

FACIT (korrekta svar i röd fetstil)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Medicinsk statistik I

Gamla tentor (forts) ( x. x ) ) 2 x1

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Vad beror skillnaden på?

Repetitionsföreläsning

Exempel: Kolesterol. Skillnad? Skillnad? Förra årets kolesterolvärden. Δ total = 0,35 mmol/l Δ HDL = 0,87 mmol/l. = 0,35 mmol/l. Δ total

Uppgift 1. Deskripitiv statistik. Lön

Statistisk undersökningsmetodik (Pol. kand.)

Blandade problem från väg- och vattenbyggnad

, s a. , s b. personer från Alingsås och n b

F22, Icke-parametriska metoder.

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 23 februari 2004, klockan

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

parametriska test Mätning Ordinalskala: Nominalskala:

Föreläsning 5 och 6.

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer. Thommy Perlinger

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

F19, (Multipel linjär regression forts) och F20, Chi-två test.

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Dekomponering av löneskillnader

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk statistik Kurskod S0001M

Multipel Regressionsmodellen

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Sänkningen av parasitnivåerna i blodet

Transkript:

Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer Korrelation och linjär regression Lite mer statistiska begrepp Typ I och II fel Statistisk styrka Massignifikans p-värde igen! Vad är det för sannolikhet att hitta en skillnad i stickprovet? Studiepopulation där H 0 är sann 1

p-värde Exempel: Puls Vi vill veta om män och kvinnor har samma genomsnittsvilopuls Studiepopulationen är alla män och kvinnor (i Sverige, Europa, världen, etc) Nollhypotesen är att det inte finns någon skillnad, d.v.s. att skillnaden = 0 I hypotesprövningen antar vi att nollhypotesen är sann i studiepopulationen p-värde Exempel: Puls Stickprovet är 10 slumpvis valda kvinnor och lika många slumpvis valda män I stickprovet har kvinnor i snitt 3 bpm lägre vilopuls än män Två möjliga förklaringar Slumpen har gjort att vi har hittat en skillnad på 3 bpm även om det inte finns någon skillnad i studiepopulationen Det finns en skillnad i studiepopulationen, d.v.s. nollhypotesen stämmer inte p-värde Exempel: Puls Kvinnor lägre puls än män Ingen skillnad mellan män och kvinnor 2

p-värde Exempel: Puls Hur veta vilken förklaring som gäller? Titta på sannolikheten för att få resultatet: Om skillnaden är noll i studiepopulationen, vad är sannolikheten att skillnaden är minst 3 i stickprovet? Denna sannolikhet = p-värdet Litet p-värde låg sannolikhet det troligaste är att nollhypotesen inte är sann (d.v.s. alternativ 2) p-värde Exempel: Puls Hur vet vi om sannolikheten är liten? Signifikansnivån! Om sannolikheten är mindre än signifikansnivån är den liten Om den är större än signifikansnivån är den inte liten p-värde Exempel: Puls Om p > signifikansnivån Stor sannolikhet att få resultatet även om H 0 är sann Stor sannolikhet att hitta en skillnad på 3 bpm även om skillnaden i studiepopulationen är 0 Förkasta inte H 0 Om p < signifikansnivån Liten sannolikhet att få resultatet när H 0 är sann Liten sannolikhet att hitta en skillnad på 3 bpm om skillnaden i studiepopulationen är 0 Förkasta H 0 3

Mer om p-värde Utgår från att nollhypotesen är sann Kan räknas ut oavsett om data är normalfördelade eller ej (med olika metoder) Slarvig definition: Sannolikheten att resultatet beror på slumpen Räknas ej ut för hand Jämför teststorhet med tabell Dator Stjärniga test De vanligast förekommande konfidensgraderna är 90%, 95% och 99% De motsvarar signifikansnivåerna 10%, 5% och 1% p < 10% enstjärnig signifikans p < 5% tvåstjärnig signifikans p < 1% trestjärnig signifikans Konfidensintervall igen! Ett konfidensintervall kan användas till att Ange osäkerheten i en skattning Göra hypotesprövning 4

KI Exempel: Kolesterol Man vill testa ett kolesterolsänkande läkemedel 20 patienter med högt kolesterol behandlas Före och efter behandling mäts varje individs kolesterol För varje individ beräknas förändringen i kolesterolhalt KI Exempel: Kolesterol -2,69 1,20 2,23 2,92-0,29 1,46 2,35 3,69 0,16 2,03 2,72 3,75 0,75 2,15 2,90 4,25 1,13 2,22 2,91 6,79 I snitt har patienterna reducerat sitt kolesterol med 2,1 mmol/l KI Exempel: Kolesterol Stickprovet = de 20 patienterna Studiepopulationen = alla med högt kolesterol, alla som kan tänkas använda läkemedlet, etc Hur skulle den genomsnittliga kolesterolhalten i studiepopulationen förändras om vi behandlade samtliga? Baserat på resultatet från stickprovet gissar (skattar) vi att individerna i studiepopulationen i snitt skulle minska kolesterolhalten med 2,1 mmol/l 5

KI Exempel: Kolesterol Eftersom vi inte undersökt hela studiepopulationen kan vi inte vara absolut säkra på att detta stämmer Osäkerheten kan beskrivas med ett konfidensintervall Ett 95% konfidensintervall täcker med 95% sannolikhet det sanna värdet, d.v.s minskningen i studiepopulationen KI Exempel: Kolesterol 95% KI = 1,2 3,0 mmol/l Med 95% sannolikhet ligger det sanna värdet mellan 1,2 mmol/l och 3,0 mmol/l Om vi skulle behandla hela studiepopulationen skulle individerna i snitt minska sitt kolesterol med ett värde som, med 95% sannolikhet, ligger mellan 1,2 och 3,0 mmol/l KI används här som ett mått på osäkerheten i skattningen KI Exempel: Kolesterol Vi vill veta om preparatet verkligen har effekt H 0 = ingen effekt, d.v.s. att skillnaden = 0 Med 95% sannolikhet ligger det sanna värdet inom konfidensintervallets gränser, d.v.s mellan 1,2 och 3,0 mmol/l Nollhypotesen ligger inte innanför gränserna Alltså är det liten sannolikhet att nollhypotesen är det sanna värdet Förkasta H 0! 6

Konfidensintervall och p-värde Om data är normalfördelade kan hypotesprövning göras med konfidensintervall och p-värde Båda metoderna ger samma resultat givet samma signifikansnivå Konfidensgrad + signifikansnivå = 1 Om H 0 ligger utanför 95% KI är p < 5% Om H 0 ligger innanför 95% KI är p > 5% Sammanfattning hypotesprövning Förkasta H 0 om H 0 ligger utanför konfidensintervallets gränser p < signifikansnivån Förkasta inte H 0 om H 0 ligger innanför konfidensintervallets gränser p > signifikansnivån Olika frågeställningar Föreläsning 1: Test av ett medelvärde mot ett specifikt värde = one-sample t-test Kolesterol-exemplet: Test av förändring Data i par = beroende observationer Analysera skillnaden mellan parade data Lämpligt parametriskt test = parat t-test Lämpligt icke-parametriskt test = Wilcoxons teckenrangtest 7

Wilcoxons teckenrangtest Sortera observationerna efter absolutvärdet (d.v.s. ignorera om det är minskning eller ökning) Tilldela alla individer ranger baserat på absolutvärdet Summera rangerna för positiva värden (W + ) och de för negativa värden (W - ) Teckenrangtest Exempel: Kolesterol 0,16 (1) 1,46 (6) 2,35 (11) 2,92 (16) -0,29 (2) 2,03 (7) -2,69 (12) 3,69 (17) 0,75 (3) 2,15 (8) 2,72 (13) 3,75 (18) 1,13 (4) 2,22 (9) 2,90 (14) 4,25 (19) 1,20 (5) 2,23 (10) 2,91 (15) 6,79 (20) W - = 12 + 2 = 14 W + = 1 + 3 + 4 + = 196 Teckenrangtest Exempel: Kolesterol Antal obs = 20 Minsta summan = W - = 14 14 < 60 p < 5% 14 < 21 p < 0,05% 8

Sammanfattning tester Ett stickprov en mätning Ett stickprov två mätningar Två stickprov en mätning Icke-parametriska test Wilcoxons teckenrangtest Wilcoxons teckenrangtest Parametriska test One-sample t-test Parat t-test Två oberoende grupper När man samlat in värden från två olika grupper har man två uppsättningar siffror Man kan beräkna ett konfidensintervall för skillnaden i medelvärde för grupperna Punktskattningen är alltså skillnaden i medelvärde P-värde för skillnaden kan beräknas med (twosample) t-test Nollhypotesen är att skillnaden = 0 Dubbelsidig alternativhypotes är att skillnaden 0 Oberoende grupper Exempel: Lön Är medellönen i kommunerna i Norrbotten högre än medellönen i kommunerna i fd Malmöhus län? 9

Oberoende grupper Exempel: Lön Man kan räkna ut ett konfidensintervall för skillnad i medelvärde SE pooled är ett sammanviktat standardfel s 2 pooled är en sammanviktad varians KI = ( x x ) ± c SE s SE 2 pooled pooled = A = s B 2 pooled 1 1 + na nb 2 ( n A 1) s A + ( nb 1) ( n 1) + ( n 1) A B pooled s 2 B Oberoende grupper Exempel: Lön Län Norrbotten Skåne (fd Malmöhus län) Medelinkomst n Medel Varians 201729 234127723 14 20 218981 713625483 s 2 pooled 2 ( na 1) sa + ( nb 1) s = ( n 1) + ( n 1) A B 2 B ( 14 1) 234127723+ ( 20 1) 713625483 = = 518829518 ( 14 1) + ( 20 1) SE pooled = s 2 pooled 1 1 + = na nb 1 1 518829518 + = 7937 14 20 KI = A B pooled ( x x ) ± c SE = (201729 218981) ± 1,96 7937 = 32810, 1695 p = 0,037 (t-test) Oberoende grupper Exempel: Lön Icke-parametriska metoder för att jämföra två populationer Wilcoxons rangsummetest Mann-Whitneys U-test 10

Oberoende grupper Exempel: Lön Rangordna värdena oberoende av grupp Beräkna rangsummorna för grupperna Rangsumma Skåne=405, Norrland=190 Jämför minsta rangsumman med tabell Oberoende grupper Exempel: Lön Tabellen visar kritiska värden för Wilcoxons rangsummetest Norrland = 14 län Skåne = 20 län 190 > 188, d.v.s. p > 0,05 Statistikprogram ger p=0,054 (Mann-Whitney) Sammanfattning tester Ett stickprov en mätning Ett stickprov två mätningar Två stickprov en mätning Icke-parametriska test Wilcoxons teckenrangtest Wilcoxons teckenrangtest Wilcoxons rangsummetest Parametriska test One-sample t-test Parat t-test Two-sample t-test 11

Fel test? CB-153 (pg/g fat) 600 500 400 300 200 100 Originaldata ickeparametriskt: p = 0,4 Log-transformerat parametriskt: p = 0,29 Originaldata parametriskt: p = 0,046 0 N = 95 No 8 Yes Miscarriage/stillbirth Tester för andelar Ett stickprov konfidensintervall för andelar (förra föreläsningen) Två stickprov konfidensintervall för skillnader i andelar Fler stickprov chi-två-test (ej i denna kurs) Andelar Exempel: Snö Var vintrarna vitare i början av förra seklet jämfört med i slutet? Stickprov: Julaftnar i Lund under 1900-talet Antal vita jular (>1 cm snödjup) 1901-1950: 8 vita jular 1951-2000: 6 vita jular H 0 : Skillnaden i andelen vita vintrar = 0 H 1 : Skillnaden i andelen vita vintrar 0 12

Andelar Exempel: Snö Vid beräkning av KI för skillnad i andelar används formeln ( q q ) ± c A B qa ( 1 qa) qb ( 1 qb ) + n n A B För de vita vintrarna blir detta ( 6 ) ( 1 8 ) 6 ( 1 6 ) 8 8 ± 1,96 50 50 + 50 50 = 0,10 0,16 50 50 50 50 Andelar Exempel: Snö Med 95% sannolikhet fanns det alltså mellan -10% och 16% fler vita vintrar förr Eller: Mellan 10% färre och 16% fler Nollhypotesen ligger i intervallet, alltså kan man inte förkasta nollhypotesen Sammanfattning hittills (1) Konfidensintervall Uttrycker osäkerhet i en skattning Används vid hypotesprövning Fungerar om data är normalfördelade p-värde Används vid hypotesprövning Olika metoder beroende på om data är normalfördelade eller ej 13

Sammanfattning hittills (2) Parametriska test Bygger på en specifik fördelning (oftast normalfördelningen) Kan användas för kontinuerliga normalfördelade data Beräknas på observationernas värde Icke-parametriska test Inga antagande om specifik fördelning Kan användas för kontinuerliga icke-normalfördelade data, samt för ordinaldata Beräknas på observationernas ranger Sammanfattning hittills (3) Oberoende observationer Mätningar på flera grupper som inte är relaterade Kallas också oparade data Beroende observationer Flera mätningar på samma individer Kallas också parade data Två variabler Ibland vill man undersöka om två variabler hänger ihop Exempelmaterial: 195 manliga yrkesfiskare mellan 31 och 59 år Blod analyserat för PCB och Hg Har en fiskare med högt PCB också högt Hg? Bara samvariation korrelation En påverkar den andra linjär regression 14

Korrelationskoefficienter Korrelationskoefficienter används för att visa hur två variabler samvarierar För normalfördelade data används Pearsons korrelationskoefficient (r) För övriga data används Spearmans korrelationskoefficient (r S ) r S beräknas på ranger i stället för egentliga värden -1 r 1 Korrelationskoefficienter r 0 r = 1 r 0.95 r -0.95 Korrelation Exempel r=0.515 15

Linjär regression Om en variabel påverkar den andra använder man linjär regression Exempel: Om y alltid är samma som x kan man skriva y = x Exempel: Om y alltid är dubbelt så stor som x kan man skriva y = 2x y kallas för den beroende variabeln x kallas för den oberoende variabeln Linjär regression y = x y = 2x 20 18 16 14 12 10 8 6 4 2 0 0 5 10 15 20 40 35 30 25 20 15 10 5 0 0 5 10 15 20 OBS! Olika skalor! Linjär regression tolkning Om y = 2x betyder detta att För varje ökning i x ökar y två enheter Exempel: Om y är veckopeng och x är ålder får man 2 kr mer i veckopeng varje gång man fyller år Någon med en enhet högre x har två enheter högre y Exempel: Kalle (7 år) har två kr högre veckopeng än Oskar (6 år) 16

Linjär regression generell formel 1 En generell formel för sambandet mellan y och x kan skrivas y = βx β kallas för ekvationens riktningskoefficient eller lutningskoefficient (slope) Tolkningen av β är För varje enhet x ökar, ökar y β enheter En individ med en enhet högre x har β enheter högre y β kan vara negativ = minskning Linjär regression skärning Ibland är verkligheten sådan att y har ett värde 70 då x är noll 60 50 Exempel: y = 10 + 3x 40 När x = 0 är y = 10 30 20 För varje enhets ökning 10 i x ökar y tre enheter 0 0 5 10 15 20 Linjär regression generell formel 2 En generell formel för sambandet mellan y och x kan nu skrivas y = α + βx α Kallas ekvationens skärning eller intercept Kan vara negativ Påverkar inte β 17

Linjär regression villkor För varje värde på x måste y vara normalfördelad Samtliga observationer måste vara oberoende Förhållandet mellan x och y måste vara linjärt Linjär regression Exempel: Fiskare Påverkar halten PCB halten Hg? Hg = beroende variabel (den som blir påverkad) = y PCB = oberoende variabel (den som påverkar) = x Linjär regression ger y = 1,353 + 0,659x PCB = 0 pg/g Hg = 1,353 μg/l Om PCB ökar med 1 pg/g ökar Hg med 0,659 μg/l Linjär regression hypotesprövning Man undersöker förhållandet mellan y och x, d.v.s. β Nollhypotesen är hypotesen om ingen effekt H 0 : β = 0 H 1 : β 0 Hypotesprövningen kan göras med konfidensintervall och p-värde 18

Linjär regression Exempel: Fiskare y = 1,353 + 0,659x β = 0,659 95% konfidensintervall 0,497 0,822 p < 0,001 Förkasta H 0 på 5% signifikansnivå Det finns ett samband mellan PCB och Hg Variation I verkligheten ligger sällan observationerna på en exakt linje Exempel: Någon som har hög poäng på mitterminsskrivningen har troligen också hög poäng på tentan, men alla studenter har inte exakt samma antal rätt på de två skrivningarna Det finns en variation i data Förväxla inte variation med varians! Variation Variationen kan bero på flera faktorer Mätbara faktorer som t.ex. ålder och kön Ej mätbara faktorer som t.ex. genetisk predisposition för viss sjukdom eller mätfel Variationen kan beskrivas med residualer 19

Variation residualer En residual är skillnaden mellan det faktiska värdet och värdet enligt ekvationen y = α + βx 70 60 50 40 30 20 10 0 0 5 10 15 20 Variation Exempel: Fiskare Variation förklaringsgrad Ju bättre modell man använder desto mindre blir residualerna Den del av variationen som förklaras av en modell kallas modellens förklaringsgrad (R 2 ) Ju fler variabler i modellen, desto bättre förklaringsgrad En justerad förklaringsgrad tar hänsyn till antalet variabler 20

Variation Exempel: Fiskare Variation Exempel: Fiskare R 2 = 26,5% Halten av PCB förklarar 26,5% av variationen i Hg-halt Förklaringsgraden är kvadraten av Pearsons korrelationskoefficient R = 2 R = 0,265 = ± 0,515 OBS! Kan ej avgöra om positiv eller negativ korrelation! Linjär regression och korrelation Ibland ser man en förklaringsgrad eller en korrelationskoefficient tillsammans med ett p- värde Detta p-värde relaterar till nollhypotesen för linjär regression: H 0 : β = 0 p-värdet testar inte förklaringsgraden! 21

Linjär regression och korrelation Exempel: r och R 2 Man undersöker sambandet mellan BMI och PCB, och finner att korrelationskoefficienten är 0,32 Positiv korrelationskoefficient när BMI ökar, ökar PCB (och tvärtom) 0,32 2 = 0,10 BMI förklarar 10% av variationen i PCB Det kan bli fel! Typ I-fel Man förkastar en sann nollhypotes Man hittar en effekt som inte finns Typ II-fel Man missar att förkasta en falsk nollhypotes Man missar en effekt som faktiskt finns Fel i statistisk slutledning Studiepopulation H 0 inte sann H 0 sann Stickprov H 0 inte sann OK! Typ I H 0 sann Typ II OK! 22

α och β α Sannolikheten att förkasta H 0 när H 0 är sann Sannolikheten att felaktigt hitta en effekt Signifikansnivå β Inte samma β som betecknar lutningskoefficient! Sannolikheten att missa att förkasta H 0 när H 0 inte är sann Sannolikheten att missa en effekt som faktiskt finns α och β 1- β Sannolikheten att hitta en effekt som faktiskt finns Statistisk styrka Om man minskar α ökar β Mindre risk att felaktigt hitta en effekt hårdare krav för att något skall anses ha effekt svårare att hitta effekter som faktiskt finns Fel i statistisk slutledning Studiepopulation H 0 inte sann H 0 sann Stickprov H 0 inte sann (förkastas) Sant positiv 1-β Falskt positiv α H 0 sann (förkastas ej) Falskt negativ β Sant negativ 1-α 23

Statistisk styrka Givet en viss signifikansnivå beror den statistiska styrkan på Stickprovets storlek Spridningen i data Storleken på effekten Statistisk styrka på 80% brukar anses rimligt Statistisk styrka Låg statistisk styrka man hittar bara stora skillnader / effekter Hög statistisk styrka man kan hitta väldigt små skillnader / effekter Vilka skillnader är medicinskt / biologiskt relevanta? Febernedsättande medicin som sänker temperaturen med 0,1 C? Statistisk styrka Exempel Vi vill testa ett preparat som sänker kolesterolhalten Jämför behandlade med kontroller Signifikansnivå = 5%, intressant effekt är en minskning med minst 1 mmol/l, s = 2 mmol/l n/grupp 10 50 64 Styrka 19% 70% 80% 24

Statistisk styrka Exempel Signifikansnivå = 5%, s = 2 mmol/l Ekonomin tillåter bara 10 individer per grupp Skillnad 1,0 1,5 Styrka 19% 36% 2,7 80% Massignifikans multipla tester 95% konfidensintervall: Av 100 test kommer 95 att täcka det sanna värdet Alltså kommer 5 att inte täcka det sanna värdet! Antag att behandling inte har effekt, d.v.s. det sanna värdet är 0 Då kommer nollhypotesen att felaktigt förkastas i 5 fall av 100 Massignifikans Exempel I en stor studie genomför man 74 tester med 5% signifikansnivå Tre test visar signifikans Kan man lita på detta? Av 74 tester kan man förvänta sig 0,05*74 = 3,7 felaktiga signifikanser 25

Massignifikans hur hantera? Justera resultaten för antalet analyser Exempel: Bonferroni-justering Skilj på hypotesprövande och hypotesgenererande studier Hypotesprövande = man testar den hypotes man designade studien för att pröva Hypotesgenererande = man hittar signifikans för hypoteser man inte tidigare bestämt skulle studeras kan ge uppslag till nya studier Detta skall ni kunna! (1) Lägesmått och spridningsmått Vilka finns? Hur beräknar man dem? När använder man vilket? Analytisk statistik Sätta upp hypoteser Välja test baserat på hur data fördelar sig När lämpligt, beräkna konfidensintervall och referensintervall för ett stickprov Tolka konfidensintervall, referensintervall och p-värde Detta skall ni kunna! (2) Välja mellan Pearsons och Spearmans korrelationskoefficient, och tolka koefficienten Tolka linjär regression med avseende på riktningskoefficienten och förklaringsgraden Förstå innebörden av typ I- och typ II-fel och statistisk styrka Förstå massignifikans och dess följder 26