Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

Relevanta dokument
Statistik. Statistik. Statistik. Statistics, Lars Walter. Forsknings- och utvecklingsenheten för närsjukvård. Folkhälsocentrum

Statistik Lars Valter

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Hur man tolkar statistiska resultat

Hur skriver man statistikavsnittet i en ansökan?

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotestestning och repetition

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Introduktion till Biostatistik. Hans Stenlund, 2011

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Statistik 1 för biologer, logopeder och psykologer

Statistik och epidemiologi T5

Studietyper, inferens och konfidensintervall

Föreläsning G60 Statistiska metoder

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Gamla tentor (forts) ( x. x ) ) 2 x1

Statistik Termin 10, Läkarprogrammet, HT16

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Medicinsk statistik I

SOPA62 - Kunskapsproduktion i socialt arbete

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Statistiska undersökningar

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

F3 Introduktion Stickprov

Statistik en introduktion

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Föreläsning G60 Statistiska metoder

2.1 Minitab-introduktion

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Parade och oparade test

ST-fredag epidemiologi och biostatistik 2017

TMS136. Föreläsning 11

Statistik 1 för biologer, logopeder och psykologer

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Föreläsning G70 Statistik A

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Lektionsanteckningar 11-12: Normalfördelningen

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

, s a. , s b. personer från Alingsås och n b

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Provmoment: Tentamen 2 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Statistik en introduktion

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Statistik för teknologer, 5 poäng Skrivtid:

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsningsanteckningar till kapitel 9, del 2

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Medicinsk statistik II

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Medicinsk statistik I

Medicinsk statistik II

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

ANOVA Mellangruppsdesign

Metod och teori. Statistik för naturvetare Umeå universitet

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

FÖRELÄSNING 8:

Uppgift 1. Produktmomentkorrelationskoefficienten

Samplingfördelningar 1

Föreläsning G60 Statistiska metoder

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Lösningar till SPSS-övning: Analytisk statistik

Kapitel 10 Hypotesprövning

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Konfidensintervall, Hypotestest

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

SOPA62 - Kunskapsproduktion i socialt arbete

Transkript:

Statistik Lars Walter Fil.lic. Statistik Linköping universitet Stockholms universitet Karolinska sjukhuset Sveriges Lantbruksuniversitet Linköpings universitet Folkhälsocentrum, LiÖ FoU-enheten, LiÖ Statistik Statistik 1

Statistik vetenskapen om hur data med inslag av slumpvariation eller osäkerhet skall insamlas, utvärderas och presenteras. (National encyklopedin) Statistics, the most important science in the whole world: for upon it depends the applications of every other science and of every art: the one science essential for all political and social administration, all education, all organization based on experience for it only gives results of our experiences Florence Nightingale Statistik Statistik I dag Grund (skalor och variabler) Deskriptiv statistik Statistisk inferens (analys) Statistisk styrka (poweranalys) Sensitivitet och specificitet 2

Skalor Variabler och skalor Nominalskala Ordinalskala Intervallskala Kvotskala Skalor Nominal skala Egenskaper: Klassificerar objekt till en av flera kategorier Exempel: Födelseland, Yrke, etc Skalor Ordinal skala Egenskaper: Naturlig rangordning mellan kategorier Exempel: Sf36 fråga1 3

Skalor Ordinal skala Skalor Nominal skala - alltid diskret (diskret = kategoridata, klassindelad) Ordinal skala ofta diskret men inte alltid Skalor VAS, Visuell Analog Skala en kontinuerlig ordinal skala 4

Skalor Intervallskala Egenskaper: Ekvidistans Exempel: Temperatur (grader Celsius) Skalor Kvotskala Egenskaper: Absolut nollpunkt Exempel: Vikt, temperatur (kelvin) Skalor Intervall- och kvotskalor kan vara antingen kontinuerliga eller diskreta Alla fyra skalorna kan dikotomiseras 5

Variabler och skalor Vilka variabler kan vi mäta på oss här inne? Vilka skalor mäts variablerna med? Beskrivande mått Centralmått (lägesmått) Spridningsmått Skevhet (skewness) Toppighet (curtosis) Beskrivande mått Centralmått Typvärde Median Medelvärde 6

Beskrivande mått Spridningsmått Kvartiler och kvartilavstånd Min, max och range (vidd) Standardavvikelse Beskrivande mått Nominalskala:Typvärde Ordinal skala: Median, kvartiler, min och max, range och kvartilavstånd Intervall-/kvotskala: Medelvärde, standardavvikelse medelvärde Två formler n x standardavvikelse ( x x) n 1 2 7

En övning Beräkna: typvärde, median och medelvärde samt 1:a kvartilen och 3:e kvartilen En övning Descriptives Statistic Std. Error VariabelA Mean 1,0000,65865 95% Confidence Interval for -,3963 Lower Bound Mean Upper Bound 2,3963 1,0556 5% Trimmed Mean Median 2,0000 Variance 7,375 Std. Deviation 2,71570 Minimum -4,00 Maximum 5,00 Range 9,00 Interquartile Range 4,00 Skewness -,531,550 Kurtosis -,586 1,063 Beskriva med tabeller Korstabeller kan vara tvåvägsindelade eller trevägsindelade och innehålla absoluta frekvenser eller relativa frekvenser 8

Beskriva med tabeller Tvåvägstabell med absoluta och relativa frekvenser Beskriva med tabeller Trevägstabell med relativa frekvenser Beskriva med tabeller 9

Beskriva med tabeller Trevägsindelad kvottabell (4 variabler) Statistikens bilder Statistikens bilder 10

Percent Count Count Statistikens bilder 1500 1000 500 0 140 160 180 200 Hur lång är Du? Statistikens bilder man kv inna 1000 750 500 250 0 140 160 180 200 Hur lång är Du? 140 160 180 200 Hur lång är Du? Statistikens bilder man kv inna 30% 20% 10% 0% 140 160 180 200 Hur lång är Du? 140 160 180 200 Hur lång är Du? 11

Statistikens bilder Statistikens bilder Statistikens bilder 200 190 Hur lång är Du? 180 170 160 150 140 man Kön (register) kvinna 12

Statistikens bilder 200 Hur lång är Du? 180 160 140 man Kön (register) kvinna Statistikens bilder Statistikens bilder 13

Statistikens bilder Statistikens bilder Statistikens bilder Man Kön Kv inna BMI-klass Undervikt, BMI under 18,5 Normalvikt, BMI mellan 18,5 och 25 Övervikt BMI mellan 25 och 30 Fetma, BMI över 30 Total,7% 2,4% 43,0% 54,9% 43,9% 28,8% 12,4% 13,9% 100,0% 100,0% 14

Percent Percent Statistikens bilder man kv inna 50% 40% 30% 20% 10% Undervikt Normalvikt Övervikt Fetma BMI-klass Undervikt Normalvikt Övervikt Fetma BMI-klass Statistikens bilder 25% Kön (register) man kvinna 20% 15% 10% 5% Undervikt Normalvikt Övervikt Fetma BMI-klass Statistikens bilder man kv inna Sysselsättning (7 kategorier) Arbetat inklusive föräldralediga med tjänst Studerat Arbetslös/arbetsmarknadsåtgärd Pensionär med deltidsarbete/eget företag Ålderspensionär/avtalspension Sjukskriven/sjukersättning Annat 15

Förvilla inte! 100 80 60 40 20 0 Man Kvinna Förvilla inte! 60 50 40 30 20 10 0 Man Kvinna Förvilla inte! 16

Statistikens bilder Statistikens bilder Statistisk inferens statistisk inferens, induktiv vetenskap där man drar slutsatser ur empiriska data under en osäkerhet orsakad av slumpmässighet i data. Systematisk och slumpmässig variation i data beskrivs i en statistisk modell (t.ex. en regressionsmodell) med en eller flera okända... Nationalencyklopedin 17

Statistisk inferens Population Stickprov Medelvärde: μ Standardavvikelse: σ _ Medelvärde: x Standardavvikelse: s Statistisk inferens Population Behandling A Population Behandling B Medelvärde: μ A Standardavvikelse: σ A Medelvärde: μ B Standardavvikelse: σ B Stickprov _ x A Stickprov _ x B s A s B Statistisk inferens Samplingfördelning: Ett centralt begrepp i statistisk inferens 18

Samplingfördelning Samplingfördelning Samplingfördelning medelvärde=54.9 19

Samplingfördelning Samplingfördelning medelvärde=54.9 Samplingfördelning 20

Samplingfördelning Samplingfördelning Samplingfördelning 21

Samplingfördelning Samplingfördelning Samplingfördelning 22

Samplingfördelning Samplingfördelning Samplingfördelning 23

Centrala gränsvärdessatsen Ungefär så här: Om populationen är normalfördelad så blir samplingfördelningen för stickprovsmedelvärdet också normalfördelad Om populationen är symmetrisk så blir samplingfördelningen för stickprovsmedelvärdet nästan normalfördelad vid ganska liten stickprovsstorlek Om populationen inte är symmetrisk så blir samplingfördelningen för stickprovsmedelvärdet nästan normalfördelad vid ganska stor stickprovsstorlek Samplingfördelning Samplingfördelning 24

Samplingfördelning Temperatur i en population Samplingfördelning Standardavvikelse eller standard error eller både och? Standardavvikelse i stickprovet Standardav vikelse i populationen s x - x n 1 x - x n 2 2 Standard error för stickprovsmedelvärdet n uppskattasmed s n 25

Hypotesprövning Hypotesprövning Typiskt statistisk frågeställning: Är medelvärdet i den här populationen högre än 37 grader? Ställ upp statistiska hypoteser Ta ett stickprov Beräkna en testvariabel Räkna ut ett p-värde. Dra slutsats. Hypotesprövning Statistiska hypoteser till grund för varje p-värde finns en statistisk hypotes 1 Exempel H 0 : 37 eller H : 37 H : 37 0 H : 37 1 26

Hypotesprövning P-värde sannolikheten att, om nollhypotesen är sann, observera något som avviker mer från nollhypotesen än den observation som vi har fått P-value Probability of obtaining a test statistic at least as extreme as the one that was actually observed, given that the null hypothesis is true 79 Hypotesprövning Nu vill vi undersöka om den genomsnittliga temperaturen i en population är högre än 37 grader. Ett stickprov ur populationen (n=16) resulterar i stickprovsmedelvärdet 37,3 och stickprovets standardavvikelse är 0,5 Statistiska hypoteser H : 37 0 H : 37 1 Hypotesprövning Samplingfördelningen när nollhypotesen är sann x 37,3 27

Hypotesprövning Är 37,3 tillräckligt stort för att förkasta nollhypotesen? Testvariabel: x H t s n 37,3 37,0 0,5 4 0 2,4 Är 2,4 tillräckligt stort för att förkasta nollhypotesen? Se på p-värdet: Är p-värdet tillräckligt litet för att förkasta nollhypotesen? p 0,015 Hypotesprövning Hur litet ska p-värdet vara? < 0.20 < 0.10 < 0.05 eller < 0.01 Hypotesprövning Kan man dra fel slutsats? Javisst 28

Hypotesprövning Nollhypotesen förkastas Nollhypotesen förkastas inte Nollhypotesen är sann Nollhypotesen inte är sann Typ I-fel (α) Rätt Rätt Typ II-fel (β) Statistisk inferens Hypotesprövning: H 37 H : 37 0 : 1 punktskattning H0 testvariab el medelfel för punktskattningen Konfidensintervall för µ (populationsmedelvärdet) punktskatt ning konstant medelfelet för punktskatt ningen Konfidensintervall Uppskatta populationens medelvärde med stickprovets medelvärde (37,3) eller bättre med ett (95%-igt) konfidensintervall x H t s n 37,3 37,0 0,5 4 0 2,4 x tabellvärde s n 0,5 37,3 2,13 37,03-37,57 4 29

Konfidensintervall Konfidensintervallet tolkas: Med 95% säkerhet innefattar (täcker) intervallet den populationsparameter vi är intresserade av. Power - Styrka Power-beräkningar är ett stöd inför planering och design av en studie En liten studie kan vara oetisk eller meningslös En stor studie kan vara oetisk eller onödigt stor En bra power-beräkning kräver en del antagande och därför kunskap om det som ska studeras Statistisk styrka: Sannolikheten att förkasta en felaktig noll-hypotes Beräkna stickprovsstorlek 1. Vilken är den minsta kliniskt relevanta effekten/skillnaden som vi vill upptäcka? 2. Vilka är de statistiska hypoteserna? 3. Vilken signifikansnivå ska användas? 4. Vilken styrka vill vi ha? 5. Hur stor är variationen (standardavvikelsen). 30

Beräkna stickprovsstorlek Vilka är de statistiska hypoteserna? H 0 : 5 H1 : Vilken signifikansnivå ska användas? Vilken styrka vill vi ha? 0,05 Power 0.90 Hur stor är variationen (standardavvikelsen)? 10 5 Beräkna stickprovsstorlek Power p 0,90 0,80 6 1049,76 784,00 7 262,44 196,00 8 116,64 87,11 10 41,99 31,36 15 10,50 7,84 Beräkna stickprovsstorlek 1200,00 1000,00 n 800,00 600,00 400,00 200,00 0,00 5 7 9 11 13 15 17 μ p 31

Power - Styrka Power-beräkningar kan vara lite besvärliga att göra för hand Sensitivitet och specificitet Sensitivitet: Sannolikheten att klassificera en sjuk person som sjuk. Specificitet: Sannolikheten att klassificera en frisk person som frisk. Sensitivitet och specificitet Ett exempel: Kroppstemperaturen i en frisk befolkning är i genomsnitt 37 grader med en standardavvikelse på 0,5 grader Specificitet 32

Sensitivitet och specificitet forts. exempel: Kroppstemperaturen i en sjuk befolkning är i genomsnitt 38,5 grader med en standardavvikelse på 2,5 grader Sensitivitet Sensitivitet och specificitet Sensitivitet och specificitet Temp. Sensitivitet Specificitet 38 0,69 0,98 33

Sensitivitet och specificitet Sensitivitet och specificitet Temp. Sensitivitet Specificitet 37,5 0,84 0,84 38,0 0,69 0,98 38,5 0,50 1,00 Sensitivitet och specificitet Sensitivitet: Sannolikheten att klassificera en sjuk person som sjuk. P( A) P( A) P( B) Specificitet: Sannolikheten att klassificera en frisk person som frisk. P( D) P( C) P( D) Positivt test Negativt test Sjuka A B Friska C D 34

Sensitivitet och specificitet För en slumpmässigt vald person ur en population definieras: Sannolikheten att personen är sjuk (Prevalens) Sannolikheten för sjukdom efter positivt test (Positivt prediktivt värde) sens prev Ppv sens prev ( 1 spec) (1 prev) Sannolikheten för frisk efter negativt test (Negativt prediktivt värde) spec (1 prev) Npv spec (1 prev) (1 sens) prev Sensitivitet och specificitet Ett exempel: I en studie för att bestämma sensitivitet och specificitet för en ny diagnostisk metod ingår 100 personer med den aktuella sjukdomen och 100 friska personer. Positivt test Negativt test Totalt Sjuka 90 10 100 Friska 30 70 100 Totalt 120 80 200 sensitivitet: 90 % specificitet: 70% Sensitivitet och specificitet Screening av sjukdomsförekomst Vid screening kan man vara intresserad av att beräkna följande: Andel personer i befolkningen som kommer att behandlas= Positivt prediktivt värde= Negativt prediktivt värde= Andel personer i befolkningen som felaktigt behandlas (falska positiva)= Andel personer i befolkningen som felaktivt inte behandlas (falska negativa)= 35

Sensitivitet och specificitet Exempel I en liten befolkning (100 000 personer) är prevalensen för en viss sjukdom 5 %. Ett diagnostiskt instrument har sens.=90 % och spec.=70%. Positivt test Negativt test Totalt Sjuka 4500 500 5000 Friska 28500 66500 95000 Totalt 33000 67000 100000 Beräkna: Andel personer i befolkningen som kommer att behandlas = 33000/100000 = 33% Positivt prediktivt värde = 4500/33000 = 13.6% Negativt prediktivt värde = 66500/67000 = 99.3% Andel personer i befolkningen som felaktigt behandlas = 28500/100000 = 28.5% Andel personer i befolkningen som felaktivt inte behandlas = 500/100000 = 0.5% Simpsons paradox Med kompl. Utan kompl. Det stora sjukhuset Det lilla sjukhuset 20 20 16 24 50 % kompl. 40 % kompl. 36

Akut Ej akut Simpsons paradox Med kompl. Utan kompl. Det stora sjukhuset Det lilla sjukhuset 2 8 9 21 20 % kompl. 30 % kompl. Det stora sjukhuset Det lilla sjukhuset 18 12 7 3 60 % kompl. 70 % kompl. Simpsons paradox Akut/ej akut Sjukhus Resultat 37