Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Relevanta dokument
Hur man tolkar statistiska resultat

Parade och oparade test

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Studietyper, inferens och konfidensintervall

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning G60 Statistiska metoder

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Föreläsning G60 Statistiska metoder

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Statistik 1 för biologer, logopeder och psykologer

Hypotestestning och repetition

Analytisk statistik. Tony Pansell, optiker Universitetslektor

F3 Introduktion Stickprov

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Hur skriver man statistikavsnittet i en ansökan?

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Medicinsk statistik II

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Föreläsning G60 Statistiska metoder

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

, s a. , s b. personer från Alingsås och n b

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Gamla tentor (forts) ( x. x ) ) 2 x1

Kapitel 10 Hypotesprövning

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

TMS136. Föreläsning 13

8 Inferens om väntevärdet (och variansen) av en fördelning

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

F22, Icke-parametriska metoder.

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 12, FMSF45 Hypotesprövning

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

TMS136. Föreläsning 11

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Laboration 4: Hypotesprövning och styrkefunktion

Föreläsning 5: Hypotesprövningar

Konfidensintervall, Hypotestest

TAMS65 - Föreläsning 6 Hypotesprövning

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

F9 SAMPLINGFÖRDELNINGAR (NCT

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Samplingfördelningar 1

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

2. Test av hypotes rörande medianen i en population.

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

FÖRELÄSNING 8:

Föreläsning G60 Statistiska metoder

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsningsanteckningar till kapitel 9, del 2

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Stockholms Universitet Statistiska institutionen Termeh Shafie

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Om statistisk hypotesprövning

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Matematisk statistik TMS064/TMS063 Tentamen

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Repetition 2, inför tentamen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Stockholms Universitet Statistiska institutionen Termeh Shafie

7.3.3 Nonparametric Mann-Whitney test

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Avd. Matematisk statistik

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Transkript:

Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att hantera den statistiska osäkerheten vid inferens Formaliserad procedur för testning som har karaktär av konkret beslutssituation 2

Exempel Varför hypotesprövning? Kolesterolsänkande läkemedel Ett slumpmässigt urval personer med höga kolesterolvärden Kolesterolhalten i serum mäts hos försökspersonerna före försökets början och efter en period med det aktuella läkemedlet I medeltal sjunker kolesterolhalten med 0.7 mmol/l Läkemedelseffekt? Slumpen? 3

Exempel Hypotesprövning: möjliga jämförelser Jämförelser mot ett visst värde Parvisa observationer Före och Efter inom samma individ Gruppvisa jämförelser 2 oberoende grupper Mellan 2 eller fler variabler Regression Analys av frekvenser och proportioner - χ 2 -test Mellan 3 eller fler observationstillfällen eller mellan 3 eller flera olika grupper ANOVA (variansanalys) 4

Hypotesprövning De fem stegen... 1. Formulera hypoteserna: H 0 - Ingen skillnad, eventuella observerade skillnader har uppkommit av en slump H 1 - Det finns en sann skillnad, den observerade skillnaden kan inte ha uppkommit av en slump 2. Bestäm signifikansnivå: Sanolikheten (risken) att H 0 förkastas trots att den är sann 5

Hypotesprövning De fem stegen... 3. Definera och beräkna teststorhet t.ex. Z- eller t-värdet 4. Beräkna utifrån teststorheten sannolikheten att observera ett utfall minst så extremt som det som observerats, förutsatt att H 0 är sann p-värde 5. Jämför p-värdet med den förutbestämda signifikansnivån 6

Nollhypotesen: H 0 Nollhypotesen är alltid att det inte finns någon skillnad eller förändring H 0 : μ 1 = μ 2 Observerade skillnader beror på slumpen! 7

Mothypotesen: H 1 Mothypotesen negerar alltid nollhypotesen 2-sidig H Vanligast! 1 Skiljer inte på utfall i den ena eller andra riktningen H 1 : μ 1 μ 2 Ger läkemedel A och läkemedel B olika mycket effekt? 1-sidig H 1 Endast intresserade av utfall i den ena riktningen H 1 : μ 1 < μ 2 eller H 1 : μ 1 > μ 2 Ger läkemedel B högre effekt än läkemedel A? 8

Signifikansnivå, α Sanolikheten att dra slutsatsen att det finns en skillnad eller en förändring trots att det egentligen inte gör det α = 1 konfidensintervallnivån Signifikansnivån sätts ofta till 5% men den kan vara vad som helst! 9

Exempel 5% signifikansnivå 1-sidigt test: Lägre kritiskt värde för testvariabeln (z) 2-sidigt test: Högre kritiskt värde för testvariabeln (z) 1,65-1,96 1,96 5% 2.5% 2.5% -6-4 -2 0 2 4 6-6 -4-2 0 2 4 6 Det är praxis att göra 2-sidiga test 10

Hypotesprövning: Medelvärden Om vi vill undersöka om det finns en signifikant skillnad mellan populationsmedelvärdet och ett uppmätt stickprovsmedelvärde så använder vi (precis som vid beräkningen av konfidensintervall) centrala gränsvärdessatsen: Om man tar stickprov av storlek n från en population med medelvärdet µ och standardavvikelsen σ så kommer distributionen av medelvärden att bli normalfördelad. Normalfördelningen kommer att ha medelvärdet µ och standardavvikelsen σ n. 11

Hypotesprövning: Medelvärden Definera och beräkna teststorhet Vi använder antingen Z eller t : Z = X μ σ t n 1 = X μ σ H 0 X x σ s n μ μ 0 Z = x μ 0 s n t n 1 = x μ 0 s n t används då n är litet men vi kan anta normalfördelning! 12

Exempel Hypotesprövning: Medelvärden Kommer stickprovet från en population med längdmedelvärdet 175 cm? x = 171.4 cm s = 8.6 cm n = 65 15 10 H 0 : H 1 : 5 Z = 0 150 155 160 165 170 175 180 185 190 195 Längd Kritiskt värde för 5% signifikansnivå: ±1.96 13

Hypotesprövning: Proportioner Eftersom vi gör inferens även med avseende på proportioner går det att testa hypoteser även vad gäller våra skattade p obs Z = p obs p 0 p 0 1 p 0 n 14

Exempel Hypotesprövning: Proportioner Könsfördelning: Är det någon skillnad mellan andelen tjejer och andelen killar som läser på apotekarprogrammet? p obs = 72 72 + 22 = 0.766 80 70 H 0 : H 1 : Z obs = 60 50 40 30 20 10 0 22 Killar 1 72 Tjejer Kritiskt värde för 5% signifikansnivå: ±1.96 15

p-värden Eftersom ytan under den standardiserade normalfördelningen är 1 så beskriver ytan under en avgränsad del av den en sannolikhet Z-värden är i själva verket sannolikheter som transformerats till ± Z-värdet 0 motsvarar p=0.5 eftersom den standardiserade normalfördelningens medelvärde är 0 och halva ytan ligger över 0 16

p-värden Alla Z-värden kan transformeras tillbaka till sannolikheter och från dessa kan vi räkna ut så kallade p-värden p-värdet säger hur sannolikt det är att observera ett utfall som är lika extremt som det vi funnit givet att nollhypotesen är sann (givet n, x och s) 17

Exempel p-värdet Är det någon skillnad mellan andelen tjejer och andelen killar som läser på apotekarprogrammet? p-värdet är svaret på frågan: Hur sannolikt är det att vi ska observera minst så här stor skillnad om det egentligen är lika många tjejer som killar som läser på apotekarprogrammet? 18

Exempel p-värdet Är det någon skillnad mellan andelen tjejer och andelen killar som läser på apotekarprogrammet? Z = 5.16 motsvarar en sannolikhet på 0.000000123 (1.23 10 7 ) Tabell 1 (men inte i det här fallet) Sannolikheten att observera ett Z-värde som är 5.16 eller större är 0.000000123. Sannolikheten att observera ett Z-värde som är -5.16 eller mindre är 0.000000123. p-värde = 0.000000123 2 = 0.000000246 I det här fallet gör vi ett 2-sidigt test så vi multiplicerar sannolikheten med 2! 19

p-värdet p-värdet är en sannolikhet som räknas ut utifrån antagandet att H 0 är sann Ett lågt p-värde indikerar att antingen - Har något osannolikt inträffat ELLER - Så är H 0 falsk! p-värdet är ett mer exakt mått än en uppgift om skillnaden är signifikant eller ej 20

Typ I-fel och Typ II-fel Hypotesprövning kan leda till två olika typer av felaktiga slutsatser - Nollhypotesen kan förkastas trots att den är sann (Typ I-fel) - Nollhypotesen kan antas trots att den är falsk (Typ II-fel) 21

Typ I-fel och Typ II-fel Resultat av hypotesprövning Verkligheten H 0 accepteras H 0 förkastas H 0 sann OK! Typ I-fel H 0 falsk Typ II-fel OK! Sannolikheten att begå ett Typ I-fel = α Sannolikheten att begå ett Typ II-fel = β 22

Normalfördelade testvärden Typ I fel och typ II fel μ a μ b Variabelvärde Risken för typ II fel Sannolikhet: β Risken för typ I fel Sannolikhet: α 23

Försöksplanering Sannolikheten att begå ett Typ I-fel (α) bestämmer vi själva genom signifikansnivån, α Testets statistiska styrka (power) är sannolikheten att korrekt förkasta H 0 när H 0 är falsk = 1-β Risken för Typ I-fel och Typ II-fel hänger ihop; sänker vi signifikansnivån så minskar också testets statistiska styrka Ofta väljs α = 0.05 och statistisk styrka 0.8 eller 0.9 24

Sätt att förbättra teststyrkan Anta en mer extrem nollhypotes; stora skillnader är enklare att påvisa Öka signifikansnivån (α) Öka n: förbättrar den statistiska styrkan genom att minska risken för typ II fel 25

Beräkna n: Konfidensintervallsansats Om vi vill veta medelvärdet i en population med en viss säkerhet (felmarginalen ±a) och vi känner till s så kan vi lösa ut n från formeln för konfidensintervall: x ± 1.96 s n 1.96 s n = ±a Vi löser ut n: n = 1.96s a 2 26

Exempel Beräkna n: Konfidensintervallsansats Vi vill genomföra en klinisk studie där vi ska mäta kolesterolnivåer i en viss population. Vi vet att kolersterolnivån i populationen (som vi ska studera) är normalfördelad med en standardavvikelse på 0.765 mmol/l. Hur många individer måste ingå i studien för att vi ska kunna ta fram ett 95% konfidensintervall för medelvärdet som ligger på ±0.1 mmol/l? 27

Exempel Beräkna n: Konfidensintervallsansats Hur många individer måste ingå i studien? s = 0.765 [mmol/l] a = ±0.1 n = 1.96s a 2 1.96 0.765 0.1 2 = Det måste ingå minst individer i studien om det ska gå att ta fram ett 95% konfidensintervall med felmarginalen ±0.1 mmol/l. 28

Beräkna n: Hypotesprövningsansats Om vi vill hitta en skillnad på åtminstone mellan två populationer med hjälp av t-test och vi känner till s kan vi använda denna formel: n = 2 s2 k 2 k är en konstant som väljs enligt önskad styrka; k=7.9 för 80% och k=10.5 för 90% (5% signifikansnivå) 29

Sammanfattning Det går att göra formella jämförelser genom att testa hypoteser med hjälp av t.ex. Z- och t-test p-värdet är ett mått på hur sannolikt det är att få de resultat vi har, givet att H 0 är sann Hypotesprövning kan leda till två olika typer av felaktiga slutsatser: Typ I-fel och Typ II-fel Genom att öka stickprovsstorleken (n) minskar risken för Typ II-fel och därmed ökar testets statistiska styrka 30