Hypotestest och fortsättning av skattningar och konfidensintervall

Relevanta dokument
F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 12, FMSF45 Hypotesprövning

Binomialfördelning, två stickprov

TMS136. Föreläsning 13

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

TMS136. Föreläsning 11

F3 Introduktion Stickprov

Kapitel 10 Hypotesprövning

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Styrkeberäkningar och diskreta data

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

F9 Konfidensintervall

Repetition. Plus lite av det om faktorförsök som inte hanns med förra gången

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 5. Kapitel 6, sid Inferens om en population

FÖRELÄSNING 8:

Thomas Önskog 28/

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning 5: Hypotesprövningar

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

8 Inferens om väntevärdet (och variansen) av en fördelning

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

TAMS65 - Föreläsning 6 Hypotesprövning

Föreläsning 11: Mer om jämförelser och inferens

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Hur man tolkar statistiska resultat

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901 Sannolikhetsteori och statistik I

Föreläsningsanteckningar till kapitel 9, del 2

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 11, FMSF45 Konfidensintervall

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Statistik 1 för biologer, logopeder och psykologer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

, s a. , s b. personer från Alingsås och n b

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

9. Konfidensintervall vid normalfördelning

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Repetition 2, inför tentamen

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Matematisk statistik för D, I, Π och Fysiker

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Föreläsning 11, Matematisk statistik Π + E

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Grundläggande matematisk statistik

Uppgift a b c d e Vet inte Poäng

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Industriell matematik och statistik, LMA /14

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Konfidensintervall, Hypotestest

Matematisk statistik för D, I, Π och Fysiker

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Om statistisk hypotesprövning

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Hur skriver man statistikavsnittet i en ansökan?

Mer om konfidensintervall + repetition

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Avd. Matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

TMS136. Föreläsning 10

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Avd. Matematisk statistik

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Föreläsning G60 Statistiska metoder

Matematisk statistik för B, K, N, BME och Kemister

Lektionsanteckningar 11-12: Normalfördelningen

Statistisk försöksplanering

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Parade och oparade test

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Hypotestestning och repetition

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning 4: Konfidensintervall (forts.)

Matematisk statistik KTH. Formelsamling i matematisk statistik

Avd. Matematisk statistik

TENTAMEN I STATISTIKENS GRUNDER 2

Studietyper, inferens och konfidensintervall

Transkript:

Hypotestest och fortsättning av skattningar och konfidensintervall

Repetition från förra gången Kända fördelningar ger konfidensintervall I klarspråk: Om vi har oberoende observationer x1,...,xn från N(μ,σ2), där σ är känt men μ sökes, fås ett konfidensintervall på nivån 1-α som:

Repetition från förra gången Kända fördelningar ger konfidensintervall I klarspråk: Om vi har oberoende observationer x1,...,xn från N(μ,σ2), där σ är okänt och μ sökes, fås ett konfidensintervall på nivån 1-α som:

Princip [Medelvärdet] ± [α/2-kvantil]*[medelfelet] Medelfelet är en uppskattning av skattarens standardavvikelse.

Vi vet värdet på Vi vet inte μ, men förmodligen gäller Detta kan skrivas om till

En slutsats extra, som vi inte bevisar formellt. Låt X1,...,Xm och Y1,...,Yn vara oberoende slumpvaribler med Då kan ett konfidensintervall med nivå 1-α skrivas som i höger kolumn för känd respektive okänd standardavvikelse.

Skattning av σ2 från många stickprov (vikt av höns) - - Varje kvadratsumma är ekvivalent med kvadratsumman av ni-1 oberoende slumpvariabler - frihetsgrader. Alltså är suman av kvadratsummorna.

Uppskattning av gemensam standardavvikelse - - Uppskattningen av σ är oberoende av uppskattningen av väntevärdet inom varje grupp. Om vi till exempel vill ha en uppskattning av μ3-μ1, så tar vi

Samma formel som tidigare S = 54.85 218.75-323.5833-1.997138*54.85*sqrt(1/12+1/1 2)=-149.6 218.75-323.5833+1.997138*54.85*sqrt(1/12+1/1 2)= -60.1 Svar: Ett 95 % konfidensintervall för skillnaden mellan vikten av kycklingar uppfödda på linser och dem uppfödda på kasein är (-149.6,-60.1)

Konfidensintervall med konfidensnivå 1-α Ett intervall som med sannolikhet 1-α täcker det korrekta värdet på parametern. Vanligen väljer man α=0.05, men andra val är också möjliga. Konfidensintervall är en ganska ny idé. P-värden och hypotesprövning är av lite äldre datum, och är vad vi ska tala om nu. Detta är vad man menar med den statistiska felmarginalen i opinionsundersökningar. Som ni såg förra gången, använder man ofta både konfidensintervall och P-värden, så det finns egentligen ingen motsättning. Men nu är det dags för hypotesprövning och konfidensintervall...

Hypotestest (Olbjer 7.5)

Ingen kommer undan P-värden

Vulgärversionen P<0.05 bra; P>0.05 dåligt Forskning kan i sämsta fall bli en jakt på P-värden. -

Den goda tanken - - Vi vill undvika att vårt resultat är bara är en slumpeffekt. P-värdet är sannolikheten för att slumpen producerar något så avvikande som det vi fått. Om P-värdet är litet tyder det på att något annat än slumpen är inblandad: alltså en systematisk effekt.

R-bloggers-exempel ( stickprov i par )

Lösning - - - Fråga: Tyder dessa data på att det finns en effekt av träningsmetoden? Förbättringen har lagts in i QQ-plotten till höger. Låt oss genast konstatera att det inte ser bra ut, men vi kan ju tänka på principer ändå.

H0: μ=0 Låt X1,...,Xn vara oberoende och fördelade som N(μ,σ2). Då vet vi att, där Tänk om μ=0. Då kan vi kolla om det är något extremt som hänt genom att beräkna T-statistikan :

-0.2133 är inte det minsta extremt Återigen 9 frihetsgrader. T-statistikan ligger inte ens utanför 0.1-kvantiler. - - - Under nollhypotesen är det inte det minsta osannolikt att få något utanför (-0.2133,0.2133). Vi kan inte förkasta nollhypotesen H0. Data är helt förenliga med att det inte finns någon effekt av metoden. Vill vi beräkna sannolikheten att T-statistikan ligger utanför

Hypotestest En nollhypotes: H0( Metoden fungerar inte ) En mothypotes: H1 ( Metoden fungerar / Metoden påverkar resultatet ) En regel för när man förkasta ( Förkasta när T-statistikan är tillräckligt stor ) Signifikansnivån är sannolikheten att förkasta H0 om den ändå är sann ( false positive ). De-facto-standard är 0.05, men om man vill vara extra säker kan man sätta den lägre. Testets styrka är dess förmåga att förkasta när H1 är sann ( true positive ). (Kommer)

Ett hypotestest är en regel för när H0 förkastas

Tre sorters test av H0: μ=μ0 - - - Om det sanna värdet är μ0 så är sannolikheten att medelvärdet. Tvåsidiga fallet: Vi vill testa H0 men vill förkasta både om data tyder på att μ är litet eller på att det är stort. Detta är det absolut vanligaste fallet. Även om vi huvudsakligen letar efter bevis för att μ>μ0, kan vi verkligen garantera att vi inte reagerar om tecken tyder på att det är mindre. (Tänk på en medicin som visar sig vara skadlig!) Mothypotesen skrivs H1

T-test Klorhalten i vattnet i en bassäng bör vara minst 58 mg/l (påhittat exempel; jag har ingen aning om det är rimligt). Man testade och fick: 61.04, 62.28, 60.43, 60.96, 64.67, 57.21, 61.37, 60.44, 61.59, 61.2 Detta antas vara oberoende observationer av normalvariabler X1,...X10; Xi~N(μ,σ2). (σ2 är variansen, som är okänd).

Test av H0: μ=58 mot H1: μ>58 Under H0 gäller alltså

Signifikanstest Detta är långt över gränsen 1.83. Därför förkastar man Ho. Om det sanna väntevärdet är 58, är det extremt osannolikt att vi skulle ha fått de data vi fick. Sannolikheten att teststorheten blir minst vad vi beräknar den till är bara 0.00023. Därför tror vi inte på H0 utan förkastar H0.

En snabbare väg Vi kan förkasta H0: μ=58. I dagligt tal: Det är statistiskt säkerställt att klorhalten är över 58.

Hypotesprövning måste inte grunda sig på normalfördelning 1948 visste man inte om streptomycin var effektivt mot tuberkulos, men man misstänkte det. För att undersöka saken gav man slumpmässigt streptomycin till 55 patienter och lät 52 stanna i sängen utan medicin. Frågan är om övervikten av döda bland dem som inte fått är större än vad slumpen kan förklara.

Är 4:14 möjligt av en ren slump? Simulera! Det går att simulera slumpmässigt urval av 18 patienter och hur se många av dessa som fått steptomycin. Vi ser att fördelningen 4:14 mycket sällan uppträder av en slump. SLUTSATS: Streptomycin fungerar nog. Om man har 55 S-patienter och 52 B och ett slumpmässigt urval på 18 av dessa dör, vad är sannolikheten att obalanser blir så här stor?

Hypergeometrisk fördelning: Dragning utan återl. P(X 4)=0.00000+0.00001+ 0.00011+0.00087+0.00457 = 0.00556 Nollhypotes: H0: Streptomycin fungerar inte H1: Streptomycin minskar risken att dö. P-värde: Under H0 är sannolikheten bara 0.006 att 4 eller färre av 18 hör till Streptomycingruppen. H0 förkastas, Man brukar använda gränsen 0.05. Skillnaden sägs vara statistiskt signifikant.

En-eller tvåsidigt test? Samvetsfråga: Skulle du om obalansen gick åt andra hållet, förkasta H0? (Kan du utesluta att Streptomycin är skadligt?) Om inte bör du istället använda mothypotesen: H1: Streptomycin är inte neutralt. Om mothypotesen inkluderar både att Streptomycin är bättre och sämre än slumpen, bör man justera regeln så att den tar hänsyn till de fall då S-patienterna dominerar bland de döda. Detta kallas tvåsidigt test. Här kan man antingen inkludera även de staplar till höger som är högst så höga som 4-stapeln, eller så tar man helt enkelt 2*0.006=0.0012.

P-värden har sina sidor I en mycket citerad artikel av Ioannidis från 2005 underkändes en stor del av den akademiska forskningen. P-värden hörde till de stora skurkarna.

Samband mellan hypotesprövning och konfidensintervall

H0: θ=θ0 Konfidensintervall Ett intervall som med sannolikhet 1-α täcker rätt värde. Det går att skapa ett test: Förkasta H0 om konfidensintervallet inte täcker θ0. Om H0 är sann, så händer ju detta med sannolikhet α. Varje metod att skapa ett konfidensintervall ger alltså upphov till en hypotestest.

H0: θ=θ0 Om en punkt råkar vara det sanna värdet, är ju sannolikheten att man förkastar H0 α. Bilda mängden Iθ (oftast intervallet) av alla punkter som inte kan förkastas av hypotestestet. Om θ0 är det sanna värdet, är sannolikheten att det θ0 ligger i Iθ 1-α.

Signifikans om och bara om CI inte täcker värdet Det har blivit allt vanligare att föredra konfidensintervall framför P-värden, och det är en bra utveckling. P-värden talar om hur osannolikt resultatet är om det inte finns någon effekt, men inte hur stor den effekten är. Statistical significance does not mean clinical significance.

Två stickprov

Ett lite mer genomarbetat exempel - med tillämpning på projektet - - Antar vi gemensam standardavvikelse och normalfördelning, är det lätt att skatta fördelningar. Dock är det något som inte stämmer. Särskilt C-mätningarna följer inte en normalfördelning.

Normalfördelningsplot - Det är tydligt att C inte följer antagandet om normalfördelning. Jag prövar att transformera data med tre transformer: 1/(1+.), log(1+.) och roten ur.

1/(1+.) - stämmer dåligt

log(1+.) - betydligt bättre passform

Roten ur - lite sämre passform

log10(1+.) Ser ut att vara den bästa transformationen..

Roten ur Detta är också en tänkbar transformation, men jag tar logaritmen som huvudspår.

Finns det en signifikant skillnad mellan A och C? Frågan kan tyckas meningslös, då skillnaden är så stor, men låt oss testa formellt! För medelfelet behöver vi skatta s.

Om Xi,är A-mätningarna och Yj C-mätningarna, i,j = 1,2,...12 - alla observationer antag oberoende - bilda: ui=log(1+xi) vi=log(1+yi)

Svar: (0.577,0.938)

P-värde T-statistikan fås genom att jämföra uppskattningen av Med en dator kan man räkna ut sannolikheten att en t(22)-fördelning antar ett värde utanför ±8.707. Det är 1.405771e-08. Alltihopa hade kunnat göras betydligt snabbare på en dator.

Eftertankar - - Än så länge har vi själlöst konstaterat att det finns en signifikant skillnad, vilket ju inte var någon överaskning. Låt oss nu försöka se vad resultatet säger om hur antalet insekter beror av de olika

där X och Y är en slumpvariabler som beskriver antal insekter i framtida burkar behandlade med medlena A resp C. Vi antar nu att Låt oss göra en tabell för sannolikheterna: X (A) >5 log 10(1+X)~N(1.171,0.2132) >10 log10(1+y)~n(0.414,0.2132) >15 >20 Y (C)

Alla logaritmer är tiologaritmer. Det är inte alls nödvändigt, men om man använder tiologaritmen blir talen begripligare. Ni får gärna använda naturliga logaritmer i projektet

Gå tillbaka till begripliga enheter! Låt oss göra en tabell för sannolikheterna: X (A) Y (C) >5 96.7% 4.4 % >10 72.9 % 0.16 % >15 43.8 % 0.010 % >20 23.9 % 0.001 %

Er rapport om Hornsgatan-data - - - Något som inte finns i dessa data är ett visst seriellt beroende. Detta måste ni kommentera och visa med en figur. Förklara att beroendet inte ser så starkt ut, och gå vidare till att se på fördelningen, precis som här. Transformera om det behövs! Se om skillnaden mellan de aktuella åren är singifikant! Jämför sannolikheterna att överstiga nivåerna 25 och 8.5 precis som i tabellen här. - - Förklara varför detta inte kan tas till intäkt för några definitiva slutsater om effekten av ett dubdäcksförbud. Detta kan skrivas som ledig text på högst två A4. En eller två figurer kanske. Tag sikte på att begripliggöra för en tänkt mottagare som inte kan statistik.

Stickprov i par

Löparna igen Föga förvånande får vi ingen signifikans.

Men låt oss låtsas att vi har en tydlig effekt! Vi simulerar att de förbättrats i genomsnitt 1 sekund

R-funktionen T-test ger oss ingen signifikans

Något stämmer inte Alla gånger utan en ligger After -värdet under before -värdet. Varje statistisk analys av något värde måste detektera en så självklar skillnad.

Något stämmer inte Formell orsak: x- och y-värdena är inte oberoende. Man får inte använda two-sample t-test om när inte alla värden är oberoende. Viktigare orsak: Om vi gör two-sample T-test, så kastar vi bort informationen om att mätningarna kommer i par.

Korrekt analys Detta kallas ibland stickprov i par. Man ser på skillnaden mellan värdena. Detta återför problemet på ett one sample T test, men det är viktigt att se det konceptuella: Om det finns variation som är känd, ska analysen inkludera den, inte betrakta den som slumpvariation. Sådant kostar i statistisk styrka.

Viktiga implikationer för studiedesign Inkorporera alla kända, viktiga källor till variation i studiedesignen ( blockdesign ). Randomisera inom varje grupp ( block ) där variationskällorna hålls konstanta.