Styrkeberäkningar och diskreta data

Relevanta dokument
, s a. , s b. personer från Alingsås och n b

Hypotestest och fortsättning av skattningar och konfidensintervall

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TMS136. Föreläsning 11

Repetition 2, inför tentamen

Repetition. Plus lite av det om faktorförsök som inte hanns med förra gången

SF1901 Sannolikhetsteori och statistik I

Föreläsning 12, FMSF45 Hypotesprövning

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TMS136. Föreläsning 13

Matematisk statistik KTH. Formelsamling i matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

Binomialfördelning, två stickprov

Föreläsning 12: Regression

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Statistik 1 för biologer, logopeder och psykologer

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 4: Konfidensintervall (forts.)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Thomas Önskog 28/

F9 Konfidensintervall

TMS136. Föreläsning 10

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 11: Mer om jämförelser och inferens

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Uppgift a b c d e Vet inte Poäng

FÖRELÄSNING 8:

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F3 Introduktion Stickprov

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 5: Hypotesprövningar

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Matematisk statistik för B, K, N, BME och Kemister

Föreläsningsanteckningar till kapitel 8, del 2

Repetitionsföreläsning

Föreläsning 12: Linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Matematisk statistik för D, I, Π och Fysiker

Avd. Matematisk statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Grundläggande matematisk statistik

F10 Problemlösning och mer om konfidensintervall

F22, Icke-parametriska metoder.

Matematisk statistik för B, K, N, BME och Kemister

TAMS65 - Föreläsning 6 Hypotesprövning

Föreläsning 5. Kapitel 6, sid Inferens om en population

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematisk statistik för B, K, N, BME och Kemister

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

9. Konfidensintervall vid normalfördelning

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

TAMS65 - Föreläsning 6 Hypotesprövning

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Kapitel 10 Hypotesprövning

FÖRELÄSNING 7:

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Studietyper, inferens och konfidensintervall

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

TENTAMEN I STATISTIKENS GRUNDER 2

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Sannolikheter och kombinatorik

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Avd. Matematisk statistik

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

SF1901: Medelfel, felfortplantning

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Mer om konfidensintervall + repetition

Introduktion till statistik för statsvetare

Föreläsning 11, Matematisk statistik Π + E

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

Transkript:

Styrkeberäkningar och diskreta data

Frihetsgrader, medelfel och så

Frihetsgrader är ett ord som ställer till det en aning. Grovt uttryckt: Ett datamaterial av n oberoende observationer har n frihetsgrader, det antal tal som behövs för att beskriva alla observationer. Varje parameter man skattar kostar en frihetsgrad i skattningen av variansen/standardavvikelsen.

Det betyder också att termerna i kvadratsumman inte är oberoende. Däremot kan de, vilket dock inte bevisas här, skrivas om till kvadratsumman av n-1 oberoende, normalfördelade variabler med väntevärde noll och standardavvikelse σ. dvs. en term kan lösas ut som en funktion av de övriga.

Vi kommer att komma till linjär regression Då antar vi att Det kostar två frihetsgrader att skatta α och β. Skattningarna skrivs α* och β* och följande är en väntevärdesriktig skattning av σ2.

En titt på vad vi ska göra senare. är nämligen egentligen en summa av kvadraterna på n-2 oberoende N(0,σ2)-variabler,

Antag nu 3 oberoende stickprov Samtliga dessa sex väntevärdesriktiga skattare är oberoende av varandra. Genom att väga ihop de tre skattarna av σ2 får vi en bra skattare. Antal frihetsgrader:

Nu var det alltså tre parametrar vi skattade. Det kostade tre frihetsgrader. Den sista raden är bara en omskrivning för de fall då vi s12,s22 och s32 är givna.

Vad detta egentligen betyder

Vi kan skatta linjärkombinationer av μ1, μ2 och μ3. 1) 2) 3) Skatta standarddavvikelsen D(θ*) för skattaren θ* uttryckt i den okända standardavvikelsen σ. Ersätt σ med s i och kalla resultatet för medelfelet. Använd de antal frihetsgrader f som är kvar efter att ha skattat θ* för att få ett konfidensintervall med konfidensgraden 1α: θ=μ1-(μ2 +μ3)/2 skattas med

Vi kan skatta linjärkombinationer av μ1, μ2 och μ3. 1) 2) 3) Skatta standarddavvikelsen D(θ*) för skattaren θ* uttryckt i den okända standardavvikelsen σ. Ersätt σ med s i och kalla resultatet för medelfelet. Använd de antal frihetsgrader f som är kvar efter att ha skattat θ* för att få ett konfidensintervall med konfidensgraden 1α: Detta går naturligtvis också när vi inte har precis tre oberoende stickprov. Lägg märke till att skattningen av s är densamma oberoende av hur θ* är konstruerad. f är antalet observationer minus antalet skattade parametrar.

Generaliseringar Ensidiga konfidensintervall ges av Hypotestest på nivån α ges av:

Hypotesprövning - - - En hypotes H0, som vi vill ha möjlighet att motbevisa: Medicinen är verkningslös; den nya maskintypen producerar inte bättre varor; det politiska partiet har lika många anhängare som vid förra mätningen Vi förkastar om vårt utfall är osannolikt under H0 - en lockande men inte helt korrekt beskrivning av ett hypotesttest. Alla utfall är nämligen oftast osannolika. Vill man vara strikt ska man innan testet görs specificera en regel för att förkasta. Sannolikheten för att hamna i förkastningsområdet ska total vara 1-α. Man tänker kontrafaktiskt: Under förutsättning att H0 gäller, ska sannolikheten vara liten, α, att förkasta. Statistiker av den strikta Neyman-Pearson-skolan vägrar att ens beräkna P-värdet, eftersom det inte beräknas i förväg.

Flera stickprov - fortsättning på uppgift 4.35 Vi behöver kvadratsummorna för att kunna skatta standardavvikelsen. fiskart1 =[2.35 2.44 2.7 2.48 2.44] fiskart2 = [2.06 1.93 2.12 2.16 1.89 1.95]

>> VAR1 = var(fiskart1) [0.0171] >> VAR2 = var(fiskart2) [0.0122] >> VARTOT = (VAR1*4+VAR2*5)/9 [0.0144] >> s = sqrt(vartot) [0.1200] >> QTILE = tinv(0.975,9) [2.2622] Irriterande skillnad: Boken (de flesta böcker faktiskt) menar med zα/2 lösningen till 1-F(x)=α/2. I Matlab och R får man lösningen till F(x)=α/2.

>> m2-m1-qtile*s*sqrt(11/30) [-0.6280] >> m2-m1+qtile*s*sqrt(11/30) [-0.2993] f är antalet observationer minus antalet skattade parametrar, dvs 9. >> [h,p,ci,stats] = ttest2(fiskart2,fiskart1) [h =1; p =1.2797e-04; ci = -0.6280-0.2993] (Motsvarande funktion i R heter t.test. Lägg bara märke till att man måste ange var.equal = TRUE för att den ska anta lika varians.)

Styrke- och stickprovsstorleksberäkningar

Förklara varför detta är ett giltigt signifikanstest! - - Låt tjugo skolklasser lära sig matematik på det gamla vanliga sättet. Tjugo skolklasser får pedagogiskt designade datorspel, där alla moment behandlas lekfullt men med tydligt pedagogiskt mål. H0: De båda metoderna fungerar lika bra. Förkasta H0 om en tjugosidig tärning visar 11! (Extraövning: Förklara varför man också kan förkasta H0 om klasserna som får datorspel har en extrem övervikt av diabetiker!)

Slutsats: Att undvika false positives räcker inte Ett bra test är ett test som förkastar H0 med stor sannolikhet vid de tillfällen då man vill att det ska ge utslag. Därför har man en mothypotes Tvåsidig mothypotes används om både små och stora värden är intressanta. Ensidiga mothypoteser:

Ensidiga test I ett ensidigt test mot eller menar man i praktiken ofta nollhypoteserna eller Övningsboken gör ibland så här. Då blir signifikansnivån ett maximum.

Hypotesprövning och styrka En salva mot hudrodnad ska testas i ett fas 2-försök. På patienter som besväras av rodnad smörjer salva på ett slumpmässigt valt ben och en liknande, men verkningslös, salva på det andra. Efter ett förutbestämt antal dagar mäter man skillnaden rodnad med hjälp av ett instrument och noterar skillnaden. Man hoppas på en skillnad på åtminstone 10 enheter. Hur ska man lägga upp studien? Från ett tidigare försök med en annan substans, som tyvärr visade sig verkningslös, har kvar data. Det handlade alltså om stickprov i par.

Historiska data Sjutton observationer. Ett 95 % konfidensintervall för σ är (14.9,28.6). 18.76/171/2 = 4.6. Medelvärdet låg alltså väl inom den förväntade variationen kring 0, och ingen effekt kunde påvisas.

Låt oss för enkelhets skull anta att σ=20 Antag först, helt orealistiskt, att vi har känd standardavvikelse. Vi sätter då upp ett test av H0:μ=0 mot H1: μ 0 genom att förkasta H0 om Jag beklagar att jag tidigare använt λ istället för z för normalkvantilerna. Jag anpassar mig nu till Olbjers beteckningar.

Antag att det finns en effekt på 8 enheter! I så fall vet vi att H0:μ=0 förkastas om Figuren visar sannolikheten för detta, och vi ser att vi kan ignorera den vänstra olikheten. Vi säger att vi har styrka 38 % om det sanna μ är 8, eftersom detta är sannolikheten att förkasta H0.

Om spridningen vore mindre... Pröva σ=15. Fortfarande bara knappt 60 % chans att visa en skillnad på åtta enheter. Försöker jag med σ=10, hamnar jag på 90 % styrka, vilket får betraktas som acceptabelt, men i så fall bör jag ha argument för att det går att göra variationen så pass mycket mindre.

Antag att det egentliga väntevärdet är μ1 Antag känt σ! Tvåsidigt test på nivå 0.05 av H0: μ=0 genom att förkasta om

Typ 1- och typ 2-fel - α och β - - Typ 1-fel är det vi redan sett: Sannolikheten att förkasta H0 om den är sann. Brukar betecknas α. Typ 2-fel är sannolikheten att inte förkasta H0 när H1 är sann. Brukar betecknas β. Typ 2-felet är egentligen inget tal utan en funktion av det korrekta parametervärdet. Styrkan är bara ett minus typ 2-felet.

Styrkan 80 % (β=0.2) har blivit standard (fast inte helig) Om man stuvar om en aning får man

Antalet nödvändiga försök, α= 0.05 och β= 0.2 Omvänt proportionellt mot kvadraten på effekten uttryckt i antal standardavvikelser.

Liten effekt eller stor standardavvikelse kostar Minns från det inledande exemplet: σ=20; μ1=8 och μ0=0. Effekten är 8/20= 0.4 standardavvikelser: N = 7.85/0.42 = 49.02 Välj 50 för säkerhets skull!

Vad man kan spara på ett ensidigt test Jämför med 7.85! gäller för ett tvåsidigt test. För ett ensidigt gäller: Man kan alltså minska antalet försök med 22 % genom att anta ett ensidigt försök. Samma beräkning som tidigare ger att det skulle räcka med 39 försök istället för 50 i det tidigare exemplet.

Jämförelser av stickprovsstorlek α= 0.05 0.025 0.01 0.005 β=0.2 79 100 128 149 β=0.1 110 134 166 190 β=0.05 138 166 201 227 β=0.01 201 235 276 307 Stickprovsstorlek beroende på hur man lägger typ 1- och typ 2-fel. 100 är standardvärdena. Ensidiga test fås genom att se på dubbla α.

Okänd standardavvikelse Detta kallas för en icke-central t-fördelning med n-1 frihetsgrader icke-centralitets-parameter Om μ=μ1, gäller alltså symboliskt: Om inte n är väldigt litet ligger denna fördelning väldigt nära en normalfördelning. Därför används fallet med känd standardavvikelse som modell för tankegångarna.

Jämförelse när σ är känd respektive okänd Förutom att approximationen är god, finns utmärkt mjukvara, både att ladda ned och i applikationer på nätet, som gör styrke- och stickprovsstorleks-beräkningar.

Flera stickprov - fortsättning på uppgift 4.35 Vi behöver kvadratsummorna för att kunna skatta standardavvikelsen. Ett 95 % konfidensintervall för σ.

Kan skillnaden θ=μ2-μ1 upptäckas om sanna värdet är 1 och σ= 0.1? Vi vill testa H0: θ=0 mot H1: θ 0. Fånigt valt värde! Klart att en skillnad på 1 kan upptäckas om standardavvikelsen är 0.1!

Diskreta data

Kvalitetsuppföljning Genetisk analys ska utföra på AML-patienter under åttio. Ändå varierar andelen som verkligen får detta mellan 79 och 95 procent. Är detta ett tecken på ojämlik vård eller är det naturliga variationer?

Liggande staplar När man inte ser antalet patienter är det svårt att förstå om detta bara är slumpvariationer.

Trattdiagram ( funnel plot ) Det vita området är där staplarna förväntas hamna om det inte finns några systematiska variationer mellan regionerna: I hela materialet har 162 av 188 patienter fått genetisk analys, dvs. 86 procent.

Det vore lätt att göra braskade nyheter

Allt kan förklaras av slumpen - - - Om vi antar att alla patienter har samma sannolikhet att få genetisk analys, blir sannolikheterna så här. Inget uppseendeväckande har hänt. Det är meningslöst att peka ut några regioner som bättre och andra som sämre.

Väldigt mycket är dikotomt (alltså 0/1-variabler) - Död/levande Röstar/röstar inte på ett visst parti Är bärare av en gen/inte bärare En elektronisk komponent fungerar/fungerar inte Får jobbet/får inte jobbet Kommer in på stureplanskrogen/gör det inte Åker på utlandssemester/gör det inte Kan minnas en svår solskada från barndomen/kan det inte Har utsatts för våldsbrott/har det inte Är alkoholist/är inte alkoholist - - - Dikotoma variabler är inte normalfördelade. Föreställningen om att nästan all statistik bygger på normalfördelningen är betydligt överdriven. Däremot ger Centrala gränsvärdessatsen, som vi redan sett, att om man lägger ihop eller tar medelvärdet av många dikotoma variabler, så blir resultatet ungefär normalfördelat. Därför kommer normalfördelningsteorin att förekomma även här.

Exempel ur boken (9.1) Man har intervjuat 1000 slumpmässigt utvalda röstberättigade om deras partisympatier. Resultat: 400 S-röster och 50 C-röster. (Dessa siffror stämmer så väl med S:s och C:s röster 2002 att jag livar upp exemplet med att byta ut (a) och (b) mot partier som passar in. Gör ett 95 % konfidensintervall för de båda partiernas röster!

Binomialfördelningen! Vi får normalapproximera om npq 10, vilket inte är några problem. Återigen kan vi använda formeln: [Skattning av p]±1.96*[skattning av skattarens standardavvikelse] Med insatta skattare har vi att ett konfidensintervall med konfidensnivån 1-α är

Konfidensintervallet har alltså en bredd på 6 procentenheter, något som gör att man knappast kan använda ett så litet urval som detta. Helt analoga beräkningar ger att konfidensintervallet för C blir (0.036,0.064). Inte heller detta är imponerande precision.

Binomialfördelning, exempel 36 personer har i en opinionsundersökning tillfrågats om de gillar ett visst lagförslag. 9 har varit positiva och resten negativa. Kan man dra slutsatsen att opinionen är emot förslaget?

P(X 9 H0)

Att testa p=p0 tvåsidigt Man brukar använda 2*[ensidigt P-värde] för att räkna med svanshändelser i andra ändan. Säg att vi vill testa H0: p = 0.3 mot H1: p 0.3. Normalt räknar man ut bägge svansar och tar den minsta.

p0=0.2 Vi kan inte förkasta att 20 % av befolkningen är för lagen.

0.121 ligger på gränsen till vad man kan förkasta.

Vi kan inte förkasta p mellan 0.121 och 0.422 Minns att ett konfidensintervall kan definieras som alla P som vi inte kan förkasta: Ip=(0.121,0.422) Att rapportera: Mellan 12.1 och 42.2 procent av befolkningen stöder lagförslaget.

R-lösning I R-paketet Hmisc finns en rutin som beräknas ett konfidensintervall enligt denna metod. Fördelen är att metoden är exakt, dvs..den använder inte normalapproximation. Om antagandet om oberoende och konstant sannolikhet är uppfyllda, så täcker intervallet rätt värde med sannolikhet 95 %. Matlab: >> [p,ci]=binofit(9,36) [p = 0.2500; ci = 0.1212 0.4220]

Jämförelse med tidigare approximationer Approximationerna vär: (0.370,0.430) (0.036,0.064). CGS fungerar!

Powerberäkning för binomialtest Genetikern Gregor har en teori som får honom att tro att ¼ av hans plantor får krulliga foderblad. Han vill nu odla så många så att han med rimlig säkerhet kan testa sin teori. Lösning: Ett approximativt konfidensintervall för p, den korrekta andelen med krulliga foderblad är ¼ är att förkasta

Vi söker alltså

Svaret ges som ett antal funktioner Snabb kontrollräkning i Matlab, som bygger på konfidensintervallet. >> 1.96*sqrt(.25*.75/10) [0.2684] >> 1.96*sqrt(.25*.75/50) [0.1200] >> 1.96*sqrt(.25*.75/100) [0.0849] >> 1.96*sqrt(.25*.75/500) [0.0380]

Svaret ges som ett antal funktioner Om Gregor egentligen misstänker att nedärvningen är dominant (p=½) istället för recessiv (p=¼), er det ut som att det räcker med någonstans mellan 10 och 50 försök. Bör vidare utredas!