Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Relevanta dokument
F3 Introduktion Stickprov

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

FÖRELÄSNING 7:

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

, s a. , s b. personer från Alingsås och n b

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

F9 Konfidensintervall

Föreläsning G60 Statistiska metoder

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning 12: Regression

Samplingfördelningar 1

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Statistik och epidemiologi T5

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Statistik 1 för biologer, logopeder och psykologer

Medicinsk statistik II

Föreläsning 7. Statistikens grunder.

Parade och oparade test

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

TMS136. Föreläsning 13

Hypotestestning och repetition

F9 SAMPLINGFÖRDELNINGAR (NCT

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Studietyper, inferens och konfidensintervall

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

TMS136. Föreläsning 10

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 7: Punktskattningar

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Hur skriver man statistikavsnittet i en ansökan?

Repetitionsföreläsning

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Formel- och tabellsamling i matematisk statistik

7.3.3 Nonparametric Mann-Whitney test

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Mer om konfidensintervall + repetition

2. Test av hypotes rörande medianen i en population.

TMS136. Föreläsning 7

8 Inferens om väntevärdet (och variansen) av en fördelning

TENTAMEN I STATISTIKENS GRUNDER 2

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

FÖRELÄSNING 8:

F22, Icke-parametriska metoder.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Thomas Önskog 28/

Hur man tolkar statistiska resultat

9. Konfidensintervall vid normalfördelning

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen i Statistik, STA A10 samt STA A13 9p 24 augusti 2005, kl

Föreläsning G60 Statistiska metoder

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Introduktion till statistik för statsvetare

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Uppgift a b c d e Vet inte Poäng

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 12, FMSF45 Hypotesprövning

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

10. Konfidensintervall vid två oberoende stickprov

F13 Regression och problemlösning

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Diskussionsproblem för Statistik för ingenjörer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Föreläsning 7: Punktskattningar

DATORÖVNING 3: MER OM STATISTISK INFERENS.

LINKÖPINGS UNIVERSITET TENTA 92MA31, 92MA37, 93MA31, 93MA37 / STN 2 9GMA05 / STN 1

Föreläsning 12: Linjär regression

TENTAMEN I STATISTIKENS GRUNDER 2

Hypotestest och fortsättning av skattningar och konfidensintervall

TMS136. Föreläsning 11

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Ledtrådar till utvalda uppgifter för NDAB01, vt2011, 17 januari 2011.

Transkript:

Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts ibland till fodret som man ger till nyfödda kycklingar, detta för att tillföra D-vitamin Två olika typer av oljor ges till två grupper om vardera 10 respektive 20 kycklingar Efter 8 dagar mäts kycklingarnas vikt (i gram): A 69 66 71 69 68 71 74 69 73 70 B 68 69 66 64 67 69 65 78 68 70 65 63 66 68 66 72 69 67 66 59, vt12 (1 : 34), vt12 (2 : 34) Jämförelse av de två grupperna Några slutsatser Motsvarande histogram: A B och standardavvikelser ges av: x A = 700, x B = 6725 Medelvärdet är högre till vänster än till höger ( x A > x B ) Spridningen är större till höger än till vänster (s A < s B ) Rimligen tyder detta på att olja A är bättre än olja B s A = 236, s B = 377 Kan denna slutsats grundas statistiskt?, vt12 (3 : 34), vt12 (4 : 34)

Två oberoende stickprov Stickprov från normalfördelning Ett rimligt perspektiv är att anta att de två grupperna av mätningar utgör två stickprov från motsvarande populationer Därigenom ansätter vi två väntevärden µ A och µ B samt motsvarande standardavvikelser σ A och σ B Som en modell för experimentet (stickproven) tänker man sig oberoende slumpvariabler X 1,, X na, I detta fall: n A = 10, n B = 20 Y 1,, Y nb För var och en av mätningarna beskrivs variationen med: X i N(µ A, σ 2 A ), Y i N(µ B, σ 2 B ) där µ A, µ B anger populationsmedelvärden och σ A, σ B motsvarande standardavvikelser Kan vi utesluta µ A = µ B med någon form av säkerhet?, vt12 (5 : 34), vt12 (6 : 34) Differens av stickprovsmedelvärden Repetition: osäkerheten i X En naturlig första jämförelse: beräkna differensen x A x B I exemplet blir x A x B = 275 Med ett stickprov beror osäkerheten i stickprovsmedelvärdet av två faktorer: Stickprovets standardavvikelse σ; Antalet mätningar n Stickprovsmedelvärdets standardavvikelse ges av: SEM = σ n Ofta använder man sig av följande uppskattning: ŜEM = s n Hur påverkas X A X B av variationen?, vt12 (7 : 34), vt12 (8 : 34)

Osäkerheten i XA X B, 1:3 Exempel Med två stickprov finns det nu fyra faktorer att ta hänsyn till: σ A, σ B, n A, n B Standardavvikelsen för X A X B ges av: σa 2 SEM = + σ2 B Ofta använder man sig istället av följande uppskattning: sa 2 ŜEM = + s2 B I detta fall var s A = 236, s B = 377, n A = 10, n B = 20 Därmed erhålls följande uppskattning av SEM: ŜEM = 236 2 10 + 3772 20 = 112, vt12 (9 : 34), vt12 (10 : 34) Tillämpning: konfidensintervall Huvudsaklig slutsats Enligt den första av våra två tumregler är det c:a 95% sannolikhet att X A X B hamnar inom intervallet (µ A µ B ) ± 2 ŜEM Med andra ord gäller med 95% säkerhet: Ett 95% konfidensintervall för µ A µ B ges av [05, 50] Intervallet innehåller bara positiva värden Alltså kan vi utesluta µ A = µ B med konfidensgrad 95% ( X A X B ) 2 ŜEM µ A µ B ( X A X B ) + 2 ŜEM EXEMPEL: Stoppar vi in siffrorna från föregående exempel erhålls: 05 µ A µ B 50, vt12 (11 : 34), vt12 (12 : 34)

Testvariabel t-test och z-test Om vi direkt utgår från hypotesen H 0 : µ A = µ B kan vi istället för konfidensintervall beräkna värdet på följande testvariabel: T = X A X B ŜEM EXEMPEL: x A x B = 275 och ŜEM = 112 ger T = 245 Under nollhypotesen bör T vara approximativt standard-normalfördelad Tumregler: värden utanför [ 2, 2] inträffar i så fall med sannolikhet 5% och värden utanför [ 3, 3] med sannolikhet 0,1% Kom ihåg att vi tillämpade en ungefärlig tumregel (rörande 2 och 3 standardavvikelser) I praktiken används mer exakta formuleringar Statistisk programvara gör motsvarande beräkningar Den vanligaste formen är så kallade t-test och motsvarande konfidensintervall Det motsvarar användning av ŜEM på det sättet vi gjorde i exemplet Om man däremot inte på detta sätt ersätter σ A med s A och σ B med s B, utan anser att σ A och σ A är kända på förhand, kan man mata in detta och tillämpa det något exaktare z-testet, vt12 (13 : 34), vt12 (14 : 34) Homogen variation Vid jämförelser X A X B av två stickprovsmedelvärden dyker ofta frågan upp: Kan vi utesluta µ A = µ B med rimlig grad av konfidens? Denna fråga besvaras av motsvarande p-värde, som anger den lägsta felrisken med vilken värdet 0 utesluts ur konfidensintervallet för µ A µ B brukar ofta jämföras mot de tre nivåerna Standardavvikelsen för X A X B gavs som sagt av: σa 2 SEM = + σ2 B I vissa fall är det rimligt att anta variationen är densamma vid båda experimenten (beroende på försöksupplägget och vad som undersöks): = σ 005 ( ) 001 ( ) 0001 ( ) motsvarande stigande grad av signifikans (ju lägre p-värde desto bättre) Med andra ord finns det då enbart tre parametrar att ta hänsyn till: σ, µ A och µ B, vt12 (15 : 34), vt12 (16 : 34)

Poolad standardavvikelse, s p Osäkerheten i XA X B, 2:3 Om vi antar = σ så är det naturligt att försöka kombinera de två skattningarna s A och s B till en enda skattning av σ Dessutom, om n A > n B så är det naturligt att tilldela s A större betydelse än s B, och vice versa Den formel som brukar användas är följande, poolade standardavvikelse: (n A 1)sA 2 s p = + (n B 1)sB 2 n A + n B 2 Med = σ så blir: 1 SEM = σ + 1 Skattas därefter σ med motsvarande poolade standardavvikelse s p så erhålls: ŜEM = s p 1 n A + 1 n B I detta fall kallas n A + n B 2 för motsvarande antal frihetsgrader, vt12 (17 : 34), vt12 (18 : 34) Exempel Tillämpning: konfidensintervall I detta fall var s A = 236, s B = 377, n A = 10, n B = 20 Med den alternativa beräkningen av ŜEM kan man räkna ut motsvarande konfidensintervall på formen: ( X A X B ) ± 2 ŜEM EXEMPEL: Stoppar vi in siffrorna från föregående exempel erhålls: 275 ± 262 Med poolad standardavvikelse erhålls: ŜEM =, vt12 (19 : 34) 9 236 2 + 19 377 2 = 131 28 1 10 + 1 20 Den huvudsakliga slutsatsen gäller fortfarande, dvs att µ A = µ B kan uteslutas med konfidensgrad 95%, vt12 (20 : 34)

Några kommentarer Ett modellantagande Vi har sett två metoder för att beräkna ŜEM, och därmed för att beräkna konfidensintervall på formen: Kom ihåg att vi utgick från en modell när vi analyserade experimentet, nämligen att mätningarna utgjorde oberoende urval från normalfördelningar ( X A X B ) ± 2 ŜEM Metod 2 bygger på antagandet Metod 2 ger exaktare intervall än Metod 1 om antagandet är uppfyllt Metod 1 är att föredra om man är osäker på huruvida Vid stor skillnad mellan s A och s B finns det skäl att ifrågasätta valet av Metod 2 Den typen av antagande kan vara mer eller mindre rimligt i praktiken Värt att känna till är att: Analysen av SEM och idén om att X A X B är normalfördelat gäller betydligt mer allmänt Man brukar säga att intervallen och testen är robusta mot avvikelser från normalantagandet Det finns andra så kallade icke-parametriska metoder för konfidensintervall och hypotesprövning om man har starka skäl att ifrågasätta antagandet, vt12 (21 : 34), vt12 (22 : 34) Samma sprinters, två lopp Jämförelse av de två grupperna Motsvarande stolpdiagram: 8 stycken sprinters tävlar mot varandra vid två tillfällen A 135 146 127 155 111 164 132 193 B 136 146 126 157 111 166 132 195 och standardavvikelser ges av: x A = 1454, x B = 1461 s A = 254, s B = 263, vt12 (23 : 34), vt12 (24 : 34)

Tillämpning av Metod 1 och 2 Motsvarande konfidensintervall på formen: I detta fall var s A = 254, s B = 263, n A = 8, n B = 8 Metod 1 och 2 ger: 254 2 ŜEM 1 = + 2632 = 129 8 8 7 254 ŜEM 2 = 2 + 7 263 2 1 14 8 + 1 8 = 129, vt12 (25 : 34) blir därför SLUTSATSER: ( X B X A ) ± 2 ŜEM 0075 ± 258 Med denna analys kan vi inte bekräfta att det gått signifikant fortare i det första loppet Motsvarande signal (0075 s) är markant för svag i förhållande till den underliggande variationen, vt12 (26 : 34) Två oberoende stickprov? A 135 146 127 155 111 164 132 193 B 136 146 126 157 111 166 132 195 I detta fall är det problematiskt att analysera mätningarna som två oberoende stickprov Först och främst, variationen vid respektive tillfälle tycks i första hand förklaras av löparnas individuella förmåga Denna koppling gör att det är mer naturligt att betrakta mätningarna som parade observationer Med andra ord, varje mätning i den andra serien förklaras i hög utsträckning av motsvarande mätning i den första serien, vilket motsäger antagandet om oberoende stickprov, vt12 (27 : 34) A 135 146 127 155 111 164 132 193 B 136 146 126 157 111 166 132 195 Genom att beräkna individuella differenser försvinner en stor del av den variation som kom sig av löparnas olika grundförmågor Utifrån stickprovet med differenser kan vi dra slutsatser om huruvida det var en generell tendens att det gick långsammare vid det andra tillfället Betraktar vi differenserna = B A får vi istället följande stickprov: 01, vt12 (28 : 34) 00-01 02 00 02 00 02

Analys av differenser som ett stickprov Differenser = B A: Tillämpning av metod för ett stickprov 01 00-01 02 00 02 00 02 Motsvarande medelvärde och standardavvikelse ges av: = 0075, s = 01165 I detta fall var s = 01165, n = 8 Tidigare metod ger: ŜEM = s n = 0041, vt12 (29 : 34), vt12 (30 : 34) Motsvarande konfidensintervall på formen: Osäkerheten i XA X B, 3:3 blir därför SLUTSATSER: ± 2 ŜEM 0075 ± 0082 Med denna analys kan vi fortfarande inte bekräfta att det gått signifikant fortare i det första loppet Motsvarande signal (0075 s) är aningens för svag i förhållande till den underliggande variationen Det finns ändå en indikation på att framför allt de långsammare löparna sprungit sämre vid det andra loppet Med exaktare tider (eller fler löpare) hade analysen troligen blivit exaktare, vt12 (31 : 34) Antag n A = n B = n Notera att X A X B då kan betraktas som medelvärdet av motsvarande stickprov av differenser: X A X B = 1 n n (X i Y i ) = 1 n i=1 n i=1 Således är det möjligt att tillämpa följande uppskattning: ŜEM = s n Bygger fortfarande på antagandet att var och en av differenserna är oberoende av av övriga differenser, vt12 (32 : 34) i

Vi har sett tre metoder för att analysera osäkerheten i en jämförelse X A X B av två stickprovsmedelvärden De två första bygger på perspektivet att stickproven är oberoende: sa 2 ŜEM 1 = + s2 B ŜEM 2 = s p 1 n A + 1 n B Den andra utgår dessutom från perspektivet att variationen är densamma i stickproven Den tredje metoden kräver samma stickprovsstorlek, samt en naturlig parvis association av observationer ŜEM 3 = s n t-test samt motsvarande konfidensintervall återfinns genom att klicka: Stat Basic statistics 2-Sample t / Paired t Vill man anta två oberoende stickprov med lika varians (metod 2) får man klicka i detta via 2-Sample t Metod 3 tillämpas via Paired t Vill man komma åt enkelsidiga, riktade test får man fylla i detta under Options, vt12 (33 : 34), vt12 (34 : 34)