Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Relevanta dokument
7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

7.3.3 Nonparametric Mann-Whitney test

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

F3 Introduktion Stickprov

TMS136. Föreläsning 11

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Statistik för teknologer, 5 poäng Skrivtid:

Hur skriver man statistikavsnittet i en ansökan?

Hur man tolkar statistiska resultat

FÖRELÄSNING 8:

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

2.1 Minitab-introduktion

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

TAMS65 - Föreläsning 6 Hypotesprövning

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Metod och teori. Statistik för naturvetare Umeå universitet

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

TMS136. Föreläsning 13

Föreläsning G60 Statistiska metoder

, s a. , s b. personer från Alingsås och n b

Introduktion och laboration : Minitab

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Statistik 1 för biologer, logopeder och psykologer

TMS136. Föreläsning 10

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

8 Inferens om väntevärdet (och variansen) av en fördelning

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Parade och oparade test

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Obligatorisk uppgift, del 1

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 5. Kapitel 6, sid Inferens om en population

Repetition 2, inför tentamen

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Följande resultat erhålls (enhet: 1000psi):

TAMS28 DATORÖVNING VT1

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Föreläsning 5: Hypotesprövningar

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Tentamen i matematisk statistik

2. Test av hypotes rörande medianen i en population.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

3.1 Beskrivande statistik

Styr- och kontrolldiagram ( )

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

Tentamen i matematisk statistik

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Laboration 2 Inferens S0005M VT18

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Laboration 4: Hypotesprövning och styrkefunktion

Matematisk statistik för D, I, Π och Fysiker

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Lektionsanteckningar 11-12: Normalfördelningen

Konfidensintervall, Hypotestest

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Examinationsuppgifter del 2

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Uppgift a b c d e Vet inte Poäng

27,5 27,6 24,8 29,2 27,7 26,6 26,2 28,0 (Pa s)

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Tentamen i matematisk statistik

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Gamla tentor (forts) ( x. x ) ) 2 x1

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Hypotestest och fortsättning av skattningar och konfidensintervall

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Medicinsk statistik II

Om statistisk hypotesprövning

Thomas Önskog 28/

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Uppgift 1. Produktmomentkorrelationskoefficienten

Styrkeberäkningar och diskreta data

Föreläsning G60 Statistiska metoder

Avd. Matematisk statistik

Föreläsningsanteckningar till kapitel 9, del 2

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Transkript:

Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa. Medelutbytet (medelvärdet) visade sig bli är 70,71% ( x = 70, 71). Teoretiskt antar vi att det finns en sann utbytesnivå µ, (väntevärdet) som vi vill ha kunskap om.

Hur bra skattning är 70,71 av det sanna utbytet µ? Kan det sanna utbytet i själv verket vara lägre än 70% eller kan vi vara säkra på att det är minst 70%? Om vi skulle göra 16 nya mätningar skulle vi säkerligen få ett annat medelvärde (men µ är detsamma). Mätvärden varierar medelvärden varierar

Descriptive Statistics: Cu-utbyte (%) Variable N Mean SE Mean StDev Variance Minimum Maximum Cu-utbyte (%) 16 70,71 1,05 4,21 17,70 63,79 78,49 Med normalitetstest kan vi inte påvisa att observationerna inte är normalfördelade (p-värde = 0.802). Låt oss anta att de är normalfördelade.

Variable N Mean SE Mean StDev Cu-utbyte (%) 16 70,71 1,05 4,21 Om man gör nya mätningar bör ungefär 95% av dessa ligga i ett intervall av längd 4s = 4*4.21 = 16.84 centrerade runt x = 70,71 x ± 2s = 70,71 ± 8,42 = (62,29, 79,13)

Anta att vi vill påvisa att kopparutbytet är större än 70%. H 0 : kopparutbyte är 70 % (µ = 70) H 1 : kopparutbyte är mer än 70 % (µ > 70) Variable N Mean SE Mean StDev Cu-utbyte (%) 16 70,71 1,05 4,21 Noll-hypotes Alternativ hypotes Är det slumpen som orsakat att medelvärdet är större än 70, eller är det sanna utbytet µ verkligen större än 70%?

Eftersom vi har med slumpen att göra kommer vi aldrig att kunna dra helt säkra slutsatser. Ett signifikant resultat (förkasta en noll-hypotes) får vi om det medelvärde vi fått är osannolikt att få enbart på grund av slump, när noll-hypotesen är sann. Vi måste bestämma med hur stor sannolikhet vi kan acceptera att dra fel slutsats när noll-hypotesen är sann. Denna sannolikhet kallas signifikansnivå (betecknas vanligtvis ). Praxis i vetenskapliga sammanhang är antingen 5% eller 1%. Tolkning av signifikansnivå: Den risk som man är villig att ta att göra fel, dvs att förkasta nollhypotesen fast den i själva verket är sann.

H 0 är sann Hur sannolikt är det att få ett medelvärde på 70,71 om µ = 70%? Om observationerna är normalfördelade med standardavvikelse σ, är medelvärdet normalfördelat med standardavvikelse σ/ n. Total Variable Count Mean SE Mean StDev Cu-utbyte (%) 16 70,71 1,05 4,21 Medelvärdets standardavvikelse uppskattas till sn = 4,21 16 = 1,05. Kallas medelfelet för medelvärdet och ger en uppskattning av hur mycket medelvärdena varierar om man gör flera studier med 16 mätningar vardera. 95% av alla medelvärden bör ligga i ett intervall av längd 4 s n = 4.2

Sannolikheten att få ett medelvärde på 70,71 eller större (mer extremt) om µ = 70% är 0,25. Density 0,4 0,3 0,2 0,1 0,0 Distribution Plot Normal; Mean=70; StDev=1,05 70 X 70,71 0,2495 Denna sannolikhet kallas p-värde! Om p-värdet är mindre än =0,05 (vanligtvis) anses medelvärdet vara för avvikande för att µ skall vara 70%, dvs H 0 : µ = 70% förkastas. Det medelvärde vi fått är inte speciellt avvikande om H 0 är sann. Vi kan inte förkasta H 0, dvs inte påvisa att utbytet är större än 70%!

p-värdet = P(minst lika extremt utfall som vi har fått givet att H 0 är sann) p-värde = P X > 70,71, då sanna μ = 70 = 0,2495 Testförfarande: förkasta nollhypotesen till förmån för den alternativa hypotesen om p-värdet är mindre än den i förväg valda signifikansnivån (5%).

H 0 representerar det som alltid gällt (allmänt anses vara sant), ett fixt tal, lika med nånting. H 1 representerar det vi vill påvisa, skilt från/större än/mindre än. Med hjälp av data kan vi antingen förkasta H 0 till förmån för H 1, eller inte förkasta H 0. Obs! Vi accepterar aldrig H 0 som sann! Nollhypotes: H 0 : m = m 0 Alternativa hypoteser: H 1 : m > m 0, H 1 : m < m 0, H 1 : m m 0

Med vårt sannolikhetsresonemang finns det två typer av fel som vi kan göra. Typ-I fel: Förkasta H 0 då H 0 är sann Typ-II fel: Inte förkasta H 0 då H 0 är falsk P(Typ-I fel) = signifikansnivån P(Typ-II fel) beror på stickprovsstorleken och det sanna µ-värdet.

Vilket är det minsta värdet som medelvärdet kan anta som samtidigt medför att H 0 förkastas på signifikansnivån =0.05? 0,4 Distribution Plot Normal; Mean=70; StDev=1,05 0,3 Density 0,2 0,1 0,05 0,0 70 X 71,73 Ett medelvärde större än 71,73 medför att noll-hypotesen förkastas på 5%-nivån.

Vi har en beslutsregel: Förkasta H 0 : µ = 70 om x > 71,73 Förkasta inte om x 71,73 0,4 Distribution Plot Normal; Mean=70; StDev=1,05 0,3 Density 0,2 0,1 0,05 0,0 70 X 71,73

Exempel: Antal felaktiga fakturor. Vi misstänker att antalet felaktiga fakturor per dag är mer än 10%. För att undersöka denna misstanke kontrollerades alla fakturor under en dag och man fann att 27 var felaktiga bland 200 (13,5%). Antalet felaktiga bland 200 är då Binomialfördelat med parametrar n = 200 och p = P(godtycklig faktura är felaktig), dvs Bin(200, p). Nollhypotes: H 0 : p = 10% Alternativa hypoteser: H 1 : p > 10% (ensidig alternativ hypotes)

Vi har observerat att 27 av 200 fakturor är felaktiga (13,5%). Hur rimligt är det att 27 eller fler är felaktiga om den sanna andelen skulle vara 10%? p-värdet = P(minst lika extremt utfall som vi har fått givet att H 0 är sann) Distribution Plot Binomial; n=200; p=0,1 0,09 0,08 0,07 Probability 0,06 0,05 0,04 0,03 0,02 0,01 0,00 8 X 27 0,06722 p-värde = 0.067

Eftersom p-värdet inte är mindre än signifikansnivån = 0.05 kan vi inte förkasta nollhypotesen. Att vi fick 27 stycken just denna gång kan bero på slumpen! Hur många felaktiga fakturor behöver vi hitta för att förkasta nollhypotesen när sanna p = 10%? Svar: 28 stycken! Probability 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 Distribution Plot Binomial; n=200; p=0,1 0,01 0,04343 0,00 8 X 28

Beslutsregel: Förkasta om antalet felaktiga är 28 eller fler Förkasta inte om antalet är 27 eller färre Anta att den sanna andelen felaktiga fakturor är p = 0,12. Vad är då sannolikheten att förkasta noll-hypotesen med denna beslutsregel? Sannolikheten att få ett utfall som är 28 eller större är 0,2196. Om p=0,14 är sannolikheten 0,5309. Probability 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 Distribution Plot Binomial; n=200; p=0,12 0,2196 0,00 11 X 28

Styrkan (Power) är sannolikheten att förkasta H 0 då H 1 är sann. Om p = 0,12 (H 1 är sann ) är sannolikheten att förkasta H 0 (att få ett utfall som är 28 eller större) 0,2196, dvs styrkan är 0,2196. Om däremot p = 0,14 är sannolikheten att förkasta H 0 0,5309, dvs styrkan är 0,5309. Ju mer avvikande p är från noll-hypotesens värde 10% desto större är chansen att förkasta noll-hypotesen. Vi kan bilda en s.k. Styrkefunktion genom att beräkna sannolikheten att förkasta nollhypotesen som en funktion av p.

Notera att beräkningarna baseras på att Binomialfördelningen är uppskattad med Normalfördelningen. Stat Power and Sample Size 1 Proportion

7.2.1 z-test Redan i början av föreläsningen gjorde vi ett s k z-test! H 0 : kopparutbyte är 70 % (µ = 70) H 1 : kopparutbyte är mer än 70 % (µ > 70) Variable N Mean SE Mean StDev Cu-utbyte (%) 16 70,71 1,05 4,21 Vi antog att data var normalfördelat med den kända standardavvikelsen 4,21, dvs medelvärdet av 16 mätvärden blir normalfördelat med standardavvikelse 1,05 (SE Mean). p-värdet blev 0,2495.

7.2.1 z-test Stat Basic Statistics 1-Sample Z

7.2.1 z-test One-Sample Z: Cu-utbyte (%) Test of μ = 70 vs > 70 The assumed standard deviation = 4,21 Variable N Mean StDev SE Mean 95% Lower Bound Z P Cu-utbyte(%) 16 70,71 4,21 1,05 68,98 0,68 0,250 Vad är 95% Lower Bound och Z för något? p-värdet Stat Basic Statistics 1-Sample Z

7.2.1 z-test 95% Lower Bound är den undre gränsen i ett 95%-igt konfidensintervall. Ett sådant intervall täcker in det sanna µ-värdet (sanna genomsnittliga kopparutbytet) med sannolikheten 95%. Med sannolikheten 95% menas att av 100 intervall kommer i långa loppet 95 stycken att täcka in det sanna µ-värdet och 5 stycken kommer att missa det.

7.2.1 z-test Det intervall vi har skapat kommer antingen att täcka in det sanna µ- värdet eller missa det. Vi kommer inte att veta vilket som gäller men chansen är relativt stor att vårt intervall täcker in det sanna µ-värdet. Risken att vi tolkar intervallet fel är 5%. Jämför med signifikansnivån = 5%.

7.2.1 z-test One-Sample Z: Cu-utbyte (%) Test of μ = 70 vs > 70 The assumed standard deviation = 4,21 Variable N Mean StDev SE Mean 95% Lower Bound Z P Cu-utbyte(%) 16 70,71 4,21 1,05 68,98 0,68 0,250 Individual Value Plot of Cu-utbyte (%) (with Ho and 95% Z-confidence interval for the Mean, and StDev = 4,21) p-värdet _ X Ho Konfidensintervall 65,0 67,5 70,0 72,5 Cu-utbyte (%) 75,0 77,5 80,0 Stat Basic Statistics 1-Sample Z

7.2.1 z-test I det här fallet har vi ett ensidigt nedåt begränsat konfidensintervall (68,98; ). Vi tror att den sanna µ-värdet (sanna kopparutbytet) ligger i detta intervall. Eftersom noll-hypotesens värde (H 0 : kopparutbyte är 70 %) ligger i detta intervall så är 70% ett möjligt värde. Alltså kan vi inte förkasta noll-hypotesen. Hade vi fått ett intervall som inte täcker in noll-hypotesens 70% så skulle vi förkasta noll-hypotesen då 70% inte är ett möjligt värde. Konfidensintervall går hand i hand med hypotesprövning. Noll-hypotesen förkastas om dess hypotesvärde inte ligger i konfidensintervallet (H 0 : µ = 70 ).

7.2.1 z-test Ett vanligt mått på avvikelse är hur många medelfel (SE Mean) som det observerade medelvärdet x avviker från det hypotetiska µ-värdet 70%: z = x μ 0 σ/ n x μ 0 s n = 70.71 70 4,21 16 = 0,675 Medelvärdet avviker 0,67 medelfel (standardavvikelser för medelvärdet) från det hypotetiska värdet µ. Om medelvärdet hade avvikit mer än 1,645 medelfel hade vi förkastat hypotesen att µ = 70 på signifikansnivån 5%. Detta bygger på att kvoten z är standard-normalfördelad, dvs har väntevärde 0 och standardavvikelse 1, om H 0 : µ = 70 är sann.

7.2.1 z-test Distribution Plot Normal; Mean=0; StDev=1 0,4 0,3 Density 0,2 0,1 0,05 0,0 0 X 1,645

7.2.1 z-test Distribution Plot Normal; Mean=0; StDev=1 0,4 0,3 Density 0,2 0,1 0,2498 0,0 0 X 0,675 P-värdet blev detsamma (förutom avrundningsfel) som tidigare

7.2.1 z-test Ofta är mothypotesen tvåsidig H 0 : kopparutbytet är 70 % (µ = 70) H 1 : kopparutbytet är skilt från 70 % (µ 70) One-Sample Z: Cu-utbyte (%) Test of μ = 70 vs 70 The assumed standard deviation = 4,21 p-värdet Konfidensintervall Variable N Mean StDev SE Mean 95% CI Z P Cu-utbyte(%) 16 70,71 4,21 1,05 (68,65; 72,77) 0,68 0,499 Intervallet täcker in 70%, dvs vi kan inte förkasta noll-hypotesen. Alternativt, p-värdet = 0,499 är inte mindre än =0.05. Stat Basic Statistics 1-Sample Z

7.2.1 z-test One-Sample Z: Cu-utbyte (%) Test of μ = 70 vs 70 The assumed standard deviation = 4,21 Variable N Mean StDev SE Mean 95% CI Z P Cu-utbyte(%) 16 70,71 4,21 1,05 (68,65; 72,77) 0,68 0,499 Notera att Z-värdet (avståndet) är det samma när den alternativa hypotesen är tvåsidig, men att p-värdet blev dubbelt så stort. p-värdet = P(minst lika extremt utfall som vi har fått givet att H 0 är sann). Lika extremt eller extremare utfall är de som avviker mer än 0,71% åt båda hållen från hypotesvärdet 70% (mindre än 69,29 eller större än 70,71

7.2.1 z-test Distribution Plot Normal; Mean=70; StDev=1,05 0,4 0,3 Density 0,2 0,1 0,2495 0,2495 0,0 69,29 70 X 70,71 p-värdet = 0.2495+0.2495 = 0.499

7.2.1 z-test Distribution Plot Normal; Mean=0; StDev=1 0,4 0,3 Density 0,2 0,1 0,2498 0,2498 0,0-0,6750 0 X 0,675 p-värdet = 0.2498+0.2498 = 0.4996