F3 Introduktion Stickprov

Relevanta dokument
Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Föreläsning 5. Kapitel 6, sid Inferens om en population

Lektionsanteckningar 11-12: Normalfördelningen

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

, s a. , s b. personer från Alingsås och n b

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Hur man tolkar statistiska resultat

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

FÖRELÄSNING 7:

F9 Konfidensintervall

Föreläsning G60 Statistiska metoder

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Samplingfördelningar 1

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

FÖRELÄSNING 8:

Föreläsning G60 Statistiska metoder

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

2. Test av hypotes rörande medianen i en population.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Hypotestestning och repetition

Föreläsning 7. Statistikens grunder.

TMS136. Föreläsning 10

Formel- och tabellsamling i matematisk statistik

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4: Konfidensintervall (forts.)

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Statistik 1 för biologer, logopeder och psykologer

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsningsanteckningar till kapitel 9, del 2

TMS136. Föreläsning 11

TMS136. Föreläsning 13

Repetitionsföreläsning

TENTAMEN I STATISTIKENS GRUNDER 2

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning G60 Statistiska metoder

TMS136. Föreläsning 7

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Introduktion till statistik för statsvetare

Föreläsning G60 Statistiska metoder

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Parade och oparade test

9. Konfidensintervall vid normalfördelning

F22, Icke-parametriska metoder.

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

F9 SAMPLINGFÖRDELNINGAR (NCT

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

10. Konfidensintervall vid två oberoende stickprov

Föreläsning 11: Mer om jämförelser och inferens

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Studietyper, inferens och konfidensintervall

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Grundläggande matematisk statistik

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Stockholms Universitet Statistiska institutionen Termeh Shafie

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 12: Regression

Mer om konfidensintervall + repetition

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Statistik och epidemiologi T5

8 Inferens om väntevärdet (och variansen) av en fördelning


SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Föreläsning 12, FMSF45 Hypotesprövning

Introduktion och laboration : Minitab

Föreläsning 7: Punktskattningar

F10 Problemlösning och mer om konfidensintervall

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 6, Repetition Sannolikhetslära

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Medicinsk statistik II

Föreläsning 6: Hypotestester (forts.)

Föreläsning 5: Hypotesprövningar

Transkript:

Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever på stora djup i arktiska vatten. Det görs provfiske för att övervaka bestånden. Som exempel, betrakta följande data över vikten i ton för 30 fångster av tandnoting: Fredrik Jonsson Januari 2012 44 43 35 39 41 45 36 40 40 45 42 43 38 44 44 40 43 39 42 43 42 44 39 44 42 42 42 44 39 37, vt12 (1 : 33), vt12 (2 : 33) Exempel Frågor: Uppenbarligen förekommer det en viss variation i fångstvikten, vilket man kan se av följande stolpdiagram: Hur sammanfattar man lämpligen informationen i denna typ av situation? Vilken är den genomsnittliga fångstvikten vid den aktuella tiden? Hur beskriver man motsvarande variation? För jämförelser med senare tidpunkter, hur sammanfattar man informationen om förväntad genomsnittlig fångstvikt? Man kan förmoda att denna variation beror på yttre faktorer (väder, fiskelycka, fiskstimmens aktivitet etcetera), medan storleken på beståndet är mer eller mindre konstant över den aktuella tiden., vt12 (3 : 33), vt12 (4 : 33)

Populationer, stickprov och variation Populationsmedelvärde I exemplet kan det vara naturligt att betrakta de 30 observationerna x 1,..., x n som ett stickprov (urval) från ett allmänt sammanhang. Motsvarande medelvärde ges av: x = 1 30 30 i=1 x i = 41.333. Standardavvikelsen i stickprovet ges av: s = 1 30 (x i x) 29 2 = 2.6695. i=1 Det allmänna sammanhanget kan beskrivas av ett populationsmedelvärde µ och motsvarande standardavvikelse σ. I det här fallet är det naturligt att kalla µ för förväntad genomsnittlig fångstvikt, eller motsvarande väntevärde. et betraktar vi som ett begränsat urval från motsvarande sammanhang. På grund av begränsat antal observationer kommer stickprovsmedelvärdet att påverkas av variationen. Med andra ord gäller: x µ, vt12 (5 : 33), vt12 (6 : 33) Standardavvikelse Som en modell för vad som händer i detta experiment kan vi tänka oss följande beskrivning: Med andra ord, mätningarna utgör ett begränsat urval från en normalfördelning med väntevärde µ och standardavvikelse σ. Repetition: Normalfördelning Följande kurva, som ges av funktionen y = 1 2π e x2 /2 kallas för normalfördelning på standardiserad skala. Med andra ord,, vt12 (7 : 33) x µ, s σ., vt12 (8 : 33)

Jämförande exempel Om slumpvariabeln Y ges av Y = µ + σx, där X är normalfördelad på standardiserad skala, så kallas Y för normalfördelad med väntevärde µ och standardavvikelse σ. Detta betecknas: Y N(µ, σ 2 ). X N(0, 1) Y N(0, 1/2 2 ) Med andra ord, µ innebär en förskjutning av skalan och σ en multiplikativ omskalning (jämför enhetsbyte från cm till mm). σ 2 kallas för motsvarande varians. Variationen är betydligt lägre till höger jämfört med till vänster. Motsvarande standardavvikelse är hälften så stor, medan variansen är en fjärdedel så stor. Väntevärdet är detsamma (µ = 0 för båda fördelningarna)., vt12 (9 : 33), vt12 (10 : 33) Repetition: Två användbara tumregler Utvidgade tumregler Med en standardiserad normalfördelning är det C:a 95% sannolikhet att hamna inom intervallet [ 2, 2] C:a 99,9% sannolikhet att hamna inom intervallet [ 3, 3] Med en normalfördelning N(µ, σ 2 ) är det C:a 95% sannolikhet att hamna inom intervallet [µ 2σ, µ + 2σ] C:a 99,9% sannolikhet att hamna inom intervallet [µ 3σ, µ + 3σ], vt12 (11 : 33), vt12 (12 : 33)

från normalfördelning smedelvärde Som en modell för experimentet (stickprovet) tänker man sig oberoende slumpvariabler I detta fall: n = 30. X 1,..., X n. För var och en av mätningarna beskrivs variationen med: X i N(µ, σ 2 ), där µ anger populationsmedelvärdet och σ motsvarande standardavvikelse. Likafördelade, oberoende slumpvariabler X 1,..., X n. Motsvarande medelvärde ges av X = 1 n n i=1 X i, vt12 (13 : 33) Hur påverkas X av variationen?, vt12 (14 : 33) Repetition: binomialfördelningar Osäkerheten i stickprovsmedelvärdet 1:2 Vid oberoende binära slumpförsök X 1,..., X n kan man uttrycka andelen ettor som: ˆp = 1 n n X i = 1 n Y, i=1 där Y är binomialfördelad, Y Bi(n, p). Vidare gäller att standardavvikelsen för Y ges av npq. Genom omskalning följer därför att standardavvikelsen för ˆp ges av pq n. Precis som vid binära slumpförsök avtar standardavvikelsen för X proportionellt mot n. Man kan bevisa att korrekt formel ges av följande uttryck: SEM = σ n, där σ anger standardavvikelsen för en enskild observation. SEM är en förkortning för Standard Error of the Mean., vt12 (15 : 33), vt12 (16 : 33)

Standardiserat stickprovsmedelvärde Osäkerheten i stickprovsmedelvärdet 2:2 Precis som med binomialfördelningar är det naturligt att standardisera ett stickprovsmedelvärde X. Det betyder att fördelningens mittpunkt flyttas till origo, samt att spridningen skalas om till standardiserad skala. I detta fall blir motsvarande formel: Z = X µ σ/ n Standardavvikelsen för X ges av följande uttryck: SEM = σ n. Detta är inte speciellt användbart, om inte någon tillför rimlig information om σ. Vad man alltid kan göra är att ersätta σ med s, dvs. stickprovsstandardavvikelsen. Observera att standardisering kräver att man känner till värdet på µ och σ. Det gjorde vi inte i exemplet med den torskliknande fisken. Detta ger oss följande uppskattade värde: ŜEM = s n., vt12 (17 : 33), vt12 (18 : 33) Exempel Tillämpning I detta fall var x = 41.333, s = 2.6695 och n = 30. Därmed erhålls följande uppskattning av SEM: ŜEM = 2.6695 30 = 0.4874 Enligt den första av våra två tumregler är det c:a 95% sannolikhet att X hamnar inom intervallet [µ 2 ŜEM, µ + 2 ŜEM]. Med andra ord gäller med 95% säkerhet: µ 2 ŜEM X µ + 2 ŜEM. Annorlunda uttryckt: X 2 ŜEM µ X + 2 ŜEM. EXEMPEL: Stoppar vi in siffrorna från föregående exempel erhålls: 40.36 µ 42.31., vt12 (19 : 33), vt12 (20 : 33)

Konstruktionen Statistiska slutsatser X 2 ŜEM µ X + 2 ŜEM är ett exempel på vad man kallar för konfidensintervall. I detta fall är konfidensgraden 95%, vilket betyder att olikheterna gäller med 95% säkerhet. Väljer man istället det bredare intervallet X 3 ŜEM µ X + 3 ŜEM I exemplet räknade vi ut två konfidensintervall: Konfidensgrad 95%: [40.36, 42.31] så erhålls konfidensgrad 99,9%. Konfidensgrad 99,9%: EXEMPEL: Med föregående exempel erhålls (konfidensgrad 99,9%): [39.87, 42.80] 39.87 µ 42.80. Vilken typ av slutsatser kan man dra av dessa?, vt12 (21 : 33), vt12 (22 : 33) Hypotesprövning Testvariabel Med konfidensintervall kan man utesluta de värden som ligger utanför intervallet, med motsvarande grad av konfidens. EXEMPEL: [40.36, 42.31] Här kan man t.ex. utesluta att den förväntade genomsnittliga fångsvikten är 40 ton eller lägre, med konfidensgrad 95%. Annorlunda uttryckt, vi förkastar hypotesen H 0 : µ = 40 med felrisk (signifikansnivå) 5%. Om vi direkt utgår från hypotesen H 0 : µ = 40 kan vi istället för konfidensintervall beräkna värdet på följande testvariabel: T = X µ ŜEM EXEMPEL: x = 41, 33 och ŜEM = 0.4874 ger T = 2.73 Under nollhypotesen bör T vara approximativt standard-normalfördelad. Tumregler: värden utanför [ 2, 2] inträffar i så fall med sannolikhet 5% och värden utanför [ 3, 3] med sannolikhet 0,1%, vt12 (23 : 33), vt12 (24 : 33)

p-värde p-värde - Tolkning Under nollhypotesen bör testvariabeln T vara approximativt standard-normalfördelad (kring 0). Observation: T = 2.73. Vad är sannolikheten för en minst lika extrem avvikelse under nollhypotesen? Annorlunda uttryckt: P 0 ( T > 2.73) =? SVAR: Denna fråga besvaras enklast med hjälp av statistisk programvara (). Svaret kallas för mostvarande p-värde. Vi uteslöt värdet 40 med felrisk 5% baserat på intervallet [40.36, 42.31]. Ju lägre felrisk, desto bredare blir intervallet. Vilken är den lägsta felrisken med vilken jag kan utesluta värdet 40? Denna fråga besvaras av motsvarande p-värde. Lågt p-värde motsvarar hög grad av signifikans. p < 0.05 är samma sak som att hypotesen kan förkastas med felrisk 5%., vt12 (25 : 33), vt12 (26 : 33) t-test och frihetsgrader Kom ihåg att vi än så länge mest tillämpat ungefärliga tumregler (rörande 2 resp. 3 standardavvikelser). I praktiken använder man mer exakta formuleringar, och låter en dator med statistisk programvara göra motsvarande beräkningar. Den vanligaste formen är så kallade t-test och motsvarande konfidensintervall. Det motsvarar användning av ŜEM på det sättet vi gjorde i exemplet. Om man däremot inte på detta sätt ersätter σ med s, utan anser att σ är känt på förhand, kan man mata in detta och tillämpa det så kallade z-testet. BRA ATT KÄNNA TILL: Då man tillämpar t-test så kallas n 1 för testets frihetsgrad (n anger antalet observationer). Andra typer av frihetsgrader kommer att dyka upp senare i kursen., vt12 (27 : 33), vt12 (28 : 33)

Dubbelsidiga test Enkelsidiga, riktade test När man utesluter att den förväntade genomsnittliga fångsvikten är 40 ton eller lägre baserat på konfidensintervallet [40.36, 42.31] så är detta ett exempel på ett så kallat dubbelsidigt test. Det är den mest neutrala och vanligaste formen av hypotesprövning som motsvarar att man räknar ut felmarginaler i båda riktningarna (utifrån medelvärdet 41.333). Motsvarar p-värden på formen P 0 ( T > 2.73). Ibland gör man riktade undersöknigar i betydelsen att man vill påvisa en signifikant positiv, alternativt negativ förändring. Givet att man vet på förhand vilken riktning man vill påvisa kan man då istället tillämpa ett så kallat enkelsidigt test. Det motsvarar att man räknar ut en felmarginal i endast en av riktningarna. Motsvarande konfidensgrad blir därmed ofta dubbelt så stor. Motsvarar p-värden på formen P 0 (T > 2.73)., vt12 (29 : 33), vt12 (30 : 33) Ett modellantagande Kom ihåg att vi utgick från en modell när vi analyserade experimentet, nämligen att mätningarna utgjorde ett urval från en normalfördelning. Den typen av antagande kan vara mer eller mindre rimligt i praktiken. Värt att känna till är att: Analysen av SEM och idén om att X är normalfördelat gäller betydligt mer allmänt. Man brukar säga att intervallen och testen är robusta mot avvikelser från normalantagandet. Det finns andra så kallade icke-parametriska metoder för konfidensintervall och hypotesprövning om man har starka skäl att ifrågasätta antagandet. Givet ett stickprov x 1,..., x n från en normalfördelning N(µ, σ 2 ) med okända populationsparametrar µ och σ kan man sammanfatta informationen om µ med ett lämpligt konfidensintervall. Med konfidensgrad 95% blir motsvarande formel ungefär: x ± 2 s/ n. Statistisk programvara ersätter faktorn 2 med andra faktorer, beroende på antalet frihetsgrader. Man kan förmoda att µ innefattas av detta intervall, med motsvarande grad av konfidens. Motsvarande testvariabel vid nollhypotes H : µ = µ 0 : T = x µ 0 s/ n, vt12 (31 : 33), vt12 (32 : 33)

t-test, z-test samt motsvarande konfidensintervall återfinns genom att klicka: Stat Basic statistics 1-Sample t / 1-Sample z. Vill man komma åt p-värden motsvarande hypotesprövning får man ange vilken nollhypotes som är aktuell (exempelvis H : µ = 40). Vill man komma åt enkelsidiga, riktade test får man fylla i detta under Options., vt12 (33 : 33)