Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Relevanta dokument
Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning G60 Statistiska metoder

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1901 Sannolikhetsteori och statistik I

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsningsanteckningar till kapitel 9, del 2

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

F3 Introduktion Stickprov

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Laboration 3 Inferens fo r andelar och korstabeller

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Hur man tolkar statistiska resultat

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

TMS136. Föreläsning 11

2. Test av hypotes rörande medianen i en population.

FACIT (korrekta svar i röd fetstil)

Stockholms Universitet Statistiska institutionen Termeh Shafie

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning G60 Statistiska metoder

Parade och oparade test

Föreläsning 5: Hypotesprövningar

F22, Icke-parametriska metoder.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Avd. Matematisk statistik

FÖRELÄSNING 8:

Matematisk statistik KTH. Formelsamling i matematisk statistik

Kapitel 10 Hypotesprövning

Statistik 1 för biologer, logopeder och psykologer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Avd. Matematisk statistik

TMS136. Föreläsning 13


Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Avd. Matematisk statistik

Thomas Önskog 28/

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Om statistisk hypotesprövning

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Föreläsning G60 Statistiska metoder

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Statistik 1 för biologer, logopeder och psykologer

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Uppgift 1. Produktmomentkorrelationskoefficienten

Medicinsk statistik II

Jämförelse av två populationer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

TENTAMEN I STATISTIKENS GRUNDER 2

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Avd. Matematisk statistik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Analys av proportioner

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Stockholms Universitet Statistiska institutionen Termeh Shafie

Transkript:

Föreläsning 5 Statistik; teori och tillämpning i biologi 1

Dagens föreläsning o Andelar (kap 24) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test och konfidensintervall för två andelar (kap 24.10, 24.11) o Analys av korstabeller (kap 23.0 23.1) 2

Andel för en population Hypotesprövning De två första stegen i hypotesprövning för populationsandel är på liknande sätt som för populationsmedelvärde. 1. Formulera hypoteser 2. Bestämma signifikansnivå Hypoteserna formuleras enligt: (GB s. 570-573(c), BB s. 534-537) H 0 : p = p o H a : p p o H a : p > p o H a : p < p o Signifikansnivån (α) sätts vanligtvis till 0.10, 0.05 eller 0.01. 3

Andel för en population Hypotesprövning När man ska utreda om H 0 kan förkastas eller ej kan tre olika tekniker användas: Jämföra antalet lyckade utfall X med ett kritiskt värde ur tabell Beräkna en testvariabel Z (normalapproximation) Undersöka om p 0 ingår i ett konfidensintervall eller ej När n är litet kan man även beräkna p-värdet exakt med hjälp av binomialfördelningen. 4

Ƹ Andel för en population Hypotesprövning, normalapproximation När normalfördelningsapproximation används beräknas en testvariabel Z: (GB s. 570(c), BB s. 534(c)) Z = X np 0 = p p 0 np 0 q 0 p 0 q 0 Τn Utifrån denna testvariabel bestäms p-värdet, eller så jämförs testvariabeln med ett kritiskt värde ur normalfördelningstabell. Kom ihåg: H 0 förkastas när p-värdet är mindre än signifikansnivån (α) 5

Andel för en population Exempel hypotesprövning Man vill undersöka om schimpanser föredrar att använda någon hand framför den andra. 40 schimpanser har studerats, och man har observerat vilken hand de använder i störst utsträckning. 31 av schimpanserna använde högerhanden mest, medan 9 av schimpanserna använde vänsterhanden mest. Utred utifrån ovanstående information om: a) En majoritet av schimpanserna föredrar någon hand framför den andra b) En majoritet av schimpanserna föredrar högerhanden framför vänsterhanden I båda fallen ska 5 % signifikansnivå användas. 6

Andel för en population Konfidensintervall Vad var nu ett konfidensintervall? Jo, med hjälp av ett konfidensintervall kan man med en viss säkerhet (90, 95, 99 %) säga att den sanna populationsparametern (i detta fall populationsandelen p) finns inom konfidensintervallet. Boken listar tre olika varianter på konfidensintervall: Clopper-Pearson-intervall Wald-intervall (normalapproximation) Justerat Wald-intervall Det mest frekvent använda är Wald-intervallet, som bygger på en normalapproximation av binomialfördelningen. 7

Andel för en population Konfidensintervall, Wald Ett dubbelsidigt konfidensintervall med konfidensnivån 1-α beräknas enligt: (GB s. 579(b), BB s. 543(b)) p Ƹ ± z α(2) p q Ƹ n Det går som vanligt att beräkna nedåt eller uppåt begränsade intervall. Som sagt bör denna metod ej användas när n är litet och pƹ är nära 0 eller 1. Exempel Beräkna ett 95 % dubbelsidigt konfidensintervall för andelen av schimpanserna som föredrar att använda vänsterhanden. 8

Ƹ Jämföra två andelar Hypotesprövning (GB s. 585-586, BB s. 549-550) Vid jämförelse av två andelar tar boken enbart upp hypotesprövning som bygger på normalapproximation. Hypoteserna formuleras enligt: H 0 : p 1 p 2 = p 0 p 1 = p 2 ( p 0 = 0) H a : p 1 p 2 p 0 p 1 p 2 Testvariabeln beräknas enligt: Z = p 1 pƹ 2 pതq ҧ + pതq ҧ n 1 n 2 där p ҧ = X 1 + X 2 = n 1pƸ 1 + n 2 pƹ 2 n 1 + n 2 n 1 + n 2 9

Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger, likt hypotesprövningen, på normalapproximationen av binomialfördelningen. Intervallet beräknas enligt: pƹ 1 pƹ 2 ± z α 2 pƹ 1 q 1 n 1 + pƹ 2 q 2 n 2 Med hjälp av ett exempel på nästkommande sida ska hypotesprövning och konfidensintervall för att jämföra två andelar beskrivas. 10

Jämföra två andelar Konfidensintervall och hypotesprövning, exempel Mugg är en vanlig hudinflammation på hästar. En teori är att islandshästar drabbas oftare av mugg än svenska halvblod. 30 islandshästar och 28 svenska halvblod observerades under en och samma tidsperiod, där 12 islandshästar samt 5 svenska halvblod drabbades av mugg. Utifrån ovanstående siffror, utred om islandshästar drabbas av mugg i större uträckning än svenska halvblod. Använd 5 % signifikansnivå. 11

Analys av korstabeller (GB s. 524-528, BB s. 490-494) En korstabell består av ett visst antal rader (r) och ett visst antal kolumner (c) och därmed r*c celler. f ij anger frekvensen (antalet) i en viss cell. Radsummorna betecknas R i och är summan av frekvenserna på rad i. Kolumnsummorna betecknas C j. Faktor B Faktor A 1 2 c Summa 1 f 11 f 12 f 1c R 1 2 f 21 f 22 f 2c R 2 r f r1 f r2 f rc R r Summa C 1 C 2 C c 12

Analys av korstabeller Korstabeller används för att presentera data på nominalskala, vilket var olika attribut den observerade enheten kan ha. Faktor A och faktor B kan då t.ex. vara kön respektive hårfärg. Vid analys av korstabeller kan man undersöka två olika saker: Är faktor A och B oberoende av varandra? (oberoendetest) Fördelar sig faktor A homogent över de olika nivåerna på faktor B? (homogenitetstest) Vid homogenitetstest bestäms en viss urvalsstorlek för de olika nivåerna på faktor B, men vid oberoendetest bestäms ingen urvalsstorlek för varken faktor A eller B. 13

Analys av korstabeller Chi-två-test För att utreda de två olika frågeställningarna som formulerades innan används chi-två-test (χ 2 -test). Det liknar hypotesprövning, men består av fem steg: 1. Formulera hypoteser 2. Bestäm signifikansnivå 3. Beräkna förväntade frekvenser enligt nollhypotesen 4. Beräkna testvariabel 5. Jämför med kritiskt värde ur tabell B.1 Chi-två-test förutsätter att samma urvalsenhet bara får förekomma i en cell i tabellen. 14

Analys av korstabeller Chi-två-test, formulera hypoteser Vid chi-två-test formuleras hypoteserna i ord och enbart dubbelsidiga test kan genomföras. Oberoendetest: H 0 : Faktor A och faktor B är oberoende H a : Faktor A och faktor B är beroende Homogenitetstest: H 0 : Faktor A fördelar sig homogent över de olika nivåerna på faktor B H a : Faktor fördelar sig inte homogent över de olika nivåerna på faktor B 15

Analys av korstabeller Chi-två-test, beräkna förväntade värden Tredje steget i ett chi-två-test är att beräkna förväntade frekvenser ( መf ij ) i de olika cellerna baserat på antagandet att nollhypotesen (H 0 ) är sann. Dessa förväntade värden beräknas enligt: መf ij = R i n C j n n = R i C j n De förväntade frekvenserna är alltså antalet urvalsenheter som borde tillhöra cellen ij om nollhypotesen är sann. 16

Analys av korstabeller Chi-två-test, testvariabel och kritiskt värde Testvariabeln, χ 2, beräknas enligt: χ 2 = f ij መf ij 2 Om nollhypotesen är sann så följer denna testvariabel en chi-två-fördelning med (r 1)*(c 1) frihetsgrader. Det kritiska värdet som testvariabeln ska jämföras med är: 2 χ α,(r 1)(c 1) Om testvariabeln är större än detta värde kan nollhypotesen förkastas. መf ij 17

Analys av korstabeller Chi-två-test, fördelning och begränsningar 0,16 0,14 Chi-två-fördelning df 5 15 0,12 Sannolikhet 0,10 0,08 0,06 0,04 0,02 0,00 0 10 20 X 30 40 Chi-två-test bör ej användas om mer än 20 % av de förväntade frekvenserna är mindre än 5, eller om någon av de förväntade frekvenserna är mindre än 1. 18

Analys av korstabeller Chi-två-test, exempel Man vill undersöka om en viss sorts padda hemmahörande i delstaten Queensland, Australien drabbas av inälvsparasiter i samma utsträckning i tre olika regioner i den nämnda delstaten. I varje region fångades 20 paddor in och dessa dissekerades för att undersöka om de drabbats av inälvsparasiter. Rockhampton Bowen Mackay Drabbad 12 7 14 Ej drabbad 8 13 6 19

Tack för idag! Nästa tillfälle: Föreläsning 6, måndag 19 mars, kl. 10-12, sal R43 20