Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Relevanta dokument
Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1901 Sannolikhetsteori och statistik I

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

2. Test av hypotes rörande medianen i en population.

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsningsanteckningar till kapitel 9, del 2

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

F3 Introduktion Stickprov

Föreläsning G60 Statistiska metoder

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

TMS136. Föreläsning 11

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

FACIT (korrekta svar i röd fetstil)

Laboration 3 Inferens fo r andelar och korstabeller

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Hur man tolkar statistiska resultat

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 5: Hypotesprövningar

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

, s a. , s b. personer från Alingsås och n b

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

FÖRELÄSNING 8:

Stockholms Universitet Statistiska institutionen Termeh Shafie

Avd. Matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik KTH. Formelsamling i matematisk statistik

Stockholms Universitet Statistiska institutionen Termeh Shafie

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Kapitel 10 Hypotesprövning

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Statistik 1 för biologer, logopeder och psykologer

Avd. Matematisk statistik

Parade och oparade test

F22, Icke-parametriska metoder.

Statistik 1 för biologer, logopeder och psykologer

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Studietyper, inferens och konfidensintervall

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

TENTAMEN I STATISTIKENS GRUNDER 2

Medicinsk statistik II


Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

a) Facit till räkneseminarium 3

Korrelation och autokorrelation

F9 SAMPLINGFÖRDELNINGAR (NCT

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Föreläsning 12, FMSF45 Hypotesprövning

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Föreläsning G60 Statistiska metoder

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lektionsanteckningar 11-12: Normalfördelningen

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

TMS136: Dataanalys och statistik Tentamen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Uppgift 1. Produktmomentkorrelationskoefficienten

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

TMS136. Föreläsning 13

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

4 Diskret stokastisk variabel

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Föreläsning G60 Statistiska metoder

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

732G01/732G40 Grundläggande statistik (7.5hp)

Avd. Matematisk statistik

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Samplingfördelningar 1

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Transkript:

Föreläsning 5 Statistik; teori och tillämpning i biologi 1

Dagens föreläsning o Andelar (kap 24) o Binomialfördelning (kap 24.1) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test och konfidensintervall för två andelar (kap 24.10, 24.11) o Analys av korstabeller (kap 23.0 23.1) 2

Andelar (proportioner) En andel (proportion) betecknas med p och är en del av en population med en viss egenskap. Andelen som ej har denna egenskap betecknas med q = 1 - p. Angående andelar kommer vi diskutera hur man kan: Beräkna sannolikheter utifrån andelar Använda olika approximationer vid beräkningar av andelar Använda hypotesprövning och konfidensintervall för en andel Använda hypotesprövning och konfidensintervall för att jämföra två andelar 3

Binomialfördelningen Binomialfördelningen är enklast att beskriva med ett exempel. Antag att 30 % av invånarna i Sverige är blåögda. Ett obundet slumpmässigt urval om 10 personer dras. Vi definierar variabeln X = antal blåögda personer i stickprovet. Denna variabel X blir binomialfördelad enligt bin(n=10, p=0.3). 30 25 Sannolikhet (%) 20 15 10 5 0 0 1 2 3 4 5 6 7 8 Antalet blåögda personer i stickprovet 9 10 4

Binomialfördelningen För att beräkna sannolikheter för ett visst antal i stickprovet används formeln: (GB s. 556, BB s. 520) P X = n X px q n X n! = X! n X! px q (n X) Beräkna för stickprovet bestående av 10 stycken slumpmässigt valda svenska invånare: a) Sannolikheten att exakt två personer i stickprovet är blåögda b) Sannolikheten att två personer eller färre i stickprovet är blåögda 5

Binomialfördelningen Poissonfördelning och normalapproximation När p är väldigt litet och n är väldigt stort bör Poissonfördelningen användas. Denna fördelning diskuteras ej i kursen, men den finns förklarad i kapitel 25. När vi senare kommer att genomföra hypotesprövning och konfidensintervall för andelar kommer normal-approximation att användas. Detta är dock inte helt perfekt: Inte bra när p är nära 0 eller 1. Inte bra när n är litet. Författaren föreslår som regel att p 0 n och q 0 n ska vara minst 5 för att normalapproximation ska kunna användas. 6

Andel för en population Hypotesprövning De två första stegen i hypotesprövning för populationsandel är samma som för populationsmedelvärde. 1. Formulera hypoteser 2. Bestämma signifikansnivå Hypoteserna formuleras enligt: (GB s. 570-573(c), BB s. 534-537) H 0 : p = p o H a : p p o H a : p > p o H a : p < p o Signifikansnivån (α) sätts vanligtvis till 0.10, 0.05 eller 0.01. 7

Andel för en population Hypotesprövning När man ska utreda om H 0 kan förkastas eller ej kan tre olika tekniker användas: Jämföra X med ett kritiskt värde ur tabell Beräkna en testvariabel Z (normalapproximation) Undersöka om p 0 ingår i ett konfidensintervall När n är litet är det även relativt lätt att beräkna p-värdet exakt med hjälp av binomialfördelningen. 8

Andel för en population Hypotesprövning, normalapproximation När normalfördelningsapproximation används beräknas en testvariabel Z: (GB s. 570(c), BB s. 534(c)) Z = X np 0 = p p 0 np 0 q 0 p 0 q 0 Τn Utifrån denna testvariabel bestäms p-värdet, eller så jämförs testvariabeln med ett kritiskt värde ur normalfördelningstabell. Kom ihåg: H 0 förkastas när p-värdet är mindre än signifikansnivån (α) 9

Andel för en population Exempel hypotesprövning Man vill undersöka om schimpanser föredrar att använda någon hand framför den andra. 40 schimpanser har studerats, och man har observerat vilken hand de använder i störst utsträckning. 31 av schimpanserna använde högerhanden mest, medan 9 av schimpanserna använde vänsterhanden mest. Utred utifrån ovanstående information om: a) En majoritet av schimpanserna föredrar någon hand framför den andra b) En majoritet av schimpanserna föredrar högerhanden framför vänsterhanden I båda fallen ska 5 % signifikansnivå användas. 10

Andel för en population Konfidensintervall Vad var nu ett konfidensintervall? Jo, med hjälp av ett konfidensintervall kan man med en viss säkerhet (90, 95, 99 %) säga att den sanna populationsparametern (i detta fall populationsandelen p) finns inom konfidensintervallet. Boken listar tre olika varianter på konfidensintervall: Clopper-Pearson-intervall Wald-intervall (normalapproximation) Justerat Wald-intervall Det mest frekvent använda är Wald-intervallet, som bygger på en normalapproximation av binomialfördelningen. 11

Andel för en population Konfidensintervall, Wald Ett dubbelsidigt konfidensintervall med konfidensnivån 1-α beräknas enligt: (GB s. 579(b), BB s. 543(b)) p Ƹ ± z α(2) p q Ƹ n Det går som vanligt att beräkna nedåt eller uppåt begränsade intervall. Som sagt bör denna metod ej användas när n är litet och pƹ är nära 0 eller 1. Exempel Beräkna ett 95 % dubbelsidigt konfidensintervall för andelen av schimpanserna som föredrar att använda vänsterhanden. 12

Ƹ Ƹ Jämföra två andelar Hypotesprövning (GB s. 585-586, BB s. 549-550) Vid jämförelse av två andelar tar boken enbart upp hypotesprövning som bygger på normalapproximation. Hypoteserna formuleras enligt: H 0 : p 1 p 2 = p 0 p 1 = p 2 ( p 0 = 0) H a : p 1 p 2 p 0 p 1 p 2 Testvariabeln beräknas enligt: Z = p 1 pƹ 2 p 0 p 1 pƹ 2 pതq ҧ + pതq ҧ = pതq ҧ + pതq ҧ n 1 n 2 n 1 n 2 där p ҧ = X 1 + X 2 = n 1pƸ 1 + n 2 pƹ 2 n 1 + n 2 n 1 + n 2 13

Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger, likt hypotesprövningen, på normalapproximationen av binomialfördelningen. Intervallet beräknas enligt: pƹ 1 pƹ 2 ± z α 2 pƹ 1 q 1 n 1 + pƹ 2 q 2 n 2 Med hjälp av ett exempel på nästkommande sida ska hypotesprövning och konfidensintervall för att jämföra två andelar beskrivas. 14

Jämföra två andelar Konfidensintervall och hypotesprövning, exempel Mugg är en vanlig hudinflammation på hästar. En teori är att islandshästar drabbas oftare av mugg än svenska halvblod. 30 islandshästar och 28 svenska halvblod observerades under en och samma tidsperiod, där 12 islandshästar samt 5 svenska halvblod drabbades av mugg. Utifrån ovanstående siffror, utred om islandshästar drabbas av mugg i större uträckning än svenska halvblod. Använd 5 % signifikansnivå. 15

Analys av korstabeller (GB s. 524-528, BB s. 490-494) En korstabell består av ett visst antal rader (r) och ett visst antal kolumner (c) och därmed r*c celler. f ij anger frekvensen (antalet) i en viss cell. Radsummorna betecknas R i och är summan av frekvenserna på rad i. Kolumnsummorna betecknas C j. Faktor B Faktor A 1 2 c Summa 1 f 11 f 12 f 1c R 1 2 f 21 f 22 f 2c R 2 r f r1 f r2 f rc R r Summa C 1 C 2 C c 16

Analys av korstabeller Korstabeller används för att presentera data på nominalskala, vilket var olika attribut den observerade enheten kan ha. Faktor A och faktor B kan då t.ex. vara kön respektive hårfärg. Vid analys av korstabeller kan man undersöka två olika saker: Är faktor A och B oberoende av varandra? (oberoendetest) Fördelar sig faktor A homogent över de olika nivåerna på faktor B? (homogenitetstest) Vid homogenitetstest bestäms en viss urvalsstorlek för de olika nivåerna på faktor B, men vid oberoendetest bestäms ingen urvalsstorlek för varken faktor A eller B. 17

Analys av korstabeller Chi-två-test För att utreda de två olika frågeställningarna som formulerades innan används chi-två-test (χ 2 -test). Det liknar hypotesprövning, men består av fem steg: 1. Formulera hypoteser 2. Bestäm signifikansnivå 3. Beräkna förväntade frekvenser enligt nollhypotesen 4. Beräkna testvariabel 5. Jämför med kritiskt värde ur tabell B.1 Chi-två-test förutsätter att samma urvalsenhet bara får förekomma i en cell i tabellen. 18

Analys av korstabeller Chi-två-test, formulera hypoteser Vid chi-två-test formuleras hypoteserna i ord och enbart dubbelsidiga test kan genomföras. Oberoendetest: H 0 : Faktor A och faktor B är oberoende H a : Faktor A och faktor B är beroende Homogenitetstest: H 0 : Faktor A fördelar sig homogent över de olika nivåerna på faktor B H a : Faktor fördelar sig inte homogent över de olika nivåerna på faktor B 19

Analys av korstabeller Chi-två-test, beräkna förväntade värden Tredje steget i ett chi-två-test är att beräkna förväntade frekvenser ( መf ij ) i de olika cellerna baserat på antagandet att nollhypotesen (H 0 ) är sann. Dessa förväntade värden beräknas enligt: መf ij = R i n C j n n = R i C j n De förväntade frekvenserna är alltså antalet urvalsenheter som borde tillhöra cellen ij om nollhypotesen är sann. 20

Analys av korstabeller Chi-två-test, testvariabel och kritiskt värde Testvariabeln, χ 2, beräknas enligt: χ 2 = f ij መf ij 2 Om nollhypotesen är sann så följer denna testvariabel en chi-två-fördelning med (r 1)*(c 1) frihetsgrader. Det kritiska värdet som testvariabeln ska jämföras med är: 2 χ α,(r 1)(c 1) Om testvariabeln är större än detta värde kan nollhypotesen förkastas. መf ij 21

Analys av korstabeller Chi-två-test, fördelning och begränsningar 0,16 0,14 Chi-två-fördelning df 5 15 0,12 Sannolikhet 0,10 0,08 0,06 0,04 0,02 0,00 0 10 20 X 30 40 Chi-två-test bör ej användas om mer än 20 % av de förväntade frekvenserna är mindre än 5, eller om någon av de förväntade frekvenserna är mindre än 1. 22

Analys av korstabeller Chi-två-test, exempel Man vill undersöka om en viss sorts padda hemmahörande i delstaten Queensland, Australien drabbas av inälvsparasiter i samma utsträckning i tre olika regioner i den nämnda delstaten. I varje region fångades 20 paddor in och dessa dissekerades för att undersöka om de drabbats av inälvsparasiter. Rockhampton Bowen Mackay Drabbad 12 7 14 Ej drabbad 8 13 6 23

Tack för idag! Nästa tillfälle: Föreläsning 6, måndag 20 mars, kl. 10-12, sal U11 24