Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Relevanta dokument
Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

2. Test av hypotes rörande medianen i en population.

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Parade och oparade test

F22, Icke-parametriska metoder.

a) Facit till räkneseminarium 3

Lektionsanteckningar 11-12: Normalfördelningen

F3 Introduktion Stickprov

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Regression

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Samplingfördelningar 1

, s a. , s b. personer från Alingsås och n b

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Hypotestestning och repetition

Föreläsning G60 Statistiska metoder

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning G60 Statistiska metoder

Föreläsning 5. Kapitel 6, sid Inferens om en population

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Statistik 1 för biologer, logopeder och psykologer

7.3.3 Nonparametric Mann-Whitney test

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

TENTAMEN I STATISTIKENS GRUNDER 2

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Medicinsk statistik II

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

F9 SAMPLINGFÖRDELNINGAR (NCT

8 Inferens om väntevärdet (och variansen) av en fördelning

TMS136. Föreläsning 13

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012


Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning G60 Statistiska metoder

FÖRELÄSNING 8:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Jämförelse av två populationer

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Hur man tolkar statistiska resultat

TENTAMEN I STATISTIKENS GRUNDER 2

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Gamla tentor (forts) ( x. x ) ) 2 x1

Statistik och epidemiologi T5

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 4: Konfidensintervall (forts.)

Stockholms Universitet Statistiska institutionen Termeh Shafie

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Laboration 2 Inferens S0005M VT18

Föreläsning 5: Hypotesprövningar

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

TMS136. Föreläsning 11

Uppgift a b c d e Vet inte Poäng

Introduktion och laboration : Minitab

TMS136. Föreläsning 7

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TAMS65 - Föreläsning 6 Hypotesprövning

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsningsanteckningar till kapitel 9, del 2

Laboration 4: Hypotesprövning och styrkefunktion

Medicinsk statistik II

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

MVE051/MSG Föreläsning 7

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen i Dataanalys och statistik för I den 28 okt 2015

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Hur skriver man statistikavsnittet i en ansökan?

4 Diskret stokastisk variabel

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Föreläsning 5 och 6.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Laboration 2: Statistisk hypotesprövning

Korrelation och autokorrelation

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

TAMS65 - Föreläsning 6 Hypotesprövning

Laboration 4 Statistiska test

Transkript:

Föreläsning 4 Statistik; teori och tillämpning i biologi 1

Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar (kap 24) o Binomialfördelning (kap 24.1) 2

Icke-parametriska test De metoder som diskuterats hittills bygger på att de observerade variablerna eller att fördelningen för deras medelvärden kan anses vara approximativt normalfördelade. Dessa metoder kallas parametriska. Men vad gör man om det ej går att anta normalfördelning? Då kan man använda sig av icke-parametriska test. Dessa test kallas även för fördelningsfria test, vilket kommer ifrån att de inte bygger på något antagande om normalfördelning. Dock måste stickproven vara slumpmässigt dragna och oberoende av varandra. 3

Icke-parametriska test Mann-Whitney Mann-Whitneys test används när man vill jämföra två oberoende stickprov. Hypoteserna formuleras lite annorlunda vid ickeparametriska test: H 0 : Det finns inga skillnader mellan population 1 och population 2 H a : Det finns skillnader mellan population 1 och population 2 Det går även att göra enkelsidiga test: H 0 : Det finns inga skillnader mellan population 1 och population 2 H a : Population 1 har högre värden än population 2 För att göra det enkelt för sig då man för testet ska leta upp kritiskt värde i tabell kan man välja population 1 och population 2 så att n 1 n 2. 4

Icke-parametriska test Mann-Whitney Det första som görs är att man rangordnar alla observationer från minsta till största värde. Minsta värdet får rangtal 1, näst minsta rangtal 2 och så vidare. Om två eller fler värden får samma rangtal kallas de för ties. Alla dessa värden får då samma rangtal, genom att man beräknar medelvärdet på de aktuella rangtalen. Därefter summeras alla rangtal för vardera stickprov, summan för grupp 1 kallas R 1 och för grupp 2 R 2. Vid dubbelsidigt test beräknas två testvariabler: (GB s. 171, BB s. 163) U = n 1 n 2 + n 1(n 1 + 1) R 2 1 U = n 1 n 2 + n 2(n 2 + 1) R 2 2 5

Icke-parametriska test Mann-Whitney Vid en dubbelsidig mothypotes jämförs det största värdet av U och U med det kritiska värdet U α 2,n1,n 2. H 0 förkastas när U eller U är större än det kritiska värdet. Vid enkelsidig mothypotes behövs bara en testvariabel beräknas, och vilken det är beror på hypotesformuleringen: (GB s. 174 (c), BB s. 166 (c)) H a : Population 1 har lägre värden än population 2 H a : Population 1 har högre värden än population 2 Testvariabel U U Kritiskt värde U α 1,n1,n 2 U α 1,n1,n 2 6

Icke-parametriska test Exempel Mann-Whitney Man vill undersöka om det är någon skillnad i hur snabbt palmplantor växer i lerig respektive sandig jord. De planteras och växer i sex veckor, sedan mäts deras höjd i centimeter. Lerig jord Sandig jord 24 22 41 6 17 11 38 15 31 4 a) Undersök på 5 % signifikansnivå om det är någon skillnad i växthastighet. b) Undersök på 1 % signifikansnivå om palmplantor växer snabbare i lerig jord. 13 7

Icke-parametriska test Wilcoxons test för parvisa observationer När man vill göra ett icke-parametriskt test för parvisa observationer används Wilcoxons test. Hypoteserna formuleras på samma sätt som för Mann-Whitneys test. Först beräknas differenserna för varje enhet, och sedan rangordnas de absoluta differenserna från minsta till största. Därefter summeras rangtalen för de negativa differenserna (T ) och de positiva differenserna (T + ) var för sig. Vid dubbelsidiga test förkastas H 0 om någon av dessa summor är mindre än T α 2 ;n, där n är antalet differenser som inte är 0. (GB s. 194, 196(1), BB s. 184, 186(1)) Enkelsidiga test kan också genomföras och beslutsregler för detta finns att läsa för Wilcoxons test i boken. 8

Icke-parametriska test Exempel: Wilcoxons test för parvisa observationer Normalfördelningen kan ifrågasättas gällande exemplet för sprinters prestationer på en okänd bana, speciellt med tanke på stickprovets storlek. Frågan om sprinters presterar bättre på en bana de känner till bör då utredas med hjälp av Wilcoxons test. Sprinter Dag 1 Dag 2 1 20,23 20,19 2 20,10 20,11 3 20,33 20,25 4 20,18 20,16 5 20,41 20,43 6 20,02 19,99 7 20,17 20,17 8 20,36 20,32 9 20,07 20,08 10 20,21 20,15 9

Transformationer Istället för att använda sig av icke-parametriska test kan man välja att transformera datamaterialet. Att transformera innebär att originalvärdena görs om till nya värden, som (teoretiskt) uppfyller normalfördelningskravet. Boken tar upp tre olika transformationer: 1. Logaritm-transformation 2. Kvadratrots-transformation 3. Arcsin-transformation 10

Transformationer Logaritm-transformationen När datamaterialet är skevt fördelat kan logaritmtransformationen användas. Det spelar ingen roll om den naturliga logaritmen eller 10-logaritmen används. På grund av att log 0 = och att log( X) ej är definierat får datamaterialet ej innehålla 0 eller negativa värden. Men, om datamaterialet innehåller en relativt stor del små värden och eventuellt nollor kan X transformeras enligt: (GB s. 304, BB s. 288) X = log (X + 1) 11

Frekvens Transformationer Exempel logaritm-transformationen 180 Histogram över totalfosfor (μg/l) 160 140 120 100 80 60 40 20 0 10 20 30 40 50 Totalfosfor (μg/l) 60 70 12

Transformationer Exempel logaritm-transformationen 13

Transformationer Exempel logaritm-transformationen Beräknat medelvärde och konfidensintervall för de transformerade värdena från Minitab: Variable N Mean 95% CI C2 1641 3,17554 (3,15763; 3,19346) För att kunna tolka dessa värden måste de antilogaritmeras! Och om log (X + 1) har använts måste 1 subtraheras från dessa antilogaritmerade värden. 14

Transformationer Kvadratrots- och arcsintransformation Kvadratrotstransformation används när variansen är proportionell mot medelvärdet, dvs. när medelvärdet ökar så ökar variansen. Transformationen sker enligt: (GB s. 307, BB s. 291) X = X + 0,5 Arcsintransformation används framförallt för binomialfördelade datamaterial. Denna fördelning kommer vi att diskutera nu. 15

Andelar (proportioner) En andel (proportion) betecknas med p och är en del av en population med en viss egenskap. Andelen som ej har denna egenskap betecknas med q = 1 - p. Angående andelar kommer vi diskutera hur man kan: Beräkna sannolikheter utifrån andelar Använda hypotesprövning och konfidensintervall för en andel Använda hypotesprövning och konfidensintervall för att jämföra två andelar Använda olika approximationer vid beräkningar av andelar 16

Sannolikhet (%) Binomialfördelningen Binomialfördelningen är enklast att beskriva med ett exempel. Antag att 30 % av invånarna i Sverige är blåögda. Ett obundet slumpmässigt urval om 10 personer dras. Vi definierar variabeln X = antal blåögda personer i stickprovet. Denna variabel X blir binomialfördelad enligt bin(n=10, p=0.3). 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 Antalet blåögda personer i stickprovet 9 10 17

Binomialfördelningen För att beräkna sannolikheter för ett visst antal i stickprovet används formeln: (GB s. 556, BB s. 520) P X = n X px q n X n! = X! n X! px q (n X) Beräkna för stickprovet bestående av 10 stycken slumpmässigt valda svenska invånare: a) Sannolikheten att exakt två personer i stickprovet är blåögda b) Sannolikheten att två personer eller färre i stickprovet är blåögda 18

Binomialfördelningen Poissonfördelning och normalapproximation När p är väldigt litet och n är väldigt stort bör Poissonfördelningen användas. Denna fördelning diskuteras ej i kursen, men den finns förklarad i kapitel 25. När vi senare kommer att genomföra hypotesprövning och konfidensintervall för andelar kommer normal-approximation att användas. Detta är dock inte helt perfekt: Inte bra när p är nära 0 eller 1. Inte bra när n är litet. Författaren föreslår som regel att p 0 n och q 0 n ska vara minst 5 för att normalapproximation ska kunna användas. 19

Tack för idag! Nästa tillfälle: Lektion 2, tisdag 16 feb, kl. 10-12, sal U10 20