Statistik 1 för biologer, logopeder och psykologer

Relevanta dokument

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Statistik 1 för biologer, logopeder och psykologer

Statistisk försöksplanering

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Uppgift 1. Produktmomentkorrelationskoefficienten

Statistik 1 för biologer, logopeder och psykologer

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Statistisk försöksplanering

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

Analys av proportioner

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F22, Icke-parametriska metoder.

Analys av korstabeller

Elementa om Variansanalys

, s a. , s b. personer från Alingsås och n b

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsning 11: Mer om jämförelser och inferens

7.5 Experiment with a single factor having more than two levels

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Lektionsanteckningar 11-12: Normalfördelningen

4 Diskret stokastisk variabel

Studietyper, inferens och konfidensintervall

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

1 Grundläggande begrepp vid hypotestestning

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

F3 Introduktion Stickprov

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Föreläsning G60 Statistiska metoder

F9 SAMPLINGFÖRDELNINGAR (NCT

TMS136. Föreläsning 13

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

FÖRELÄSNING 8:

Statistik 1 för biologer, logopeder och psykologer

SF1901 Sannolikhetsteori och statistik I

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Studiedesign: Observationsstudier

Statistisk analys av komplexa data

Föreläsning 5. Kapitel 6, sid Inferens om en population

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

MSG830 Statistisk analys och experimentplanering

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Jämförelse av två populationer

OBS! Vi har nya rutiner.

Stockholms Universitet Statistiska institutionen Termeh Shafie

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Hur skriver man statistikavsnittet i en ansökan?

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Regression

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 7: Punktskattningar

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

OBS! Vi har nya rutiner.

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Statistik för teknologer, 5 poäng Skrivtid:

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Uppgift 1. f(x) = 2x om 0 x 1

Hypotestestning och repetition

ANOVA Mellangruppsdesign

Föreläsning 7: Punktskattningar

2. Test av hypotes rörande medianen i en population.

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i matematisk statistik

Att välja statistisk metod

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Hur man tolkar statistiska resultat

Föreläsning G70 Statistik A

TENTAMEN I STATISTIKENS GRUNDER 2

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Tentamen i Matematisk statistik Kurskod S0001M

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Omtentamen i Metod C-kurs

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

OBS! Vi har nya rutiner.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Transkript:

Innehåll 1 Analys av korstabeller 2

Innehåll 1 Analys av korstabeller 2

Korstabeller Vi har tidigare under kursen redan bekantat oss med korstabeller. I en korstabell redovisar man fördelningen på två eller ere, vanligen kvalitativa variabler. Också om man har att göra med i princip kvantitativa variabler kan det ibland vara skäl att övergå till att studera enbart fördelningen på olika klasser.

Korstabeller Exempel på en korstabell: Rökvanor Socioekonomisk status Summa Hög Medel Låg Röker 51 22 43 116 Rökt tidigare 92 21 28 141 Aldrig rökt 68 9 22 99 Summa 211 52 93 356

Test av oberoende med χ 2 -test Ett liknande χ 2 -test som användes för test av fördelning kan även användas för att testa oberoende av två korstabulerade variabler. Värdet på testvariabeln beräknas enligt formeln χ 2 = k l i=1 j=1 (O ij E ij ) 2 E ij, där O ij = observerad cellfrekvens och E ij = förväntad cellfrekvens under antagande att H 0 är sann. Summeringen sker över de k raderna och l kolumnerna i korstabellen. Då H 0 är sann, följer testvariabeln en χ 2 -fördelning med frihetsgraderna df = (k 1)(l 1). H 0 förkastas enligt samma principer som i det tidigare introducerade χ 2 -testet.

Test av oberoende med χ 2 -test Hypoteserna i ett χ 2 -oberoendetest är H 0 : Inget samband, dvs. variablerna oberoende av varandra. H 1 : Det nns ett samband. Vi låter p ij beteckna sannolikheten för att en observation tillhör en viss cell i korstabellen. Om variablerna är oberoende blir sannolikheten för att en observation tillhör en viss cell p ij = P(observationen tillhör rad i och kolumn j) = P(observationen tillhör rad i) P(observationen tillhör kolumn j). De förväntade cellfrekvenserna räknas alltså E ij = (summan av rad i) (summan av kolumn j) n.

Test av oberoende med χ 2 -test exempel Exempel. För att undersöka eekten av ett nytt vaccin på en sjukdom ges 70 frivilliga försökspersoner vaccinet. I undersökningen ingår även en lika stor kontrollgrupp. De sammanlagt 140 personerna följs upp under en viss tid och man erhåller följande resultat: Har insjuknat Har ej insjuknat Tot. Har vaccinerats 20 50 70 Har ej vaccinerats 40 30 70 Tot. 60 80 140 Följande hypoteser formuleras: H 0 : Vaccinet har ingen eekt. H 1 : Vaccinet förebygger sjukdomen.

Test av oberoende med χ 2 -test exempel (forts.) Exempel. Om vaccin och sjukdom är oberoende skulle vi förvänta oss följande: Har insjuknat Har ej insjuknat Tot. Har vaccinerats 70 60 = 30 70 80 = 40 70 140 140 Har ej vaccinerats 70 60 = 30 70 80 = 40 70 140 140 Tot. 60 80 140 Från de två korstabellerna räknar vi sedan värdet på testvariablen (20 χ 2 30)2 (40 30)2 (50 40)2 (30 40)2 = + + + 30 30 40 40 = 11.7. Med signikansnivån α = 0.01 och frihetsgraderna df = (2 1)(2 1) = 1 förkastar vi H 0 eftersom χ 2 = 11.7 > χ 2 α = 6.635.

Vidare om korstabeller: betingat oberoende och Simpson's paradox Två variabler som till synes verkar beroende kan vara oberoende om man tar hänsyn till en tredje variabel. Detta kallas betingat oberoende. I följande introduktion till analys av korstabeller behandlas även betingat oberoende: http://web.abo.fi/fak/mnf/mate/kurser/statistik1/ AnalysAvKorstabeller.pdf. Texten tar även upp det sk. Simpson's paradoxet. För denition och era exempel, se http://en.wikipedia.org/wiki/simpson's_paradox. Allmänt om betingat oberoende: http://web.abo.fi/fak/mnf/mate/kurser/statistik1/ MarginelltBetingat.pdf

Oddskvot Ett mått som ibland används för att beskriva graden av ett samband mellan två korstabulerade dikotoma (=av typen ja/nej) variabler är oddskvoten (förkortas ofta OR från odds ratio). Vi denierar först oddset för händelsen A: P(A inträar) P(A inträar ej) = P(A) P(A c ) = P(A) 1 P(A). Om det är lika sannolikt att händelsen A inträar som att den inte inträar får oddset värdet 1. Odds kan även beräknas för betingade sannolikheter. T.ex. räknas oddset för att insjukna i ev viss sjukdom givet att man har vaccinerats: P(Sjuk Har vaccinerats) P(Ej sjuk Har vaccinerats) = P(Sjuk Har vaccinerats) 1 P(Sjuk Har vaccinerats).

Oddskvot Oddskvoten denieras som kvoten mellan två odds Vi kan då t.ex. räkna OR = P(Sjuk Har vaccinerats) P(Ej sjuk Har vaccinerats) P(Sjuk Har ej vaccinerats) P(Ej sjuk Har ej vaccinerats), vilket talar om för oss hur stort oddset för att insjukna är då man blivit vaccinerad i förhållande till motsvarande odds då man ej blivit vaccinerad. Resultatet tolkas på följande sätt OR < 1: vaccinering minskar oddset för att insjukna OR = 1: vaccinering påverkar inte oddset för att insjukna OR > 1: vaccinering ökar oddset för att insjukna.

Oddskvot och relativ risk Ett mått som är ganska likt oddskvoten är den sk. relativa risken (förkortas ofta RR), vilken i fallet ovan räknas som RR = För små värden är OR RR. P(Sjuk Har vaccinerats) P(Sjuk Har ej vaccinerats). Fastän RR är något enklare och mera intuitiv än OR är den senare ofta mera användbar i statistiska analyser. Mera om oddskvoten och dess egenskaper: http://www.pubmedcentral.nih.gov/articlerender. fcgi?artid=1127651

Innehåll 1 Analys av korstabeller 2

Variansanalys Vi har tidigare i form av ett t-test bekantat oss med jämförelse av väntevärden från två normalfördelade populationer med lika standardavvikelse. Variansanalys (förkortas ofta ANOVA från analysis of variance) är en generalisering av det ovannämnda testet för två eller era väntevärden. Namnet kan te sig något vilseledande då det ju är väntevärden man testar. Det har dock sitt ursprung i att den sk. F -testvariabeln som metoden bygger på kan tolkas som en kvot av varianser bildade på två olika sätt.

Variansanalys I variansanalys antar vi alltså att vi har k oberoende (möjligtvis olika stora) stickprov från lika många normalfördelade populationer med lika standardavvikelse, dvs. σ 1 = σ 2 =... = σ k = σ. Hypoteserna kan formuleras på följande sätt: H 0 : µ 1 = µ 2 =... = µ k H 1 : Åtminstone ett av väntevärdena skiljer sig från de andra. F -testvariablen är en kvot av spridningen mellan och spridningen inom de k grupperna. Om H 0 är sann följer variabeln en F -fördelning med frihetsgraderna df = (k 1, n k), där n är det totala antalet observationer. H 0 förkastas på signikansnivån α om testvariabelns värde överskrider det kritiska värdet f α i en F -fördelning med frihetsgraderna (k 1, n k).

Variansanalys exempel Exempel. Vi har fyra stickprov från normalt fördelade populationer. Av tabellen nedan framgår storleken, medelvärdet och variansen för respektive stickprov: n i 7 5 6 6 x i 2.4 3.3 3.4 2.6 s 2 i 0.25 0.34 0.10 0.05 Enligt H 0 har alla populationer samma väntevärde. Om det nu visar sig att spridningen mellan stickproven är stor jämfört med spridningen inom stickproven har vi orsak att tro att H 0 är falsk. Spridningen mellan stickproven är 1.53 medan den genomsnittliga spridningen inom stickproven är 0.18 (vi hoppar här över uträkningarna). F -testvariabeln får då värdet 1.53/0.18 = 8.66. Det kritiska värdet för en F -fördelning med frihetsgraderna (4 1, 24 4) på signikansnivån α = 0.05 är 3.10. Eftersom 8.66 > 3.10 förkastar vi H 0.

Experimentella försök Variansanalysen är en metod som primärt utvecklats för att analysera resultat av experimentella försök. I ett typiskt experimentellt försök jämför man eekten av olika behandlingar, vilket här ska uppfattas som en allmän benämning på något som man utsätter försöksenheter för. Till skillnad från ett icke-experimentellt försök kan man i ett experimentellt försök påverka vilka enheter som får vilken behandling. Ett väl utfört experimentellt försök medger säkrare slutsatser än ett icke-experimentellt försök.

Exempel på experimentella försök Exempel. För att jämföra två medicinska preparat A och B ger en läkare det ena till en patientgrupp och det andra till en annan patientgrupp och jämför resultaten. Ett företag överväger att ersätta nuvarande tillverkningsmetod A med en ny metod B. För att undersöka om den nya metoden är bättre än den gamla tillverkar man ett antal enheter enligt vardera metoden och jämför resultatet. För att jämföra tre olika undervisningsmetoder delas eleverna i en årskurs i början av terminen slumpmässigt in i tre grupper. I slutet av terminen jämför man den genomsnittliga utvecklingen bland eleverna i de tre grupperna.

Flervägs variansanalys Den typ av variansanalys vi ovan har diskuterat kallas för envägs variansanalys eftersom indelningen i grupper sker enligt en typ av behandling (t.ex. medicinskt preparat, tillverkningsmetod, undervisningsmetod... ). Analyserar man kombinationer av era typers behadlingar använder man sk. ervägs variansanalys. Mera om variansanalys, se http://en.wikipedia.org/wiki/analysis_of_variance

Försöksplanering Med försöksplanering strävar man efter att kontrollera eekten av faktorer som kan påverka tillförlitligheten av statistiska analyser i samband med ett experimentellt försök. Några för försöksplanering centrala begrepp och tekniker är: Randomisering, dvs. slumpmässig allokering av försöksenheter i olika behandlingsgrupper för att minska på inverkan av okända systematiska fel på slutsatserna. Replikering, vilket betyder att man gör upprepade mätningar av samma enhet för att få en uppfattning av mätfelet. Indelning av liknande enheter i block för uppnå bättre precision ifall det nns stor variation bland enheterna.

Försöksplaner Analys av korstabeller Ett par vanliga försöksplaner är: Fullständigt randomiserat experiment (CRD, Completely Randomized Design), se t.ex. http://courses.ncssm.edu/math/stat_inst/pdfs/ RanDesgn.pdf Randomiserat blockexperiment (RBD, Randomized Block Design), se t.ex. http: //en.wikipedia.org/wiki/randomized_block_design