1. Anpassningstest. Chi-Square test. Multinomial experiment. Multinomial experiment. Vad gör g r ett anpassningstest?

Relevanta dokument
Variansanalys ANOVA. Idé. Experiment med flera populationer. Beteckningar. Beteckningar. ANOVA - ANalysis

Kontingenstabell (Korstabell) 2. Oberoende-test. Stickprov beror av slumpen. Vad vi förvf. är r oberoende: kriterier är r oberoende: kriterier

F13. Förra gången (F12) Konfidensintervall och hypotesprövning Chi-tvåtest. Stratifierat urval

Test av anpassning, homogenitet och oberoende med χ 2 - metod

Spelschema för årets fotbollsmästerskap! island tyskland Söndag 14/7 Växjö Arena, Växjö. Söndag 14/7 Kalmar Arena, Kalmar

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

Slumpvariabler (Stokastiska variabler)

Veckoblad 2. Kapitel 2 i Matematisk statistik, Blomqvist U.

Centrala Gränsvärdessatsen:

a) B är oberoende av A. (1p) b) P (A B) = 1 2. (1p) c) P (A B) = 1 och P (A B) = 1 6. (1p) Lösningar: = P (A) P (A B) = 1

ENKEL LINJÄR REGRESSION

Tentamen i Dataanalys och statistik för I den 5 jan 2016

Flode. I figuren har vi också lagt in en rät linje som någorlunda väl bör spegla den nedåtgående tendensen i medelhastighet för ökande flöden.

Vinst (k) Sannolikhet ( )

Thomas Macks beräkning av standardfelet för reservavsättningar

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Partikeldynamik. Fjädervåg. Balansvåg. Dynamik är läran om rörelsers orsak.

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?


732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

Dödlighetsundersökningar på KPA:s

SVÅRT UTAN SNARARE OMÖJLIGT - PA DET STADIUM., SOM PROJEKTET F N BEFINNER SIG.

När vi räknade ut regressionsekvationen sa vi att denna beskriver förhållandet mellan flera variabler. Man försöker hitta det bästa möjliga sättet

ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 )

Föreläsning G70 Statistik A

Experimentella metoder 2014, Räkneövning 5

Statistisk analys av en genetisk studie av typ 2 diabetes

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Lösningar till SPSS-övning: Analytisk statistik

Trafikljus stresstest för försäkrings- och driftskostnadsrisker inom livförsäkring

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Innehåll: har missbrukat jämfört med om man inte har. missbrukat. Risk 1 Odds Risk. Odds 1 Risk. Odds

Beräkna standardavvikelser för efterfrågevariationer

Sommarschema Vecka 24. Måndag 10/6 Tisdag 11/6 Onsdag 12/6 Torsdag 13/6 Fredag 14/6 Lördag 15/6 Söndag16/

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Tentan består av 10 frågor, totalt 30 poäng. Det krävs 20 poäng för att få godkänt på tentan, varav 50 % inom respektive moment.

Partikeldynamik. Dynamik är läran om rörelsers orsak.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

Modellering av antal resor och destinationsval

Hardy-Weinberg jämnvikt Processer som minskar genetisk variation: Inavel Genetisk drift

Västerås PROGRAMTABLÅ vecka 46 för ÖPPNA KANALEN VÄSTERÅS

DEL I. Matematiska Institutionen KTH

Primär- och sekundärdata. Undersökningsmetodik. Olika slag av undersökningar. Beskrivande forts. Beskrivande forts

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Utbildningsavkastning i Sverige

4B Karlskrona Kristianstad Malmö Köpenhamn

TAMS65 - Föreläsning 12 Test av fördelning

Vecka:1 Måndag Tisdag Onsdag Torsdag Fredag Lördag Söndag. Info: Färgade block - Bokade aktiviteter Fria block - Lediga tider för självträning

OBS! Vi har nya rutiner.

Mätfelsbehandling. Lars Engström

28 28S Stockholms östra Österskär

Övervakad inlärning Översikt. Exempel. Återblick. Testning av nätet. Styrning av aktivering i nätet

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Arbetslivsinriktad rehabilitering för sjukskrivna arbetslösa funkar det?

FORMELSAMLING HT-15 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02. Sannolikhetsteori. Beskrivning av data

FK2002,FK2004. Föreläsning 5

10% Ps. Fråga Anna i butiken om våra varor. Hon rider själv och vet allt om vad häst och ryttare behöver. ...

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Del A Begrepp och grundläggande förståelse.

Uppgift 1. Produktmomentkorrelationskoefficienten

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Tillämpningar av dekomposition: Flervaruflödesproblemet. Flervaruflödesproblemet: Lagrangeheuristik

Trafikljus utvidgat med stresstest för försäkrings- och driftskostnadsrisker inom livförsäkring

FÖRELÄSNING 8:

Upphandlingsbarometern

FÖRDJUPNINGS-PM. Nr Kommunalt finansierad sysselsättning och arbetade timmar i privat sektor. Av Jenny von Greiff

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Gamla tentor (forts) ( x. x ) ) 2 x1

IN1 Projector. Snabbstart och referenshandbok

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

SKOLVIS LISTA ÖVER TURER. Sida 1 av 5

22 Tvärbanan Alvik Sickla udde

Metod och teori. Statistik för naturvetare Umeå universitet

SCHEMA Period: v9 Utskriftsdatum:

SOPA62 - Kunskapsproduktion i socialt arbete

Beställningsintervall i periodbeställningssystem

Effekter av kön, ålder och region på sjukpenningen i Sverige

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Du lilla Jesusbarn. œ œ œ œ. œ œ œ œ œ œ w. œ œ œ œ œ œ œ. . œ œ œ œ œ œ ? 4. œ œ. j œ œ œ. œ œ. œ œ œ. œ. œ. œ J. œ œ œ. q = 74

Sensorer, effektorer och fysik. Analys av mätdata

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Förstärkare Ingångsresistans Utgångsresistans Spänningsförstärkare, v v Transadmittansförstärkare, i v Transimpedansförstärkare, v i

Attitudes Toward Caring for Patients Feeling Meaninglessness Scale

Uppdaterad :

HÖGSKOLAN I BORÅS. FORSKNINGSMETODER I OFFENTLIG FÖRVALTNING 15 Högskolepoäng

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

på fråga 6 i tävlingen för matematiklärare. 'l.

Lösningsförslag till tentamen i 732G71 Statistik B,

Introduktion Online Rapport Din steg-för-steg guide till den nya Online Rapporten (OLR) Online Rapport

Fördelning av kvarlåtenskap vid arvsskifte

Väntevärde för stokastiska variabler (Blom Kapitel 6 och 7)

7.5 Experiment with a single factor having more than two levels

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Performansanalys LHS/Tvåspråkighet och andraspråksinlärning Madeleine Midenstrand

Observera! Ytterligare avgångar mot Djurgården med linje 7N Norrmalmstorg Skansen.(ej måndagar)

Transkript:

Ch-Square test 1. Anpassnngstest 1. Anpassnngstest (Goodness of Ft). Oberoendetest (Independence Test) uwe.menzel@genpat.uu.se Vad gör g r ett anpassnngstest? Hur bra passar en statsts modell tll observerade data? (är modellen bra?) Följer observatonerna en förmodad fördelnng? 1. Är mna data normalfördelade?: Kolmogorov Smrnov test (Mntab) Shapro Wl test Anderson Darlng test.... Multnomal experment: Får jag resultat som jag förväntar mg enlgt mn modell?: Pearson's ch-square test, Goodness of Ft test Multnomal experment Modell: rättvs tärnng, dvs. p =1/6 xperment: astar tärnngen 1 (=n) gånger 1 3 4 5 6 expected =p n observed 1 16 8 4 19 1 Med detta resultat handen: Kan jag fortfaranda tro att mn modell (rättvs tärnng) stämmer?... eller måste jag förasta denna (noll)hypotes? Summan över råden måste vara 1 en restrton Multnomal experment n testvarabel som mäter sllnaden Om resultatet hade vart som tabellen nedan hade jag väl förastad nollhypotesen (rättvs tärnng)... 1 3 4 5 6 expected =p n observed 3 1 1 113 o = 1 Var går gränsen? Vlet värde får sllnaden mellan observed och expected maxmalt ha för att bbehålla H? (Hur mäts sllnaden överhuvudtaget?) v behöver en fördelnng för sllnaden, dvs. sannolheten att en vss sllnad uppstår! Om denna sannolhet är lten, förastar v H. 1 observed values O expected values Fördelnngen av denna testvarabel an ränas ut, gvet att nollhypotesen gäller (och att n är stor) Ch-Square fördelnngen ( ) OBS: Testvarabeln är -fördelad och allas ofta ocså

mäter sllnaden tll nollhypotesen Pearson's ch-square test 1 3 4 5 6 1 3 4 5 6 Fördelnngen för testvarabeln är änd under H v an räna ut hur sannolt varje värde av testvarabeln är. V förastar nollhypotesen (dvs. modellen) om var observaton leder tll ett -värde som är mycet osannolt under H (t.ex < 5%) O 1 16 8 4 19 1 O 1 1 4 8 4 1 8 8.1 Sllnad mellan modell och observaton lten lten O 3 1 1 113 O 1 17 18 19 19 93 519. Sllnad mellan modell och observaton stor stor Densty,14,1,1,8,6,4,, Dstrbuton Plot Ch-Square; df=6 1,6,5 är alltd postv och nollhypotesen förastas för stora värden upper tal test O rt 1 testvarabel upper tal PDF beror påp antalet frhetsgrader Antalet frhetsgrader förf -testet Densty,5,4,3,,1 Dstrbuton Plot Ch-Square df 4 6 8 antalet celler (6 för tärnngen) df df 1 antalet lnjära restrtoner (1 för tärnngen: summa för en råd = n) r p antalet parametrar som sattas för att få en modell, 5 1 15 5 oftast är det bara så här, dvs. r=1 och p= Förutsättnngarttnngar bara om n är stor har summan en -fördelnng 5 varje cell slumpmässgt stcprov (som vanlgt) I don t t le mondays... Hjärtattac (n= patenter): Boomtown Rats 1 3 4 5 6 O 1 16 8 4 19 1 alla 5 söndag måndag tsdag onsdag torsdag fredag lördag 4 36 7 6 3 6 9 Rsen jämnfördelad eller är måndag farlgare?

H p p p p p p p 1 : 1 3 4 5 6 7 7 n n p 8.57 expected 7 n 5 oay 1 O 4 8.57 36 8.57 7 8.57 6 8.57 8.57 3 8.57 6 8.57 9 8.57 8.57 13.71 3.63 8.57 8.57 8.57 Om hjärtattac är jämnfördelade och man regstrerar fall, så sulle det bl omrng 8/9 per dag... 8.57 8.57 8.57 H förastas nte! Tabell ce symmetrs!.5 rt 6 1.59 tabell.5 Mntab Stat / Tables / Ch-Square Goodness-of-Ft Test chsquare.mpj O1 1 4 8.57 Mntab 1 8.57 Ch-Square Goodness-of-Ft Test for Observed Counts n Varable: O Hstorcal Test Contrbuton Category Observed Counts Proporton xpected to Ch-Sq 1 4 8,57,14857 8,5714,73143 36 8,57,14857 8,5714 1,93143 3 7 8,57,14857 8,5714,8643 4 6 8,57,14857 8,5714,3143 5 3 8,57,14857 8,5714,41143 6 6 8,57,14857 8,5714,3143 7 9 8,57,14857 8,5714,643 N DF Ch-Sq P-Value 6 3,63,77 Nollhypotesen förastas nte, högt p-värde. -1 hade v förut P-värdet Kvantl,14,1 Dstrbuton Plot Ch-Square; df=6,14,1 Dstrbuton Plot Ch-Square; df=6 Graph / Probablty Dstrbuton Plot / Vew Probablty Shaded area / Probablty =,5 Densty,1,8,6 Slh. att testvarabeln blr så stor som det blev eller ännu mera extremt Densty,1,8,6,4,, 3,63,77,4,, 1,6,5 det var värdet för testvarabeln det var vad v ocså httade tabellen f.5 6

Vlet värde v avver hur mycet från vara förvf rväntnngar? Jämförelse observed och expected Chart of Contrbuton to the Ch-Square Value by Category, 4 Chart of Observed and xpected Values xpected Observed Contrbuted Value 1,5 1,,5 andel tll : en stolpe = en summand Value 3, 1 5 4 6 3 7 Category söndag måndag tsdag onsdag torsdag fredag lördag 4 36 7 6 3 6 9 1 Category 1 3 4 5 6 7 på måndag sljer sg det observerade värdet mest från förväntnngen Var fåglarna f söer s frö Antagandet (modell): Fåglarna föredrar nte någon sorts träd, de söer frö alla träd med jämn sannolhet ju mer träd av en vss sort föreommer, desto mer fåglar fnns där... xperment: n=156 fåglar observerades en sog Oregon ädelgran furu ust gran lär summa ronornas volym 54% 4% 5% 1% 1% expected 156,54=84,4 156,4=6,4 156,5=7,8 156,1=1,56 156 observed 7 79 3 4 156 n 5 oay O rt 1 7 84.4 79 6.4 7 9.36 84.4.47 4.416.595 7.418 sammanfattat 5 n=156 ädelgran furu ustgran/lär expected 84,4 6,4 9,36 observed 7 79 7 6.4 5.99.5 9.36 Densty,5,4,3,,1, Ch-Square; df= H förastas.,5 5,99 Mannan, R.W., and.c. Meslow. 1984. Brd populatons and vegetaton characterstcs n managed and oldgrowth forests, northeastern Oregon. J. Wldl. Manage. 48: 119-138. för lten!! Mntab Stat / Tables / Ch-Square Goodness of Ft Results for: brd_pooled Mntab Ch-Square Goodness-of-Ft Test for Observed Counts n Varable: Obs Hstorcal Test Contrbuton Category Observed Counts Proporton xpected to Ch-Sq 1 7 84,4,54 84,4,4714 79 6,4,4 6,4 4,4163 3 7 9,36,6 9,36,5954 N DF Ch-Sq P-Value 156 7,4181,4 P<.5: Nollhypotesen förastas. Uppenbarlgen föredrar fåglarna vssa träd.

Jämförelse observed/expected Måste man sammanfatta cellerna om n<5? Chart of Observed and xpected Values 9 8 7 xpected Observed Man får alla fall en varnng. 6 Value 5 4 3 1 Category 1 3 Hstorcal Test Contrbuton Category Observed Counts Proporton xpected to Ch-Sq 1 7 84,4,54 84,4,4714 79 6,4,4 6,4 4,4163 3 3 7,8,5 7,8,95385 4 4 1,56,1 1,56 3,81641 Som det ser ut, föredrar fåglarna ategor, alltså furu. Här fnns fler fåglar än förväntad under H. N DF Ch-Sq P-Value 156 3 13,5934,4 1 cell(s) (5,%) wth expected value(s) less than 5. Mendel s s experment Mendel s s Law A a Allel A är domnant Om Mendel s lag gäller, så förväntar man sg en proporton 3:1 för runda:ynlga. Man observerade 43 runda och 133 ynlga ett sådant experment. Mendel orsade bara heterozygota bönor (allel-frevenserna är båda.5): A a A AA Aa a Aa aa Genotyper AA och Aa blr runda, bara genotyp aa blr ynlg. Om Mendel s lag gäller, så förväntar man sg en proporton 3:1 för runda:ynlga. rund ynlg O 43 133 556 556 ¾=417 556 ¼=139 556 Ingen sgnfant sllnad mellan observed/expected. Ingen motsats tll modellen, dvs. ngen förastnng av Mendels lag genom detta försö. rt 1 43 417 133 139 417.345 O 1 3.84.5 139 xempel från http://en.wpeda.org/w/hardy-wenberg_prncple, changed! Hardy-Wenberg Wenberg-qulbrum Ofta vet man doc nte allel-frevenserna (p,q) från början som Mendels experment (där man hade p=q=.5 eftersom bara heterozygota bönor används) HW säger doc att allel-frevenserna förblr onstant Sattnng av allel-frevenserna Callmorpha domnula Lnnaeus, 1758 HW female A(p) a(q) A(p) AA(p ) Aa(pq) male a(q) Aa(pq) aa(q ) f ( AA) p f ( Aa) pq f ( aa) q Genotype Whtespotted(AA) Intermedate (Aa) Lttle spottng (aa) (=n) Number 139 68 15 161 p ~ obs( AA).5obs( aa) och obs( AA).5obs( aa) 139 134 p.97 n 161 q 1 p.93 a A q ~ obs( aa).5obs( aa)

Genotype Hardy-Wenberg Wenberg-qulbrum Whtespotted(AA) Intermedate (Aa) Lttle spottng (aa) (=n) Number 139 68 15 161 xpected: p.97 ( AA) n p ( Aa) n pq 71.95 ( aa) n q q.93 161.97 136.11 13.94 Testvarabel: O 1 139 136.11 68 71.95.144 136.11 15 13.94 13.94.63.574.81 71.95 Antalet frhetsgrader och det rtsa värdet O 1.144 V har 3 celler, men v förlorar 1 df för en lnjär restrton och 1 df för en sattnng (allmänt för HW-test: df = antalet genotyper mnus antalet alleler) rt 1 3.84.5 V förastar nte nollhypotesen att populatonen är HW.