Analys av korstabeller

Relevanta dokument
Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer

Statistik , Stansens PC-klass ASA-huset. Schema: mån ti ons to fre

Uppgift 1. Produktmomentkorrelationskoefficienten

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Statistik. Statistik. Statistik. Statistics, Lars Walter. Forsknings- och utvecklingsenheten för närsjukvård. Folkhälsocentrum

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Konfidensintervall, Hypotestest

TENTAMEN I STATISTIKENS GRUNDER 2

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning 12: Regression

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsningsanteckningar till kapitel 9, del 2

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Markovkedjor. Patrik Zetterberg. 8 januari 2013

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

2. Test av hypotes rörande medianen i en population.

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Sannolikheter och kombinatorik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Lösningar till SPSS-övning: Analytisk statistik

Statistisk utvärdering av antagningen till Polishögskolan

MSG830 Statistisk analys och experimentplanering

Stockholms Universitet Statistiska institutionen Termeh Shafie

Föreläsning G60 Statistiska metoder

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Repetitionsföreläsning

Laboration 4: Hypotesprövning och styrkefunktion

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Lektionsanteckningar 11-12: Normalfördelningen

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Finansiell statistik

Statistik och epidemiologi T5

Grafer och grannmatriser

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Samplingfördelningar 1

Medelvärde, median och standardavvikelse

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 )

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Föreläsning 7. Statistikens grunder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Avd. Matematisk statistik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

Matematisk statistik för D, I, Π och Fysiker

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Föreläsning G60 Statistiska metoder

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Kapitel 10 Hypotesprövning

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Problemdel 1: Uppgift 1

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Statistisk undersökningsmetodik (Pol. kand.)

Exempel på tentamensuppgifter

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 5. Kapitel 6, sid Inferens om en population

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Korrelation och autokorrelation

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Introduktion till statistik för statsvetare

Föreläsning 5: Hypotesprövningar

Statistiska metoder för säkerhetsanalys

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Statistik 1 för biologer, logopeder och psykologer

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Statistik 1 för biologer, logopeder och psykologer

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Avd. Matematisk statistik

Transkript:

Analys av korstabeller Analys av korstabeller hänvisar generellt till den situation, där vi betraktar era kategoriska variabler samtidigt och vill dra slutsatser m.a.p. beroendestrukturen dem emellan. I den möjligast enkla situationen har vi då endast två variabler, vilka kan anta endast två olika värden (t. ex ja/nej, svart/vit osv.). Det gäller dock att vara försiktig när man utför dylika analyser. För att bilda oss en uppfattning om de väsentliga aspekterna för analys av korstabeller, studerar vi några exempel. Tidningen The New York Times publicerade den 11. mars, år 1979, följande korstabell: ÅtaladnDom Dödsdom Annan dom Totalt Mörkhyad 59 2448 2507 Vithyad 72 2185 2257 Totalt 131 4633 4764 som innehåller uppgifter om 4764 mordfall, vilka hanterades i diverse domstolar i delstaten Florida under åren 1973-79. De två variablerna är den åtalades hudfärg (mörkhyad eller vithyad) och typ av dom (dödsdom eller en annan dom). Från tabellen kan vi uppskatta andelen mörk- respektive vithyade, som blev dömda till döden (2.4% respektive 3.2%). Ett statistiskt test, som allmänt används i samband med analys av korstabeller, är ett sk. 2 -test (uttalas khai -square). Namnet kommer från den fördelning testkvantiteten följer approximativt under nollhypotesen. Olika former av 2 -test används även generellt då man vill testa hur bra anpassning man får för en modell. Testet bygger på mängden diskrepans mellan observationerna och en hypotes, vilken i detta sammanhang motsvarar antangandet om ett visst oberoende mellan kategoriska variabler. I tabellen ovan har vi två variabler och kan bilda en nollhypotes: H 0 : Den åtalades hudfärg och typen av dom är oberoende av varandra. Mothypotesen kunde 1

då vara t. ex. H 1 : Det nns någon form av samband mellan den åtalades hudfärg och typen av dom. Om vi betraktar noggrannare informationen i tabellen, identi erar vi följande parametrar under mothypotesen (okända kvantiteter som representerar variationen inom populationen av rättsfall gällande mord i Florida): P(Hudfärgen är mörk & Domen är en dödsdom) = P 11 P(Hudfärgen är vit & Domen är en dödsdom) = P 21 P(Hudfärgen är mörk & Domen är ej en dödsdom) = P 12 P(Hudfärgen är vit & Domen är ej en dödsdom) = P 22 Dessa fyra parametrar är alltså sannolikheter för att ett slumpmässigt plockat rättsfall ur den givna populationen skulle ha de motsvarande egenskaperna. Eftersom sannolikheterna måste summera upp till ett, är de fyra parametrarnas möjliga värden bundna till varandra enligt P 11 +P 21 +P 12 +P 22 = 1. Dvs. modellen har i själva verket endast tre fria parametrar. Vi antar dessutom att alla dessa sannolikheter är större än noll, dvs. P ij > 0; i = 1; 2; j = 1; 2. Under en nollhypotes om oberoende mellan hudfärgen och typen av dom, kan variablerna betraktas skilt från varandra. Detta leder till följande parametrar: P(Hudfärgen är mörk) = 1-P(Hudfärgen är vit) = P 1 P(Domen är en dödsdom) = 1-P(Domen är ej en dödsdom) = P 2 I motsats till den tidigare modellen, har vi nu endast två parametrar (P 1 ; P 2 ). Under nollhypotesen (oberoende) kan vi räkna fram sannolikheter för sammansatta händelser enligt följande produktregel: P(Hudfärgen är mörk & Domen är en dödsdom) = P(Hudfärgen är mörk)p(domen är en dödsdom) = P 1 P 2 P(Hudfärgen är vit & Domen är en dödsdom) = P(Hudfärgen är vit)p(domen är en dödsdom) = (1 P 1 )P 2 P(Hudfärgen är mörk & Domen är ej en dödsdom) = P(Hudfärgen är mörk)p(domen är ej en dödsdom) = P 1 (1 P 2 ) P(Hudfärgen är vit & Domen är ej en dödsdom) = P(Hudfärgen är vit)p(domen är ej en dödsdom) = (1 P 1 )(1 P 2 ) De förväntade frekvenserna i varje cell av tabellen under oberoendet, erhålls genom att man multiplicerar de uppskattade sannolikheterna med totala antalet obervationer (= 4764 i morddatat). Punktskattningen av sannolikheterna skilt för de två variablerna enligt maximum likelihood -metoden ges av: 2

ˆP(Hudfärgen är mörk) = 1-ˆP(Hudfärgen är vit) = ^P 1 = 2507=4764 ˆP(Domen är en dödsdom) = 1-ˆP(Domen är ej en dödsdom) = ^P 2 = 131=4764 Detta leder till följande förväntade frekvenser under oberoendet: ÅtaladnDom Dödsdom Annan dom Totalt Mörkhyad 68:9 2438:1 2507 Vithyad 62:1 2194:9 2257 Totalt 131 4633 4764 Teststatistikan för 2 -testet bildas av summan av normerade kvadrerade skillnader mellan förvantade och observerade frekvenser: T = (68:9 59)2 + 68:9 (2438:1 2448)2 + 2438:1 (62:1 72)2 (2194:9 2185)2 + 62:1 2194:9 = 3:085 6 Teststatistikans fördelning har för en 2 x 2 tabell en sk. frihetsgrad, vilket leder till ett p-värde lika med 0:08. Givet att datamaterialet är rätt stort, verkar det alltså inte nnas anledning att tro på ett samband mellan hudfärgen och typen av dom. Uppfattningen om sambandet ändras, då vi tittar på samma observationer genom en utökad korstabell, där även o rets hudfärg är en variabel: Mörkhyat o er : Vithyat o er : ÅtaladnDom Dödsdom Annan dom Mörkhyad 11 2209 Vithyad 0 111 ÅtaladnDom Dödsdom Annan dom Mörkhyad 48 239 Vithyad 72 2074 Om vi t. ex. testar oberoendet skilt för de två o ergrupperna, får vi följande värden på 2 -testkvantiteten: 0.55, p-värdet 0.54 (mörkhyat o er), 96.50, p-värdet < 0:0001 (vithyat o er). Analys av denna korstabell avslöjar att för samtliga par som kan bildas av de tre variablerna, nns det indikation på ett samband. Men för mörkhyade o er verkar den åtalades hudfärg och typen av dom vara oberoende, medan dessa två variabler har ett starkt 3

samband för vithyade o er. Då det nns er än två variabler i en korstabell, brukar man använda sk. log-linjära eller gra ska modeller (en delgrupp av log-linjära modeller) för att studera strukturen på sambanden på ett mer meningsfullt sätt. Gra ska modeller är mycket användbara även för stora grupper av variabler och det nns era datorprogram som hanterar sådana modeller (MIM, B-Course, Bayesian Network Toolbox (BNT), Hugin, mm.). Gra ska modeller kan intuitivt presenteras med hjälp av matematiska objekt som kallas grafer, där variablerna motsvarar noder och länkar samband mellan dem. Avsaknaden av en länk motsvarar vanligtvis ett betingat oberoende mellan de berörda variablerna. Vi kan bilda oss en uppfattning om olika typer av gra ska modeller, som kunde beskriva beroendestrukturen mellan de tre variablerna. Låt oss beteckna variablerna enligt följande: O rets hudfärg (U), Åtalades hudfärg (S), Typen av dom (T )). Det nns åtta möjliga beroendestrukturer som kan presenteras med hjälp av grafer. Om man ordnar dessa enligt grad av komplexitet, löper modellernas struktur från ett fullständigt oberoende (P (U; S; T ) = P (U)P (S)P (T )) till en fullständigt beroende (inga begränsningar på sannolikheterna P (U; S; T )). Exempelvis, om en modell hävdar att U är oberoende från de övriga två variablerna, får vi begränsningen P (U; S; T ) = P (U)P (S; T ). På ett motsvarande sätt, om vi antar betingat oberoende mellan S och T, får vi begränsningen P (U; S; T ) = P (S; T ju)p (U) = P (SjU)P (T ju)p (U): Nedan nns en lista som omfattar alla åtta modellerna och representationen av deras strukturer. 4

M 1 : P (U; S; T ) = P (U)P (S)P (T ) M 2 : P (U; S; T ) = P (U; S)P (T ) M 3 : P (U; S; T ) = P (U; T )P (S) M 4 : P (U; S; T ) = P (U)P (S; T ) M 5 : P (U; S; T ) = P (UjS)P (T js)p (S) = P (U; S)P (S; T )=P (S) M 6 : P (U; S; T ) = P (UjT )P (SjT )P (T ) = P (U; T )P (S; T )=P (T ) M 7 : P (U; S; T ) = P (SjU)P (T ju)p (U) P (U; S)P (U; T )=P (U) M 8 : P (U; S; T ) För modellerna 5-7, får vi den senare formeln enligt de nitionen på en betingad sannolikhet, t. ex.: P (SjU) = P (U; S) P (U) : Graferna som motsvarar dessa modeller ser ut såhär: M 1 : U S T M 2 : U S T M 3 : U T S M 4 : U T S M 5 : U S T M 6 : U T S M 7 : S U T U M 8 : S T Exemplet ovan, med två kontra tre dikotoma variabler, representerar en sk. Simpson s paradox, vilken innebär att variabler som inte nns med i betraktelsen, kan antingen dölja ett samband mellan variabler, eller introducera ett falskt samband mellan dem. Den senare typen av felaktiga slutsatser exempli eras av följande datamaterial. 5

Joe Whittaker presenterar följande datamaterial i boken Graphical models in applied multivariate analysis (Wiley, 1990): Grad av vårdnöverlevnad Dog Överlevde Totalt Lite 20 373 393 Mycket 6 316 322 Totalt 26 689 715 Korstabellen innehåller uppgifter om 715 spädbarn under de tidiga veckorna efter födseln. Uppgifterna är samlade från två sjukhus som besöktes av vårdnashavarna till barnet. Uppskattningen av grad av vård har gjorts av sjukvårdspersonalen. Andelen barn som dog verkar vara betydligt högre bland de barn som ck endast lite vård (5.1% mot 1.9%). Detta resultat kunde leda till den slutsatsen att graden av vård påverkar dödligheten. Återigen ändras uppfattningen om sambandet, då vi känner till en annan variabel, nämnligen vilket sjukhus besöktes av vårdnashavarna. Följande tabell erhålls genom att denna variabel görs synlig (den sista kolumnen representerar andelen barn som dog): Sjukhus 1: Sjukhus 2: Grad av vårdnöverlevnad Dog Överlevde (%) Lite 3 176 1:7 Mycket 4 293 1:4 Grad av vårdnöverlevnad Dog Överlevde (%) Lite 17 197 7:9 Mycket 2 23 8:0 I den nya tabellen nns det ingen nämnvärd skillnad m.a.p. dödligheten mellan de två nivåerna av vård, inom nåtdera sjukhuset. Det tidigare observerade sambandet har alltså försvunnit, då sjukhusindikatorn togs i beaktande. Fenomenet uppstår, eftersom det andra sjukhuset är förknippat med ett område där det nns högre spädbarnsdödlighet och er barn som får sämre vård. En gra sk beskrivning av beroendestrukturen ser ut såhär: Grad av vård Sjukhus Överlevnad, dvs. överlevnad är i detta datamaterial betingat oberoende av graden av vård, givet det sjukhus man besökt. 6