Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

Relevanta dokument
Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 10, del 1: Icke-linjära samband och outliers

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Analys av korstabeller

Föreläsning G60 Statistiska metoder

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning G70 Statistik A

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Statistik 1 för biologer, logopeder och psykologer

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Resultat Hälso- och sjukvårdsbarometern Hälso- och sjukvårdsnämnden /04

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Repetitionsföreläsning

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Laboration 3: Urval och skattningar

Statistik för Brandingenjörer. Laboration 1

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Laboration 3: Urval och skattningar

Att göra före det schemalagda labpasset.

Statistik 1 för biologer, logopeder och psykologer

OBS! Vi har nya rutiner.

Datorlaboration 2 Konfidensintervall & hypotesprövning

Statistik. Statistik. Statistik. Statistics, Lars Walter. Forsknings- och utvecklingsenheten för närsjukvård. Folkhälsocentrum

Föreläsning 12: Repetition

EXAMINATION KVANTITATIV METOD

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Föreläsning 12: Regression

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Handledning för konstruktion av tabeller och diagram med Excel

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning G70 Statistik A

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Statistiska metoder för säkerhetsanalys

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Uppgift 1. Produktmomentkorrelationskoefficienten

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

Föreläsning G60 Statistiska metoder

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

Tentamen: Vetenskapliga perspektiv på studie- och yrkesvägledning, 7,5hp distans (D1) & campus (T1), ht12

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Föreläsning G60 Statistiska metoder

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

MVE051/MSG Föreläsning 7

*****************************************************************************

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Statistik Lars Valter

Tobak. Ca 2 procent av männen och 1,5 procent av kvinnorna använder e-cigarett med nikotin ibland eller dagligen.

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

ÖVNINGSUPPGIFTER KAPITEL 9

Föreläsning 7: Punktskattningar

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Bilaga 6 till rapport 1 (5)

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Vägda medeltal och standardvägning

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Anställning och anställningsförhållanden

Introduktion till statistik för statsvetare

OBS! Vi har nya rutiner.

Utrikes föddas arbetsmarknadssituation

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Lön och kön en studie av löneskillnader mellan kvinnor och män

732G01/732G40 Grundläggande statistik (7.5hp)

Anna: Bertil: Cecilia:

Inferensstatistik. Hypostesprövning - Signifikanstest

ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 )

Ansvarig: Personalchefen

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Statistik B Regressions- och tidsserieanalys Föreläsning 1

F9 SAMPLINGFÖRDELNINGAR (NCT

ÖVNINGSUPPGIFTER KAPITEL 9

Transkript:

Föreläsning 6 Korstabeller (Tvåvägstabeller) Kap.6.7. En population och två kvalitativa variabler Korstabeller Det kan vara lämpligt att skapa en korstabell över ett datamaterial i följande två fall:. Oberoende stickprov från två eller flera olika populationer kategoriserade enligt en kvalitativ variabel.. Ett stickprov från en population och två kvalitativa variabler. Exempel: /jobbnivå för män Äktenskap är bra för karriären för män enligt vissa studier. Nedan finns data från en studie på 85 män uppsatt i en korstabell. är responsvariabel (om vi kan peka ut en responsvariabel). är förklarande variabel. Detta är en sammanställning från ett rådata (hur rådatat ser ut? Hjälp mig! Kopplingen till enkätundersökningen.) 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 *Här är det en population (män) och två kvalitativa variabler ( och ). En tumregel när man konstruerar en korstabell: Den förklarande variabeln bör vara kolumnvariabel (om du har en). Responsvariabeln bör vara radvariabel.

Exempel: /jobbnivå för män (fort.) Simultanfördelning för de här två kategoriska variabler beräknas genom att dividera varje cellsfrekvens med det totala antalet på 85 (se andelarna nedan; för % multiplicera alla andelar med ). är förklarande variabel. är responsvariabel. 58/85=.7.6...6.7.77.9..55.6.9.....65...67 Totalt..99.5.5. Marginalfördelning (i absoluta frekvenser) Marginalfördelningar kallas de enskilda fördelningarna för den förklarande variabeln och för responsvariabeln (dvs. fördelningarna för de två enskilda kvalitativa variablerna). Ex. 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 5 Marginalfördelning (i procentuella frekvenser) Marginalfördelningar (i %) kallas de enskilda fördelningarna (i %) för den förkl. var. och för responsvar. (dvs. för de två kvalitativa var.). Ex..7.6...6.7 7.7.9. 5.5.6 9..... 6.5.. 6.7 Totalt. 9.9.5.5 Marginalfördelning för Marginalfördelning för 9 8 Singel Gift Skild Änkling 6

Exempel: /jobbnivå för män Fråga: Beräkna marginalfördelningen för civilstånd. 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 Lösn: Marginalfördelning för : % singlar: 7/85 =. % gifta: 7/85 =.99 % skilda: 6/85 =.5 % änklingar: /85 =.5 9 8 Marginalfördelning för Singel Gift Skild Änkling 7 Betingade fördelningar Marginalfördelningar berättar om de kvalitativa variablerna men säger ingenting om deras samband till varandra. Betingade fördelningar är bra för att betrakta samband mellan de kvalitativa variablerna. De betingade fördelningarna för responsvariabeln givet de olika värdena på den förklarande variabeln är oftast de intressantaste. (Det finns naturligtvis även betingade fördelningar för den förklarande variabeln givet olika värden på responsvariabeln.) 8 Exempel: /jobbnivå för män Fråga: Ange den betingade fördelningen för jobbnivå givet att han är singel. 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 Lösn: Den betingade fördelningen för jobbnivå givet att han är singel: % Singel: 58/7 =.7 % Singel: /7 =.659 % Singel: /7 =.8 % Singel: 7/7 =.8 Singelmän 9

Exempel på betingade fördelningar 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 Singelmän Gifta män De fyra betingade fördelningarna för jobbnivå givet de fyra olika civilstånden Skilda män Änklingar Störande (lurking) variabler Man bör vara försiktig med vilka slutsatser man drar när man observerar statistiska samband mellan variabler. I extrema fall kan det samband man observerar vändas till det motsatta när man tar hänsyn till ytterligare variabler. Detta är Simpsons paradox. Simpsons paradox (s. 6 7 i Moore). Exempel: Vilket sjukhus är det bättre?

Men om vi även vet om patientens tillstånd innan operationen... Simpsons paradox (ett riktigt exempel) Sysselsättningsgrad i olika åldersgrupper. Mellan 6 och minskade den totala sysselsättningsgraden i åldergruppen 5 7 år med, procentenheter. Delar man upp denna stora grupp i tioårsklasser framträder dock en helt annan bild. Istället för en minskad sysselsättningsgrad visar det sig då att sysselsättningsgraden tvärtom har ökat för varje enskild åldersgrupp mellan dessa år. I något fall, som för gruppen 5 år, har ökningen endast varit marginell, men för övriga grupper rör det sig om ganska tydliga förbättringar. Att sysselsättningsgraden har ökat för varje enskild åldersgrupp, men ändå totalt sett minskat något, kan tyckas motsägelsefullt. Den till synes ologiska situationen har dock en ganska enkel förklaring. Det hela handlar nämligen om att vi under dessa år har haft en kraftig befolkningsökning i gruppen 65 7 år. Totalt sett har denna grupp ökat med 86 individer. Detta påverkar naturligtvis den totala sysselsättningsgraden på ett negativt sätt eftersom en så liten andel av denna seniora grupp arbetar. Den minskade sysselsättningsgraden är alltså en demografisk effekt; en direkt konsekvens av att vi har fått en ökad andel ålderspensionärer. Detta bekräftas också av att sysselsättningsgraden i åldergruppen 6 6 år har ökat med,8 procentenheter under samma period. Källa: www.ekonomifakta.se/sv/fakta/arbetsmarknad/sysselsattning Simpsons paradox (ett riktigt exempel, fort) Sysselsättningsgrad i olika åldersgrupper. (OBS! Siffrorna nedan är ej riktiga, bara för att illustrera exemplet!) 6 Ant pers Minskning? Ant syss. pers 585 98 Syss. grad 58,5% 9,8% Åldersgrupp 5 5 6 65 7 Total 6 Ant pers Ant syss pers 8 85 585 Syss grad,% 8,8%,% Ant pers Ant syss pers 98 Syss grad,% 8,8%,% Ökning! 5 5

Chi två test för att testa samband mellan två kvalitativa variabler (Överkurs!) 6 De förväntade frekvenserna Det finns ett samband mellan och. 58 9.8 7.7.9 7.55 87 896. 97 979.5 96 7. 5 57. 5.6 6.86 8. 7 8. 8.87.6..8 955 9 9 Totalt 7 7 6 85 55 7 Rådatamaterial Individ Kön Anställning Ålder Yrkeserfarenhet(år) Hur ofta upplever du sömnproble Hur ofta upplever du stress i a Kvinna Heltid 5 Sällan/aldrig Sällan/aldrig Man Deltid 6 9 Ibland Sällan/aldrig Kvinna Heltid Ofta Ofta Kvinna Heltid 5 5 Sällan/aldrig Sällan/aldrig 5 Man Deltid Ofta Ibland 6 Man Heltid 6 Sällan/aldrig Sällan/aldrig 7 Kvinna Heltid 9 Sällan/aldrig Ibland 8 Kvinna Deltid Ibland Ibland 9 Kvinna Heltid 9 Ibland Ofta Man Deltid 6 Sällan/aldrig Sällan/aldrig Man Heltid 8 5 Sällan/aldrig Sällan/aldrig Man Heltid 5 Ibland Sällan/aldrig Kvinna Deltid 8 Ofta Ibland Kvinna Deltid 8 Ofta Ofta 5 Kvinna Heltid Ibland Ibland 6 Kvinna Heltid 5 Sällan/aldrig Sällan/aldrig 7 Man Deltid Sällan/aldrig Sällan/aldrig 8 Man Heltid 6 9 Sällan/aldrig Ofta 9 Man Deltid 57 Ofta Ibland Kvinna Heltid Ibland Ibland Kvinna Heltid 55 8 Ofta Ofta Man Heltid 5 Sällan/aldrig Sällan/aldrig Man Deltid 5 Ibland Ofta Kvinna Heltid 9 6 Ibland Ibland 5 Man Heltid Ofta Ofta 6 Kvinna Deltid Ibland Ofta 7 Man Deltid 8 Sällan/aldrig Sällan/aldrig 8 Kvinna Heltid Ofta Sällan/aldrig 9 Kvinna Heltid Ofta Ofta Kvinna Heltid Ibland Sällan/aldrig 8 6

Färdiga sammanställningar En konsult anlitades för att ta reda på hur bra personalen trivdes på en viss arbetsplats. anställda valdes ut slumpmässigt och ombads att på en skala från (mycket dåligt) till (mycket bra) ange hur väl de trivdes på arbetsplatsen. En fråga som bedömdes intressant i undersökningen var om det fanns något påvisbart samband mellan arbetstillfredsställelsen och antalet frånvarodagar. Därför ombads de utvalda personerna också uppge hur många frånvarodagar de haft det senaste året. Svaren skulle ges som ett av de tre intervall som ges i tabellen nedan. Fördelningen av svaren på de två frågorna ges i nedanstående tabell: Arbetstillfredsställelseindex Mindre än Från till 7 Mer än 7 Antalet Mindre än 6 7 frånvarodagar Från 6 till 8 Mer än 8 9 Vi tittar nu hur detta fungerar i Minitab. 9 7