Föreläsning 6 Korstabeller (Tvåvägstabeller) Kap.6.7. En population och två kvalitativa variabler Korstabeller Det kan vara lämpligt att skapa en korstabell över ett datamaterial i följande två fall:. Oberoende stickprov från två eller flera olika populationer kategoriserade enligt en kvalitativ variabel.. Ett stickprov från en population och två kvalitativa variabler. Exempel: /jobbnivå för män Äktenskap är bra för karriären för män enligt vissa studier. Nedan finns data från en studie på 85 män uppsatt i en korstabell. är responsvariabel (om vi kan peka ut en responsvariabel). är förklarande variabel. Detta är en sammanställning från ett rådata (hur rådatat ser ut? Hjälp mig! Kopplingen till enkätundersökningen.) 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 *Här är det en population (män) och två kvalitativa variabler ( och ). En tumregel när man konstruerar en korstabell: Den förklarande variabeln bör vara kolumnvariabel (om du har en). Responsvariabeln bör vara radvariabel.
Exempel: /jobbnivå för män (fort.) Simultanfördelning för de här två kategoriska variabler beräknas genom att dividera varje cellsfrekvens med det totala antalet på 85 (se andelarna nedan; för % multiplicera alla andelar med ). är förklarande variabel. är responsvariabel. 58/85=.7.6...6.7.77.9..55.6.9.....65...67 Totalt..99.5.5. Marginalfördelning (i absoluta frekvenser) Marginalfördelningar kallas de enskilda fördelningarna för den förklarande variabeln och för responsvariabeln (dvs. fördelningarna för de två enskilda kvalitativa variablerna). Ex. 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 5 Marginalfördelning (i procentuella frekvenser) Marginalfördelningar (i %) kallas de enskilda fördelningarna (i %) för den förkl. var. och för responsvar. (dvs. för de två kvalitativa var.). Ex..7.6...6.7 7.7.9. 5.5.6 9..... 6.5.. 6.7 Totalt. 9.9.5.5 Marginalfördelning för Marginalfördelning för 9 8 Singel Gift Skild Änkling 6
Exempel: /jobbnivå för män Fråga: Beräkna marginalfördelningen för civilstånd. 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 Lösn: Marginalfördelning för : % singlar: 7/85 =. % gifta: 7/85 =.99 % skilda: 6/85 =.5 % änklingar: /85 =.5 9 8 Marginalfördelning för Singel Gift Skild Änkling 7 Betingade fördelningar Marginalfördelningar berättar om de kvalitativa variablerna men säger ingenting om deras samband till varandra. Betingade fördelningar är bra för att betrakta samband mellan de kvalitativa variablerna. De betingade fördelningarna för responsvariabeln givet de olika värdena på den förklarande variabeln är oftast de intressantaste. (Det finns naturligtvis även betingade fördelningar för den förklarande variabeln givet olika värden på responsvariabeln.) 8 Exempel: /jobbnivå för män Fråga: Ange den betingade fördelningen för jobbnivå givet att han är singel. 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 Lösn: Den betingade fördelningen för jobbnivå givet att han är singel: % Singel: 58/7 =.7 % Singel: /7 =.659 % Singel: /7 =.8 % Singel: 7/7 =.8 Singelmän 9
Exempel på betingade fördelningar 58 87 5 8 955 97 9 96 9 7 5 7 55 Totalt 7 7 6 85 Singelmän Gifta män De fyra betingade fördelningarna för jobbnivå givet de fyra olika civilstånden Skilda män Änklingar Störande (lurking) variabler Man bör vara försiktig med vilka slutsatser man drar när man observerar statistiska samband mellan variabler. I extrema fall kan det samband man observerar vändas till det motsatta när man tar hänsyn till ytterligare variabler. Detta är Simpsons paradox. Simpsons paradox (s. 6 7 i Moore). Exempel: Vilket sjukhus är det bättre?
Men om vi även vet om patientens tillstånd innan operationen... Simpsons paradox (ett riktigt exempel) Sysselsättningsgrad i olika åldersgrupper. Mellan 6 och minskade den totala sysselsättningsgraden i åldergruppen 5 7 år med, procentenheter. Delar man upp denna stora grupp i tioårsklasser framträder dock en helt annan bild. Istället för en minskad sysselsättningsgrad visar det sig då att sysselsättningsgraden tvärtom har ökat för varje enskild åldersgrupp mellan dessa år. I något fall, som för gruppen 5 år, har ökningen endast varit marginell, men för övriga grupper rör det sig om ganska tydliga förbättringar. Att sysselsättningsgraden har ökat för varje enskild åldersgrupp, men ändå totalt sett minskat något, kan tyckas motsägelsefullt. Den till synes ologiska situationen har dock en ganska enkel förklaring. Det hela handlar nämligen om att vi under dessa år har haft en kraftig befolkningsökning i gruppen 65 7 år. Totalt sett har denna grupp ökat med 86 individer. Detta påverkar naturligtvis den totala sysselsättningsgraden på ett negativt sätt eftersom en så liten andel av denna seniora grupp arbetar. Den minskade sysselsättningsgraden är alltså en demografisk effekt; en direkt konsekvens av att vi har fått en ökad andel ålderspensionärer. Detta bekräftas också av att sysselsättningsgraden i åldergruppen 6 6 år har ökat med,8 procentenheter under samma period. Källa: www.ekonomifakta.se/sv/fakta/arbetsmarknad/sysselsattning Simpsons paradox (ett riktigt exempel, fort) Sysselsättningsgrad i olika åldersgrupper. (OBS! Siffrorna nedan är ej riktiga, bara för att illustrera exemplet!) 6 Ant pers Minskning? Ant syss. pers 585 98 Syss. grad 58,5% 9,8% Åldersgrupp 5 5 6 65 7 Total 6 Ant pers Ant syss pers 8 85 585 Syss grad,% 8,8%,% Ant pers Ant syss pers 98 Syss grad,% 8,8%,% Ökning! 5 5
Chi två test för att testa samband mellan två kvalitativa variabler (Överkurs!) 6 De förväntade frekvenserna Det finns ett samband mellan och. 58 9.8 7.7.9 7.55 87 896. 97 979.5 96 7. 5 57. 5.6 6.86 8. 7 8. 8.87.6..8 955 9 9 Totalt 7 7 6 85 55 7 Rådatamaterial Individ Kön Anställning Ålder Yrkeserfarenhet(år) Hur ofta upplever du sömnproble Hur ofta upplever du stress i a Kvinna Heltid 5 Sällan/aldrig Sällan/aldrig Man Deltid 6 9 Ibland Sällan/aldrig Kvinna Heltid Ofta Ofta Kvinna Heltid 5 5 Sällan/aldrig Sällan/aldrig 5 Man Deltid Ofta Ibland 6 Man Heltid 6 Sällan/aldrig Sällan/aldrig 7 Kvinna Heltid 9 Sällan/aldrig Ibland 8 Kvinna Deltid Ibland Ibland 9 Kvinna Heltid 9 Ibland Ofta Man Deltid 6 Sällan/aldrig Sällan/aldrig Man Heltid 8 5 Sällan/aldrig Sällan/aldrig Man Heltid 5 Ibland Sällan/aldrig Kvinna Deltid 8 Ofta Ibland Kvinna Deltid 8 Ofta Ofta 5 Kvinna Heltid Ibland Ibland 6 Kvinna Heltid 5 Sällan/aldrig Sällan/aldrig 7 Man Deltid Sällan/aldrig Sällan/aldrig 8 Man Heltid 6 9 Sällan/aldrig Ofta 9 Man Deltid 57 Ofta Ibland Kvinna Heltid Ibland Ibland Kvinna Heltid 55 8 Ofta Ofta Man Heltid 5 Sällan/aldrig Sällan/aldrig Man Deltid 5 Ibland Ofta Kvinna Heltid 9 6 Ibland Ibland 5 Man Heltid Ofta Ofta 6 Kvinna Deltid Ibland Ofta 7 Man Deltid 8 Sällan/aldrig Sällan/aldrig 8 Kvinna Heltid Ofta Sällan/aldrig 9 Kvinna Heltid Ofta Ofta Kvinna Heltid Ibland Sällan/aldrig 8 6
Färdiga sammanställningar En konsult anlitades för att ta reda på hur bra personalen trivdes på en viss arbetsplats. anställda valdes ut slumpmässigt och ombads att på en skala från (mycket dåligt) till (mycket bra) ange hur väl de trivdes på arbetsplatsen. En fråga som bedömdes intressant i undersökningen var om det fanns något påvisbart samband mellan arbetstillfredsställelsen och antalet frånvarodagar. Därför ombads de utvalda personerna också uppge hur många frånvarodagar de haft det senaste året. Svaren skulle ges som ett av de tre intervall som ges i tabellen nedan. Fördelningen av svaren på de två frågorna ges i nedanstående tabell: Arbetstillfredsställelseindex Mindre än Från till 7 Mer än 7 Antalet Mindre än 6 7 frånvarodagar Från 6 till 8 Mer än 8 9 Vi tittar nu hur detta fungerar i Minitab. 9 7