S0005M Statistik2 Lp 4 2016 Laboration 3 Inferens fo r andelar och korstabeller Laborationen behandlar Test av andelar med konfidensintervall och hypotestest Chi två test av oberoende mellan kvalitativa variabler i en sammanställd korstabell Chi två test mellan kvalitativa variabler från enkätundersökningen i Statistik 1. Datamaterialet till enkätundersökningen (seminarieuppgift 4) i Statistik 1, S0004M, måste vara tillgängligt vid det schemalagda labbtillfället. Laborationen görs i grupper på 2 3 personer (gärna samma grupper som i Statistik 1). KGB och bonus Denna gång ska laborationsrapporten rättas av en annan grupp vid ett labbrättningstillfälle en sk kamratgruppsbedömning (KGB) måndag 23 maj. Ta med en utskrift av rapporten till det lektionspasset. De som deltar aktivt vid KGB samt vid minst 2 av 3 lektioner får 1 poäng i bonus till tentamen den 28 maj i år. Inlämningsdatum De som deltar vid KGB ska lämna en ev korrigerad laboration i Fronter senast 25 maj. Detta gäller även för dem som inte deltar vid KGB tillfället. Förberedelser Ta med datamaterialet till enkäten, och fundera på vilka kategoriska (kvalitativa) variabler som kan testas för oberoende med Chi 2 test. Handberäkning av uppgift A 2. 1
Del A Nedan visas resultatet av två opinionsundersökningar utförda i april 2016 av olika institut: Novus/TV4 http://novus.se/valjaropinionen/tv4novus valjarbarometer/2016 2/ publicerad 22 april 2016, och DN/Ipsos. http://www.ipsos.se/160426 Dn Ipsos valjarbarometer april 2016, publicerad 26 april 2016. Båda undersökningarna använder telefonintervjuer av ett riksrepresentativt urval svenska medborgare 18 år och äldre, och frågar respondenterna hur de skulle rösta om det var val till riksdagen idag. % Valet 2014 Novus april 2016 Ipsos april 2016 M 23,3 24,0 28,1 L 5,4 5,8 6,3 C 6,1 6,8 6,1 KD 4,6 3,1 3,3 S 31,0 26,0 24,4 V 5,7 7,1 7,1 MP 6,9 5,6 4,8 SD 12,9 18,9 16,6 FI 3,1 1,9 2,8 Övriga 1,0 0,8 0,6 totalt 100 100 Andel osäkra (%) (ingår ej). Antal intervjuer 9,7 16,3 4002, varav 3614 uppgav parti 1200, varav 1004 uppgav parti 1. Nyheterna kommenterade Novus/TV4 väljarbarometer som Positiv trend för Socialdemokraterna (22/4 2016), medan DN/Ipsos använder rubriken Socialdemokraterna tappar stöd lägsta noteringen för vänsterblocket sedan 1979 (26/4 2016). Vem ska vi tro på? Är det en statistiskt säkerhetsställd skillnad mellan andelen som sympatiserar med socialdemokraterna (S) i de båda undersökningarna? Om så är fallet vad kan det bero på? Besvara frågan med ett 95% konfidensintervall för skillnaden mellan andelarna. Minitab: Stat/ Basic Statistics. Tänk efter om det är analys av 1 eller 2 andelar (proportions) som ska väljas. Då det handlar om ett sammanställt material (summarized data) måste antalet händelser (x, number of events) och stickprovets storlek (n, number of trials) matas in. Räkna ut antalet som väljer S bland de som uppgett parti med hjälp av procentsiffrorna (som måste avrundas till heltal). Ändra konfidensgrad under Options. Redovisa konfidensintervallet och tolka resultatet tydligt i ord. 2. Kristdemokraterna (KD) hamnar under 4 % spärren enligt båda mätningarna. Använd resultatet från Novus och undersök med ett hypotestest på signifikansnivå 1 % om andelen som skulle rösta på KD i april är signifikant under 4 %. 2
Gör först beräkningen för hand där nedanstående punkter ska undersökas och kommenteras, och redovisa sedan motsvarande resultat med hjälp av Minitab. a) Vilken är populationen? Är stickprovet representativt för populationen? Kommentera bortfallet (andelen osäkra). b) Undersök om villkoren för normalapproximation är uppfyllda den metod som används för att approximera andelar med Normalfördelningen. c) Noll och mothypotes till frågeställningen d) Vilken testvariabel som används och värdet på den e) Kritisk gräns (tabellvärde) som testvariabeln ska testas mot, alt p värdet till testet. f) Slutsats av testet och tydlig tolkning av resultatet Minitab: Stat/ Basic Statistics. Fundera om det är analys av 1 eller 2 andelar (proportions) som ska väljas. Välj Summarized data. Beräkna själv antalet KD bland de som uppgett parti. Kryssa för hypotestest och ändra konfidensgrad under Options samt välj lämplig mothypotes. Välj gärna Normalapproximation, då Fishers exakta metod inte ingår i denna kurs. 3. Upprepa föregående test av 4% spärren för kristdemokraterna men nu med resultatet från Ipsos, där 33 av 1004 angav KD. Använd signifikansnivån 1 %. Blir det någon skillnad i slutsatsen, och vad kan den i så fall bero på? Del B Vattenfall gjorde år 1991 en undersökning bland 800 småhusägare angående elanvändning mm. Bland annat undersöktes duschvanor med följande resultat uppdelat på män och kvinnor. Duschfrekvens (%) man kvinna Aldrig 1 % 0 % Sällan 3 % 1 % En ggr/vecka 15 % 6 % Flera ggr/v 52 % 52 % En gång/dag 27 % 39 % Flera gånger/dag 2 % 2 % 100 % 100 % Är det skillnad mellan män och kvinnors duschvanor bland småhusägare? Undersök det med Chi tvåtest på signifikansnivån 1 %. För att analysera färdiga korstabeller med chi två test måste cellerna bestå av observerat antal och inte procentandelar. Om vi antar att det var lika många män som kvinnor i undersökningen så blir resultatet enligt nedan. Notera att svarsalternativen Aldrig och Sällan har slagits ihop då förväntat antal (E) annars blir för litet (E.5). Det finns två sätt att mata in den färdiga tabellen i Minitab, som sammanställd korstabell (alt 1) eller som rådata när variablerna är i var sin kolumn (alt2). Välj ett av alternativen nedan. 3
Alt 1. Skriv in nedanstående tabell i datamatrisen (worksheet) inklusive rubrikerna som ska vara i de grå fälten. Duschfrekvens (antal) man kvinna 1. aldrig/sällan 16 4 2. en ggr/vecka 60 24 3. flera ggr/v 208 208 4. en gång/dag 108 156 5. flera gånger/dag 8 8 Minitab: Stat/ Tables/Crosstabulation and Chi square. Välj summarized data. Man, kvinna i tabellens kolumner och Duschfrekvens i rader. Se till att Chi 2 test samt expected cell counts (E) och contribution to chi square är markerade under Chi Square. Alt 2. Skriv in nedanstående tabell i datamatrisen med rubrikerna i de grå fälten. duschvanor frekvens kön 1. aldrig/sällan 16 m 2. en ggr/vecka 60 m 3. flera ggr/v 208 m 4. en gång/dag 108 m 5. flera gånger/dag 8 m 1. aldrig/sällan 4 k 2. en ggr/vecka 24 k 3. flera ggr/v 208 k 4. en gång/dag 156 k 5. flera gånger/dag 8 k Minitab: Stat/ Tables/Cross Tabulation and Chi square. Välj Raw Data (rådata), och sedan Duschvanor i rader och Kön i kolumner och frekvens till Frequencies. Under valet Chi Square markeras analysen samt önskade mått som t ex förväntat antal och bidrag till Chi 2 statistikan. I rapporten ska nedanstående framgå: a) Formulering av nollhypotes och mothypotes för detta test. b) Resultat av Chi två testet från Minitab c) Undersökning om villkoren för att göra Chi två test i korstabeller är uppfyllda. d) Vad blir förväntat antal kvinnor som duschar en gång per dag enligt nollhypotesen? Visa även hur beräkningen att detta värde görs. e) Vilket bidrag till testvariabeln (Chi 2 statistikan) kommer från kvinnor som duschar en gång per dag. Visa formel och uträkning. f) Testvariabeln till testet. Skriv även ut formeln som används. g) Kritisk gräns (tabellvärdet) till Chi två testet samt antal frihetsgrader. h) Tolka resultatet. Vad är slutsatsen? 4
Del C Utifrån datamaterialet i enkätundersökningen i Statistik 1 (seminarieuppgift 4 i S0004M) ska lämpliga tester göras av intressanta variabler. Om er grupp inte har kvar datamaterialet kan ni låna från någon annan grupp. a) Beskriv kort vad enkätundersökningen handlade om. Intressanta kvalitativa (kategoriska) variabler ska väljas ut till chi två test. Är mätvärdena kodade måste kodningen också förklaras, (t ex man = 1, kvinna = 2). b) Gör (minst) två olika chi två test över lämpliga variabler för att testa om det finns något signifikant samband mellan två kvalitativa variabler. Formulera noll och mothypotes. Ange testvariabel och p värde, samt tolka resultatet noggrant. c) Extra: Om enkätundersökningen har lämpliga kvantitativa variabler kan ett konfidensintervall för genomsnittet i populationen (µ) göras, alt ett konfidensintervall för µ 1 µ 2 beräknas mellan två kvalitativa grupper (Stat, Basic statistics, 2 sample t). 5
Rättningsmall till laboration 3 Laborationen är gjord av:........ Granskad (rättad) av:......... Här kommer några punkter som ni kan titta på vid rättningen av laborationen: Tolkas konfidensintervallet korrekt i del A.1? Är hypoteserna korrekt formulerade i del A:2 och Del B? H 0 ska alltid vara av typen: Inget (=noll) samband, avvikelse, skillnad... är mothypotesen H a korrekt? Ensidig eller tvåsidig? Framgår det vilken signifikansnivå (α) eller konfidensgrad (1 α) som används och är den korrekt? Undersök om den kritiska gränsen (tabellvärdet) är korrekt avläst. Är slutsatsen korrekt? Har slutsatsen tolkats rätt i vanliga ord och inte bara med statistisk vokabulär? Det räcker inte att bara säga H 0 inte ska förkastas, utan hellre skillnaden är inte är signifikant (eller statistiskt säkerhetsställd) på sign.nivå. Är det en signifikant skillnad bör det också framgå hur den yttrar sig, ex Det är en statistiskt säkerhetsställd skillnad (α = 0.05) i kroppsvikt mellan män och kvinnor, där män i genomsnitt är xx kg tyngre. Framgår det i del C vad enkäten som undersöks handlar om? Är det två kvalitativa variabler som är testade i enkätundersökningen i del C? Framgår ev kodning av variablerna? Övrigt? (Språk? Stavning? Tydlighet?...) Kommentarer: 6