MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 p Höstterminen 2016 Laboration 3 Övningsuppgifter Baserade på datasetet energibolag.rdata Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar.
Dataset Börja med att spara filen energibolag.rdata på din egen dator eller ett USB minne, ni kan inte arbeta direkt på den filen som ligger på servern för då kan ni inte spara era ändringar. Datasetet energibolag.rdata innehåller en stor mängd variabler. Med hjälp av det här datasetet ska vi analysera ett antal frågeställningar. För alla tester ska vi använda 5 % signifikansnivå. Innan ni börjar bör ni läsa igenom beskrivningen av datasetet så att ni förstår vad de olika variablerna mäter. Beskrivningen finns i filen energibolag.pdf.
1. Analys av beroende mellan variabler mätta på nominalskala För att undersöka om variabler mätta på nominalskala är beroende eller ej använder vi korstabeller och Chi Square test. Undersök om det finns ett beroende mellan huvudsaklig sysselsättning och vilken typ av elavtal man har. Här ska vi använda oss av svaren till frågorna 4 och 12. Dvs variablerna F_4 och F_12. Läs i En kort instruktion för arbete i R Commander om hur du gör en korstabellsanalys i R Commander Om ni gjort rätt bör ni fått följande korstabell, p-värde och förväntade frekvenser. Arbetar Arbetssökande Föräldraledig Pensionär Sjukskriven Studerar 1-årsavtal 11 0 1 2 0 2 2-årsavtal 12 0 0 2 0 2 3-årsavtal 15 0 0 0 0 2 annat avtal 5 0 0 0 0 1 Rörligt pris 44 1 0 8 1 15 Tillsvidarepris 25 1 1 3 0 2 p-värde:0,9032 Arbetar Arbetssökande Föräldraledig Pensionär Sjukskriven Studerar 1-årsavtal 11.487179 0.20512821 0.20512821 1.5384615 0.10256410 2.4615385 2-årsavtal 11.487179 0.20512821 0.20512821 1.5384615 0.10256410 2.4615385 3-årsavtal 12.205128 0.21794872 0.21794872 1.6346154 0.10897436 2.6153846 annat avtal 4.307692 0.07692308 0.07692308 0.5769231 0.03846154 0.9230769 Rörligt pris 49.538462 0.88461538 0.88461538 6.6346154 0.44230769 10.6153846 Tillsvidarepris 22.974359 0.41025641 0.41025641 3.0769231 0.20512821 4.9230769 För att man ska kunna lita på Chi Square testen får max 20 % av cellerna ha en förväntad frekvens som understiger 5. Vi ser att här har de flesta celler en förväntad frekvens som är lägre än 5. För att kunna använda Chi Square här måste vi minska antalet celler. Ett sätt att göra det är att slå ihop några av de kategorier som har lägst frekvenser. Vi kan prova F_4rör istället så att vi har färre kategorier av elavtal. Det ger oss följande förväntade frekvenser. Fast Rörligt Arbetar 34.9533333 72.0466667 Arbetssökande 0.6533333 1.3466667 Föräldraledig 0.6533333 1.3466667 Pensionär 4.9000000 10.1000000 Sjukskriven 0.3266667 0.6733333 Studerar 7.5133333 15.4866667
Fortfarande har hälften av cellerna en förväntad frekvens som är mindre än 5. Vi måste slå ihop kategorierna ytterligare. Vi kan exempelvis slå ihop alla som inte arbetar eller studerar till en kategori. För att göra detta behöver du skapa en ny variabel med tre utfall, arbetar, studerar, övrigt. Vi måste då skapa en my variabel. Läs avsnittet koda en ny variabel utifrån värdena på en gammal variabel i En kort instruktion för arbete i R Commander. I rutan Enter recode directives får vi nu skriva: Arbetar = Arbetar Arbetssökande = övrigt Föräldraledig = övrigt Pensionär = övrigt Sjukskriven = övrigt Studerar = Studerar (Det funkar inte att använda else här för de 4 sammanslagna kategorierna eftersom de som inte besvarat frågan då också får utfallet övrigt) Om vi sedan använder den nya variabeln tillsammans med F_4rör får vi följande resultat. Nu ser vi att samtliga celler har en förväntad frekvens som överstiger 5. Fråga 1 Vad kan du dra för slutsats av det här testet? Det kan vara intressant att göra en korstabell med relativa frekvenser också. Gör en lämplig sådan för att besvara nedanstående fråga. Fråga 2 Hur stor andel av studenterna har fast elavtal?
2. Analys av beroende mellan variabler mätta på ordinalskala De flesta variablerna i vårt datasätt är mätta på ordinalskala. Det gäller exempelvis F_53A hur nöjd man är med elbolagets kundtjänst per telefon. Variabeln F_54 får vi nog också betrakta som ordinalskala eftersom svarsalternativen är som de här. (Avståndet mellan 1 och 2 är inte samma som avståndet mellan 4 och 5.). Om respondenterna hade fyllt i en siffra för det exakta antalet gånger hade det blivit kvotskala. Antag att vi vill besvara följande fråga: Är de som ofta ringer till sitt elbolags kundtjänst mer nöjda med deras telefonkundtjänst än de som ringer sällan? För att svara på frågan kan vi underöka korrelationen mellan variablerna F_53A och F_54A. Om det finns en positiv korrelation blir svaret Ja. Då är de som ringer ofta mer nöjda med telefonsupporten. Fråga 3 Det finns olika korrelationskoefficienter, vilken av dem ska vi använda i det här fallet? Läs om hur du beräknar korrelationer i avsnittet Korrelation i En kort instruktion för arbete i R Commander. Använd Pairwise complete observations och beräkna Pairwise p-values. Fråga 4 Vilka slutsatser kan du dra från korrelationskoefficienten? Fråga 5 Vad är det som är 128 i tabellen Number of observations, vad är 223? Fråga 6 Finns det en korrelation mellan olika sätt att spara energi? Dvs de personer som vidtar en typ av energibesparande åtgärd i hög utsträckning vidtar de också andra energibesparande åtgärder i hög utsträckning? Ledtråd, beräkna en matris med flera olika korrelationskoefficienter. Fråga 7 Varför skiljer sig number of observations åt i olika celler i tabellen? Som ni ser finns det två tabeller med p-värden. Först de vanliga p-värdena därefter en tabell med rubriken; Adjusted p-values (Holm's method) Om man utför en stor mängd av hypotestester kommer 5% av testerna att vara signifikanta även om det inte finns några samband för något av dem. Bonferoni och Holm utvecklade en metod för att komma runt det problemet. Metoden syftar till det ska vara svårare att förkasta nollhypotesen ju fler hypotestester som utförs. R Commander ger oss 2 matriser med p- värden. Den senare är justerad med Holms metod. Ju fler korrelationskoefficienter du beräknar samtidigt desto större justering uppåt görs av p-värdet. Tidigare när vi bara beräknade en korrelation var det samma siffror i bägge matriserna eftersom det inte krävdes någon Holm-Bonferoni justering av dem.
3. Analys av ordinaldata jämförelse mellan 2 oberoende urval. På föreläsningen testade vi om personer som känner sin elförbrukning använder lågenergilampor i högre utsträckning än personer som inte gör det. Vi ska nu göra motsvarande test för energisnåla vitvaror. Eftersom vi ska jämföra en variabel mätt på ordinalskala mellan två grupper använder vi Wilcoxons rangsummetest. (Detta test kallas two sample Wilcoxon test i R commander. I en del andra programvaror, exempelvis SPSS, kallas det för Mann-Whittney,) Vi ska alltså testa följande hypoteser: H 0: De som känner till sin elförbrukning använder energisnåla vitvaror i lika stor utsträckning än de som inte känner till sin elförbrukning. H 1: De som känner till sin elförbrukning använder energisnåla vitvaror i större eller mindre utsträckning än de som inte känner till sin elförbrukning. Läs avsnittet om Wilcoxons rangsummetest i En kort instruktion för arbete i R Commander. Fråga 8 Kan ni dra några slutsatser avseende hela populationen från det här testet och i så fall vilken/vilka? Fråga 9 Vilken grupp använder energisnåla vitvaror i störst utsträckning?
3. Analys av ordinaldata jämförelse mellan flera oberoende urval. På föreläsningen testade vi följande hypoteser med hjälp av Kruskal Wallis test: H 0: De 3 grupperna använder lågenergilampor i lika stor utsträckning. H 1: De 3 grupperna använder lågenergilampor i olika stor utsträckning. Där de tre grupperna var låg medel och hög elförbrukning. (De som inte visste sin elförbrukning togs bort från urvalet) Ni ska nu istället göra en liknande test för att testa följande hypoteser: H 0: De 3 grupperna släcker alla lampor i rum där ingen är i lika stor utsträckning. H 1: De 3 grupperna släcker alla lampor i rum där ingen är i olika stor utsträckning. Ni ska alltså jämföra svaren på fråga F_5B för grupper som ni bildar med hjälp av F_6tre (Om ni tittar i datan ser ni att för variabeln F_6tre har de som ej vet sin elförbrukning enligt variabel F_6vet inget värde på F_6tre, De kommer hanteras som missing och faller ur analysen.) Fråga 10 Innan ni gör analysen, fundera på vilken av de tre grupperna som ni tror är mest noga med att släcka lampor? Läs avsnittet om Kruskal Wallis test i En kort instruktion för arbete i R Commander. Fråga 11 vilken av de tre grupperna är mest noga med att släcka lampor, vilken grupp är minst noga med det? Fråga 12 Kan ni dra några slutsatser angående hela populationen från det här testet och i så fall vilken/vilka? Variabeln som vi använde för gruppindelning i det här fallet var en var en variabel som är mätt på ordinalskala. Vi kan därför också beräkna en Spearmans korrelationskoefficient mellan F5B och F6. Beräknar vi korrelationen är inte gruppstorleken viktig så då behöver vi inte slå ihop utfallen på F6. Fråga 13 Kan ni dra några slutsatser från korrelationskoefficienten?
4. Analys av ordinaldata jämförelse mellan 2 beroende urval. Är pris eller service viktigast för elbolagens kunder i deras relationer med sina elbolag? Eftersom vi kan koppla samman ett visst svar på den ena frågan med ett visst svar på den andra är det här möjligt att använda testerna för beroende urval. Vi kan dock inte använda t- test för beroende urval eftersom det kräver intervall eller kvotskala. Däremot kan vi använda Wilcoxons teckenrangtest, (som i R Commander kallas Paired sample Wilcoxon test ) Låt oss testa följande hypoteser H 0: svenska energikonsumenter anser att pris och service är lika viktigt när de väljer elbolag H 1: Svenska energikonsumenter anser att den ena faktorn är viktigare än den andra. Läs avsnittet om Wilcoxons teckenrangtest i En kort instruktion för arbete i R Commander. Fråga 14 Kan ni dra några slutsatser från testet och i så fall vilken?
Svar på frågorna i övningslabben: Fråga 1: Vad drar du för slutsats av detta test? Eftersom p-värden är större än vår signifikansnivå kan vi inte förkasta nollhypotesen och därmed inte dra några slutsatser. Fråga 2 Hur stor andel av studenterna har fast elavtal? För att besvara den här frågan måste vi ha en korstabell där kolumnerna summerar till 100 % (Om vi har sysselsättning i kolumnerna annars blir det tvärtom) Arbetar Studerar övrigt Fast 35,5 26,1 25,0 Rörligt 64,5 73,9 75,0 Total 100 100 100 Count 107 23 20 Vi kan se att 26 procent av studenterna har fast avtal, i urvalet har alltså studenterna fast avtal i lägre utsträckning än övriga grupper men eftersom testen inte blev signifikant kan vi inte dra några slutsatser om hur det är i hela populationen. Fråga 3 Det finns olika korrelationskoefficienter, vilken av dem ska vi använda i det här fallet? Eftersom vi har ordinaldata ska vi använda oss av Spearmans korrelationskoefficient Fråga 4 Vilka slutsatser kan du dra från korrelationskoefficienten? Spearman correlations: F_53A F_54A F_53A 1.0000 0.0816 F_54A 0.0816 1.0000 Number of observations: F_53A F_54A F_53A 223 128 F_54A 128 223
Pairwise two-sided p-values: F_53A F_54A F_53A 0.3601 F_54A 0.3601 Adjusted p-values (Holm's method) F_53A F_54A F_53A 0.3601 F_54A 0.3601 p-värdet är 0.36. Vi kan inte förkasta nollhypotesen att korrelationskoefficienten är lika med 0. Därmed kan vi inte dra några slutsatser. Fråga 5 vad är det som är 128 i tabellen Number of observations, vad är 223? 223 personer har besvarat enkäten men enbart 128 personer har besvarat dessa båda frågor. Fråga 6 Finns det en korrelation mellan olika sätt att spara energi? Dvs de personer som vidtar en typ av energibesparande åtgärd i hög utsträckning vidtar de också andra energibesparande åtgärder i hög utsträckning? Ledtråd, beräkna en matris med flera olika korrelationskoefficienter. Den fråga som handlar om energibesparing är fråga 5. Vi ser om svaren till de olika delfrågorna korrelerar med varandra genom att göra en korrelationsmatris för all F_5 variablerna.
Vi ser från tabellen Pairwise two-sided p-values: att de flesta korrelationskoefficienterna är signifikanta så en generell slutsats är att det finns det en korrelation mellan olika sätt att spara energi. Undantagen är korrelationerna mellan H & A, H & E och H & F. Fråga 7 Varför skiljer sig number of observations åt i olika celler i tabellen? För varje par av frågor är antal respondenter som besvarat båda frågorna olika. I diagonalen ska det stå hur många som besvarat just den frågan och det varierar också mellan de olika frågorna.
Fråga 8 Kan ni dra några slutsatser avseende hela populationen från det här testet och i så fall vilken/vilka? Om ni gör rätt ska ni få följande resultat: Eftersom p-värdet är lägre än 5 % kan vi förkasta nollhypotesen, därmed kan vi dra slutsatsen att de båda grupperna använder energisnåla vitvaror i olika stor utsträckning. Från medianerna ser vi att de som vet sin förbrukning har generellt sett högre svar, de använder energisnåla vitvaror i högre utsträckning. Fråga 9 Vilken grupp använder energisnåla vitvaror i störst utsträckning? Om vi tittar på medianerna ser vi att median av svaren för de som vet sin elförbrukning är 5 medan de som ej vet sin elförbrukning har medianen 3. De som intresserar sig för att spara energi använder vet nog sin elförbrukning och använder energisnåla vitvaror i större utsträckning. Fråga 10 Innan ni gör analysen, fundera på vilken av de tre grupperna som ni tror är mest noga med att släcka lampor? De som släcker lampor bör sänka sin elförbrukning, det är ett argument för att de med lägst elförbrukning skulle vara mest noga med att släcka lampor. Om man av andra skäl än lamporna har en hög elförbrukning och därmed en hög elkostnad kanske man blir mer angelägen om att sänka den. Det är ett argument för att de med högst elförbrukning skulle vara mest noga med att släcka lampor.
Fråga 11 vilken av de tre grupperna är mest noga med att släcka lampor, vilken grupp är minst noga med det? Om ni gjort rätt ska ni ha fått följande resultat: > tapply(energibolag3$f_5b, energibolag3$f_6tre, median, na.rm=true) hög >7999 låg <2000 medel 5 7 4 > kruskal.test(f_5b ~ F_6tre, data=energibolag3) Kruskal-Wallis rank sum test data: F_5B by F_6tre Kruskal-Wallis chi-squared = 13.1785, df = 2, p-value = 0.001375 De som förbrukar mindre än 2 000 kwh är mest noga med att släcka lampor (de har medianen 7). Det måste man kanske vara om man ska få ner sin förbrukning så mycket? De som har en medelförbrukning är minst noga med det (median= 4). Förmodligen hushåll utan elvärme men som inte är så noga med att spara el. Storförbrukarna ligger i mitten (median = 5). Dessa är förmodligen hushåll med elvärme, En del av dem kanske försöker få ner sin dyra elräkning genom att släcka lampor, andra kanske inte bryr sig om det då lamporna står för så liten del av deras totala elförbrukning. Fråga 12 Kan ni dra några slutsatser angående hela populationen från det här testet och i så fall vilken/vilka? P värdet är väldigt lågt, 0.001. Eftersom det är lägre än 5 % vi kan dra slutsatsen att minst en av de tre grupperna avviker från de andra. Fråga 13 Kan ni dra några slutsatser från korrelationskoefficienten? Spearmans korrelationskoefficient är inte signifikant eftersom p-värdet är högre än 5 %. Därmed kan vi inte dra några slutsatser. För att Spearmans korrelation ska vara positiv och signifikant måste vi ha ett stadigt stigande samband. För att den ska vara negativ och signifikant måste vi ha ett stadigt sjunkande samband. Här hade mellangruppen de högsta värdena. En slags motsvarighet till regressionsanalysens icke linjära samband. Den typen av samband på ordinalskala kan vi inte fånga med spearmans korrelationskoefficient utan enbart med Kruskal Wallis test.
Fråga 14 Kan ni dra några slutsatser från de båda testerna och i så fall vilken/vilka? Om ni gjort rätt ska ni ha fått följande resultat: > median(energibolag3$f_14a - energibolag3$f_14f, na.rm=true) + # median difference [1] 0 > wilcox.test(energibolag3$f_14a, energibolag3$f_14f, alternative='two.sided', + paired=true) Wilcoxon signed rank test with continuity correction data: energibolag3$f_14a and energibolag3$f_14f V = 4610, p-value = 0.505 alternative hypothesis: true location shift is not equal to 0 Eftersom p-värdet är högre än 5% kan vi inte förkasta noll hypotesen. Därmed kan vi inte dra några slutsatser över hela populationen. (Medianen av differenserna i urvalet är lika med noll vilket betyder att det är ungefär lika många positiva som negativa differenser. Det innebär att de som tycker priset är viktigast är ungefär lika många som de som tycker att servicen är viktigast.)