Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Relevanta dokument
Beskrivning av datasetet energibolag.rdata

Att välja statistisk metod

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Repetitionsföreläsning

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

import totalt, mkr index 85,23 100,00 107,36 103,76

Repetitionsföreläsning

Fråga nr a b c d 2 D

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

En kort instruktion för arbete i R Commander

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

OBS! Vi har nya rutiner.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Uppgift 1. Produktmomentkorrelationskoefficienten

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

En kort instruktion för arbete i SPSS

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Laboration 3 Inferens fo r andelar och korstabeller

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

FACIT (korrekta svar i röd fetstil)

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Föreläsning G60 Statistiska metoder

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Lösningar till SPSS-övning: Analytisk statistik

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Medicinsk statistik II

Hypotestestning och repetition

a) Facit till räkneseminarium 3

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 2. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys MÄLARDALENS HÖGSKOLA

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Gamla tentor (forts) ( x. x ) ) 2 x1

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

Tentan består av 10 frågor, totalt 30 poäng. Det krävs 20 poäng för att få godkänt på tentan, varav 50 % inom respektive moment.

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

7.5 Experiment with a single factor having more than two levels

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

OBS! Vi har nya rutiner.

SOPA62 - Kunskapsproduktion i socialt arbete

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

EXAMINATION KVANTITATIV METOD vt-11 (110204)

OBS! Vi har nya rutiner.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Datorlaboration 2 Konfidensintervall & hypotesprövning

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars Ten 1, 9 hp

7.3.3 Nonparametric Mann-Whitney test

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Datorövning 2 Statistik med Excel (Office 2007, svenska)

InStat Exempel 4 Korrelation och Regression

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Statistik för teknologer, 5 poäng Skrivtid:

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Jämförelse av två populationer

Föreläsning G60 Statistiska metoder

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

2. Test av hypotes rörande medianen i en population.

Uppgift 1. Deskripitiv statistik. Lön

Laboration 3: Urval och skattningar

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Analytisk statistik. Tony Pansell, optiker Universitetslektor

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Mata in data i Excel och bearbeta i SPSS

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

Forsknings- och undersökningsmetodik Skrivtid: 4h

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Transkript:

MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 p Höstterminen 2016 Laboration 3 Övningsuppgifter Baserade på datasetet energibolag.rdata Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar.

Dataset Börja med att spara filen energibolag.rdata på din egen dator eller ett USB minne, ni kan inte arbeta direkt på den filen som ligger på servern för då kan ni inte spara era ändringar. Datasetet energibolag.rdata innehåller en stor mängd variabler. Med hjälp av det här datasetet ska vi analysera ett antal frågeställningar. För alla tester ska vi använda 5 % signifikansnivå. Innan ni börjar bör ni läsa igenom beskrivningen av datasetet så att ni förstår vad de olika variablerna mäter. Beskrivningen finns i filen energibolag.pdf.

1. Analys av beroende mellan variabler mätta på nominalskala För att undersöka om variabler mätta på nominalskala är beroende eller ej använder vi korstabeller och Chi Square test. Undersök om det finns ett beroende mellan huvudsaklig sysselsättning och vilken typ av elavtal man har. Här ska vi använda oss av svaren till frågorna 4 och 12. Dvs variablerna F_4 och F_12. Läs i En kort instruktion för arbete i R Commander om hur du gör en korstabellsanalys i R Commander Om ni gjort rätt bör ni fått följande korstabell, p-värde och förväntade frekvenser. Arbetar Arbetssökande Föräldraledig Pensionär Sjukskriven Studerar 1-årsavtal 11 0 1 2 0 2 2-årsavtal 12 0 0 2 0 2 3-årsavtal 15 0 0 0 0 2 annat avtal 5 0 0 0 0 1 Rörligt pris 44 1 0 8 1 15 Tillsvidarepris 25 1 1 3 0 2 p-värde:0,9032 Arbetar Arbetssökande Föräldraledig Pensionär Sjukskriven Studerar 1-årsavtal 11.487179 0.20512821 0.20512821 1.5384615 0.10256410 2.4615385 2-årsavtal 11.487179 0.20512821 0.20512821 1.5384615 0.10256410 2.4615385 3-årsavtal 12.205128 0.21794872 0.21794872 1.6346154 0.10897436 2.6153846 annat avtal 4.307692 0.07692308 0.07692308 0.5769231 0.03846154 0.9230769 Rörligt pris 49.538462 0.88461538 0.88461538 6.6346154 0.44230769 10.6153846 Tillsvidarepris 22.974359 0.41025641 0.41025641 3.0769231 0.20512821 4.9230769 För att man ska kunna lita på Chi Square testen får max 20 % av cellerna ha en förväntad frekvens som understiger 5. Vi ser att här har de flesta celler en förväntad frekvens som är lägre än 5. För att kunna använda Chi Square här måste vi minska antalet celler. Ett sätt att göra det är att slå ihop några av de kategorier som har lägst frekvenser. Vi kan prova F_4rör istället så att vi har färre kategorier av elavtal. Det ger oss följande förväntade frekvenser. Fast Rörligt Arbetar 34.9533333 72.0466667 Arbetssökande 0.6533333 1.3466667 Föräldraledig 0.6533333 1.3466667 Pensionär 4.9000000 10.1000000 Sjukskriven 0.3266667 0.6733333 Studerar 7.5133333 15.4866667

Fortfarande har hälften av cellerna en förväntad frekvens som är mindre än 5. Vi måste slå ihop kategorierna ytterligare. Vi kan exempelvis slå ihop alla som inte arbetar eller studerar till en kategori. För att göra detta behöver du skapa en ny variabel med tre utfall, arbetar, studerar, övrigt. Vi måste då skapa en my variabel. Läs avsnittet koda en ny variabel utifrån värdena på en gammal variabel i En kort instruktion för arbete i R Commander. I rutan Enter recode directives får vi nu skriva: Arbetar = Arbetar Arbetssökande = övrigt Föräldraledig = övrigt Pensionär = övrigt Sjukskriven = övrigt Studerar = Studerar (Det funkar inte att använda else här för de 4 sammanslagna kategorierna eftersom de som inte besvarat frågan då också får utfallet övrigt) Om vi sedan använder den nya variabeln tillsammans med F_4rör får vi följande resultat. Nu ser vi att samtliga celler har en förväntad frekvens som överstiger 5. Fråga 1 Vad kan du dra för slutsats av det här testet? Det kan vara intressant att göra en korstabell med relativa frekvenser också. Gör en lämplig sådan för att besvara nedanstående fråga. Fråga 2 Hur stor andel av studenterna har fast elavtal?

2. Analys av beroende mellan variabler mätta på ordinalskala De flesta variablerna i vårt datasätt är mätta på ordinalskala. Det gäller exempelvis F_53A hur nöjd man är med elbolagets kundtjänst per telefon. Variabeln F_54 får vi nog också betrakta som ordinalskala eftersom svarsalternativen är som de här. (Avståndet mellan 1 och 2 är inte samma som avståndet mellan 4 och 5.). Om respondenterna hade fyllt i en siffra för det exakta antalet gånger hade det blivit kvotskala. Antag att vi vill besvara följande fråga: Är de som ofta ringer till sitt elbolags kundtjänst mer nöjda med deras telefonkundtjänst än de som ringer sällan? För att svara på frågan kan vi underöka korrelationen mellan variablerna F_53A och F_54A. Om det finns en positiv korrelation blir svaret Ja. Då är de som ringer ofta mer nöjda med telefonsupporten. Fråga 3 Det finns olika korrelationskoefficienter, vilken av dem ska vi använda i det här fallet? Läs om hur du beräknar korrelationer i avsnittet Korrelation i En kort instruktion för arbete i R Commander. Använd Pairwise complete observations och beräkna Pairwise p-values. Fråga 4 Vilka slutsatser kan du dra från korrelationskoefficienten? Fråga 5 Vad är det som är 128 i tabellen Number of observations, vad är 223? Fråga 6 Finns det en korrelation mellan olika sätt att spara energi? Dvs de personer som vidtar en typ av energibesparande åtgärd i hög utsträckning vidtar de också andra energibesparande åtgärder i hög utsträckning? Ledtråd, beräkna en matris med flera olika korrelationskoefficienter. Fråga 7 Varför skiljer sig number of observations åt i olika celler i tabellen? Som ni ser finns det två tabeller med p-värden. Först de vanliga p-värdena därefter en tabell med rubriken; Adjusted p-values (Holm's method) Om man utför en stor mängd av hypotestester kommer 5% av testerna att vara signifikanta även om det inte finns några samband för något av dem. Bonferoni och Holm utvecklade en metod för att komma runt det problemet. Metoden syftar till det ska vara svårare att förkasta nollhypotesen ju fler hypotestester som utförs. R Commander ger oss 2 matriser med p- värden. Den senare är justerad med Holms metod. Ju fler korrelationskoefficienter du beräknar samtidigt desto större justering uppåt görs av p-värdet. Tidigare när vi bara beräknade en korrelation var det samma siffror i bägge matriserna eftersom det inte krävdes någon Holm-Bonferoni justering av dem.

3. Analys av ordinaldata jämförelse mellan 2 oberoende urval. På föreläsningen testade vi om personer som känner sin elförbrukning använder lågenergilampor i högre utsträckning än personer som inte gör det. Vi ska nu göra motsvarande test för energisnåla vitvaror. Eftersom vi ska jämföra en variabel mätt på ordinalskala mellan två grupper använder vi Wilcoxons rangsummetest. (Detta test kallas two sample Wilcoxon test i R commander. I en del andra programvaror, exempelvis SPSS, kallas det för Mann-Whittney,) Vi ska alltså testa följande hypoteser: H 0: De som känner till sin elförbrukning använder energisnåla vitvaror i lika stor utsträckning än de som inte känner till sin elförbrukning. H 1: De som känner till sin elförbrukning använder energisnåla vitvaror i större eller mindre utsträckning än de som inte känner till sin elförbrukning. Läs avsnittet om Wilcoxons rangsummetest i En kort instruktion för arbete i R Commander. Fråga 8 Kan ni dra några slutsatser avseende hela populationen från det här testet och i så fall vilken/vilka? Fråga 9 Vilken grupp använder energisnåla vitvaror i störst utsträckning?

3. Analys av ordinaldata jämförelse mellan flera oberoende urval. På föreläsningen testade vi följande hypoteser med hjälp av Kruskal Wallis test: H 0: De 3 grupperna använder lågenergilampor i lika stor utsträckning. H 1: De 3 grupperna använder lågenergilampor i olika stor utsträckning. Där de tre grupperna var låg medel och hög elförbrukning. (De som inte visste sin elförbrukning togs bort från urvalet) Ni ska nu istället göra en liknande test för att testa följande hypoteser: H 0: De 3 grupperna släcker alla lampor i rum där ingen är i lika stor utsträckning. H 1: De 3 grupperna släcker alla lampor i rum där ingen är i olika stor utsträckning. Ni ska alltså jämföra svaren på fråga F_5B för grupper som ni bildar med hjälp av F_6tre (Om ni tittar i datan ser ni att för variabeln F_6tre har de som ej vet sin elförbrukning enligt variabel F_6vet inget värde på F_6tre, De kommer hanteras som missing och faller ur analysen.) Fråga 10 Innan ni gör analysen, fundera på vilken av de tre grupperna som ni tror är mest noga med att släcka lampor? Läs avsnittet om Kruskal Wallis test i En kort instruktion för arbete i R Commander. Fråga 11 vilken av de tre grupperna är mest noga med att släcka lampor, vilken grupp är minst noga med det? Fråga 12 Kan ni dra några slutsatser angående hela populationen från det här testet och i så fall vilken/vilka? Variabeln som vi använde för gruppindelning i det här fallet var en var en variabel som är mätt på ordinalskala. Vi kan därför också beräkna en Spearmans korrelationskoefficient mellan F5B och F6. Beräknar vi korrelationen är inte gruppstorleken viktig så då behöver vi inte slå ihop utfallen på F6. Fråga 13 Kan ni dra några slutsatser från korrelationskoefficienten?

4. Analys av ordinaldata jämförelse mellan 2 beroende urval. Är pris eller service viktigast för elbolagens kunder i deras relationer med sina elbolag? Eftersom vi kan koppla samman ett visst svar på den ena frågan med ett visst svar på den andra är det här möjligt att använda testerna för beroende urval. Vi kan dock inte använda t- test för beroende urval eftersom det kräver intervall eller kvotskala. Däremot kan vi använda Wilcoxons teckenrangtest, (som i R Commander kallas Paired sample Wilcoxon test ) Låt oss testa följande hypoteser H 0: svenska energikonsumenter anser att pris och service är lika viktigt när de väljer elbolag H 1: Svenska energikonsumenter anser att den ena faktorn är viktigare än den andra. Läs avsnittet om Wilcoxons teckenrangtest i En kort instruktion för arbete i R Commander. Fråga 14 Kan ni dra några slutsatser från testet och i så fall vilken?

Svar på frågorna i övningslabben: Fråga 1: Vad drar du för slutsats av detta test? Eftersom p-värden är större än vår signifikansnivå kan vi inte förkasta nollhypotesen och därmed inte dra några slutsatser. Fråga 2 Hur stor andel av studenterna har fast elavtal? För att besvara den här frågan måste vi ha en korstabell där kolumnerna summerar till 100 % (Om vi har sysselsättning i kolumnerna annars blir det tvärtom) Arbetar Studerar övrigt Fast 35,5 26,1 25,0 Rörligt 64,5 73,9 75,0 Total 100 100 100 Count 107 23 20 Vi kan se att 26 procent av studenterna har fast avtal, i urvalet har alltså studenterna fast avtal i lägre utsträckning än övriga grupper men eftersom testen inte blev signifikant kan vi inte dra några slutsatser om hur det är i hela populationen. Fråga 3 Det finns olika korrelationskoefficienter, vilken av dem ska vi använda i det här fallet? Eftersom vi har ordinaldata ska vi använda oss av Spearmans korrelationskoefficient Fråga 4 Vilka slutsatser kan du dra från korrelationskoefficienten? Spearman correlations: F_53A F_54A F_53A 1.0000 0.0816 F_54A 0.0816 1.0000 Number of observations: F_53A F_54A F_53A 223 128 F_54A 128 223

Pairwise two-sided p-values: F_53A F_54A F_53A 0.3601 F_54A 0.3601 Adjusted p-values (Holm's method) F_53A F_54A F_53A 0.3601 F_54A 0.3601 p-värdet är 0.36. Vi kan inte förkasta nollhypotesen att korrelationskoefficienten är lika med 0. Därmed kan vi inte dra några slutsatser. Fråga 5 vad är det som är 128 i tabellen Number of observations, vad är 223? 223 personer har besvarat enkäten men enbart 128 personer har besvarat dessa båda frågor. Fråga 6 Finns det en korrelation mellan olika sätt att spara energi? Dvs de personer som vidtar en typ av energibesparande åtgärd i hög utsträckning vidtar de också andra energibesparande åtgärder i hög utsträckning? Ledtråd, beräkna en matris med flera olika korrelationskoefficienter. Den fråga som handlar om energibesparing är fråga 5. Vi ser om svaren till de olika delfrågorna korrelerar med varandra genom att göra en korrelationsmatris för all F_5 variablerna.

Vi ser från tabellen Pairwise two-sided p-values: att de flesta korrelationskoefficienterna är signifikanta så en generell slutsats är att det finns det en korrelation mellan olika sätt att spara energi. Undantagen är korrelationerna mellan H & A, H & E och H & F. Fråga 7 Varför skiljer sig number of observations åt i olika celler i tabellen? För varje par av frågor är antal respondenter som besvarat båda frågorna olika. I diagonalen ska det stå hur många som besvarat just den frågan och det varierar också mellan de olika frågorna.

Fråga 8 Kan ni dra några slutsatser avseende hela populationen från det här testet och i så fall vilken/vilka? Om ni gör rätt ska ni få följande resultat: Eftersom p-värdet är lägre än 5 % kan vi förkasta nollhypotesen, därmed kan vi dra slutsatsen att de båda grupperna använder energisnåla vitvaror i olika stor utsträckning. Från medianerna ser vi att de som vet sin förbrukning har generellt sett högre svar, de använder energisnåla vitvaror i högre utsträckning. Fråga 9 Vilken grupp använder energisnåla vitvaror i störst utsträckning? Om vi tittar på medianerna ser vi att median av svaren för de som vet sin elförbrukning är 5 medan de som ej vet sin elförbrukning har medianen 3. De som intresserar sig för att spara energi använder vet nog sin elförbrukning och använder energisnåla vitvaror i större utsträckning. Fråga 10 Innan ni gör analysen, fundera på vilken av de tre grupperna som ni tror är mest noga med att släcka lampor? De som släcker lampor bör sänka sin elförbrukning, det är ett argument för att de med lägst elförbrukning skulle vara mest noga med att släcka lampor. Om man av andra skäl än lamporna har en hög elförbrukning och därmed en hög elkostnad kanske man blir mer angelägen om att sänka den. Det är ett argument för att de med högst elförbrukning skulle vara mest noga med att släcka lampor.

Fråga 11 vilken av de tre grupperna är mest noga med att släcka lampor, vilken grupp är minst noga med det? Om ni gjort rätt ska ni ha fått följande resultat: > tapply(energibolag3$f_5b, energibolag3$f_6tre, median, na.rm=true) hög >7999 låg <2000 medel 5 7 4 > kruskal.test(f_5b ~ F_6tre, data=energibolag3) Kruskal-Wallis rank sum test data: F_5B by F_6tre Kruskal-Wallis chi-squared = 13.1785, df = 2, p-value = 0.001375 De som förbrukar mindre än 2 000 kwh är mest noga med att släcka lampor (de har medianen 7). Det måste man kanske vara om man ska få ner sin förbrukning så mycket? De som har en medelförbrukning är minst noga med det (median= 4). Förmodligen hushåll utan elvärme men som inte är så noga med att spara el. Storförbrukarna ligger i mitten (median = 5). Dessa är förmodligen hushåll med elvärme, En del av dem kanske försöker få ner sin dyra elräkning genom att släcka lampor, andra kanske inte bryr sig om det då lamporna står för så liten del av deras totala elförbrukning. Fråga 12 Kan ni dra några slutsatser angående hela populationen från det här testet och i så fall vilken/vilka? P värdet är väldigt lågt, 0.001. Eftersom det är lägre än 5 % vi kan dra slutsatsen att minst en av de tre grupperna avviker från de andra. Fråga 13 Kan ni dra några slutsatser från korrelationskoefficienten? Spearmans korrelationskoefficient är inte signifikant eftersom p-värdet är högre än 5 %. Därmed kan vi inte dra några slutsatser. För att Spearmans korrelation ska vara positiv och signifikant måste vi ha ett stadigt stigande samband. För att den ska vara negativ och signifikant måste vi ha ett stadigt sjunkande samband. Här hade mellangruppen de högsta värdena. En slags motsvarighet till regressionsanalysens icke linjära samband. Den typen av samband på ordinalskala kan vi inte fånga med spearmans korrelationskoefficient utan enbart med Kruskal Wallis test.

Fråga 14 Kan ni dra några slutsatser från de båda testerna och i så fall vilken/vilka? Om ni gjort rätt ska ni ha fått följande resultat: > median(energibolag3$f_14a - energibolag3$f_14f, na.rm=true) + # median difference [1] 0 > wilcox.test(energibolag3$f_14a, energibolag3$f_14f, alternative='two.sided', + paired=true) Wilcoxon signed rank test with continuity correction data: energibolag3$f_14a and energibolag3$f_14f V = 4610, p-value = 0.505 alternative hypothesis: true location shift is not equal to 0 Eftersom p-värdet är högre än 5% kan vi inte förkasta noll hypotesen. Därmed kan vi inte dra några slutsatser över hela populationen. (Medianen av differenserna i urvalet är lika med noll vilket betyder att det är ungefär lika många positiva som negativa differenser. Det innebär att de som tycker priset är viktigast är ungefär lika många som de som tycker att servicen är viktigast.)