En kort instruktion för arbete i R Commander Anpassad till kursen Statistik och kvantitativa undersökningar VT19 Lars Bohlin 1
Innehåll Allmänt om R Commander... 4 Att öppna en R datafil... 5 Att spara en R datafil... 5 Att öppna en Excel datafil... 5 Att skapa nya variabler i RCommander... 6 Koda en ny variabel utifrån värdena på en gammal variabel... 6 Att skapa en dummyvariabel... 6 Att gruppindela en kvantitativ variabel... 8 Beräkna nya variabler i R Commander... 9 Deskriptiv statistik... 10 Beräkning av deskriptiva parametrar på kvantitativa variabler.... 10 Beräkning av frekvenstabeller på kvalitativa variabler.... 12 Beräkning av korstabeller på kvalitativa variabler.... 13 Diagram kvalitativa variabler... 14 Cirkeldiagram... 14 Stapeldiagram... 15 Diagram kvantitativa variabler... 18 Histogram... 18 Boxplot... 19 Diagram för att illustrera samband mellan kvantitativa variabler... 21 Spridningsdiagram... 21 Hypotesprövning... 22 Hypotestestning av variabler mätta på kvotskala... 22 Hypotestest av medelvärde (inklusive konfidensintervall på medelvärde)... 22 Hypotestest av medelvärde i två oberoende urval (inklusive konfidens intervall på skillnaden mellan medelvärdena)... 23 ANOVAtest.... 25 Hypotestest av medelvärde i två beroende urval (samt konfidensintervall över skillnaden mellan variablerna)... 27 2
Hypotestester av variabler mätta på ordinalskala... 28 Två oberoende urval: Wilcoxons rangsummetest... 28 Flera oberoende urval: Kruskal-Wallis test... 30 Beroende urval: Wilcoxons teckenrangtest... 31 Teckentest i R... 33 Hypotesprövning av variabler mätta på nominalskala... 34 Hypotestest på andelar i ett urval (inklusive konfidensintervall på andel)... 34 Hypotestest på andelar i 2 urval (inklusive konfidensintervall på skillnaden mellan andelarna).... 36 Chi2 χ2 analys av en kvalitativ variabel... 38 Test av samband mellan variabler... 39 Korstabellsanalys test av samband mellan variabler mätta på nominalskala... 39 Korrelation... 41 Beräkning av en korrelationskoefficient.... 41 Beräkning av en korrelationsmatris.... 42 Regressionsanalys... 44 Konfidensintervall för regressionskoefficienter... 48 Residualanalys... 49 3
Allmänt om R Commander R Commander är ett menysystem till statistikprogrammet R. Såväl R som R Commander är gratisprogram som du kan ladda ner från internet. På skolans datorer ligger R i mappen R under All Programs. Välj R x64 3.1.0. På skolans datorer brukar RCommander startas automatiskt när du öppnat R. På din egen dator behöver du starta R Commander genom att välja load packages under packages menyn. I rullisten som kommer upp då väljer du Rcmdr och klickar på OK. I övre fönstret i R Commander R Script visas de kommandon som skickas till R. Så när du väljer en åtgärd i menyerna visas motsvarande R kod i Scriptfönstret. Resultatet visas i det nedre fönstret Output Om du vill utföra ett kommando som inte finns med i menysystemet kan du skriva in R koden för det i Scriptfönstret markera texten och klicka på Submit. Du kan också ändra ett kommando du redan utfört i Scriptfönstret, markera texten och skicka det till R på nytt genom att trycka Submit. R Commander är väldigt lättanvänt så länge kommandona som finns i menyerna räcker för det du vill göra. Men det är också väldigt flexibelt eftersom du kan skriva alla andra R kommandon i scriptfönstret. 4
Att öppna en R datafil Välj load data set i Data menyn. Bläddra fram din Rdata fil Att spara en R datafil Om du har gjort förändringar i ditt dataset, exempelvis beräknat nya variabler, är det bra att spara datasetet som RData fil så du slipper att beräkna variablerna på nytt om du ska fortsätta att arbeta vid ett senare tillfälle Gör så här för att spara datasetet Välj Active data set / Save active data set i Data menyn Att öppna en Excel datafil Välj Import data/from Excel file i Data menyn. I dialogrutan som kommer upp ska du ange ett namn för datasetet. Lämpligen samma namn som namnet på Excel filen Om du har dina variabler i kolumner med variabelnamnen i översta raden kryssar du i första rutan. Om du har missing data i datasetet behöver du ange hur de markeras i missing value indicator. klicka OK Bläddra fram din Excel fil Om din Excell fil har fler än ett blad får du upp en ruta där du ska välja vilket blad din data finns på. 5
Att skapa nya variabler i RCommander Koda en ny variabel utifrån värdena på en gammal variabel Den här funktionen är användbar exempelvis om man ska skapa dummyvariabler utifrån utfallen på en kvalitativ variabel. Eller om man vill gruppindela en kvantitativ variabel. Att skapa en dummyvariabel I ett dataset över snabbmatsrestauranger vill vi göra en dummyvariabel som tar värdet 1 om restaurangen är en Roy Roger och noll annars. Gör så här Välj Manage variabels in active data set / Recode variables i Datamenyn Markera den gamla variabeln som du ska utgå ifrån i övre rutan (Variables to recode) Ange ett namn för den nya variabeln i rutan efter New variable name or prefix for multiple recodes I rutan Enter recode directives anges vilka värden den nya variabeln ska ha för olika värden på den ursprungliga variabeln. Nedan visas hur man fyller i rutorna för att skapa en dummyvariabel som tar värdet 1 om variabeln chain har värdet Roy Roger och 0 om den har ett annat värde. När du skapar dummyvariabler ska du inte bocka för rutan Make (each) new variable a factor. Om du bockar för den rutan behandlar R variabeln som en kvalitativ variabel och då kan du inte använda den i regressionsanalys. 6
Notera att kvalitativa variabler ska ha citationstecken kring utfallets namn. Else betyder att alla andra utfall på den ursprungliga variabeln ges det värde som specificeras där. Vi kunde fått samma resultat genom att istället skriva: Roy Roger = 1 Burger King, King Fried Chicken, Wendys =0 Genom att separera tre olika utfall med kommatecken ges alla tre samma värde. När ni klickar OK skapas den nya variabeln. För att ändra datasetet på hårddisken måste ni också spara datasetet igen. Gör så här för att spara datasetet Välj Active data set / Save active data set i Data menyn Sedan kan ni göra samma sak som ni gjorde med Roy Roger för de andra tre kedjorna också. Följ instruktionerna ovan och börja exempelvis med att låta BK symbolisera Burger King, varvid ni alltså måste skriva Burger King = 1 och else = 0. Därefter kan KFC få symbolisera King Fried Chicken respektive W symbolisera Wendys. Glöm inte att spara din datafil varje gång ni skapat nya variabler (men om du vill ha kvar originalfilmen måste du ange ett nytt filnamn). 7
Att gruppindela en kvantitativ variabel Recode variables kan också användas för gruppindelning av kvantitativa variabler. Nedan visas ett exempel på det, där restaurangerna i datasetet över snabbmatsrestauranger delas in i små medel och store efter antalet anställda. Notera att vi i det här fallet bockar för Make (each) new variable a factor för att indikera att vi ska skapa en kvalitativ variabel. Intervallen för utfallen på den kvantitativa variabeln indikeras med ett kolon mellan högsta och minsta värde. Notera också att gränserna valts så att alla restauranger hamnar i minst ett och endast ett intervall. (Den ursprungliga variabeln hade bara värden mellan 3 och 67,5. Och alla observationer hade någon av följande decimaler:,00,25,50,75 ) Det är inte så vanligt att man gruppindelar en kvantitativ variabel. I princip förstör vi information när vi gör det. Variabeln emp talar om exakt hur många anställda en restaurang har, den nya variabeln emp_tre säger bara om det är en liten, medel eller stor restaurang. 8
Beräkna nya variabler i R Commander Du kan beräkna nya variabler genom att Gör så här: Välj Manage variables in active data set / Compute new variable i Data menyn. Ange ett nytt namn för variabeln ni vill beräkna i rutan New variable name I fältet Expression to compute ska du skriva in hur den nya variabeln ska beräknas. Vill du exempelvis skapa en logaritmerat variabel baserat på den naturliga logaritmen: Skriv log dubbelklicka på variabeln, skriv därefter parentestecken på båda sidor om variabeln. om du istället vill ha 10-logaritmen skriv: log10 (income) Klicka på OK Nu är det bra att spara datasetet så att du har variabeln kvar till senare tillfällen. Gärna med ett nytt namn så att du har originalfilen kvar. Gör så här Välj Active data set / Save active data set i Data menyn 9
Deskriptiv statistik Beräkning av deskriptiva parametrar på kvantitativa variabler. Gör så här Välj Summaries / Numerical summaries i Statistics menyn. På fliken Data väljer du vilken/vilka variabler du vill ta fram deskriptiv statistik över. (Håll ner Ctrl-tangenten om du vill välja fler än en variabel) På fliken Statistics väljer du vilka mått du vill beräkna. Klicka OK Resultatet visas i outputfönstret i R Commander 10
Förklaringar: Första kolumnen ger oss medelvärdet och andra kolumnen standardavvikelsen. Genom att vi bockade för Quantiles får vi de tre kvartilerna samt min och max värdena. Rubriken för min är 0 %, kvartilerna har rubrikerna 25 %, 50 % respektive 75 % och max värdet har rubriken 100 %. Sista kolumnen ger oss antalet observationer, denna kolumn finns alltid med oavsett vilka mått vi bockar för. 11
Beräkning av frekvenstabeller på kvalitativa variabler. Gör så här Välj Summaries / Frequency Distributions i Statistics menyn. Markera den/de variabler som du vill beräkna frekvenser för. Klicka OK Resultatet visas i outputfönstret i R Commander Överst visas de absoluta frekvenserna, i den undre tabellen de relativa frekvenserna. 12
Beräkning av korstabeller på kvalitativa variabler. Gör så här Välj Contingency tabless / Two-Way Table i Statistics menyn. Markera de variabler som du vill beräkna korstabellen för. Resultatet visas i outputfönstret i R Commander 13
Diagram kvalitativa variabler Cirkeldiagram Gör så här Välj Pie chart i Graphs menyn. Markera den variabel som du vill göra diagram för. Du kan ändra namnen på axlarna och diagramrubriken om du vill ha dem på svenska. Klicka OK 14
Stapeldiagram Gör så här Välj Bar graph i Graphs menyn. Markera den variabel som du vill göra diagram för. Under options kan du ändra namnen på axlarna och diagramrubriken om du vill ha dem på svenska. Klicka OK 15
Grupperade stapeldiagram Gör så här Välj Bar graph i Graphs menyn. Markera den variabel som du vill göra diagram för. Klicka på Plot by groups 16
Välj den variabel du vill använda för grupperingen. Under options kan du bl. a. välja mellan Side by side eller divided. 17
Diagram kvantitativa variabler Histogram Gör så här Välj Histogram i Graphs menyn. Markera den variabel som du vill göra diagram för. Under fliken options kan du anpassa histogrammets utseende: 18
Boxplot Gör så här Välj Boxplot i Graphs menyn. Markera den variabel som du vill göra diagrammet för. Under options kan tu ta bort identifiering av outliers, och ange svenska rubriker. Klicka OK 19
Genom att klicka plot by groups kan vi göra separata boxplottar för de olika restaurangkedjorna. Välj vilken variabel du vill använda för grupperingen Klicka OK Klicka OK 20
Diagram för att illustrera samband mellan kvantitativa variabler För att illustrera sambandet mellan två variabler kan vi använda ett diagram med en av variablerna på varje axel och prickar som anger varje observations värden på de båda variablerna. Denna typ av diagram kalls på engelska för scatterplot, på svenska brukar man kalla dem för plottar eller spridningsdiagram. Spridningsdiagram Gör så här Välj Scatterplot i Graphs menyn. Välj variabel för x axeln i x-variable (pick one) Välj variabel för y axeln i y-variable (pick one) Klicka OK Under options finns en rad olika inställningar. Prova vad ni vill bocka för respektive bocka bort. 21
Hypotesprövning Hypotestestning av variabler mätta på kvotskala Hypotestest av medelvärde (inklusive konfidensintervall på medelvärde) Antag att du vill testa nollhypotesen att medelvärdet av en variabel är lika med ett specifikt värde mot alternativhypotesen att medelvärdet avviker från det värdet. H : μ 1 H : μ 1 Gör så här Välj Means / Single-Sample t-test i Statistics menyn. Under Variable(pick one) anges vilken variabel du vil testa Under Alternative Hypothesis anges tecknet mothypotes. (Det första alternativet ska föreställa, det vill säga inte lika med.) I rutan Null hypothesis mu anges populationens medelvärde enligt nollhypotesen R Commander kommer också att beräkna ett konfidensintervall för medelvärdet. I rutan Confidence Level anger du vilken konfidensgrad du vill ha på konfidensintervallet. Klicka OK I outputfönstret visas resultatet: Vi ser att p-värdet är mindre än 2,2 10. Konfidensintervallet för medelvärdet ligger mellan 1,03 och 1,05. Urvalsmedelvärdet är 1,044. 22
Hypotestest av medelvärde i två oberoende urval (inklusive konfidens intervall på skillnaden mellan medelvärdena) Antag istället att vi vill testa om restaurangerna i New Jersey har samma medelpris på mellanläsk som restaurangerna i Pennsylvania. Vi jämför alltså medelvärdet på en variabel mellan två oberoende urval. Gör så här: Välj Means / Independent Sample t-test i Statistics menyn. Under Groups (pick one) anger du vilken variabel du vill använda för gruppindelningen. Under Respone Variable (pick one) anger du den variabel vars medelvärde du vill testa. Under fliken options anges: Under Alternative Hypothesis anges tecknet mothypotes. I rutan Confidence Level anger du vilken konfidensgrad du vill ha på konfidensintervallet. Under Assume equal variances anger du om du vill göra det antagandet att variansen är lika i båda grupperna eller ej. Inställningarna ovan ger oss följande resultat i outputfönstret 23
Om vi istället antar att variansen är lika: Inställningarna ovan ger oss följande resultat i outputfönstret 24
ANOVA test. I ett ANOVA test (Analysis of Variance) jämförs medelvärden från olika grupper. ANOVA testen används om vi delar in vår population i olika grupper och vill testa om de grupperna har samma medelvärde. Nollhypotesen i ett ANOVA test är att alla grupper har samma medelvärde. Alternativhypotesen blir således att minst en grupp har ett avvikande medelvärde. Vi delar in datasetet med hjälp av en kvalitativ variabel. Exempel: Vi kanske har ett dataset över alla kommuner. Om vi i datasetet har en kvalitativ variabel som anger i vilket län kommunen ligger kan den variabeln användas för att dela in datasetet i flera grupper, en grupp för varje län. Vi kan testa om de olika restaurangkedjorna har samma medelvärde för priset på mellanläsk. Vi delar alltså in restaurangerna i fyra grupper utifrån vilken kedja de tillhör. Gör så här: Välj Means / One-Way ANOVA i Statistics menyn. Under Groups (pick one) anger du vilken variabel du vill använda för gruppindelningen. Under Respone Variable (pick one) anger du den variabel vars medelvärde du vill testa. Om du bockar för pairwise comparisons of means, kommer du också att få en parvis jämförelse av de olika grupperna. Resultatet visas i outputfönstret: 25
26
Hypotestest av medelvärde i två beroende urval (samt konfidensintervall över skillnaden mellan variablerna) Anta nu istället att vi vill testa huruvida priset på mellanläsk i genomsnitt är högre eller lägre än priset på pommes frites. Vi kan då på varje restaurang beräkna differensen mellan dessa båda priser, vilket innebär att vi kan använda metoder för beroende urval. Gör så här Välj Means / Paired t-test i Statistics menyn. Under First variable (pick one) anger du den ena variabeln. Under Second variable (pick one) anger du den andra variabeln. Under fliken Options anges: Under Alternative Hypothesis anges tecknet mothypotes. I rutan Confidence Level anger du vilken konfidensgrad du vill ha på konfidensintervallet. Inställningarna ovan ger oss följande resultat i outputfönstret P-värdet är lägre än 2,2 10. Medelvärdet av differenserna är 0,12. Eftersom psoda var första variabel har differenserna räknats som psoda minus pfries. Generellt sett är läsk dyrare än pommes. 27
Hypotestester av variabler mätta på ordinalskala Två oberoende urval: Wilcoxons rangsummetest Wilcoxons rangsummetest används för att visa om en grupp har högre värden på en variabel än en annan grupp när variabeln är mätt på ordinalskala. Testet kallas också för Mann- Witneys test Gör så här: Välj Nonparametric tests / Two-sample Wilcoxon test i Statistics menyn. Under Groups (pick one) anger du vilken variabel du vill använda för gruppindelningen. Under Respone Variable (pick one) anger du den variabel du vill testa. Under fliken Options anges: Under Alternative Hypothesis anges tecknet i mothypotesen. Under Type of Test kan olika beräkningsmetoder anges, Default duger bra. 28
Resultatet visas i outputfönstret: P-värdet är lägre än 0,05 så på 5 procents signifikansnivå kan vi förkasta nollhypotesen om att grupperna har lika höga värden på variabeln F_5a. Medianen bland dem som angett förbrukad mängd är 4 medan den bara är tre för de som kryssat i vet ej. 29
Flera oberoende urval: Kruskal-Wallis test Kruskal-Wallis test är en motsvarighet till Wilcoxons rangsummetest som kan användas för fler än två grupper. Nollhypotesen är att alla grupperna har lika höga värden och mothypotesen att minst en grupp avviker. Gör så här Välj Nonparametric tests / Kruskal-Wallis test i Statistics menyn. Under Groups (pick one) anger du vilken variabel du vill använda för gruppindelningen. Under Respone Variable (pick one) anger du den variabel du vill testa. Klicka OK Följande resultat visas i outputfönstret: Först visas medianvärdet i respektive grupp. Medianen är i det här fallet alltså 4 bland universitetsutbildade och de som kryssat i Annat, och 3 i de båda andra grupperna. Eftersom p-värdet är 0,2105 kan vi dock inte på 5 procents signifikansnivå bevisa att någon grupp avviker från de andra. 30
Beroende urval: Wilcoxons teckenrangtest Om vi ska jämföra vilken variabel som har de största värdena, och båda variablerna är mätta på ordinalskala, används Wilcoxons teckenrangtest. Om vi inte har kvotskala kan vi ju inte använda t-test för beroende urval. Gör så här Välj Nonparametric tests / Paired-samples Wilcoxon test i Statistics menyn. På fliken data väljer du vilka variabler du vill jämföra Under fliken options anges: Under Alternative Hypothesis anges tecknet i mothypotesen (i detta fall väljer vi dubbelsidigt, nollhypotesen är alltså det inte är någon skillnad på mätvärdena) Under Type of Test kan olika beräkningsmetoder anges, Default duger bra. Klicka OK 31
Följande resultat visas i outputfönstret: Eftersom p-värdet är mindre än 5 procent kan vi förkasta nollhypotesen om att variablerna fördelningar har samma läge. Alternativhypotesen om att det finns en skillnad blir vår slutsats. Vilken av variablerna har då de största värdena? Medianen av våra differenser är lika med 0 så det ger ingen ledning. I det här fallet behöver vi ta fram deskriptiv statistik på de båda variablerna. Gör så här Välj Summaries / Numerical Summaries i Statistics menyn. Markera de båda variablerna. Under fliken statistics välj medelvärde och kvartiler. Då får vi ju med medianen som är lika med andra kvartilen. Följande visas i outputfönstret Medianerna är lika för de båda variablerna men vi kan se att F_5A har lägre medelvärde. 32
Teckentest i R Tyvärr finns ingen enkel rutin för att göra vanlig teckentest i R Commander. Givet att man vet antalet respondenter som har högre värden på ena variabeln än på den andra och antalet respondenter som inte har samma värde, kan man använda följande kommando i R- scriptfönstret. binom.test(x, n, p = 0.5) Men då måste man alltså först beräkna x och n, exempelvis genom att koda en ny variabel. Följande kommando: binom.test(22, 60, p = 0.5) ger följande resultat i outputfönstret: Här blev p-värdet något större än 0,05. Vilket innebär att nollhypotesen inte kan förkastas på fem procents signifikansnivå. Vi kan även se det från det faktum att 0,5 d.v.s. halva urvalsstorleken, ingår i det 95 %-iga konfidensintervallet. 33
Hypotesprövning av variabler mätta på nominalskala Hypotestest på andelar i ett urval (inklusive konfidensintervall på andel) Om vi exempelvis vill testa ifall andelen elkunder som vet sin avtalstyp är 25 % så utvärderar vi nollhypotesen att p 0,25 mot alternativhypotesen att p 0,25. Gör så här Välj Proportions / Single samples proportion test i Statistics menyn. Under Variable (pick one) anger du den variabel du vill testa. Under fliken Options anges: Under Alternative Hypothesis anges tecknet i mothypotesen. (!= symboliserar alltså ) I rutan Null Hypothesis anges andelen enligt nollhypotesen I rutan Confidence Level anger du vilken konfidensgrad du vill ha på konfidensintervallet. Under Type of test anges beräkningsmetod, normalapproximation duger bra men i små urval blir det mer exakt med kontinuitetskorrektion, eller i riktigt små urval Exact binominal. Klicka OK 34
Resultatet visas i outputfönstret: Vi ser att p-värdet är jättelitet. Här kan vi definitivt säga att andelen i populationen som vet sin avtalstyp inte är 25 %. Vi ser att andelen i urvalet är 0,76. Ett 95 procentigt konfidensintervall för andelen i populationen ligger mellan 0,69 och 0,81 35
Hypotestest på andelar i 2 urval (inklusive konfidensintervall på skillnaden mellan andelarna). Denna test använder vi om vi vill jämföra andelar i två olika grupper, exempelvis om andelen män som vet vilken avtalstyp de har är lika stor som andelen kvinnor som vet sin avtalstyp. Gör så här Välj Proportions / Two samples proportion test i Statistics menyn. Under Groups (pick one) anger du vilken variabel du vill använda för gruppindelningen. Under Respone Variable (pick one) anger du den variabel du vill testa. Under fliken options anges: Under Alternative Hypothesis anges tecknet i mothypotesen. I rutan Confidence Level anger du vilken konfidensgrad du vill ha på konfidensintervallet. Under Type of test anges beräkningsmetod, normalapproximation duger bra men i små urval blir det mer exakt med kontinuitetskorrektion. Klicka OK 36
Resultatet visas i outputfönstret: Eftersom p värdet är mindre än 5 procent kan vi förkasta nollhypotesen om att andelarna är lika för män och kvinnor. Andelarna i urvalen är 0,67 respektive 0,85. Med 95 procents sannolikhet ligger skillnaden i andelen mellan 0,07 och 0,29. 37
Chi2 χ 2 analys av en kvalitativ variabel. Om du vill göra en Chi2 analys för att se om en kvalitativ variabel i ditt urval följer en viss hypotetisk fördelning gör du på följande sätt: Gör så här Välj Summaries / Freuency Distributions i Statistics menyn. Markera den variabel som du vill utföra testen på. Bocka för rutan vid chi-square goodness-of-fit test (for one variable only) Klicka OK Ange de relativa frekvenser enligt nollhypotesen. Här är alltså nollhypotesen att 20% av restaurangerna är Burger King, 40 % King Fried Chicken 20 % Roy Roger och 20 % Wendys. Klicka OK Resultatet visas i outputfönstret i R Commander: Chi2 teststatistikans värde blev 127.6769, den har tre frihetsgrader eftersom vi har 4 utfall, p- värdet blev 2,2 10 Det är således oerhört osannolikt att vår nollhypotes skulle vara sann. Vi förkastar nollhypotesen och drar slutsatsen att de relativa frekvenserna i hela populationen avviker från vår hypotetiska fördelning. 38
Test av samband mellan variabler Korstabellsanalys test av samband mellan variabler mätta på nominalskala Om du vill använda chi2 analys för att testa samband mellan två variabler gör du på följande sätt. Gör så här Välj Contingency tables / Two way table i Statistics menyn. Under Row variable (pick one) anger du vilken variabel du vill ha i raderna. Under Column variable (pick one) anger du vilken variabel du vill ha i kolumnerna. Under fliken Statistics anges: Under Compute percentage anger du om du vill ha relativa frekvenser och i vilken dimension du vill ha de relativa frekvenserna. Under Hypothesis test anges vilken testmetod du vill använda och om du vill ha förväntade frekvenser utskrivna. Du kan också få chi2 teststatistikans komponenter för respektive cell i korstabellen. Klicka på OK 39
Resultatet visas i outputfönstret: Här är p-värdet 0,0028 så vi kan förkasta nollhypotesen om att variablerna är oberoende. De har ett samband och hur sambandet ser ut ser vi i tabellen med kolumnprocent. Det är en större andelen av männen som angett avtalstyp än det är bland kvinnorna (85 respektive 67 procent). I R Commander kan man bara göra korstabeller på kvalitativa variabler. Om du av någon anledning vill göra en korstabell med en kvantitativ variabel måste du först gruppindela den och skapa en kvalitativ variabel med utfallen låg, medel, hög eller liknande. 40
Korrelation I RCommander finns två sätt att ta fram korrelationskoefficienter. Antingen tar du fram en koefficient i taget eller så beräknar du en hel matris av alla kombinationer av koefficienter som kan beräknas från ett antal variabler. Beräkning av en korrelationskoefficient. Gör så här Välj Summaries / Correlation test i Statistics menyn. Välj de båda variabler som du ska beräkna korrelationen mellan. Under Type of Correlation anger du vilken typ av korrelationskoefficient du vill ha. Ange vilken mothypotes du vill ha, dvs om du vill ha enkelsidigt eller dubbelsidigt test. Inställningarna ovan ger oss Spearmans rangkorrelationskoefficient mellan två variabler som kallas F_5A och F_5B. P-värdet beräknas utifrån en dubbelsidig test. Spearmans korrelationskoefficient är 0,268. P-värdet i en dubbelsidig test är 0.00008 41
Beräkning av en korrelationsmatris. Gör så här Välj Summaries / Correlation matrix i Statistics menyn. Under Variables (pick two or more) anger du vilka variabler du vill ha med i din matris. Under Type of Correlations anger du vilken typ av korrelationskoefficienter du vill beräkna. Under Observations to use anger du om du vill ta bort alla respondenter som har bortfall på någon av variablerna i alla beräkningar, eller om du enbart vill ta bort dem i beräkningen av korrelationskoefficienterna till just den variabeln. Om du klickar i Complete observations kommer enbart de respondenter med som besvarat alla frågorna. Under Pairwise-complete observations kommer alla med som svarat på de båda frågor som korrelationskoefficienten gäller. Om du vill beräkna p-värden ska du bocka för Pairwise p-values Klicka OK 42
Med inställningarna ovan visas 4 matriser i outputfönstret. Den första anger Spearmans korrelationskoefficienter. Den andra anger antalet observationer som använts i beräkningen av korrelationskoefficienterna, i det här fallet antalet respondenter som besvarat bägge de frågor som respektive korrelationskoefficient beräknas från. Tredje matrisen visar p-värdena från en hypotestest där nollhypotesen är att korrelationskoefficienten är lika med noll. Den fjärde matrisen visar justerade p-värden. De är ökade en aning för att ta hänsyn till att när man gör många hypotestester kan några av dem bli signifikanta av ren slump. 43
Regressionsanalys Gör så här Välj Fit models / Linear regression i Statistics menyn. Under Response variable (pick one) ska du ange din beroende variabel Under Explanatory variuables (pick one or more) anger du dina oberoende variabler (Håll ner Ctrl-tangenten för att välja flera oberoende variabler) I rutan Enter name for model kan du ge din modell ett namn om du vill. (Kan vara bra om du senare exempelvis vill ta fram residualplottar.) Klicka OK Resultatet visas i outputfönstret: Här har båda de oberoende variablernas koefficienter väldigt låga p-värden. Både koefficienterna är positiva. Såväl inkomster som befolkningstäthet påverkar priserna på mellanläsk positivt. 44
45
ANOVA-tabell För att få en ANOVA-tabell. Gör så här efter att du kört din regression: Välj Hypothesis tests / ANOVA table i Models menyn. Välj Sequential("Type I") Klicka OK Som synes är ANOVA tabellen i R lite annorlunda än ANOVA tabellen i läroboken. Om vi hade gjort motsvarande regression i Minitab skulle de första kolumnerna i ANOVA tabellen se ut som nedan Source DF SS MS Regression 2 0.202 0.101 Residual Error 370 2.720 0.007 Total 372 2.921 46
SPSS ger en liknande ANOVA tabell men med lite andra rubriker. Model Sum of Squares df Mean Square Regression 0.202 2 0.101 Residual Error 2.720 370 0.007 Total 2.921 372 Skillnaden mellan R och andra statistikprogram är således att R specificerar de oberoende variablerna på var sin rad medan de vanligen slås ihop på samma rad. Om man vill göra om ANOVA tabellen från R så den redovisas på det konventionella sättet gör man på följande sätt: I kolumnerna för frihetsgrader och kvadratsummor summerar man över alla oberoende variabler för att få raden Regression. För att få total raden summeras alla rader. Kolumnen för medel-kvadratsummor erhålls genom att dividera kvadratsummorna med frihetsgraderna. 47
Konfidensintervall för regressionskoefficienter För att få konfidensintervall för dina regressionskoefficienter Gör så här efter att du kört din regression: Välj Confidence intervalls i Models menyn. Ange konfidensgrad Klicka OK Kolumnen med rubriken 2,5% ger konfidensintervallets nedre gräns. Kolumnen med rubriken 97,5% ger konfidensintervallets övre gräns. 48
Residualanalys Först måste vi skapa en kolumn med residualerna. Välj Manage variabels in active data set / Compute new variable i Data menyn I New variable name skriver du ett namn för residualerna. Du kan naturligtvis kalla dem vad du vill. Jag valde residuals.6 eftersom min regressionsmodell kallas RegModel.6. Så kan man hålla isär dem om man vill ta fram residualer från andra modeller I Expression to compute skriver du resid och namnet på din regressionsmodell inom parentes. (Om du glömt vad du kallade regressionsmodellen kan du scrolla uppåt i R- Script fönstret och leta upp kommandot för regressionen.) Klicka på OK Klicka på View data set och kontrollera att det har dykt upp en ny kolumn med residualerna längst till höger I datasetet. Nu kan vi exempelvis göra ett histogram Välj Histogram i Graphs menyn. Markera residuals.6 (eller det namn du gav dina residualer) 49
Under options anger du hur många staplar du vill ha i rutan Number of bins. Normalfördelningsantagandet är inte perfekt uppfyllt i det här fallet men ganska skapligt ändå. 50
För att kontrollera för heteroskedasticitet och ickelinjaritet plottar vi residualerna mot en oberoende variabel. Välj Scatterplot i Graphs menyn. Välj den oberoende variabel i x-variable (pick one) Välj residualerna i y-variable (pick one) Under options kan det vara bra att bocka för Smoth line och Show spread. Klicka OK 51
Om avståndet mellan residualerna ökar eller minskar när den oberoende variabeln ökar har vi heteroskedasticitet. Show spread linjerna ger oss lite hjälp att avgöra det. Här verkar vi inte ha något problem med heteroskedasticitet. Om vi ser ett bågformat mönster tyder det på ett ickelinjärt samband. Här har vi lite hjälp av Smoth line linjen. 52