Datoro vning 1-2 Statistisk analys av kodade svar 732G19 Utredningskunskap I Denna datorövning utförs i grupper om 2-4 personer och ska ses som en instruktion i att analysera resultaten av en enkät. Ingen laborationsrapport eller inlämning behöver göras, men se ändå till att göra och förstå alla moment då ni kommer att ha stor nytta av dessa när ni arbetar med ert eget projekt. Läs igenom hela datorövningen innan ni påbörjar arbetet! I datorövningen ska vi använda programvarorna Excel och Minitab för att statistiskt bearbeta kodade svar från ett frågeformulär, öva på att analysera svaren på de olika frågorna var för sig samt på att korsa frågorna två och två, där det senare görs för att upptäcka eventuella samband mellan svaren på två frågor. Rent generellt gäller att beräkningsarbetet oftast blir enklare i Minitab, medan diagrammen blir snyggare i Excel. Det kan alltså vara en god idé att arbeta i bägge programmen när ni analyserar resultaten från er egen enkät i projektarbetet. Inledning Starta Excel (skärmdumpar etc. kommer från Excel 2010). På kurshemsidan finns ett Excel-dokument med namnet Labdata.xls. Dokumentet innehåller kodade svar från 200 (fingerade) personer, som besvarat en enkät. På samma ställe finns även dokumentet Enkat.doc som visar den kodningsmall som har använts för enkäten. Ladda hem filerna och spara dem på er egen hemkatalog. Öppna dem och studera datamaterialet och kodningsmallen. Starta också Minitab. Markera alla rader och kolumner med siffror i på Excelarket och kopiera dessa. Gå in i Minitab och ställ markören i den grå listens vänstra hörn. Välj klistra in. Gå tillbaka in i Excel. Deskriptiva mått Vi börjar med att beräkna deskriptiva mått för några av variablerna. Betrakta Fråga 1. Svaren har, som vi ser på kodningsmallen i dokumentet Enkat.doc, kodats med siffrorna 1-5. När det gäller de fyra första svarsalternativen kan koderna anses utgöra värden på ordinalskala (detta inses genom att variabeln är kvalitativ och svaren har en inbördes rangordning), men det femte värdet är lite problematiskt och passar inte in i denna skala. Första uppgiften blir därför att byta ut värdet 5 mot en bortfallskod, låt oss välja att använda en punkt (.). 1
Naturligtvis är inte dessa svar bortfall, men vi kan betrakta förfarandet som att vi vill beräkna mått på de individer som faktiskt vet något om området de bor i och utelämna de som inte vet något och ur denna synvinkel blir de svar som kodats med en punkt tillfälliga bortfall. Markera kolumnen B (som innehåller fråga 1), välj Home-fliken, därefter Find & Select och alternativet Replace. I fältet Find what: skriver ni in 5 och i fältet Replace with: skriver ni in en punkt (.). Klicka sedan på Replace all. Ni får upp en informationsruta som talar om hur många ersättningar som gjorts. Klicka på OK och stäng sedan fönstret Find and Replace. Nu vill vi beräkna ett lämpligt beskrivande mått för fråga 1. Eftersom värdena är på ordinalskala, vet vi att ett mått som kan användas är medianen. Klicka i en tom cell i den första tomma kolumnen AH. I fältet ovanför kolumnerna, dvs här (detta fält kommer fortsättningsvis att kallas funktionsfältet) skriver ni nu in =MEDIAN(B2:B201) följt av Enter. I rutan beräknas då medianen för alla data utom just punkterna. Raderna 2 till 2
och med 201 är ju de som innehåller koder, eftersom kolumnrubrikerna står i den första raden. Om vi exempelvis hade haft data på intervall/kvotskala och istället hade velat beräkna medelvärdet, hade vi använt funktionen =AVERAGE istället för =MEDIAN. För att beräkna typvärdet (nu vet vi att det inte är ett lämpligt mått för ordinalskala, men ändå) används funktionen =MODE.SNGL. Pröva även denna. Rent generellt finns det ett smidigt sätt att hitta olika matematiska och statistiska funktioner i Excel om man inte riktigt vet vad de heter eller hur de ska användas: klicka i en tom cell och skriv endast in = (dvs. likhetstecknet) i funktionsfältet. Det dyker nu upp en meny med rullningsknapp en bit till vänster om funktionsfältet. Rulla ned denna meny så ser ni alla funktioner som finns. Leta speciellt upp funktionen QUARTILE.INC. 3
I fältet Array skriver ni in B2:B201. Klicka sedan i fältet Quart. Här fyller man i en etta för att få den första kvartilen, en trea för att få den tredje kvartilen och så vidare. Fyll i en etta och klicka på OK. Den första kvartilen har nu beräknats i den ruta i arbetsbladet som ni klickade i. Utforska gärna funktionerna i menyn vidare för att se vad som kan beräknas (t ex standardavvikelser, max- och min-värden och så vidare). Notera också vad Excel skriver i funktionsfältet när ni väljer en viss funktion. När ni blir vana blir det förstås lättare att skriva funktionen själv i funktionsfältet än att klicka sig in i menyn. Beräkna nu några deskriptiva mått för några andra av frågorna/delfrågorna för att känna att ni förstått principen. Börja med att tänka igenom vilken skala svarsalternativen är på, och utnyttja möjligheten att bortfallskoda ett svarsalternativ som inte passar in i skalan. Gå nu in i Minitab. För att beräkna beskrivande statistik på en variabel, välj Stat -> Basic Statistics -> Display Descriptive Statistics. Klicka i den variabel som är av intresse, och tryck sedan på knappen Statistics. Här kan vi välja vilka statistiska mått som ska tas fram. Markera de som du är intresserad av och klicka OK. Klicka OK igen och studera resultaten. Här får vi alltså på ett bräde ut medelvärde, standardavvikelse, median, kvartiler och mycket mer. Gå tillbaka in i Excel. Att skapa en tabell Börja med att koda tillbaka punkterna (.) till dess originalvärden (5). Tabeller är ett av de viktigaste verktygen inom beskrivande statistik och också något som man bör ta fram för samtliga frågor i sin enkät (och därefter åskådliggöra tabellen i form av diagram). Excel har en speciell funktion för att konstruera tabeller utifrån enskilda individdata: Pivottabeller. 4
Markera kolumn B och välj sedan Insert -> PivotTable -> PivotTable. Följande ruta öppnas. Se till att dialogrutan är ifylld enligt ovan, och klicka sedan på OK. Följande fönsterbild kommer nu fram. Ta nu tag i Fråga 1 i rutan Choose fields to add to report: och dra den till rutan Row Labels. Ta ännu en gång tag i Fråga 1 i rutan Choose fields to add to report: och dra den nu till rutan Values. Skärmbilden bör nu vara följande. 5
En detaljbild visar den färdiga Pivottabellen: Kommentar Ibland väljer Excel att bilda en tabell med summor (Sum) istället för antal (Count). Tabellen innehåller då den totala summan av observationerna inom respektive grupp. För att ändra från Sum till Count, högerklicka i cellen där det står Sum of Fråga 1 och välj alternativet Value Field Settings. Under fliken Summarize value field by, välj Count. I den meny som kan öppnas i rullmenyn till Fråga 1 kan ni välja vilka koder som ska visas i tabellen. 6
Det går alltså att välja bort vissa koder om man av någon anledning vill ha en begränsad tabell. Avmarkera alternativet (blank) och klicka OK. Tabellen får nu detta utseende. Kanske vill vi även få in relativa frekvenser i vår tabell (vi drar oss till minnes att antal är absoluta frekvenser). Vi tar då helt enkelt tag i Fråga 1 i rutan Choose fields to add to report: och drar den till rutan Values, där vi släpper den. Tabellen får följande utseende. 7
Vi noterar alltså att vi fått två kolumner för varje svarsalternativ på frågan. Klicka nu med höger musknapp i cellen Count of Fråga 1_2 och välj alternativet Value Field Settings. Klicka på fliken Show values as och välj alternativet % of column. Klicka OK. Tabellen har nu ändrats till en frekvenstabell med både absoluta och relativa frekvenser enligt följande figur. Kontrollera att ni förstår vad ni fått fram. Texten i tabellen är inte så informativ, men pröva att ändra den till en text ni själva vill ha (det enda som inte kan redigeras är det som står i de grå fälten). Gå in i Minitab. För att bilda en tabell här, välj Stat -> Tables - > Tally Individual Variables. Välj önskad variabel och välj vad du vill ska visas i tabellen (absoluta eller relativa frekvenser, eller både och). Tryck OK och studera resultatet. Gå tillbaka in i Excel. Att rita diagram baserat på Pivottabeller Att skapa diagram från data i en Pivottabell är mycket enkelt. Klicka någonstans i Pivottabellen och välj fliken Options. Klicka på PivotChart. En dialogruta som ger oss möjlighet att välja diagramtyp öppnas. Välj en lämplig diagramtyp och klicka OK. Nu kan det exempelvis se ut som följer. 8
Vi noterar att diagrammet blir mycket svårtytt: vi har ju blandat absoluta och relativa frekvenser och då blir de relativa frekvenserna på grund av skalan oläsliga. Vi har lärt oss att diagram alltid ska uttryckas i procent. Högerklicka i någon cell med de absoluta frekvenserna och väljer Remove Count of fråga 1. Diagrammet ser genast bättre ut, enligt Experimentera med olika diagramtyper genom att markera diagrammet, välja fliken Design och sedan Change Chart Type. Hur tycker du att man visar svarsfördelningen på frågan tydligast? För att snygga till ert slutligen valda diagram, välj fliken Layout (se till att diagrammet är markerat annars syns inte fliken) och sätt lämpliga axelrubriker. 9
Testa att klippa och klistra över diagrammet till ett Worddokument. Undersök möjligheterna för redigering av diagrammet när det är inklistrat i Word. Gå nu in i Minitab. För att rita ett diagram här, välj Graph-menyn och önskad diagramtyp. Minitab kan dock inte rekommenderas för diagramritning, därför att figurerna har färre justeringsmöjligheter och generellt blir av lägre kvalitet. Gå tillbaka in i Excel. Att rita diagram för frågor med flera tillåtna svarsalternativ Betrakta Fråga 2 på enkäten, och antag att vi vill rita ett diagram som beskriver svarsfördelningen för de olika alternativen. En stunds eftertanke ger att vi vid en fråga av detta slag inte kan rita diagram baserat på en Pivottabell. Gör istället som följer. Ställ markören i en tom cell under den kolumn vi vill fokusera på, i detta fall exempelvis cell C203, och skriv =AVERAGE(C2:C201) Nu har vi fått fram andelen av de svarande som markerat detta svarsalternativ. Fatta nu den lilla fyrkanten i nedre högra hörnet när markören står i cell C203 och dra den åt höger till och med kolumn J (eftersom denna kolumn innehåller det sista svarsalternativet för Fråga 2). Skriv nu i cellerna C204-J204 en kort beskrivning av respektive svarsalternativ (mediaverkstad, ungdomens hus, ungdomskafé osv). Skapa ett lämpligt (stapel)diagram över svarsfördelningen för fråga 2. Detta görs enklast genom att klicka i en tom cell i närheten och välja Insert Bar. Därefter väljer ni under Design (syns enbart om ni klickat i diagrammet) och därefter Select Data. Då kommer ni till denna meny: 10
Klicka på Add under Legend Entries för att öppna följande meny: Som Series name markerar ni de celler som innehåller de olika alternativen som fanns på fråga 2 (mediaverkstad, ungdomens hus, ungdomskafé osv) och i Series values väljer ni in de andelar som ni har beräknat med hjälp av Average-funktionen. Klicka därefter på OK. Slutligen väljer ni Edit under Horizontal och markerar åter igen de celler som innehåller de olika alternativen. Då bör ni få ett diagram med följande utseende: A-h är de olika alternativen på frågan. Snygga till diagrammet lite med hjälp av de olika menyerna som finns. Ett dylikt diagram och slutsatser dragna ur detta är så långt vi kan komma för en fråga med flera tillåtna svarsalternativ. Det kan vara bättre att ha liggande staplar när de olika alternativen har långa namn. Testa att använda Column istället för Bar så kan ni se hur rörigt ett diagram med stående staplar kan bli i detta fall. Här har vi inte någon direkt metod att använda i Minitab. Att göra korstabeller Pivottabellfunktionen kan också användas för att korsa frågor med varandra. Antag exempelvis att vi vill studera sambandet mellan svaren på Fråga 3 och Fråga 4a. 11
Vi börjar med att göra en ny Pivottabell: välj åter arbetsbladet med kodade svar (Blad1), markera denna gång samtliga kolumner (kolumn B AG inklusive rubriker) och välj sedan pivottabellfunktionen från menyn Insert (tänk på att ta bort de värden ni beräknade för fråga 2). Klicka er fram som vi gått igenom tidigare i labben och notera att ert val av dataområde har registrerats, och ni når fram till följande fönster: Dra nu Fråga 3 till fältet Row Labels och Fråga 4a till fältet Column Labels. Dra sedan någon av Fråga 3 eller Fråga 4a till fältet Values. Vi får upp följande tabell. Om tabellen ser lite konstig ut (vissa celler är 0), ändra så att ni får Count istället för Sum, enligt samma princip som diskuterades tidigare i labben. Ta bort raden innehållande (blank). För att se om det finns några samband, ritar vi ett diagram. Klicka någonstans i tabellen, välj fliken Options och sedan PivotChart. Välj en lämplig diagramtyp, varpå följande resultat kan erhållas. 12
I detta diagram kan vi nu t ex se hur svaren fördelar sig på Fråga 3 beroende på vad man svarat på Fråga 4a. Vi kan exempelvis konstatera att antalet personer som svarat 1 (Ja) på Fråga 4a är betydligt högre bland de som svarat 0 (Nej) på Fråga 3. Diagrammet indikerar att det finns ett samband mellan frågorna (hade det inte funnits några samband hade alla tre staplarna inom respektive svarsalternativ på Fråga 3 varit lika höga). Det kanske vore tydligare att ändra ordningen så att staplar ritas för svaren på Fråga 4a för olika svar på Fråga 3 istället. Det kan enkelt göras genom att i Pivottabellen fatta tag i Fråga 3 och dra den till kolumner istället för rader, och sedan göra det omvända för Fråga 4a. 13
Här ser vi istället att fördelningen av svaren på Fråga 4a är olika beroende på om man svarat Ja eller Nej på Fråga 3. Vi noterar att de blå (vänstra) staplarna har en annan fördelning än de röda (högra). Vi drar oss från föreläsningsunderlaget till minnes att diagram som ska användas för att illustrera information från ett stickprov i syfte att dra slutsatser om en population ska ha procent som skala på y-axeln. För att förtydliga det hela ytterligare vill man därför att staplarna ska summera till 100% inom respektive färg. Ändra nu från absoluta frekvenser till relativa frekvenser som summerar till 100% inom respektive kolumn enligt tidigare instruktion. Diagrammet ändrar sig också och ser nu ut enligt Jämför nu detta diagram med det tidigare, och fundera över om det är enklare att se sambandet mellan svaren på frågorna i detta diagram med procent än i det med absoluta frekvenser. Gå tillbaka till tabellen och ändra koderna 0 och 1 för Fråga 3 och koderna 1, 2 och 3 från Fråga 4a till texten som koderna står för, vilka ni hittar i kodningsmallen. Gå tillbaka till diagrambladet och kontrollera att texten blivit som ni tänkte er. Testa även att klippa och klistra över diagrammet till ett Word-dokument. Gå nu in i Minitab. Välj Stat -> Tables -> Cross Tabulation and Chi-square. Klicka i vilken variabel du vill ha i rader och kolumner och klicka OK. Studera resultaten. Gå tillbaka in i Excel. 14
2 -test För att kunna dra slutsatser om eventuella samband mellan två frågor, använder vi 2 -test. Återgå till kalkylbladet med korstabellen. Byt plats på Fråga 3 och Fråga 4a i tabellen så att den har sin ursprungliga riktning. Ändra sedan tillbaka till absoluta frekvenser. Tabellen ska alltså se ut som följer: Tabellen är delvis upplagd för att göra testet (den innehåller ju observerade frekvenser), men det krävs att vi beräknar de förväntade cellfrekvenserna manuellt. För att göra detta gör vi en kopia av tabellen och lägger nedanför: markera alla rader utom den första i tabellen (detta görs enklast nedifrån och uppåt), kopiera och klistra in nedanför pivottabellen: Det ni klistrade in är nu inte längre en del av pivottabellen och kan därför hanteras lite enklare. Markera nu rutan i den nedre tabellen som har värdet 57 (dvs frekvensen för de som har kodat svar 0 på Fråga 3 och kodat svar 1 på Fråga 4a. Detta värde ska nu ersättas med (radsumman kolumnsumman)/totalsumman, dvs med = (98 97)/200. I cellen ska ni nu ha fått värdet 47.53. Fortsätt på samma sätt för att beräkna de förväntade frekvenserna för varje cell i korstabellen. Resultatet (skriv inte av!) ska bli enligt 15
Klicka nu i en tom ruta någonstans på kalkylbladet. I funktionsfältet skriver ni ett likhetstecken och väljer sedan funktionen CHISQ.TEST från menyn. Klicka i fältet Actual_range och markera de observerade cellfrekvenserna i kalkylbladet. Klicka sedan i fältet Expected_range och markera där de förväntade cellfrekvenserna som ni nyss räknade ut. Klicka sedan på OK. Det värde som nu erhålls i den valda cellen har också synts i dialogrutan ovan innan ni klickade på OK. Värdet är inte testvariabelns värde utan p-värdet för testet. Som vi minns från grundkurserna, kan nollhypotesen förkastas om p-värdet är lägre än den valda signifikansnivån (vi väljer den uteslutande till 5%). Värdet här blir ungefär 0.018. Detta är lägre än 0.05, vilket ger oss slutsatsen att det finns ett signifikant samband på 5% signifikansnivå. Gå in i Minitab och gå återigen in i menyn Stat -> Tables -> Cross Tabulation and Chi-square. Klicka i vilken variabel du vill ha i rader och kolumner och klicka sedan på knappen Chi- Square. Välj här Chi-square analysis och klicka OK. Tryck OK igen och studera resultaten. Vi noterar att vi här får ut både testfunktion och p-värde. 16
Fortsatt övning Prova nu att på egen hand göra några enkla tabeller och korstabeller för andra frågor/delfrågor i materialet. Via diagrammen kan ni se om det föreligger samband mellan frågor och ni kan då validera dessa med 2 -test. Använd denna instruktion som ett stöd i analysen i projektet om insamling av primärdata. 17