Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018
Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial Används dels för att beskriva data, t.ex. hur dess olika variabler fördelar sig, eller för att testa samband mellan variabler (t.ex. arbetstrivsel och medbestämmande) Statistiska sambandsanalyser utförs oftast med hjälp av hypotestestning där vi endera skattar estimat för populationer eller testar graden av systematiska samband med statistisk inferens (söker statistisk signifikans) Underlättas av tillgång till SPSS (eller andra statistikprogram)
Olika typer av statistisk analys Det finns många former av statistisk analys, beroende vilken typ av undersökning, urvalstyp och data vi har att göra med Grovt förenklat kan vi kanske skilja mellan två huvudtyper: Deskriptiva statistiska analyser: syftar till att beskriva variabler, t.ex. genom att beräkna central- eller spridningsmått, genom att framställa data i tabeller eller diagram/figurer Analyser av samband: syftar till att mäta samband mellan olika variabler, att skatta estimat för populationer, eller att testa hypoteser om skillnader i fördelningar
Deskriptiv statistisk analys Utgör vanligen ett första steg i analysen och syftar främst till att beskriva hur variablerna är fördelade I detta skede bör också svarsutfallet analyseras. I vårt fall svarade 136 av de samplade 150 personerna (ca 91 %), vilket gör bortfallet litet men ändå värt att analysera, eftersom detta kan avslöja ifall någon viss grupp varit mer ovillig att svara än i genomsnitt)
Exempel på deskriptiv analys Tabell 1. Fördelningen av respondenter enligt befattning och övriga variabelkategori (n = 136) Socialarbetare Socialhandledare (n=78) (n=58) Variabler: Kön (kvinna, man) i procent 82.2% 17.8% 80.7 % 19.3% Ålder (medeltal, standardavvikelse) 42 5,73 39 6,11 Arbetstrivsel (medeltal, stand.avv.) 2.7 6.232 3,112 5.884 Medbestämmande (medeltal, stand.avv.) n 3.6 n 7.204 n 3.7 n 5.345 n
Statistiska sambandsanalyser Syftar till att mäta samband mellan enskilda variabler (bivariat analys) eller mellan flera oberoende variabler och en beroende variabler (multivariat analys) Oftast bygger sådana analyser på antaganden (forskningshypoteser) som vi testar statistiskt med hjälp av statistisk inferens Detta innebär att vi med statistikens hjälp prövar ifall vår hypotes stämmer eller inte Vi avgör graden av statistisk signifikans (dvs. om ett samband är verkligt eller slumpmässigt)
Hypotestestning och signifikansnivå Två olika hypoteser används: Forskningshypotes (H 1 ): det påstående vi vill testa (t.ex. det finns ett samband mellan arbetstrivsel och graden av medbestämmande som inte är slumpmässigt) Nollhypotes (H 0 ): det som gäller ifall forskningshypotesen är falsk (inget systematiskt samband finns) Signifikansnivån (p, Sig.) anger risken för att sambandet är skenbart, slumpmässigt genererat (bör helst vara mindre än 0.05 -> vi kan med 95 % säkerhet anta att sambandet gäller, dvs. att det inte är skenbart
Några vanliga test i statistisk sambandsanalys Korrelationstester (r xy, r s och C xy ) visar samband mellan variabler Regressionstester (regressionskoefficient) testar samband men även vilken riktning sambandet går (hur mycket av y förklaras av x?) χ 2 -testet av skillnader mellan fördelningar Testning av medelvärdet i ett stickprov (t-test) Testning av skillnaden mellan två fördelningars medelvärden (t-test)
Exempel: korrelations- och regressionstest Forskningshypotes: personer med hög grad av upplevd medbestämmanderätt tenderar uppleva en högre grad av arbetstrivsel (på ett sätt som inte kan förklaras pga. slumpen) Vi genomför med hjälp av SPSS ett korrelationstest samt ett regressionstest där vi testar hur våra huvudsakliga variabler (arbetstrivsel och medbestämmande) samt andra eventuella mellanliggande variabler förhåller sig till varandra
Något om skillnaden mellan korrelations- och regressionstest Båda mäter sambandet mellan variabler och testar forskningshypoteser Skillnaden är främst att korrelationstest (t.ex. Pearsons koefficient) endast mäter graden av samvariation mellan olika variabler (utan att vi vet något om sambandets riktning), medan regressionsanalys (t.ex. OLS=ordinary least squares, minsta kvadratmetoden) beräknar en funktion för sambandet (y = a + bx) och (vilket dock inte är bevis på kausalitet)
Parson s korrelationstest Correl ati ons Arbet striv sel Grad av upplev d medbes tämmande Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N Grad av upplev d medbes tä Arbet striv sel mmande 1,709**,000 136 136,709** 1,000 **. Correlation is signif icant at the 0.01 lev el (2-tailed). 136 136 Pearsons korrelationskoefficient (varierar mellan 0 och +/-1) Signifikanstest (p-värde); anger risken för att vi ska tro att sambandet finns när det egentligen inte finns
Tolkning av korrelationstestet Det finns ett ganska starkt och positivt samband (0.709) mellan arbetstrivsel och medbestämmande Detta samband är statistiskt signifikant (Sig. = 0.000, dvs. p > 0.05) =>Vi kan alltså så här långt anta vår forskningshypotes Men finns det även andra faktorer som kan tänkas spela roll här och hur påverkar dessa i så fall detta samband? Vi beaktar därför även tre andra tänkbara variabler och gör först en ny multivariat korrelationsanalys och sen en multivariat regressionsanalys (OLS) med hjälp av SPSS
Resultat från multipla korrelationsanalysen Correlati ons Nöjd med egen lön Arbet striv sel Uppsk.av närmast e f örman Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N Grad av Uppsk.av upplev d Uppsk.av Nöjd med närmaste medbes tä arbets gru egen lön Arbet striv sel f örman mmande ppen 1,525**,388**,554**,308**,000,000,000,000 136 136 136 136 136,525** 1,674**,709**,303**,000,000,000,000 136 136 136 136 136,388**,674** 1,593**,428**,000,000,000,000 136 136 136 136 136 Grad av upplev d medbes tämmande Uppsk.av arbet sgruppen Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N **. Correlation is signif icant at the 0.01 lev el (2-tailed).,554**,709**,593** 1,294**,000,000,000,001 136 136 136 136 136,308**,303**,428**,294** 1,000,000,000,001 136 136 136 136 136
Tolkningar av multipla korrelationstestet Det starka och signifikanta samband mellan arbetstrivsel och medbestämmande kvarstår (0.709) eftersom även detta är en bivariat analys, men vi ser också att andra faktorer påverkar arbetstrivseln -> sambandet inte är så entydigt som vi trodde Vi vill därför kolla hur medbestämmande påverkar arbetstrivsel när man samtidigt kontrollerar för inverkan av andra variabler. Vi genomför därför en multivariat regressionsanalys (dvs. en beroende och fyra oberoende variabler) och där iden är att testa vilken (relativ) förklaringsgrad variabeln medbestämmande har när vi samtidigt kontrollerar för påverkan från andra variabler
Multivariat regressionstest Model 1 a. Model 1 Model Summary Adjust ed Std. Error of R R Square R Square the Estimate,787 a,619,608,598 Predictors: (Constant), Uppsk.av arbetsgruppen, Grad av upplev d medbestämmande, Nöjd med egen lön, Uppsk.av närmast e f örman Intercept (konstant) (Constant) Grad av upplev d medbes tämmande Nöjd med egen lön Uppsk.av närmast e f örman Uppsk.av arbetsgruppen a. Dependent Variable: Arbets triv sel Beroende variabeln Coefficients a Uns tandardized Coef f icients Standardized Coef f icients Regressionskoefficienter B Std. Error Beta t Sig.,466,217 2, 154,033,372,070,397 5, 328,000,153,061,164 2, 483,014,358,065,388 5, 466,000 -, 029,059 -, 030 -, 491,624 De fyra oberoende variablerna Signifikansnivåer Standardfel Förklaringsgrad, dvs hur stor del av variationen i arbetstrivsel förklaras av modellen nedan?
Tolkningar av regressionstestet Till att börja med kan vi se på Model Summary som visar att regressionsmodellen förklarar en relativt stor andel (ca. 60 %) av den totala variationen i arbetstrivsel (r 2 =.608) och att medelfelet är 0.598 - > dvs. ca 60 % av variationen i uppmätt arbetstrivsel hänger samman med de fyra oberoende variablerna i modellen För att kunna säga något mer exakt om vad medelfelet i detta fall säger om modellens statistiska kvalitet, behöver vi dock göra diverse tilläggsanalyser. Men på i det stora hela verkar testet dock fungera
Tolkningar av regressionstestet, forts. Betakoefficienterna (Coefficients) visar, som väntat, att det finns ett starkt, positivt, samband mellan arbetstrivsel och medbestämmande (Beta=0.397) och att detta samband är signifikant på 0.05-nivån, dvs. att vi kan anta forskningshypotesen med 95% säkerhet Även lönen (Beta=0.164) och uppskattning av förman (Beta=0.388) har positiv betydelse för arbetstrivseln, medan uppskattning av arbetsgruppen inte spelar lika viktig roll för arbetstrivsel och är negativt korrelerad (Beta= -0.030, Sig. = 0.624)
Sammanfattning Statistiska analysmetoder förutsätter kvantitativa data, helst på intervall- eller kvotnivå. Hjälper oss att beskriva data, att beräkna samband och att testa forskningshypoteser. För att statistiskt testa kausalsamband måste vi dock ha diakroniskt data, dvs. tidsseriedata Finns många bra guider för detta, t.ex. SPSS-akuten eller Julie Pallants bok (SPSS Survival manual). Denna visar hur man steg för steg gör det som jag gjort här (och mycket till) och innebär att vi alla kan använda statistiska analyser ifall vi vill!