Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Relevanta dokument
Kvantitativa, statistiska analysmetoder en överblick. Mikael Nygård, Åbo Akademi

Data och metoder för statistiska analyser

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Samhällsvetenskaplig metod, 7,5 hp

Uppgift 1. Deskripitiv statistik. Lön

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Lösningar till SPSS-övning: Analytisk statistik

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Multipel regression och Partiella korrelationer

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Forsknings- och undersökningsmetodik Skrivtid: 4h

Gamla tentor (forts) ( x. x ) ) 2 x1

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Uppgift 1. Produktmomentkorrelationskoefficienten

Multipel Regressionsmodellen

Föreläsning 7 och 8: Regressionsanalys

Linjär regressionsanalys. Wieland Wermke

Statistik 1 för biologer, logopeder och psykologer

Medicinsk statistik II

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

InStat Exempel 4 Korrelation och Regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

OBS! Vi har nya rutiner.

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Hypotestestning och repetition

Tentamen Tillämpad statistik A5 (15hp)

Inferensstatistik. Hypostesprövning - Signifikanstest

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Repetitionsföreläsning

Medicinsk statistik II

Föreläsning G60 Statistiska metoder

Statistik och epidemiologi T5

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

OBS! Vi har nya rutiner.

10.1 Enkel linjär regression

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Hur skriver man statistikavsnittet i en ansökan?

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

OBS! Vi har nya rutiner.

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Sänkningen av parasitnivåerna i blodet

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Tentamen Tillämpad statistik A5 (15hp)

Regressions- och Tidsserieanalys - F1

Att välja statistisk metod

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

FACIT!!! (bara facit,

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Höftledsdysplasi hos dansk-svensk gårdshund

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

F3 Introduktion Stickprov

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Föreläsning 5. Kapitel 6, sid Inferens om en population

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Samplingfördelningar 1

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

F9 SAMPLINGFÖRDELNINGAR (NCT

Transkript:

Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018

Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial Används dels för att beskriva data, t.ex. hur dess olika variabler fördelar sig, eller för att testa samband mellan variabler (t.ex. arbetstrivsel och medbestämmande) Statistiska sambandsanalyser utförs oftast med hjälp av hypotestestning där vi endera skattar estimat för populationer eller testar graden av systematiska samband med statistisk inferens (söker statistisk signifikans) Underlättas av tillgång till SPSS (eller andra statistikprogram)

Olika typer av statistisk analys Det finns många former av statistisk analys, beroende vilken typ av undersökning, urvalstyp och data vi har att göra med Grovt förenklat kan vi kanske skilja mellan två huvudtyper: Deskriptiva statistiska analyser: syftar till att beskriva variabler, t.ex. genom att beräkna central- eller spridningsmått, genom att framställa data i tabeller eller diagram/figurer Analyser av samband: syftar till att mäta samband mellan olika variabler, att skatta estimat för populationer, eller att testa hypoteser om skillnader i fördelningar

Deskriptiv statistisk analys Utgör vanligen ett första steg i analysen och syftar främst till att beskriva hur variablerna är fördelade I detta skede bör också svarsutfallet analyseras. I vårt fall svarade 136 av de samplade 150 personerna (ca 91 %), vilket gör bortfallet litet men ändå värt att analysera, eftersom detta kan avslöja ifall någon viss grupp varit mer ovillig att svara än i genomsnitt)

Exempel på deskriptiv analys Tabell 1. Fördelningen av respondenter enligt befattning och övriga variabelkategori (n = 136) Socialarbetare Socialhandledare (n=78) (n=58) Variabler: Kön (kvinna, man) i procent 82.2% 17.8% 80.7 % 19.3% Ålder (medeltal, standardavvikelse) 42 5,73 39 6,11 Arbetstrivsel (medeltal, stand.avv.) 2.7 6.232 3,112 5.884 Medbestämmande (medeltal, stand.avv.) n 3.6 n 7.204 n 3.7 n 5.345 n

Statistiska sambandsanalyser Syftar till att mäta samband mellan enskilda variabler (bivariat analys) eller mellan flera oberoende variabler och en beroende variabler (multivariat analys) Oftast bygger sådana analyser på antaganden (forskningshypoteser) som vi testar statistiskt med hjälp av statistisk inferens Detta innebär att vi med statistikens hjälp prövar ifall vår hypotes stämmer eller inte Vi avgör graden av statistisk signifikans (dvs. om ett samband är verkligt eller slumpmässigt)

Hypotestestning och signifikansnivå Två olika hypoteser används: Forskningshypotes (H 1 ): det påstående vi vill testa (t.ex. det finns ett samband mellan arbetstrivsel och graden av medbestämmande som inte är slumpmässigt) Nollhypotes (H 0 ): det som gäller ifall forskningshypotesen är falsk (inget systematiskt samband finns) Signifikansnivån (p, Sig.) anger risken för att sambandet är skenbart, slumpmässigt genererat (bör helst vara mindre än 0.05 -> vi kan med 95 % säkerhet anta att sambandet gäller, dvs. att det inte är skenbart

Några vanliga test i statistisk sambandsanalys Korrelationstester (r xy, r s och C xy ) visar samband mellan variabler Regressionstester (regressionskoefficient) testar samband men även vilken riktning sambandet går (hur mycket av y förklaras av x?) χ 2 -testet av skillnader mellan fördelningar Testning av medelvärdet i ett stickprov (t-test) Testning av skillnaden mellan två fördelningars medelvärden (t-test)

Exempel: korrelations- och regressionstest Forskningshypotes: personer med hög grad av upplevd medbestämmanderätt tenderar uppleva en högre grad av arbetstrivsel (på ett sätt som inte kan förklaras pga. slumpen) Vi genomför med hjälp av SPSS ett korrelationstest samt ett regressionstest där vi testar hur våra huvudsakliga variabler (arbetstrivsel och medbestämmande) samt andra eventuella mellanliggande variabler förhåller sig till varandra

Något om skillnaden mellan korrelations- och regressionstest Båda mäter sambandet mellan variabler och testar forskningshypoteser Skillnaden är främst att korrelationstest (t.ex. Pearsons koefficient) endast mäter graden av samvariation mellan olika variabler (utan att vi vet något om sambandets riktning), medan regressionsanalys (t.ex. OLS=ordinary least squares, minsta kvadratmetoden) beräknar en funktion för sambandet (y = a + bx) och (vilket dock inte är bevis på kausalitet)

Parson s korrelationstest Correl ati ons Arbet striv sel Grad av upplev d medbes tämmande Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N Grad av upplev d medbes tä Arbet striv sel mmande 1,709**,000 136 136,709** 1,000 **. Correlation is signif icant at the 0.01 lev el (2-tailed). 136 136 Pearsons korrelationskoefficient (varierar mellan 0 och +/-1) Signifikanstest (p-värde); anger risken för att vi ska tro att sambandet finns när det egentligen inte finns

Tolkning av korrelationstestet Det finns ett ganska starkt och positivt samband (0.709) mellan arbetstrivsel och medbestämmande Detta samband är statistiskt signifikant (Sig. = 0.000, dvs. p > 0.05) =>Vi kan alltså så här långt anta vår forskningshypotes Men finns det även andra faktorer som kan tänkas spela roll här och hur påverkar dessa i så fall detta samband? Vi beaktar därför även tre andra tänkbara variabler och gör först en ny multivariat korrelationsanalys och sen en multivariat regressionsanalys (OLS) med hjälp av SPSS

Resultat från multipla korrelationsanalysen Correlati ons Nöjd med egen lön Arbet striv sel Uppsk.av närmast e f örman Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N Grad av Uppsk.av upplev d Uppsk.av Nöjd med närmaste medbes tä arbets gru egen lön Arbet striv sel f örman mmande ppen 1,525**,388**,554**,308**,000,000,000,000 136 136 136 136 136,525** 1,674**,709**,303**,000,000,000,000 136 136 136 136 136,388**,674** 1,593**,428**,000,000,000,000 136 136 136 136 136 Grad av upplev d medbes tämmande Uppsk.av arbet sgruppen Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N **. Correlation is signif icant at the 0.01 lev el (2-tailed).,554**,709**,593** 1,294**,000,000,000,001 136 136 136 136 136,308**,303**,428**,294** 1,000,000,000,001 136 136 136 136 136

Tolkningar av multipla korrelationstestet Det starka och signifikanta samband mellan arbetstrivsel och medbestämmande kvarstår (0.709) eftersom även detta är en bivariat analys, men vi ser också att andra faktorer påverkar arbetstrivseln -> sambandet inte är så entydigt som vi trodde Vi vill därför kolla hur medbestämmande påverkar arbetstrivsel när man samtidigt kontrollerar för inverkan av andra variabler. Vi genomför därför en multivariat regressionsanalys (dvs. en beroende och fyra oberoende variabler) och där iden är att testa vilken (relativ) förklaringsgrad variabeln medbestämmande har när vi samtidigt kontrollerar för påverkan från andra variabler

Multivariat regressionstest Model 1 a. Model 1 Model Summary Adjust ed Std. Error of R R Square R Square the Estimate,787 a,619,608,598 Predictors: (Constant), Uppsk.av arbetsgruppen, Grad av upplev d medbestämmande, Nöjd med egen lön, Uppsk.av närmast e f örman Intercept (konstant) (Constant) Grad av upplev d medbes tämmande Nöjd med egen lön Uppsk.av närmast e f örman Uppsk.av arbetsgruppen a. Dependent Variable: Arbets triv sel Beroende variabeln Coefficients a Uns tandardized Coef f icients Standardized Coef f icients Regressionskoefficienter B Std. Error Beta t Sig.,466,217 2, 154,033,372,070,397 5, 328,000,153,061,164 2, 483,014,358,065,388 5, 466,000 -, 029,059 -, 030 -, 491,624 De fyra oberoende variablerna Signifikansnivåer Standardfel Förklaringsgrad, dvs hur stor del av variationen i arbetstrivsel förklaras av modellen nedan?

Tolkningar av regressionstestet Till att börja med kan vi se på Model Summary som visar att regressionsmodellen förklarar en relativt stor andel (ca. 60 %) av den totala variationen i arbetstrivsel (r 2 =.608) och att medelfelet är 0.598 - > dvs. ca 60 % av variationen i uppmätt arbetstrivsel hänger samman med de fyra oberoende variablerna i modellen För att kunna säga något mer exakt om vad medelfelet i detta fall säger om modellens statistiska kvalitet, behöver vi dock göra diverse tilläggsanalyser. Men på i det stora hela verkar testet dock fungera

Tolkningar av regressionstestet, forts. Betakoefficienterna (Coefficients) visar, som väntat, att det finns ett starkt, positivt, samband mellan arbetstrivsel och medbestämmande (Beta=0.397) och att detta samband är signifikant på 0.05-nivån, dvs. att vi kan anta forskningshypotesen med 95% säkerhet Även lönen (Beta=0.164) och uppskattning av förman (Beta=0.388) har positiv betydelse för arbetstrivseln, medan uppskattning av arbetsgruppen inte spelar lika viktig roll för arbetstrivsel och är negativt korrelerad (Beta= -0.030, Sig. = 0.624)

Sammanfattning Statistiska analysmetoder förutsätter kvantitativa data, helst på intervall- eller kvotnivå. Hjälper oss att beskriva data, att beräkna samband och att testa forskningshypoteser. För att statistiskt testa kausalsamband måste vi dock ha diakroniskt data, dvs. tidsseriedata Finns många bra guider för detta, t.ex. SPSS-akuten eller Julie Pallants bok (SPSS Survival manual). Denna visar hur man steg för steg gör det som jag gjort här (och mycket till) och innebär att vi alla kan använda statistiska analyser ifall vi vill!