January 3, Statistiska metoder vid kvantitativa. undersökningar. Jan-Olof Johansson

Relevanta dokument
Föreläsning G60 Statistiska metoder

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Statistik 1 för biologer, logopeder och psykologer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Beskrivande statistik

Föreläsning G70 Statistik A

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

2 Dataanalys och beskrivande statistik

Gamla tentor (forts) ( x. x ) ) 2 x1

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Lektionsanteckningar 11-12: Normalfördelningen

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 12: Regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Medicinsk statistik I

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Medicinsk statistik II

Statistiska undersökningar

732G01/732G40 Grundläggande statistik (7.5hp)

Statistik 1 för biologer, logopeder och psykologer

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Att välja statistisk metod

Föreläsning G60 Statistiska metoder

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 5. Kapitel 6, sid Inferens om en population

2.1 Minitab-introduktion

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik KTH. Formelsamling i matematisk statistik

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Forskningsmetodik 2006 lektion 2

Statistik och epidemiologi T5

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

13.1 Matematisk statistik

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

FACIT (korrekta svar i röd fetstil)

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Bearbetning och Presentation

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

OBS! Vi har nya rutiner.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

F19, (Multipel linjär regression forts) och F20, Chi-två test.

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Hypotestestning och repetition

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

import totalt, mkr index 85,23 100,00 107,36 103,76

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Statistik 1 för biologer, logopeder och psykologer

Uppgift 1. Produktmomentkorrelationskoefficienten

Uppgift 1. f(x) = 2x om 0 x 1

Föreläsning G60 Statistiska metoder

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning 7: Punktskattningar

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Sänkningen av parasitnivåerna i blodet

Statistiska samband: regression och korrelation

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Läs noggrant informationen nedan innan du börjar skriva tentamen

Valresultat Riksdagen 2018

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Examinationsuppgift 2014

Industriell matematik och statistik, LMA /14

Transkript:

January 3, 2017 January 3, 2017 1 / 84

January 3, 2017 2 / 84

Part I Lärandemål Kvantitativ undersökning Insamling av kvantitativa data Inledning January 3, 2017 3 / 84

Lärandemål Lärandemål definiera variabel och mätskalor förklara och exemplifiera population, stickprov samt obundet slumpmässigt urval beskriva olika metoder att samla kvantitativa data presentera kvantitativa data med tabeller och diagram definiera tre centralmått och tre spridningsmått beskriva två olika mått på samvariation mellan två variabler förklara och beskriva normalfördelade data utföra statistisk analys med χ 2 Lärandemål Kvantitativ undersökning Insamling av kvantitativa data January 3, 2017 4 / 84

Kvantitativ undersökning Population och stickprov Vi intresserar oss för egenskaper hos en grupp av t. ex. individer, djur, växter eller tillverkade komponenter... Denna grupp benämner vi population. När vi undersöker alla i populationen gör vi en totalundersökning. Om vi endast undersöker en mindre del men vill uttala oss om populationens egenskaper gör vi en stickprovsundersökning. Vi en statistisk undersöking benämner vi egenskaperna variabler Lärandemål Kvantitativ undersökning Insamling av kvantitativa data January 3, 2017 5 / 84

Kvantitativ undersökning Exempel Antag en population som består av alla 10-åringar i Sverige. Egenskaper av intresse kan vara kön, längd, kunskaper i matematik,... Variabler: kön längd poäng i nationellt prov ( här har vi kvantifierat kunskaper med värdet på variabeln poäng) Lärandemål Kvantitativ undersökning Insamling av kvantitativa data January 3, 2017 6 / 84

Kvantitativ undersökning Mätskalor (datanivå ) Beroende på en variables egenskaper sägs den tillhöra en mätskala Kvalitativa variabler nominalskala exempel: kategoriska variabler, kön, politiskt parti, yrke, färg... ordinalskala variabler där ordning har en mening. Exempel: betyg, grad av samtycke,... Kvantitativa variabler intervallskala exempel: temperatur i grader Celsius kvotskala exempel: längd, vikt, omkrets, avstånd,... Lärandemål Kvantitativ undersökning Insamling av kvantitativa data January 3, 2017 7 / 84

Kvantitativ undersökning Insamling av kvantitativa data Insamling av kvantitativa data Två viktiga frågor vid en undersökning är vad som skall mätas och hur det skall mätas. Vad som mäts är våra variabler och hur dessa mäts sker t.ex. genom: Lärandemål Kvantitativ undersökning Insamling av kvantitativa data Enkäter Intervjuer Utdrag ur databaser Observationer Mätning med instrument January 3, 2017 8 / 84

Part II Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått Beskrivande statistik January 3, 2017 9 / 84

Beskrivande statistik Bearbetning av kvantitativa data Ogrupperade (rå) data är ofta oöverskådliga. Exempel: uppmätt längd av 200 10-åringar 125 116 122 146 109 137 134 153 124 131 135 125 121 114 124 119 136 114 127 129 135 139 120 128 131 131 122 131 128 126 138 133 137 124 124 135 137 142 130 127 129 128 123 143 133 122 131 131 127 134 128 117 128 116 120 131 118 146 117 116 120 129 114 126 120 146 130 136 128 126 136 135 124 137 140 138 131 132 140 135 126 136 145 117 141 139 143 124 111 129 122 122 140 118 123 143 120 116 131 129 140 134 115 133 134 122 131 132 125 141 136 116 117 138 121 133 138 134 119 127 120 125 128 139 134 123 133 129 134 129 119 140 117 123 126 128 111 137 132 129 132 119 115 138 127 131 128 127 132 121 134 144 119 120 122 147 135 136 127 132 140 130 121 129 136 122 130 123 132 134 119 148 126 126 116 143 129 146 112 127 119 131 120 112 138 142 137 132 133 115 135 128 132 119 121 121 134 135 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 10 / 84

Beskrivande statistik jämför nu samma data i stigande ordning: 109 111 111 112 112 114 114 114 115 115 115 116 116 116 116 116 116 117 117 117 117 117 118 118 118 119 119 119 119 119 119 119 119 120 120 120 120 120 120 120 120 121 121 121 121 121 121 122 122 122 122 122 122 122 122 123 123 123 123 123 124 124 124 124 124 124 125 125 125 125 126 126 126 126 126 126 126 127 127 127 127 127 127 127 127 128 128 128 128 128 128 128 128 128 128 129 129 129 129 129 129 129 129 129 129 130 130 130 130 130 131 131 131 131 131 131 131 131 131 131 131 131 132 132 132 132 132 132 132 132 132 133 133 133 133 133 133 134 134 134 134 134 134 134 134 134 134 135 135 135 135 135 135 135 135 136 136 136 136 136 136 136 137 137 137 137 137 137 138 138 138 138 138 138 139 139 139 140 140 140 140 140 140 141 141 142 142 143 143 143 143 144 145 146 146 146 146 147 148 153 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 11 / 84

Beskrivande statistik Beskrivning av kvantitativa data Bearbetning syftar till ökad överskådlighet, underlättar tolkning och förbereder vidare analys tabeller diagram stopdiagram histogram cirkeldiagram spridningsdiagram centralmått, spridningsmått och korrelationsmått Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 12 / 84

Beskrivande statistik Tabeller Frekvenstabell Längd hos 10-åringar Intervall Antal Andel % 91-100 0 0.000 101-110 1 0.005 111-120 40 0.200 121-130 69 0.345 131-140 73 0.365 141-150 16 0.080 151-160 1 0.005 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 13 / 84

Beskrivande statistik Diagram Cirkeldiagram Längd 121 130 111 120 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått 101 110 151 160 141 150 131 140 January 3, 2017 14 / 84

Beskrivande statistik Diagram Histogram Längd Frequency 0 10 20 30 40 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått 110 120 130 140 150 length January 3, 2017 15 / 84

Beskrivande statistik Diagram Stapeldiagram 0 20 40 60 80 100 120 Antal sjukdagar under 2002 2012 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått Kalle Lotta Eva Sven Erik January 3, 2017 16 / 84

Beskrivande statistik Centralmått Centralmått Ett centralmått används för att beskriva en uppmätt variabels läge, tyngdpunkt, mittpunkt. Beroende på mätskala kan huvudsakligen tre centralmått användas typvärde för alla mätskalor median för ordinalskala, intervallskala och kvotskala medelvärde för intervallskala och kvotskala Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 17 / 84

Beskrivande statistik Centralmått Typvärde Typvärdet är det värde som förekommer flest gånger Exempel: en rundfrågning av 1200 personer rörande popularitet av deras semestemål gav följande resultat: hemorten 210 övriga Sverige 402 sydeuropa 319 sydostasien 138 annat 93 ej svarat 38 Variabeln semestermål tillhör nominalskala och som centralmått använder vi typvärdet, övriga Sverige Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 18 / 84

Beskrivande statistik Centralmått Median Är det mittersta värdet. Om det finns ett jämnt antal mätvärden så är medianen summan av de två mittersta delat med två Exempel: längden av 10-åringar Median (129+129)/2=129, dvs medelvärdet av det 100:e och 101:a mätvärdena Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 19 / 84

Medelvärde Beskrivande statistik Centralmått Medelvärdet är summan av alla mätvärden delat med antalet mätvärden. Exempel: längden av 10-åringar. Kalla mätning nummer i för x i Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått x = 1 200 200 i=1 Medelvärdet betecknas här med x x i January 3, 2017 20 / 84

Beskrivande statistik Spridningsmått Spridningsmått Spridningsmått används för att beskriva variationen av mätdata kring sitt centralmått. Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått Stor spridning (men god precision) Liten spridning (men dålig precision) January 3, 2017 21 / 84

Beskrivande statistik Spridningsmått Mätskalor och deras spridningsmått nominalskala - saknar spridningsmått ordinalskala - kvartilavstånd och variationsvidd intervallskala - kvartilavstånd, variationsvidd och ibland standardavvikelse kvotskala kvartilavstånd, variationsvidd och standardavvikelse Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 22 / 84

Beskrivande statistik Spridningsmått Variationsvidd Variationsvidd är skillnaden mellan största och minsta mätvärde. Exempel: Mätvärden: 9,19,12,6,8,21,15,22,12,11,20,12 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått i stigande ordning: 6,8,9,11,12,12,12,15,19,20,21,22 Variationsvidd=16 January 3, 2017 23 / 84

Beskrivande statistik Spridningsmått Kvartilavstånd Med kvartil menas fjärdedel Kvartilavstånd är skillnaden mellan mätvärdenas 1:a och 3:e kvartil 6,8,9, 11,12,12 12,15,19 20,21,22 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått 1: kvartilen=9.5 (antal mätvärden+1)*25/100 pekar på mätvärde nummer 3.25 3: kvartilen=19.75 (antal mätvärden+1)*75/100 pekar på mätvärde nummer 9.75 Kvartilavstånd=10.25 January 3, 2017 24 / 84

Standardavvikelse Beskrivande statistik Spridningsmått Standardavvikelse definieras som s = 1 n (x i x) n 1 2 i=1 Beskrivande statistik Tabeller Diagram Centralmått Spridningsmått January 3, 2017 25 / 84

Part III January 3, 2017 26 / 84

Betrakta åter exemplet med 10-åringar. Vi mäter nu längden på 2000 slumpvis utvalda 10-åringar. Längen fördelas här som histogrammet visar: Längden hos 10 åringar Antal 0 50 100 150 200 250 300 350 100 120 140 160 Längd January 3, 2017 27 / 84

Låt oss nu förfina indelningen i histogrammet Antal 0.00 0.01 0.02 0.03 0.04 Längden hos 10 åringar 100 120 140 160 Längd January 3, 2017 28 / 84

... och anpassa en matematisk funktion till histogrammets profil: Antal 0.00 0.01 0.02 0.03 0.04 Längden hos 10 åringar 100 120 140 160 Längd January 3, 2017 29 / 84

Den blå kurvan är en grafisk beskrivning av en matematisk funktion f (x) = 1 σ (x µ) 2 2π e 2σ 2 Denna funktion kallas täthetsfunktionen för normalfördelningen. Funktionen har två parametrar: µ som anger läget och σ som beskriver spridningen. I exemplet är µ=130 och σ=12. January 3, 2017 30 / 84

Viktiga egenskaper hos normalfördelningen kan användas som modell för många mätbara fenomen - naturliga såväl som industriellt producerade har två parametrar lägesparameter µ spridningsparameter σ kan transformeras till standardform f (x) = 1 2π e x2 2 med µ = 0 och σ = 1 sannolikhetsbestämningar görs från tabell av den standardiserade normalfördelningen, standardformen January 3, 2017 31 / 84

Kurvans utseende för olika värden på µ men samma värde på σ y3 0.0 0.1 0.2 0.3 0.4 µ = 2 µ = 0 µ = 2 5 0 5 January 3, 2017 32 / 84

Kurvans utseende för olika värden på σ men samma värde påµ y3 0.0 0.2 0.4 0.6 0.8 σ = 1 2 σ = 2 σ = 1 5 0 5 January 3, 2017 33 / 84

Transformering av medelvärde och spridning till standardskalan y3 0.2 0.1 0.0 0.1 0.2 0.3 0.4 f(x) = 1 2 2π e( x 2 ) Transformation: x=(x 3)/2 f(x) = 1 (x 3) 2 2 2π e( ) 22 2 µ = 3 σ = 2 µ = 0 σ = 1 5 0 5 January 3, 2017 34 / 84

Bestämning av sannolikheter (andeler av totalen) hos normalfördelningen y 0.00 0.01 0.02 0.03 0.04 70 80 90 100 110 120 130 x Arean till vänster om 90 svarar mot sannolikheten att ett mätvärde är mindre än 90 January 3, 2017 35 / 84

y 0.00 0.01 0.02 0.03 0.04 70 80 90 100 110 120 130 x Arean till höger om 90 och vänster om 105 svarar mot sannolikheten att ett mätvärde ligger mellan dessa gränser January 3, 2017 36 / 84

Beräkning av sannolikheter för normalfördelade data 1 transformera till standard normalfördelning. I exemplet var medelvärdet 100 och standardavvikelsen 5. Vi får då z=(x-100)/5 2 P(90 X 105) blir nu P( 90 100 5 Z 105 100 5 ), dvs, P( 2 Z 1). 3 Ur tabell eller från dator söks sannolikheterna P(Z 1) och P(Z 2) vilka är 0.8413447 resp 0.02275013 4 Den sökta sannolikheten blir nu 0.8413447-0.02275013= 0.8185946 January 3, 2017 37 / 84

Vi kommer nu att intressera oss för samvariationen av två eller flera egenskaper hos de objekt vi undersöker, t. ex längd och vikt hos individer, dvs samvariation mellan variabler. Berorende på undersökningens art, stickprov- eller totalundersökning, står olika bearbetnings- och analysverktyg till vårt förfogande. En totalundersökning innehåller i sig all information och bearbetningen består i att presentera och tolka data. Presentation av data görs med diagram och tabeller. Flera variabler kan visas med korstabell. Grafiskt kan två variabler illustreras med spridningsdiagram. January 3, 2017 38 / 84

Exempel, korstabell Exempel: olycksfallfrekvens för bilförare: Händelse Man Kvinna Aldrig olycka 56 68 Minst en olycka 44 32 100% 100% January 3, 2017 39 / 84

Exempel där en korstabell inte fungerar Antag vi mäter längd och vikt på 500 nyfödda barn. Våra mätvärden består av 500 par: Längd Vikt (49.5 3.2) (48.4 2.3) (48.6 3.3) (51.5 4.3) (50.6 4.1) (48.9 3.7) (51.2 4.0) (49.7 3.5) (48.8 3.1) (49.6 3.6) January 3, 2017 40 / 84

Frekvenstabeller Vi kan skapa en frekvenstabell för vikt och en för längd men dessa visar inte samvariationen: Längd Frekvens Vikt Frekvens (48.2 48.7] 5 (0.976 1.42] 2 (48.7 49.3] 17 (1.42 1.86] 5 (49.3 49.9] 44 (1.86 2.31] 30 (49.9 50.5] 98 (2.31 2.75] 53 (50.5 51] 102 (2.75 3.2] 80 (51 51.6] 110 (3.2 3.64] 112 (51.6 52.2] 73 (3.64 4.09] 111 (52.2 52.8] 29 (4.09 4.53] 69 (52.8 53.4] 17 (4.53 4.97] 26 (53.4 53.9] 5 (4.97 5.42] 12 January 3, 2017 41 / 84

Spridningsdiagram Ett spridningsdiagram plottar längd och vikt för varje barn i en punkt (cirkel) 48 49 50 51 52 53 54 1 2 3 4 5 Spridningsdiagram för vikt och längd hos 500 nyfödda barn Längd Vikt January 3, 2017 42 / 84

Spridningsdiagram Spridningsdiagramet illustrerar en samvariation där längre barn oftast väger mer an kortare barn. Vi kallar detta för positiv korrelation mellan de två variablerna längd och vikt. January 3, 2017 43 / 84

Spridningsdiagram med negativ korrelation 47 48 49 50 51 52 53 54 2.0 2.5 3.0 3.5 4.0 4.5 5.0 a[,1] a[,2] January 3, 2017 44 / 84

Spridningsdiagram med 0 korrelation 46 48 50 52 54 2.0 2.5 3.0 3.5 4.0 4.5 5.0 a[,1] a[,2] January 3, 2017 45 / 84

Korrelation Korrelation är ett mått på styrkan och riktningen av två variablers samvariation. Korrelationen mellan två variabler på minst intervallnivå mäts med Pearsons produktmomentkorrelation. Korrelationen mellan två variabler på minst ordinalnivå mäts med Spearmans rangkorrelation. Båda måtten ger ett tal, korrelationskoefficienten, mellan -1 och +1, där 0 innebär ingen korrelation och negativa värden innebär negativ korrelation och positiva värden innebär positiv korrelation. Ju större absolut värde på korrelationskoefficienten desto starkare korrelation. January 3, 2017 46 / 84

Produktmomentkorrelation För n st. data, x och y, på intervall- eller kvotnivå kan vi beräkna medelvärden, m x och m y samt standardavvikelse s x och s y. Dessa beräkningar ingår i formeln för produktmomentkorrelation: r xy = n i=1 (x i m x )(y i m y ) (n 1)s x s y I exemplet med födelselängd (x) och födelsevikt (y) är m x = 49.95 och m y = 3.52. Standardavvikelserna är s x = 1.06 och s y = 0.54. Den beräkande korrelationskoefficienten r xy = 0.69, vilket tolkas som starkt samband. Beräkningarna har utförts med dator. January 3, 2017 47 / 84

Rangkorrelation Om minst en variablerna är av ordinalskala kan inte produktmomentkorrelation beräknas. I stället används Spearmans rangkorrelation r = 1 6 n i=1 (R x i R yi ) 2 n(n 2, 1) där R xi och R yi är rangerna för x i resp y i och n är antalet mätvärden. January 3, 2017 48 / 84

Exempel Orienteringsförmåga och gymnastikbetyg Vi sätter (R x R y ) = d Plac, x G-betyg, y R x R y d d 2 A 1 4 1 2.5-1.5 2.25 B 2 5 2 1 1 1 D 3 4 3 2.5 0.5 0.25 E 4 3 4 5-1 1 F 5 3 5.5 5 0.5 0.25 G 5 2 5.5 7-1.5 2.25 H 7 3 7 5 2 4 d 2 = 11.0 r = 1 66 7(49 1) = 0.8 January 3, 2017 49 / 84

är en metod som innebär att riktigheten av en hypotes testas med statistisk analys. utförs alltid genom stickprov - aldrig med en totalundersökning. Arbetsgången är följande: 1 formulera hypoteser. Dessa benämns nollhypotes, H 0 resp mothypotes, H 1 2 ange en signifikansnivå, dvs sannolikheten att förkasta H 0 när H 0 är sann, ofta 5% eller 1% 3 konstruera en teststorhet och ett kritiskt område 4 beräkna teststorhetens värde från erhållna mätvärden och pröva H 0 5 om teststorhetens värde hamnar i det kritiska området förkastas H 0 på den valda signifikansnivån January 3, 2017 50 / 84

χ 2 -test χ 2 -test (chi-två )är ett signifikanstest som kan användas på nominalskalenivå Exempel: 25 män och 25 kvinnor undersöks med avseende på deras inställning till aga. Variablerna är kön och inställning. Båda är nominalskalenivå och båda antar två värden s.k. dikotoma variabler. January 3, 2017 51 / 84

Hypoteser H 0 : Män och kvinnor har samma inställning till aga H 1 : Män och kvinnors inställning till aga skiljer sig åt Signifikansnivå 5 % Teststorhet χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 där o i,j är observerad frekvens i rad i och kolumn j samt f i,j är förväntad frekvens i rad i och kolumn j om H 0 är sann January 3, 2017 52 / 84

Observerade frekvenser För aga Mot aga Summa Män 15 10 25 Kvinnor 8 17 25 Totalt 23 27 50 Hur beräkna förväntade frekvenser då H 0 är sann? Från totalsumma ser vi 23 av 50 är för aga och 27 av 50 mot aga, dvs 46 % för och 54 % mot. Om H 0 sann så bör då 46 % av 25 män vara för aga, dvs 46 25 100 = 11.5. På samma sätt beräknas de andra förväntade frekvenserna: January 3, 2017 53 / 84

Förväntade frekvenser om H 0 är sann För aga Mot aga Summa Män 11.5 25 Kvinnor 25 Totalt 23 27 50 January 3, 2017 54 / 84

Förväntade frekvenser om H 0 är sann För aga Mot aga Summa Män 11.5 13.5 25 Kvinnor 25 Totalt 23 27 50 January 3, 2017 55 / 84

Förväntade frekvenser om H 0 är sann För aga Mot aga Summa Män 11.5 13.5 25 Kvinnor 11.5 25 Totalt 23 27 50 January 3, 2017 56 / 84

Förväntade frekvenser om H 0 är sann För aga Mot aga Summa Män 11.5 13.5 25 Kvinnor 11.5 13.5 25 Totalt 23 27 50 January 3, 2017 57 / 84

Teststorheten χ 2 Beräkning av teststorheten χ 2 (15 11.5)2 = + 11.5 =3.95 (8 11.5)2 11.5 + (10 13.5)2 13.5 (17 13.5)2 + 13.5 Slutligen jämförs detta värde med det kritiska värdet som erhålls ur en χ 2 -tabell. Denna tabell ger oss kritiska gränser för olika signifikansnivåer och olika frihetsgrader. Signifikansnivån fastställer undersökaren medan frihetsgrader beror på tabellens storlek och är (rader 1)(kolumner 1), i exemplet (2-1)(2-1)=1. January 3, 2017 58 / 84

Utdrag ur χ 2 -tabell l Df 1% 5% 1 6.64 3.84 2 921 5.99 3 11.34 7.82 4 13.28 9.49 5 15.09 11.07 Den kritiska gränser är således 3.84 medan teststorheten= 3.95 som då hamnar i det kritiska området. Slutsatsen blir att nollhypotesen H 0 förkastas, dvs att män och kvinnor har samma inställning till aga. January 3, 2017 59 / 84

Exempel 2 flerfälttstabell Antag vi vill undersöka alkoholvanor med avseende på socialgrupperna 1,2, och 3. Närmare bestämt vill vi kunna avgöra om alkoholvanorna är oberoende av socialgrupp. En stickprovsundersökning görs med 90 personer enligt tabellen: Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 3 12 15 30 Icke-absolutist 17 28 15 60 Totalt 20 40 30 90 H 0 : Alkoholvanor och socialgrupp är oberoende H 1 : Alkoholvanor och socialgrupp är inte oberoende Vi väljer 5% signifikansnivå January 3, 2017 60 / 84

Exempel 2 flerfälttstabell forts. Som tidigare beräknas teststorheten med formeln χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 Förväntade frekvenser Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 6.67 30 Icke-absolutist 60 Totalt 20 40 30 90 January 3, 2017 61 / 84

Exempel 2 flerfälttstabell forts. Som tidigare beräknas teststorheten med formeln χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 Förväntade frekvenser Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 6.67 13.33 30 Icke-absolutist 60 Totalt 20 40 30 90 January 3, 2017 62 / 84

Exempel 2 flerfälttstabell forts. Som tidigare beräknas teststorheten med formeln χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 Förväntade frekvenser Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 6.67 13.33 10 30 Icke-absolutist 60 Totalt 20 40 30 90 January 3, 2017 63 / 84

Exempel 2 flerfälttstabell forts. Som tidigare beräknas teststorheten med formeln χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 Förväntade frekvenser Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 6.67 13.33 10 30 Icke-absolutist 13.3 60 Totalt 20 40 30 90 January 3, 2017 64 / 84

Exempel 2 flerfälttstabell forts. Som tidigare beräknas teststorheten med formeln χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 Förväntade frekvenser Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 6.67 13.33 10 30 Icke-absolutist 13.33 26.67 60 Totalt 20 40 30 90 January 3, 2017 65 / 84

Exempel 2 flerfälttstabell forts. Som tidigare beräknas teststorheten med formeln χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 Förväntade frekvenser Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 6.67 13.33 10 30 Icke-absolutist 13.33 26.67 20 60 Totalt 20 40 30 90 January 3, 2017 66 / 84

Exempel 2 flerfälttstabell forts. Som tidigare beräknas teststorheten med formeln χ 2 = r k (o i,j f i,j ) 2 f i,j i=1 j=1 Förväntade frekvenser Kategori Socgrp 1 Socgrp 2 Socgrp 3 Summa Absolutist 6.67 13.33 10 30 Icke-absolutist 13.33 26.67 20 60 Totalt 20 40 30 90 Observerat χ 2 = 7.01 January 3, 2017 67 / 84

Exempel 2 flerfälttstabell forts. I detta exemplet har vi 2 rader och 3 kolumner vilket ger (2-1)(3-1)=2 frihetsgrader. Ur χ 2 -tabellen avläser vi då 5.99. Det observerade χ 2 -värdet var 7.01, dvs större än den kritiska gränsen i tabellen och därför förkastas nollhypotesen även i detta exemplet. January 3, 2017 68 / 84

Vi inleder med ett exempel. Antag att vi har två variabler, x och y där värdet av variabeln y beror på värdet av variabeln x enligt ekvationen y = 5 + 3x Låter vi nu x anta värdena 2, 3, 5, 6 och 12 så blir motsvarande y-värden 11, 14, 20, 23 och 41. Detta skriver vi ofta som talpar ((2, 11), (3, 14), (5, 20, (6, 23), (12, 41)) Låt oss se hur detta ser ut i en figur: January 3, 2017 69 / 84

Punktdiagram över talparen (x,y) d 10 15 20 25 30 35 40 2 4 Statistiska 6 metoder 8 10 12 January 3, 2017 70 / 84

Antag nu att vi känner talpar från observationer och även vet att relationen mellan dessa talpar kan beskrivas med en rät linje, y = a + bx, men där a och b är okända parametrar. Med ledning av de observerade talparen kan a och b skattas. January 3, 2017 71 / 84

Exempel Vi har talparen (1, 2.13), (3, 0.41), (4, 3.20), (6, 7.02), (8, 5.57), (9, 4.85), (10, 9.67), (14, 7.66), (15, 5.14), (18, 15.61) och vill skatta den räta linie y = a + bx, som bäst passar de givna talparen. January 3, 2017 72 / 84

Punktdiagram över talparen (x,y) b 0 5 10 15 5 Statistiska 10 metoder 15 January 3, 2017 73 / 84

Punktdiagram över talparen (x,y) och den skattade räta linjen b 5 10 15 January 3, 2017 74 / 84

Med minsta kvadratmetoden kan nu parametrarna a och b skattas. a = 0.76 och b = 0.61. Vi har genomfört enkel linjär regression Den skattade räta linjen har ekvationen y = 0.76 + 0.61x Nu kan man prediktera ett y-värde genom att sätta in x-värdet i ekvationen, t.ex. för x = 20 får vi y = 0.76 + 0.61 10 = 13.62 January 3, 2017 75 / 84

Determinationskoefficient Vi har tidigare sett hur man kan ange samvariationen mellan två varabler med korrelationskefficienten, n i=1 r xy = (x i m x )(y i m y ) (n 1)s x s y Om vi använder enkel linjär regression så kan r xy också användas för att ange hur stor del av variationen av y som kan förklaras av variationen av x. Man kvadrerar då r xy och kallar denna kvadrat för determinationskoefficient R 2. January 3, 2017 76 / 84

Multipel regression sanalys kan genomföras även då man har mer än en förklarande variabel. T.ex. beror vikten, w, av ett homogent rätblock av trä på längden x, bredden y och höjden z enligt ekvationen w = β 1 x + β 2 y + β 3 z, och med denna modell lämnar vi regressionsanalysen. January 3, 2017 77 / 84

Litteratur Hjerm, M., Lindgren, S. & Nilsson, M. Introduktion till samhllsvetenskaplig analys. Malmö: Gleerups. Stukat, S.(1993). Statistikens grunder. Lund: Studentlitteratur Rönnqvist, C. & Vinterek, M. (2008). (red.) Se skolan. Forskningsmetoder i pedagogiskt arbete. Umeå Universitet: Fakultetsnämnden för Lärarutbildning January 3, 2017 78 / 84

Statistiken har fler underbara metoder att studera och använda vilka rekommenderas på det varmaste. January 3, 2017 79 / 84

Part IV Datainsamling med enkät January 3, 2017 80 / 84

Problemformulering och syfte Flera pekar på ett samband mellan studenters studieresultat och engangemang i olika aktiviteter, bisysslor vid sidan om studierna. 1,2,3... Syftet med denna undersökning är att kartlägga omfattningen av icke-studieaktiviteter hos en utvald grupp studenter vid Gråstads Universitet. Undersökningen avgränsas till regelbundet återkommande aktiviteter med en förekomst av minst 3 timmar per vecka. January 3, 2017 81 / 84

Frågeställningar Detta syfte leder fram till ett antal frågeställningar: Vilka aktiveter förekommer? Hur mycket tid tar aktivteterna? Vilka tider infaller aktiviteterna i relation till schemalagda studier? Vilken påverkan har aktiviteterna på studierna? January 3, 2017 82 / 84

Metod Vi bestämmer oss för att genomföra en enkät och med den få svar på våra frågeställningar. Vidare beslutar vi oss för att välja en webbaserad enkät. Det finns flera möjligheter men vi väljer en webbenkät som inte kostar pengar. Det finns ett antal sådana och vi tar Goggle forms. Det enda som behövs är ett gogglekonto, t.ex. har man en gmail-adress så har man samtidigt ett google-konto. January 3, 2017 83 / 84

web-adresser Allmänt om statistiska : http://www.scb.se/sv /Dokumentation/Statistikguiden/ Sök vidare på Documentation och sedan Statistikguiden Hur arbeta med goggle forms: https://sites.google.com/site/enkateronline/ Och så börja skriva enkäten: https://drive.google.com January 3, 2017 84 / 84