Att välja statistisk metod

Relevanta dokument
Repetitionsföreläsning

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Repetitionsföreläsning

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Fråga nr a b c d 2 D

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Medicinsk statistik II

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

EXAMINATION KVANTITATIV METOD vt-11 (110319)

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

import totalt, mkr index 85,23 100,00 107,36 103,76

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Medicinsk statistik II

Mall och manual för granskning av interventionsstudier

Statistik och epidemiologi T5

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

Höftledsdysplasi hos dansk-svensk gårdshund

2. Test av hypotes rörande medianen i en population.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Välkomna till Statistik och kvantitativa undersökningar Lars Bohlin Syfte: Lärandemål. Lärandemål forts.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F22, Icke-parametriska metoder.

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Föreläsning G60 Statistiska metoder

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 12 e januari Ten 1, 9 hp

Statistik Termin 10, Läkarprogrammet, HT16

Föreläsning 5 och 6.

En kort instruktion för arbete i SPSS

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Skrivning/skriftlig eksamen till statistikdelen av kursen i forskningsmetodik maj 2002

Föreläsning 12: Regression

Hypotestestning och repetition

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Gamla tentor (forts) ( x. x ) ) 2 x1

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

, s a. , s b. personer från Alingsås och n b

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

OBS! Vi har nya rutiner.

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

En kort instruktion för arbete i R Commander

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning G70 Statistik A

a) Facit till räkneseminarium 3

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Statistik och epidemiologi T5

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SOPA62 - Kunskapsproduktion i socialt arbete

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Sänkningen av parasitnivåerna i blodet

Tillämpad statistik Naprapathögskolan. Henrik Källberg Tel

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Statistiska undersökningar

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

OBS! Vi har nya rutiner.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

732G01/732G40 Grundläggande statistik (7.5hp)

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Transkript:

Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel... 2 2. Jämförelse av två olika variabler i hela populationen / tester på beroende urval... 3 3. Att undersöka samband mellan variabler... 4 3.1 Jämförelse mellan grupper av en variabel som är mätt på nominalskala.... 4 3.2 Jämförelse mellan grupper av en variabel som är mätt på ordinalskala.... 4 3.3 Jämförelse mellan grupper av en variabel som är mätt på intervall eller kvotskala.... 5 3.4 Att undersöka samband mellan två variabler när alla variabler har minst ordinalskala... 5 3.5 Att undersöka samband mellan många variabler... 6

Val av statistisk metod. Lind presenterar en stor mängd olika metoder, en i taget. Det är ett bra sätt för att lära sig om hur man utför varje enskilt test. Nackdelen med det kan vara att det kan vara svårt att få en överblick över alla olika metoder och en insikt om hur man väljer mellan dem. Syftet med den här texten är att sortera upp de olika statistiska metoder som vi går igenom i kursen efter deras användningsområde. Min förhoppning är att de kan ge en bättre överblick över de olika statistiska metoderna. Texten är inte heltäckande utan tar bara upp de metoder som vi behandlar i den hör kursen. 1. Undersökning av en variabel Om den variabel vi är intresserade av är mätt på kvot- eller intervalskala är vi oftast intresserade av dess medelvärde. Om vi i första hand är intresserade av vilket värde den har bör vi beräkna ett konfidensintervall. Om vi vill testa huruvida den har ett visst värde eller är större eller mindre än ett visst värde använder vi t-test för medelvärde. Vid t-test på medelvärde bör vårt urval vara minst 30, annars fungerar antagandet om normalfördelade urvalsmedelvärden dåligt. Ju större urval vi har desto mindre avvikelser från noll hypotesen kan vi bevisa, testet blir därför starkare om vi har större urval. Om den variabel vi är intresserade av är mätt på nominal- eller ordinalskala och vi enbart intresserar oss för ett av utfallen beräknar vi lämpligen andelen i urvalet som har detta utfall. Sedan kan vi antingen göra konfidensintervall för andel, om vi vill få en uppskattning av vilket värde den har, eller en hypotestest på andelar om vi vill testa huruvida den har ett visst värde. Om vi är intresserade av hela fördelningen över alla utfallen kan vi antingen göra konfidensintervall för ett utfall i taget eller en chi 2 test för att se om variabeln följer en viss fördelning eller ej.

2. Jämförelse av två variabler i hela populationen / tester på beroende urval Exempel på frågeställningar som faller in under denna rubrik kan vara följande frågeställningar 1. Är studenterna lika nöjda med kurslitteraturen som med föreläsningarna 2. Är kroppstemperaturen lika hög på morgonen som på kvällen. 3. Påverkas blodtrycket av en viss behandling. I första frågeställningen baserar vi vår analys på hela urvalet studenter som fyllt i kursvärderingen. För varje individ har vi två variabler av samma typ som vi kan jämföra individ för individ. Svaret på frågan om kurslitteraturen och svaret på frågan om föreläsningarna. I andra frågan har vi förmodligen gjort så att vi i ett urval individer bett dem att ta tempen både på morgonen och kvällen, så vi har två olika variabelvärden på en och samma individ. Här delar vi alltså inte in vårt urval i olika grupper. För den tredje frågeställningen kan det hända att vi väljer att jämföra två olika urval. Ett urval med individer som använder medicinen och ett urval med individer som inte gör det. I den typen av undersökningar är det bra att använda matchade urval. Man skapar en kontrollgrupp genom att leta upp individer som liknar var och en i det urval som testar läkemedlet. Sedan kan vi jämföra varje individ i urvalet med dess matchning i kontrollgruppen. I den meningen är kontrollgruppen och testgruppen beroende. Det andra alternativet är att ha ett urval men att för varje individ mäta blodtrycket både före och efter behandlingen. Eftersom vi kan matcha ihop värdet för en viss individ med en individens matchning i den andra gruppen kan vi använda samma metoder som när vi har två mätvärden för samma individ. Dessa metoder kallas metoder för beroende urval eftersom man kan använda dem när man jämför två lika urval men med matchade individer. I den här kursen kommer vi dock i första hand att använda dem när vi enbart har ett urval men jämför två variabelvärden för varje individ för att se vilken variabel som är störst. Här finns 3 metoder till vårt förfogande. i. Teckentest ii. Wilcoxons teckenrangtest iii. T-test på beroende urval. T-test fungerar bäst om variablerna är normalfördelade och kräver intervall eller kvotskala. Om vi har ordinalskala kan vi bara välja på någon av de två första metoderna. Om avstånden mellan observationerna inte har någon som helst tolkning kan man hävda att inte heller Wilcoxons teckenrangtest är helt tillfredställande eftersom vi då rangordnar intervallen mellan våra båda variabler. Teckentestet gör därför de minst krävande antagandena. Om man har ordinalskala är det ganska vanligt att göra både teckentest och Wilcoxons teckenrangtest. Om båda ger samma resultat är det enkelt att dra slutsatser, lite knepigare kan det bli att avgöra vilket resultat man ska tro på om de ger olika slutsatser. Om man har intervall eller kvotskala så utnyttjar t-testen mest information. Men om inte variablerna är normalfördelade och urvalsstorleken är liten kan Wilcoxons teckenrangtest ofta vara att föredra även vid intervall och kvotskala. Trots att det inte utnyttjar all information så är dess antaganden om fördelningen bättre uppfyllda.

3. Att undersöka samband mellan variabler I detta avsnitt ska vi studera metoder för att undersöka samband mellan variabler. Om den ena av de båda variablerna är en variabel mätt på nominalskala använder vi den för att dela in urvalet i olika grupper och ser om de grupperna skiljer sig åt i avseende på den andra variabeln. Val av metod beror av antalet grupper vi vill jämföra och skaltyp på variabeln vars värde vi vill jämföra. 3.1 Jämförelse mellan grupper av en variabel som är mätt på nominalskala. Exempel på frågeställningar som faller in under denna rubrik kan vara: 1. Är andelen pensionärer i befolkningen lika stor i Norge som i Sverige? 2. Är andelen pensionärer i befolkningen lika stor i Götaland, Svealand och Norrland? 3. Är fördelningen över olika sexuella läggningar likadan i Stockholm, Göteborg och Malmö? Denna typ av frågeställningar kan också beskrivas om att vi undersöker sambandet mellan två variabler mätta på nominalskala. Man kan då se det som att den ena variabeln används för att dela in i grupper och den andra variabeln är den som vi jämför mellan de olika grupperna. I första frågan kan vi då formulera det som att vi undersöker om det finns något samband mellan variablerna pensionär och medborgarskap. I andra frågan undersöker vi sambandet mellan pensionär och var man bor. I tredje frågan undersöker vi sambandet mellan sexuell läggning och var man bor. Chi2 analys av korstabell fungerar på samtliga dessa frågeställningar. I specialfallet att båda variablerna vi har enbart har två utfall, exempelvis som i fråga 1 ovan, kan vi också göra hypotestest på andelar från två olika populationer. 3.2 Jämförelse mellan grupper av en variabel som är mätt på ordinalskala. Exempel på frågeställningar som faller in under denna rubrik kan vara följande frågeställningar baserade på analys av kursvärderingar: 1. Är tjejer och killar lika nöjda med kurslitteraturen 2. Är studenter på olika institutioner lika nöjda med föreläsningarna. Vi jämför hur olika grupper har svarat på en fråga vars svarsalternativ ger upphov till en variabel mätt på ordinalskala. I det här fallet kan vi tala om oberoende urval eftersom vi inte kan matcha ihop en viss tjej med en viss kille. Även här är chi 2 analys av korstabell möjlig att använda. Men i så fall utnyttjar vi inte den information som ligger i att ena variabeln kan rangordnas. Vill vi utnyttja den informationen har vi två alternativ; Wilcoxons rangsummetest eller Kruskal Wallis test. Wilcoxons rangsummetest används om vi har två grupper, Kruskal Wallis om vi har tre eller fler. Chi 2 kan vara lämplig om båda variablerna har relativt få utfall. Fördelen med korstabellen är att den ger en bra deskriptiv beskrivning av urvalet, så det kan vara rimligt att kombinera både Chi 2 i korstabell och en Kruskal Wallis eller Wilcoxon rangsummetest.

3.3 Jämförelse mellan grupper av en variabel som är mätt på intervall eller kvotskala. Exempel på frågeställningar som faller in under denna rubrik kan vara 1. Är tjejer och killar lika långa 2. Är studenter på olika institutioner lika långa. Även här är Kruskal Wallis och Wilcoxons rangsummetest möjliga men vi utnyttjar inte hela informationen som finns i att intervallen mellan olika observationer har en meningsfull innebörd. Om vi klassindelar vår variabel kan vi även använda chi 2 analys av korstabell men då har vi kastat bort ännu mer av informationen. Oftast är därför t-test eller ANOVA test de bästa alternativen här. ANOVA testet används om vi har tre eller fler grupper, t-testet om vi bara har två grupper. Men Kruskal Wallis eller Wilcoxons rangsummetest kan vara att föredra i små urval om variabeln inte är normalfördelad. Om vi är intresserade av att se om variansen är lika stor i två olika populationer använder vi F-test. 3.4 Att undersöka samband mellan två variabler när alla variabler har minst ordinalskala. Exempel på frågeställningar som faller in under denna rubrik kan vara följande frågeställningar 1. Är studenterna som var mest nöjda med kurslitteraturen också mest nöjda med föreläsningarna? 2. Förbrukar bilar med starka motorer mer bensin än bilar med svaga motorer. Den första frågeställningen påminner lite om frågan i avsnitt 2; Är studenterna lika nöjda med kurslitteraturen som med föreläsningarna. Men nu ska vi inte undersöka vilken fråga som har de högsta svaren utan om det är samma individer som ger höga svar på båda frågorna. I båda fallen använder vi samma variabler, men eftersom vi svarar på olika typer av fråga kommer vi att använda olika metoder. Vi börjar med fallet där båda variablerna är mätta på kvotskala. Vi kan då beräkna en regressionskoefficient för att mäta hur mycket den beroende variabeln ändras om den oberoende variabeln ändras en enhet. För att kunna göra det måste vi dock utesluta att det finns några kausala samband från den beroende variabeln till den oberoende variabeln. Vi kan också beräkna en korrelationskoefficient för att beräkna styrkan i det linjära sambandet. Hur mycket av variationen i den beroende variabeln som vi kan förklara med vår oberoende variabel. Vi kan använda linjära, log linjära eller kvadratiska modeller beroende på hur vi tror att sambandet mellan variablerna ser ut.

Om en eller båda variablerna är mätta på ordinalskala blir den huvudsakliga metoden Spearmans rangkorrelation. Om våra variabler har få utfall är chi 2 analys av korstabell också möjlig men då utnyttjar vi inte det faktum att utfallen kan rangordnas. Fördelen med korstabellen är dock att den kan fånga vissa typer av samband som korrelationen inte fångar. Om individer med höga eller låga värden på variabel 1 har högre värden på variabel 2 än de som har medelhöga värden på variabel 1 kan det sambandet fångas i en korstabell men inte av Spearmans rangkorrelation. I de här fallen kan det därför vara bra att kombinera de bägge metoderna eftersom de delvis mäter olika typer av samband. 3.5 Att undersöka samband mellan många variabler. Om vi ska mäta samband mellan många variabler använder vi multipel regressionsanalys. Här krävs att den beroende variabeln är mätt på intervall eller kvotskala. De oberoende variablerna ska antingen vara mätta på intervall eller kvotskala eller göras om till dummyvariabler. Beroende på hur vi tror att sambandet ser ut kan vi välja mellan linjära, log linjära eller kvadratiska modeller.