Att välja statistisk metod

Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel... 2 2. Jämförelse av två olika variabler i hela populationen / tester på beroende urval... 3 3. Att undersöka samband mellan variabler... 4 3.1 Jämförelse mellan grupper av en variabel som är mätt på nominalskala.... 4 3.2 Jämförelse mellan grupper av en variabel som är mätt på ordinalskala.... 4 3.3 Jämförelse mellan grupper av en variabel som är mätt på intervall eller kvotskala.... 5 3.4 Att undersöka samband mellan två variabler när alla variabler har minst ordinalskala... 5 3.5 Att undersöka samband mellan många variabler... 6

Val av statistisk metod. Lind presenterar en stor mängd olika metoder, en i taget. Det är ett bra sätt för att lära sig om hur man utför varje enskilt test. Nackdelen med det kan vara att det kan vara svårt att få en överblick över alla olika metoder och en insikt om hur man väljer mellan dem. Syftet med den här texten är att sortera upp de olika statistiska metoder som vi går igenom i kursen efter deras användningsområde. Min förhoppning är att de kan ge en bättre överblick över de olika statistiska metoderna. Texten är inte heltäckande utan tar bara upp de metoder som vi behandlar i den hör kursen. 1. Undersökning av en variabel Om den variabel vi är intresserade av är mätt på kvot- eller intervalskala är vi oftast intresserade av dess medelvärde. Om vi i första hand är intresserade av vilket värde den har bör vi beräkna ett konfidensintervall. Om vi vill testa huruvida den har ett visst värde eller är större eller mindre än ett visst värde använder vi t-test för medelvärde. Vid t-test på medelvärde bör vårt urval vara minst 30, annars fungerar antagandet om normalfördelade urvalsmedelvärden dåligt. Ju större urval vi har desto mindre avvikelser från noll hypotesen kan vi bevisa, testet blir därför starkare om vi har större urval. Om den variabel vi är intresserade av är mätt på nominal- eller ordinalskala och vi enbart intresserar oss för ett av utfallen beräknar vi lämpligen andelen i urvalet som har detta utfall. Sedan kan vi antingen göra konfidensintervall för andel, om vi vill få en uppskattning av vilket värde den har, eller en hypotestest på andelar om vi vill testa huruvida den har ett visst värde. Om vi är intresserade av hela fördelningen över alla utfallen kan vi antingen göra konfidensintervall för ett utfall i taget eller en chi 2 test för att se om variabeln följer en viss fördelning eller ej.

2. Jämförelse av två variabler i hela populationen / tester på beroende urval Exempel på frågeställningar som faller in under denna rubrik kan vara följande frågeställningar 1. Är studenterna lika nöjda med kurslitteraturen som med föreläsningarna 2. Är kroppstemperaturen lika hög på morgonen som på kvällen. 3. Påverkas blodtrycket av en viss behandling. I första frågeställningen baserar vi vår analys på hela urvalet studenter som fyllt i kursvärderingen. För varje individ har vi två variabler av samma typ som vi kan jämföra individ för individ. Svaret på frågan om kurslitteraturen och svaret på frågan om föreläsningarna. I andra frågan har vi förmodligen gjort så att vi i ett urval individer bett dem att ta tempen både på morgonen och kvällen, så vi har två olika variabelvärden på en och samma individ. Här delar vi alltså inte in vårt urval i olika grupper. För den tredje frågeställningen kan det hända att vi väljer att jämföra två olika urval. Ett urval med individer som använder medicinen och ett urval med individer som inte gör det. I den typen av undersökningar är det bra att använda matchade urval. Man skapar en kontrollgrupp genom att leta upp individer som liknar var och en i det urval som testar läkemedlet. Sedan kan vi jämföra varje individ i urvalet med dess matchning i kontrollgruppen. I den meningen är kontrollgruppen och testgruppen beroende. Det andra alternativet är att ha ett urval men att för varje individ mäta blodtrycket både före och efter behandlingen. Eftersom vi kan matcha ihop värdet för en viss individ med en individens matchning i den andra gruppen kan vi använda samma metoder som när vi har två mätvärden för samma individ. Dessa metoder kallas metoder för beroende urval eftersom man kan använda dem när man jämför två lika urval men med matchade individer. I den här kursen kommer vi dock i första hand att använda dem när vi enbart har ett urval men jämför två variabelvärden för varje individ för att se vilken variabel som är störst. Här finns 3 metoder till vårt förfogande. i. Teckentest ii. Wilcoxons teckenrangtest iii. T-test på beroende urval. T-test fungerar bäst om variablerna är normalfördelade och kräver intervall eller kvotskala. Om vi har ordinalskala kan vi bara välja på någon av de två första metoderna. Om avstånden mellan observationerna inte har någon som helst tolkning kan man hävda att inte heller Wilcoxons teckenrangtest är helt tillfredställande eftersom vi då rangordnar intervallen mellan våra båda variabler. Teckentestet gör därför de minst krävande antagandena. Om man har ordinalskala är det ganska vanligt att göra både teckentest och Wilcoxons teckenrangtest. Om båda ger samma resultat är det enkelt att dra slutsatser, lite knepigare kan det bli att avgöra vilket resultat man ska tro på om de ger olika slutsatser. Om man har intervall eller kvotskala så utnyttjar t-testen mest information. Men om inte variablerna är normalfördelade och urvalsstorleken är liten kan Wilcoxons teckenrangtest ofta vara att föredra även vid intervall och kvotskala. Trots att det inte utnyttjar all information så är dess antaganden om fördelningen bättre uppfyllda.

3. Att undersöka samband mellan variabler I detta avsnitt ska vi studera metoder för att undersöka samband mellan variabler. Om den ena av de båda variablerna är en variabel mätt på nominalskala använder vi den för att dela in urvalet i olika grupper och ser om de grupperna skiljer sig åt i avseende på den andra variabeln. Val av metod beror av antalet grupper vi vill jämföra och skaltyp på variabeln vars värde vi vill jämföra. 3.1 Jämförelse mellan grupper av en variabel som är mätt på nominalskala. Exempel på frågeställningar som faller in under denna rubrik kan vara: 1. Är andelen pensionärer i befolkningen lika stor i Norge som i Sverige? 2. Är andelen pensionärer i befolkningen lika stor i Götaland, Svealand och Norrland? 3. Är fördelningen över olika sexuella läggningar likadan i Stockholm, Göteborg och Malmö? Denna typ av frågeställningar kan också beskrivas om att vi undersöker sambandet mellan två variabler mätta på nominalskala. Man kan då se det som att den ena variabeln används för att dela in i grupper och den andra variabeln är den som vi jämför mellan de olika grupperna. I första frågan kan vi då formulera det som att vi undersöker om det finns något samband mellan variablerna pensionär och medborgarskap. I andra frågan undersöker vi sambandet mellan pensionär och var man bor. I tredje frågan undersöker vi sambandet mellan sexuell läggning och var man bor. Chi2 analys av korstabell fungerar på samtliga dessa frågeställningar. I specialfallet att båda variablerna vi har enbart har två utfall, exempelvis som i fråga 1 ovan, kan vi också göra hypotestest på andelar från två olika populationer. 3.2 Jämförelse mellan grupper av en variabel som är mätt på ordinalskala. Exempel på frågeställningar som faller in under denna rubrik kan vara följande frågeställningar baserade på analys av kursvärderingar: 1. Är tjejer och killar lika nöjda med kurslitteraturen 2. Är studenter på olika institutioner lika nöjda med föreläsningarna. Vi jämför hur olika grupper har svarat på en fråga vars svarsalternativ ger upphov till en variabel mätt på ordinalskala. I det här fallet kan vi tala om oberoende urval eftersom vi inte kan matcha ihop en viss tjej med en viss kille. Även här är chi 2 analys av korstabell möjlig att använda. Men i så fall utnyttjar vi inte den information som ligger i att ena variabeln kan rangordnas. Vill vi utnyttja den informationen har vi två alternativ; Wilcoxons rangsummetest eller Kruskal Wallis test. Wilcoxons rangsummetest används om vi har två grupper, Kruskal Wallis om vi har tre eller fler. Chi 2 kan vara lämplig om båda variablerna har relativt få utfall. Fördelen med korstabellen är att den ger en bra deskriptiv beskrivning av urvalet, så det kan vara rimligt att kombinera både Chi 2 i korstabell och en Kruskal Wallis eller Wilcoxon rangsummetest.

3.3 Jämförelse mellan grupper av en variabel som är mätt på intervall eller kvotskala. Exempel på frågeställningar som faller in under denna rubrik kan vara 1. Är tjejer och killar lika långa 2. Är studenter på olika institutioner lika långa. Även här är Kruskal Wallis och Wilcoxons rangsummetest möjliga men vi utnyttjar inte hela informationen som finns i att intervallen mellan olika observationer har en meningsfull innebörd. Om vi klassindelar vår variabel kan vi även använda chi 2 analys av korstabell men då har vi kastat bort ännu mer av informationen. Oftast är därför t-test eller ANOVA test de bästa alternativen här. ANOVA testet används om vi har tre eller fler grupper, t-testet om vi bara har två grupper. Men Kruskal Wallis eller Wilcoxons rangsummetest kan vara att föredra i små urval om variabeln inte är normalfördelad. Om vi är intresserade av att se om variansen är lika stor i två olika populationer använder vi F-test. 3.4 Att undersöka samband mellan två variabler när alla variabler har minst ordinalskala. Exempel på frågeställningar som faller in under denna rubrik kan vara följande frågeställningar 1. Är studenterna som var mest nöjda med kurslitteraturen också mest nöjda med föreläsningarna? 2. Förbrukar bilar med starka motorer mer bensin än bilar med svaga motorer. Den första frågeställningen påminner lite om frågan i avsnitt 2; Är studenterna lika nöjda med kurslitteraturen som med föreläsningarna. Men nu ska vi inte undersöka vilken fråga som har de högsta svaren utan om det är samma individer som ger höga svar på båda frågorna. I båda fallen använder vi samma variabler, men eftersom vi svarar på olika typer av fråga kommer vi att använda olika metoder. Vi börjar med fallet där båda variablerna är mätta på kvotskala. Vi kan då beräkna en regressionskoefficient för att mäta hur mycket den beroende variabeln ändras om den oberoende variabeln ändras en enhet. För att kunna göra det måste vi dock utesluta att det finns några kausala samband från den beroende variabeln till den oberoende variabeln. Vi kan också beräkna en korrelationskoefficient för att beräkna styrkan i det linjära sambandet. Hur mycket av variationen i den beroende variabeln som vi kan förklara med vår oberoende variabel. Vi kan använda linjära, log linjära eller kvadratiska modeller beroende på hur vi tror att sambandet mellan variablerna ser ut.

Om en eller båda variablerna är mätta på ordinalskala blir den huvudsakliga metoden Spearmans rangkorrelation. Om våra variabler har få utfall är chi 2 analys av korstabell också möjlig men då utnyttjar vi inte det faktum att utfallen kan rangordnas. Fördelen med korstabellen är dock att den kan fånga vissa typer av samband som korrelationen inte fångar. Om individer med höga eller låga värden på variabel 1 har högre värden på variabel 2 än de som har medelhöga värden på variabel 1 kan det sambandet fångas i en korstabell men inte av Spearmans rangkorrelation. I de här fallen kan det därför vara bra att kombinera de bägge metoderna eftersom de delvis mäter olika typer av samband. 3.5 Att undersöka samband mellan många variabler. Om vi ska mäta samband mellan många variabler använder vi multipel regressionsanalys. Här krävs att den beroende variabeln är mätt på intervall eller kvotskala. De oberoende variablerna ska antingen vara mätta på intervall eller kvotskala eller göras om till dummyvariabler. Beroende på hur vi tror att sambandet ser ut kan vi välja mellan linjära, log linjära eller kvadratiska modeller.