6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller den, behöver man utvärdera möjligheten av fel som betingats av det att man i st f hela populationen endast undersökt en del av den. Därefter kan man ta ställning till vilka resultat som har betydelse = statistisk signifikans * om man undersökt hela populationen (t ex alla anställda i ett företag) behöver man inte undersöka resultatens statistiska signifikans vi vet hur hela populationen ser ut - I andra fall kan problemet uttryckas så här: hur mycket av de resultat som vi fått kan bero på slumpen? 1) Om vi samlat in data från ett stickprov som gjorts med hjälp av sannolikhetsurval, kan vi försöka utvärdera sannolikheten av att resultaten inte stämmer i hela populationen. Detta när man gör univariat analys 2) Om stickprovet uppvisar skillnader mellan sina olika delar (t ex män/kvinnor, människor i olika ålder, respondenter som är olika med avseende på andra variabler), gäller frågan om skillnaderna är verkliga eller förorsakade av slumpen. Dvs: är de statistiskt signifikanta? Det här gäller i bivariat och multivariat analys - Den sk. normalfördelningen (Gauss kurva) upptäcktes redan tidigare, men användes t ex när astronomen Carl Friedrich Gauss (1777-1855) undersökte fel, som man gjorde när man skulle bestämma stjärnornas läge. * kurvan har klockform och är fullständigt symmetrisk. M = Me = Mo. Grafiskt kan den framställas på olika sätt, men proportionerna består. # fördelningen av de olika värdena kan jämföras med standardavvikelsen s (= SD) (Rowntree 70): 34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD - OBS: benämningen normalfördelning betyder inte, att de flesta variablerna skulle fördelas enligt den. Den beskriver en slumpmässig fördelning. (Men många gånger stämmer den ganska bra t ex människornas längd, skonummer, vissa attitydfrågor (inte alla)... (?)) 1
- En tomte uppenbarar sig (Rowntree 83-86). Den är 10 cm lång. Eftersom vi inte sett några andra exemplar, är urvalets storlek 1 st. Vad kan vi säga om populationens medellängd? * Det säkraste antagandet är 10 cm. Men hur säkert är det? - Om vi börjar med antagandet, att tomtarnas längd varierar som normalfördelningen, skulle det vara osannolikt med en fördelning (i bilden: A) där medellängden M = 6 cm och standardavvikelsen SD = 1 cm. Då skulle värdet 10 cm vara mer är 3 SD över medellängden, och endast 0.15% av tomtarna skulle vara så långa. Det skulle också vara osannolikt med en fördelning (i bilden: B) där M = 30 cm och SD = 10 cm då skulle det exemplar som vi såg höra till den kortaste 2.5% inom populationen. Bättre gissning: M = 10 (i bilden: C1-C3) men vi vet fortfarande ingenting om variationen. A B C1 C2 0 10 20 30 40 50 60 0 10 20 30 C3 - om ytterligare 4 tomtar visar sig, kan vi göra en ny estimering av deras medellängd. De fyra nya fallen är 9.2, 9.6, 10.3 och 10.5 cm långa medellängden blir 9.9 cm och N = 5. Standardavvikelsen (s eller SD) blir ca. 0.5 cm, vilket betyder att endast en liten andel (0.3%) tomtar kan förväntas vara längre än 11.5 cm eller kortare än 8.5 cm (dvs att deras längd inte ryms inom gränserna för M + 3SD). - idén med exemplet: när urvalet blir större, växer vår kunskap om egenskaperna hos populationen, men vi kan fortfarande inte vara säkra på hur bra urvalet motsvarar den. Vi kan emellertid estimera hur stort det möjliga felet kan vara. Om någon annan skulle träffa och mäta 5 andra tomtar, hur sannolikt skulle det vara att deras medellängd skulle vara just 9.9 cm? * dvs, om vi hade flera olika urval att jämföra emellan, hur stor kunde variationen vara mellan deras medelvärden? - Om vi tänker att man gör ett stort antal mätningar som alla gäller samma variabel i samma population, kan man anta, att medelvärden blir något olika, men samtidigt att de fördelas på ett sätt som påminner om normalfördelningen eftersom skillnaderna antas bero på slumpmässiga faktorer, inte på några systematiska skillnader mellan urvalen: 2
- Vi behöver alltså räkna standardavvikelsen av olika medelvärden. Namnet för denna indikator är standardfelet (standard error, SF) M som beräknas som standardavvikelse (s) dividerad med kvadratroten av urvalets storlek: s N (OBS: egentligen borde man använda standardavvikelsen hos hela populationen ( ) som vi kanske inte vet, men om antalet observationer är större än ca 30 kan man använda urvalets standardavvikelse (s) i stället). * standardfelet beror alltså på tre faktorer: 1) standardavvikelsen i urvalet. Ju mera variabeln varierar inom det, desto större möjlighet finns det för att även medelvärdet hos de olika urvalen avviker sig från varandra; 2) ju större urval vi har, desto närmare borde dess medelvärde stå för populationens verkliga medelvärde, dvs desto mindre blir standardfelet; 3) MEN eftersom vi i våra kalkyler använder kvadratroten av N, har urvalets storlek ändå överraskande liten betydelse! # t ex: vi undersöker resultat som elever i vissa skolor får i något visst test. Vi har ett urval av 100 observationer, standardavvikelsen är 15 poäng. M = => M = 15 = 15 = 1.5 poäng 100 10 Men för att halvera standardfelet, borde vi ha ett fyrdubbelt antal mätningar: M = 15 = 15 = 0.75 poäng 400 20-68% av normalfördelningen faller inom M + 1 SD. Vi kan alltså säga, att 68% av medelvärden hos de olika tänkbara urvalen faller inom M + 1 M. På motsvarande sätt faller 32% utanför. * Vi återgår till det första exemplet om skolelevernas testresultat (N = 100). Om medelvärdet var 50.0 poäng, kan vi säga att populationens medelvärde med en sannolikhet av 68% faller inom gränserna för 50 + 1 M, eller 50.0 + 1.5, dvs. mellan 48.5 och 51.5. # det här kallas för konfidensintervall. Den är förknippad med viss signifikansnivå, som uttrycks i % eller som decimaltal (t ex 5% eller 0.05) - Vanligtvis använder man signifikansnivåerna 5% och 1%. De motsvaras av konfidensintervallen + 2 M samt + 2.5 M (närmare sagt 1.96 och 2.58 M ). - Många frågor som vi undersöker gäller skillnader mellan olika grupper i vårt urval. Man ritar korstabeller och ser, att medelvärden för olika grupper inom vårt urval blir olika. Det kan vara att vår hypotes gäller just dessa skillnader. Vi vill veta om de är slumpmässiga => även här behövs normalfördelningen. 3
* De slumpmässiga skillnaderna mellan de olika mätningarna följer alltså normalfördelningen: Urval A och B har samma medelvärde Urval A har större medelvärde Urval B har större medelvärde stor skillnad mindre skillnad 0 mindre skillnad. stor skillnad - Vår fråga blir alltså: utgående från det vi vet om egenskaperna (variabelns medelvärde, storlek, varians) hos urvalen A och B, hur stor är möjligheten att skillnaden i den undersökta variabelns medelvärde beror på en slump? * i det här fallet beräknar man standardfelet för skillnaderna i variabelns medelvärde i de olika urvalen (SF diff ): SF diff = (SF A ) 2 + (SF B ) 2 => ALLTSÅ: om skillnaden i variabelns medelvärde i de två urvalen är t ex större än + 2 SF diff, finns det en sannolikhet på 5%, att den beror på slumpen. - den statistiska signifikansen av skillnader mellan olika medelvärden utges i %. Vanligtvis hänvisar man till sannolikheter av 1% (eller 0.01) eller 5% (0.05), som betyder möjligheten för att skillnaden kunde vara slumpmässig. - Det här testet kallas för z-test. Det finns andra tester där man inte använder normalfördelningen, pga att urvalet är för litet (<30) (t ex Students t-test, t-testet ). - om man har tre eller flera grupper som man jämför emellan, används den s k. F-testet - När man jämför procent, används oftast det sk. 2 (chi-kvadrat) (chi-square) testet. Där behöver variabeln inte vara metrisk man kan använda testet för signifikansprövning av t ex skillnaderna i hur en variabel på nominalskala fördelar sig i de olika delarna av urvalet dvs cellerna i en korstabell. En av de mest använda testerna för statistisk signifikans. * i princip jämför man den faktiska fördelningen med den fördelning som skulle vara att förväntas, om fördelningen skulle vara oberoende av den variabel som vi tror vara orsaken till skillnaderna. 4
- Några anmärkningar till slut: a) statistisk signifikans är inte samma som teoretisk signifikans: teoretiskt signifikant teoretiskt icke signifikant statistiskt signifikant (1) (2) statistiskt icke signifikant (3) (4) (1) är bra: man har hittat en statistiskt signifikant skillnad som har teoretisk betydelse. (4) är bra. (2) är ett trivialt resultat eller en tautologi (t ex de som tycker om konst i allmänhet tycker också om modern konst mer än de andra). (3) betyder att man inte hittade de skillnader man var ute efter. Man kan förkasta hypotesen; eller det fanns ett fel i metoden (reliabiliteten är så låg att de verkliga skillnaderna inte blir statistiskt signifikanta); eller det finns någon samverkande variabel som blandar bort skillnaderna. I det senare fallet kan man ännu undersöka mindre delar av urvalet (t ex män och kvinnor i åldern 21-35) och kontrollera, om skillnaden man var ute efter (t ex mellan män och kvinnor) skulle bli statistiskt signifikant inom den. Eller man kan göra ett nytt försök med större urval. b) man har inget objektivt sätt att bestämma, hur hög statistisk signifikans (hurdan signifikansnivå) som krävs * man kan fundera på de möjliga följderna av att man drar fel slutsatser. Hurdan risk av felbedömning kan man stå ut med? * ofta presenterar man resultaten på så sätt, att man t ex med hjälp av ett varierande antal asterisker (*, **, ***...) i tabellen visar vilka skillnader som är signifikanta på vilka nivåer c) ett statistiskt test säger ingenting om kausalitet, och kan inte heller bevisa att en teori är sann. 5