Beskrivande statistik Tony Pansell, Leg optiker Docent, Universitetslektor
Beskrivande statistik Grunden för all analys är ordning och reda! Beskrivande statistik hjälper oss att överskådligt sammanfatta datamassor organisera beskriva presentera
Beskrivande statistik Målet är en lättöverskådlig vy av data frekvenstabeller hur många observationer finns på varje nivå? centralmått, spridningsmått beskriver frekvenstabellen med siffror diagram visualiserar data, lätt att jämföra korrelation finns det något samband mellan två variabler?
Frekvensfördelning Fördelningen av observationer på en skala som visar med vilken frekvens varje enhet förekommer. Exempel Resultat på prov för 12 studenter: 9, 6, 8, 8, 9, 5, 8, 6, 10, 9, 9, 7 Poäng Frekvens (antal studenter) 5 1 6 2 7 1 8 3 9 4 10 1 Totalt 12 4 3,5 3 2,5 2 1,5 1 0,5 0 5 6 7 8 9 10 Serie1
Centralmått Svarar på frågan: Vad är normalt? Vad är genomsnittet på provet? De tre vanligaste måtten på centraltendensen i en fördelning är: Typvärde (mest frekvent förekommande) Medianvärde (det mittersta värdet) Medelvärde (genomsnittet)
Centralmått 5, 6, 6, 7, 8, 8, 8, 9, 9, 9, 9, 10 Typvärde = 9 ex. mest frekvent förekommande frukten i en fruktkorg ex. mest frekvent förekommande husdjuret på arbetsplatsen Medianvärde = 8 Medelvärde = 94/12 = 7.83
Spridningsmått Hur stor är variationen runt centralmåttet? Variationsvidd (tillsammans med typvärde) högsta värdet minus det lägsta värdet Kvartilavvikelse (tillsammans med median) bygger på uppdelning av observationerna i kvartiler (fyra 25%-indelningar) Standardavvikelse (tillsammans med medelvärde) ( x m) S = n 1 2
Spridningsmått Variationsvidd 10-5 = 5 5, 6, 6, 7, 8, 8, 8, 9, 9, 9, 9, 10 Kvartilsavvikelse (9 6,5)/2 = 1,25 Standardavvikelse 1,53 S ( 7.83) = x 12 1 2
Resultatet på provet Centralmått ± spridningsmått Typvärde = 9 ± 5 Medianvärde = 8 ± 1,25 Medelvärde = 94/12 = 7.83 ± 1,53
Exempel Beskrivande statistik
Normalfördelning (Gaussian distribution) Det är vanligt att fördelningen av en studerad parameter är okänd. Normalfördelningen kan då användas som en preliminär beskrivning av parametern. Normalkurvan är en teoretisk fördelning där man utgår från medelvärdet och standardavvikelsen Antar en symmetrisk, klockformad kurva (normalkurvan) 5 Histogram (Spreadsheet3 1v*12c) Var2 = 12*1*normal(x; 7,8333; 1,5275) 4 No of obs 3 2 1 0 5 6 7 8 9 10 Var2
Normalfördelning Medelvärde anger positionen på x-axeln 80 70 60 80 70 µ=35 µ=45 60 50 50 Y 40 Y 40 30 30 20 20 10 10 0 10 20 30 40 50 60 70 80 X 0 10 20 30 40 50 60 70 80 X Standardavvikelsen anger utseendet på kurvan σ=3 σ=1 Y Y X X
Normalfördelning En normalfördelad variabel antar ofta värden som ligger nära medelvärdet och mycket sällan värden som har en stor avvikelse. jättenormalt (högst sannolikt) normalt (sannolikt) mindre normalt (mindre sannolikt) onormalt (osannolikt)
Normalfördelning Arean under kurvan är alltid 100% För ytan under kurvan gäller att: - ca 68% av ytan finns innanför gränserna ± 1 s - ca 95% av ytan finna innanför gränserna ± 2 s - ca 99,7% av ytan finns innanför gränserna ± 3 s
Konfidensintervall Vi kan aldrig veta det exakta genomsnittet i populationen eftersom vi endast mäter ett stickprov Osäkerheten speglas genom ett intervall av flera möjliga medelvärden = ett konfidensintervall Vi behöver ett intervall som med en fastställd osäkerhet (sannolikhet) täcker det verkliga genomsnittet i populationen
Konfidensintervall Konfidensintervallets bredd speglar osäkerheten i undersökningsresultatet smalt liten osäkerhet liten standardavvikelse brett större osäkerhet stor standardavvikelse σ=3 σ=1 Y Y X X
95%-igt konfidensintervall Det vanligast förekommande konfidensintervallet inom forskning Verkligheten vi försöker mäta befinner sig innanför konfidensintervallet vid 95 % av fallen, eller vid 19 av 20 gånger. Vi accepterar en 5%-ig risk att missa det sanna medelvärdet
Det går inte att visa bilden för tillfället. Hur beräknas konfidensintervall kring ett medelvärde Med 95% sannolikhet finns det verkliga genomsnittet i studiepopulationen i intervallet 14,0-17,6 µg/m3
Korrelation mellan två variabler Om en förändring i den ena variabeln observeras samtidigt som en förändring sker i den andra variabeln, finns ett samband en korrelation mellan variablerna. Genom att plotta de två variablerna i en scatter plot kan svärmen av datapunkter studeras. 1:a variabeln utmed y-axeln (arm strength) 2:a variabeln utmed x-axeln (grip strength)
Korrelation mellan två variabler Trend Positiv (+) ökande Negativ (-) avtagande Nollkorrelation y=0 Line of best fit Korrelationskoefficienten (r) -1 r +1 hur väl punkterna överensstämmer med linjen (styrkan i sambandet). 0=ingen korrelation 1=perfekt korrelation
Korrelation och kausalitet Stark korrelation mellan glassförsäljningen och drunkningsolyckor ska glass förbjudas?
Individuell liten forskningsstudie Del av obligatoriskt kursmoment
Genomförande Tisdag 1. 2. 3. Kom på en frågeställning Välj mätmetod Genomför datainsamling Torsdag 4. Analysera data med Instat 5. Förbered presentation till måndag
Exempel på studie Var äter man billigast Calzone, i Vasastan eller på Söder? besök 10 pizzerior i vardera stadsdel och ta priset på en Calzone Skiljer sig vikten mellan Toms och Cloettas geléhallon? Köp två påsar geléhallon, väg alla hallon Skiljer sig andelen manliga och kvinnliga cyklister i centrala Stockholm och i förorten? Räkna antal män/kvinnor som cyklar vid Hornstull och i Alby
Tänk på Bestäm dig för en jämförelse av minst två urval Åhléns mot Konsum; Söder mot Norr, Toms mot Cloetta, Killar mot Tjejer Du måste ha flera observationer i varje stickprov för att kunna räkna ut medelvärde och standardavvikelse (ca 10)