Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Statistikens grunder Mattias Nilsson Benfatto, Ph.D

Vad är statistik? Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information.

Varför behöver Du kunskap i statistik? Bedriva självständigt vetenskapligt arbete Kunna tolka och värdera resultat från andra studier Analysera och beskriva egna insamlade data Presentera resultat

Allt börjar med en frågeställning (problem) Frågeställning och syfte avgör på vem man ska forska, hur man ska samla data och vilken typ av data som ska samlas in

Allt börjar med en frågeställning (problem) - Ackommoderar man bäst med ett eller två ögon? - Att mäta ackommodation under monokulära och binokulära betingelser - Power-refraktor, friska unga studenter - Dagtid, S:t Eriks Ögonsjukhus/MBC -Signalanalys -ANOVA =Svar på frågan!

Beskrivande och analytisk statistik Beskrivande (deskriptiv) statistik (föreläsning 2) Syftar till att beskriva ett material numeriskt (medel, median, kvartiler, standardavvikelser) och/eller grafiskt (diagram). Analytisk statistik (föreläsning 3) Syftar till att analysera egenskaper hos slumpmässiga stickprov ur en population för att dra slutsatser om populationen i stort.

Några grundläggande begrepp Variabel Skalnivå (datatyp) Mätfel Validitet och reliabilitet Stickprov Population

Variabel Den egenskap vi är intresserade av att mäta och studera. En variabel kan anta olika värden: variera från individ till individ, eller inom en individ vid olika tidpunkter. Exempel på variabler är längd, vikt, ålder, blodtryck, BMI, sjukdom/diagnos, träningstid/vecka, yrke, åsikter om hälsorisker med att dricka kaffe, upplevelse av smärta eller välbefinnande.

Skalnivå (datatyp) Variabler kan klassificeras på olika sätt. Ofta delas de in efter s.k. skalnivå: 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala En variabels skalnivå påverkar vilka statiska mått och analyser som är lämpliga. Därför är det viktigt att känna till de olika skalnivåerna.

Skalnivå 1. Nominalskala Det man mäter kan endast indelas i kategorier utan inbördes rangordning. Nivån har inga kvantitativa egenskaper. Ex. kön (man/kvinna), blodgrupp (A, B, AB, 0), yrkeskategorier, ögonfärg, sjukdomstyp. 2. Ordinalskala Det man mäter kan indelas i kategorier och rangordnas, men avståndet mellan variabelvärdena är inte konstant eller jämförbart. Det går därför inte att på något exakt sätt ange skillnader eller avstånd mellan värdena. Ex. rangordning av olika alternativ (preferenser), intervju- och enkätfrågor med svarsalternativ av typen dåligt, bra, mycket bra eller ange hur du mår på en skala från 1 (mycket dåligt) till 10 (mycket bra). Variabler som endast kan mätas enligt en nominalskala eller ordinalskala kallas med ett gemensamt namn för kvalitativa variabler (icke-numeriska variabler).

Skalnivå 3. Intervallskala Det man mäter antar ett numeriskt värde och avståndet mellan möjliga variabelvärden är konstant men variabeln har ingen absolut nollpunkt. Ex. temperatur mätt i Celsius. 4. Kvotskala Det man mäter antar ett numeriskt värde och avståndet mellan möjliga variabelvärden är konstant och har en absolut nollpunkt. Ex ålder, längd, vikt, reaktionstid, blodtryck, temperatur mätt i Kelvin. Variabler som kan mätas enligt en intervallskala eller kvotskala kallas för kvantitativa variabler (numeriska variabler). För kvantitativa variabler skiljer man också ofta på diskreta variabler (antar bara heltal, ex. antal personer i ett hushåll, antal stavfel i en text) och kontinuerliga variabler (kan anta alla värden, ex. längd, vikt, reaktionstid).

Kriterier för att bestämma skalnivå Rangordning Mätvärdena kan ordnas i en stigande eller fallande serie och detta är en betydelsefull egenskap hos den variabel som mäts. Ekvidistans (lika skalsteg) Med ekvidistans menas att förändringen hos variabeln som man mäter är lika stor över hela mätskalan (lika stor skillnad mellan 2 och 4 som mellan 13 och 15). Absolut nollpunkt Med absolut nollpunkt menas att det finns en fixerad referenspunkt med värdet 0 (noll) där variabeln inte längre existerar.

Egenskaper hos olika variabler Datanivå Rangordning Ekvidistans Absolut nollpunkt Nominaldata Nej Nej Nej Ordinaldata Ja Nej Nej Intervalldata Ja Ja Nej Kvotdata Ja Ja Ja

Exempel kvantitativ variabel

Exempel kvalitativ variabel

Mätfel Mätfel kan vanligtvis kopplas till tre källor: 1. Mätinstrumentet Fel val av instrument? Trasigt instrument? Dålig precision? 2. Försöksledaren Nybörjare? Förhållningssätt eller attityder som kan påverka/styra de observationer som görs? 3. Den eller det man observerar/mäter Missuppfattningar eller missförstånd? Oärliga svar? Försök att svara som man tror att försöksledaren vill ha det.

Två typer av mätfel 1. Systematiska mätfel Mätningen är felaktig på ett förutsägbart sätt. Om man känner till felet kan man oftast kompensera för det och förbättra noggrannheten i sin mätning. Vet man till exempel att termometern alltid visar två grader för lite kan man lätt räkna ut den verkliga temperaturen. 2. Slumpmässiga mätfel Mätningen är felaktig på ett oförutsägbart sätt. Genom att upprepa experimentet flera gånger och beräkna ett medelvärde eller liknande, minskar slumpfelet och ett mer tillförlitligt värde fås.

Validitet och reliabilitet Med validitet avses metodens/mätinstrumentets giltighet, med andra ord mätinstrumentets förmåga att mäta det som det påstås mäta. Med reliabilitet avses metodens/mätinstrumentets tillförlitlighet. En metod eller ett mätinstrument som alltid ger samma resultat under samma förutsättningar har en hög reliabilitet.

Validitet och reliabilitet - Exempel Mäter utrustningen det som du avser att mäta? Vikt mäts med ett måttband eller med ögonmått: Låg validitet Vikt mäts med en våg: Hög validitet Med vilken tillförlitlighet mäter utrustningen? Vikt mäts med trasig våg som ger slumpmässiga fel: Låg reliabilitet Vikt mäts med fungerande våg: Hög reliabilitet Hög reliabilitet garanterar inte hög validitet men hög validitet förutsätter hög reliabilitet.

Validitet och reliabilitet Begreppen är vanliga när man diskuterar olika mätmetoder, men de är komplicerade och används ibland på olika sätt. Att fastställa en metods eller ett mätinstruments sanna validitet och reliabilitet kan vara mycket svårt i praktiken, framför allt validitet. Reliabiliteten i en metod eller ett instrument prövas ofta med: Test-Retest: Samma mätinstrument används vid två olika tidpunkter och överenstämmelsen mellan resultaten beräknas. Parallelltest: Överensstämmelsen mellan två olika instrument som mäter samma sak beräknas.

Vad är en population? De individer (eller objekt) som delar en eller flera gemensamma egenskaper som vi vill undersöka. Till exempel: 1. Hockeyspelare i SHL 2. Grupp av objekt (muttrar) 3. Grupp av mätvärden/observationer (trafikolyckor)

Att studera hela populationen är opraktiskt / omöjligt för dyrt tar för lång tid inte etiskt korrekt Därför gör vi ett stickprov!

Vad är ett stickprov? Ett begränsat antal individer som hör till en viss population (ett urval) Stickprovet ska: vara representativt för populationen stickprovet får inte enbart innefatta extrema individer valts slumpmässigt ur populationen (sannolikhetsteori) observerade effekter ska inte förklaras av enskilda individer utan representera gruppens

Population Urvalsmetod Stickprov När vi med hjälp av olika urvalsmetoder drar ut en mindre grupp ur populationen. Med ett korrekt genomfört urval ur populationen har man goda möjligheter att studera egenskaper i populationen i en mindre skala mindre data att samla in går snabbare och blir billigare

Olika urvalsmetoder Obundet slumpmässigt urval alla individer i populationen har samma sannolikhet att komma med i stickprovet Systematiskt slumpmässigt urval alla individer i ngn lista/förteckning har samma sannolikhet att komma med i stickprovet ex. var 50:e person i telefonkatalogen Stratifierat urval populationen delas in i undergrupper (strata) från vilka stickproven dras slumpmässigt Klusterval, Proportionellt stratifierat urval m.fl

Urval Studiepopulation Stickprov Stickprov Datainsamling Analys Beskrivning Dra slutsatser från insamlad data genom skattningar och hypotesprövningar Deskriptiv statistik Analytisk statistik Illustration hämtad och modifierad från kursmaterial i Medicinsk Statistik, Lunds Universitet