Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större grupp estimering. att jämföra grupper mot varandra och dra slutsatsen om någon grupp avviker hypotesprövning. Estimering Med hjälp av slumpmässigt dragna stickprov uppskattar (estimerar) vi hur det ser ut i de populationer varifrån stickproven är tagna. Statistisk interferens Statistisk interferens Analys av stickprovet ger oss information om populationen, förutsatt att stickprovet är: tillräckligt stort slumpmässigt utvalt från populationen normalfördelat
Exempel på estimering Man vill veta hur mycket svenska -åringar tittar på TV per dag Ur populationen alla -åringar görs ett urval och ur detta dras ett stickprov. Dessa intervjuas om hur länge de tittar på TV. Medelvärdet för detta stickprov var,6 timmar. 9% konfidensintervall ger gränserna, till,8 tim.,,6,8 nedre gräns punktestimat övre gräns Med 9% sannolikhet ser en svensk -åring mellan,-,8 timmar på TV per dag.. Hypotesprövning Istället för att enbart estimera hur det ser ut i populationen försöker vi att statistiskt pröva hypoteser om populationen som stickprovet kommer ifrån. Nollhypotes (H ) Ett antagande om ingen skillnad eller samband föreligger. Att slumpen är orsaken till det erhållna värdet. Alternativhypotes (H ) (forskningshypotesen) Ett antagande om att det finns en skillnad eller ett samband. Att det finns en annan orsak än slumpen till det erhållna värdet. Hypotesprövning Sannolikhetsteorin Den grundläggande frågan är alltid om vårt stickprovsresultat gäller generellt (i populationen) eller är ett resultat av slumpmässiga variationer. Vi behöver en metod för att hantera osäkerheten i en urvalsundersökning. Hypotesprövningen testar om slumpverkan kan ses som orsaken till forskningsresultatet. Vi testar hypotesens giltighet genom en sannolikhetsberäkning. Hur beter sig ett slumpmässigt stickprov i förhållande till populationen? Ett stickprovsmedelvärde varierar från stickprov till stickprov, men i genomsnitt är det samma som populationsmedelvärdet (om stickprovet är slumpmässigt). Osannolikhet Vi kan välja att definiera en osannolik händelse som en händelse som bara inträffar av gånger om H är sann (oftare om den är falsk). variationer inom konfidensintervall beror sannolikt på slumpen variationer utanför konfidensintervall beror osannolikt på slumpen jättenormalt (jättesannolikt) normalt (sannolikt) mindre normalt (mindre sannolikt) Signifikansnivån Sannolikheten (risken) att dra fel slutsats bestäms genom signifikansnivån α (alfa) Normalt att acceptera % risk att slumpen orsakar resultatet Vi anger accepterad risknivå (signifikansnivå) för att begå fel i tolkningen av resultatet exempel: α=% ger ett 9% konfidensintervall exempel: α=% ger ett 99% konfidensintervall osannolikt
Slumpmässiga fel finns det en skillnad Typ I fel I verkligheten är det lika Typ I och typ II fel Vi riskerar ALLTID att begå ett misstag i vårt antagande typ I-fel: förkastar nollhypotesen trots att den är sann (vi finner en falsk skillnad) typ II-fel: accepterar nollhypotesen trots att den är falsk (vi missar en äkta skillnad) Analysen visar en skillnad att det är lika Sant positiv Falskt negativ Falskt positiv Sant negativ Hur stor risk är vi beredda att ta? högt α-värde risk för typ I-fel lågt α-värde risk för typ II-fel Typ II fel Exempel på studie med parvis jämförelse Vi undersöker om forin är den samma på långt och kort avstånd Frekvensdiagram på uppmätta forivärden PCT PCT på på avstånd avstånd och och nära nära före före behandling behandling PCT LH: N = 7; Mean =,76; StdDv =,7; Max = ; Min = PCT NH: N = 7; Mean =,88; StdDv =,768; Max = 8; Min = Hypoteserna som ska testas H : Forin påverkas inte av fixationsavståndet. H : Forin har inte samma vinkel på långt och nära avstånd. 6 7 8 9 PCT LH PCT NH Frekvensdiagram med normalkurvor på forivärden PCT på avstånd och nära före behandling PCT LH: N = 7; Mean =,76; StdDv =,7; Max = ; Min = PCT NH: N = 7; Mean =,88; StdDv =,768; Max = 8; Min = Har forin samma vinkel på långt och kort avstånd? Kan skillnaden i forimätningarna uppstått av slumpen? PCT på avstånd och nära före behandling 6 7 8 9 PCT LH PCT NH 6 7 8 9 PCT LH PCT NH
Har forin samma vinkel på långt och kort avstånd? Kan skillnaden i forimätningarna uppstått av slumpen? PCT på avstånd och nära före behandling Vi behöver Medel göra -9% KI en +9% statistisk KI analys! -9% KI +9% KI -9% KI +9% KI Medel medelv. medelv. SD fördeln. fördeln. PCT LH,,6,87, -,9,8 PCT NH,88 9,,,77,, Statistiska tester Utgår från: typen (kvalitén) av data om data är normalfördelat eller inte hur många grupper som ska jämföras 6 7 8 9 PCT LH PCT NH Lite begrepp T-test Variabel: något som kan variera hos vår population Resultatvariabel: anger resultatet, det vi är intresserade av Förklaringsvariabel: det som beskriver vår population, vi väljer själva Beroende data: inom grupp/individ (dependent, paired) Oberoende data: mellan grupp/individer (independent) Ensidigt / Tvåsidigt test (one-tailed / two-tailed) Förhållande mellan en eller två kategorier (förklaringsvariabel) på en kontinuerlig variabel (resultatvariabel) T-test ANOVA analysis of variance Resultatvariabeln alltid på y-axeln Kräver kvantitativ normalfördelad data Förhållandet mellan tre eller fler kategorier (förklaringsvariabel) på en kontinuerlig variabel (resultatvariabel) Analysera dataset: tårmenisk längd (m) män kvinnor
ANOVA analysis of variance Chi- / Fisher Exakt test Resultatvariabeln alltid på y-axeln Kräver kvantitativ normalfördelad data Analysera dataset: LUSvärde inkomst (kr) Korstabellanalys av data på nominalskale-nivå Nollhypotes: det föreligger ingen skillnad i proportioner mellan grupperna alt. Analyserar observerade frekvenser (O) vilka jämförs med förväntade frekvenser (E) alt. Jämför två grupper mot varandra som inte är matchade (ej beroende av varandra) läkare ingenjör pilot Chi- / Fisher Exakt test Korrelation mellan två variabler Om en förändring i den ena variabeln observeras samtidigt som en förändring sker i den andra variabeln, finns ett samband en korrelation mellan variablerna. Analysera dataset: stud Sthlm-Kalmar Genom att plotta de två variablerna i en scatter plot kan svärmen av datapunkter studeras. :a variabeln utmed y-axeln (arm strength) :a variabeln utmed x-axeln (grip strength) Korrelation mellan två variabler Trend Positiv (+) ökande Negativ (-) avtagande Nollkorrelation y= Korrelation och kausalitet Stark korrelation mellan glassförsäljningen och drunkningsolyckor ska glass förbjudas? Line of best fit Korrelationskoefficienten (r) - r + hur väl punkterna överensstämmer med linjen (styrkan i sambandet). =ingen korrelation =perfekt korrelation Analysera dataset: Frukten
Tolkning av resultat signifikans (p) p-värdet anger sannolikheten för att slumpen orsakat resultatet förkasta nollhypotesen om den vore sann När p-värdet är mindre än α-värdet är resultatet signifikant. Det föreligger sannolikt en skillnad! Ex. Jämförelsen av konvergensnärpunkt hos elever med läsbesvär med elever utan besvär var signifikant (p=,). Elever med besvär uppvisade en genomsnittlig KNP på 7 cm (±) medan elever utan besvär uppvisade en normal NPP på 7 cm (±). 6