Analytisk statistik. Tony Pansell, optiker Universitetslektor

Relevanta dokument
Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Hur man tolkar statistiska resultat

Statistik och epidemiologi T5

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Medicinsk statistik II

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Hypotestestning och repetition

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Föreläsning G60 Statistiska metoder

Hur skriver man statistikavsnittet i en ansökan?

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Parade och oparade test

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Föreläsning 5. Kapitel 6, sid Inferens om en population

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F3 Introduktion Stickprov

, s a. , s b. personer från Alingsås och n b

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Uppgift 1. Produktmomentkorrelationskoefficienten

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Statistik 1 för biologer, logopeder och psykologer

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Datorlaboration 2 Konfidensintervall & hypotesprövning

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

FACIT (korrekta svar i röd fetstil)

Statistik och epidemiologi T5

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Föreläsning G60 Statistiska metoder

Gamla tentor (forts) ( x. x ) ) 2 x1

OBS! Vi har nya rutiner.

Medicinsk statistik II

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Föreläsningsanteckningar till kapitel 9, del 2

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

8 Inferens om väntevärdet (och variansen) av en fördelning

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

TAMS65 - Föreläsning 6 Hypotesprövning

Lösningar till SPSS-övning: Analytisk statistik

7.3.3 Nonparametric Mann-Whitney test

Konfidensintervall, Hypotestest

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

F22, Icke-parametriska metoder.

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

2. Test av hypotes rörande medianen i en population.

Medicinsk statistik I

Skrivning/skriftlig eksamen till statistikdelen av kursen i forskningsmetodik maj 2002

Studietyper, inferens och konfidensintervall

Forsknings- och undersökningsmetodik Skrivtid: 4h

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

OBS! Vi har nya rutiner.

a) Facit till räkneseminarium 3

Kent W. Nilsson. Falun

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Omtentamen i Metod C-kurs

Laboration 4 Statistiska test

TAMS65 - Föreläsning 6 Hypotesprövning

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Följande resultat erhålls (enhet: 1000psi):

Jag läser kursen på. Halvfart Helfart

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Laboration 4: Hypotesprövning och styrkefunktion

Introduktion till Biostatistik. Hans Stenlund, 2011

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Transkript:

Analytisk statistik Tony Pansell, optiker Universitetslektor

Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp estimering 2. att jämföra grupper mot varandra och dra slutsatsen om någon grupp avviker hypotesprövning

Estimering Med hjälp av slumpmässigt dragna stickprov uppskattar (estimerar) vi hur det ser ut i de populationer varifrån stickproven är tagna.

Statistisk interferens Analys av stickprovet ger oss information om populationen, förutsatt att: stickprovet är tillräckligt stort slumpmässigt utvalt från populationen normalfördelat

Statistisk interferens

Exempel på estimering Man vill veta hur mycket svenska 10-åringar tittar på Tv per dag. Ur populationen alla 10-åringar görs ett urval och ur detta dras ett stickprov. Dessa intervjuas om hur länge de tittar på Tv. Medelvärdet för detta stickprov var 2,6 timmar. 95% konfidensintervall ger gränserna 2,4 till 2,8 tim. 2,4 2,6 2,8 nedre gräns punktestimat övre gräns Med 95% sannolikhet ser en svensk 10-åring mellan 2,4-2,8 timmar på Tv per dag.

Hypotesprövning Istället för att enbart estimera hur det ser ut i populationen försöker vi att statistiskt pröva hypoteser om populationen som stickprovet kommer ifrån. Nollhypotes (H0) Ett antagande om ingen skillnad eller inget samband. Att slumpen är orsaken till det erhållna värdet. Alternativhypotes (H1) (forskningshypotesen) Ett antagande om att det finns en skillnad eller ett samband. Att det finns en annan orsak än slumpen till det erhållna värdet.

Hypotesprövning Den grundläggande frågan är alltid om vårt stickprovsresultat gäller generellt (i populationen) eller är ett resultat av slumpmässiga variationer. Vi behöver en metod för att hantera osäkerheten i en urvalsundersökning. Hypotesprövningen testar om slumpverkan kan ses som orsaken till forskningsresultatet. Vi testar hypotesens giltighet genom en sannolikhetsberäkning.

Sannolikhetsteorin Hur beter sig ett slumpmässigt stickprov i förhållande till populationen? Ett stickprovsmedelvärdet varierar från stickprov till stickprov, men i genomsnitt är det samma som populationsmedelvärdet (om stickprovet är slumpmässigt).

Osannolikhet Vi kan välja att definiera en osannolik händelse som en händelse som bara inträffar 5 av 100 gånger om H0 är sann (oftare om den är falsk). variationer inom konfidensintervall beror sannolikt på slumpen variationer utanför konfidensintervall beror osannolikt på slumpen jättenormalt (jättesannolikt) normalt (sannolikt) mindre normalt (mindre sannolikt) osannolikt

Signifikansnivån Sannolikheten / risken att dra fel slutsats bestäms genom signifikansnivån α (alfa) Ofta accepteras 5% risk att slumpen orsakat resultatet. Vi anger accepterad risknivå (signifikansnivå) för att begå fel i tolkningen av resultatet exempel: α=5% ger ett 95% konfidensintervall exempel: α=1% ger ett 99% konfidensintervall

Slumpmässiga fel Verkligheten Skillnad Typ I fel Lika Test Skillnad Lika Sant positiv Falskt negativ Falskt positiv Sant negativ Typ II fel

Typ I och typ II fel Vi riskerar alltid att begå ett misstag i vårt antagande typ I-fel: förkastar nollhypotesen trots att den är sann (vi finner en falsk skillnad) typ II-fel: accepterar nollhypotesen trots att den är falsk (vi missar en äkta skillnad) Hur stor risk är vi beredda att ta? högt α-värde risk för typ I-fel lågt α-värde risk för typ II-fel

Exempel på parvis jämförelse Vi vill undersöka om forin är samma på avstånd och nära. H0: Forin påverkas inte av fixationsavståndet. H1: Forin har inte samma vinkel på långt och nära avstånd.

Frekvensdiagram på forivärden 5 Histogram PCT PCT på på avstånd avstånd och och nära nära före före behandling behandling PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0 PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4 4 No of obs 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Frekvensdiagram med normalkurvor på forivärden Histogram 5 PCT på avstånd och nära före behandling PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0 PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4 4 3 No of obs 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Har forin samma vinkel på avstånd och nära? Kan skillnaden i forimätningarna uppstått av slumpen? 5 Histogram PCT på avstånd och nära före behandling 4 3 No of obs 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Har forin samma vinkel på avstånd och nära? Kan skillnaden i forimätningarna uppstått av slumpen? 5 4 Histogram PCT på avstånd och nära före behandling Vi behöver göra en statistisk analys! Medel -95% KI +95% KI 3-95% KI +95% KI -95% KI +95% KI Medel medelv. medelv. SD fördeln. fördeln. PCT 1 LH 4,11 2,36 5,87 3,42-2,59 10,83 PCT 1 NH 11,88 9,43 14,33 4,77 2,54 21,23 No of obs 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Statistiska tester Utgår från: typen av data om data är normalfördelat eller inte hur många grupper som ska jämföras

Lite begrepp Variabel: något som kan variera hos vår population Resultatvariabel: anger resultatet, det vi är intresserade av Förklaringsvariabel: det som beskriver vår population, vi väljer själva Beroende data: inom grupp/individ (dependent, paired) Oberoende data: mellan grupp/individer (independent) Ensidigt / Tvåsidigt test (one-tailed / two-tailed)

Ensidigt och tvåsidigt test Ett ensidigt test kan användas om man med säkerhet vet att en eventuell förändring bara kan gå i en viss riktning Om man inte vet i vilken riktning en förändring kan gå, måste ett tvåsidigt test väljas. Om man tvivlar tvåsidigt test

T-test Förhållande mellan en eller två kategorier (förklaringsvariabel) på en kontinuerlig variabel (resultatvariabel) Resultatvariabeln alltid på y-axeln Kräver kvalitativ normalfördelad data Analysera dataset: tårmenisk längd (m) män kvinnor

ANOVA analysis of variance Förhållandet mellan tre eller fler kategorier (förklaringsvariabel) på en kontinuerlig variabel (resultatvariabel) Resultatvariabeln alltid på y-axeln Kräver kvalitativ normalfördelad data Analysera dataset: LUSvärde inkomst (kr) läkare ingenjör pilot

Chi-2 / Fisher Exakt test Korstabellanalys av data på nominalskale-nivå alt.1 Analyserar observerade frekvenser (O) vilka jämförs med förväntade frekvenser (E) alt.2 Jämför två grupper mot varandra som inte är matchade (ej beroende av varandra) Analysera dataset: stud Sthlm-Kalmar

Regression Regression sambandet mellan två eller fler kontinuerliga variabler (ex. ålder, längd, blodtryck) Analysera dataset: Frukten glassförsäljning vattentemperatur

Vilka statistiska metoder korrelerar med varandra Parametriska metoder Icke parametriska metoder Skillnader mellan oberoende grupper T-test för oberoende data Mann-Whitney test (2 oberoende stickprov) ANOVA/MANOVA Kruskal-Wallis test ( 3 oberoende) Skillnader mellan beroende grupper T-test för beroende data ANOVA Samband mellan variabler Korrelations koefficient Wilcoxon's matched pairs test Friedman's test Spearman Kategorisk data (ingen motsvarighet i parametriska) Chi-square test the Phi coefficient the Fisher exact test

Tolkning av resultat signifikans (p) Testfunktionen: p-värdet (p-value) anger sannolikheten för slumpens påverkan eller risken att förkasta nollhypotesen om den vore sann. När sannolikheten för ett slumpmässigt resultat är mindre än α- värdet är resultatet signifikant. Det finns en skillnad. p-värdet är mindre än 5%. Ex. Jämförelsen av konvergensnärpunkt hos elever med läsbesvär med elever utan besvär var signifikant (p=0,002). Elever med besvär uppvisade en genomsnittlig knp på 17 (±5) cm medan elever utan besvär uppvisade en normal knp (7 (±2) cm (Pansell et al., 2002).

Power Power (styrkan) hos ett test är ett mått på hur bra det är på att förkasta nollhypotesen om den är falsk. Power = förmågan att säga att det inte är slumpen när det verkligen inte är slump som orsakat skillnaderna mellan grupperna. Styrkan ökar med ökat antal N Styrkan minskar när alfanivån sjunker (ex från 0,05 till 0,01) Behålles H-noll kan det bero på att H-noll är sann eller att experimentet har låg styrka (power)

Analytisk statistik Tony Pansell, optiker Universitetslektor