Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Relevanta dokument
Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Medicinsk statistik II

Föreläsning 5. Kapitel 6, sid Inferens om en population

Hypotestestning och repetition

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Hur man tolkar statistiska resultat

Hur skriver man statistikavsnittet i en ansökan?

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

2. Test av hypotes rörande medianen i en population.

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Parade och oparade test

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Gamla tentor (forts) ( x. x ) ) 2 x1

Föreläsning G60 Statistiska metoder

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

7.3.3 Nonparametric Mann-Whitney test

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

OBS! Vi har nya rutiner.

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Statistik och epidemiologi T5

F22, Icke-parametriska metoder.

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Medicinsk statistik II

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

FACIT (korrekta svar i röd fetstil)

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

F3 Introduktion Stickprov

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Föreläsning 12: Regression

Statistik och epidemiologi T5

Att välja statistisk metod

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

7.5 Experiment with a single factor having more than two levels

Studietyper, inferens och konfidensintervall

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

, s a. , s b. personer från Alingsås och n b

Föreläsningsanteckningar till kapitel 9, del 2

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Repetitionsföreläsning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Konfidensintervall, Hypotestest

F19, (Multipel linjär regression forts) och F20, Chi-två test.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

TAMS65 - Föreläsning 6 Hypotesprövning

Medicinsk statistik I

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Kapitel 10 Hypotesprövning

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Laboration 3 Inferens fo r andelar och korstabeller

Tentamen i matematisk statistik

Föreläsning G60 Statistiska metoder

ST-fredag epidemiologi och biostatistik 2017

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

8 Inferens om väntevärdet (och variansen) av en fördelning

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Datorlaboration 2 Konfidensintervall & hypotesprövning

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

TMS136. Föreläsning 13

TAMS65 - Föreläsning 6 Hypotesprövning

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Höftledsdysplasi hos dansk-svensk gårdshund

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Lektionsanteckningar 11-12: Normalfördelningen

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Statistik Termin 10, Läkarprogrammet, HT16

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Transkript:

Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se

Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation

Analytisk statistik Med analytisk statistik avses metoder och tekniker för statistisk inferens, dvs. metoder för att dra slutsatser om en population genom att analysera egenskaper hos slumpmässiga stickprov ur populationen

Statistisk inferens

Statistisk inferens Analys av stickprovet ger oss information om populationen, förutsatt att stickprovet är: tillräckligt stort slumpmässigt utvalt från populationen normalfördelat

Metoder för statistisk inferens 1. Punktestimering och skattning av konfidensintervall Att utifrån stickprov dra slutsatser om populationens egenskaper 2. Hypotesprövning Att utifrån stickprov jämföra grupper och dra slutsatser om signifikanta skillnader mellan grupperna 3. Regressionsanalys Att utifrån stickprov dra slutsatser om sambandet mellan två (eller fler) variabler och förutsäga värdet på en variabel utifrån kunskapen om en annan

1. Punktestimering och skattning av konfidensintervall Exempel: Man vill veta hur mycket svenska 10-åringar tittar på TV per dag Ur populationen alla 10-åringar görs ett urval och ur detta dras ett stickprov. Dessa intervjuas om hur länge de tittar på TV. Medelvärdet för detta stickprov var 2,6 timmar. 95% konfidensintervall ger gränserna 2,4 till 2,8 tim. 2,4 2,6 2,8 nedre gräns punktestimat övre gräns Med 95% sannolikhet ser en svensk 10-åring mellan 2,4-2,8 timmar på TV per dag.

2. Hypotesprövning Istället för att enbart estimera hur det ser ut i populationen försöker vi att statistiskt pröva hypoteser om populationen som stickprovet kommer ifrån. Nollhypotes (H 0 ) Ett antagande om ingen skillnad eller samband föreligger. Att slumpen är orsaken till det erhållna värdet. Alternativhypotes (H 1 ) (forskningshypotesen) Ett antagande om att det finns en skillnad eller ett samband. Att det finns en annan orsak än slumpen till det erhållna värdet.

Hypotesprövning Den grundläggande frågan är alltid om vårt stickprovsresultat gäller generellt (i populationen) eller är ett resultat av slumpmässiga variationer. Vi behöver en metod för att hantera osäkerheten i en urvalsundersökning. Hypotesprövningen testar om slumpverkan kan ses som orsaken till forskningsresultatet. Vi testar hypotesens giltighet genom en sannolikhetsberäkning.

Att ställa upp en hypotes Exempel: Med hjälp av en stickprovsundersökning vill vi utforska om det finns en jämn fördelning av kvinnliga och manliga studenter på Karolinska Institutet. H 0 : Andel kvinnor = Andel män Pröva om andelen kvinnor är skilt från andelen män H 1 : Andel kvinnor Andel män (dubbelsidig mothypotes) Pröva om andelen kvinnor är större än andelen män H 1 : Andel kvinnor > Andel män (enkelsidig mothypotes) Pröva om andelen kvinnor är mindre än andelen män H 1 : Andel kvinnor < Andel män (enkelsidig mothypotes)

Hypotesprövningens p-värde Sannolikheten för att man får det resultat man faktiskt observerat (eller mer extremt) i stickprovet under förutsättning att nollhypotesen (H 0 ) är sann. Notera att p är en sannolikhet och måste därför ligga mellan 0 och 1. Exempel: Om nollhypotesen är att andelen kvinnliga studenter vid KI är 50%, och vi i vårt stickprov har hittat 54% kvinnliga studenter så anger p-värdet sannolikheten för att vi skulle hitta ett stickprov med minst 54% kvinnor under förutsättning att det i studiepopulationen (dvs. hela KI) bara finns 50% kvinnor.

Hypotesprövningens p-värde Ett lågt p-värde talar för: att det är osannolikt att vi skulle få de observerade mätvärdena om nollhypotesen (ingen skillnad) vore sann. att nollhypotesen är orimlig och kan förkastas.

Hypotesprövningens signifikansnivå Hur lågt måste p-värdet vara för att vi skall förkasta nollhypotesen? Denna gräns bestäms genom signifikansnivån α (alfa) Det finns ingen given gräns för α utan denna bestäms utifrån vilken risk man är beredd att ta att dra fel slutsats.

Osannolikhet Vi kan välja att definiera en osannolik händelse som en händelse som bara inträffar 1 av 20 gånger (5 av 100) om H 0 är sann (oftare om den är falsk). variationer inom konfidensintervall beror sannolikt på slumpen variationer utanför konfidensintervall beror osannolikt på slumpen jättenormalt (jättesannolikt) normalt (sannolikt) mindre normalt (mindre sannolikt) osannolikt

Slumpmässiga fel Typ I fel finns det en skillnad I verkligheten..finns det ingen skillnad Analysen påvisar en skillnad ingen skillnad Sant positiv Falskt negativ Falskt positiv Sant negativ Typ II fel

Typ I och typ II fel Vi riskerar ALLTID att begå ett misstag i vårt antagande typ I-fel: förkastar nollhypotesen trots att den är sann (vi finner en falsk skillnad) typ II-fel: accepterar nollhypotesen trots att den är falsk (vi lyckas inte påvisa en sann skillnad) Hur stor risk är vi beredda att ta? högt -värde risk för typ I-fel lågt -värde risk för typ II-fel

Hypotesprövningens signifikansnivå Normalt att acceptera 5% risk att slumpen orsakar resultatet (α = 0.05) Vi anger accepterad risknivå (signifikansnivå) för att begå fel i tolkningen av resultatet exempel: =5% ger ett 95% konfidensintervall exempel: =1% ger ett 99% konfidensintervall

Tolkning av p-värde Om p-värdet ligger under signifikansnivån kan vi förkasta nollhypotesen och anse den alternativa hypotesen vara mest trolig. Om p-värdet ligger över signifikansnivån kan nollhypotesen inte förkastas och resultatet motsäger inte nollhypotesen. Vi kan då inte uttala oss om hur trolig den alternativa hypotesen är som förklaring. Exempel: Om p-värdet för H 0 : Andel kvinnor = Andel män är 0.09 och α = 0.05 så kan vi ej förkasta H 0. Om p-värdet däremot är 0.02 kan H 0 fökastas.

Ensidigt och tvåsidigt test Ett ensidigt test kan användas om man med säkerhet vet att en eventuell förändring bara kan gå i en viss riktning Om man inte vet i vilken riktning en förändring kan gå, måste ett tvåsidigt test väljas. Om man tvivlar tvåsidigt test

Hypotesprövningens steg 1. Formulera hypoteser (H 0 och H 1 ) 2. Bestäm signifikansnivå 3. Bestäm testfunktion och beräkna p-värde 4. Bestäm om H 0 kan förkastas eller inte

Gruppövning 1. Formulera en enkel frågeställning och en forskningshypotes som går att undersöka empiriskt. 2. Ställ upp H 0 och H 1 3. Anta = 0.05 4. Hitta på ett valfritt p-värde Förklara med enkla ord vilka slutsatser ni skulle kunna dra av er undersökning givet 1-4.

Exempel på studie med parvis jämförelse Vi undersöker om forin är den samma på långt och kort avstånd Hypoteserna som ska testas H 0 : Forin påverkas inte av fixationsavståndet. H 1 : Forin har inte samma vinkel på långt och nära avstånd.

Frekvensdiagram på uppmätta forivärden 5 Histogram PCT PCT på på avstånd avstånd och och nära nära före före behandling behandling PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0 PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4 4 No of obs 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Frekvensdiagram med normalkurvor på forivärden 5 Histogram PCT på avstånd och nära före behandling PCT 1 LH: N = 17; Mean = 4,1176; StdDv = 3,4257; Max = 12; Min = 0 PCT 1 NH: N = 17; Mean = 11,8824; StdDv = 4,7682; Max = 18; Min = 4 4 3 No of obs 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Har forin samma vinkel på långt och kort avstånd? Kan skillnaden i forimätningarna uppstått av slumpen? 5 Histogram PCT på avstånd och nära före behandling 4 3 No of obs 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Har forin samma vinkel på långt och kort avstånd? Kan skillnaden i forimätningarna uppstått av slumpen? 5 4 Histogram PCT på avstånd och nära före behandling Vi behöver göra en statistisk analys! Medel -95% KI +95% KI 3-95% KI +95% KI -95% KI +95% KI Medel medelv. medelv. SD fördeln. fördeln. PCT 1 LH 4,11 2,36 5,87 3,42-2,59 10,83 PCT 1 NH 11,88 9,43 14,33 4,77 2,54 21,23 No of obs 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 PCT 1 LH PCT 1 NH

Statistiska tester Utgår från: typen (kvalitén) av data om data är normalfördelat eller inte hur många grupper som ska jämföras

T-test Förhållande mellan en eller två grupper på en kontinuerlig variabel

längd (m) T-test Resultatvariabeln alltid på y-axeln Kräver kvantitativ normalfördelad data män kvinnor

Lilla t-testet (one-sample t-test) Används vanligen om man vill undersöka om medelvärdet i en grupp skiljer sig från ett hypotetiskt värde Exempel: Vi undersöker patienter som drabbats av en viss åkomma och testar om medelåldern för insjuknande skiljer sig från ett hypotetiskt värde, 60 år. Vi erhåller p = 0.0005 ( = 0.05) Slutsats: medelåldern för insjuknande skiljer sig från 60 år. InStat-demo

Oberoende t-test (independent samples t-test) Används vanligen om man vill undersöka skillnader i medelvärde mellan två oberoende grupper vid samma tidpunkt Exempel: Vi undersöker om män och kvinnor som drabbats av åkomman är olika gamla i snitt Vi erhåller p = 0.43 ( = 0.05) Slutsats: vi kan inte med säkerhet säga att det finns en åldersskillnad. InStat-demo

Beroende t-test (dependent samples t-test) Används vanligen om man vill undersöka skillnader inom samma grupp (två mätningar) över tid. Mätningarna vid de två tidpunkterna är beroende av varandra eftersom det är samma personer i båda distributionerna. Exempel: Vi undersöker om patienter som drabbats av åkomman svarar positivt på behandling, dvs. om det finns en skillnad (positiv) före och efter behandling Vi erhåller p = 0.001 ( = 0.05) Slutsats: patienter svarar positivt på behandling InStat-demo

Gruppövning Utifrån er tidigare frågeställning, finns det något t-test som verkar tillämpbart för att testa er hypotes? Om inte, försök förklara varför.

ANOVA analysis of variance Förhållandet mellan tre eller fler kategorier (förklaringsvariabel) på en kontinuerlig variabel (resultatvariabel)

inkomst (kr) ANOVA analysis of variance Resultatvariabeln alltid på y-axeln Kräver kvantitativ normalfördelad data Analysera dataset: LUSvärde läkare ingenjör pilot

Chi-2 / Fisher Exakt test Korstabellanalys av data på nominalskale-nivå Nollhypotes: det föreligger ingen skillnad i proportioner mellan grupperna alt.1 Analyserar observerade frekvenser (O) vilka jämförs med förväntade frekvenser (E) alt.2 Jämför två grupper mot varandra som inte är matchade (ej beroende av varandra)

Chi-2 / Fisher Exakt test Analysera dataset: Hjärtrytm

3. Regressionsanalys

3. Regressionsanalys Målet är att skapa en matematisk funktion som bäst passar observerade data Funktionen beskriver det dynamiska sambandet mellan två (eller fler) variabler Funktionen kan användas för att förutsäga (predicera) värdet på en variabel utifrån kunskapen om en annan

Enkel linjär regression

Vilka statistiska metoder korrelerar med varandra Parametriska metoder Icke parametriska metoder Skillnader mellan oberoende grupper T-test för oberoende data Mann-Whitney test (2 oberoende stickprov) ANOVA/MANOVA Kruskal-Wallis test ( 3 oberoende) Skillnader mellan beroende grupper T-test för beroende data ANOVA Samband mellan variabler Korrelations koefficient Wilcoxon's matched pairs test Friedman's test Spearman Kategorisk data (ingen motsvarighet i parametriska) Chi-square test the Phi coefficient the Fisher exact test