Statistiska analyser C2 Inferensstatistik. Wieland Wermke



Relevanta dokument
Uppgift 1. Produktmomentkorrelationskoefficienten

Lösningar till SPSS-övning: Analytisk statistik

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Tentan består av 10 frågor, totalt 30 poäng. Det krävs 20 poäng för att få godkänt på tentan, varav 50 % inom respektive moment.

OBS! Vi har nya rutiner.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

OBS! Vi har nya rutiner.

Linjär regressionsanalys. Wieland Wermke

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Forsknings- och undersökningsmetodik Skrivtid: 4h

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

SOPA62 - Kunskapsproduktion i socialt arbete

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

SOPA62 - Kunskapsproduktion i socialt arbete

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Samhällsvetenskaplig metod, 7,5 hp

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Statistik och epidemiologi T5

Uppgift 1. Deskripitiv statistik. Lön

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Datorlaboration 2 Konfidensintervall & hypotesprövning

Statistik Lars Valter

OBS! Vi har nya rutiner.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

HÖGSKOLAN I BORÅS. FORSKNINGSMETODER I OFFENTLIG FÖRVALTNING 15 Högskolepoäng

7.5 Experiment with a single factor having more than two levels

Medicinsk statistik II

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

OBS! Vi har nya rutiner.

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

ANOVA Mellangruppsdesign

TENTAMEN KVANTITATIV METOD (100205)

Lösningar med kommentarer till övningsuppgifterna i min bok Grundläggande statistiska metoder för analys av kvantitativa data

Avd. Matematisk statistik

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

För Godkänt krävs minst 70% av maxpoängen i kvalitativ metodik och minst 70% av maxpoängen i kvantitativ metodik.

Mata in data i Excel och bearbeta i SPSS

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Inferensstatistik. Hypostesprövning - Signifikanstest

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Hypotestestning och repetition

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Statistik för teknologer, 5 poäng Skrivtid:

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

OBS! Vi har nya rutiner.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

DATORÖVNING 3: MER OM STATISTISK INFERENS.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Föreläsning 7 och 8: Regressionsanalys

Föreläsning G60 Statistiska metoder

Statistik 1 för biologer, logopeder och psykologer

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 23 februari 2004, klockan

Medicinsk statistik II

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Följande resultat erhålls (enhet: 1000psi):

36 poäng. Lägsta poäng för Godkänd 70 % av totalpoängen vilket motsvarar 25 poäng. Varje fråga är värd 2 poäng inga halva poäng delas ut.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Metod och teori. Statistik för naturvetare Umeå universitet

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Exempel från föreläsningar i Matematisk Statistik

F9 SAMPLINGFÖRDELNINGAR (NCT

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

F3 Introduktion Stickprov

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Statistik 1 för biologer, logopeder och psykologer

Variansanalys med SPSS Kimmo Sorjonen ( )

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Transkript:

+ Statistiska analyser C2 Inferensstatistik Wieland Wermke

+ Signifikans och Normalfördelning

+ Problemet med generaliseringen: inferensstatistik n Om vi vill veta ngt. om en population, då kan vi ju fråga hela populationen. n men det går ju för det mesta inte! n därför använder man sig av inferensstatistik (slutande statistik) n från ett oberoende slumpmässig urval (OSU) slutar man på själva populationen Dra urval Påståenden om populationen enl. sannolikhetsläran Analysera urvalet

+ Statistisk signifikans n När man hävdar ett samband som signifikant, påstår man att sambandet gäller också i andra urval ur samma population (läs. gäller populationen (t.ex. svenska folket)) n samband kan vara skillnader mellan olika grupper n eller kan vara korrelationer mellan två fenomen i ett urval n Anger sannolikheten att hävda att ett samband är systematiskt (stämmer för populationen), och inte bara är slumpmässigt (ett tillfälligt resultat) n Signifikansen säger dock inget om hur stor effekten är, dvs. hur relevant den är (signifikans är inte relevans)!!

+ Signifikansnivå och sannolikhet (p) n Signifikansnivå n med en 95%/99/99.9 % vill vi vara säkra att att vår beslut inte bygger på slump, utan att ett samband existerar verkligen för vår population (ju högre ju bättre) n Sannolikheten [p (eng. probability), sig., α] anger hur sannolik det är att en skillnad/samband beror på slumpen (ju mindre ju bättre) n Ex. Sig.=0.23 à 23% (23 av 100) sannolikhet att skillnaden är slumpmässig à resultatet är inte signifikant på en nivå av 95% n Sig.=0.04 à 4% sannolikhet att skillnaden är slumpmässig > signifikant på 95%, men inte 99% nivå n Sig.=0.001 à 0,1% (1 av 1000) à signifikant på 99% nivå

+ Ett viktigt verktyg, om vi har intervallnivå: Normalfördelning n Grunden till undersökningar om ngn effekt är signifikant eller inte: Normalfördelning n Normalfördelning står för hela populationen, som vi inte känner! n Vi antar bara hur den måste se ut!!! n Det är ett analytiskt hjälpmedel för att kunna genomföra undersökningar (sannolikhetsläran)! n Hur sannolikhet är ngt (om man kastar tärningar, singlar slant)

+ Sannolikhetlära: Centrala gränsvärdsatsen n Centrala gränsvärdessatsen: En urvalsfördelning, är den bara tillräckligt stor, följer normalfördelningen n 20-25 är det minsta antalet av observationer, där vi kan utgå från en normalfördelning (ju mer observationer ju mer tar kurvan formen) n Normalfördelningskurvan bygger helt och hållet på två värden: n Medelvärdet (centralmått) n Standardavvikelsen (spridningsmått)

+ Exempel: Andel män i n stickprov Ju närmare ni kommer en normalfördelning med era data, ju mer precis blir skattningen av resultatet! Ju större N ju mer precis blir normalfördelningen

+ Normalfördelning Om en fördelning är normalfördelad, kan vi uttala oss med vilken chans en observation är del i själva populationen, om den har vissa egenskaper (standardavvikelse (sigma) från medelvärden (my) )

+ Standardisering n NE: Standardisering tar främst sikte på att underlätta kommunikation genom att skapa entydiga begrepp med definitioner och termer n att säkerställa utbytbarhet och kompatibilitet genom fastläggande av mått, dimensioner, storlekar och gränssnitt n att åstadkomma variantbegränsning genom urval av mått, dimensioner (relationen blir viktig, inte det konkreta värdet) n à Centrering rund medelvärdet z i = x i x s

+ Standardisering n NE: Standardisering tar främst sikte på att underlätta kommunikation genom att skapa entydiga begrepp med definitioner och termer; Allt koncentreras omkring det sanna medelvärdet (som vi antar pga n att säkerställa utbytbarhet och kompatibilitet genom fastläggande normalfördelningen) av mått, dimensioner, storlekar och gränssnitt med 95% sannolikhet (p=.05) är värdet n att åstadkomma variantbegränsning genom urval av mått, inom -/+ 1,96 z värde (-/+)2sd dimensioner med 99% sannolikhet (p=.01) z i = x är x värdet inom -/+ 2,58 z värde i med 99,9% sannolikhet (p=.001) s är värde inom -/+ 3,29 z värde n à gör saker och ting jämförbara

+ Signifikanstestning

+ Normalfördelningen (igen) Anger realiteten som vi tänker oss den! Det finns medelvärde och standardiserade avvikelse i positivt och negativt håll

+ Stickprovsfördelning n Varje fördelning (med tillräcklig storlek) följer normalfördelningens form (centrala gränsvärdessatsen) n à om man drar ett antal urval för att kolla hur ofta ett fenomen dyker upp i varje urval, följer denna stickprovsfördelning också normalfördelningens form n här får vi ett medelvärde över alla medelvärden från n urval n och en standardavvikelse som i detta sammanhang kallas standardfel från n urval n Om urval verkligen är slumpmässiga! (Validitet/Reliabilitet)

+ Signifikant skillnad mellan två medelvärde n Om skillnaden mellan två gruppers medelvärde är systematiskt och fri från slump, så kallar vi skillnaden signifikant n För signifikanstestningen arbetar vi med två hypoteser (antaganden om resultatet) n nollhypotes: Det finns inte någon systematisk skillnad mellan två grupper n mothypotes/alternativhypotes: Det finns en systematisk skillnad mellan två grupper

+ Signifikanstestning n Grundidén: vi antar en normalfördelning, och vi vet urvalets medelvärde/andel samt dess standardavvikelse n Vi bestämmer själva signifikansnivån (95 %, 99 %, 99,9 %) n total säkerhet finns inte! n båda urvalen borde vara slumpmässiga (OSU) n Vi räknar ut konfidensintervallen för de två grupper vi jämför n Vi antar eller förkasta nollhypotesen, om konfidensintervallen överlappar eller inte överlappar varandra!

+ Signifikanstestning n Grundidén: vi antar en normalfördelning, och vi vet urvalets medelvärde/andel samt dess standardavvikelse n Vi bestämmer själva signifikansnivån (95 %, 99 %, 99,9 %) n total säkerhet finns inte! n båda urvalen borde vara slumpmässiga (OSU) n Vi räknar ut konfidensintervallen för de två grupper vi jämför n Vi antar eller förkasta nollhypotesen, om konfidensintervallen överlappar eller inte överlappar varandra!

+ Signifikanstestning: nominala data: Chi två test n Hypotestestning om det finns en signifikant skillnad mellan två underurval angående en viss egenskap (används för data på nominalnivå) n H 0 Det finns inte någon systematisk (ickeslumpmässig) skillnad mellan de två grupperna. Skillnaden är slumpmässig n H 1 Det finns systematiska skillnader. Skillnaden är inte slumpmässig n Vid en viss signifikansnivå (95 %,99 %,99.9 %)

+ Signifikanstestning: nominala data: Chi två test n Man jämför i en korstabell det förväntade värdet (om värden skulle vara fördelade utan något inflyttande alls) med det observerade värdet n Förväntande värdet = (radsumma * kolumnsumma)/n

+ Signifikanstest, Chi två test Kategori 1 (oberoende var.) Kategori 2 (oberoende var.) Kolumnsumma Kategori 1 (beroende var.) cell a förväntat värde observerat värde cell c förväntat värde observerat värde Kategori 2 (beroende var.) cell b förväntat värde observerat värde cell d förväntat värde observerat värde Radsumma Förväntat värde = (radsumma * kolumnsumma)/n

+ Frihetsgrader? n Betecknar antalet av ett objekts fritt välbara rörelsemöjligheter, som är oberoende från varandra i ett system n Om vi vet N eller medelvärdet och alla värde förutom en, så är den inte fri, de andra värde bestämmer den! n 1+2+3+4+x=10 x? n Fyrfältare har 4 celler, för att kunna definiera tabellen behövs det dock vissa parametrar, kategorier med svarsalternativ (2), antal (1), à df=1 n df (för större tabeller (mer än två kategorier) = n (antal råder 1) * (antal kolumner 1)

+ Signifikanstest, Chi två test n Räkna ut chi två värde : n!! = (!"#!,!!!ö!"!,! )!ö!"!,!! (Summa över varje tabellcell a+b +c+d) n Om chi värdet är olika 0, då finns det en skillnad, nu måste den signifikanstestas n Chi två värdet kan i relation till frihetsgraderna och en innan fastlagt signifikansnivå hittas i en chi två tabell n som visar kritiska värden, dvs. minsta värde där en skillnad är signifikant vid n frihetsgrader n t.ex. sannolikhet för nollhypotesen =.05 = signifikansnivå 95 %)

+ Chi två tabell n jämför våra chi två värden med fördelningsvärden n om den är värdet ur tabellen, så är värdet signifikant n första kolumnen=frihetsgraderna, överste råden=signifikans nivå

+ Exempel SPSS n I vår material: skiljer sig studenter som är motiverat för kursen i sin temtamensangest n två dikotomiserade variabler: n Motivation dikot. (inte motiverat: <5, motiverat 5) n Tentamensångest dikot. (ingen ångest 2, ångest > 2) n H 0 : Båda grupper skiljer sig inte, H 1 :Båda grupper skiljer sig Motivation dikotomisiert * Tentamensångest dikotomiserat Crosstabulation Count Tentamensångest dikotomiserat ingen/lite tentamensånge st tentamensånge st/ingen tentamensånge st Total inte/lite motiverat 4 14 18 Motivation dikotomisiert mer/mycket motiverat 8 26 34 Total 12 40 52!

+ Exempel SPSS Chi-Square Tests Value df Asymp. Sig. (2- sided) Exact Sig. (2- sided) Exact Sig. (1- sided) Pearson Chi-Square.011 a 1.915 Continuity Correction b.000 1 1.000 Likelihood Ratio.011 1.915 Fisher's Exact Test 1.000.601 Linear-by-Linear.011 1.916 Association N of Valid Cases 52 a. 1 cells (25.0%) have expected count less than 5. The minimum expected count is 4.15. b. Computed only for a 2x2 table! Chi två värde frihetsgrader alltid 1 i en fyrfältare Signifikans (p) p/sig =.915: Chansen att skillnaden inte är signifikant/slumpartad = 91,5% procent, Nollhypotesen gäller

+ T test n Undersöka hypoteser, där medelvärde är känt, men varians inte (à används för intervallskalnivåer) n Bygger på t fördelningen, som är också en fördelningskurva, dock fungerar bra för mindre urval (=>30), med växande n motsvarar t en normalfördelningen

+ T tests användning n En grupps T test n Vi har undersöka om en grupps medelvärde skiljer sig signifikant från ett medelvärde man anger n Oberoende T test n Skiljer sig medelvärdet av två grupper sig signifikant, som undersöktes samtidigt (män/kvinnor) n Beroende T test n Skiljer sig medelvärdet av två grupper som är beroende av varandra i datamaterialet (mammor/söner eller, medelvärde i en longitudinell studie) n kommer inte vara med idag

+ Oberoende T test n Skiljer sig tjänsteman barn och arbetarbarn signifikant ang. sin ångest att fråga om statistikhjälp? n H 0 : m tjänstemän =m arbetar H 1 : m tjänstemän m arbetar n Analyzeà Compare Meansà Independent sampels T Test n Define groups efter kategorisiffror n Group 1: 0, Group 2: 1! Fråga om Hjälp Ångest Group Statistics Familjbakgrund N Mean Std. Deviation Std. Error Mean Arbetarfamilj 28 1.8980.73036.13802 Tjänstmanfamilj 22 1.7662.77941.16617

+ Oberoende T test! Fråga om Hjälp Ångest Levene's Test for Equality of Variances Independent Samples Test t-test for Equality of Means F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Equal variances assumed.114.737.615 48.542.13173.21431 -.29916.56262 Equal variances not assumed Lower Upper.610 43.769.545.13173.21602 -.30369.56714 skillnad i spridningen t värde frihetsgrader Signifikans (p) inte riktad Konfidensintervall av skillnaden plus se Medelvärdesskillnad mellan grupperna p/sig =.542 Chansen att skillnaden inte är signifikant/slumpartad = 54 procent, Nollhypotesen gäller