Differentiell psykologi

Differentiell psykologi Torsdag 8 september 2011 Reliabilitet

Dagens agenda MDI skattningsövning resultat av kriterietolkning Värt att veta om normalfördelningen Frågesport Kort info om kursboken : Personality and individual differences Reliabilitet ett vardagligt exempel Reliabilitet utifrån Klassisk testteori Reliabilitet för ett instrument (instrumentets precision) Reliabilitet för en mätning (precision för en mätning) Uppgifter till fredag Laboration och seminarier nästa vecka Petter Gustavsson 6 september 2011 2

Petter Gustavsson 6 september 2011 3

Normalfördelningen z-värden T-värden Percentiler Standardavvikelser

z-värden, standard avvikelser och T-värden? 1. Ett z-värde på 0 motsvaras av ett T-värde på 0 ( ) Sant ( ) Falskt 2. Ett z-värde på 1 motsvaras av 1 standard avvikelse från medelvärdet, och ett T-värde på 84 ( ) Sant ( ) Falskt 3. Två hela standardavvikelser från medelvärdet = 70 T-poäng ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 6

Percentiler, standard avvikelser och T- värden? 4. Flöjande tabell visar det ungefärliga sambandet mellan standard avvikelser och percentiler (kumulativt i normalfördelningen) -2sd 2% -1sd 16% 0 50% +1sd 84% +2sd 98% ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 7

Standard avvikelser, T-värden, Percentiler 5. Om mitt T-värde på ett test blir 40, så ligger jag 4 standard avvikelser under vad som är normalt ( ) Sant ( ) Falskt 6. Om mitt T-värde på ett test blir 40, så kan man räkna med att jag presterat bättre än minst15.8 procent av de som utgjorde standardiseringsgruppen ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 8

Mera frågor 7. Om jag presterat bättre än 40% av personerna i standardiserings gruppen så skulle mitt IQ vara över 100 8. Markus flyttar sig från den 90:e percentilen till den 99:e percentilen på IQ fördelningen, detta betyder att han relativt har ökat lika många poäng som Petter som flyttat sig från den 50:e till den 59:e percentilen ( ) Sant ( ) Falskt ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 9

Mera frågor 9. Det är en lika stor skillnad mellan Kimmos poäng på den 99.9 percentilen och Arnes på den 98 percentilen, som det är mellan Petters poäng på den 84 percentilen och Andreas på den 98 percentilen. Alltså lika många IQ poäng. 10. Under +1 respektive över - 1 sd från medel i normalfördelningen ligger ungefär 84 respektive 84% ( ) Sant ( ) Falskt ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 10

Kort info om kursbok Petter Gustavsson 6 september 2011 11

Kvalitetsaspekt: Reliabilitet =precision i mätningarna Petter Gustavsson 6 september 2011 12

Exempel Egentlig kroppstemperatur (T) Mätning i örat av kroppstemperatur (O=T+E) Petter Gustavsson 6 september 2011 14

Reliabilitet för en metod att mäta kroppstemperatur Hur skulle vi kunna gå tillväga för att lära oss mer om hur precist denna metod mäter? Givet att vi vet den egentliga kroppstemperaturen? Givet att vi inte vet den egentliga kroppstemperaturen? Petter Gustavsson 6 september 2011 15

Reliabilitet: Givet att vi vet den egentliga kroppstemperaturen? : hur mycket av den sanna variationen speglas i den observerade variationen Kvoten mellan den sanna variansen/den observerade variansen Korrelationen (den kvadrerade) mellan sann variation och observerad variation Petter Gustavsson 6 september 2011 16

Reliabilitet: Petter Gustavsson 6 september 2011 17

Reliabilitet: Givet att vi inte vet den egentliga kroppstemperaturen? Petter Gustavsson 6 september 2011 18

Men Vi har ju aldrig tillgång till de sanna värdena, och då inte heller den sanna variansen eller den sanna variationen Gör antagandet om Parallella Test Petter Gustavsson 6 september 2011 19

Utgångspunkt Egentlig kroppstemperatur (T) Mätning i örat av kroppstemperatur (O=T+E) Petter Gustavsson 6 september 2011 20

Reproduktion Egentlig temperatur (T) O1= T + E1 Metod nr 1 O2= T + E2 Metod nr 2 Petter Gustavsson 6 september 2011 21

Estimering Egentlig temperatur (T) O1= T + E1 Metod nr 1 O2= T + E2 Metod nr 2 Petter Gustavsson 6 september 2011 22

Reproduktion Egentlig temperatur (T) O1= T + E1 Tillfälle nr 1 O2= T + E2 Tillfälle nr 2 Petter Gustavsson 6 september 2011 23

Reliabilitet som test-retest prövning Egentligt värde (T): samma oavsett tidpunkt O1= T + E1 Testresultat tidpunkt 1 O2= T + E2 Testresultat tidpunkt 2 Petter Gustavsson 6 september 2011 24

Estimering Egentlig temperatur (T) Upprepa Observation samma instrument efter viss tid i annat öra O1= T + E1 Observation nr 1 alternativt instrument O2= T + E2 r= Observation nr 2

Reliabilitet : Vid kännedom om sanna värden så kan reliabilitet estimeras genom att den sanna variationen speglas i (eller samvarieras med) den observerade variationen Kvoten mellan den sanna variansen/den observerade variansen Korrelationen (den kvadrerade) mellan sann variation och observerad variation Genom antagandet om parallella test så kan reliabilitet estimeras genom en korrelationsberäkning. Denna estimerade korrelation tolkas direkt som kvoten mellan den sanna variansen/den observerade variansen och som estimat på den den kvadrerade korrelationen mellan sann variation och observerad variation. Petter Gustavsson 6 september 2011 26

Reliabilitet : Oavsett om man konceptualiserar reliabilitet som en kvot eller en korrelation: Mellan vilka värden kan reliabilitetsestimat variera? Petter Gustavsson 6 september 2011 27

Reliabiliet Utifrån klassisk test teori Petter Gustavsson 6 september 2011 28

Utgångspunkter Petter Gustavsson 6 september 2011 29

3. Antagandet om slumpmässiga fel Varje enskild mätning tenderar vara förknippad med ett större eller mindre slumpmässigt fel Resultaten av de upprepade enskilda mätningar med sådana slumpmässiga fel följer en sk normal-fördelning Felen antas vara okorrelerade Petter Gustavsson 6 september 2011 30

Estimering av reliabilitet R Reliabilitet (CTT) Estimering av reliabilitet (för ett instrument) Metoder baserade på Classical test theory Parallella test: Test-retest och alternativa test Internal consistency measures Estimeirng av reliabilitet (för en mätning) standard error of measurement

Reliabilitet för ett instrument Ur den klassiska testteorins antaganden om true scores, observed scores och measurment error och relationerna mellan dessa kan fyra (helt likvärdiga) konceptualiseringar göras av Reliabilitet: Furr: sid 82-88, 88-99. Petter Gustavsson 6 september 2011 32

Fyra (helt likvärdiga) konceptualiseringar av Reliabilitet Petter Gustavsson 6 september 2011 33

Men, Men som du kan se i alla fyra konceputaliseringar så efterfrågas information som vi inte kan veta: Test personernas true scores Felen förknippade med deras respektive responser Petter Gustavsson 6 september 2011 34

För att estimera reliabilitet måste därför ytterligare antagande göras: Antagandet om Parallella test förutsätter att 1. Vid en test-retest design eller en design för alternativa former av ett test att respondenternas true scores är de samma (över tid eller oavsett form. Eftersom klassisk testteori i tidigare skrifter kommit att beteckna true scores med den grekiska bokstaven τ (tau) så benämns detta som tau-ekvivalens. 2. Det förutsätts också att testen (över tid eller över former) har samma nivå av mätfel. När dessa två delantagandena (tillsammans benämnda antagandet om parallella test) görs så betraktas den vanliga korrelationskoefficienten i en test-retest design eller en design för alternativa former som lika med Reliabilitet. Petter Gustavsson 6 september 2011 35

Med andra ord: Antagandet om parallella test Med parallellitet menas att 1. de mäter samma sak, det sanna värdet för varje person är exakt det samma för respektive test. (=tau-ekvivalens) 2. Testen har samma nivå av fel varians. Enligt klassisk test teori är korrelationen mellan två parallella test lika med reliabiliteten Sid 100-101 Petter Gustavsson 6 september 2011 36

Är det rimligt att tro att dessa antaganden uppfylls? Furr diskuterar detta på sida 105-110. Han pekar bland annat på att: Tau-ekvivalens antagandet kan bli svårt att uppfylla vid en alternativ-form design då det torde bli svårt att konstruera två alternativa former av ett test som innehållsmässigt är så lika att de kan förväntas reflektera samma fenomen Tau-ekvivalens antagandet kan också bli svårt att uppfylla vid en test-retest design om man inte kan vara säker på att respondenternas true scores är stabilt mellan testningarna Petter Gustavsson 6 september 2011 37

Hur kommer vi då runt detta? Kan vi inte utnyttja att vi inte bara gör en mätning i de flesta psykologisk test? Kan vi inte dra nytta av att mätningarna vi gör med våra indikatorer? = våra mätningar på item-nivå är ju upprepade mätningar! Petter Gustavsson 6 september 2011 38

teori Population av item representerande egenskap X

teori Konstruktion av instrument

teori Urval av item från populationen av item =test

teori Urval av item från populationen av item O+E T =test

Split-half Split-half korrelationen som estimat på reliabiliteten mellan halvorna baserat på antagandet om parallellitet 2/2 1/2

Split-half test Egentligt värde (T): samma oavsett uppdelning O1= T + E1 Testresultat för 1/2 O2= T + E2 Testresultat för 2/2

Formel: Split-half reliability Petter Gustavsson 6 september 2011 46

Split-half estimat av reliabilitet Ett försök att förenkla designen för att estimera reliabilitet är att (istället för att administrera testet två gånger eller konstruera två alternativa former) utgå från alla item i testet och dela upp dem (slumpmässigt) i två deltest. Om det är ett bra test så borde antagandet om parallellitet vara lättare att uppfylla Men ett problem uppstår i och med att det finns många sätt att dela upp testet på och hur ska man hantera att reliabiltetsestimatet kommer att variera på grund av detta? Utveckla en estimeringsmetod som bygger på förhållandet mellan alla item (och inte bara två set av item) = Cronbach s alpha Petter Gustavsson 6 september 2011 47

Chronbach s α (1) Ju högre korrelation mellan Ingående item (ju mindre icke-relavant variation och fel) och desto bättre reproduktion.

Chronbach s α (2) Ju fler item som används ur populationen desto bättre kan sanna värdet reproduceras

Cronbach s α Bestäms utifrån Antal item som utgör skalan Samvariationen mellan dem Kan uttryckas och förstås utifrån medelvärdet av alla möjliga (mellan item) korrelationer

Cronbach s α Varianstermer: Total varians för skalan (summerad varians för alla item och deras samband) Summerade variansen för varje item Formel:

Cronbach s alpha Antagandet som behöver göras för att estimera C s alpha är en uppluckring av antagandet om parallellitet. För att beräkna C s alpha görs antagandet att item måste vara essentially tau-ekvivalenta. Självklart måste vi ju utgå från att respektive item reflekterar samma true scores (tau-ekvivalens mellan item), men vi lär oss stå ut med de inte behöver ha exakt samma nivå av felvarians (vilket leder fram till benämningen essentially tau-ekvivalens). Petter Gustavsson 6 september 2011 52

Summering av reliabilitetsantaganden Vi har talat om två huvudantaganden: Antagandet om parallellitet (paralella test) Med delantagandena om tau-ekvivalens och samma nivå av mätfel Antagandet om essentiell tau-ekvivalens Som liberaliserar antagandet ovan Petter Gustavsson 6 september 2011 53

Summering av reliabilitetsantaganden Antagandena görs för att beräkna: Antagandet om parallellitet (paralella test) Test-retest reliabilitet Alternativ form reliabilitet Split-half reliabilitet Antagandet om essentiell tau-ekvivalens Cronbach s alpha Petter Gustavsson 6 september 2011 54

Summering av reliabilitetsantaganden Underlaget som krävs för dessa estimeringar är Instrumentets total testpoäng Test-retest reliabilitet Alternativ form reliabilitet Item som utgör testet Cronbach s alpha Split-half reliabilitet Petter Gustavsson 6 september 2011 55

Exempel: Reliabilitestestimat för HADS D Petter Gustavsson 6 september 2011 56

HADS: estimering av test-retest reliabilitet Petter Gustavsson 6 september 2011 57

HADS: estimering av Cronbach s α Petter Gustavsson 6 september 2011 61

HADS: Vad blir de olika estimaten? Reliabilitet ANX DEP Test-retest 0.84 0.85 Split-half Cronbach s alpha 0.80 0.81 Petter Gustavsson 6 september 2011 67

Vad påverkar ett reliabilitetsestimat? Giltigheten i antagandena Uppmätt variation i undersökningsgruppen Samvariation mellan ingående item. Givet samma antal item: reliabiliteten ökar med ökad samvariation mellan item Antal item Givet samma samvariation mellan item: reliabiliteten ökar med ökat antal item Petter Gustavsson 6 september 2011 68

Reliabilitetsnivåernas konsekvenser The prophecy formula: Petter Gustavsson 6 september 2011 70

Reliabilitetsnivåernas konsekvenser En korrelation mellan två mätningar torde enligt klassisk test teori bestämmas av Den egentliga korrelationen mellan mätningarnas sanna värden Båda mätningarnas respektive reliabilitet Konsekvens: reliabiliteten i en eller båda mätningarna påverkar taket för hur hög en korrelation kan bli (vad händer om vi säger att den sanna korrelationen är 1?) Hur påverkar detta hur vi tolkar resultat i artiklar? Petter Gustavsson 6 september 2011 71

Item-analys Analys syftande till att identifiera källor till bristande precision. Statistik baserat på en enskild indikator i relation till alla andra indikatorer som utgör testet, dvs Testet delas upp utifrån sina X ingående indikatorer i En specifik indikator Det ursprungliga testet minus den specifika indikatorn Vanligt är att man studerar korrelationen för alla möjliga uppdelningar Corrected item total correlation Fundera på vad som utmärker ett bra respektive dåligt resultat. Petter Gustavsson 6 september 2011 73

Item-analysen brukar summeras Se resultat från HADS artiklarna ovan. Petter Gustavsson 6 september 2011 74

Mer om ITEM ANALYS Items bidrag till upprepning av mätningarna Hur borde bra och dåliga items korrelationer med den den totala variationen förhålla sig till varandra Item medelvärde Hur borde items medelvärde förhålla sig till varandra (enl KTT) Item varians Hur borde bra och dåliga items varians förhålla sig till den totala variansen (enl KTT) Items bidrag till Cronbach s alfa Hur borde eliminering av ett item påverka det förändrade instrumentet, givet olika karakteristika enligt ovan? Petter Gustavsson 6 september 2011 77

Eget exempel på Item-analys KSP Monotony Avoidance Petter Gustavsson 6 september 2011 78

Exempel 1 Monotoniundvikande Petter Gustavsson 6 september 2011 79

Eget exempel på Item-analys KSP Inhibition of aggression Petter Gustavsson 6 september 2011 80

Exempel 2 Hämmad aggressivitet Petter Gustavsson 6 september 2011 81

Estimering av reliabilitet för en mätning R Reliabilitet (CTT) Estimering av reliabilitet (för ett instrument) Metoder baserade på Classical test theory Parallella test: Test-retest och alternativa test Internal consistency measures Estimeirng av reliabilitet (för en mätning) standard error of measurement

3. Antagandet om slumpmässiga fel Varje enskild mätning tenderar vara förknippad med ett större eller mindre slumpmässigt fel Resultaten av de upprepade enskilda mätningar med sådana slumpmässiga fel följer en sk normal-fördelning Felen antas vara okorrelerade Petter Gustavsson 6 september 2011 83

Reliabilitet Den enskilda mätningens fel På individ-nivå Instrumentets nivå av mätfel På grupp-nivå T2 T1 T1 Petter Gustavsson 6 september 2011 84

Standard error of measurement Standard error of measurement (SEm) Att estimera SEm är ytterligare ett sätt att uttrycka reliabiliteten

Standard error of measurement SEm uttrycker i vilken utsträckning en individs testresultat skulle kunna variera utifrån en tänkt individuell slumpfördelning som avspeglar precisionen i mätningen Till skillnad från andra reliabilitetsmått kan man använda detta på individnivå, tex som bas för att bilda konfidensintervall kring T, (utifrån O och SEm)

SEm: Formel

SEm: Parametrar SEm So Reliabilitet Rxx

Petters resultat på Monotoniundikande skalan: Testpoäng: 26 poäng Standardavvikelse i jämförelsegrupp: 4.7 Reliabilitet för mätningen i denna grupp 0.84 4.7 0.84 Petter Gustavsson 6 september 2011 89

Petters resultat på Monotoniundikande skalan: Testpoäng: 26 poäng Standardavvikelse i jämförelsegrupp: 4.7 Reliabilitet för mätningen i denna grupp 0.84 1.88 4.7 0.84 Petter Gustavsson 6 september 2011 90

Konfidensintervall 68%: 24.1 27.9 95%: 22.2-29.8 99%: 20.4 31.6

Omvandlat till T-värden 0 20 40 60 80 100 53-61 49-66 44-70

Direkt beräknat till T-värden: Petter Gustavsson 6 september 2011 93

SEm: Parametervärden SEm SD 10 Reliabilitet C s a=0.84

SEm: Beräkning SEm SD Reliabilitet

Konfidensintervall pba SEm Om individens observerade testpoäng är 50 får vi: 0 20 40 60 80 100

Uppgifter Petter Gustavsson 6 september 2011 97

Egen övning: Sätt konfidensintervall runt er egen skattning För övningens skull utgå ifrån er testpoäng. Ta fram testpoängen för vald skala Välj reliabilitets estimat (alpha eller test-retest, se tidigare bild) Ta fram SD för din jämförelsegrupp (se T-värdes tabell från igår) Bilda ett 95% konfidensintervall Översätt dina gränsvärden till T-tabellen Petter Gustavsson 6 september 2011 98

Avslutningsvis: utifrån reliabilitetsteorin: Hur skapar vi mer precisa mätningar? Varför är inte Cronbach s alpha ett estimat för dimensionalitet? Dvs varför är inte intern konsistens och intern struktur samma sak? Petter Gustavsson 6 september 2011 99

På fredag Frågor att fundera över Hur skapar vi mer precisa mätningar? Varför är inte Cronbach s alpha ett estimat för dimensionalitet? Hitta uppgifter om ett instruments reliabilitet (se artikel om MDI) Hur har de estimerat instrumentets reliabilitet Vilket blev deras resultat Petter Gustavsson 6 september 2011 100

ITEM ANALYS mm: Laboration den 12 och 13/9 (med uppföljning 15 och 16/9) Mer info kommer på kurswebben. Läs där inför laborationen. Petter Gustavsson 6 september 2011 101

petter.gustavsson@ki.se 08-5248 3659 www