Differentiell psykologi

Differentiell psykologi Torsdag 13 september 2012 Reliabilitet

Dagens agenda Värt att veta om normalfördelningen Frågesport Kort intro till kvalitetsparametrarna: reliabilitet och validitet Reliabilitet ett vardagligt exempel Reliabilitet utifrån Klassisk testteori Reliabilitet för ett instrument (instrumentets precision) Antaganden och olika estimat Exempel ur litteraturen om HADS Item analys Demonstration KSP MA Vad påverkar reliabilitetsestimaten Reliabilitet för en mätning (precision för en mätning) Uppgifter till fredag Petter Gustavsson 11 september 2012 2

Normalfördelningen z-värden T-värden Percentiler Standardavvikelser

Petter Gustavsson 11 september 2012 4

Normalfördelningens egenskaper (percentiler och standard poäng) Petter Gustavsson 11 september 2012 5

z-värden, standard avvikelser och T-värden? 1. Ett z-värde på 0 motsvaras av ett T-värde på 0 ( ) Sant ( ) Falskt 2. Ett z-värde på 1 motsvaras av 1 standard avvikelse från medelvärdet, och ett T-värde på 84 ( ) Sant ( ) Falskt 3. Två hela (+) standardavvikelser från medelvärdet = 70 T-poäng ( ) Sant ( ) Falskt Petter Gustavsson 11 september 2012 6

Percentiler, standard avvikelser och T- värden? 4. Flöjande tabell visar det ungefärliga sambandet mellan standard avvikelser och percentiler (kumulativt i normalfördelningen) -2sd 2% -1sd 16% 0 50% +1sd 84% +2sd 98% ( ) Sant ( ) Falskt Petter Gustavsson 11 september 2012 7

Standard avvikelser, T-värden, Percentiler 5. Om mitt T-värde på ett test blir 40, så ligger jag 4 standard avvikelser under vad som är normalt ( ) Sant ( ) Falskt 6. Om mitt T-värde på ett test blir 40, så kan man räkna med att jag presterat bättre än minst 15.8 procent av de som utgjorde standardiseringsgruppen ( ) Sant ( ) Falskt Petter Gustavsson 11 september 2012 8

Mera frågor 7. Om jag presterat bättre än 40% av personerna i standardiserings gruppen så skulle mitt IQ vara över 100 8. Markus flyttar sig från den 90:e percentilen till den 99:e percentilen på T- fördelningen, detta betyder att han relativt har ökat lika många poäng som Petter som flyttat sig från den 50:e till den 59:e percentilen ( ) Sant ( ) Falskt ( ) Sant ( ) Falskt Petter Gustavsson 11 september 2012 9

Mera frågor 9. Det är en lika stor skillnad mellan Kimmos poäng på den 99.9 percentilen och Arnes på den 98 percentilen, som det är mellan Petters poäng på den 84 percentilen och Andreas på den 98 percentilen. Alltså lika många T-poäng. ( ) Sant ( ) Falskt 10. Under -1 samt över +1 sd från medel i normalfördelningen förväntas sammanlagt ungefär 84% av populationens värden att ligga. ( ) Sant ( ) Falskt Petter Gustavsson 11 september 2012 10

Övning: tolkning mot kriterium: Underlag Petter Gustavsson 11 september 2012 12

Kvalitetsaspekterna: Reliabilitet och Validitet En kort introduktion inför våra kurstillfällen idag och på fredag Petter Gustavsson 11 september 2012 13

Reliabilitet Varje mätning tenderar vara förknippad med ett större eller mindre slumpmässigt fel (som antas vara okorrelerade) Reliabiliteten handlar om i vilken omfattning våra mätningar också reflekterar mätfel. Metoder finns för att uppskatta (beräkna) mängden mätfel. Reliabilitet beräknas för ett instruments användning vid en specifik situation (många studier lär oss i vilken grad vi kan generalisera kunskapen om ett instruments reliabiliet) Petter Gustavsson 11 september 2012 14

Reliabilitet : hur mycket av den sanna variationen speglas i den observerade variationen Kvoten mellan den sanna variansen/den observerade variansen Korrelationen (den kvadrerade) mellan sann variation och observerad variation Petter Gustavsson 11 september 2012 15

Validitet Validitet handlar om på vilka grunder vi har stöd för att säga att vår testning avspeglar en mätning av fenomenet: Validity refers to the degree to which evidence and theory support the interpretations of test scores entailed by proposed uses of test Petter Gustavsson 11 september 2012 16

Validation Validation involves accumulating evidence to provide a sound scientific basis for the proposed score interpretations. A sound validity argument integrates various strands of evidence into a coherent account of the degree to which existing evidence and theory support the intended interpretation of test scores for specific uses. Standards, 1999. Petter Gustavsson 11 september 2012 18

Sources of validity evidence Evidence based on: Test content Reponse processes Internal structure Relations to other variables Consequenses of testing Petter Gustavsson 11 september 2012 19

Evidens för intern struktur:..handlar om att ta fram evidens för att samtliga indikatorer på ett fenomen, verkligen avspeglar detta fenomen och inget annat. Vad skulle konsekvensen bli om det inte var så? Tänk er att ni hade uppgiften att ta fram evidens för att HADS depressionskala hade en godtagbar intern struktur. Hur skulle ni göra? Vad skulle ni testa? Vilken statistisk metod skulle kunna användas? Petter Gustavsson 11 september 2012 20

HADS: Depression T Variation i de sanna värdena på en latent variabel depression 1 2 3 4 5 6 7 Påverkar svaren på de 7 indikatorerna Petter Gustavsson 11 september 2012 21

Sources of validity evidence Evidence based on: Test content Reponse processes Internal structure Relations to other variables Consequenses of testing Petter Gustavsson 11 september 2012 22

Kvalitetsaspekt: Reliabilitet =precision i mätningarna Ett vardagligt exempel Petter Gustavsson 11 september 2012 23

Exempel Egentlig kroppstemperatur (T) Mätning i örat av kroppstemperatur (O=T+E) Petter Gustavsson 11 september 2012 26

Reliabilitet för en metod att mäta kroppstemperatur Hur skulle vi kunna gå tillväga för att lära oss mer om hur precist denna metod mäter? Givet att vi vet den egentliga kroppstemperaturen? Givet att vi inte vet den egentliga kroppstemperaturen? Petter Gustavsson 11 september 2012 27

Reliabilitet: Givet att vi vet den egentliga kroppstemperaturen? : Reliabilitet=>hur mycket av den sanna variationen speglas i den observerade variationen Kvoten mellan den sanna variansen/den observerade variansen Korrelationen (den kvadrerade) mellan sann variation och observerad variation Petter Gustavsson 11 september 2012 28

Reliabilitet: Petter Gustavsson 11 september 2012 29

Reliabilitet: Givet att vi inte vet den egentliga kroppstemperaturen? Petter Gustavsson 11 september 2012 30

Men Vi har ju aldrig tillgång till de sanna värdena, och då inte heller den sanna variansen eller den sanna variationen Gör antagandet om Parallella Test Petter Gustavsson 11 september 2012 31

Utgångspunkt Egentlig kroppstemperatur (T) Mätning i örat av kroppstemperatur (O=T+E) Petter Gustavsson 11 september 2012 32

Reproduktion Egentlig temperatur (T) O1= T + E1 Tillfälle nr 1 O2= T + E2 Tillfälle nr 2 Petter Gustavsson 11 september 2012 33

Reliabilitet som test-retest prövning Egentligt värde (T): samma oavsett tidpunkt O1= T + E1 Testresultat tidpunkt 1 O2= T + E2 Testresultat tidpunkt 2 Petter Gustavsson 11 september 2012 34

Estimering Egentlig temperatur (T) Upprepa Observation samma instrument efter viss tid i annat öra O1= T + E1 Observation nr 1 O2= T + E2 Observation nr 2 r=

Reliabilitet : Vid kännedom om sanna värden så kan reliabilitet estimeras genom att den sanna variationen speglas i (eller samvarieras med) den observerade variationen Kvoten mellan den sanna variansen/den observerade variansen Korrelationen (den kvadrerade) mellan sann variation och observerad variation Genom antagandet om parallella test så kan reliabilitet estimeras genom en korrelationsberäkning. Denna estimerade korrelation tolkas direkt som kvoten mellan den sanna variansen/den observerade variansen och som estimat på den kvadrerade korrelationen mellan sann variation och observerad variation. Petter Gustavsson 11 september 2012 36

Reliabilitet : Oavsett om man konceptualiserar reliabilitet som en kvot eller en korrelation: Mellan vilka värden kan reliabilitetsestimat variera? Petter Gustavsson 11 september 2012 37

Reliabiliet Utifrån klassisk test teori Petter Gustavsson 11 september 2012 38

Utgångspunkter Petter Gustavsson 11 september 2012 40

3. Antagandet om slumpmässiga fel Varje mätning tenderar vara förknippad med ett större eller mindre slumpmässigt fel Resultaten av de upprepade enskilda mätningar med sådana slumpmässiga fel följer en sk normal-fördelning Felen antas vara okorrelerade Petter Gustavsson 11 september 2012 41

Estimering av reliabilitet R Reliabilitet (CTT) Estimering av reliabilitet (för ett instrument) Metoder baserade på Classical test theory Parallella test: Test-retest och alternativa test Internal consistency measures Estimeirng av reliabilitet (för en mätning) standard error of measurement

Reliabilitet för ett instrument Ur den klassiska testteorins antaganden om true scores, observed scores och measurment error och relationerna mellan dessa kan fyra (helt likvärdiga) konceptualiseringar göras av Reliabilitet: Furr: sid 82-88, 88-99. Petter Gustavsson 11 september 2012 43

Fyra (helt likvärdiga) konceptualiseringar av Reliabilitet Petter Gustavsson 11 september 2012 44

Men, Men som du kan se i alla fyra konceputaliseringar så efterfrågas information som vi inte kan veta: Test personernas true scores Felen förknippade med deras respektive responser Petter Gustavsson 11 september 2012 45

För att estimera reliabilitet måste därför ytterligare antagande göras: Antagandet om Parallella test förutsätter att 1. Vid en test-retest design så antas att respondenternas true scores är de samma (över tid eller oavsett form. Eftersom klassisk testteori i tidigare skrifter kommit att beteckna true scores med den grekiska bokstaven τ (tau) så benämns detta som tau-ekvivalens. 2. Det förutsätts också att testen (över tid) har samma nivå av mätfel. När dessa två delantagandena (tillsammans benämnda antagandet om parallella test) görs så betraktas den vanliga korrelationskoefficienten i en test-retest design som lika med Reliabilitet. Petter Gustavsson 11 september 2012 46

Med andra ord: Antagandet om parallella test Med parallellitet menas att 1. de mäter samma sak, det sanna värdet för varje person är exakt det samma för respektive test. (=tau-ekvivalens) 2. Testen har samma nivå av fel varians. Enligt klassisk test teori är korrelationen mellan två parallella test lika med reliabiliteten Sid 100-101 Petter Gustavsson 11 september 2012 47

Är det rimligt att tro att dessa antaganden uppfylls? Furr diskuterar detta på sida 105-110. Han pekar bland annat på att: Tau-ekvivalens antagandet kan också bli svårt att uppfylla vid en test-retest design om man inte kan vara säker på att respondenternas true scores är stabilt mellan testningarna Tau-ekvivalens antagandet kan bli svårt att uppfylla vid en alternativ-form design då det torde bli svårt att konstruera två alternativa former av ett test som innehållsmässigt är så lika att de kan förväntas reflektera samma fenomen Petter Gustavsson 11 september 2012 48

Hur kommer vi då runt detta? Kan vi inte utnyttja att vi inte bara gör en mätning i de flesta psykologisk test? Kan vi inte dra nytta av att mätningarna vi gör med våra indikatorer? = våra mätningar på item-nivå är ju upprepade mätningar! Petter Gustavsson 11 september 2012 49

teori Population av mätningar/ item representerande egenskap X

teori Urval av mätningar/item ur populationen

teori Urval av mätningar/item från populationen av mätningar/item =test

teori Urval av item/mätningar från populationen av item/mätningar O+E T =test

Split-half Split-half korrelationen som estimat på reliabiliteten mellan halvorna baserat på antagandet om parallellitet 2/2 1/2

Split-half test Egentligt värde (T): samma oavsett uppdelning O1= T + E1 Testresultat för 1/2 O2= T + E2 Testresultat för 2/2

Formel: Split-half reliability Petter Gustavsson 11 september 2012 56

Split-half estimat av reliabilitet Ett försök att förenkla designen för att estimera reliabilitet är att (istället för att administrera testet två gånger) utgå från alla item i testet och dela upp dem (slumpmässigt) i två deltest. Om det är ett bra test så borde antagandet om parallellitet vara lättare att uppfylla Men ett problem uppstår i och med att det finns många sätt att dela upp testet på och hur ska man hantera att reliabiltetsestimatet kommer att variera på grund av detta? Utveckla en estimeringsmetod som bygger på förhållandet mellan alla item (och inte bara två set av item) = Cronbach s alpha Petter Gustavsson 11 september 2012 57

Chronbach s α (1) Ju högre korrelation mellan Ingående item (ju mindre icke-relavant variation och fel) och desto bättre reproduktion.

Chronbach s α (2) Ju fler item som används ur populationen desto bättre kan sanna värdet reproduceras

Cronbach s α Bestäms utifrån Antal item som utgör skalan Samvariationen mellan dem Kan uttryckas och förstås utifrån medelvärdet av alla möjliga (mellan item) korrelationer

Cronbach s α Varianstermer: Total varians för skalan (summerad varians för alla item och deras samband) Summerade variansen för varje item Formel:

Cronbach s alpha Antagandet som behöver göras för att estimera C s alpha är en uppluckring av antagandet om parallellitet. För att beräkna C s alpha görs antagandet att item måste vara essentially tau-ekvivalenta. Självklart måste vi ju utgå från att respektive item reflekterar samma true scores (tau-ekvivalens mellan item), men vi lär oss stå ut med de inte behöver ha exakt samma nivå av felvarians (vilket leder fram till benämningen essentially tau-ekvivalens). Petter Gustavsson 11 september 2012 62

Summering av reliabilitetsantaganden Vi har talat om två huvudantaganden: Antagandet om parallellitet (paralella test) Med delantagandena om tau-ekvivalens och samma nivå av mätfel Antagandet om essentiell tau-ekvivalens Som liberaliserar antagandet ovan Petter Gustavsson 11 september 2012 63

Summering av reliabilitetsantaganden Antagandena görs för att beräkna: Antagandet om parallellitet (paralella test) Test-retest reliabilitet Split-half reliabilitet Antagandet om essentiell tau-ekvivalens Cronbach s alpha Petter Gustavsson 11 september 2012 64

Summering av reliabilitetsantaganden Underlaget som krävs för dessa estimeringar är Instrumentets total testpoäng Test-retest reliabilitet Item som utgör testet Cronbach s alpha Split-half reliabilitet Petter Gustavsson 11 september 2012 65

Exempel: Reliabilitestestimat för HADS D Petter Gustavsson 11 september 2012 66

HADS: estimering av test-retest reliabilitet Petter Gustavsson 11 september 2012 67

HADS: estimering av Cronbach s α Petter Gustavsson 11 september 2012 71

HADS: Vad blir de olika estimaten? Reliabilitet ANX DEP Test-retest 0.84 0.85 Split-half Cronbach s alpha 0.80 0.81 Petter Gustavsson 11 september 2012 77

Item-analys Analys syftande till att identifiera källor till bristande precision. Petter Gustavsson 11 september 2012 78

Item-analys Analys syftande till att identifiera källor till bristande precision. Statistik baserat på en enskild indikator i relation till alla andra indikatorer som utgör testet, dvs Testet delas upp utifrån sina X ingående indikatorer i En specifik indikator Det ursprungliga testet minus den specifika indikatorn Vanligt är att man studerar korrelationen för alla möjliga uppdelningar Corrected item total correlation Fundera på vad som utmärker ett bra respektive dåligt resultat. Petter Gustavsson 11 september 2012 79

Item-analysen brukar summeras Se resultat från HADS artiklarna ovan. Petter Gustavsson 11 september 2012 80

Mer om ITEM ANALYS Item medelvärde Hur borde items medelvärde förhålla sig till varandra (enl KTT) Item varians Hur borde bra och dåliga items varians förhålla sig till varandra (enl KTT) Items bidrag till upprepning av mätningarna Hur borde bra och dåliga items korrelationer med den den totala variationen förhålla sig till varandra Items bidrag till Cronbach s alfa Hur borde eliminering av ett item påverka alfa i det förändrade instrumentet, givet olika karakteristika enligt ovan? Petter Gustavsson 11 september 2012 83

Exempel: Reliabilitetsanalys och item analys av KSP Monotoni undvikande skalan SPSS Data från normeringsstudien 1978 Petter Gustavsson 11 september 2012 84

KSP Monotony Avoidance Petter Gustavsson 11 september 2012 85

Item-total correlation 1 10-1 Item-total korrelationen som estimat på reliabiliteten för enskilt item

Item-total korrelation Egentligt värde (T): samma oavsett uppdelning O1= T + E1 Testresultat för 9 av 10 O2= T + E2 Testresultat för 1 item

Cronbach s if item deleted Här prövas antagandet om att ytterligare item bidrar till precisionen i mätningen Genom att gå från 9 => 10 item (eller tvärtom, bidrog den till precisionen). Petter Gustavsson 11 september 2012 104

Vad påverkar ett reliabilitetsestimat? Giltigheten i antagandena Uppmätt variation i undersökningsgruppen Samvariation mellan ingående item. Givet samma antal item: reliabiliteten ökar med ökad samvariation mellan item Antal item Givet samma samvariation mellan item: reliabiliteten ökar med ökat antal item Petter Gustavsson 11 september 2012 106

Reliabilitetsnivåernas konsekvenser The prophecy formula: Petter Gustavsson 11 september 2012 108

Reliabilitetsnivåernas konsekvenser En korrelation mellan två mätningar torde enligt klassisk test teori bestämmas av Den egentliga korrelationen mellan mätningarnas sanna värden Båda mätningarnas respektive reliabilitet Konsekvens: reliabiliteten i en eller båda mätningarna påverkar taket för hur hög en korrelation kan bli (vad händer om vi säger att den sanna korrelationen är 1?) Hur påverkar detta hur vi tolkar resultat i artiklar? Petter Gustavsson 11 september 2012 109

Estimering av reliabilitet för en mätning R Reliabilitet (CTT) Estimering av reliabilitet (för ett instrument) Metoder baserade på Classical test theory Parallella test: Test-retest och alternativa test Internal consistency measures Estimeirng av reliabilitet (för en mätning) standard error of measurement

3. Antagandet om slumpmässiga fel Varje mätning tenderar vara förknippad med ett större eller mindre slumpmässigt fel Resultaten av de upprepade enskilda mätningar med sådana slumpmässiga fel följer en sk normal-fördelning Felen antas vara okorrelerade Petter Gustavsson 11 september 2012 113

Reliabilitet Den enskilda mätningens fel På individ-nivå Instrumentets nivå av mätfel På grupp-nivå T2 T1 T1 Petter Gustavsson 11 september 2012 114

Standard error of measurement Standard error of measurement (SEm) Att estimera SEm är ytterligare ett sätt att uttrycka reliabiliteten

Standard error of measurement SEm uttrycker i vilken utsträckning en individs testresultat skulle kunna variera utifrån en teoretisk slumpfördelning som avspeglar precisionen i mätningen Till skillnad från andra reliabilitetsmått kan man använda detta på individnivå, tex som bas för att bilda konfidensintervall.

SEm: Formel

SEm: Parametrar SEm S obs Reliabilitet Rxx

Petters resultat på Monotoniundikande skalan: Testpoäng: 26 poäng Standardavvikelse i jämförelsegrupp: 4.7 Reliabilitet för mätningen i denna grupp 0.84 4.7 0.84 Petter Gustavsson 11 september 2012 119

Petters resultat på Monotoniundikande skalan: Testpoäng: 26 poäng Standardavvikelse i jämförelsegrupp: 4.7 Reliabilitet för mätningen i denna grupp 0.84 1.88 4.7 0.84 Petter Gustavsson 11 september 2012 120

Konfidensintervall 68%: 24.1 27.9 95%: 22.2-29.8 99%: 20.4 31.6

Omvandlat till T-värden 0 20 40 60 80 100 53-61 49-66 44-70

Övningar Petter Gustavsson 11 september 2012 123

Egen övning: Sätt konfidensintervall runt er egen skattning Ta fram testpoängen för din Monotoni undvikande skattning Reliabilitets estimat (alpha=0,84 se tidigare bild) Ta fram SD för din jämförelsegrupp (se T-värdes tabell från måndagens övning) Bilda ett 95% konfidensintervall Översätt dina gränsvärden till T-tabellen Petter Gustavsson 11 september 2012 124

Övning: tolkning mot kriterium: Underlag Petter Gustavsson 11 september 2012 125

På fredag Frågor att fundera över Hur skapar vi mer precisa mätningar? Varför är inte Cronbach s alpha ett estimat för dimensionalitet? Hitta uppgifter om ett instruments reliabilitet (se artikel om MDI) Hur har de estimerat instrumentets reliabilitet Vilket blev deras resultat Petter Gustavsson 11 september 2012 126

petter.gustavsson@ki.se 070-536 3659 www/ www/ www/