Differentiell psykologi Torsdag 8 september 2011 Reliabilitet
Dagens agenda MDI skattningsövning resultat av kriterietolkning Värt att veta om normalfördelningen Frågesport Kort info om kursboken : Personality and individual differences Reliabilitet ett vardagligt exempel Reliabilitet utifrån Klassisk testteori Reliabilitet för ett instrument (instrumentets precision) Reliabilitet för en mätning (precision för en mätning) Uppgifter till fredag Laboration och seminarier nästa vecka Petter Gustavsson 6 september 2011 2
Petter Gustavsson 6 september 2011 3
Normalfördelningen z-värden T-värden Percentiler Standardavvikelser
Petter Gustavsson 6 september 2011 5
z-värden, standard avvikelser och T-värden? 1. Ett z-värde på 0 motsvaras av ett T-värde på 0 ( ) Sant ( ) Falskt 2. Ett z-värde på 1 motsvaras av 1 standard avvikelse från medelvärdet, och ett T-värde på 84 ( ) Sant ( ) Falskt 3. Två hela standardavvikelser från medelvärdet = 70 T-poäng ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 6
Percentiler, standard avvikelser och T- värden? 4. Flöjande tabell visar det ungefärliga sambandet mellan standard avvikelser och percentiler (kumulativt i normalfördelningen) -2sd 2% -1sd 16% 0 50% +1sd 84% +2sd 98% ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 7
Standard avvikelser, T-värden, Percentiler 5. Om mitt T-värde på ett test blir 40, så ligger jag 4 standard avvikelser under vad som är normalt ( ) Sant ( ) Falskt 6. Om mitt T-värde på ett test blir 40, så kan man räkna med att jag presterat bättre än minst15.8 procent av de som utgjorde standardiseringsgruppen ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 8
Mera frågor 7. Om jag presterat bättre än 40% av personerna i standardiserings gruppen så skulle mitt IQ vara över 100 8. Markus flyttar sig från den 90:e percentilen till den 99:e percentilen på IQ fördelningen, detta betyder att han relativt har ökat lika många poäng som Petter som flyttat sig från den 50:e till den 59:e percentilen ( ) Sant ( ) Falskt ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 9
Mera frågor 9. Det är en lika stor skillnad mellan Kimmos poäng på den 99.9 percentilen och Arnes på den 98 percentilen, som det är mellan Petters poäng på den 84 percentilen och Andreas på den 98 percentilen. Alltså lika många IQ poäng. 10. Under +1 respektive över - 1 sd från medel i normalfördelningen ligger ungefär 84 respektive 84% ( ) Sant ( ) Falskt ( ) Sant ( ) Falskt Petter Gustavsson 6 september 2011 10
Kort info om kursbok Petter Gustavsson 6 september 2011 11
Kvalitetsaspekt: Reliabilitet =precision i mätningarna Petter Gustavsson 6 september 2011 12
Petter Gustavsson 6 september 2011 13
Exempel Egentlig kroppstemperatur (T) Mätning i örat av kroppstemperatur (O=T+E) Petter Gustavsson 6 september 2011 14
Reliabilitet för en metod att mäta kroppstemperatur Hur skulle vi kunna gå tillväga för att lära oss mer om hur precist denna metod mäter? Givet att vi vet den egentliga kroppstemperaturen? Givet att vi inte vet den egentliga kroppstemperaturen? Petter Gustavsson 6 september 2011 15
Reliabilitet: Givet att vi vet den egentliga kroppstemperaturen? : hur mycket av den sanna variationen speglas i den observerade variationen Kvoten mellan den sanna variansen/den observerade variansen Korrelationen (den kvadrerade) mellan sann variation och observerad variation Petter Gustavsson 6 september 2011 16
Reliabilitet: Petter Gustavsson 6 september 2011 17
Reliabilitet: Givet att vi inte vet den egentliga kroppstemperaturen? Petter Gustavsson 6 september 2011 18
Men Vi har ju aldrig tillgång till de sanna värdena, och då inte heller den sanna variansen eller den sanna variationen Gör antagandet om Parallella Test Petter Gustavsson 6 september 2011 19
Utgångspunkt Egentlig kroppstemperatur (T) Mätning i örat av kroppstemperatur (O=T+E) Petter Gustavsson 6 september 2011 20
Reproduktion Egentlig temperatur (T) O1= T + E1 Metod nr 1 O2= T + E2 Metod nr 2 Petter Gustavsson 6 september 2011 21
Estimering Egentlig temperatur (T) O1= T + E1 Metod nr 1 O2= T + E2 Metod nr 2 Petter Gustavsson 6 september 2011 22
Reproduktion Egentlig temperatur (T) O1= T + E1 Tillfälle nr 1 O2= T + E2 Tillfälle nr 2 Petter Gustavsson 6 september 2011 23
Reliabilitet som test-retest prövning Egentligt värde (T): samma oavsett tidpunkt O1= T + E1 Testresultat tidpunkt 1 O2= T + E2 Testresultat tidpunkt 2 Petter Gustavsson 6 september 2011 24
Estimering Egentlig temperatur (T) Upprepa Observation samma instrument efter viss tid i annat öra O1= T + E1 Observation nr 1 alternativt instrument O2= T + E2 r= Observation nr 2
Reliabilitet : Vid kännedom om sanna värden så kan reliabilitet estimeras genom att den sanna variationen speglas i (eller samvarieras med) den observerade variationen Kvoten mellan den sanna variansen/den observerade variansen Korrelationen (den kvadrerade) mellan sann variation och observerad variation Genom antagandet om parallella test så kan reliabilitet estimeras genom en korrelationsberäkning. Denna estimerade korrelation tolkas direkt som kvoten mellan den sanna variansen/den observerade variansen och som estimat på den den kvadrerade korrelationen mellan sann variation och observerad variation. Petter Gustavsson 6 september 2011 26
Reliabilitet : Oavsett om man konceptualiserar reliabilitet som en kvot eller en korrelation: Mellan vilka värden kan reliabilitetsestimat variera? Petter Gustavsson 6 september 2011 27
Reliabiliet Utifrån klassisk test teori Petter Gustavsson 6 september 2011 28
Utgångspunkter Petter Gustavsson 6 september 2011 29
3. Antagandet om slumpmässiga fel Varje enskild mätning tenderar vara förknippad med ett större eller mindre slumpmässigt fel Resultaten av de upprepade enskilda mätningar med sådana slumpmässiga fel följer en sk normal-fördelning Felen antas vara okorrelerade Petter Gustavsson 6 september 2011 30
Estimering av reliabilitet R Reliabilitet (CTT) Estimering av reliabilitet (för ett instrument) Metoder baserade på Classical test theory Parallella test: Test-retest och alternativa test Internal consistency measures Estimeirng av reliabilitet (för en mätning) standard error of measurement
Reliabilitet för ett instrument Ur den klassiska testteorins antaganden om true scores, observed scores och measurment error och relationerna mellan dessa kan fyra (helt likvärdiga) konceptualiseringar göras av Reliabilitet: Furr: sid 82-88, 88-99. Petter Gustavsson 6 september 2011 32
Fyra (helt likvärdiga) konceptualiseringar av Reliabilitet Petter Gustavsson 6 september 2011 33
Men, Men som du kan se i alla fyra konceputaliseringar så efterfrågas information som vi inte kan veta: Test personernas true scores Felen förknippade med deras respektive responser Petter Gustavsson 6 september 2011 34
För att estimera reliabilitet måste därför ytterligare antagande göras: Antagandet om Parallella test förutsätter att 1. Vid en test-retest design eller en design för alternativa former av ett test att respondenternas true scores är de samma (över tid eller oavsett form. Eftersom klassisk testteori i tidigare skrifter kommit att beteckna true scores med den grekiska bokstaven τ (tau) så benämns detta som tau-ekvivalens. 2. Det förutsätts också att testen (över tid eller över former) har samma nivå av mätfel. När dessa två delantagandena (tillsammans benämnda antagandet om parallella test) görs så betraktas den vanliga korrelationskoefficienten i en test-retest design eller en design för alternativa former som lika med Reliabilitet. Petter Gustavsson 6 september 2011 35
Med andra ord: Antagandet om parallella test Med parallellitet menas att 1. de mäter samma sak, det sanna värdet för varje person är exakt det samma för respektive test. (=tau-ekvivalens) 2. Testen har samma nivå av fel varians. Enligt klassisk test teori är korrelationen mellan två parallella test lika med reliabiliteten Sid 100-101 Petter Gustavsson 6 september 2011 36
Är det rimligt att tro att dessa antaganden uppfylls? Furr diskuterar detta på sida 105-110. Han pekar bland annat på att: Tau-ekvivalens antagandet kan bli svårt att uppfylla vid en alternativ-form design då det torde bli svårt att konstruera två alternativa former av ett test som innehållsmässigt är så lika att de kan förväntas reflektera samma fenomen Tau-ekvivalens antagandet kan också bli svårt att uppfylla vid en test-retest design om man inte kan vara säker på att respondenternas true scores är stabilt mellan testningarna Petter Gustavsson 6 september 2011 37
Hur kommer vi då runt detta? Kan vi inte utnyttja att vi inte bara gör en mätning i de flesta psykologisk test? Kan vi inte dra nytta av att mätningarna vi gör med våra indikatorer? = våra mätningar på item-nivå är ju upprepade mätningar! Petter Gustavsson 6 september 2011 38
teori Population av item representerande egenskap X
teori Konstruktion av instrument
teori Urval av item från populationen av item =test
teori Urval av item från populationen av item =test
teori Urval av item från populationen av item O+E T =test
Split-half Split-half korrelationen som estimat på reliabiliteten mellan halvorna baserat på antagandet om parallellitet 2/2 1/2
Split-half test Egentligt värde (T): samma oavsett uppdelning O1= T + E1 Testresultat för 1/2 O2= T + E2 Testresultat för 2/2
Formel: Split-half reliability Petter Gustavsson 6 september 2011 46
Split-half estimat av reliabilitet Ett försök att förenkla designen för att estimera reliabilitet är att (istället för att administrera testet två gånger eller konstruera två alternativa former) utgå från alla item i testet och dela upp dem (slumpmässigt) i två deltest. Om det är ett bra test så borde antagandet om parallellitet vara lättare att uppfylla Men ett problem uppstår i och med att det finns många sätt att dela upp testet på och hur ska man hantera att reliabiltetsestimatet kommer att variera på grund av detta? Utveckla en estimeringsmetod som bygger på förhållandet mellan alla item (och inte bara två set av item) = Cronbach s alpha Petter Gustavsson 6 september 2011 47
Chronbach s α (1) Ju högre korrelation mellan Ingående item (ju mindre icke-relavant variation och fel) och desto bättre reproduktion.
Chronbach s α (2) Ju fler item som används ur populationen desto bättre kan sanna värdet reproduceras
Cronbach s α Bestäms utifrån Antal item som utgör skalan Samvariationen mellan dem Kan uttryckas och förstås utifrån medelvärdet av alla möjliga (mellan item) korrelationer
Cronbach s α Varianstermer: Total varians för skalan (summerad varians för alla item och deras samband) Summerade variansen för varje item Formel:
Cronbach s alpha Antagandet som behöver göras för att estimera C s alpha är en uppluckring av antagandet om parallellitet. För att beräkna C s alpha görs antagandet att item måste vara essentially tau-ekvivalenta. Självklart måste vi ju utgå från att respektive item reflekterar samma true scores (tau-ekvivalens mellan item), men vi lär oss stå ut med de inte behöver ha exakt samma nivå av felvarians (vilket leder fram till benämningen essentially tau-ekvivalens). Petter Gustavsson 6 september 2011 52
Summering av reliabilitetsantaganden Vi har talat om två huvudantaganden: Antagandet om parallellitet (paralella test) Med delantagandena om tau-ekvivalens och samma nivå av mätfel Antagandet om essentiell tau-ekvivalens Som liberaliserar antagandet ovan Petter Gustavsson 6 september 2011 53
Summering av reliabilitetsantaganden Antagandena görs för att beräkna: Antagandet om parallellitet (paralella test) Test-retest reliabilitet Alternativ form reliabilitet Split-half reliabilitet Antagandet om essentiell tau-ekvivalens Cronbach s alpha Petter Gustavsson 6 september 2011 54
Summering av reliabilitetsantaganden Underlaget som krävs för dessa estimeringar är Instrumentets total testpoäng Test-retest reliabilitet Alternativ form reliabilitet Item som utgör testet Cronbach s alpha Split-half reliabilitet Petter Gustavsson 6 september 2011 55
Exempel: Reliabilitestestimat för HADS D Petter Gustavsson 6 september 2011 56
HADS: estimering av test-retest reliabilitet Petter Gustavsson 6 september 2011 57
Petter Gustavsson 6 september 2011 58
Petter Gustavsson 6 september 2011 59
Petter Gustavsson 6 september 2011 60
HADS: estimering av Cronbach s α Petter Gustavsson 6 september 2011 61
Petter Gustavsson 6 september 2011 62
Petter Gustavsson 6 september 2011 63
Petter Gustavsson 6 september 2011 64
Petter Gustavsson 6 september 2011 65
Petter Gustavsson 6 september 2011 66
HADS: Vad blir de olika estimaten? Reliabilitet ANX DEP Test-retest 0.84 0.85 Split-half Cronbach s alpha 0.80 0.81 Petter Gustavsson 6 september 2011 67
Vad påverkar ett reliabilitetsestimat? Giltigheten i antagandena Uppmätt variation i undersökningsgruppen Samvariation mellan ingående item. Givet samma antal item: reliabiliteten ökar med ökad samvariation mellan item Antal item Givet samma samvariation mellan item: reliabiliteten ökar med ökat antal item Petter Gustavsson 6 september 2011 68
Petter Gustavsson 6 september 2011 69
Reliabilitetsnivåernas konsekvenser The prophecy formula: Petter Gustavsson 6 september 2011 70
Reliabilitetsnivåernas konsekvenser En korrelation mellan två mätningar torde enligt klassisk test teori bestämmas av Den egentliga korrelationen mellan mätningarnas sanna värden Båda mätningarnas respektive reliabilitet Konsekvens: reliabiliteten i en eller båda mätningarna påverkar taket för hur hög en korrelation kan bli (vad händer om vi säger att den sanna korrelationen är 1?) Hur påverkar detta hur vi tolkar resultat i artiklar? Petter Gustavsson 6 september 2011 71
Petter Gustavsson 6 september 2011 72
Item-analys Analys syftande till att identifiera källor till bristande precision. Statistik baserat på en enskild indikator i relation till alla andra indikatorer som utgör testet, dvs Testet delas upp utifrån sina X ingående indikatorer i En specifik indikator Det ursprungliga testet minus den specifika indikatorn Vanligt är att man studerar korrelationen för alla möjliga uppdelningar Corrected item total correlation Fundera på vad som utmärker ett bra respektive dåligt resultat. Petter Gustavsson 6 september 2011 73
Item-analysen brukar summeras Se resultat från HADS artiklarna ovan. Petter Gustavsson 6 september 2011 74
Petter Gustavsson 6 september 2011 75
Petter Gustavsson 6 september 2011 76
Mer om ITEM ANALYS Items bidrag till upprepning av mätningarna Hur borde bra och dåliga items korrelationer med den den totala variationen förhålla sig till varandra Item medelvärde Hur borde items medelvärde förhålla sig till varandra (enl KTT) Item varians Hur borde bra och dåliga items varians förhålla sig till den totala variansen (enl KTT) Items bidrag till Cronbach s alfa Hur borde eliminering av ett item påverka det förändrade instrumentet, givet olika karakteristika enligt ovan? Petter Gustavsson 6 september 2011 77
Eget exempel på Item-analys KSP Monotony Avoidance Petter Gustavsson 6 september 2011 78
Exempel 1 Monotoniundvikande Petter Gustavsson 6 september 2011 79
Eget exempel på Item-analys KSP Inhibition of aggression Petter Gustavsson 6 september 2011 80
Exempel 2 Hämmad aggressivitet Petter Gustavsson 6 september 2011 81
Estimering av reliabilitet för en mätning R Reliabilitet (CTT) Estimering av reliabilitet (för ett instrument) Metoder baserade på Classical test theory Parallella test: Test-retest och alternativa test Internal consistency measures Estimeirng av reliabilitet (för en mätning) standard error of measurement
3. Antagandet om slumpmässiga fel Varje enskild mätning tenderar vara förknippad med ett större eller mindre slumpmässigt fel Resultaten av de upprepade enskilda mätningar med sådana slumpmässiga fel följer en sk normal-fördelning Felen antas vara okorrelerade Petter Gustavsson 6 september 2011 83
Reliabilitet Den enskilda mätningens fel På individ-nivå Instrumentets nivå av mätfel På grupp-nivå T2 T1 T1 Petter Gustavsson 6 september 2011 84
Standard error of measurement Standard error of measurement (SEm) Att estimera SEm är ytterligare ett sätt att uttrycka reliabiliteten
Standard error of measurement SEm uttrycker i vilken utsträckning en individs testresultat skulle kunna variera utifrån en tänkt individuell slumpfördelning som avspeglar precisionen i mätningen Till skillnad från andra reliabilitetsmått kan man använda detta på individnivå, tex som bas för att bilda konfidensintervall kring T, (utifrån O och SEm)
SEm: Formel
SEm: Parametrar SEm So Reliabilitet Rxx
Petters resultat på Monotoniundikande skalan: Testpoäng: 26 poäng Standardavvikelse i jämförelsegrupp: 4.7 Reliabilitet för mätningen i denna grupp 0.84 4.7 0.84 Petter Gustavsson 6 september 2011 89
Petters resultat på Monotoniundikande skalan: Testpoäng: 26 poäng Standardavvikelse i jämförelsegrupp: 4.7 Reliabilitet för mätningen i denna grupp 0.84 1.88 4.7 0.84 Petter Gustavsson 6 september 2011 90
Konfidensintervall 68%: 24.1 27.9 95%: 22.2-29.8 99%: 20.4 31.6
Omvandlat till T-värden 0 20 40 60 80 100 53-61 49-66 44-70
Direkt beräknat till T-värden: Petter Gustavsson 6 september 2011 93
SEm: Parametervärden SEm SD 10 Reliabilitet C s a=0.84
SEm: Beräkning SEm SD Reliabilitet
Konfidensintervall pba SEm Om individens observerade testpoäng är 50 får vi: 0 20 40 60 80 100
Uppgifter Petter Gustavsson 6 september 2011 97
Egen övning: Sätt konfidensintervall runt er egen skattning För övningens skull utgå ifrån er testpoäng. Ta fram testpoängen för vald skala Välj reliabilitets estimat (alpha eller test-retest, se tidigare bild) Ta fram SD för din jämförelsegrupp (se T-värdes tabell från igår) Bilda ett 95% konfidensintervall Översätt dina gränsvärden till T-tabellen Petter Gustavsson 6 september 2011 98
Avslutningsvis: utifrån reliabilitetsteorin: Hur skapar vi mer precisa mätningar? Varför är inte Cronbach s alpha ett estimat för dimensionalitet? Dvs varför är inte intern konsistens och intern struktur samma sak? Petter Gustavsson 6 september 2011 99
På fredag Frågor att fundera över Hur skapar vi mer precisa mätningar? Varför är inte Cronbach s alpha ett estimat för dimensionalitet? Hitta uppgifter om ett instruments reliabilitet (se artikel om MDI) Hur har de estimerat instrumentets reliabilitet Vilket blev deras resultat Petter Gustavsson 6 september 2011 100
ITEM ANALYS mm: Laboration den 12 och 13/9 (med uppföljning 15 och 16/9) Mer info kommer på kurswebben. Läs där inför laborationen. Petter Gustavsson 6 september 2011 101
petter.gustavsson@ki.se 08-5248 3659 www