Bedömningar 3 Metakognitiva bedömningar, främst konfidensbedömningar Carl Martin Allwood
Bedömningar räknas ofta till sk högre mentala processer (jmfr Fodor, 1983) Dessa processer anses allmänt mycket sammanhangskänsliga, dvs påverkas av många faktorer Två sätt att identifiera en bedömning i vardagslivet: Uppgiftskriteriet. Uppgifter i vardagslivet varierar beroende på sitt sammanhang, t ex sociala processer, inklusive feedback och krav på accountability; dvs uppgifter är inte stabila Processkriteriet (svårt att veta exakt vilka processer som ingår och om det bara finns en kedja av processer som kan utgöra en konfidensbedömning) Metakognition: Kunskap om egna och andras kognitiva processer samt användande av denna kunskap för att reglera sina (och andras) kognitiva processer
Några metakognitiva processer vid bedömning av inlärning och prestation (till stor del efter Nelson 1994, s. 21). (Efter Allwood & Reiman, 2001) ------------------------------------------------------------------------------------------------------ Bedömning (övervakning) När: Vid inlärning * Kunskap inom ett kunskapsområde Studiebehov (kunskapsskattning) Bedömningsresultatet: kan t ex användas för att kontrollera * Svårighet att lära sig ( Ease of Learning ) Allokering av tid och kognitiva resurser * Uppnådd kunskapsnivå Avslutande av studieansträngning ( Judgment of learning ) När: t ex vid erinring * Kunskapskänsla ( feeling-of-knowing ) Specifik allokering av kognitiva resurser * Konfidenskänsla vid specifik Allokering av resurser prestation (konfidensbedömning, variant: konfidensintervall Juslin et al.) * Frekvensbedömning (bedömning av Allokering av resurser total prestation)
Konfidensbedömningar En konfidensbedömning är en metakognitiv bedömning av korrektheten i en prestation Konfidensbedömningar kan t ex gälla minne för händelser, minne för sakförhållanden eller framtidsprognoser, planering Minnesprestationer kan alltså gälla antingen semantiska (tex förståelse av förhållanden i världen, t ex allmänbildningsfrågor) eller episodiska (t ex vittnessammanhang)
Taxonomi över typer av konfidensbedömningar Feelings of confidence On-going, backgrounded feelings of confidence (signal/er från det mentala systemet) Foregrounded feelings of confidence Spontaneously derived Deliberately derived (t ex socialt institutionaliserade) (från Allwood & Granhag, 1999)
Vad triggar en konfidensbedömning? (medvetna/omedvetna processer) T ex: 1) En felkänsla? Konfidenskänsla Konfidensbedömning 2) Konfidenskänsla som del i minnesrapportering (Koriat & Goldsmith, 1996)
Koriat och Goldsmiths (1996) minnesmodell Tre faser vid framtagning och rapportering av minnesinformation: 1) Framhämtning (retrieval), aktivering av information i minnet 2) Övervakning (monitoring), spontan bedömning av sannolikheten att den aktiverade informationen är korrekt (= konfidensbedömning) 3) Kontroll (control), beslut som gäller om det svar som framstår som den bästa svarskandidaten skall rapporteras eller inte En fjärde fas (performance) gäller utfallet, den resulterande prestationen (konsekvensen av steg 3)
Realism i konfidens Realismen i konfidensbedömningar utvärderas relativt faktiska förhållanden i världen inklusive vad som faktiskt hände (tidigare händelser) eller kom att hända (planering) DVS: Realism i konfidens handlar om matchningen mellan konfidensbedömningar och korrektheten i prestationerna Realism (ibland kallat accuracy in confidence ) mäts helst över många minnesprestationer
Ett exempel : Jämförelse av realism i konfidensbedömningar på fyra olika konfidensskalor för 11-12 åringar Allwood, Granhag & Jonsson (2006). Procedur Se kort video (approx 4 min) kidnapping Därefter, 10 minuters träningssession om sannolikhetsbedömningar Därefter, besvara 44 två-alternativsfrågor om videon (forced choice) Direkt efter varje fråga: konfidensbedöm svaret på en skala från 50% ( gissar ) till 100% ( helt säker )
Kalibreringsmått (både kalibreringsaspekten och diskrimineringsaspekten) Dessa mått ger detaljerad information om olika aspekter av den metakognitiva prestationen i minnes- eller uppgiftslösarsammanhang
Övergripande korrekthet i konfidensbedömningar kan analyseras i komponenter på olika sätt (se Yates i GGK) 1. Overall accuracy= f(kalibrering, diskriminering, base rate) (Base rate = kunskapsnivån) 2. Overall accuracy= f(bias (= o/uconfidence), slope, noise, base rate) Noise = variation som skapas av 1. utnyttjande av icke-relevant information, 2. olikheter i konfidensbedömningen i återkommande samma situationen
Mått på realism i konfidens Två viktiga dimensioner: 1) Kalibrering: skillnad mellan konfidensnivå och prestationens korrekthetsnivå, ( allmän avvikelse från diagonalen i kalibreringsdiagram) Mått: t ex Kalibrering och Över-/underkonfidens 2) Diskriminering: Särskiljande av rätt och fel med hjälp av kondensbedömningarna Mått: t ex resolution och Slope ( lutning )
Relationen mellan Kalibrering och Diskriminering T ex, en person som hela tiden sätter 75% i konfidensbedömning och har 75% rätt är perfekt kalibrerad (datapunkten ligger på diagonalen). Samma person har ingen diskriminering, dvs hans/hennes konfidensbedömningarna skiljer inte på rätt och fel (men nivån är alltså rätt). Detta ger dålig vägledning för handling
Mått på kalibreringsaspekten 1. Kalibrering T Kalibrering = 1/n n t (r t c t ) 2 t=1 n = antal svar T = antalet konfidensklasser (t ex 50-59, 60-69, 70-79,..90-99, 100) r t = mv konfidens i konfidensklass t C t = procent korrekta svar i konfidensklass t Lokal över- och underkonfidens kan inte ta ut varandra pga kvadreringen i (r t c t ) 2
2. Över-/underkonfidens Gäller relationen mellan konfidensbedömningarnas nivå och korrektheten i minnesprestationen, dvs: Över-/underkonf = mv konf - procent korrekta svar Måttet visar om en person är överkonfident (positivt värde) eller underkonfident (negativt värde) Värdet noll visar att personen är perfekt kalibrerad
2) Diskriminering Diskriminering gäller i vilken mån en persons konfidensbedömningar särskiljer rätta och felaktiga svar, dvs har optimal lutning på sin kalibreringskurva. Detta kan dock göras på fel nivå Höga värden visar på god diskriminering Ett approximativt mått på diskrimineringsaspekten Slope: (konf för korrekta svar) - (konf för felaktiga svar)
Korrelationer mellan konfidens och korrekhet ( confidence-accuracy correlation ) Visar abstract diskrimineringsförmåga utifrån konfidens för korrekta och konfidens för felaktiga prestationer. Visar inte absoluta skillnaden mellan konfidens för korrekta och konfidens för felaktiga prestationer Vanligt mått i rättspsykologi vid forskning om metaminne i vittnesparader
Olika förklaringar på överkonfidenseffekter Enfaktors- (eller få-) förklaringar och flerfaktorsförklaringar Ex på en och få-faktorsförklaringar: Weight (predictive validity) and Strength (extremeness of evidence) (Griffin & Tversky 1992) Ekologiska modeller: Överkonfidens erhålles pga att forskarna väljer missledande frågor ( icke-representativt urval av frågor ) (Juslin et al; Gigerenzer et al., t ex 1991) Format/statistik förklaring, t ex, scatter och skaländseffekter (t ex Erev, Wallsten och Budesco, 1994) Option fixation (Sieck, Merkle & Van Zandt, 2007) bedömaren fokuserar för ensidigt på det mest troliga svaralternativet Confirmerings bias (t ex Koriat, Lichtenstein & Fischhoff, 1980)
Några Resultat: Man finner överkonfidens i många sammanhang t ex i yrkeslivet (se tex Allwood & Granhag, 1999) s. 132 Upprepade bedömningar och snabb och tydlig feedback i en stabil värld bidrar till god realism Vissa kulturella skillnader verkar finnas (Yates i GGK): Kineser PRC, Taiwan: > Över-/Underkonf, samma diskriminering o mer noise, jämfrt med USA o Japan. Kanske använder kinesisk kultur mindre sannolikhetsbedömningar? Eller lägger ned mindre tid på uppgiften?
Johansson och Allwood (2007) Undersökte frekvensbedömningar av egna och andras svar på allmänna kunskapsfrågor Några resultat: - Man bedömde sina egna kunskaper som lägre än andras både i total skattning (3,9 mot 5.4 där 10 = all kunskap av all existerande kunskap och 0 = ingen kunskap) och frekvensskattning. Detta visar en below-average effekt, som förväntat för svåra uppgifter (Kruger, 1999)
- Dock: Frekvensskattningarna var sköra, dvs effekten lätt att radera ut genom priming effekter från föregående bedömning (jmfr Tabell 2 s. 19) - Bägge dessa resultat går emot resultat i tvärkulturell psykologi där väst förväntas ha en above-average effekt och öst below-average (jämför t ex Svensson (1981), där den genomsnittlige bilföraren tror sig vara bättre förare än den genomsnittlige bilföraren)
Frekvensbedömningar Även (andra namn: global judgments eller aggregated judgments ) kan visa överkonfidens Realism i frekv bed = frekvensbedömning totala antalet rätt Perfekt realism = 0
Table 2. Experiment 2: Means (and standard deviations) of frequency judgments and realism in frequency judgments for each target (i.e., Own and Other) for each condition Condition Own-Other s Other s-own Target Frequency j. Realism Frequency j. Realism Own accuracy 0.637 (0.153) 0.007(0.116) 0.787 (0.125) 0.153 (0.127) Other s acc 0.667 (0.121) 0.037 (0.134) 0.774 (0.094) 0.140 (0.098)
Två format för kvantitativa konfidensbedömningar 1. Punktskattning 2. Intervallskattning T ex: 90% konfidensintervall: Lägsta Högsta 1. Martin Luthers ålder när han dog? Yates i GGK: Surprise index = procent fel av ett antal intervallskattningar. (fel = det faktiska värdet faller utanför de angivna intervallgränserna. Om nivån på konf interv hela tiden är 98% skall man normativt göra fel i 2% av fallen (2 av 100). Gör man fel i 20% av fallen är alltså det 2%-iga surprise index = 20% 2%igt surprise index för USA = 54% och för Kina = 59%
Slut
Diskussionsfrågor: Bedömningar 3 1. Vilken funktion har konfidensbedömningar? Har vi en konfidensmonitor påslagen hela tiden eller utlöses konfidensbedömningar bara vid vissa tillfällen. Vilka i så fall, och hur? 2. Vad är realism i konfidensbedömningar och vilka olika förklaringar tillhandahålls i kurslitteraturen för detta avsnitt?
3. Vad är the planning fallacy och vilka resultat och slutsatser kring denna presenteras (s. 250-270 i GGK 2002)? 4. Vilka resultat kring kulturella skillnader redovisat av Yates et al. (i GGK 2002) och hur vill de förklara dem? 5. Hur går det till när människor bedömer sin konfidens för sitt svar på frågor med två svarsalternativ. Hur påverkar detta deras konfidensbedömningars realism med avseende på över-/underkonfidens?