Generalizability and Item Response Theory. Tisdagen den 21/9 2010

Relevanta dokument
Differentiell psykologi

Differentiell psykologi

Differentiell psykologi

Differentiell psykologi

Differentiell psykologi

Differentiell psykologi

Differentiell psykologi

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Differentiell psykologi. Kursstart 29 augusti 2011

Varför är det så viktigt hur vi bedömer?! Christian Lundahl!

DEMOKRATI 3 DEMOKRATINS VILLKOR

Vi skall skriva uppsats

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

Hur utvecklar man användbara system? Utvärdering. Användbarhet handlar om kvalitet. Utvärdering. Empiriska mätningar. Metoder

Differentiell psykologi

Gruppenkät. Lycka till! Kommun: Stadsdel: (Gäller endast Göteborg)

Strukturen i en naturvetenskaplig rapport

Det är bra om även distriktsstyrelsen gör en presentation av sig själva på samma sätt som de andra.

Statistik 1 för biologer, logopeder och psykologer

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

Resultat från nationella prov i årskurs 3, vårterminen 2014

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

Sammanställning kursutvärdering

Sammanfattning på lättläst svenska

Lokal pedagogisk planering i matematik för årskurs 8

912 Läsförståelse och matematik behöver man lära sig läsa matematik?

BRA VIBRATIONER. Namn: Klass: Ett ämnesövergripande område i Bi,Fy,Tk 8a,8b och 8e ht.2012.

Systematiskt kvalitetsarbete

Föräldrabroschyr. Björkhagens skola - en skola med kunskap och hjärta. Vad ska barnen lära sig i skolan?

Avsikt På ett lekfullt sätt färdighetsträna, utveckla elevers känsla för hur vårt talsystem är uppbyggt samt hitta mönster som uppkommer.

VÄRDERINGSÖVNINGAR. Vad är Svenskt?

Nationella prov i årskurs 3 våren 2013

Kriterium Kvalitet 1 Kvalitet 2 Kvalitet 3 Kvalitet 4 Använda, Utveckla och uttrycka

Läroplanen i Gy Ett arbete för att öka förståelsen av det som står i läroplanen och hur det ska tolkas i klassrumsarbetet

TENTAMEN: Design och konstruktion av grafiska gränssnitt DAT215

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Matematik. Bedömningsanvisningar. Vårterminen 2009 ÄMNESPROV. Delprov B ÅRSKURS

Får nyanlända samma chans i den svenska skolan?

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

Begreppet delaktighet inom rättspsykiatrisk vård

Boll-lek om normer. Nyckelord: likabehandling, hbt, normer/stereotyper, skolmiljö. Innehåll

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

Världshandel och industrialisering

Rapport Agilityverksamhetens framtid

För övrigt fullständig överensstämmelse kvalitativt sett för båda proverna. Alla lab som analyserat P-CCP ak på prov 18/D rapporterar ett starkt

Boken om Teknik. Boken om Teknik är en grundbok i Teknik för åk 4 6.

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Stella Nova förskola

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Vad är det att vara en bra brandman? Vad kan man då?

Uppdrag: Huset. Fundera på: Vilka delar i ditt hus samverkar för att elen ska fungera?

Bild Engelska Idrott

Sektionen för Beteendemedicinsk smärtbehandling

Datorövning 2 Statistik med Excel (Office 2007, svenska)

UPPGIFT: SKRIV EN DEBATTARTIKEL

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Fristående förskolor totalt Antal svar samtliga fristående förskolor: 360 (57 %)

Vid ett flertal tillfällen ställde individer frågor till Edgar Cayce om

Skillnaden mellan betygsresultat på nationella prov och ämnesbetyg i årskurs 9, läsåret 2010/11

Presentationsövningar

Väga paket och jämföra priser

EXECUTIVE SUMMARY. Hållbarhet i svenska företag. Demoskop. En sammanfattning av resultat från undersökning om svenska bolag och hållbarhet

Förskolan Vårskogen, Svaleboskogen 7. Plan mot diskriminering och kränkande behandling

3.1 Linjens ekvation med riktningskoefficient. y = kx + l.

När du som vårdpersonal vill ta del av information som finns hos en annan vårdgivare krävs det att:

Bilaga B Kartläggningsmaterial - Litteracitet Samtals- och dokumentationsunderlag avkodning, läsning, läsförståelse och skrivning

Exempel på tidigare tentamen

NO Fysik Åk 4-6. Syfte och mål

MR 5 FRÅN FÖRBUD TILL RÄTTIGHET WORKSHOP I KLASSRUMMET TEMA: MÄNSKLIGA RÄTTIGHETER (MR)

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

Läraren som moderator vid problemlösning i matematik

Introduktion till Open 2012

Skriva B gammalt nationellt prov

Stockholms Tekniska Gymnasium Prov Fysik 2 Mekanik

Träning i bevisföring

Sammanfatta era aktiviteter och effekten av dem i rutorna under punkt 1 på arbetsbladet.

Test Virkesmarknad och Lagerteori

Planering - LPP Fjällen år 5 ht-16

Kvalitativ innehållsanalys

Centralt innehåll år 1-3

3.9 Biologi. Syfte. Grundskolans läroplan Kursplan i ämnet biologi

Statsbidrag för läxhjälp till huvudmän 2016

1. Frekvensfunktionen nedan är given. (3p)

Ämne - Fysik. Ämnets syfte

Kvalitetsrapport Så här går det

Enkätresultat. Enkät: Utvärdering moment 2. Datum: :28:20 Aktiverade deltagare (Klinisk psykologi 1 (22,5hp)) Besvarad av: 27(47) (57%)

Jämförelse länder - Seminarium

Matematiken har alltid funnits omkring

Bedömningsuppgift i geografi och svenska (se kraven och bedömning för svenska längre ned)

4-6 Trianglar Namn:..

Matris för Hem och Konsumentkunskap åk.6 8 Nivå 1 Nivå 2 Nivå 3 Nivå 4

LPP laboration. Förmågor: Centralt innehåll: Kunskapskrav:

En stärkt yrkeshögskola ett lyft för kunskap (Ds 2015:41)

Har vi lösningen för en bättre hemtjänst? Självklart.

Enkätresultat. Enkät om språkanvändningen i utbildningen på KTH. Datum: :32:26

Tillförlitlighetsaspekter på bedömningsinstrument Sammanfattning från workshop den 22 april 2002

Information om högskoleprovet för intygsgivare

Särskilt stöd i grundskolan

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Syftet är att fördjupa diskussionen om vem som ansvarar för vad.

Transkript:

Generalizability and Item Response Theory Tisdagen den 21/9 2010

Dagens agenda Repetition: Sensitivitet och specificitet Övningsuppgift från gårdagen Generalizability theory Kritik mot CTT/TST och lösningen som GT erbjuder Grundpelarna i teorin utifrån ett exempel Item Response Theory Kritik mot CTT/TST och lösningar som IRT erbjuder Grundpelarna i teorin utifrån exempel Tentamen, inkomna frågor och repetiion Petter Gustavsson 21 september 2010 2

Övning i sensitivitet och specificitet Test av MDI i grekisk översättning

Övning Petter Gustavsson 21 september 2010 4

Petter Gustavsson 21 september 2010 5

Data Diagnos enligt referens-test (DSM IV) Ja (1) Nej (0) Diagnos Ja (1) enligt MDI Nej (0) 26 4 30 4 64 68 30 68 Petter Gustavsson 21 september 2010 6

Resultat Sensitivitet= Specificitet= LR+= LR-= Petter Gustavsson 21 september 2010 7

Generalizability Theory (GT) En utveckling av CTT/TST:s perspektiv på reliabilitet och dess estimering

Generalizability theory: G-teorin En utveckling av CTT/TST:s perspektiv på reliabilitet och dess estimering Petter Gustavsson 21 september 2010 9

Teorin med stort T Klassisk Test Teori (KTT) = Classical Test Theory (CTT) = True Score Theory (TST) Allt vi tidigare tagit upp har härletts ur denna teori Från hur ett test ska konstrueras Till hur testpoäng ska göras tolkningsbara Till hur test ska utvärderas Men, hur CTT ser på mätfel har kritiserats Petter Gustavsson 21 september 2010 10

G-teorins kritik mot CTT/TST En okänt antal faktorer är orsaken till felvariansen i våra psykologiska mätningar Till exempel. Petter Gustavsson 21 september 2010 11

G-teorins kritik mot CTT/TST En okänt antal faktorer är orsaken till felvariansen i våra psykologiska mätningar Till exempel. Vilka dessa faktorer är och i vilken utsträckning dessa påverkar reliabiliteten studeras sällan Petter Gustavsson 21 september 2010 12

G-teorins kritik mot CTT/TST En okänt antal faktorer är orsaken till felvariansen i våra psykologiska mätningar Till exempel. Vilka dessa faktorer är och i vilken utsträckning dessa påverkar reliabiliteten studeras sällan Detta leder till att vi inte särskiljer systematiska orsaker till fel från slumpmässiga fel Följden blir att vi inte får adekvat ledning i hur vi ska göra våra mätningar mer reliabla Petter Gustavsson 21 september 2010 13

Lösningen på detta problem (enl G-teorin) Genom att utgå från att man teoretiskt eller praktiskt i förhand kan definiera felkällor särskilt förknippade med mätningen av ett visst fenomen så kan man A. utifrån en experimentell studie av felkällornas betydelse B. särskilja systematiska orsaker till fel från slumpmässiga fel Utifrån resultatet av en sådan studie kan man få uppfattningar om olika felkällors relativa betydelse och få ledning i hur man effektivast minimerar felkällor. Petter Gustavsson 21 september 2010 14

Exempel Låt oss utgå från Generalizability theory och närmare studera mätning av depression enligt HADS Petter Gustavsson 21 september 2010 15

Först, Låt oss igen påminna oss om de aspekter av reliabiltet som vi tidigare tagit upp (med HADS som exempel) Petter Gustavsson 21 september 2010 16

Först, Låt oss igen påminna oss om de aspekter av reliabiltet som vi tidigare tagit upp (med HADS som exempel) Vilka två huvudsakliga typer av empiriska estimat på ett tests reliabilitet (baserade på olika estimeringsmetoder och antaganden) har vi tidigare tagit upp? Petter Gustavsson 21 september 2010 17

Estimat av ett tests reliabilitet utifrån CTT/TST Baserat på upprepning av testet Test-retest eller alternativ form av testet Baserat på testets internera konsistens Upprepade mätningar inom testet Petter Gustavsson 21 september 2010 18

Petter Gustavsson 21 september 2010 19

Petter Gustavsson 21 september 2010 20

Men, Vilka fler källor till fel skulle vi kunna studera (med HADS som exempel) annat än en (osystematisk) studie över tid, eller över ingående item? Petter Gustavsson 21 september 2010 21

Över tid Gör den osystematiska studien av test-retest systematisk Variera systematiskt Petter Gustavsson 21 september 2010 22

Över tid Gör den osystematiska studien av test-retest systematisk Variera systematiskt Tid (morgon-kväll, ett dygn, en vecka) Plats (hemma, väntrum, behandlingsrum) Situation (enskilt vs i närvaro av andra) Petter Gustavsson 21 september 2010 23

Över tid Gör den osystematiska studien av test-retest systematisk Variera systematiskt Tid (morgon-kväll, ett dygn, en vecka) Plats (hemma, väntrum, behandlingsrum) Situation (enskilt vs i närvaro av andra) Konsekvens Systematiska fel som beror på tid, plats och situation kan estimeras och lyftas bort ur estimeringen av slumpmässiga fel Petter Gustavsson 21 september 2010 24

Fler faktorer? Vi har nu systematiserat studien av test-retest och vi har sedan tidigare studiet av intern konsistens. Vilka fler faktorer kan vara värdefulla att studera när det gäller fel i kliniska skattningar? Petter Gustavsson 21 september 2010 25

Faktor: Skattaren Petter Gustavsson 21 september 2010 26

Faktor: Skattaren Patient vs Anhörig Petter Gustavsson 21 september 2010 27

Faktor: Skattaren Patient vs Klinikern Petter Gustavsson 21 september 2010 28

Faktor: Skattaren Kliniker A vs Kliniker B Petter Gustavsson 21 september 2010 29

Inter-rater reliabilitet (jmf med test-retest och interkonsistens) Patient vs Anhörig Patient vs Klinikern Kliniker A vs Kliniker B Petter Gustavsson 21 september 2010 30

Fler faktorer? Vi har systematiserat studien av test-retest och vi har sedan tidigare studiet av intern konsistens. Vi har nu också granskat skattaren som en felkälla. Vilka fler faktorer kan vara värdefulla att studera när det gäller fel i kliniska skattningar? Petter Gustavsson 21 september 2010 31

Faktorn: Populationen Petter Gustavsson 21 september 2010 32

Faktorn: Populationen Population Unga vs gamla Petter Gustavsson 21 september 2010 33

Faktorn: Populationen Population Friska vs sjuka Petter Gustavsson 21 september 2010 34

Faktorn: Populationen Population Sjuka med olika svårighetsgrader Petter Gustavsson 21 september 2010 35

Faktorn: Populationen Population Sjuka med eller utan komorbiditet Petter Gustavsson 21 september 2010 36

Faktorn: Populationen Population och alla kombinationer av dessa (och andra karakteristika) Petter Gustavsson 21 september 2010 37

Summering : Vilka påverkansfaktorer (facets) har vi nu studerat Petter Gustavsson 21 september 2010 38

Påverkansfaktorer (facets): Tid, plats, situation Population (vem som ska bedömas) Skattare (vem som bedömer) Andra faktorer med potentiell inverkan på depressionsskattningar? Petter Gustavsson 21 september 2010 39

Vad är det vi gör här med alla hypotetiska påverkansfaktorer? Petter Gustavsson 21 september 2010 40

Vad är det vi gör här med alla hypotetiska påverkansfaktorer? Vi försöker särskilja systematiska påverkansfaktorer från slumpmässiga Istället för att klumpa ihop alla fel till en felvarianspott, försöker vi särskilja olika källor till fel Petter Gustavsson 21 september 2010 41

Vad är det för forskningsmetodologisk design som finns bakom detta angreppssätt? Petter Gustavsson 21 september 2010 42

Vad är det för forskningsmetodologisk design som finns bakom detta angreppssätt? Experimentell design Petter Gustavsson 21 september 2010 43

Vad är det för statistisk metod som kan användas till att utreda dessa olika faktorers påverkan? Petter Gustavsson 21 september 2010 44

Vad är det för statistisk metod som kan användas till att utreda dessa olika faktorers påverkan? Variansanalys =ANOVA Petter Gustavsson 21 september 2010 45

Vi kan då summera kännetecken för G-teorin Generalizability theory utgår från att en persons testvärden avviker från sanna värden pga skattare, testet, dagsform, testsituationen och en mängd andra systematiska faktorer. Petter Gustavsson 21 september 2010 46

Vi kan då summera kännetecken för G-teorin Generalizability theory utgår från att en persons testvärden avviker från sanna värden pga skattare, testet, dagsform, testsituationen och en mängd andra systematiska faktorer. Generalizability theory tar sin utgångspunkt i en experimentell design för att särskilja systematiska felfaktorer från slumpmässiga felfaktorer Petter Gustavsson 21 september 2010 47

Vi kan då summera kännetecken för G-teorin Generalizability theory utgår från att en persons testvärden avviker från sanna värden pga skattare, testet, dagsform, testsituationen och en mängd andra systematiska faktorer. Generalizability theory tar sin utgångspunkt i en experimentell design för att särskilja systematiska felfaktorer från slumpmässiga felfaktorer Med hjälp av variansanalys (ANOVA) studeras olika felfaktorers relativa påverkan på testresultat Petter Gustavsson 21 september 2010 48

G-teorin bidrag 1. Mer nyanserad bild av felkällor, deras relativa påverkan och konsekvenser för reliabilitet G-studien: Experimintell och Variansanalytisk (ANOVA) ansats Estimerar olika källors bidrag till fel: Items = Intern konsistens skattare = interrater reliabilitet tilfällen och tid= test-retest reliabilitet 2. G-studier skapar underlag för informerade beslut om insatser för att stärka reliabiliteten Petter Gustavsson 21 september 2010 49

Item response theory Ett helt annat perspektiv på konstruktionen och utvärderingen av psykologiska instrument Petter Gustavsson 21 september 2010 50

IRT:s kritik mot CTT/TST Ser verkligen alla psykologiska fenomen ut på det sättet att man alltid kan mäta dem genom upprepade observationer/item så att alla indikatorer replikerar samma fördelning? alla indikatorer reflekterar samma svårighetsgrad? Varför skulle man inte kunna utgå från att item reflekterar olika svårighetsgrader och nyttja denna information? Petter Gustavsson 21 september 2010 51

IRT:s kritik mot CTT/TST Ett kritiskt tankeexperiment: Hur skulle ett test av matematisk kompetens utformas och utvärderas utifrån ett klassiskt test teoretiskt perspektiv? Ex Standardprov i matematik i årskurs 9 Petter Gustavsson 21 september 2010 52

Knäckfrågan för IRT: Hur operationaliserar man ett : hierarkiskt fenomen, eller ett fenomen som kan ses som en process, eller ett fenomen som kan karakteriseras utifrån olika svårighetsgrader Petter Gustavsson 21 september 2010 53

Item response theory: ett alternativ till CTT Tar sin utgångspunkt i kritik mot flera av den klassiska testteorins antaganden CTT:s utgångspunkt om item/testuppgifter som närmast identiska upprepade mätningar (reproduceringar/replikationer) skapar otillfredställande operationaliseringar av hiearkiska fenomen och processer. IRT pekar på CTT:s miss av att item kan representera olika grader av ett fenomen kan resultera i felaktiga slutsatser IRT föreslår att man utgår från att item representerar olika svårighetsgrader och föreslår en annan metod för att utvärdera dimensionalitet (intern struktur) Petter Gustavsson 21 september 2010 54

forts Ett test har enligt CTT en reliabilitet som gäller över hela poängskalan. Detta leder till att vi tänker oss att vi har samma nivå av mätfel både bland de som skattar lågt respektive skattar högt på ett test. Tveksamt antagande som inte går att pröva. IRT utgår från att detta inte är fallet och föreslår metodik för att beskriva hur reliabiliteten varierar. Petter Gustavsson 21 september 2010 55

Konsekvens: CTT och IRT har olika synsätt på hur operationaliseringar ska göras Petter Gustavsson 21 september 2010 56

Operationalisering enligt CTT (TST) X Ja, ofta X X X Ja, Ibland X Sällan Nej, aldrig T O1 O2 O3 O4 O5 Petter Gustavsson 21 september 2010 57

Operationalisering enligt IRT Petter Gustavsson 21 september 2010 58

Operationalisering enligt IRT: Hierarki av indikatorer Petter Gustavsson 21 september 2010 59

Grudläggande skillnader: TST vs IRT Parallell reproducering av latent variabel Indikatorerna ska ordna individerna enligt samma mönster Fördelning Korrelation Hierarkisk reproducering av latent variabel Individerna ska konsekvent ordna indikatorerna hierarkiskt Indikatorerna ska ordna individerna hierarkiskt Petter Gustavsson 21 september 2010 60

IRT: utgår från en matematisk mätmodell Petter Gustavsson 21 september 2010 61

IRT-modellen (som formel) Petter Gustavsson 21 september 2010 62

IRT-modellen (som formel) Sannolikheten att jag ska klara en viss testuppgift på matteprovet Petter Gustavsson 21 september 2010 63

IRT-modellen (som formel) Beror på hur duktig jag är på matte (min förmåga) Sannolikheten att jag ska klara en viss testuppgift på matteprovet Petter Gustavsson 21 september 2010 64

IRT-modellen (som formel) Beror på hur duktig jag är på matte (min förmåga) Sannolikheten att jag ska klara en viss testuppgift på matteprovet Och hur svår en matteuppgift är (frågans svårighetsgrad) Petter Gustavsson 21 september 2010 65

IRT-modellen (som formel) Och dessa parametrars samband kan ses som en logaritmisk funktion Petter Gustavsson 21 september 2010 66

IRT-modellen (som graf) Petter Gustavsson 21 september 2010 67

IRT-modellen (item med olika svårighetsgrader) Petter Gustavsson 21 september 2010 68

IRT-modellen Har alltså en modell för hur items svårighetsgrader skulle kunna utgöra grunden för psykologiska mätningar Petter Gustavsson 21 september 2010 69

Exempel Petter Gustavsson & Ann Rudman 21 september 2010 70

Early career burnout a process model Petter Gustavsson & Ann Rudman 21 september 2010 71

Early career burnout A one-dimensional developmental conceptualization (from an IRT perspective) Pressured Frustrated Burned out Olika item/indikatorer Petter Gustavsson 21 september 2010 72

Operationalisering uttryck i IRT-modellen Pressured Frustrated Burned out Petter Gustavsson 21 september 2010 73

Utvärderingen av operationaliseringen Förväntade värden utifrån att den föreslagna mätmodellen är en adekvat modell (IRT-modellen) jämförs med observerade värden (empirin): Petter Gustavsson 21 september 2010 74

Utvärderingen av operationaliseringen Förväntade värden utifrån att den föreslagna mätmodellen är en adekvat modell (IRT-modellen) jämförs med observerade värden (empirin): Residualerna granskas så att man kan Utvärdera om item passar modellen Har item konsekvent ordnat personerna hiearkiskt Personerna passar modellen Har individerna konsekvent ordnat indikatorerna hierarkiskt Konsekvens: Både avvikande item och personer kan närmare granskas för att bättre förstå problem i mätningen. Petter Gustavsson 21 september 2010 75

Förväntade och observerade värden studeras grafiskt: Petter Gustavsson 21 september 2010 76

Petter Gustavsson 21 september 2010 77

Förväntade och observerade värden prövas statistiskt: Petter Gustavsson 21 september 2010 78

Petter Gustavsson 21 september 2010 79

Konsekvens av en IRT ansats Då operationaliseringen avspeglar olika svårighetsgrader så kan den empiriska mätningen komma att vara av högre kvalitet vid olika nivåer av fenomenet Tänk på det antal uppgifter som kan behövas för att särskilja bland de med lägst (eller högst) förmåga/svårighetsgrader Petter Gustavsson 21 september 2010 80

Konsekvens av en IRT ansats Då operationaliseringen avspeglar olika svårighetsgrader så kan den empiriska mätningen komma att vara av högre kvalitet vid olika nivåer av fenomenet Tänk på det antal uppgifter som kan behövas för att särskilja bland de med lägst (eller högst) förmåga/svårighetsgrader Konsekvens: reliabiliteten kommer att variera längs med den uppmätta dimensionen En reliabilitetskoefficient är inte nog för att beskriva testets reliabilitet! Petter Gustavsson 21 september 2010 81

Petter Gustavsson 21 september 2010 82

Petter Gustavsson 21 september 2010 83

Konsekvens av en IRT ansats Då operationaliseringen avspeglar olika svårighetsgrader så kan den empiriska mätningen komma att vara av högre kvalitet vid olika nivåer av fenomenet Petter Gustavsson 21 september 2010 84

Konsekvens av en IRT ansats Då operationaliseringen avspeglar olika svårighetsgrader så kan den empiriska mätningen komma att vara av högre kvalitet vid olika nivåer av fenomenet Denna insikt kan användas i testsituationen: Anpassa testuppgifter till testpersonens nivå Inom ett test ges/presenteras endast de uppgifter/item som är relevanta för individens nivå En automatiserad process där datorn stegvis söker efter personens rätta nivå Petter Gustavsson 21 september 2010 85

Konsekvens av en IRT ansats Då operationaliseringen avspeglar olika svårighetsgrader så kan den empiriska mätningen komma att vara av högre kvalitet vid olika nivåer av fenomenet Denna insikt kan användas i testsituationen: Anpassa testuppgifter till testpersonens nivå Inom ett test ges/presenteras endast de uppgifter/item som är relevanta för individens nivå En automatiserad process där datorn stegvis söker efter personens rätta nivå Konsekvensen blir att testpersoner inte testas på alla item/testuppgifter i ett instrument = inte testas med samma uppgifter från ett instrument. Instrument blir testbanker Petter Gustavsson 21 september 2010 86

Sammanfattning: TST vs IRT Parallell reproducering av latent variabel Indikatorerna ska ordna individerna enligt samma mönster Fördelning Korrelation Hierarkisk reproducering av latent variabel Individerna ska konsekvent ordna indikatorerna hierarkiskt Indikatorerna ska ordna individerna hierarkiskt Petter Gustavsson 21 september 2010 87

Sammanfattning: TST vs IRT Parallell reproducering av latent variabel Indikatorerna ska ordna individerna enligt samma mönster Fördelning Korrelation Reliabilitet bestäms för hela testet, samma över hela dimensionen Testpoäng bestäms av resultat på alla indikatorer Hierarkisk reproducering av latent variabel Individerna ska konsekvent ordna indikatorerna hierarkiskt Indikatorerna ska ordna individerna hierarkiskt Reliabilitet varierar över dimensionen, bestäms för olika nivåer Testpoäng bestäms av resultat på de indikatorer som använts Petter Gustavsson 21 september 2010 88

Tentamen

Hur kommer tentamen att se ut? Petter Gustavsson 21 september 2010 90

Ta med till tentan: Petter Gustavsson 21 september 2010 91

Snabbrepetition utifrån lärandemålen

Operationaliserade lärandemål: Kunna redogöra för ett instruments beståndsdelar och relatera till den test teoretiska bakgrunden till varför test är uppbyggda på detta sätt. Petter Gustavsson 21 september 2010 93

Operationaliserade lärandemål: Kunna redogöra för ett instruments beståndsdelar och relatera till den test teoretiska bakgrunden till varför test är uppbyggda på detta sätt. Kunna redogöra för den klassiska test teorins grundläggande antaganden om kvantifiering/skalning, upprepade mätningar, dimensionalitet, och tolkning av testpoäng genom normering eller kriterier. Petter Gustavsson 21 september 2010 94

Operationaliserade lärandemål: Kunna redogöra för ett instruments beståndsdelar och relatera till den test teoretiska bakgrunden till varför test är uppbyggda på detta sätt. Kunna redogöra för den klassiska test teorins grundläggande antaganden om kvantifiering/skalning, upprepade mätningar, dimensionalitet, och tolkning av testpoäng genom normering eller kriterier. Förstå kopplingen mellan test poäng och standardiserade /normerade poäng och att via normalfördelningen göra översättningar mellan Z-poäng, T-värden, Kumulativ procent och Percentiler. Petter Gustavsson 21 september 2010 95

(forts.) Operationaliserade lärandemål: Förstå och använda begreppen sensitivitet och specificitet i sammanhang där man utvärderar definierade kriteriepoäng som underlag för tolkning av testpoäng. Petter Gustavsson 21 september 2010 96

(forts.) Operationaliserade lärandemål: Förstå och använda begreppen sensitivitet och specificitet i sammanhang där man utvärderar definierade kriteriepoäng som underlag för tolkning av testpoäng. Kunna reflektera kring kvalitetsaspekter av normering och kriteriebestämning och konsekvenser för tolkningen av testpoäng. Petter Gustavsson 21 september 2010 97

(forts.) Operationaliserade lärandemål: Förstå och använda begreppen sensitivitet och specificitet i sammanhang där man utvärderar definierade kriteriepoäng som underlag för tolkning av testpoäng. Kunna reflektera kring kvalitetsaspekter av normering och kriteriebestämning och konsekvenser för tolkningen av testpoäng. Kunna redogöra för de fem olika typerna av validitetsevidens och kunna klassificera och tolka empiriska studier efter deras potentiella bidrag till validitetsevidens. Beskriva hur G-teorin är en utveckling av den klassiska testteorins defintion av reliabilitet, samt beskriva hur IRT avviker från dessa teorier utifrån sin syn på reliabilitet. Petter Gustavsson 21 september 2010 98

(forts.) Operationaliserade lärandemål: Kunna redogöra för en reliabilitetsdefinition och antaganden man behöver göra för att estimera reliabilitet. Petter Gustavsson 21 september 2010 99

(forts.) Operationaliserade lärandemål: Kunna redogöra för en reliabilitetsdefinition och antaganden man behöver göra för att estimera reliabilitet. Kunna redogöra för och tolka olika reliabilitetsestimat samt förstå skillnaden på reliabilitesestimat på test och individnivå (och hur dessa är länkade). Petter Gustavsson 21 september 2010 100

(forts.) Operationaliserade lärandemål: Kunna redogöra för en reliabilitetsdefinition och antaganden man behöver göra för att estimera reliabilitet. Kunna redogöra för och tolka olika reliabilitetsestimat samt förstå skillnaden på reliabilitesestimat på test och individnivå (och hur dessa är länkade). Beskriva faktorer som påverkar reliabilitestestimat och beskriva konsekvenser av reliabilitetsbrister för psykologisk forskning. Petter Gustavsson 21 september 2010 101

(forts.) Operationaliserade lärandemål: Beskriva de olika momenten i regressions och faktoranalyser. Petter Gustavsson 21 september 2010 102

(forts.) Operationaliserade lärandemål: Beskriva de olika momenten i regressions och faktoranalyser. Kunna tolka korrelations, regressions och faktoranalyser. Redogöra för hur dessa analyser används inom psykometri för att utreda reliabilitet och validitet. Petter Gustavsson 21 september 2010 103

(forts.) Operationaliserade lärandemål: Beskriva de olika momenten i regressions och faktoranalyser. Kunna tolka korrelations, regressions och faktoranalyser. Redogöra för hur dessa analyser används inom psykometri för att utreda reliabilitet och validitet. Föreslå vilka metoder ska användas i studier för prövning av instrument. Petter Gustavsson 21 september 2010 104

(forts.) Operationaliserade lärandemål: Beskriva de olika momenten i regressions och faktoranalyser. Kunna tolka korrelations, regressions och faktoranalyser. Redogöra för hur dessa analyser används inom psykometri för att utreda reliabilitet och validitet. Föreslå vilka metoder ska användas i studier för prövning av instrument. Tolka studier som använt dessa metoder för att utvärdera psykometriska kvaliteter Petter Gustavsson 21 september 2010 105

(forts.) Operationaliserade lärandemål: Kunna utföra item-analyser, homogenitets, och faktoranalyser för att uttala sig om ett instruments styrkor och svagheter. Petter Gustavsson 21 september 2010 106

(forts.) Operationaliserade lärandemål: Kunna utföra item-analyser, homogenitets, och faktoranalyser för att uttala sig om ett instruments styrkor och svagheter. Läsa och värdera och diskutera psykometriska utvärderingar Petter Gustavsson 21 september 2010 107

petter.gustavsson@ki.se 08-5248 3659

Moment II: Personlighet och intelligens Petter Gustavsson 21 september 2010 109

Upplägg: Momentansvarig: Petter Första veckan: Intelligens (Bo Melin) Se Bos grejer på kurswebb Andra veckan: Femfaktorsmodellen Social-kognitiva (och andra) modeller på personlighetsdrag Tredjeveckan: Integration, studenterna föreläser, forskarbesök och examination Petter Gustavsson 21 september 2010 110

Inkomna frågor

Inkomna frågor Vad är: Validity evidence: Consequences of Testing? Petter Gustavsson 21 september 2010 112

Inkomna frågor Vad är: Validity evidence: Consequences of Testing? Omdiskuterat och inte klart definierat En falang anser att fairness är nyckelordet Evidens för att test inte är biased för någon grupp behöver tas fram Metoder för detta beskrivs i kapitel 11. I princip handlar det om att bevisa att personer (tillhörande olika grupper) som har samma sanna värden (true scores) inte får olika testpoäng pga att specifika item missgynnar eller missförstås konsekvent av medlemmar i en av grupperna. EX: Depressionsmätningar bland etniska grupper i USA. Petter Gustavsson 21 september 2010 113

Inkomna frågor Först undrar vi om det är några formler vi ska kunna utantill (förutom att vi ska kunna en definition på reliabilitet)? Är det några formler vi ska kunna använda som finns på formelblad? Kommer det att vara räkneuppgifter på tentan? Petter Gustavsson 21 september 2010 114

Inkomna frågor Först undrar vi om det är några formler vi ska kunna utantill (förutom att vi ska kunna en definition på reliabilitet)? Vad är och vad är inte en formel? Förslag? Är det några formler vi ska kunna använda som finns på formelblad? Alla formler med grund i klassiskt test teori som vi tagit upp i undervisningen (som funnits på power-point presentationer ska ni kunna känna igen, använda och tolka). I den utsträckning frågor kommer som berör dessa formler så kommer de finnas med i tryck på tentan. Kommer det att vara räkneuppgifter på tentan? Ja. Se kursmålen och de operationaliserade kursmålen (samt instuderingsuppgifter. Petter Gustavsson 21 september 2010 115

Mer frågor Sedan undrar vi om det vi har lärt oss på datorsalsövningarna i SPSS. Kommer det även att testas på tentan, t ex genom att vi ska kunna tolka SPSS-output eller behandlas SPSS inte alls på tentan? Petter Gustavsson 21 september 2010 116

förklaring av följande begrepp: Observerade Vs sanna korrelationer Sperman brown item analys Restriction of range Petter Gustavsson 21 september 2010 117

förklaring av följande begrepp: Observerade Vs sanna korrelationer Reliabilitetens konsekvenser på empiriska korrelationer. Om vi inte har perfekt reliabilitet i observerade variabler så kommer inte en sann korrelation på 1.0 kunna beläggas empiriskt. Petter Gustavsson 21 september 2010 118

Reliabilitetsnivåernas konsekvenser En korrelation mellan två mätningar torde enligt klassisk test teori bestämmas av Den egentliga korrelationen mellan mätningarnas sanna värden Båda mätningarnas respektive reliabilitet Konsekvens: reliabiliteten i en eller båda mätningarna påverkar taket för hur hög en korrelation kan bli (vad händer om vi säger att den sanna korrelationen är 1?) Hur påverkar detta hur vi tolkar resultat i artiklar? Petter Gustavsson 21 september 2010 119

förklaring av följande begrepp: Observerade Vs sanna korrelationer Sperman brown item analys Restriction of range Petter Gustavsson 21 september 2010 120

förklaring av följande begrepp: Spearman Brown (SB-profetian) Petter Gustavsson 21 september 2010 121

The prophecy formula: Petter Gustavsson 21 september 2010 122

Petter Gustavsson 21 september 2010 123

förklaring av följande begrepp: Observerade Vs sanna korrelationer Sperman brown item analys Restriction of range Petter Gustavsson 21 september 2010 124

förklaring av följande begrepp: item analys Petter Gustavsson 21 september 2010 125

förklaring av följande begrepp: Item analys: Ett samlingsnamn för metoder med syfte att utvärdera ett tests kvaliteter. De metoderna är vanligtvis Metoder för att utvärdera om item har samma fördelning/svårighetsgrad Metoder för att utvärdera hur enskillda item relaterar till hela instrumenetet: Corrected item total correlations (item other scale correlations) Scale mean if item deleated Scale variance if item deleated Cronbach s alpha if item deleated Petter Gustavsson 21 september 2010 126

förklaring av följande begrepp: Observerade Vs sanna korrelationer Sperman brown item analys Restriction of range Petter Gustavsson 21 september 2010 127

förklaring av följande begrepp: Restriction of range: Vad blir konsekvensen för korrelationsberäkningar om vi inte mäter upp alla variation som finns? Vad får tak och golveffekter i våra mätningar för korrelationsestimaten? Petter Gustavsson 21 september 2010 128

r=0,61 r=0,60 r=0,55 Petter Gustavsson 21 september 2010 129

Inkomna frågor Vad är diskrimenant och konvergent testning? Vad är validitetskoefficienten? Vad åsyftas med frågan: Vilka faktorer påverkar hur stor en korrelation kan bli? Vad exakt är faktorladdningar? vilken statistik vilar alla psykometriska applikationer på? Är det korrelationer? Är det samma sak för faktoranalys? Vad är factor extraction? Är reggressionsvikt (riktningskoefficient) - samma sak som lutningen, dvs b? Petter Gustavsson 21 september 2010 130

Inkomna frågor Vad är diskrimenant och konvergent testning? Metodik för att ta fram Validietsevidens-baserat på associationer mellan teoretiskt relevanta (och irrelevanta variabler) Hypotes: Variabler som mäter teoretiskt liknande saker eller där prediktioner går att göra utifrån teori Hypotes: Variabler som mäter olika saker eller där teori säger att inte ska vara relaterade Petter Gustavsson 21 september 2010 131

Inkomna frågor Vad är diskrimenant och konvergent testning? Metodik för att ta fram Validietsevidens-baserat på associationer mellan teoretiskt relevanta (och irrelevanta variabler) Hypotes: Variabler som mäter teoretiskt liknande saker eller där prediktioner går att göra utifrån teori Resultaten konvergerar Hypotes: Variabler som mäter olika saker eller där teori säger att inte ska vara relaterade Resultatet divergerar Petter Gustavsson 21 september 2010 132

Inkomna frågor Vad är diskrimenant och konvergent testning? Vad är validitetskoefficienten? Vad åsyftas med frågan: Vilka faktorer påverkar hur stor en korrelation kan bli? Vad exakt är faktorladdningar? vilken statistik vilar alla psykometriska applikationer på? Är det korrelationer? Är det samma sak för faktoranalys? Vad är factor extraction? Är reggressionsvikt (riktningskoefficient) - samma sak som lutningen, dvs b? Petter Gustavsson 21 september 2010 133

Inkomna frågor Vad är validitetskoefficienten? Resultatet av en validitetsprövning (oftast i samband med prövning av vlaiditetsevidens baserat på relationer mellan variabler. Ofta en korrelation beräknad utifrån hypoteser ställda för att ta fram evidens baserade på associationer mellan variabler.. Beroende på hypotesen och hur man metodlogiskt gått tillväga för att pröva hypotesen så kan det vara annat än korrelationer. Regessionsvikt Effektstorlek etc Petter Gustavsson 21 september 2010 134

Inkomna frågor Vad är diskrimenant och konvergent testning? Vad är validitetskoefficienten? Vad åsyftas med frågan: Vilka faktorer påverkar hur stor en korrelation kan bli? Vad exakt är faktorladdningar? vilken statistik vilar alla psykometriska applikationer på? Är det korrelationer? Är det samma sak för faktoranalys? Vad är factor extraction? Är reggressionsvikt (riktningskoefficient) - samma sak som lutningen, dvs b? Petter Gustavsson 21 september 2010 135

Inkomna frågor Vad åsyftas med frågan: Vilka faktorer påverkar hur stor en korrelation kan bli? vilken statistik vilar alla psykometriska applikationer på? Är det korrelationer? Är det samma sak för faktoranalys? Petter Gustavsson 21 september 2010 136

Inkomna frågor Vad är diskrimenant och konvergent testning? Vad är validitetskoefficienten? Vad åsyftas med frågan: Vilka faktorer påverkar hur stor en korrelation kan bli? Vad exakt är faktorladdningar? vilken statistik vilar alla psykometriska applikationer på? Är det korrelationer? Är det samma sak för faktoranalys? Vad är factor extraction? Är reggressionsvikt (riktningskoefficient) - samma sak som lutningen, dvs b? Petter Gustavsson 21 september 2010 137

Inkomna frågor Vad exakt är faktorladdningar? Vad är factor extraction? Petter Gustavsson 21 september 2010 138

Inkomna frågor Vad exakt är faktorladdningar? Sambandsmått för relationen mellan faktor och item. Kan tolkas som en korrelation (-1, 0, 1) Vad är factor extraction? Det moment i faktoranalysen som går ut på att välja antal faktorer som skall analyseras. Petter Gustavsson 21 september 2010 139

Inkomna frågor Vad exakt är faktorladdningar? Sambandsmått för relationen mellan faktor och item. Kan tolkas som en korrelation (-1, 0, 1) Vad är factor extraction? Det moment i faktoranalysen som går ut på att välja antal faktorer som skall analyseras. Vilka är de andra momenten? Petter Gustavsson 21 september 2010 140

Inkomna frågor Är reggressionsvikt (riktningskoefficient) - samma sak som lutningen, dvs b? Petter Gustavsson 21 september 2010 141

Inkomna frågor Vi undrar också vad alternativ testreliabilitet är eftersom det står olika definitioner på den (sid 105 och 107 - första och sista meningen), då de dels säger att det är parallellt och sedan säger dem att det inte behöver vara parallellt. Petter Gustavsson 21 september 2010 142

Inkomna frågor Vi undrar också vad alternativ testreliabilitet är eftersom det står olika definitioner på den (sid 105 och 107 - första och sista meningen), då de dels säger att det är parallellt och sedan säger dem att det inte behöver vara parallellt. Kanske hamnade vi fel när vi diskuterade frågan. Petter går tillbaka till boken för att förstå frågan och återkommer med en separat presentation av svar på kurswebb. Glöm vad Petter så om antagandena och återkom senare för korrekta svar. Stryk snurret för det blev en ihopblanding av de olika antagandena! Tack till Martin O, Martin R, Niklas L mfl för att ni uppmärksammade Petter på att han blandade ihop antagandena. Petter Gustavsson 21 september 2010 143

Frågesport! Är intern konsistens det samma som intern struktur? Är testets homogentitet det samma som testets dimensionalitet? Är intern konsistens och homogenitet ungefär samma sak? Är intern struktur ungefär samma sak som testets dimensionalitet? Petter Gustavsson 21 september 2010 144

Inkomna frågor vi undrar också över attenuation, det är väl att den observerade korrelationen blir lägre än den sanna? Petter Gustavsson 21 september 2010 145

Inkomna frågor Vi undrar också vad alternativ testreliabilitet är eftersom det står olika definitioner på den (sid 105 och 107 - första och sista meningen), då de dels säger att det är parallellt och sedan säger dem att det inte behöver vara parallellt. vi undrar också över attenuation, det är väl att den observerade korrelationen blir lägre än den sanna? när det gäller intern konsistens, så överestimeras alltid korrelationerna (förutom alpha som underestimerar) - hur hänger det ihop?? bygger split half och cronbachs alpha på tau-ekvivalens? Petter Gustavsson 21 september 2010 146

Inkomna frågor när det gäller intern konsistens, så överestimeras alltid korrelationerna (förutom alpha som underestimerar) - hur hänger det ihop? Petter Gustavsson 21 september 2010 147

Mera frågor Skillnad mellan standardisering och normering Petter Gustavsson 21 september 2010 148

Mera frågor Skillnad mellan ett tests homogentiet och dess dimensionalitet Petter Gustavsson 21 september 2010 149

Mera? Petter Gustavsson 21 september 2010 150

petter.gustavsson@ki.se 08-5248 3659