ABSTRACT The main goal of TIMSS was to measure student achievement in school subjects as mathematics and science in different countries. The purpose of this technical report is to describe the sampling and measuring process used in Sweden for estimating student achievement. A two-stage stratified cluster sample design was used for sampling students from the population of all students enrolled in their final year of secondary education. The first stage consisted in sampling of schools and the second stage sampling of classrooms and students. The items administered to the students were divided into nine different booklets. Every student got one of these booklets. As the items in a booklet were not equal in number or difficulty, Rash scores and Plausible values were calculated for estimating and comparing student achievements in different countries and in different subgroups.
1. INLEDNING Syftet med denna rapport är att beskriva den urvals- och mätprocess samt de resultatvariabler som används i TIMSS för att undersöka och jämföra elevprestationer i gymnasieskolans samtliga avgångsklasser. Urvalsprocessen bestod av val av skolor, klasser och elever samt val av vilka provuppgifter de utvalda eleverna skulle besvara. Hur dessa val utförts beskrivs i avsnitten 2.1 och 2.2. Syftet med urvalsdesignen är att med hjälp av de utvalda elevernas resultat kunna göra generaliseringar till hela populationen av elever och att göra jämförelser mellan olika delpopulationer av elever. För att utföra generaliseringar krävs att elevresultaten viktas. Hur denna viktning utförts presenteras i avsnitt 2.3. Det enklaste sättet att jämföra elevprestationer är att alla elever tilldelas samma prov och att provuppgifterna speglar de aspekter man vill mäta. Ett sådant prov skulle för TIMSS syften innehålla alltför många uppgifter för att eleverna under en rimlig tid skulle kunna hinna lösa dem. Det var därför nödvändigt att dela upp provet på provhäften med ett mindre antal uppgifter. För att ändå kunna täcka alla möjliga aspekter innehöll dessa provhäften olika uppgifter. Den metod som användes för mätning av elevprestationer baseras på Rash modell och tar hänsyn till att eleverna tilldelats olika prov med olika svårighetsgrad. I avsnitt 3 beskrivs hur Rash modell använts för att mäta elevprestationer och hur nationell rashpoäng beräknats. Plausible values användes för skattningar av den genomsnittliga elevprestationen i landet och för jämförelser mellan olika länder samt mellan olika tidsperioder. Internationell rashpoäng beräknades utifrån dessa plausible values. I avsnitt 4 beskrivs hur plausible values och internationell rashpoäng beräknats. I avsnitt 5 beskrivs resultatvariablerna procent rätt, nationell rashpoäng och internationell rashpoäng samt deras användningsområden. 1
2. URVALSDESIGN TIMSS undersökning gäller elever i gymnasieskolans samtliga avgångsklasser, omfattande elever i yrkesutbildning samt studieförberedande och allmänt inriktad utbildning. Eleverna indelades i tre undersökningsgrupper: elever i samtliga avgångsklasser, matematikgruppen samt fysikgruppen. För en närmare beskrivning av undersökningsgrupperna hänvisas till Skolverket, 1998, kapitel 2. Syftet med TIMSS urvalsdesign var att åstadkomma tillräcklig precision vid skattning av elevprestationer i hela populationen men även i vissa delpopulationer, t ex matematik- och fysikgruppen, samt att representera olika delar av populationen på ett lämpligt sätt (Martin & Kelly, 1996). Kvaliteten på ett lands undersökning beror på hur väl man följt denna urvalsdesign. TIMSS krav på precision i skattningarna av huvudparametrarna (t ex populationsmedelvärde, procent och korrelationer) var att stickproven skulle ge ett urvalsfel som var mindre än det man får vid ett slumpmässigt urval av 400 elever och att minst 150 skolor ingick i urvalet (Martin & Kelly, 1996). Dessutom krävdes att minst 85% av de utvalda skolorna respektive eleverna deltog i studien. Om detta krav inte uppfylldes krävdes att andelen deltagande skolor multiplicerat med andelen deltagande elever var minst 75%. Till exempel: om 95% av de utvalda skolorna deltog krävdes att minst 79% av de utvalda eleverna vid dessa skolor deltog. Sverige uppfyllde alla TIMSS kvalitetskrav. De länder som deltog i TIMSS delades in i tre grupper beroende på i vilken utsträckning som respektive land uppfyllt kvalitetskraven. 1. De länder som klarat alla TIMSS kvalitetskrav. 2. De länder som följt TIMSS urvalsplan men inte uppfyllt kravet på deltagande elever och skolor. 3. De länder som inte följt TIMSS urvalsplan i alla steg. Ett stort bortfall kan snedvrida resultatet och studiens kvalitet är då beroende av hur bortfallet ser ut. Om bortfallet huvudsakligen beror på att elever med låg prestationsförmåga avstått från att delta i proven kommer skattningarna av elevprestationerna i landet att vara alltför 2
höga. Genom en bortfallsanalys kan man uppskatta hur stor snedvridningen kan tänkas vara. Ju större bortfall desto lägre blir precisionen i skattningarna. De länder som uppfyller alla TIMSS kvalitetskrav uppfyller kraven på precision i skattningarna. För dessa länder är det inte nödvändigt med en bortfallsanalys. Vissa länder har valt avvikande urvalsplaner vilket gör att jämförelser med övriga länder försvåras. Speciellt gäller detta om man inte följt anvisningarna om sannolikhetsurval, t ex om deltagande skolor inte valts slumpmässigt utan utifrån andra kriterier. Sannolikhetsurval görs för att resultatet från ett urval skall kunna generaliseras till hela populationen, eller delar av den. Vid andra typer av urval går inte sådana generaliseringar att göra utan man kan endast uttala sig om de elever som deltagit i studien. 2.1 Urval av elever Den urvalsdesign som användes i TIMSS för valet av elever kallas stratifierat klusterurval i flera steg. I Sverige har urvalet av elever skett på följande sätt: I första steget bestämdes vilka gymnasieskolor som skulle ingå i urvalet. Sannolikheten för att en skola skulle väljas var proportionell mot det uppskattade antalet elever i denna skola. Detta innebar att en gymnasieskola med många elever i avgångsklasser hade större chans att bli utvald än en skola med få elever. I andra steget bestämdes vilka elever som skulle ingå i urvalet. Avgångsklasserna i de utvalda skolor delades in i två grupper. I grupp 1 ingick alla avgångsklasser utom klasser med naturvetenskaplig eller teknisk inriktning och i grupp 2 ingick klasser med naturvetenskaplig eller teknisk inriktning. På varje skola valdes slumpmässigt 20 elever från grupp 1, proportionellt fördelade på olika linjer och program. På varje utvald skola där det fanns avgångsklasser i grupp 2 valdes slumpmässigt en klass ur denna grupp. Alla elever i denna klass ingick i undersökningen. Ovanstående sätt att utföra urvalet innebar att sannolikheten för att en elev skulle ingå i undersökningen var olika för olika skolor och även olika för elever tillhörande grupp 1 respektive grupp 2. För en elev i 3
en stor skola var sannolikheten att bli utvald mindre än vid en liten skola. Å andra sidan var sannolikheten för en stor skola att bli vald större än för en liten skola. Sannolikheten för en enskild elev att bli vald var därför produkten mellan sannolikheten att skolan valdes och sannolikheten att eleven vid denna skola valdes. 2.2 Urval av uppgifter Varje elev tilldelades ett provhäfte med uppgifter. Innehållet i provhäftet varierade beroende på vilken undersökningsgrupp eleven tillhörde. I undersökningsgruppen; elever i samtliga avgångsklasser, ingick förutom elever i grupp 1, ett slumpmässigt urval av elever ur grupp 2. Av denna undersökningsgrupp var 20% från klasser med teknisk eller naturvetenskaplig inriktning. I undersökningsgrupperna: matematikgruppen och fysikgruppen, ingick endast elever ur grupp 2. Nio olika provhäften delades ut till de utvalda eleverna. Två av dessa tilldelades undersökningsgruppen: elever i samtliga avgångsklasser, tre tilldelades fysikgruppen och tre tilldelades matematikgruppen. Det nionde häftet, som innehöll uppgifter från alla övriga provhäften, gavs till elever i matematik- och fysikgruppen (Martin & Kelly, 1996). De olika provhäftena fördelades slumpmässigt inom undersökningsgrupperna. För beskrivning av innehållet i dessa provhäften hänvisas till Skolverket, 1998, kapitel 2. De nio provhäftena innehöll olika många uppgifter med olika svårighetsgrad. Detta innebar att antalet rätt svar per häfte endast kunde användas för att jämföra prestationerna för de elever som erhållit samma prov. Tidigare undersökningar har innehållit fler uppgifter per elev och fler gemensamma uppgifter, t ex TIMMS undersökning av 13- åringars kunskaper (Martin & Kelly, 1996). Enkla jämförelser mellan elevprestationer kunde då göras även för elever som tilldelats olika häften. 2.3 Viktning av poäng På grund av urvalsdesignen var sannolikheten att en enskild elev skulle bli vald olika vid olika skolor och för olika inriktningar. Dessutom var sannolikheten att en enskild elev skulle erhålla ett givet 4
provhäfte olika beroende på om eleven ingick i undersökningsgruppen: elever i samtliga avgångsklasser eller i matematik- eller fysikgruppen. Detta innebar att vid uttalande om alla elevers prestationer i populationen, t ex genomsnittligt procent rätt per prov, måste man ta hänsyn till dessa sannolikheter. De elever som ingick i urvalet representerade olika antal elever i populationen. Dessa olikheter anges av elevens urvalsvikt. Denna vikt beräknas genom nedanstående formel: TOTWGTx=WGTFAC1*WGTADJ1*WGTFAC2* WGTADJ2*WGTFAC3*WGTADJ3* WGTADJx där TOTWGTx = elevens totala urvalsvikt. WGTFAC1 = viktfaktor 1 (skolvikten) är inversen till urvalssannolikheten för gymnasieskolan som eleven gick i. WGTADJ1 = viktjustering 1 justerar urvalsvikten för bortfall av skolor. WGTFAC2 = viktfaktor 2 (klassvikten) är inversen till urvalssannolikheten inom skolan för elevens klass. I grupp 1 är viktfaktor 2 lika med ett eftersom man i denna grupp väljer elever och inte klasser. WGTADJ2 = viktjustering 2 justerar urvalsvikten för bortfall av klasser. WGTFAC3 = viktfaktor 3 (elevvikten) är inversen till urvalssannolikheten för eleven i klassen. För grupp 1 är detta urvalssannolikheten för eleven i skolan. WGTADJ3 = justeringsvikt 3 justerar urvalsvikten för bortfall inom klasserna. WGTADJx = justeringsvikt som tar hänsyn till vilken typ av häfte eleven tilldelats. x = L för elever i samtliga avgångsklasser. x = M för matematikgruppen. x = P för fysikgruppen. Justeringsvikterna för bortfall blir lika med ett om det inte finns något bortfall. Summan av de utvalda elevernas TOTWGTL ger en skattning av antalet elever i samtliga avgångsklasser, dvs hela undersökningspopulationen. På samma sätt ger summan av TOTWGTM respektive sum- 5
man av TOTWGTP skattningar av antalet elever i matematikgruppen respektive fysikgruppen, dvs totala antalet elever i gymnasieskolans avgångsklasser med naturvetenskaplig eller teknisk inriktning. Vid ett slumpmässigt urval, där sannolikheten att bli vald är lika för alla elever i populationen, skattas genomsnittligt procent rätt genom att summera elevernas andel rätt och dividera med antalet elever i stickprovet. Varje elev har samma urvalsvikt på grund av att sannolikheten att bli vald är densamma för alla elever. När sannolikheterna är olika måste detta beaktas vid skattningar av populationsgenomsnitt (och även vid skattningar av andra populationsparametrar) för att erhålla skattningar som är representativa för populationen. Exempel: I en population ingår 10 000 elever, 80 elever väljs slumpmässigt med samma urvalssannolikhet. Antag att vi endast studerar resultatet av en uppgift och svaret på uppgiften är antingen rätt eller fel, dvs eleverna kan antingen få 0 eller 1 poäng. Om 60% av eleverna svarar rätt blir genomsnittligt antal rätt 60% och vi kan generalisera till hela populationen att 60% av alla elever skulle svarat rätt om de givits provet. Antag att de 10 000 eleverna går i 80 olika skolor varav 20 skolor har 200 elever och 60 skolor har 100 elever vardera, dvs totalt 4000+6000 = 10 000 elever. Av dessa skolor väljs slumpmässigt 2 stora skolor och 6 små, 10% av skolorna. Ur varje skola väljs sedan slumpmässigt 10 elever. Totalt kommer urvalet att innehålla 80 elever. Sannolikheten för en elev i en stor skola att väljas är 20/4000 och i en liten skola 60/6000. Antag att 80% av eleverna i urvalet från de stora skolorna svarar rätt och 40% av eleverna i de små skolorna då är det genomsnittliga antalet rätt inte (0.5*80%+0.5*40%)=60% utan (0.4*80%+0.6*40%)=56%. 3. RASH MODELL Itemresponsteori (IRT) används i TIMSS för att kunna jämföra elevprestationer över tiden, mellan länder och i olika undersökningsgrupper. Elevprestationerna skattas med hjälp av följande Rashmodell : P(X j=1 θ,a j,b j,c j )=c j +(1- c j )/(1+exp[-1.7a j (θ-b j )])= P j (θ), j=1,.n. 6
Enligt denna modell är sannolikheten att en elev svarar rätt på provuppgift j (X j=1) beroende av elevens prestationsförmåga θ, uppgiftens förmåga att diskriminera a j, uppgiftens svårighetsgrad b j och chansen att svarar rätt genom att gissa c j (gissningsparameter). Parametern c j skattas vid flervalsuppgifter men sätts lika med noll för öppna uppgifter (Mislevy, Johnson & Muraki, 1992). Här antas att en elev antingen svara rätt, X j=1, eller fel, X j=0. Uppgiftsparametrarna a, b och c skattas med hjälp av alla elevers resultat inom ett land. På detta sätt kalibreras provuppgifterna, dvs uppgifterna blir jämförbara. Parameterskattningarna används sedan, tillsammans med den enskilde elevens resultat, för att skatta dennes prestation θ. För skattning av θ används maximumlikelihoodmetoden, dvs man väljer det θ som maximerar funktionen: Π n j=1[p j (θ)] xj [1-P j (θ)] 1 xj Där xj är ett eller noll beroende på om svaret på uppgift j är rätt eller fel. I denna funktion tas hänsyn till elevens resultat på alla provuppgifter j=1, n som tilldelats eleven. För varje elev skattas prestationen θ. Dessa värden kallas logit scores och antar värden mellan -4 och 4. Rashpoäng, som använts vid de nationella jämförelserna, är standardiserade logit scores. Nationella rashpoäng har medelvärde 150 och standardavvikelse 10 i varje enskilt land. Dessa rashpoäng kan användas vid jämförelser mellan olika delpopulationer inom ett land men inte för jämförelser mellan länder, eftersom alla länder har samma medelvärde och standardavvikelse. Rashpoängen tar hänsyn till att eleverna erhållit olika provhäften, med olika svårighetsgrad och antal uppgifter, samt att provuppgifternas svårighetsgrad kan variera mellan länderna. Ursprungligen utvecklades IRT för att skatta enskilda elevprestationer. Om varje elev ges tillräckligt många provuppgifter (oftast 50 uppgifter eller mer) får man exakta skattningar av en enskild elevs prestation. Osäkerheten i skattningarna är då så liten att man kan anta att skattningarna är lika med de faktiska värdena på θ (elevens prestationsförmåga). Denna förutsättning gäller inte om provuppgifterna 7
skall täcka ett bredare område och man endast har en begränsad tid till förfogande. Ju färre uppgifter per ämnesområde desto större blir osäkerheten i skattningarna. Osäkerheten vid skattningar av enskilda elevprestationer är för stor för att ignoreras om varje elev endast besvarar ett fåtal provuppgifter inom ett visst ämnesområde. De skattningar som är optimala för de enskilda elevprestationerna kan därför ge en felaktig beskrivning av populationen, både vad gäller andelen höga respektive låga elevprestationer som genomsnittet i populationen. Eftersom TIMSS huvudsyfte var att beskriva och jämföra populationer användes en statistisk teknik som ger bra skattningar av populationsparametrarna i undersökningsgrupperna. Konsistenta skattningar av parametrarna kan erhållas genom att skatta dessa direkt utan att gå via skattningar av enskilda elevprestationer. Rash modell och elevernas provresultat användes för att göra maximumlikelihoodskattningar av populationsparametrarna. För varje enskild elev beräknades plausible values för att kunna beskriva elevprestationerna i populationen. 8
4. PLAUSIBLE VALUES Plausible values beräknas på följande sätt: Låt Y representera alla elevers enkätsvar angående bakgrund och attityder (en beskrivning av enkäten om bakgrund och attityder ges i Skolverket, 1998, kapitel 1). Om man hade haft tillgång till alla utvalda elevers θ-värden skulle det vara möjligt att beräkna en statistika t(θ,y), t ex stickprovsmedelvärdet för att skatta motsvarande populationsparameter. Men i TIMSS observerades inte θ, inte ens för eleverna i urvalet. Endast resultatet från ett fåtal provuppgifter observerades. Dessa resultat tillsammans med bakgrundsdata Y, dvs de data som faktiskt observerats, användes för att skatta sannolikhetsfunktionen p(θ x i,y i ) för varje elev i stickprovet (Mislevy et al., 1992). I stället för att skatta elevprestationen θ skattade man alltså sannolikheten att elevprestationen är θ. Denna sannolikhet är beroende av elevens resultat på provuppgifterna, x, och elevens bakgrund, y. Från denna sannolikhetsfördelning, som är olika för elever med olika resultat på provuppgifterna och olika bakgrund, valdes slumpmässigt ett antal värden på θ. Dessa värden kallas plausible values och anger elevens möjliga värden på θ. Fem sådana värden gavs för varje elev och betecknades PV1,, PV5. Ett plausible value är en skattning av elevprestationen om eleven tilldelats alla uppgifter. Eftersom ingen elev givits alla uppgifter baseras denna skattning på elevens resultat på de uppgifter eleven tilldelats. Plausible values är alltså inte en skattning av den enskilda elevprestationen utan skall användas för att beskriva och jämföra olika populationers och delpopulationers prestationer. Till exempel för att jämföra olika populationers genomsnittliga elevprestationer och andelen höga respektive låga elevprestationer i populationen. Med hjälp av plausible values kan man beräkna medelvärden, standardavvikelser, percentiler etc för olika delpopulationer. Eftersom det finns fem olika plausible values för varje elev kan alltså fem olika studier göras. I varje studie används samma plausible value för alla eleverna (t ex PV1 för studie 1). Skillnaderna mellan resultaten av dessa studier anger mätningarnas osäkerhet. Korrelationen mellan 9
plausible values (t ex mellan PV1 och PV2) ger också en indikation på mätningarnas osäkerhet eller mätfel. I populationerna bör korrelationerna vara höga medan man i homogena delpopulationer kan förvänta sig lägre korrelationer. Internationell rashpoäng, som anges för varje elev, beräknas utifrån elevens plausible values och är standardiserade så att medelvärdet av alla deltagande länders elevprestationer är 500. Dessa rashpoäng kan användas för att göra jämförelser mellan olika länder. 10
5. RESULTATVARIABLER I Skolverket, 1998, används tre typer av resultatvariabler: procent rätt (lösningsfrekvens), nationell rashpoäng och internationell rashpoäng. För varje elev beräknades råpoäng genom att summera elevens poäng på de provuppgifter som tillhörde ett visst ämnesområde. De flesta provuppgifter var flervalsuppgifter medan ett mindre antal var öppna uppgifter. Flervalsuppgifterna gav noll eller ett poäng (fel eller rätt) medan de öppna uppgifterna kunde ge noll till tre poäng. Råpoäng kan användas till att jämföra prestationer för de elever som besvarat samma provhäfte. De kan inte användas för att jämföra prestationer för de elever som besvarat olika provhäften eftersom provhäftena ger olika totalpoäng och har olika svårighetsgrad. Resultatvariabeln procent rätt (lösningsfrekvens) beräknades utifrån elevernas råpoäng. Variabeln anger andelen elever, uttryckt i procent, som svarat rätt på en eller flera provuppgifter. Procent rätt har använts både vid nationella och internationella jämförelser (Skolverket, 1998, kapitlen 4 och 6 respektive kapitlen 3 och 5). Vid jämförelser av procent rätt inom Sverige viktades elevernas resultat för att ta hänsyn till de olika urvalssannolikheterna. Nationell rashpoäng har använts för att redovisa svenska resultat i matematik och naturvetenskapliga ämnen (Skolverket, 1998, kapitel 6). Poängen användes för jämförelser inom landet mellan elever med olika studiebakgrund och kön. Rashpoängen kan inte användas för internationella jämförelser eftersom varje land har samma genomsnittspoäng. Internationell rashpoäng har använts vid de internationella jämförelserna av resultaten i matematik och naturvetenskap (Skolverket, 1998, kapitlen 3 och 5). Rashpoängen inom ett ämnesområde beräknades utifrån elevernas plausible values för detta område. 11
REFERENSER Martin, M.O. & Kelly, D.L. (1996). TIMSS Technical Report, Volume I: Design and Development. Chestnut Hill, MA: Boston College. Mislevy, R.J., Johnson, E.G., & Muraki, E. (1992). Scaling Procedures in NAEP. Journal of Educational Statistics, 17 (2), pp. 131-154. Skolverket. (1998). TIMSS. Kunskaper i matematik och naturvetenskap hos svenska elever i gymnasieskolans avgångsklasser (Skolverkets rapport nr 145). Stockholm: Skolverket. 12