Prov som betygsunderlag? Kristian Ramstedt Hur ska vi mäta elevers kunnande för att få underlag för betygsättning? Vi försöker göra en mätning som har en helt annan komplexitet än t ex en längdmätning. Mätfelen blir därför av helt annan storleksordning. Ett enskilt prov är därför ett osäkert mätinstrument för att bedöma en enskild elevs kunnande. Kristian Ramstedt är universitetslektor i pedagogik vid Högskolan i Kalmar. För mer än 6 år sedan, 9, skrev Frits Wigforss en artikel i Rostads elevförbunds årsskrift där han tog upp de kaotiska förhållanden som rådde vid betygsättningen inom folkskolan. Wigforss hade konstaterat att elever som påbörjade sin lärarutbildning vid seminariet i Rostad kunde ha mycket varierande betyg trots att de enligt Wigforss bedömning kunde betraktas som jämbördiga. Betyg brukar traditionellt anses fylla tre funktioner: information, motivation och urval. I den senaste betygsreformen finns också en styrande funktion omnämnd. Betygskriterierna skall visa vilka kunskaper som skolan värdesätter. Urvalsfunktionen var på -talet främst kopplad till övergången från folkskola till realskola och Wigforss ville därför framför allt försöka skapa ordning i det betygskaos som rådde inom folkskolan. Med detta syfte för ögonen skapade Wigforss det s k Rostads standardprov i matematik, vilket efter hand kom att utvecklas till de standardprov som användes i enhetsskolan och grundskolan. Man kan i dag förvånas över Wigforss goda insikter i hur prov fungerar som mätinstrument i mer teknisk-statistisk mening. Den klassiska test-teorin var vid den tidpunkt då Wigforss gjorde sina pionjärarbeten ännu inte färdigutvecklad. Han hade alltså inte tillgång till dagens teoretiska instrument för att skatta reliabiliteter och mätfel, men han hade uppenbarligen en stor intuitiv förståelse för hur prov fungerar som instrument för att mäta kunskaper. Han skrev t ex följande i en artikel i den tidigare nämnda årsskriften (sid. ) Det är emellertid inte alls min mening, att ett barn skulle betygsättas väsentligen efter hur pass bra eller dåligt det klarat dessa prov. Betygssättningen bör grundas på vida mer omfattande prövning, än vad dessa prov ge. [ ] Men innan han definitivt bestämmer betyget, vill jag föreslå, att han ger ett av Rostads problemprov, som han naturligtvis betygsätter enligt standardtabellerna. Till detta betyg tages emellertid, när det gäller den enskilde elevens betyg, ej större hänsyn än till vilket som helst av de andra proven. [ ] Mitt förslag är att standardprovet skall få reglera betygsskalan. Genom standardprovet skaffar sig läraren upplysning om, huruvida den betygsskala han använt är normal eller eventuellt onormalt hög eller låg. Standardprovet skall således ej direkt bestämma över den enskilde elevens betyg, men kommer indirekt att utöva inflytande därpå, nämligen om det visar sig, att hela betygsskalan behöver omläggas. Nämnaren nr, 998
Mycket har hänt inom skolväsendet sedan Wigforss skrev detta. Urvalsfunktionen har flyttats uppåt i skolsystemet och är i dag främst relaterad till övergången mellan gymnasieskolan och högskolan, och det är alltså där betygens urvalsfunktion numera har sin största betydelse. När de centrala proven infördes i gymnasieskolan i slutet av 96-talet formulerades användningen av proven i det närmaste ordagrant i enlighet med Wigforss uppfattningar. De instruktioner Skolöverstyrelsen gav ut i anslutning till de centrala proven betonade alltså att proven främst skulle användas för att fastställa klassens nivå och spridning. Om medelvärdet av de betyg läraren satt i klassen avvek med mer än, betygssteg från betygsmedelvärdet på de centrala proven krävdes skriftlig förklaring av den betygsättande läraren. Värdet, var inte godtyckligt valt utan kan beräknas med hjälp av formeln för den enskilda mätningens medelfel, betecknad SEM (standard error of measurement) SEM = σ r xx ' σ = standardavvikelsen r xx = reliabiliteten Standardavvikelsen gäller poängfördelningen på provet och reliabiliteten är ett tal mellan och som kan sägas ange graden av tillförlitlighet eller slumpinflytande på provresultaten. Reliabiliteten innebär att resultatet är helt slumpmässigt och reliabiliteten att inget mätfel föreligger. För en klass med N = elever och med ett prov med reliabiliteten (koefficient alfa),7 (vilket är ungefär vad de centrala proven brukar ha) kan mätfelet för ett klassmedelvärde på en betygsskala med standardavvikelsen (som ju var vad som gällde för den gamla -gradiga betygsskalan) bestämmas enligt SEM = σ r xx ' N =,7 =, =, Vill man ha ett vanligt 9 % konfidensintervall multipliceras, med,96 vilket approximativt ger just värdet,. För den typ av centrala prov som användes kan alltså betygsmedelvärdet för klassen med 9 procents säkerhet sägas ligga högst, betygsteg från betygsmedelvärdet på det centrala provet. Hur säkra var då de centrala proven när det gällde den enskilda eleven? Låt oss först betrakta ett diagram (figur ) från det centrala provet i matematik för N- och T- 8 Total Antal 6 6 7 8 9 6789 Figur. fördelning på centrala provet i matematik 99, N- och T-linjen. fördelningar anges för samtliga elever i normeringsgruppen (N=9) samt uppdelat efter elevernas senaste terminsbetyg (-). De streckade vertikala linjerna anger betygsgränserna på det centrala provet. (Graferna är något utjämnade med hjälp av glidande medelvärden.) Nämnaren nr, 998
linjen 99, vilket var det sista året då i stort sett alla elever fortfarande följde Lgy 7 och alltså deltog i det centrala provet. I figur kan man konstatera att en stor andel av de elever som enligt lärarna bör ha t ex betyget erhåller betygen eller (9 %) respektive eller ( %) på provet. % av de elever som enligt lärarna bör ha betyget får alltså ett annat betyg på det centrala provet. Är det då lärarna som satt felaktiga betyg? Eller har elevernas kunskaper förändrats under tiden mellan terminsbetyget och det centrala provet? Eller kan det finnas någon annan förklaring? Det kan naturligtvis finnas många förklaringar, och vi ska inte här fördjupa oss i det gamla betygs- och provsystemet. Vi nöjer oss med att visa resultaten på det centrala provet som underlag för jämförelse och övergår till ett prov konstruerat utifrån det nya betygssystemet; det nationella provet för kurs E vårterminen 997 (figur ). Bilden är som synes mycket lik den i figur, vilket möjligen kan verka förvånande med tanke på att det nya provet är konstruerat utifrån ett målrelaterat system. Den mest påtagliga skillnaden är att medelvärdena för lärarnas betyg och betygen på de centrala provet visar mycket god överensstämmelse medan motsvarande värden för det nationella provet visar betydande avvikelser. Om man ska döma efter lärarnas elevbedömningar borde gränsen för G ligga vid cirka poäng (dvs ungefär vid skärningspunkten mellan IGoch G-graferna) och för VG vid cirka poäng. Gränsen mellan VG och MVG skulle på liknande sätt kunna anses ligga vid cirka 9 poäng. Enligt lärarnas uppfattning av sina elevers betygsnivå borde således gränserna legat något lägre. Att överensstämmelsen inte är lika god för det nationella provet som den var för det centrala provet är dock inget att förundras över. Det tar givetvis ett antal år innan en samstämmighet av det slag som rådde vid bedömning enligt den femgradiga betygsskalan uppnås när det gäller de nya betygen. I synnerhet torde detta vara fallet beträffande betyget MVG där nationella betygskriterier (än så länge) saknas*. Man kunde möjligen tänka sig att även den relativt stora poängspridningen för elever med samma betyg när det gäller det nationella provet skulle vara en följd av den osäkerhet lärarna fortfarande känner inför den nya fyrgradiga betygsskalan. IG G VG/MVG IG G VG MVG Total Antal 6 9 8 7 6 9 8 7 6 6 66 Figur. fördelning på nationella kursprovet för kurs E vårterminen 997 (N=7). fördelning för samtliga samt uppdelat efter lärarnas betyg (från IG till MVG). De vertikala linjerna anger föreslagna betygsgränser på provet. Någon gräns mellan VG och MVG finns ej angiven eftersom centrala kriterier för MVG inte finns. Nämnaren nr, 998
9 8 7 6 SEM=, 7 poäng på provet 6 8 6 8 6 8 68% 9% Figur. fördelning (felmarginaler) för elevgruppen som har 7 poäng på provet. Men som figur visar var spridningen av samma storleksordning i det centrala provet. Låt oss därför använda uttrycket för den enskilda mätningens medelfel och se om detta möjligen kan bidra till att förklara de stora poängspridningarna för elever med samma betyg. Det nationella provet har reliabiliteten,89 (fler uppgifter och högre poäng medför högre reliabilitet) och standardavvikelsen,. Det ger det genomsnittliga enskilda mätfelet SEM = σ r xx ' =, (,89), Om vi som brukligt är antar att felen är normalfördelade och att heltals-poängen representerar en underliggande kontinuerlig fördelning kan det enskilda mätfelet illustreras enligt figur. Figuren visar att för en elev som har 7 poäng på provet kan det med 68 % säkerhet sägas att han eller hon ligger i poängintervallet till poäng. Vill man utsträcka säkerheten till 9 %, vilket brukar vara standard i andra sammanhang, kan man för en elev med 7 poäng säga att han eller hon ligger i intervallet 9 till poäng på provet. 9 8 7 6 % har "sann" poäng x <=6, dvs. IG 7 poäng på provet 6 8 6 8 6 8 Figur. Andel av provdeltagarna med 7 poäng som har sann poäng 6 eller lägre. Nämnaren nr, 998
På det aktuella provet var gränsen för godkänt satt vid 7 och gränsen för VG vid 9 poäng. Låt oss då se hur stor andel av de elever som har 7 poäng som kan uppskattas ligga under 6, om hänsyn tas till provets mätsäkerhet, dvs som kan anses ha resultatet IG på provet (figur ). En jämförelse med en normalfördelning med standardavvikelsen, och medelvärdet 7 visar att % av populationen har ett värde som är lägre än 6,, dvs % procent av de godkända provdeltagarna med 7 poäng kan tacka slumpen för att de blivit godkända på provet. på Andel 6 på Andel 7 provet poäng (%) provet poäng (%) 7 6 8 6 6 9 8 8 7 7 9 Tabell. Andel underkända ( 6) respektive godkända ( 7) för olika provpoäng. På motsvarande sätt kan man uppskatta att 6 % av dem som har 8 poäng har en sann poäng som är 6 eller lägre, osv enligt tabell. Man kan alltså konstatera att detta prov som alla andra prov är behäftat med betydande mätfel när det gäller att bedöma en enskild provdeltagare. Om man skulle tilllämpa ett vanligt 9 % konfidensintervall skulle betygsgränserna på det aktuella provet anges enligt följande om man utgår från de angivna gränserna 7 och 9-9 - - - - 69 Betyg IG Osäkert G Osäkert VG/MVG Betygssättning ska numera ske i relation till uppställda mål och kriterier. Betygen skall uttrycka i vad mån en elev kan sägas ha uppnått målen. Det nationella provsystemets funktion har förändrats i och med det nya betygssystemet. Från att ha varit betygsnormerande har det numer en betygsstödjande funktion. När det gäller tolkningen av resultaten på de nya nationella proven finns dock inga anvisningar hur resultatet skall tillämpas vid betygssättning. De anvisningar som finns anger endast att man bör delta i proven samt att de ska vara betygsstödjande, det är allt. Analysen ovan visar att förfarande där provens resultat används för normering, en sorts växlingskurs där enskilda lärares betyg i hela klasser eller grupper justeras för att bli jämförbara i riket, är rimligt i teknisk statistik mening. Vidare visar analysen att nu liksom tidigare är ett enskilt provresultat ett mycket osäkert underlag för att betygsätta en enskild elev. Det nationella provets totalpoäng ger ensamt ingen säker vägledning angående slutbetyget. Det kan endast ses som ett av flera underlag och det måste därför kompletteras med annan information i form av lärares egna bedömningar av elevernas kunnande. Frits Wigforss var framförallt matematikdidaktiker, men han insåg att samtidigt som prov behövdes var de mycket osäkra som mätinstrument. I dag när vi åter betonar de didaktiska aspekterna kan det finnas anledning att påminna om Frits Wigforss insikter. * Det bör påpekas att det för E-provets del är osäkert hur lärarna betygsatt eleverna. Det handlar i det fallet om preliminära betyg på den aktuella kursen. Det är därvid osäkert i vilken utsträckning resultaten från det nationella provet utgör en del av betygsunderlaget (se Lindström, J-O. & Nyström, P. (996), Nationella kursprov i matematik Kurs A, Ht - 9. Pm-rapport Nr., Umeå: Enheten för pedagogiska mätningar, Umeå universitet. De betyg som används i figur är däremot terminsbetyg från terminen före provet och alltså opåverkade av provresultatet. Nämnaren nr, 998