LIKVÄRDIG BEDÖMNING AV ELEVERS SPRÅKFÖRMÅGOR PRELIMINÄRA RESULTAT FRÅN ETT ÄMNESDIDAKTISKT FORSKNINGSPROJEKT KAU.SE/CSL

Relevanta dokument
CENTRUM FÖR SPRÅK- OCH LITTERATURDIDAKTIK. Likvärdig bedömning. (Equity in Assessment)

Equity in Assessment (EquA)

Pia Thornberg Handledarutbildning Matematiklyftet 13 februari Modulkunskap - Bedömning

Kursplanen i svenska som andraspråk

Kursplanen i hem- och konsumentkunskap

Variation i undervisning och bedömning. Per Berggren och Maria Lindroth

Bedömning som ett sätt att utveckla matematikundervisningen. Per Berggren och Maria Lindroth

Läslyftet - fortbildning i läs- och skrivutveckling

De nationella provens effekter på skolan och lärares arbete i åk 6 och 9

Sambedömning - en modell för pedagogisk utveckling?

Bedömning för lärande. Andreia Balan 2012

Betyg och bedömning. Föreläsning den 18 februari Lars Nohagen, Cesam Centrum för de samhällsvetenskapliga ämnenas didaktik.

Bedömning av matematiska förmågor. Per Berggren och Maria Lindroth

Läsläget. Alla Läser! Erica Jonvallen

Nationella prov i NO årskurs 6

Bedömning för lärande i matematik i praktiken. Per Berggren och Maria Lindroth

Sammanfattning Rapport 2011:7. Engelska i grundskolans årskurser 6-9

Guide för bedömning. Lgr11 den samlade läroplanen

Lärarenkät för Ämnesprovet i engelska årskurs 6, 2017/2018

2015/16. Läslyftet UNDERLAG ANN-CHRISTIN FORSBERG, ERICA LÖVGREN

Utbildningsfrågor Dnr 2006:2230. Ämnesprovet 2006 i grundskolans åk 9 och specialskolans åk 10

Anna Karlefjärd Bedömning & betygssättning i särskolan

Skola och hemmet. Per Berggren och Maria Lindroth

Resultaten av ämnesproven för årskurs 9 år 2005

matematiska förmågor Per Berggren och Maria Lindroth

Bedömning av matematiska förmågor. Per Berggren och Maria Lindroth

Ombedömning av nationella prov 2017 Fortsatt stora skillnader

Bedömning för lärande

Sammanställning av uppgifter från lärarenkät vid kursprov i svenska 1 och svenska som andraspråk 1, VT 2013

Sammanställning av uppgifter från lärarenkäten för ämnesprovet i svenska och svenska som andraspråk i årskurs 6, läsåret 2017/2018

Om ämnet Engelska. Bakgrund och motiv

Hur gör man för att urskilja god undervisning? PLATO som redskap för klassrumsobservationer

Bedömning för lärande. Per Berggren och Maria Lindroth

ÄDK kollegium. Varför ÄDK? Effekter vi hoppas på: Implementeringsarbetet på Kryddgårdsskolan

Vad är det som gör skillnad?

Kursplanen i engelska

Sammanfattning Rapport 2012:4. Min blev blå! - Men varför då?... En kvalitetsgranskning av undervisningen i no i grundskolan årskurs 1-3

Upplägg och genomförande

Upplägg och genomförande

Resultat från Skolenkäten hösten 2018

Läslyftet - uppdrag att svara för genomförandet av fortbildning i läs- och skrivutveckling. Erica Jonvallen projektledare

Betyg 2015/16. Statistisk analys för Sjöängsskolans betygsresultat årskurs 9 Sammanställning, analys och vidare arbete Anneli Jöesaar

Nationella prov, Uppdrag granskning

Sammanställning av uppgifter från lärarenkät för ämnesprovet i svenska och svenska som andraspråk i årskurs 6, 2015

Att bedöma elevtexter i främmande språk. Språklärargalan 2017, Stockholm Maria Håkansson Ramberg Uppsala Universitet: Institutionen för moderna språk

Lärarenkät för det nationella provet i engelska årskurs 6, 2018/2019

Resultat från det nationella provet i svenska 1 och svenska som andraspråk 1 våren 2018

En kritisk genomgång av formativ bedömning

Bilaga 1: La rar- och rektorsenka t

Bedömning av muntliga prestationer

Lärarhandledning matematik

Bedömning och betyg - redovisning av två rapporter

Bedömning för lärande

Högskolan i Borås Akademin för bibliotek, information, pedagogik och IT Sektionen för förskollärarutbildning Sektionen för lärarutbildning.

Hur stödjer vi lärares lärande och professionalitet i ämnet svenska

Bedömning av läsförmåga. Michael Tengberg Institutionen för pedagogiska studier Karlstads universitet

Sammanfattning Rapport 2010:9. Undervisningen i svenska i grundsärskolan

Identification Label. School ID: School Name: Skolenkät. Skolverket Bo Palaszewski, projektledare Stockholm

ELEVDOKUMENTATION i Stockholm Skolwebb

Huvudmän inom skolväsendet (10) Dnr 2012:1958

Muntliga prov i svenska och bedömningen av dem

Nationella prov i åk 6 ur ett skolledarperspektiv

Öjersjö Storegård, Partille Kommun, vt-07

Betyg 2016/17. Statistisk analys för Sjöängsskolans betygsresultat årskurs 9 Sammanställning, analys och vidare arbete Anneli Jöesaar

Verksamhetsrapport. Skolinspektionen. efter kvalitetsgranskning av undervisningen i matematik kurs 3c vid IT-gymnasiet Södertörn i Huddinge kommun

Hur kan skolledare skapa förutsättningar för ett formativt förhållningssätt hos sina lärare?

När en Learning study planeras väljs ett område som upplevs som problematiskt

3. Nyanserad och framåtriktad respons

De samhällsorienterande ämnenas didaktik vid IDPP programförklaring

I tabell 1 redovisas betygsfördelningen på delproven i svenska 1 respektive svenska som andraspråk 1.

Nationella provet i matematik i årskurs 9, 2018

TORULF PALM 1

Enkät i gymnasieskolan

Kunskapskraven. 1. Inledning

Beskrivning av instrumentet och dess användningsområde

M A X A D I N P E D A G O G I S K A P L A N E R I N G

Stöddokument Att arbeta med särskilt begåvade elever

Läsa mellan raderna. dialogisk strategiundervisning. Michael Tengberg Institutionen för pedagogiska studier Karlstads universitet

Ämnesproven i grundskolans årskurs 6 och specialskolans årskurs 7. Biologi, fysik och kemi Årskurs 6 Vårterminen 2013

Beslut för förskoleklass och grundskola

LMN220, Naturvetenskap för lärare, tidigare åldrar, 30 högskolepoäng

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Formativ bedömning i matematikklassrummet

Lärande bedömning. Anders Jönsson

Det svenska utbildningssystemet. Skollagen och betyg. Mål- och kriterierelaterade betyg. Mål- och kriterierelaterade betyg

Student Personnummer

Likvärdig skola med hög kvalitet

Learning study elevernas lärande blir samtalsämne lärare emellan

Matematikundervisning genom problemlösning

Dokumentation för lärande

Språk- och kunskapsutvecklande arbetssätt

Uppenbar risk för felaktiga betyg

Kvalitetsuppföljning grundskola 2017/2018 Hede-och Tanumskolan Förskoleklass-årskurs 6

Kvalitetsarbete i förskolan

Upplägg och genomförande

Pysslingen Förskolor & Skolor AB Dnr :6371. Beslut

Nationella prov Statistisk analys för Sjöängsskolans resultat årskurs 6 och Anneli Jöesaar

Yttrande angående PwC:s granskning av Aspenskolan

Språk-, läs- och skrivutveckling

Lärarenkät för ämnesprovet i engelska grundskolans årskurs 6, 2016

Transkript:

CENTRUM FÖR SPRÅK- OCH LITTERATURDIDAKTIK LIKVÄRDIG BEDÖMNING AV ELEVERS SPRÅKFÖRMÅGOR PRELIMINÄRA RESULTAT FRÅN ETT ÄMNESDIDAKTISKT FORSKNINGSPROJEKT Michael Tengberg (projektledare), Eric Borgström, Lena Lötmarker, Erica Sandlund, Gustaf B. Skar, Pia Sundqvist, Michael Walkert & Kristina Wikberg KAU.SE/CSL

Bakgrund Att elevers kunskaper ska bedömas likvärdigt och rättvist är en grundpelare i svensk skola. Samtidigt vet vi att sammansatta förmågor som skrivande, muntlighet och läsande medför variation i lärares bedömning. Uppgifter som prövar sådana förmågor kan sällan bedömas utifrån enkla kriterier utan förutsätter lärare med både utvecklad ämneskompetens och utvecklad bedömningskompetens. När det gäller bedömning av nationella prov har det bland annat föreslagits att uppgifter måste göras mer lätträttade för att stärka likvärdigheten. Ett annat förslag är att flytta bedömningsuppdraget till en expertpanel av externa bedömare. Båda dessa förslag skulle innebära en avlastning för lärare och säkerligen också bidra till ökad reliabilitet i bedömningen. Men eftersom lärare i hela landet fortfarande har ansvar för den klassrumsbedömning som ligger till grund både för fortsatt undervisning och för betyg i ämnet så behöver lärare inte träna mindre på bedömning utan mer. Att ta bort komplexa uppgifter från de nationella proven eller att lyfta bort bedömningsuppdraget från lärare riskerar snarare medföra att den innehållsliga kvaliteten sänks och att samstämmigheten mellan bedömare på sikt försämras. Detta är förstås ingen hållbar lösning. Istället bör vi arbeta för att stärka kvaliteten och likvärdigheten i lärares bedömning av de slags förmågor och färdigheter som skolan främst ska syfta till att utveckla. I några tidigare internationella studier har man prövat olika former av bedömarträning för att se i vilken grad de kan bidra till ökad samstämmighet. Resultaten är blandade. Några program fungerar effektivt (se t.ex. Elder et al., 2007), andra är mindre effektiva (se t.ex. Weigle, 1998). Dessa program har dock främst prövats på mindre expertpaneler och inte alls i Sverige. Föreliggande studie däremot syftar till att pröva effektiviteten i ett bedömarprogram avsett att höja samstämmigheten mellan vanliga lärare utan expertträning. I fokus för bedömningen står skrivförmåga i svenska i årskurs sex och muntlig förmåga i engelska, också i årskurs sex. Bedömarträningsprogrammet har utformats med målsättningen att: göra lärarna mer medvetna om sin egen bedömaridentitet och sitt sätt att bedöma jämfört med andra bedömare; göra lärarna mer förtrogna med bedömningskriterier och bedömareffekter; låta lärarna kalibrera sig mot varandra för att i högre grad kunna rangordna och betygsätta prestationer på ett samstämmigt vis Kombinerat forsknings- och kompetensutvecklingsprojekt Projektet har genomförts vid Centrum för språk- och litteraturdidaktik (CSL) som ett kombinerat forsknings- och kompetensutvecklingsprojekt tillsammans med mellanstadielärare i svenska och engelska i Värmlands- och Örebroregionen. Ambitionen har varit att både bidra till lärarnas professionella utveckling och besvara studiens forskningsfrågor. Undersökningen bygger på ett begränsat dataunderlag och ska därför ses som en pilotstudie. Avsikten med denna pilotstudie är i första hand att prova ut innehållet i bedömarträningen dels som utgångspunkt för en större studie, dels som utgångspunkt för ett skräddarsytt och mer resurseffektivt kompetensutvecklingsprogram att genomföra i större skala.

Metod Design För att undersöka om bedömarträningen bidragit till ökad samstämmighet har studien utformats som ett experiment med förtest, intervention och eftertest. Interventionen bestod av feedback på förtestet samt en dags träning där teori, individuell bedömning och gruppdiskussioner ingick. En del av gruppdiskussionerna har spelats in för att möjliggöra närmare analyser av hur bedömningar motiveras och förhandlas mellan lärarna. Vid både förtest och eftertest fick svensklärarna (n=12) bedöma 30 elevtexter och engelsklärarna (n=12) bedöma 10 muntliga, inspelade elevprestationer. Såväl texter som muntliga prestationer bedömdes dels på aspektnivå, dels som ett sammanfattande delprovsbetyg. Svensklärargruppen indelades i en grupp som fick träning och en kontrollgrupp som istället för träning ägnade sig åt sambedömning enligt Skolverkets (2013) rekommenderade modell.1 I rapporten använder vi tre olika sätt för att redovisa förändring av samstämmighet: Konsensus, dvs. andelen betyg som bedömarna är helt överens om. Konsensus anges både i procent och med ett mått som kallas Cohen s kappa. Kappa skiljer sig från procentberäkning genom att kontrollera för andelen slumpmässig samstämmighet. Kappavärdet anger (liksom ICC-värdet nedan) styrkan i en korrelation där 1,0 uttrycker total samstämmighet och 0 ingen samstämmighet alls utöver den som uppstår av slumpen. Konsistens, dvs. i vilken utsträckning lärarna rangordnat prestationer på liknande sätt. Konsistens mäts med Intra Class Correlation (ICC) på en liknande skala där 1,0 innebär total samstämmighet och 0 ingen samstämmighet alls. Relativ stränghet, dvs. spridningen de mellan olika bedömarnas grad av stränghet. Detta mäts med G-index, vilket anger antalet grupper av stränghet bland bedömarna. I engelsklärargruppen gjordes ingen uppdelning dels eftersom antalet bedömningar som gjordes var färre och en uppdelning skulle göra det statistiska underlaget för svagt, dels eftersom vi redan studerat sambedömning av muntliga prestationer i engelska (se Sandlund & Sundqvist, 2016). 1

Resultat Resultat från studien visar att samstämmigheten mellan lärarna generellt är väldigt låg. Som framgår av tabell 1 ligger kappa-värden både på för- och eftertest under 0,30. För bedömningar med praktiska konsekvenser räknas kappa-värden i intervallet 0,20 0,30 vanligen som otillfredsställande (Cicchetti, 1994). Bedömarträningen har emellertid fungerat väl och bland både svensklärarna och engelsklärarna ökar såväl konsensus som konsistens (se tabell 1 och 2). I svensklärargruppen observerar vi också att bedömarträningen bidragit till en större ökning av samstämmigheten än vad sambedömningen gjort. Hos både svensklärare och engelsklärare är det framför allt konsistensen som ökat. Det betyder att lärarna blivit bättre på att rangordna prestationer på ett likartat sätt. De är helt enkelt mer överens än tidigare om vilka prestationer som är bättre respektive sämre i förhållande till bedömningskriterierna. Däremot har andelen elevprestationer som lärarna sätter samma betyg på endast ökat i liten grad. Det betyder att många texter och muntliga prestationer fortfarande bedöms olika beroende på vem som bedömer. TABELL 1. Samstämmighet bland svensklärarna Förtest Eftertest Proc. samstämmighet Bedömarträning 47,8% 52,5% Sambedömning 53,5% 54,0% Kappa-värden Bedömarträning 0,16 0,21 Sambedömning 0,24 0,27 ICC Bedömarträning 0,54 0,67 Sambedömning 0,67 0,69 TABELL 2. Samstämmighet bland engelsklärarna Förtest Eftertest Proc. samstämmighet 36,0% 39,5% Kappa-värden 0,17 0,23 ICC 0,58 0,83 Som framgår av tabell 2 har förmågan att rangordna prestationer på ett likartat sätt ökat väsentligt i engelsklärargruppen. Detta är mycket positivt och brukar inom bedömningsforskningen ses som en förutsättning för att också kunna höja konsensus i en grupp av bedömare. Att lärarna blivit mer överens om rangordningen av prestationer utan att andelen bedömningar de är helt överens om ökat lika mycket kan hänga samman med att variationen i stränghet mellan bedömarna samtidigt tycks öka något. G-index, som redovisas i tabell 3, anger hur många grupper av stränghet bland bedömarna som kan urskiljas statistiskt.

Ett lågt G-värde betyder alltså att bedömarna i hög grad är lika stränga medan ett högt värde betyder att det är stor variation mellan stränga och mindre stränga bedömare. TABELL 3. Variation i stränghet mellan bedömarna G-index Svensklärare Förtest Eftertest Bedömarträning 1,6 3,6 Sambedömning 2,2 2,7 Engelsklärare 2,4 3,5 Förändring av G-index indikerar alltså en ökad spridning mellan lärarna. Denna framgår även av mått på spridningen i genomsnittligt betyg (om betygen räknas om till en poängskala) för bedömarna före och efter träningen. I kvalitativa analyser av enskilda bedömares bedömarstatistik har vi observerat att några lärare, särskilt de som på förtestet låg i den ena eller andra ytterkanten av skalan över stränghet, påverkats mycket av bedömarträningen. Detta kan eventuellt förklara att spridningen inom gruppen ökat. TABELL 4. Spridning i genomsnittlig stränghet (endast bedömarträning) Förtest Eftertest Min. Max. Min. Max. Svensklärare 2,33 2,68 2,23 2,82 Engelsklärare 2,40 3,50 2,88 4,99 a Skalan översätts F=1, E=2, D=3, C=4, B=5 och A=6. Sammanfattningsvis kan vi konstatera att både när det gäller bedömning av elevtext i svenska och av muntliga prestationer i engelska har träningen i någon grad bidragit till att höja konsensus mellan bedömarna och i hög grad bidragit till att höja konsistensen. Samtidigt tycks emellertid spridningen mellan de strängaste och de mest generösa bedömningarna ha ökat.

Slutsatser och kommande aktiviteter Baserat på den föreliggande pilotstudien kan vi dra slutsatsen att den bedömarträningsmodell som vi använt oss av möjliggör en ökad samstämmighet mellan lärarna och därmed ökad likvärdighet för eleverna. Några av resultaten är fortfarande motsägelsefulla och ytterligare undersökningar kommer att bli nödvändiga. Vi vet till exempel inte helt och hållet varför träningen i huvudsak påverkar konsistensen och inte konsensus. Vi behöver också ta reda på mer om vilka slags elevprestationer som orsakar större svårigheter för lärarna att bli eniga. För det tredje kommer vi att behöva analysera data från gruppdiskussionerna för att få veta mer om innehållet i dessa samt om huruvida diskussionerna kännetecknas av en ökad grad av harmonisering mellan lärarnas olika perspektiv. Dessa frågor är viktiga både för att förstå de statistiska resultaten och för att kunna utveckla bedömarträningsmodellen. Samstämmighet i bedömning av komplexa uppgifter kan inte ersättas av prov som innehåller enklare och mer lätträttade uppgifter. Skolan måste utveckla professionell kompetens att både undervisa om och bedöma det slags förmågor som kursplanerna i förstone syftar till och som vi tror att elever kommer att behöva i framtida utbildning, yrkesliv och privatliv. Till dessa förmågor hör att kunna formulera sig i tal och skrift i varierade sammanhang och till olika mottagare liksom att kunna läsa, förstå och använda texter av varierande slag och svårighetsnivåer. Att höja samstämmigheten i lärares bedömningar av den här sortens förmågor och därmed bidra till både professionell utveckling för lärarna och till likvärdighet för eleverna är därför högst angeläget. Därför är den här studien viktig och bör läggas till grund för mer ingående undersökningar av hur bedömarträning kan optimeras och i vilka former den kan distribueras på ett pedagogiskt och resurseffektivt sätt. Sådana undersökningar bör genomföras på ett större dataunderlag för att säkerställa representativitet och statistisk styrka. De bör också genomföras i nära samarbete med huvudmän, skolledare och lärare för att säkerställa såväl legitimitet i systemet som praktisk användbarhet.

Referenser Cicchetti, D. (1994). Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instrument in psychology. Psychological Assessment, 6(4), 284-290. Elder, C., Barkhuizen, G., Knoch, U., & von Randow, J. (2007) Evaluating rater responses to an online training program for L2 writing assessment. Language Testing 24(1), 37 64. Sandlund, E., & Sundqvist, P. (2016). Doing versus assessing interactional competence: Contrasting L2 test interaction and teachers collaborative grading of a paired speaking test. The 4th Nordic Interdisciplinary Conference on Discourse and Interaction (NORDISCO), Oslo and Akershus University College of Applied Sciences, Oslo, Norway, 23-25 November, 2016. Skolverket (2013). Sambedömning i skolan exempel och forskning. Stödmaterial. Nr. 13:1395. Stockholm: Skolverket Weigle, S. (1998). Using FACETS to model rater training effects. Language Testing 15(2), 263 287.

Tryck & layout: Universitetstryckeriet, Karlstad 2017 För frågor om studien, kontakta: Michael Tengberg (projektledare) michael.tengberg@kau.se 054-700 18 78 KAU.SE/CSL