(Hvordan) kan lese- og skrivekompetanse bli tall som kan rapporteres til myndighetene? Gustaf B. Skar NOLES, 1.2.2018
Jämför Ditt resultat på provet var: 2,45. Din karakter i kursen blir: 3,0. Du skrev en okej uppsats, men jag saknade en röd tråd. Jag tyckte också att argumentet kändes ofullständigt. Ditt betyg i kursen: Du har klarat dig i stort sett bra.
Läraren Gull-Britt sliter sitt hår Nej. Jag kan ju bara säga att känslan att räkna såhär poäng och sådär, det gör jag ju aldrig. Det är bara i det här momentet [...] Jag är stark motståndare till poäng och sådär. Begriper inte riktigt det. Det hör inte hemma i vår, vårt, det här blir något slags poäng liksom. [...] Nej jag är lite tveksam till den här uppgiften, men jag tycker ändå att den funkar. Skar (2013, s. 132) 4
Två definitioner Test: a sample of behavior taken and interpreted under specified, systematic and uniform conditions (Cizek, 2012, s. 3) Performance standards: Specify what level of performance on a test is required for a test taker to be classified into a given performance category. [ ] The classification of test takers into performance categories is most commonly operationalized by application of a cut score to an examination (Cizek, 2012, s. 4). 5
Kravgränser («cut score») och validitet Exempel från professionsutbildningar: The ideal performance standard is one that provides the public with substantial protection from incompetent practitioners and simultaneously is fair to the candidate and does not unduly restrict the supply of practitioners. We want the passing score to be neither too high nor too low, but at least approximately, just right. (Kane, 2017, s. 16) 6
Ett sociokulturellt perspektiv (1) Prov är inte neutrala instrument för att mäta egenskaper prov är värdeladdade och speglar socialt och kulturellt förankrade uppfattningar om vilket innehåll som kan bidra till att göra relevanta mätningar av kunskaper (Shohamy, 2001; McNamara & Roever, 2006) Prov speglar också samtidens föreställningar om hur förmågor ska mätas och föreställningar om vad som ska till för att med säkerthet påstå att någon kan något - t.ex. multiple choice vs. performance assessment (Huot & Neal, 2006) Prov går inte in i fysiska, utan in i sociala rum och prov bidrar till att forma de sociala rummen (Resnick & Resnick, 1992) 7
Ett sociokulturellt perspektiv (2) Jordan & Putz (2004) Inherent assessment : blickar, tonfall. T.ex.: en lärare går bort till pulten til en elev, ser på elevens arbete, blir förnöjd, går därirån. Discursive assessment : å snakke mer eller mindre formellt om vad barn, elever, anställda etc. får till och inte får till. T.ex.: nej nu får vi öka farten så att vi hinner med våra uppgifter [en bedömning av tempo och insats] Documentrary assessment : när bedömningen på något sätt dokumenteras. Möjliggör för bedömningen att färdas i tid och rum och för prestationer att jämföras (t.ex. elev mot elev, eller elev mot standard). 8
Dokumentarisk bedömning Att bedömningen dokumenteras får konsekvenser: If we take an ongoing, lived experience, and if we then produce a written representation of that [ ], certain consequences ensue. We are no longer operating in the lived world of experiences but within a symbol system. [ ] This translation always involves loss of contextual information. (Jordan & Putz, 2004, s. 350) 9
Ett testresultat är en indikation 1) När dog Olof Palme? A) 1984 B) 1985 C) 1986* D) 1987 2) Sätt in rätt ändelse på ordet: Igår arbet Janne hemifrån. 10
Förmåga Undervisning Undervisning 11
Förmåga 12
Signifier och signified Hanson (2000, s. 68) med hänvisning till Baudrillard (1983) Testet: signifier Förmågan: signified Tre relationer mellan signifier och signified Signified har prioritet Signified = signifier (eller funksjonell ekvivalent ) Signifier har prioritet (det existerar før signified, t.ex. ett prov i skrivförmåga eller ett matrecept)
Förmåga Generaliserat resultat Generellt resultat {Bevis för likhet mellan generellt resultat och resultat i måldomän} Testresultat {Uppgiftsreliabilitet, reliabel bedömning} Elevtext/ Elevsvar {Kriterier, reliabel bedömning} Kane et al. (1999) 15
Olika typer av kriterier Informella (idiosynkratiska) kriterier Kriterier som på ett eller annat sätt misslyckas med att operationalisera konstruktet Kriterier som lyckas operationalisera konstruktet. 16
17 Skar & Holten-Kvistad (2016) Empirically derived, binary choice, boundary definition scales (Fulcher & Davidson, 2007, s. 98; Knoch, 2011).
Olika typer av kriterier Informella (idiosynkratiska) kriterier Kriterier som på ett eller annat sätt misslyckas med att operationalisera konstruktet Kriterier som lyckas operationalisera konstruktet. Kriterier som är svåra att hantera Kriterier som är enklare att hanterbara Exempel: NZ: 125 celler med påståenden om text Skrivepørven: 25 celler med påstående om text Klassisk holistisk bedömning: 5 celler med påståenden om text 18
Stränghetsvariation Stränghet 4 3,5 3 2,5 2 1,5 Skar (2017) 19
Vilka är de viktigaste kriterierna? Bedömare 8 om elevtextexemplen: Nej, de har jag varit förbannad på. Jag brukar bedöma texter först och sen kolla på det officiella betyget. Oftast skiljer sig min bedömning från den officiella. Ibland mer än två betygssteg. Bedömare 4 om viktigaste egenskapen vid bra texter: Att den träffar dig i magen. Bedömare 4, igen, om viktigaste kriteriet: Textlängd Skar & Jølle (2017) 20
Dilemman i skrivbedömning Trinn 1: Deltagare: 63 bedömare som deltog på vurderingssamling i Tromsø hösten 2016 Verktyg: Enkät med 23 dilemma items, där bedömarna ombads ta ställning till en fiktiv bedömningssituation. Låg poäng indikerar att man väljer alternativ som stämmer överens med reglerna för panelet. Trinn 2 Deltagere: 2 høyskårere (Hannah, Helen), 2 lavskårere (Lars, Lisbeth) Metode: intervju 21
Trinn 2: intervjuer om seks items Dilemma #2 Ved første gjennomlesning opplever Gard at elevteksten framstår rotete på grunn av dårlig struktur, og Gard mener nok at teksten på dette området er M1. Likevel er det åpenbart at den svake tekststrukturen er en konsekvens av at læring pågår. Gard bestemmer seg for å ta hensyn til dette positive trekket og gir teksten M2 på området. Er du enig eller uenig? (I dette tilfelle: 1 poeng hvis enig, 0 poeng hvis uenig (62 % meldte seg enige, dvs. tok feil; i denne sammenhengen skal kun teksten vurderes)) 22
Item 2: Gard og tekststrukturen Hannah: «det er jeg enig i. igjen [det er] dette med å se kvalitetene [i teksten]» Helen: «Det er åpenbart, ja. Hvis det er åpenbart så er jeg enig» Lars: «Hvis det er rotete denne gangen så [ ] bør han vel kanskje ikke få for god vurdering på struktur. Men neste gang vil han kanskje ha lært [ ] det.» Lisbeth: «Der står jeg på det jeg har svart. Jeg synes man beveger seg over på et litt sånt tvilsomt område hvis man begynner å synse altfor mye i forhold til det.» 23
Item 12 Frøydis mistenker at teksten hun har foran seg er en andrespråkstekst. Teksten har grove rettskrivings- og samsvarsbøyingsfeil, men hun mener at tegnsettingen er noe over det som er rimelig å forvente av en andrespråkselev. I valget mellom mestringsnivå M1 og M2 lar Frøydis derfor tegnsettingskompetansen til eleven slå positivt ut, og hun gir M2 på FRT. (I dette tilfelle: 1 poeng hvis enig, 0 poeng hvis uenig (45 % meldte seg enige, dvs. tok feil; også nå er det i denne sammenhengen kun teksten som skal vurderes)) 24
Hannah: «og igjen er det jo selvfølgelig det om å belønne noen ting [ ] det er større problem å forstå et budskap i en tekst som mangler tegnsetting enn det som mangler i form av skrivefeil. Så derfor tenker jeg også at det vil være riktig å belønne det» Helen: «Å sette M1 [ ] da signaliserer du at det er ikke noe mestring, da [ ] det er ikke snillisme [ ], men det blir det der å lete etter gullet [ ]. Lars: «nei, der er jeg veldig uenig [ ] De formelle kravene er jo akkurat det samme, så jeg tenker at dette er ikke den rette måten å kompensere for manglende språk» Lisbeth: «jeg er uenig. [ ]. Jeg synes hun må holde seg til det som er kriteriene» Jølle & Skar (u.a.) 25
Lärare snackar sammen: om att etablera gemensam syn på skrivförmåga Tre lärargrupper: Skola 1, Skola 2, Skola 3 Trinn 1 Gruppuppgift: läs elevtexter, diskutera skrivförmågan, ge ett resultat. Trinn 2 Individuell uppgift: ge ditt resultat Resultat: Intensiva diskussioner på Skola 1 och Skola 3. Något mindre intensiva på Skola 2, men: Bedömningssamtalen kan framför allt beskrivas som ett reflekterande samspel lärare emellan. På Skola 1 och Skola 3 viss oenighet i gruppen På Skola 2 total enighet under samtalet... men... Blomqvist (in press) 26
Individuella skillnader Skola 1: tre individuella skillnader Skola 3: tre individuella skillnader Skola 2: tolv individuella skillnader Gr. Ida Inez Ingrid Irma Isabel Diff. Elev 1 E E E E E D 1 Elev 2 D C D C B B 6 Elev 3 B B C A C D 5 Diff. ind. 1 1 2 3 5 (12) 27
Generellt resultat Bouwer, R., Béguin, A., Sanders, T.,&van den Bergh, H. (2015): för att uppnå acceptabel reliabilitet: «students should write at least four different texts in six different genres, that is, a total of 24 texts. These texts should be rated by at least three different raters» (s. 92) 28
Resultat Ord Men.- längd Långord LIX OVIX Uppgift A,72 -,27,75 -,07,36 Uppgift B,22 -,26,36 -,07,53 Uppgift A: Skriv en tekst der du utforsker årsaker til at røyking var mer akseptert i samfunnet før enn nå. Du skriver teksten til et hefte klassen din lager om rusmidler. Uppgift B: Forestill deg at du er på vei hjem en sen høstkveld og ser et merkelig lys. Skriv en tekst der du forteller om hva du opplevde denne kvelden. Tenk deg at du skal lese teksten opp for klassen, kanskje mens dere sitter i et mørkt rom med stearinlys. Skar & Berge (2017) 29
30 A Ord ML LO LIX OVIX B Ord,50-0,13 0,33-0,32 0,1 ML -0,29,80-0,2,81-0,13 LO,55-0,01,45-0,08 0,29 LIX -0,22,70-0,06,80 0,01 OVIX 0,32-0,22,45 0,09,71
Kan resultatet genraliseras? Uppgift A: Skriv en tekst der du utforsker årsaker til at røyking var mer akseptert i samfunnet før enn nå. Du skriver teksten til et hefte klassen din lager om rusmidler. 31
Gir tall noen mening? Nivå 2 I den sakpregede teksten gjøres et forsøk på å etablere en relevant relasjon mellom skriver og leser (jf. oppgaveformuleringen), men det kan være noe uklart hvorfor skriveren henvender seg til denne leseren. Nivå 5 Den sakpregede teksten etablerer en relevant relasjon mellom skriver og leser (jf. oppgaveformuleringen) og forholder seg konsekvent til denne leserens perspektiv. 32
Generaliserat resultat Generellt resultat {Likhet generellt resultat och resultat i måldomän; uppgift} Testresultat {Uppgiftsreliabilitet, reliabel bedömning} Elevtext/ Elevsvar {Kriterier, reliabel bedömning} Goda konskvenser Kane et al. (1999) 33
Litteratur Bouwer, R., Béguin, A., Sanders, T., & van den Bergh, H. (2015). Effect of genre on the generalizability of writing scores. Language Testing, 32(1), 83 100. https://doi.org/10.1177/0265532214542994 Cizek, G. J. (2012). An Introduction to Contemporary Standard Setting. In G. J. Cizek (Ed.), Setting performance standards: concepts, methods, and perspectives (2nd ed., pp. 3 14). New York: Routledge. Hanson, A. F. (2000). How Tests Create What They Intend to Measure. In A. Filer (Ed.), Assessment: social practice and social product (pp. 67 81). London: RoutledgeFalmer. Huot, B., & Neal, M. (2006). Writing Assessment. A Techno-History. In C. A. MacArthur, S. Graham, & J. Fitzgerald (Eds.), Handbook of writing research (pp. 417 432). New York. Jordan, B., & Putz, P. (2004). Assessment as Practice: Notes on Measures, Tests, and Targets. Human Organization, 63(3), 346 358. Retrieved from http://sfaa.metapress.com/openurl.asp?genre=article&issn=0018-7259&volume=63&issue=3&spage=346 Kane, M. T. (2017). Using Empirical Results to Validate Performance Standards. In S. Blömeke & J.-E. Gustafsson (Eds.), Standard Setting in Education (pp. 11 29). New York: Springer International Publishing AG. https://doi.org/10.1007/978-3-319-50856-6_2 Kane, M. T., Crooks, T. J., & Cohen, A. S. (1999). Validating Measures of Performance. Educational Measurement: Issues and Practice, 18(2), 5 17. https://doi.org/10.1111/j.1745-3992.1999.tb00010.x McNamara, T. F., & Roever, C. (2006). Language testing: the social dimension. Oxford: Blackwell. Resnick, L. B., & Resnick, D. P. (1992). Assessing the Thinking Curriculum: New Tools for Educational Reform. In B. R. Gifford & M. C. O Connor (Eds.), Changing assessments: alternative views of aptitude, achievement, and instruction (pp. 37 75). Boston: Kluwer Academic Publishers. Shohamy, E. (2001). Democratic assessment as an alternative. Language Testing, 18(4), 373 391. https://doi.org/10.1177/026553220101800404 Skar, G. B. (2013). Skrivbedömning och validitet. Fallstudier av skrivbedömning i svenskundervisning på gymnasiet. (Doktorsavhandling, Stockholms universitet). Retrieved from http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-88035 Skar, G. B., & Berge, K. L. (2017). Elevers skrivförmåga och texters kvantitativa egenskaper [Students writing proficiency and quantitative text features]. Trondheim: Nasjonalt senter for skriveopplæring og skriveforsking. Retrieved from http://www.skrivesenteret.no/uploads/materiell/lix-rapport.pdf Skar, G. B., & Jølle, L. (2017). Teachers as raters: Investigation of a long term writing assessment program. L1 Educational Studies in Language and Literature, 17 (Open Issue), 1 30. http://doi.org/10.17239/l1esll-2017.17.01.06 34