Flickor, pojkar och matematik En DIF-studie av TIMSS-resultaten bland svenska 13-åringar Anita Wester Christina Jonsson
INLEDNING Bakgrund Prestationsskillnader i matematik (och andra ämnen) mellan flickor och pojkar har varit föremål för många forskningsinsatser och studerats med olika utgångspunkter och förutsättningar. Till exempel har studierna omfattat elever i varierade åldrar, alltifrån lågstadiet (se t ex Fennema et al, 1998; Beller & Gafni, 1995) till gymnasieskola och college (se t ex Carlton & Harris, 1992; Hyde et al, 1990). Också uppgiftsformatet (flervalsuppgifter respektive egenproducerade uppgifter) har varierat (se t ex Berberoglu, 1995; Willingham & Cole, 1997; Lane, Wang & Magone, 1996), liksom metoderna för att undersöka prestationsskillnaderna. I tidigare studier användes framförallt skillnader i lösningsfrekvens som utgångspunkt för studier av prestationsskillnader i matematik. Det har t ex varit fallet i de 100 studier genomförda mellan åren 1963 till 1998 som varit föremål för en omfattande meta-analys 1 (Hyde et al, 1990). Dessa studier brukar sägas reflektera absoluta prestationsskillnader mellan flickor och pojkar. En sådan beskrivning, baserad på skillnader uppgiftens lösningsfrekvens, kan dock i vissa situationer misslyckas med att på ett korrekt sätt belysa de faktiska prestationsskillnader som föreligger. För att överkomma dessa problem har andra metoder, t ex Differential Item Functioning (DIF) kommit att användas i allt större omfattning. 1 Meta-analys definieras av Educational Testing Service (1992) på följande sätt: Metaanalysis is a way of providing a quantitative review of the literature. With meta-analysis, the researcher collects all the relevant studies, just as he or she would for any review of the literature, and computes a measure of the size of the effect in each sample. One measure of Mb Mg effect size (d) is: d = SD The effect size is the mean for boys minus the mean for girls divided by a standard deviation, which in most cases is a pooled within-group standard deviation. (p 58). För en detaljerad beskrivning av meta-analys och olika metoder att genomföra meta-analys, se Hunter & Schmidt (1990).
Differential Item Functioning DIF är alltså en analysmetod som går längre än att bara jämföra lösningsfrekvenser vid studier av prestationsskillnader i t ex matematik. Denna metod har på senare tid vunnit alltmera terräng och betraktas numera som det kanske mest fruktbara sättet att studera prestationsskillnader i t ex matematik. Differential Item Functioning innebär att man konstanthåller prestationen vid gruppjämförelser av p-värden för varje uppgift. Metoden baseras på antagandet att om testtagarna har samma kunskap om det som mäts (mätt genom total testpoäng eller något annat kriterium) bör de prestera likvärdigt på (var och en av) de enskilda uppgifterna oavsett grupptillhörighet, t ex kön. För att ytterligare förklara grunden för DIF-analyser refereras den definition som Angoff (1993) gav: Finally, the expression differential item functioning (DIF) came into use, referring to the simple observation that an item displays different statistical properties in different group settings (after controlling for differences in the abilities of groups).... (p 4). I föreliggande rapport används begreppen favoriserar, gynnar, till förmån för, etc. synonymt med uppvisar negativ/positiv DIF, flaggas som DIF osv. Inget av dessa begrepp skall tolkas i absoluta termer, utan med dessa formuleringar avses t ex att en uppgift fungerar bättre bland flickorna än bland pojkarna i relation till andra typer av uppgifter, eller vice versa. Lane, Wang & Magone (1996) har undersökt DIF (med hjälp av LDFA, som utläses logistic discriminant function analysis) med fokus på kön bland elever i årskurs 6 och 7 med hjälp av QCAI (QUASAR Cognitive Assessment Instrument) som innehåller öppna uppgifter i matematik (se också Wang & Lane, 1996). De fann att av de 36 uppgifterna befanns två gynna pojkar medan fyra gynnade flickor. De två som var DIF till pojkarnas fördel handlade om geometri samt kvoter/proportioner, medan de som gynnade flickor fanns i kategorierna taluppfattning, överslagsberäkning, mönster och proportionalitet. Det totala antalet uppgifter i varje innehållskategori av artikeln framgår dock inte av artikeln, vilket begränsar värdet av den, eftersom det ju inte är antalet uppgifter med DIF per se utan snarast andelen DIF-uppgifter som är intressant. Förekomst av DIF på öppna uppgifter har också undersökts av Lawrence, Lyu & Feigenbaum (1995), som genomförde sin undersökning på basis av uppgifter i SAT I. Resultatet visar att förekomsten av DIF på de öppna uppgifterna är marginell och resultaten liknar de som erhållits vid DIF-studier av flervalsuppgifter i SAT. En granskning av uppgifternas diskrimination (i form av biserial korrelation (r bis ) mellan uppgiften och den totala testpoängen) i relation till förekomst av DIF visade 2
att uppgifter med hög diskrimination (>.60) uppvisade kraftigare DIF i såväl negativ (gynnar män) som positiv riktning (gynnar kvinnor). Uppgifter med lägre grad av diskriminering (<.60) uppvisade endast positiv DIF. In en undersökning av Berberoglu (1995) studerades förekomsten av DIF in inträdesprövningarna i matematik till universitet i Turkiet (University Entrance Examinations). Testet består av 32 flervalsuppgifter, av vilka 19 mäter förmåga i numerisk räkning, 5 är uppgifter med kontext och mäter begrepp och principer i geometri. Resultaten visade att beräkningsuppgifter gynnade manliga studenter, medan uppgifter med kontext och geometri gynnade kvinnliga studerande. Detta indikerar, enligt författaren, att kvinnor är bättre på uppgifter som mäter verbal och spatial förmåga, medan män är bättre på beräkningsuppgifter. Resultatet går emot många av de studier som presenterats i litteraturen. Bielinski & Davison (1998) tar i sin studie utgångspunkten i att pojkar har högre variation än flickor i uppnådda matematikpoäng och menar att det kan antas föreligga en interaktion mellan kön och uppgiftens svårighetsgrad på så sätt att lätta uppgifter är lättare för flickor än för pojkar, medan svåra uppgifter är svårare för flickor än för pojkar. Samplet bestod av 10 321 elever i årskurs 8 i Minnesota. Resultaten visade att pojkar presterade bättre än flickor på svåra uppgifter, medan flickor presterade bättre än pojkar på lätta uppgifter. Författarna menar att det är olika förmågor som mäts med lättare jämfört med svåra uppgifter. Det är möjligt, säger man, att vissa förmågor som flickor är bättre på (t ex läsförståelse, noggrannhet) kommer mera till uttryck i lätta uppgifter, medan förmågor som pojkar är bättre på (t ex matematiska resonemang och spatial visualisering) oftare förekommer i svåra uppgifter. Bielinski & Davison menar vidare att Harris och Carltons (1993) resultat borde granskas i ljuset av uppgifternas svårighetsgrad, i stället för att för att titta separat på variabler som t ex uppgiftsinnehåll. Alla resultat pekar dock inte i samma riktning. O Neill, McPeak & Wild (1993) har med hjälp av Mantel-Haenszel metoden identifierat differentiellt fungerande uppgifter (DIF) på GMAT (Graduate Management Admission Test). De undersökte bland annat sambandet mellan DIF, med avseende på kön och uppgifternas svårighetsgrad och fann överlag endast svaga samband. Också Kulick & Hu (1989) har undersökt uppgifternas svårighetsgrad i relation till DIF på flervalsuppgifter i SAT, verbal och matematisk del. De fann inget samband mellan uppgiftens svårighetsgrad och DIF med fokus på kön, vare sig på den verbala eller matematiska delen av provet. DIF studier på gymnasieelever med höga resultat på SAT-M genomfördes av Gallagher (1992). Resultaten indikerade att majoriteten av de uppgifter som favoriserade pojkarna krävde matematisk insikt, medan alla uppgifter som gynnade flickor krävde standardalgoritmer för att kunna lösas. 3
Vid Educational Testing Service (ETS) genomförde Carlton & Harris (1992) en undersökning med syfte att utröna om vissa karakteristika hos prov eller flervalsuppgifter är associerade med DIF. De analyserade resultaten av sex uppsättningar av SAT-M (Scholastic Aptitude Test Mathematics) som sammanlagt innehöll data från 181 228 manliga och 198 688 kvinnliga studerande på gymnasienivå. Varje SAT-M version innehöll 60 uppgifter: 40 problemlösningsuppgifter av vanlig karaktär (flervalsformat) och 20 kvantitativa jämförelseuppgifter i ett format som kräver ett avgörande (bedömning) om en kvantitet är mindre än, större än, lika stor som, eller på ett obestämt sätt relaterad till en annan kvantitet. Uppgifterna karakteriserades i tre huvudgrupper: (1) Uppgiftsinnehåll, t ex aritmetik, algebra, geometri; (2) Uppgiftsformat, t ex längden på stam, läsbarhet; (3) Uppgiftens inramning/grad av abstraktion, t ex abstrakt eller verkligt problem, innehåll av variabler, överensstämmelse med läroboken. De fann att manliga studerande presterade relativt sett bättre än kvinnliga på uppgifter i geometri/aritmetik, medan kvinnliga studerande presterade relativt sett bättre på uppgifter i aritmetik/algebra och blandade uppgifter. Vidare konstaterar man att män presterade relativt sett bättre på uppgifter innehållande figurer, diagram eller tabeller, medan det omvända gällde för uppgifter utan grafer. Det mest anmärkningsvärda resultatet är dock, enligt Harris och Carlton (1993), att kvinnliga studerande presterade relativt sett bättre än manliga på abstrakta uppgifter samt på uppgifter som innehöll variabler, som X eller a medan männen hade ett högre resultat, relativt sett, på uppgifter som var hämtade från verkligheten (se också Ramstedt, 1996). Detta resultat kan antyda att manliga studerande oftare än kvinnliga använder matematik i vardagen (Harris & Carlton, 1993). Sammanfattningsvis konstateras att manliga och kvinnliga studerande som uppnår samma totalpoäng uppvisar långtifrån samma svarsmönster. Differential item functioning i matematik på gymnasienivå med fokus på kön har undersökts av Wester & Jonsson (1998). Resultaten visar att det är svårt, för att inte säga omöjligt, att predicera DIF för en enskild uppgift. Analyserna med utgångspunkt i vilken kognitiv process som behövs för att lösa uppgifterna visar en tendens till att fler uppgifter av rutinkaraktär uppvisar positiv DIF (gynnar flickor), medan fler uppgifter av problemlösningstyp visar negativ DIF. Vidare visar analyserna att ekvationer samt derivator/integraler uppvisar oftare positiv DIF, medan statistikuppgifter i högre utsträckning ger negativ DIF. Sammanfattningsvis kan konstateras att forskningen om könsskillnader i prestation i matematik har genomförts från en rad skilda utgångspunkter och med olika metoder. Resultatbilden är heller inte entydig och det är svårt att peka ut några tendenser eller trender i materialet. 4
SYFTE Syftet med denna studie har varit att undersöka förekomsten av DIF, med fokus på kön, hos uppgifter i matematik. Följande frågeställningar har studerats: (1) Är förekomsten av uppgifter med DIF till förmån för flickor respektive pojkar densamma i olika innehållskategorier i matematik? (2) Är förekomsten av uppgifter med DIF till förmån för flickor respektive pojkar densamma på olika svårighetsnivåer? (3) Är förekomsten av uppgifter med DIF till förmån för flickor respektive pojkar densamma för uppgifter som kräver olika kognitiva funktioner (processer) eller förmåga? (4) Finns det någon relation mellan förekomst av DIF och uppgifternas diskriminationsförmåga? METOD Material och genomförande De data som utgör underlag för denna studie är hämtade från TIMSS (The Third International Mathematics and Science Study) som administrerades till ett stickprov av 13- åriga elever i grundskolan, dvs. elever i årskurs 6, 7 och 8. För ytterligare beskrivning av studien och dess resultat, se Skolverket (1996 & 1998). Analyserna har genomförts med hjälp av ConQuest Programme för DIF-studier som baseras på Rasch 1-parametermodell. Metoden beskrivs av Wu, Adams, & Wilson (1997) på följande sätt: Within the context of Rasch modelling an item is deemed to exhibit differential item functioning (DIF) if the response probabilities for that item cannot be fully explained by the ability of the student and a fixed set of difficulty parameters for that item. Through the use of its multi-faceted modelling capabilities, and more particularly its ability to model interactions between facets, ConQuest provides a powerful set of tools for examining DIF (s 77). Som mått på förmåga (ability) har i denna studie används rachpoäng (för en närmare beskrivning rachpoäng, se Törnkvist, 1998). 5
IRT baserade modeller 2 kräver normalt stickprov på mellan 200-1000 individer, beroende på modell, för att fungera optimalt (se också Suen, 1990). I denna studie ligger stickprovsstorleken på cirka 3000 i åk 6, 4000 i åk 7 och knappt 1000 i åk 9 (se också under rubriken Deltagare). Samplingsförfarandet sådant att vi ej har obundet slumpmässigt urval. Det har därför varit nödvändigt att genomföra en viktning av stickprovsresultaten för att kunna uttala oss om den studerade populationen, som totalt omfattar knappt 100 000 elever per årskurs (för ytterligare detaljer, se Törnkvist, 1998). Statistiska test har använts för att avgöra om en uppgift är DIF med avseende på kön. Dessa test har utförts på signifikansnivån 5%. I analysen ingår 125 flervalsuppgifter, fördelade på 8 häften. Uppgifterna har indelats i ett flertal kluster (klustren A-R, V när det gäller flervalsuppgifter i matematik). Bland uppgifterna finns 6 så kallade ankaruppgifter som återfinns i alla häften 3. Eftersom vissa uppgifter kommer att användas i liknande framtida studier, har dessa uppgifter ej publicerats. De får endast användas i forskningssammanhang. Klustrens fördelning på olika häften presenteras i tabell 1. 2 För en beskrivning av olika modeller se t ex Hambleton & Swaminathan (1985). 3 Uppgifterna benämns A 1-6. 6
Tabell 1. Klustrens fördelning på olika häften. Häfte Uppgiftskluster 1 2 3 4 5 6 7 8 A (6) x x x x x x x x B (6) x x x x C (6) x x x D (6) x x x E (6) x x x F (6) x x x G (6) x x x H (6) x x x I (7) x J (7) x K (7) x L (9) x M (7) x N (7) x O (7) x P (9) x Q (9) x R (6) x V (1) x Av tabell 1 framgår att uppgifterna i kluster A, bestående av sex uppgifter, utgör de så kallade ankaruppgifterna som förekommer i alla häften. Uppgifterna i kluster B- H, de hemliga klustren, förekommer i 3-4 häften, medan uppgifterna i kluster I V, de publicerade klustren, endast förekommer i ett häfte vardera. Uppgifterna har klassificerats med avseende på innehållskategori och kognitiv process som behövs för att lösa uppgiften. Detta har gjorts centralt och gemensamt för samtliga deltagande länder (se Doc. Ref.: ICC169, NPC029). Uppgifternas fördelning på innehållskategorier och typ av kognitiv process som krävs för att lösa respektive uppgift redovisas i tabell 2. 7
Tabell 2. Totala antalet uppgifter fördelade på innehållskategori och kognitiv process. Innehållskategori Kognitiv process Totalt Grundläggande förståelse Rutinprocedurer Problemlösning Taluppfattning 9 21 11 41 Geometri 5 11 6 22 Algebra 8 9 5 22 Statistik 3 9 7 19 Mätningar 6 5 2 13 Proportionalitet - 5 3 8 Alla 31 60 34 125 Tabell 2 visar att taluppfattning, 41 uppgifter, är den innehållskategori som är vanligast, medan proportionalitet är den minsta kategorin med 8 uppgifter. Grundläggande förståelse är den mest förekommande typen av kognitiv process som behövs för att lösa uppgifterna. Deltagare Det svenska stickprovet i TIMSS population 2 består av 2818 elever i årskurs 6, varav 1374 flickor och 1444 pojkar, 4063 elever i årskurs 7, varav 1979 flickor och 2084 pojkar, samt 1944 elever i årskurs 8, varav 968 flickor och 976 pojkar. Sammanlagt har alltså nära 9000 elever fördelade på tre årskurser ingått i studien. Antalet elever som besvarat uppgifterna i respektive häfte redovisas i tabell 3. 8
Tabell 3. Antalet elever per häfte. Häfte nr Årskurs 6 7 8 Fl Po Fl Po Fl Po 1 165 163 218 259 106 121 2 175 178 264 261 127 122 3 173 189 229 278 123 113 4 185 178 256 254 131 128 5 177 185 271 250 130 129 6 178 180 261 264 130 112 7 165 165 220 239 110 124 8 156 206 260 279 111 127 Totalt 1374 1444 1979 2084 968 976 Av tabell 3 framgår att antalet elever per häfte är relativt jämnt fördelat inom respektive årskurs. RESULTAT Provresultaten i sin helhet samt de definitioner av poängskalor som använts vid internationella och nationella jämförelser finns presenterade i Skolverket (1996) samt Beaton et al (1996). Poängskillnaderna mellan flickor och pojkar är för svenskt vidkommande mycket små. I årskurs 6 är skillnaden till 5 poäng till pojkarnas fördel (internationellt medelvärde 484), i årskurs 7 är skillnaden 2 poäng till pojkarnas fördel (internationellt medelvärde 513) och i årskurs 8 är skillnaden 2 poäng till flickornas fördel (internationellt medelvärde saknas, eftersom årskurs 8 är ett tillägg som gjorts endast i Sverige och Danmark). Resultat av DIF-analyserna Resultaten av analyserna presenteras först uppdelat på årskurs och därefter ges en översikt över den totala resultatbilden. I årskurs 6 flaggas 31 uppgifter som DIF, varav 15 med positiv DIF (gynnar flickor) och 16 med negativ DIF (gynnar pojkar), vilket framgår av tabell 4. 9
Tabell 4. Antalet uppgifter som i årskurs 6 flaggats som DIF (5%-nivån) till flickornas fördel (fl) respektive pojkarnas fördel (po). Totalt och uppdelat på innehållskategori samt typ av kognitiv process. Innehållskategori Kognitiv process Totalt Grundläggande förståelse Rutinprocedurer Problemlösning Taluppfattning 2 fl, 2 po 2 fl, 2 po 1 fl 5 fl, 4 po Geometri 1 fl, 3 po 2 po 1 fl 2 fl, 5 po Algebra 1 fl 3 fl - 4 fl Statistik 4 fl, 1 po - - 4 fl, 1 po Mätningar 1 po 3 po - 4 po Proportionalitet 1 po - 1 po 2 po Alla 8 fl, 8 po 5 fl, 7 po 2 fl, 1 po 15 fl, 16 po Det föreligger ingen tydlig relation mellan typ av kognitiv process som behövs för uppgiftens lösning och riktning av DIF. Konkret illustreras detta av att andelen uppgifter som gynnar flickor respektive pojkar är tämligen lika i de tre kognitiva kategorierna. I innehållskategorierna geometri, mätningar och proportionalitet finns en högre andel uppgifter med DIF till pojkarnas fördel, medan det omvända gäller för algebra och statistik. I tabell 5 redovisas lösningsfrekvensen (p) för de 31 uppgifter som flaggats som DIF för flickor respektive pojkar i årskurs 6. 10
Tabell 5. Lösningsfrekvens (p) för de uppgifter som flaggats som DIF för flickor (fl) respektive pojkar (po. Årskurs 6. Uppgift nr Kön p P17 fl.94 Q04 fl.89 H08 fl.83 F10 po.75 D09 po.75 F10 po.75 A06 fl.73 G02 po.73 R06 fl.73 I07 fl.70 E04 fl.66 B07 fl.65 L08 po.64 B11 fl.61 N12 po.60 A01 po.53 A04 po.53 B09 fl.53 M02 po.51 M05 po.51 K03 po.49 C03 fl.48 B08 po.47 D10 fl.46 I03 po.44 Q07 fl.44 B10 po.43 C01 po.40 O03 po.32 P15 fl.29 R09 fl.24 Medelvärdet av lösningsfrekvensen för de uppgifter som gynnar flickor är.61 och de som gynnar pojkar.55. En jämförelse med medianen (.53) som utgångspunkt visar att av andelen uppgifter med positiv DIF finns 60% över medianen medan 62% av uppgifterna med negativ DIF ligger på eller under medianen. Detta kan ge en indikation om ett visst samband mellan riktning av DIF och uppgifternas lösningsfrekvens. I tabell 6 redovisas diskriminationsförmåga(r bis ) för de uppgifter som flaggats som DIF för flickor respektive pojkar i årskurs 6. 11
Tabell 6. Diskriminationsförmåga(r bis ) för de uppgifter som flaggats som DIF för flickor (fl) respektive pojkar (po). Årskurs 6. Uppgift nr Kön r bis B10 po.59 A01 po.58 D09 po.54 B11 fl.49 C01 po.49 A04 po.48 E04 fl.47 F10 po.47 B07 fl.46 C03 fl.45 L08 po.45 Q07 fl.45 H08 fl.44 I07 fl.41 D10 fl.40 E01 po.40 B09 fl.38 G02 po.37 O03 po.35 A06 fl.33 N12 po.32 Q04 fl.32 R06 fl.31 B08 po.29 M05 po.29 K03 po.28 I03 po.25 P15 fl.24 M02 po.21 P17 fl.21 R09 fl.17 Medelvärdet av diskriminationen (r bis ) är.37 för uppgifter med positiv DIF och.40 bland uppgifter med negativ DIF. Andelen uppgifter över medianen med positiv DIF är 53%, medan andelen uppgifter över medianen med negativ DIF är 44%. I årskurs 7 flaggas 32 uppgifter som DIF, varav 12 med positiv DIF (gynnar flickor) och 20 med negativ DIF (gynnar pojkar), vilket framgår av tabell 7. 12
Tabell 7. Antalet uppgifter som i årskurs 7 flaggats som DIF (5%-nivån) till flickornas fördel (fl) respektive pojkarnas fördel (po). Totalt och uppdelat på innehållskategori samt typ av kognitiv process. Innehållskategori Kognitiv process Totalt Grundläggande förståelse Rutinprocedurer Problemlösning Taluppfattning 3 fl, 2 po 3 po 2 fl 5 fl, 5 po Geometri 3 pol 2 fl 1 fl, 1 po 3 fl, 4 po Algebra - 2 fl 1 fl, 1 po 3 fl, 1 po Statistik 1 fl, 1 po - 2 po 1fl, 3 po Mätningar 1 po 2 po - 3 po Proportionalitet 2 po - 2 po 4 po Alla 4 fl, 9 po 4 fl, 5 po 4 fl, 6 po 12 fl, 20 po Av tabell 7 framgår att mönstret vad gäller relationen mellan kognitiv process och riktning av DIF i stort sett är detsamma i årskurs 7 som i årskurs 6. Andelen uppgifter med positiv DIF liksom andelen med negativ DIF är relativt lika i två av de tre kognitiva kategorierna, medan något fler uppgifter av rutinkaraktär flaggas till pojkarnas fördel. I innehållskategorierna taluppfattning och algebra finns en högre andel uppgifter med DIF till flickornas fördel, medan en högre andel uppgifter som gynnar pojkarna kan ses i kategorierna mätningar och proportionalitet. I tabell 8 redovisas lösningsfrekvensen (p) för de 32 uppgifter som flaggats som DIF för flickor respektive pojkar i årskurs 7. 13
Tabell 8. Lösningsfrekvens (p) för de uppgifter som flaggats som DIF för flickor (fl) respektive pojkar (po). Årskurs 7. Uppgift nr Kön p Q04 fl.93 R12 fl.88 D09 po.85 A02 po.84 F10 po.82 P14 fl.82 M03 po.81 E01 po.78 R06 fl.77 E04 fl.75 B10 po.71 A01 po.68 B12 fl.68 H11 po.68 B09 fl.65 N12 po.65 D08 po.64 A04 po.63 M05 po.61 N14 po.60 A05 fl.56 I03 po.56 C03 fl.55 C05 fl.55 D07 po.54 B08 po.52 K06 po.51 P10 fl.51 C01 po.49 J11 fl.43 E02 po.35 F07 po.29 Den genomsnittliga lösningsfrekvensen för uppgifter som gynnar flickor är.67 och för uppgifter som gynnar pojkar.63. Andelen uppgifter med positiv DIF som ligger över medianen (.645) är 58%, medan motsvarande andel för uppgifter med negativ DIF är 45%. Sålunda skönjs en antydan till att lättare uppgifter oftare gynnar flickor. I tabell 9 redovisas diskriminationsförmågan (r bis ) för de uppgifter som flaggats som DIF för flickor respektive pojkar i årskurs 7. 14
Tabell 9. Diskriminationsförmåga(r bis ) för de uppgifter som flaggats som DIF för flickor (fl) respektive pojkar (po). Årskurs 7. Uppgift nr Kön r bis B10 po.63 A01 po.61 A04 po.54 E04 fl.53 C03 fl.52 C01 po.50 F10 po.49 H11 po.49 B12 fl.47 D09 po.46 N14 po.46 P14 fl.45 A05 fl.44 C05 fl.44 R06 fl.44 E01 po.43 B09 fl.40 D07 po.39 M03 po.39 E02 po.37 M05 po.36 R12 fl.36 A02 po.35 K06 po.34 B08 po.33 F07 po.32 N12 po.31 D08 po.30 I03 po.29 P10 fl.29 J11 fl.28 Q04 fl.28 Den genomsnittliga diskriminationsförmågan (r bis ) hos uppgifter som gynnar flickor är.41 och hos de som gynnar pojkar.42. En jämförelse med utgångspunkt i medianen (.415) visar att 45% av uppgifterna med negativ DIF återfinns över medianen, medan 58% av uppgifterna med positiv DIF ligger över medianen. 15
I årskurs 8 flaggas 22 uppgifter som DIF, varav 14 med positiv DIF (gynnar flickor) och 8 med negativ DIF (gynnar pojkar), vilket framgår av tabell 10. Tabell 10. Antalet uppgifter som i årskurs 8 flaggats som DIF (5%-nivån) till flickornas fördel (fl) respektive pojkarnas fördel (po). Totalt och uppdelat på innehållskategori samt typ av kognitiv process. Innehållskategori Kognitiv process Totalt Grundläggande förståelse Rutinprocedurer Problemlösning Taluppfattning 3 fl, 3 po 1 po 3 fl 6 fl, 4 po Geometri 1 po 1 fl 1 fl 2 fl, 1 po Algebra - 1 fl - 1 fl Statistik 2 fl, 1 po - - 2 fl, 1 po Mätningar 2 fl, 1 po - - 2 fl, 1 po Proportionalitet 1 fl, 1 po - - 1 fl, 1 po Alla 8 fl, 7 po 2 fl, 1 po 4 fl 14 fl, 8 po Av tabell 10 framgår att bilden är delvis annorlunda i årskurs 8 jämfört med de två andra årskurserna. En högre andel uppgifter av problemlösningskaraktär flaggas som DIF till förmån för flickorna, medan det omvända gäller för användande av rutinprocedurer för uppgiftens lösning. Andelen uppgifter med positiv och negativ DIF är tämligen jämnt fördelad inom var och en av innehållskategorierna. I tabell 11 redovisas lösningsfrekvensen (p) för de 22 uppgifter som flaggats som DIF för flickor respektive pojkar i årskurs 8. 16
Tabell 11. Lösningsfrekvens (p) för de uppgifter som flaggats som DIF för flickor (fl) respektive pojkar (po). Årskurs 8. Uppgift nr Kön p Q04 fl.95 R12 fl.91 E01 po.85 A03 fl.84 A06 fl.81 L08 po.79 B10 po.78 E04 fl.78 G05 fl.77 P13 fl.77 B12 fl.71 V03 fl.71 B09 fl.70 A04 po.69 A05 fl.68 C03 fl.66 K03 po.64 K06 po.63 M04 po.57 E06 fl.56 Q03 po.43 K09 fl.34 Tabell 11 visar att uppgifter med positiv DIF (som gynnar flickor) tycks ha något högre lösningsfrekvens än uppgifter som gynnar pojkar. Den genomsnittliga lösningsfrekvensen för uppgifter som flickor relativt sett klarar bättre än pojkar är.73 medan motsvarande värde för uppgifter som gynnar pojkar är.67. Andelen uppgifter med positiv DIF över medianen (.71) är 57% medan andelen uppgifter med negativ DIF som ligger över medianen är 38%. Detta indikerar att lättare uppgifter i högre omfattning gynnar flickorna. I tabell 12 redovisas diskriminationsförmåga (r bis ) för de uppgifter som flaggats som DIF för flickor respektive pojkar i årskurs 8. 17
Tabell 12. Diskriminationsförmåga (r bis ) för de uppgifter som flaggats som DIF för flickor (fl) respektive pojkar (po). Årskurs 8. Uppgift nr Kön r bis V03 fl.67 B10 po.56 C03 fl.56 G05 fl.55 A04 po.52 B12 fl.52 E04 fl.50 M04 po.50 A03 fl.46 A05 fl.46 P13 fl.43 E06 fl.42 K09 fl.42 B09 fl.41 K06 po.39 E01 po.38 Q03 po.38 K03 po.36 L08 po.36 R12 fl.36 A06 fl.35 Q04 fl.15 Den genomsnittliga diskriminationsförmågan (r bis ) är densamma,.45, för uppgifter som gynnar flickor (positiv DIF) respektive pojkar (negativ DIF). Fördelningen av uppgifter med DIF utifrån medianen (.425) visar att 57% av uppgifterna med positiv DIF ligger över medianen, medan endast 38% av uppgifterna med negativ DIF återfinns över medianen. 18
DISKUSSION I undersökningen har 125 flervalsuppgifter fördelade på åtta häften ingått. I årskurs 6 flaggades 31 uppgifter som DIF, varav 15 gynnade flickor och 16 var till pojkarnas favör, i årskurs 7 flaggades 32 uppgifter (12 till flickornas fördel och 20 till pojkarnas favör) och i årskurs 8 identifierades 22 uppgifter som DIF, av vilka 14 gynnade flickorna och 8 var till pojkarnas fördel. Analyserna av DIF i relation till innehållskategori ger inget entydigt mönster. I årskurs 6 flaggas en högre andel uppgifter med DIF till pojkarnas fördel i geometri, mätningar och proportionalitet, medan uppgifter i algebra och statistik i högre grad uppvisar positiv DIF, dvs. gynnar flickor. Mönstret för årskurs 7 påminner till vissa delar, men inte helt, om det i årskurs 6. Uppgifter i kategorierna taluppfattning och algebra flaggas oftare som DIF till flickornas fördel, medan en högre andel uppgifter i mätningar och proportionalitet visar DIF till förmån för pojkar. I årskurs 8 är andelen uppgifter med positiv och negativ DIF tämligen jämnt fördelad inom var och en av innehållskategorierna. Sammantaget är det svårt att urskilja någon tydlig tendens, men en försiktig antydan skulle kunna vara att uppgifter i algebra oftare gynnar flickor (se också Carlton & Harris, 1993), medan uppgifter i mätningar och proportionalitet oftare flaggas som DIF till pojkarnas favör. Inte heller vid analysen av DIF i relation till vilken kognitiv process som krävs för att lösa uppgiften framträder några klara och entydiga resultat. I årskurserna 6 och 7 är andelen uppgifter med positiv respektive negativ DIF relativt lika inom de tre kognitiva kategorierna, dock finns en tendens i årskurs 7 att en högre andel rutinuppgifter flaggas som DIF till pojkarnas fördel. I årskurs 8 uppvisar fyra problemlösningsuppgifter DIF, samtliga till flickornas favör, medan en överväldigande majoritet av de uppgifter som uppvisar negativ DIF (gynnar pojkar) är av rutinkaraktär. Resultaten går stick i stäv med de resultat som Wester & Jonsson (1998) funnit i en studie av elever på naturvetenskaplig och teknisk linje. Den senare elevgruppen är emellertid inte bara äldre än den grupp som undersökts i föreliggande studie, den kan också beskrivas som selekterad med avseende matematisk förmåga, något som skulle kunna förklara den bristande överensstämmelsen i resultat. Studier av uppgiftens svårighetsgrad i relation till DIF visar varierande resultat. Bielinski & Davison (1998) har funnit en interaktion mellan kön och svårighetsgrad på så sätt att pojkar presterade bättre än flickor på svåra uppgifter, medan flickor presterade bättre än pojkar på lätta uppgifter. I andra studier, t ex O Neill, McPeak & Wild (1993) liksom Kulick & Hu (1989) har man däremot inte kunnat påvisa något samband mellan svårighetsgrad och DIF med fokus på kön. I föreliggande studie har relationen mellan uppgiftens svårighetsgrad och riktning av DIF studerats ur två aspekter, dels genom att helt enkelt jämföra den genomsnittliga lösningsfrekvensen för uppgifter med negativ respektive positiv DIF och dels ge- 19
nom att jämföra andelen uppgifter med negativ respektive positiv DIF över (eller under) medianen. Oavsett vilken approach som används ses i samtliga årskurser en tendens till att lätta uppgifter oftare uppvisar positiv DIF (gynnar flickor), medan svåra uppgifter oftare visar negativ DIF (gynnar pojkar). Uppgifternas diskriminationsförmåga i relation till DIF har, liksom svårighetsgraden, studerats dels genom att jämföra gemsnittliga värden på diskriminationsförmåga för uppgifter med negativ respektive positiv DIF och dels genom att jämföra andelen uppgifter med positiv respektive negativ DIF över (eller under) medianen. Jämförelsen av genomsnittlig diskriminationsförmåga hos uppgifter med positiv och negativ DIF visar ingen skillnad och värdena visar mycket hög överensstämmelse i samtliga tre årskurser. Andelen uppgifter positiv DIF som ligger över medianen är i samtliga årskurser aningen högre än andelen uppgifter med negativ DIF. Det sammantagna resultatet blir att inget klart samband kan ses mellan uppgiftens diskriminationsförmåga och DIF med fokus på kön. En jämförelse av resultaten mellan årskurser visar ingen fullständig överensstämmelse mellan de tre årskurserna. Resultaten för årskurserna 6 och 7 uppvisar dock en hel del likheter, medan bilden för årskurs 8 på många sätt avviker. I föreliggande studie har fyra slag av uppgiftskarakteristika analyserats separat med avseende på förekomst och riktning av DIF. Som tidigare påpekats är det svårt att dra några tydliga slutsatser utifrån de presenterade resultaten, vilket naturligtvis kan bero på många olika saker. Det kanske förhåller sig så att de undersökta egenskaperna faktiskt inte har något direkt samband med DIF fokuserat på kön. Det kan också vara så det finns interaktioner mellan de undersökta uppgiftskarakteristika och förekomst av DIF som inte fångas upp i de separata analyserna. En hypotes om interaktion mellan uppgiftens svårighetsgrad och vilka förmågor den mäter lanseras av Bielinski & Davison (1998), som menar att vissa förmågor mäts med lättare uppgifter, medan andra förmågor mäts med svårare uppgifter. Det är möjligt, säger författarna, att vissa förmågor som flickor är bättre på, t ex läsförståelse och noggrannhet, kommer mera till uttryck i lätta uppgifter, medan förmågor som pojkar är bättre på, t ex matematiska resonemang och spatial visualisering, oftare förekommer i svåra uppgifter. Fortsatta studier på området borde kanske därför inriktas mot att undersöka sådana tänkbara interaktioner mellan olika egenskaper hos uppgifterna. 20
REFERENSER Angoff, W.H. (1993). Perspectives on Differential Item Functioning Methodology. In P. Holland & H. Wainer (Eds.), Differential Item Functioning (pp. 3-23). Dublin: Educational Research Center. Beaton, A.E., Mullis, LV.S., Martin, M.O., Gonzales, E.J., Kelly, D.L., & Smith, T.A. (1996a). Mathematics Achievement in the Middle School Years. IEA 's Third International Mathematics and Science Study. Boston College, Chestnut Hill, MA: TIMSS International Study center. Beller, M., & Gafni, N. (1995). International Perspectives on the Schooling and Learning Achievement of Girls and Boys as Revealed in the 1991 International Assessment of Educational Progress (IAEP). Jerusalem: National Institute for Testing and Evaluation. Berberoglu, G. (1995). Differential Item Functioning (DIF) Analysis of Computation, Word Problem and Geometry Questions across Gender and SES Groups. Studies in Educational Evaluation, 21, 439-456. Bielinski, J., & Davison, M.L. (1998). Gender Differences by Item Difficulty Interactions in Multiple-Choice Mathematics Items. American Educational Research Journal, 45(3), 455-476. Carlton, S.T., & Harris, A.M. (1992). Characteristics Associated with Differential Item Functioning on the Scholastic Aptitude Test: Gender and Majority/Minority Group Comparisons. (ETS Research Report No. 92-64). Princeton, NJ: Educational Testing Service. Educational Testing Service. (1992). Sex Equity in Educational Opportunity, Achievement, and Testing. Proceedings of the 1991 ETS Invitational Conference. Princeton, NJ: Educational Testing Service. Fennema, E., Carpenter, T.P., Jacobs, V.R., Franke, M.L., & Levi, L.W. (1998). A Longitudinal Study of Gender Differences in Young Children s Mathematical Thinking. Educational Researcher, 27(5), 6-11. Gallagher, A.M. (1992). Sex Differences in Problem-Solving Strategies Used by High-Scoring Examinees on the SAT-M. (ETS Research Report No. 92-33). Princeton, NJ: Educational Testing Service. 21
Harris, A.M., & Carlton, S.T. (1993). Patterns of Gender Differences on mathematics Items on the Scholastic Aptitude Test. Applied Measurement in Education, 6(2), 137-151. Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory. Principles and Applications. Boston: Kluwer-Nijhoff Publishing. Hunter, J.E., & Schmidt, F.L. (1990). Methods of Meta-Analysis. Correcting Error and Bias in Research Findings. London: SAGE Publications. Hyde, J.S., Fennema, E., & Lamon, S.J. (1990). Gender Differences in Mathematics Performance: A Meta-Analysis. Psychological Bulletin, 107(2), 139-155. International Coordinating Centre. (1991). Third International Mathematics and Science Study. Mathematics Curriculum Framework (Explanatory notes). Doc. ref.: ICC169, NPC029. Vancouver, Canada: University of British Columbia. Kulick, E., & Hu, P.G. (1989). Examining the Relationship between Differential Item Functioning and Item Difficulty. (College Board Report No. 89-5). New York: College Entrance Examination Board. Lane, S., Wang, N., & Magone, M. (1996). Gender-Related Differential Item Functioning on a Middle-School Mathematics performance Assessment. Educational Measurement: Issues and Practice, 15(4), 21-27, 31. Lawrence, I.M., Lyu, C.F., & Feigenbaum, M.D. (1995). DIF data on freeresponse SAT I mathematical items. (ETS Research Report No. 95-22). Princeton, NJ: Educational Testing Service. O Neill, K.A., McPeek, W.M., & Wild, C.L. (1993). Differential Item Functioning on the Graduate Management Admission Test. (ETS Research Report No. 93-95). Princeton, NJ: Educational Testing Service. Ramstedt, K. (1996). Elektriska flickor och mekaniska pojkar. Om gruppskillnader på prov en studie av skillnader mellan flickor och pojkar på centrala prov i fysik. (Avhandling för doktorsexamen). Umeå: Umeå universitet, pedagogiska institutionen). Skolverket. (1996). TIMSS. Svenska 13-åringars kunskaper i matematik och naturvetenskap i ett internationellt perspektiv. (Skolverkets rapport Nr. 114). Stockholm: Liber Distribution Publikationstjänst. 22
Skolverket. (1998). TIMSS. Kunskaper i matematik och naturvetenskap hos svenska elever i gymnasieskolans avgångsklasser (Skolverkets rapport Nr. 145). Stockholm: Liber Distribution Publikationstjänst. Suen, H.K. (1990). Principles of Test Theories. Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers. Törnkvist, B. (1998). TIMSS. Teknisk rapport. (Provmemoria nr 132). Umeå: Umeå universitet. Enheten för pedagogiska mätningar. Wang, N., & Lane, S. (1996). Detection of Gender-Related Differential Item Functioning in a Mathematics Performance Assessment. Applied Measurement in Education, 9(2), 175-199. Wester, A., & Jonsson, C. (1998). Differential Item Functioning med fokus på kön. En studie av TIMSS resultaten bland elever på NT-linje och NV-program i gymnasieskolans sista årskurs. (Provmemoria nr 143). Umeå: Umeå universitet, Enheten för pedagogiska mätningar. Willingham, W.W., & Cole, N.S. (1997). Gender and Fair Assessment. Educational Testing Service, Princeton, NJ. Mahwah, NJ: Lawrence Erlbaum Associates, Publishers. Wu, M.L., Adams, R.J., & Wilson, M.R. (1997). ConQuest. Generalised Item response Modelling Software. Draft Release 2. Australian Council for Educational Research (ACER). 23