FLICKOR, POJKAR OCH FYSIK I ETT INTERNATIONELLT PERSPEKTIV



Relevanta dokument
Kunskaper och färdigheter i grundskolan under 40 år: En kritisk granskning av resultat från internationella jämförande studier

PISA (Programme for International

Dnr. U2008/5466/SAM

Att lära av Pisa-undersökningen

6 Selektionsmekanismernas betydelse för gruppskillnader på Högskoleprovet

Antagning till högre utbildning höstterminen 2016

Är svenska elever dåliga i algebra och geometri?

Ämnesprovet i matematik i årskurs 9, 2014 Margareta Enoksson PRIM-gruppen

Handbok för provledare

Historia Årskurs 9 Vårterminen 2014

Datorlaboration 2 Konfidensintervall & hypotesprövning

Resultatnivåns beroende av ålder och kön analys av svensk veteranfriidrott med fokus på löpgrenar

Resultat från ämnesproven i årskurs 9 vårterminen 2011

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

POPULATION OCH BORTFALL

Mått på arbets- marknadsläget i den officiella statistiken

Högskolenivå. Kapitel 5

Förskoleenkäten 2015 Förskoleförvaltningen

PISA åringars kunskaper i matematik, läsförståelse, naturvetenskap och digital problemlösning

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Visionen om att lära eleverna engelska under mattelektionen hur fungerar den i verkligheten?

Här finns de flitigaste företagarna. Stefan Fölster Agnes Palinski Göran Wikner augusti, 2004

Uppgift 1. Deskripitiv statistik. Lön

Utvärdering av försöket med frivilliga drogtester i Landskrona kommun

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Historia Årskurs 9 Vårterminen 2015

Ungdomars arbetsmarknadssituation en europeisk jämförelse

Nordiska språk i svenskundervisningen

SIFO Research International TYA. Arbetskraftsbehov Rapport. Dok.nr Stockholm Ingemar Boklund

Matematikundervisning och självförtroende i årskurs 9

KK-Stiftelsen 2002 Könsperspektiv på datoranvändning i skolan

Invandrarföretagare i Sverige och Europa. Farbod Rezania, Ahmet Önal Oktober 2009

Kunskapsresultaten i Malmös skolor 2014

Studerandes sysselsättning YH-studerande som examinerades 2014

Matematikkunskaperna 2005 hos nybörjarna på civilingenjörsprogrammen vid KTH

Statistik Lars Valter

Statistik och epidemiologi T5

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Tomträttsindexet i KPI: förslag om ny beräkningsmetod

Europeiskt ungdomsindex. Johan Kreicbergs November 2011

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Är sjukvården jämställd och går det åt rätt håll?

Eftervalsundersökning 2014 VALET TILL EUROPAPARLAMENTET 2014

KARTLÄGGNING AV MATEMATIKLÄRARES UTBILDNINGSBAKGRUND

Dynamisk programvara, ett didaktiskt verktyg?

Engelska skolan, Järfälla

International Civic and Citizenship Education Study 2009 (ICCS)

RAPPORT 1. Dnr Ubn 2008/26 Uppföljning av skriftlig information om elevs ordning och uppförande i gymnasieskolan

Upplands-Bro kommun Skolundersökning 2009 Kommunövergripande rapport

Statistik 2001:1 INKVARTERINGSSTATISTIK FÖR ÅLAND 2000

Introduktion Kritiskt förhållningssätt Olika typer av undersökningar

EUROPEISKA GEMENSKAPERNAS KOMMISSION RAPPORT FRÅN KOMMISSIONEN TILL EUROPAPARLAMENTET OCH RÅDET

Av kursplanen och betygskriterierna,

Högpresterande gymnasieelever i TIMSS. Svenska gymnasieelevers prestation i matematik och fysik i ett internationellt perspektiv

Urfjäll. Elever År 3 - Våren Genomsnitt Upplands-Bro kommun. 2. Jag vet vad jag ska kunna för att nå målen i de olika ämnena.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

ÄMNESPLANENS STRUKTUR. Syfte Centralt innehåll Kunskapskrav. Mål KUNSKAPSKRAV

Brukarenkät IFO Kvalitetsrapport 2014:02 KVALITETSRAPPORT

MA 1202 Matematik B Mål som deltagarna skall ha uppnått efter avslutad kurs.

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning

2014:2 RIKSFÖRENINGEN FÖR LÄRARNA I MATEMATIK, NATURVETENSKAP OCH TEKNIK

Studerandes sysselsättning YH- och KY-studerande som examinerades 2013

Olika lässvårigheter kräver olika pedagogiska insatser

Antagning till högre utbildning höstterminen 2015

PISA åringars kunskaper i matematik, läsförståelse och naturvetenskap

Förskolan framgångsfaktor enligt OECD

STUDENTBAROMETERN HT 2012

Språket, individen och samhället VT08

Kommunal. Kommunkod Skolform Skolenhetskod

Skolundersökning 2009 Gymnasieskolan årskurs 2. Kunskapsgymnasiet, Globen. På uppdrag av Stockholms stads utbildningsförvaltning

Matematiksatsning Stödinsatser. Matematiksatsning Stödinsatser. Bakgrund OECD. Undersökningar på olika nivåer. Vad kan observeras

TIMSS 2015 frisläppta uppgifter. Uppgifter i matematik, årskurs 4 och 8

Inledning...3. Kravgränser Provsammanställning...22

Antagning till högre utbildning höstterminen 2015

Uppföljning av kunskapsresultat

1En engagerad förälder är positivt. 1 Skriftliga omdömen. 2 En framåtsyftande planering

Dekomponering av löneskillnader

Ett övningssystem för att nå automatik

Består den sociala snedrekryteringen? Elevernas val av gymnasieprogram hösten 1998

Resultat av elev- och föräldraenkät 2014

Linjär regressionsanalys. Wieland Wermke

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Kvalitetsrapport 2015 Tanumskolan åk 7-9

ATT NÅ FRAMGÅNG GENOM SPRÅKET

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann

Finns det en skillnad mellan vad barn tror sig om att klara jämfört med vad de faktiskt klarar?

Digitalt festivalengagemang

Matematikundervisningens dilemma

Matematiken i PISA

1. Resultat i delprov och sammanvägt provbetyg, svenska

En rapport från Skattebetalarnas Förening. Välfärdsindex. - en kvalitetsjämförelse

ÖVNINGSUPPGIFTER KAPITEL 9

Statens Folkhälsoinstitut

Brukarenkät IFO Kvalitetsrapport 2011:01 KVALITETSRAPPORT

Stockholm lyfter Sverige men saknar behörighet

Lärarstatistik som fakta och debattunderlag

Senaste revideringen av kapitlet gjordes , efter att ett fel upptäckts.

Fördjupad analys av elevers kunskapsutveckling i matematik

Denna undersökning är en kund- och brukarundersökning (KBU) som avser skolorna i Karlstads kommun. Undersökningen är genomförd våren 2012.

Enkätresultat för vårdnadshavare till elever i Bladins Intern School of Malmö i Malmö hösten Antal svar: 19

Transkript:

FLICKOR, POJKAR OCH FYSIK I ETT INTERNATIONELLT PERSPEKTIV En undersökning av specialistgruppen i TIMSS population 3. Kristian Ramstedt Pm nr 155, 1999 ISSN 1100-696X ISRN UM-PED-PM--155--SE

Abstract The purpose of this study was to study differences between females and males in different countries on the physics achievement test for TIMSS population three. The methods used were analysis of covariance and differential item functioning performed by the software ConQuest. The overall result was that males performed significantly better than females in all countries. If, however, the results were conditioned on overall performance, males in the total group (all countries put together) and in almost all countries performed significantly better only in mechanics, while females performed significantly better in electricity/magnetism. In the other three content areas, heat, waves and modern physics, there were no significant differences for the total group although there were significant differences in some individual countries. This was the most significant result. An investigation of the reliabilities (coefficient alpha) and point biserial correlations showed that the male group generally had higher values than the female group and that the differences between different countries were large. A number of items had very low or negative point biserial correlations in some countries but not necessarily in other. The proportion correct also varied a lot between countries and in many countries the values were close to zero. This caused some doubt on the reliability of the results. The overall impression was that the picture is very complex and that there are a lot of variations between different countries, which makes it difficult to draw any general conclusions. ii

INNEHÅLL INLEDNING...1 BAKGRUND...3 SYFTE...5 METOD...6 RESULTAT...11 HELA PROVET...11 Provhäftena...15 och pojkar...19 RESULTAT INOM KUNSKAPSOMRÅDEN...23 Absoluta skillnader...23 Relativa skillnader...24 Några reservationer...30 Sammanfattning...33 SKILLNADER PÅ UPPGIFTSNIVÅ...36 Uppgifterna från de olika häftena...37 De gemensamma uppgifterna...39 Flervalsuppgifter...39 Uppgifter som ej är flervalsuppgifter...45 Uppgifter inom samma kunskapsområden...52 Mekanik...52 Ellära och magnetism...53 Värmelära...54 Vågrörelselära...58 Modern fysik...61 Sammanfattning...67 Förklara-uppgifter...67 Beräkningsuppgifter...73 Performance expectations...76 Förståelse...77 Problemlösning...77 Rutinprocedurer...79 iii

De kraftigast flaggade uppgifterna...79 Sammanfattning...86 Några testtekniska kommentarer...86 Quick eller full...87 Viktning av stickprov...89 PROVTIDENS BETYDELSE...91 NÅGOT OM PROVENS MÄTTEKNISKA EGENSKAPER...98 Reliabiliteten...98 Biseriala korrelationer...101 Något om relationen mellan korrelation och...106 NÅGRA AVSLUTANDE KOMMENTARER...110 Resultat...110 Metoden...110 Uppgifternas relevans...111 Uppgifternas innehåll...112 Förståelse...113 Motivation...115 Bakgrundsvariabler...116 Skillnader...117 Och meningen med alltihop...118 REFERENSER...120 BILAGA...124 iv

INLEDNING Sverige lyckades väl i den stora internationella undersökning som går under namnet TIMSS (Third International Mathematics and Science Study). Ett 40-tal länder deltog och resultat finns redovisade i ett antal rapporter både på svenska (Skolverket, 1996A, 1996b, 1997, 1998a, 1998b) och engelska (t.ex. IEA, 1998a;b). Framför allt var Sverige framgångsrikt när det gäller naturvetenskap ( science literacy ) och fysik för population 3, vilket innebär gymnasieskolans avgångsklasser. Naturvetenskapsprovet gavs till ett urval elever från samtliga avgångsklasser, dvs. till elever på tvååriga linjer, på yrkesinriktade linjer samt till elever på de studieförberedande linjerna; humanistisk, ekonomisk, samhällsvetenskaplig, naturvetenskaplig och teknisk linje. Det särskilda fysikprovet gavs däremot enbart till de s.k. specialisterna i population 3, vilket för Sveriges del innebar elever på naturvetenskaplig och teknisk linje. Föreliggande rapport kan ses som fortsättningen på en tidigare rapport (Ramstedt, 1999) där den svenska specialistgruppens resultat på fysikdelen av TIMSS undersöktes. 1 Fysikprovet genomfördes i de flesta av de deltagande länderna våren 1995 och för svensk del av elever i årskurs tre på gymnasieskolans naturvetenskapliga eller tekniska linjer. Föregående rapport hade som syfte att studera skillnader mellan flickor och pojkar i Sverige på olika nivåer, dvs. på provet som helhet, inom olika kunskapsområden (mekanik, ellära osv.) och på enskilda uppgifter. Vidare granskades också de tre provhäften som användes med avseende på vissa mättekniska egenskaper. Den här rapporten syftar till att vidga bilden för att undersöka hur skillnaderna mellan flickor och pojkar ser ut i ett internationellt perspektiv och i vilken utsträckning de resultat som erhölls för svenska elever har internationell giltighet. I rapporten ges först en mycket kortfattade bakgrundsbeskrivning av TIMSS, framför allt med avseende på specialistgruppen i fysik, och av de använda instrumenten för datainsamling. Någon mer ingående redovisning av övergripande skillnader mellan olika länder ges inte här eftersom en sådan redan finns på svenska i Skolverkets rapport (1998a) och på engelska i IEAs rapport (1998a). Den här rapporten kommer huvudsakligen att fokusera på jämförelser mellan flickor och pojkar. Dessa jämförelser kommer främst att gälla skillnader inom olika kunskapsområden och på enskilda 1 Båda studierna har finansierats av Skolverket. 1

uppgifter med syftet att undersöka om det mönster som gällde för svenska elever (Ramstedt, 1999) även är giltigt i ett internationellt perspektiv. Rapporten kommer i huvudsak att vara beskrivande och tekniska detaljer i samband med de statistiska analyserna kommer endast att beskrivas mycket kortfattat. Däremot kommer en del frågor av teknisk-statistisk natur att behandlas i ett par särskilda avsnitt. Det brukar sägas att en bild säger mer än tusen ord. Jag delar den uppfattning, men med tillägget att den dessutom säger mer än tusen siffror. Av den anledningen föredrar jag grafiska framställningar framför verbala beskrivningar och sifferdränkta tabeller. Och därför är olika former av diagram flitigt förekommande i rapporten. Dessutom är inte syftet med denna rapport att peta i detaljer för att hitta ett antal statistiska signifikanser utan mer att försöka tydliggöra övergripande mönster och samband. Sådana framträder klarare i bilder än i siffror och tabeller. Dock har jag inte funnit det möjligt att helt undvika tabeller, en del t.o.m. riktigt avskräckande. Jag ber om överseende med detta. 2

BAKGRUND TIMSS är den tredje stora internationella jämförelsen i matematik och naturvetenskap ( science ) som anordnas av IEA ( The International Association for the Evaluation od Educational Achievement ). De tidigare studierna har genomförts som särskilda studier i matematik (1964 resp. 1980) och naturvetenskap (1970 resp. 1983). TIMSS är alltså den första studien som genomförts gemensamt för de olika ämnena (se Skolverket, 1998a). TIMSS-studien har en mycket sofistikerad design med hårt stratifierade urval vilket ställer stora krav på att de angivna anvisningarna följs. 2 Sverige var ett av de tio länder som inte hade någon anmärkning på sitt genomförande när det gäller specialistundersökningen i fysik (se Skolverket 1998a och IEA 1998 a,b,c,d för mer detaljerad information). Som underlag för de analyser och resultat som presenteras här har den internationella databas som finns publicerad på Internet använts 3. Resultat från de olika delarna av TIMSS finns utgivna i ovan refererade rapporter från Skolverket och IEA. När det gäller specialistundersökningarna i matematik och fysik finns ett par rapporter med särskild fokus på skillnader mellan flickor och pojkar publicerade (Wester & Jonsson, 1998 och Ramstedt, 1999). Dessa rapporter gällde de svenska elevernas resultat. I den här rapporten granskas resultaten för samtliga länder som deltog i specialiststudien i fysik med avseende på skillnader mellan flickor och pojkar. 4 Sverige och de svenska resultaten kommer givetvis att finnas med som en form av referens. Även Norge och USA finns med vid vissa jämfö- 2 I IEA(1998a, sid. B-11) ges en kortfattad beskrivning av den använda designen samt ett par referenser till dokument där tillvägagångssättet finns beskrivet i detalj. För Sveriges valdes 101 skolor slumpvis och inom var och en av dessa skolor slumpades 40 elever till de olika prov som skulle genomföras. För fysikens del innebar det 760 elever, dvs. i genomsnitt 7-8 elever per skola genomförde något av de tre proven 2A, 2B eller 2C som utgjorde fysikprovet. 3 Adressen är http://wwwcsteep.bc.edu/timss. Förutom databasen finns övrig dokumentation, resultatredovisningar och ett antal tekniska manualer som pdf-filer. 4 Jag har valt att använda terminologin flickor och pojkar även om det kanske är en tveksam beteckning på 18 19-åringar. Kvinnor och män låter dock inte heller tillfredställande när det gäller elever i gymnasieskolan och av två inte helt lämpliga beteckningar har jag valt den i mitt tycke mindre olämpliga. I engelskt språkbruk kan man använda females och males som inte är kopplat till ålder. Översatt till svenska skulle detta närmast motsvara honor och hannar men det låter främmande i svenska öron att använda sådana benämningar på människor. 3

relser, främst därför att Norge var det land som hade de bästa resultaten och USA det som hade de sämsta. TIMSS gäller inte enbart kunskapsprövningar inom matematik och naturvetenskap utan innebär också grundliga analyser av kursplaner, analyser av bakgrundsdata av olika slag. När det gäller naturvetenskap ( science ) har man utgått från tre övergripande indelningar (se IEA 1998c) med rubrikerna Content, Performance expectations och Perspectives. Denna indelning har använts genomgående vid de olika delarna av TIMSS, alltså för alla populationer och för alla ämnen. Content innebär att uppgifterna klassificeras efter innehåll med avseende på ämnet. För fysikens del gäller det fem kategorier, nämligen mekanik, ellära och magnetism, värmelära, vågrörelselära och det jag valt att sammanfattande kalla modern fysik men som på engelska har den längre beteckningen Modern physics, Particle, Quantum and Astrophysics, and Relativity. Denna indelning kommer att tillämpas i den här rapporten. Kategorisering av uppgifterna i kunskapsområden är också tämligen oproblematisk. Den andra kategorin Performance expectations är svåröversatt men kan ses som ett försök till icke-hierarkisk kognitiv kategorisering av uppgifter i någon av de fem kategorierna (IEA, 1998c) 1. Understanding. 2. Theorizing, analyzing, solving problems. 3. Using tools, routine procedures, and science processes. 4. Investigating the natural world. 5. Communicating. När det gäller uppgifterna i fysik är det de tre första kategorierna som används. Endast en uppgift tillhör kategori 4 och ingen kategori 5. De fysikuppgifter som är godkända för publicering har klassificerats men däremot har klassificeringarna inte återgetts i resultatrapporten (IEA, 1998a). Jag tolkar detta som att man av något för mig okänt skäl inte funnit det särskilt meningsfullt att redovisa denna klassificering. För att finna den klassificering som gjorts får man gå in på TIMSS hemsida och läsa i den rättningsmall som finns publicerad. Någon beskrivning av vilka innebörder de fem kategorierna ges i TIMSS och hur man ska tolka att de är ickehierarkiska har jag inte funnit i materialet och därför har jag valt att inte försöka fördjupa mig i någon analys baserade på performance expectations. Det utesluter givetvis inte att det kunde vara av intresse att i någon senare studie genomföra en sådan analys. Jag kommer dock att redovisa en del resultat baserade på den kategorisering som gjorts när det gäller 4

performance expectations men utan att mer ingående försöka tolka resultaten. Jag kommer också för de olika uppgifter som redovisas i rapporten att ange i vilken av de fem kategorierna uppgiften enligt TIMSS hör hemma. Kategorierna kommer därvid att benämnas enligt följande: 1. förståelse, 2. problemlösning, 3. rutinprocedur, 4. omvärldsundersökning, dock, som sagt, utan att närmare kunna ange hur de ska förstås. Den tredje kategorin i den övergripande indelningen, Perspectives, är inte kopplade till uppgifter eller kunskapsområden utan ligger till grund för den enkät om attityder till ämnet, karriärplaner, deltagande i olika kurser, intressen mm. som också genomförts. Dessa områden kommer inte att mer än antydningsvis beröras i den här rapporten men det vore givetvis angeläget att i en senare studie relatera resultaten på kunskapsproven till de olika bakgrundsvariablerna. På uppgiftsnivå kommer uppgifterna även att kategoriseras efter vissa andra kriterier som brukar vara av intresse vid undersökningar av gruppskillnader. Det gäller förutom indelning efter provhäften, kunskapsområden och kognitiv klassificering även indelning efter format (flerval eller egna svar, beräkning eller förklaring). Slutligen kommer jag även att diskutera eventuella effekter av att proven är tidsbegränsade. Eleverna hade när det gäller fysikdelen av TIMSS 90 minuter på sig att genomföra de cirka 30 uppgifterna i det häfte de tilldelats. Finns det således någon skillnad mellan flickor och pojkar när det gäller betydelsen av att provtiden är begränsad? Och hur ska i så fall en sådan skillnad beskrivas och definieras. Syfte Sammanfattningsvis innebär det som sagts att syftet med föreliggande rapport är att beskriva och analysera resultatet från TIMSS specialistundersökning i fysik ur ett internationellt perspektiv och med fokus på skillnader mellan flickor och pojkar. Undersökningen kommer att gälla övergripande skillnader på hela provet, skillnader mellan olika kunskapsområden och skillnader på enskilda uppgifter. 5

METOD I fysik har tre olika häften betecknade 2A, 2B och 2C använts. Tio uppgifter (flervalsuppgifter) har varit gemensamma för alla häften och dessa uppgifter har använts som ankaruppgifter för att kalibrera de grupper som gjort olika häften till samma skala. Den poängskala som används kallas Plausible Value (PV) och är en skala som konstrueras med hjälp av den modern testteori som brukar gå under namnet Item Response Theory (IRT). I TIMSS används en modell av IRT som brukar kallas Raschmodellen efter sin danske upphovsman. Några etablerade svenska namn finns inte för plausible values eller IRT och därför kommer dessa begrepp att användas i rapporten. Den teknisk/statistiska basen för konstruktionen av de olika måtten är mycket komplicerad och kommer inte att beröras här (se Törnkvist, 1998). 5 PV-skalan är konstruerad så att det internationella medelvärdet är 500 och standardavvikelsen 100. 6 I den databas som ligger till grund för de här redovisade analyserna anges tre olika vikter kallade TOTWGTP (används för deskriptioner av hela populationen i ett land), HOUWGTP (används för statistiska signifikansprövningar inom ett land) och SENWGTP (används för statistiska signifikansprövningar mellan länder) 7. De olika jämförelserna i den här rapporten baseras på de i databasen angivna värdena på plausible values. Plausible values är en latent variabel, dvs. ett statistiskt konstruerat värde på en provdeltagares förmåga. Det konstrueras genom dragning från en viss statistisk fördelning och på grund av detta erhåller varje provdeltagare något olika värden på sin förmåga vid olika skattningar. I databasen finns fem dragningar redovisade för den övergripande fysikförmågan för varje elev. Dessa värden avviker alltså något från varandra och det är inte möjligt att säga att det ena värdet är sannare än det andra. I de analyser som presenteras i rapporten kommer medelvärdet av de fem i databasen angivna skattningarna att användas (betecknas PVMEDEL i rapporten). 5 Den läsare som vill ha utförligare information hänvisas till IEA (1998b) och till manualen för den särskilda programvaran ConQuest som utvecklats speciellt för TIMSS (Wu, Adams & Wilson, 1997) samt till Mislevy, 1991 och Mislevy m.fl., 1992. 6 Den internationella databasen (som utgör underlag för de resultat som rapporteras här) ger 501 som medelvärde och 92 som standardavvikelse. 7 Eftersom signifikansprövningar är beroende av stickprovens storlek anger HOUWGTP en stickprovstorlek som till sina proportioner överensstämmer med populationsfördelningen, men ej nödvändigtvis med det stratifierade urvalet i det verkliga stickprovet. SENWGTP medför att varje land får samma stickprovsstorlek (cirka 500 individer). 6

Anledningen till att en sådan skala används är att resultat på olika provhäftena ska bli jämförbara. Den provpoäng som erhålls på respektive provhäfte är beroende av hur lätt eller svårt häftet i fråga är och för att eliminera betydelsen av detta konstrueras en latent skala som på basis av de gemensamma ankaruppgifterna placerar samtliga provdeltagare på en gemensam skala. Efter vissa statistisk-tekniska manipulationer av det slag som tidigare nämnts resulterar detta i de plausible values som anges i databasen. Eftersom värdena baseras på en sannolikhetsmodell finns alltså ingen sann poäng för en enskild provdeltagare utan endast en sannolikhetsfördelning för hans eller hennes poängvärde. 8 Flertalet uppgifter i TIMSS är enpoängsuppgifter. Några av de uppgifter som kräver egenformulerade svar kan dock ge två poäng. Sambandet mellan sammanräknad poäng på provet och PVMEDEL visas i figur 1. Sambandet mellan observerad poäng på provet och PVMEDEL är icke-linjärt. Om man t.ex. skulle utgå från att det var linjärt skulle regressionslinjerna för flickor och pojkar se ut som i den vänstra figuren och man skulle få intrycket att sambandet var olika för de två grupperna. En mer korrekt icke-linjär regressionslinje visar emellertid att sambandet är mycket likartat för flickor och pojkar. 9 35 35 30 30 Poängsumma på provet 25 20 15 10 KÖN Poängsumma på provet 25 20 15 10 KÖN 5 5 0 200 300 400 500 600 700 800 900 0 200 300 400 500 600 700 800 900 PVMEDEL PVMEDEL Figur 1. Sambandet mellan poäng på provet och plausible values. Samtliga länder, viktade med senwgtp.den vänstra figuren visar regressionslinjer om ett linjärt samband antas, den högra om ett ickelinjärt samband antas. Det icke-linjära antagandet är det korrekta. 8 Begreppet sann poäng ( true score i engelskspråkig litteratur), som ingår i testteorin är i sig själv ett icke observerbart, dvs. latent värde. Det brukar definieras som medelvärdet av de poäng en provdeltagare skulle erhålla om han eller hon kunde genomföra samma prov, eller likvärdiga, parallella prov ett stort antal gånger. Detta låter sig inte göras i praktiken men det finns statistiska metoder för att beräkna approximativa värden på den sanna poängen (se t.ex. Crocker & Algina, 1986). 9 Den icke-linjära regressionslinjen är en approximation av ett logistiskt samband med ett tredjegradspolynom. 7

Skattningen av plausible value-värdet ur en sannolikhetsfördelning kan leda till det något märkliga resultat som illustreras i figur 1, nämligen att en person (pojke) som har noll (0) rätt på provet tilldelas ett PV-värde strax under 350 medan ett par personer (flickor) med nio (9) poäng har plausible values som bara ligger något över 200. Andra individer med nio poäng ligger å andra sidan upp mot 600 på plausible value skalan. Plausible values eller andra TIMSS resultat är emellertid inte avsedda att användas som mått på individnivå och därför är det något märkliga resultatet betydelselöst i det här sammanhanget. 10 De övergripande jämförelserna, dvs. jämförelser på provnivå och/ eller häftesnivå baseras alltså direkt på de värden på PVMEDEL som erhålls ur databasen för TIMSS, eventuellt viktade med lämplig vikt beroende på vad som redovisas. I den inledande delen av rapporten gäller det främst rena deskriptioner och enkla signifikanstest av medelvärden. När det gäller jämförelserna av olika kunskapsområden används i stället betingade jämförelser. På samma sätt som det i databasen finns fem skattade värden på den totala fysikförmågan finns det också fem skattade värden på förmågan inom vart och ett av de fem kunskapsområden som fysikämnet och fysikuppgifterna indelats i av TIMSS fysikgrupp (mekanik, ellära och magnetism, värmelära, vågrörelselära och modern fysik). Som det kommer att visa sig är pojkarna i absoluta termer bättre inom alla kunskapsområden i så gott som alla länder. En jämförelse i absoluta termer blir därför rätt ointressant. För att kunna göra en relativ jämförelse mellan olika kunskapsområden behöver emellertid de två grupperna likställas i något avseende. Jag har valt att likställa (betinga) grupperna med avseende på deras resultat totalt sett, dvs. med avseende på variabeln PVMEDEL. Detta innebär att värdena inom de olika kunskapsområdena betingas på så sätt att flickor och pojkar förutsätts ha samma medelvärde på variabeln PVME- DEL. Den använda metoden brukar kallas kovariansanalys. Det finns vissa villkor som ska vara uppfyllda för att en denna metod ska vara tillämplig, t.ex. ska korrelationen mellan PVMEDEL och PV-värdet för det undersökta kunskapsområdet vara lika för båda grupperna. Reliabiliteten bör inte heller vara för låg (se t.ex. Cook & Campbell, 1979 eller Tabachnick & Fidell, 1996). 10 Man kan ju dock lätt tänka sig den icke obetydliga pedagogiska insats som skulle krävas av den lärare som t.ex. skulle förklara för sina elever varför den elev som har noll poäng anses bättre än den som nio. Detta förhållande är en väsentlig anledning till att det är mer eller mindre omöjligt att använda latenta variabler i provsammanhang där enskilda individer ska bedömas. 8

Den avslutande och största delen av rapporten kommer att upptas av analyser och jämförelser på uppgiftsnivå. Syftet med detta är främst att visa på den komplexa bild som framträder när olika länders resultat redovisas. I beskrivande syfte görs en del direkta jämförelser av lösningsproportioner (p-värden) för olika uppgifter uppdelade både på länder och på flickor och pojkar. Sådana värden lämpar sig dock inte för relativa gruppjämförelser på uppgiftsnivå eftersom dessa värden är en funktion både av gruppens övergipande förmåga och av gruppens förmåga på den aktuella uppgiften. Liksom vid jämförelser av olika kunskapsområden vill man vid en undersökning på uppgiftsnivå göra jämförelser som bygger på likställda grupper med avseende på den övergripande förmågan, dvs. man vill jämföra hur flickor och pojkar med samma värde på PVMEDEL klarar olika uppgifter. De tekniker som brukar användas på uppgiftsnivå är dock i allmänhet andra än den kovariansanalys som jag använder vid de betingade jämförelserna av kunskapsområden. Främst därför att uppgifter ofta endast har två utfall, rätt eller fel, 0 eller 1, medan kunskapsområden kan betraktas som kontinuerliga variabler med många möjliga värden. De metoder som används vid gruppjämförelser på uppgiftsnivå brukar gå under beteckningen ( Differential Item Functioning ). Någon bra svensk översättning av begreppet finns inte. Man kunde kanske säga något i stil med olika uppgiftsfunktion men det känns inte särskilt välsmakande och jag väljer att använda beteckningen för betingade gruppjämförelser på uppgiftsnivå. Det kan vara värt att påpeka att är utfallet av någon vald teknisk metod med syfte att avgöra om en uppgift fungerar olika för olika grupper 11. Man talar i samband med -studier ibland om att olika uppgifter gynnar den ena eller andra gruppen eller att de är till den ena eller andra gruppens fördel. I sådana sammanhang ligger det dock ingen värdering i dessa ord utan de anger endast att det statistiska utfallet visar att den ena eller andra gruppen i relation till den betingande variabeln har ett bättre resultat. I engelskspråkiga texter används ofta ordet flag som är mer värderingsfritt och även i svenska texter används ofta det värdeneutrala uttrycket att en uppgift flaggas för i ena eller andra riktningen (t.ex. Ramstedt, 1996, Jonsson & Wester, 1998). Det finns många olika tekniker för att bestämma ( se t.ex. Camilli & Shepard, 1991; Holland & Wainer, 1993; Ramstedt, 1996). Av pragmatiska skäl kommer jag i den här rapporten att använda det -mått som erhålls med hjälp av den för TIMSS speciellt utvecklade programvaran ConQuest 11 Vanligen gäller det skillnader mellan flickor och pojkar men det kan också handla om skillnader mellan olika etiska grupper, olika åldersgrupper, grupper med olika socioekonomisk bakgrund osv. 9

(Wu, m.fl., 1997). Den komplexa uppläggningen av TIMSS gör att de flesta metoder för att undersöka kräver speciella anpassningar av databasen medan ConQuest är utvecklat för att användas på denna typ av databas och programmet är därmed direkt användbart. Nackdelen med att endast använda ConQuest är att man blir beroende av en enda metod och en metod som bygger på vissa stränga antaganden eftersom den är IRTbaserad. 12.I Ramstedt (1999) gjordes dock vissa jämförelser mellan enligt ConQuest och de mått som genererades med hjälp av den s.k. Mantel-Haenszel metoden. Även om det fanns vissa avvikelser på några uppgifter var överensstämmelsen stor med korrelationen 0,87. Och inte minst är ju hela TIMSS baserat på den modell som ligger till grund för ConQuest. Det skulle med andra ord förefalla lite underligt att utgå från de resultat som genererats av med hjälp av ConQuest samtidigt inte ha tilltro till ConQuest när det gäller analysen av. 13 Den största delen av studien kommer alltså att upptas av analyser på uppgiftsnivå med det dubbla syftet att både visa på komplexiteten i materialet och att försöka finna eventuella övergripande mönster eller underliggande strukturer. Liksom i andra vetenskapliga sammanhang handlar även den här studien att försöka skapa sammanhang och ordning ur en stor mängd information. Konstruktionen av kunskap ur information kan dock göras på många olika sätt och som avslutning på resultatdelen kommer jag att bjuda på några komplikationer med anknytning till de analyser jag gjort. 12 Item response theory (IRT) bygger på två antaganden om endimensionalitet: a) att alla uppgifter mäter en enda förmåga (dvs. det ska råda ett starkt positivt statistisk samband mellan uppgifterna) och b) att uppgifterna är statistiskt oberoende. Detta kan låta som en motsägelse men det senare villkoret innebär att för en person med viss given förmåga ska sannolikheten för att lösa en viss uppgift vara oberoende av vilka andra uppgifter han eller hon löst. TIMSS-databasen bygger dessutom på Raschmodellen som förutom de två givna villkoren bygger på antagandet att alla uppgifter har samma diskriminerande förmåga. Ett antagande som aldrig är helt uppfyllt. Enligt programvaran BILOG-MG förkastas nollhypotesen att TIMSS fysikdel passar Raschmodellen på nivån p=0,000 (Ramstedt, 1999). 13 Dock kommer jag senare att redovisa en del förhållanden som jag finner tveksamma. 10

RESULTAT I resultatdelen kommer resultaten av de olika analyserna att ges för de deltagande länderna. Till att börja med anges stickprovens storlek i de olika länderna såväl totalt som uppdelade på flickor och pojkar och på de olika häftena. Även medelvärden, standardavvikelser och en del andra statistiska parametrar kommer att redovisas på övergripande nivå liksom vissa statistiska signifikansprövningar av skillnaderna mellan olika länder. Därefter jämförs olika kunskapsområden med avseende på flickor och pojkar innan slutligen olika resultat på uppgiftsnivå redovisas. De mättekniska egenskaperna hos TIMSS är svåra att bedöma och analysera på grund av undersökningens komplexa design. Vissa klassiska mått i form av biserial korrelation och reliabilitet kommer dock att redovisas 14. I vissa analyser jämförs resultat för totalgruppen med resultaten i de enskilda länderna. Totalgruppen innefattar genomgående samtliga arton deltagande länder. Någon skillnad har därvidlag inte gjorts mellan de länder som helt uppfyllt kraven för urval av provdeltagare och de som inte gjort det. Vid alla analyser där totalgruppen ingår används vikten senwgtp, vilket i enlighet med vad som tidigare sagts innebär att varje land tilldelas samma betydelse oberoende av folkmängd. Cypern och USA har alltså i det fallet samma vikt. Hela provet I tabell 1 visas data för de olika länder som deltagit i specialistundersökningen i fysik. Tabellen anger medelvärden, standardavvikelser, antal elever i stickprovet och totala antalet elever som läser kursen samt andelen flickor och pojkar i procent. FCTI anger hur många procent av åldersgruppen som läser ämnet. För Sveriges del läste 16 procent av de elever som gick sista året i gymnasiet fysik på naturvetenskaplig eller teknisk linje, dvs. de elever som i Sverige räknas som fysik- (och matematik-) specialis- 14 Den punktbiseriala eller biseriala korrelationen är ett mått inom den klassiska testteorin på en uppgifts diskriminerande förmåga (se t.ex. Crocker & Algina, 1986). Normalt brukar biseriala korrelationer bestämmas som korrelation mellan en uppgift och poängsumman på hela provet. Eftersom TIMSS använder plausible values som mått på förmågan används i den här rapporten korrelationen mellan uppgift och plausible value som mått på diskriminationsförmåga. Reliabiliteten i form av koefficient alfa (se t.ex. Crocker & Algina, 1986) redovisas för vart och ett av de tre häftena. 11

ter. Resultaten i tabell 1 är rangordnade efter resultat uttryckta i plausible values. Tabell 1. Medelvärden, standardavvikelser, antal elever i stickprov samt totalt i lande 15 t, andel av åldersgruppen som läser fysik (FCTI) samt andelen flickor och pojkar (procent). 16 ANTAL FTCI ANDEL LAND M s Stickprov Totalt Norge 581 85 1048 4369 8 26 74 Sverige 571 87 760 16539 16 34 66 Slovenien** 549 84 495 11415 39 19 81 Ryssland 548 103 985 32975 2 45 55 Danmark** 536 79 494 1940 3 21 79 Tyskland 528 90 604 85523 8 29 71 Australien* 517 73 564 31619 13 34 66 Israel*** 517 69 529 529-21 79 Cypern 505 99 306 832 9 38 62 Lettland 1 488 96 708 979 3 49 51 Schweiz 488 78 1030 11220 14 49 51 Grekland 486 76 349 14657 10 33 67 Kanada 480 73 1955 50992 14 43 57 Frankrike 470 58 820 148684 20 40 60 Tjeckien 456 78 819 19428 11 60 40 Italien*** 440 74 107 63444-48 52 Österrike* 434 76 582 30192 33 62 38 USA* 421 50 2678 522292 14 48 52 * Ej tillräckligt antal deltagare ** Ej följt urvalsregler och för få deltagare *** Okänd stickprovssammansättning eller litet stickprov 1 Endast lettiskspråkiga skolor Man kan notera att Norge och Sverige klarat sig bra. Vissa länder har som framgår av tabell 1 inte till fullo följt anvisningarna och resultaten för dessa länder blir därmed något osäkrare. Man kan t.ex. se att för Israel är stickprovssammansättningen oklar och därmed kan inte heller TOTWGTP bestämmas, vilket i sin tur innebär att någon skattning av totalantalet inte kan göras. Italien har ett mycket litet stickprov och vissa andra länder brister i andra avseenden. Man kan också notera att för Sveriges del är det en förhållandevis stor andel (16%) av den aktuella årskullen som läser fysik. De goda svenska resultaten kan således inte förklaras med att det är en särskilt utvald elitgrupp som läser fysik. 15 TOTWGTP använt för Totalt. 16 Fotnoterna under tabellen kommer inte att upprepas i senare tabeller. 12

I de flesta länderna är det fler pojkar än flickor som läser fysik med det finns att par länder (Tjeckien och Österrike) där förhållandet är det omvända. När det gäller medelåldern för de deltagande länderna varierar den på det sätt som visas i figur 2. LAND Australien* Kanada Cypern Tjeckien Danmark** Frankrike Tyskland Grekland Israel*** Italien*** Lettland Norge Ryssland Sverige Schweiz USA* Slovenien** 16,0 17,0 18,0 19,0 KÖN 20,0 Medelålder Figur 2. Medelålder för de flickor och pojkar som deltog i TIMSS för fysikspecialister (senwgtp använd). De yngsta eleverna finns i Ryssland (i genomsnitt 16,9 år) och de äldsta i Schweiz (medelålder 19,5). Det skiljer alltå drygt 2,5 år mellan de yngsta och de äldsta eleverna i specialistgruppen. Medelvärdet för hela gruppen är 18,3 år för flickorna och 18,4 år för pojkarna. Man kan också notera att för de skandinaviska länderna ligger medelåldern strax över eller under19 år. 17 När det gäller samband mellan ålder och resultat (se figur 3) kan man med viss förvåning notera att det för flickorna råder ett svagt men statistisk signifikant negativt samband (r = -0,094, p<0,001). För pojkarnas del är sambandet mer väntat svagt positivt (r = 0,046, p<0,005). 18 17 Baserat på senwgtp. De i figur 2 angivna värdena, som är beräknade på värden från den publicerade databasen avviker något från de värden som anges i IEA (1998a) sidan 188. 18 Senwgtp använd. Resultatet blir detsamma om de få eleverna över 21 år utesluts. 13

900 800 800 700 600 PVMEDEL 600 500 PVMEDEL 400 400 KÖN KÖN 300 200 15 17 19 21 23 25 200 1 2 3 4 5 6 7 8 9 10 11 12 ÅLDER FÖDELSEMÅNAD Figur 3. Samband mellan ålder och resultat för flickor och pojkar samt mellan födelsemånad och resultat, senwgtp använd. Det brukar ibland hävdas att elever födda tidigare på året skulle ha fördel framför de som är födda senare. Något samband mellan resultat och födelsemånad tycks dock inte föreligga som det högra diagrammet i figur 3 visar. 19 Det är svårt att veta om någon trovärdig slutsats kan dras av figur 3 utan att en djupare analys görs. Skillnaden mellan pojkar och flickor tycks öka med stigande ålder men åldersfördelningen är olika för olika länder liksom fördelningen av flickor och pojkar. Detta kan skapa statistiska artefakter som leder till felaktiga slutsatser. Det kan ju också vara så att motivationen för att anstränga sig på ett prov som TIMSS variera med ålder och kön. En viss försiktighet i tolkningen kan alltså vara på sin plats. Sambanden mellan ålder och resultat för de enskilda länderna visas i tabell 19 i bilagan. Där kan konstateras att för Sveriges del finns inget samband mellan ålder och resultat och att skillnaden mellan pojkar och flickor är densamma i varje åldersgrupp. 19 Korrelationen ej signifikant skild från noll. 14

Provhäftena Som nämnts tidigare genomfördes fysikdelen av TIMSS med hjälp av tre skilda provhäften kallade 2A, 2B och 2C. Antalet elever som ingått i stickproven för respektive provhäfte i de deltagande länderna visas i tabell 2. Tabell 2. Antal flickor och pojkar som ingått i stickproven för de olika häftena i fysik. FLICKOR POJKAR LAND 2A 2B 2C 2A 2B 2C Australien* 61 75 65 140 113 110 Österrike* 116 115 115 81 70 85 Kanada 260 254 253 387 409 392 Cypern 43 34 37 71 58 63 Tjeckien 166 157 166 103 119 108 Danmark** 35 30 33 134 134 128 Frankrike 103 92 120 166 182 157 Tyskland 65 54 59 150 150 126 Grekland 38 44 39 78 76 74 Israel*** 41 38 33 140 128 149 Italien*** 12 18 20 24 13 20 Lettland 116 106 112 122 125 127 Norge 93 85 89 257 271 253 Ryssland 151 133 130 174 196 201 Sverige 94 93 87 172 163 151 Schweiz 139 171 168 196 176 180 USA* 436 431 420 447 461 483 Slovenien** 29 29 24 143 139 131 Man kan notera det låga deltagarantalet för Italien. Också Cypern och Grekland har låga deltagarantal även om de till skillnad från vissa andra länder (*-märkta) uppfyller de uppställda kriterierna för urval och stickprovsstorlek. Figur 4 visar medelvärdena för olika länder på de olika häftena. Italien och Sverige är de länder som visar största variationen mellan olika häften. För Italiens del kan det säkerligen förklaras av det lilla stickprovet. Däremot förefaller det något mer svårförklarligt att Sverige uppvisar så pass stora skillnader. Av något skäl tycks det vara större skillnader mellan de tre stickproven för respektive häfte i Sverige än i andra länder. USA och Kanada som har stora stickprov uppvisar som man kan vänta små skillnader. 15

LAND Australien* Österrike* Kanada Cypern Tjeckien Danmark** Frankrike Tyskland Grekland Israel*** Italien*** Lettland Norge Ryssland Sverige Schweiz USA* Slovenien** 400 500 Häfte 2A 2B 2C 600 PV-MEDEL Figur 4. Poängmedelvärden (plausible values) på de olika häftena för olika länder. Den streckade linjen anger det internationella medelvärdet. Om man granskar resultaten på de tre häftena sammanslaget för samtliga länder men uppdelat på flickor och pojkar erhålls de medelvärden som visas i figur 5. En statistisk prövning visar att det för pojkarnas del inte finns några signifikanta skillnader mellan de olika häftena. Däremot är flickorna som gjort häfte 2A signifikant bättre (mätt i PVMEDEL) än de som gjort häftena 2B och 2C. Huruvida detta har någon betydelse i sammanhanget kan vara svårt att avgöra. Det kan vara så att denna grupp råkar vara något bättre än övriga två, men det kanske mer troliga är att detta häfte innehåller vissa uppgifter som är mer gynnsamma för flickorna än uppgifterna i häftena 2B och 2C. Till denna fråga återkommer vi senare. 16

550 Medelvärde av PVMEDEL 530 510 490 470 KÖN 450 2A 2B 2C Provhäfte Figur 5. Medelvärden på de tre provhäftena uppdelat på flickor och pojkar, senwgtp använd. Om man i stället utgår från median och spridning och illustrerar med hjälp av lådagram blir bilden som i figur 6. 1000 800 PVMEDEL 600 400 KÖN 200 0 N = 1141 2A 1894 1130 1772 1192 2B 2C 1775 Provhäfte Figur 6. Lådagram för plausible values på de tre provhäftena, totalgrupp uppdelad på flickor och pojkar, senwgtp använd. 17

Den prickade linjen vid 500 i figurerna anger det internationella medelvärdet. På övergripande nivå förefaller de tre häftena, som figur 5 och 6 visar, fungera sinsemellan likvärdigt när det gäller flickor och pojkar. Den enda statistiskt signifikanta skillnad som förekommer är alltså att flickornas resultat för häfte 2A är signifikant högre än för häftena 2B och 2C (se tabell 20 och 21 i bilagan). Av figur 6 kan man inte se att flickorna i häfte 2A avviker synbart när det gäller medianvärdet (strecket i mitten av lådan). Däremot finns det fler flickor med höga resultat i den gruppen vilket bidrar till att dra upp medelvärdet tillräckligt för att en signifikant skillnad ska uppkomma. Konstruktionen av en gemensam PV-skala för de tre häftena baseras på de gemensamma uppgifterna E01 - E10. En jämförelse av resultaten på dessa uppgifter (figur 7) med resultaten uttryckta i plausible values (figur 5) visar att bilden i huvudsak överensstämmer, framför allt för pojkarna. För flickornas del avviker inte häfte A lika tydligt när det gäller E-uppgifterna. 20 6,4 Medelvärde på summa E01-E10 6,2 6,0 5,8 5,6 5,4 5,2 KÖN 5,0 2A 2B 2C Provhäfte Figur 7. Medelvärden för de tre häftena på uppgifterna E01-E10, senwgtp använd. 20 Konstruktionen av plausible values baseras på att varje land har samma vikt, dvs. senwgtp är använd (IEA, 1998a, sid. B-38). 18

På nationell nivå är stickproven mindre. Resultaten blir därmed osäkrare och variationerna och felmarginalerna större (jämför Ramstedt, 1999). Detta bör hållas i minnet vid den fortsatta redovisningen. och pojkar Skillnaden mellan flickor och pojkar på hela provet för samtliga deltagande länder och för Sverige visas i figur 8. ALLA LÄNDER 700 600 ALLA LÄNDER 15 500 10 Antal 400 300 Procent 200 KÖN 5 KÖN 100 0 0 5 10 15 20 0 0 5 10 15 20 PVMEDEL (kategoriserad) PVMEDEL (kategoriserad) SVERIGE 40 SVERIGE 20 30 15 Antal 20 Procent 10 10 KÖN 5 KÖN 0 0 5 10 15 20 0 0 5 10 15 20 PVMEDEL (kategoriserad) PVMEDEL (kategoriserad) Figur 8. Fördelning av plausible values för flickor och pojkar. Den vänstra figuren uttrycker fördelningen i antal individer och den högra i procent, övre raden gäller samtliga länder och undre raden Sverige. PVMEDEL (kategoriserad) innebär att plausible values kategoriserats så att 0-300 är kategori 0, 300-325 är kategori 1, 325-350 kategori 2 osv. upp till 775-1000 som är kategori 20. Senwgtp använd. Som framgår av de två övre diagrammen i figur 8 är skillnaden mellan flickor och pojkar betydande för totalgruppen. Även för de svenska provdeltagarna är skillnaden markant om än något mindre som de två undre diagrammen visar. 19

Tabell 3 visar de statistiska värdena för gruppen samtliga deltagare och för de svenska eleverna. Andelen flickor är något lägre i Sverige (34%) än i totaltgruppen (39%) 21. Tabell 3. Medelvärden, standardavvikelser och antal för flickor och pojkar för samtliga länder och för Sverige, senwgtp använd. SAMTLIGA LÄNDER SVERIGE KÖN M s N M s N 463 82 3464 542 72 170 525 90 5441 585 91 330 Total 501 92 8905 571 87 500 Som framgår av tabell 3 ligger de svenska resultaten högt över de internationella. Medelvärdesskillnaden mellan flickor och pojkar är 62 för den sammanslagna gruppen 22 och drygt 43 för Sverige. Om man uttrycker skillnaden i standardavvikelser är den 0,71 för totalgruppen och 0,52 för de svenska eleverna. Standardavvikelsen för de svenska flickorna är betydligt mindre än för den totala gruppen medan ingen skillnad råder för pojkarnas del. Som det brukar vara har också pojkarna betydligt större spridning i sina resultat. Man kan också notera att de svenska flickorna har högre medelvärde än pojkarna i totalgruppen Av figur 8 och tabell 3 framgår att det fanns en betydande medelvärdesskillnad mellan flickor och pojkar till pojkarnas fördel både i Sverige och i den sammanslagna gruppen. Om medelvärdena för flickor och pojkar anges för de enskilda länderna erhålls den bild som visas i figur 9. 21 Man får då komma ihåg att de redovisade värdena utgår från att det finns lika många elever i varje land (senwgtp använd). 22 I totalgruppen ingår även Sverige. I samtliga fall där jämförelser görs mellan totalgruppen och något enskilt land länder är detta inkluderat i totalgruppen. Eftersom senwgtp är den vikt som används betyder det att varje land utgör en artondel av totalgruppen. 20

LAND Australien* Österrike* Kanada Cypern Tjeckien Danmark** Frankrike Tyskland Grekland Israel*** Italien*** Lettland Norge Ryssland Sverige Schweiz USA* Slovenien** 400 500 KÖN 600 PV-medel Figur 9. Medelvärden för flickor och pojkar i olika länder. Den streckade linjen anger det internationella medelvärdet (501) och de två prickade linjerna anger medelvärdet för flickor (463) och för pojkar (525). Man kan notera att pojkarna har högre poängmedelvärden i samtliga länder med de största skillnaderna i Tjeckien (som har fler flickor än pojkar som läser fysik) och i Schweiz. Minsta skillnaderna finns i bl.a. Frankrike Grekland och USA. En signifikansprövning (t-test) av de erhållna skillnaderna ger de resultat som visas i tabell 4. Av tabellen framgår att pojkarna har signifikant bättre resultat i samtliga länder. 23 23 Eftersom det i tabell 4 handlar om signifikansprövningar av skillnader mellan flickor och pojkar inom respektive länder används houwgtp. 21

Tabell 4. Medelvärden och standardavvikelser för flickor och pojkar i olika länder samt medelvärdesskillnader och signifikansprövning av skillnaderna (t-test), viktat med houwgtp. 24 FLICKOR POJKAR LAND M s M s F(F-P) SIGNIFIK. Australien* 493 69 530 73-37 0,000 Österrike* 408 63 477 76-69 0,000 Kanada 455 62 499 75-44 0,000 Cypern 478 85 522 103-44 0,000 Tjeckien 423 58 506 78-83 0,000 Danmark** 493 68 547 78-53 0,000 Frankrike 456 53 480 59-23 0,000 Tyskland 482 78 547 87-65 0,000 Grekland 469 70 494 78-25 0,003 Israel*** 496 62 523 69-27 0,000 Italien*** 421 71 458 73-37 0,010 Lettland 467 92 509 95-42 0,000 Norge 544 83 594 82-51 0,000 Ryssland 514 100 576 97-61 0,000 Sverige 542 72 585 91-43 0,000 Schweiz 450 62 525 74-76 0,000 USA* 405 44 436 51-31 0,000 Slovenien** 511 77 557 84-46 0,000 Sammanfattningsvis kan man alltså konstatera att när det gäller den övergripande fysiknivån mätt som resultatet på provet i sin helhet, dvs. i PVMEDEL, har pojkarna signifikant bättre resultat än flickorna i samtliga deltagande länder. En fråga man då kan ställa sig är om förhållandet är detsamma inom de olika kunskapsområden som fysiken brukar uppdelas i. Är alltså skillnaderna mellan flickor och pojkar av samma storleksordning oberoende av om det handlar om mekanik, ellära, värmelära, vågrörelselära eller modern fysik? 24 De värden som redovisas avviker delvis från de som redovisas i IEA(1998a) sidan 197. 22

Resultat inom kunskapsområden I den databas som publicerats och som är underlag för denna studie finns fem olika plausible values angivna för varje elev och för vart och ett av kunskapsområdena mekanik, ellära och magnetism, värmelära, vågrörelselära samt modern fysik. I de resultat som redovisas här används medelvärdet av de fem angivna värdena för varje kunskapsområde som underlag för beskrivningar och analyser. Beroende på typ av redovisning används liksom tidigare olika vikter. I den studie som tidigare publicerats om de svenska deltagarna (Ramstedt, 1999) kunde konstateras att pojkarna hade signifikant högre resultat inom samtliga kunskapsområden vid en obetingad jämförelse, dvs. vid en direkt jämförelse av medelvärden av de plausible values som anges i TIMSS databas. Absoluta skillnader För den totala internationella gruppen erhålls de resultat som visas i tabell 5. Man kan omedelbart notera att skillnaderna till pojkarnas fördel är påtagliga och kraftigt signifikanta inom alla kunskapsområden. Även i detta avseende är alltså samstämmigheten mellan de svenska och de internationella resultaten stor. Tabell 5. Medelvärden och medelvärdesskillnad för totalgruppen flickor och pojkar samt t-test, senwgtp använd. MEDELVÄRDE t -TEST KUNSKAPSOMRÅDE F-P t df Sig. 2-sid Mekanik 459 523-64 -34,34 7928 0,000 Ellära/magn 477 521-44 -22,55 7835 0,000 Värme 476 515-39 -21,11 7772 0,000 Vågrörelse 467 516-50 -26,25 8071 0,000 Modern fysik 469 515-46 -24,11 7822 0,000 I diagramform ser resultaten ut som figur 10 visar. 23

530 510 PVMEDEL 490 PVMEDEL Mekanik El/magn 470 Värme Vågor 450 Modern KÖN Figur 10. Medelvärden totalt och uppdelat på olika kunskapsområden för flickor och pojkar, senwgtp använd. Man kan i figur 10 lägga märke till att för pojkarnas del är medelvärdet på hela provet (PVMEDEL) högre än PV-värdet för vart och ett av kunskapsområdena. Detta förefaller märkligt och någon bra förklaring är svår att ge eftersom den procedur som använts för att generera plausible values är synnerligen komplex och svårligen låter sig genomträngas (se IEA, 1998B och Wu, m.fl, 1997). Relativa skillnader I observerade värden (dvs. de plausible values som finns angivna i databasen) är alltså pojkarna bättre inom alla kunskapsområden. En fråga man kan ställa är då om de är lika mycket bättre inom varje kunskapsområde eller om det finns relativa skillnader mellan olika kunskapsområden. För att göra en sådan undersökning behöver de två grupperna likställas (betingas) i något avseende. I det följande har gruppen flickor och gruppen pojkar likställts med avseende på variabeln PVMEDEL. Den teknik som används brukar som tidigare nämnts kallas kovariansanalys. 24

Tabell 6. I databasen angivna medelvärden inom olika kunskapsområden uppdelat på flickor och pojkar samt justerade medelvärden inom olika kunskapsområden betingade utifrån PVMEDEL och uppdelade på flickor och pojkar samt signifikansnivå för justerade skillnader. Medelvärdesjusteringarnas storlek anges i de två kolumnerna längst till höger, senwgtp använd. TOTALGRUPP MEDELVÄRDE SIGNIFI- KUNSKAPS- EJ JUSTERAT JUSTERAT KANS- JUSTERING OMRÅDE F- P F- P NIVÅ Mekanik 459 523-64 491 505-14 0,000 32-18 Ellära/magn. 477 521-44 511 503 9 0,000 34-18 Värmelära 476 515-39 499 500-18 0,643 23-15 Vågrörelsel. 467 516-49 496 498-2 0,164 29-18 Modern fysik 469 515-46 498 495 3 0,074 29-20 SVERIGE MEDELVÄRDE SIGNIFI- KUNSKAPS- EJ JUSTERAT JUSTERAT KANS- JUSTERING OMRÅDE F- P F- P NIVÅ Mekanik 512 575-63 531 565-34 0,000 19-10 Ellära/magn. 554 575-21 580 563 17 0,000 26-12 Värmelära 513 535-22 531 526 5 0,276 18-9 Vågrörelsel. 523 563-40 551 551 0 0,976 28-12 Modern fysik 544 572-28 563 562 1 0,772 19-10 Sammantaget för samtliga länder finns således statistiskt signifikanta skillnader till pojkarnas fördel i mekanik och till flickornas fördel i ellära/magnetism. I värmelära, vågrörelselära och modern fysik finns däremot ingen statistiskt signifikant skillnad. Modern fysik dock inte långt ifrån att vara signifikant till flickornas fördel. Dessa resultat överensstämmer väl med resultaten för de svenska deltagarna i TIMSS vilka visas i nedre halvan av tabell 6. Tabell 7 visar i figurform resultaten av dels de obetingade resultaten för olika kunskapsområden uppdelade på länder och flickor och pojkar till vänster i tabellen och dels motsvarande resultat betingade efter PVMEDEL i den högra kolumnen. Man kan notera att mönstret på det hela taget är rätt likartat för de flesta länder när det gäller relationen flickor och pojkar. na ligger med ett par undantag (Israel och Italien som båda har ofullständig resultatredovisning) högre i mekanik medan flickorna ligger högre i ellära/magnetism (gäller den högra spalten med betingade värden). För övriga kunskapsområden är bilden betydlig mer splittrad. Skillnaderna mellan olika länder kan som synes vara betydande inom olika kunskapsområden. Något som väl 25

torde kunna ses som en effekt av olika prioriteringar i läroplaner och kursplaner. Tabell 7. Figurer med resultat för de fem kunskapsområdena mekanik, ellära/magnetism, värmelära, vågrörelselära och modern fysik uppdelade på länder samt flickor och pojkar. Figurerna till vänster visar skillnader i plausible values som de anges i TIMSSdatabasen. Figurerna till höger anger motsvarande värden betingade efter PVMEDEL, dvs justerade utifrån antagandet att flickor och pojkar har samma medelvärde på PVMEDEL. De vertikala linjerna anger medelvärden för flickor och pojkar (streckade) och totalt (heldragen), senwgtp använd. Australien* Australien* Österrike* Österrike* Kanada Kanada Cypern Cypern Tjeckien Tjeckien Danmark** Danmark** Frankrike Frankrike Tyskland Tyskland LAND Grekland Israel*** LAND Grekland Israel*** Italien*** Italien*** Lettland Lettland Norge Ryssland KÖN Norge Ryssland KÖN Sverige Schweiz Sverige Schweiz USA* Slovenien** 400 450 500 550 600 USA* Slovenien** 400 450 500 550 600 PVMEDEL(mekanik) PVMEDEL(mekanik, justerade) Australien* Australien* Österrike* Österrike* Kanada Kanada Cypern Cypern Tjeckien Tjeckien Danmark** Danmark** Frankrike Frankrike Tyskland Tyskland LAND Grekland Israel*** Italien*** Lettland Norge Ryssland Sverige Schweiz USA* Slovenien** 400 450 500 550 KÖN 600 LAND Grekland Israel*** Italien*** Lettland Norge Ryssland Sverige Schweiz USA* Slovenien** 400 450 500 550 KÖN 600 PVMEDEL (Ellära/magnetism) PVMEDEL(ellära/magn, justerade) 26