Martin Möllberg mollberg@kth.se Alexei Zaitsev alexeiz@kth.se SA104X Examensarbete i teknisk fysik, grundnivå Avdelningen för matematisk statistik 17 maj 2011
Författarnas tack Vi vill särskilt tacka två personer som möjliggjorde detta examensarbete. Vår handledare Harald Lang vid avdelningen för matematisk statistik, KTH, för givande diskussioner och Anna Björklund vid Verksamhetsuppföljning och studiedokumentation (VoS) som vänligen tillhandahöll statistiken.
Abstract Grades is a way to estimate how well a student has understood a subject. But what influences these grades? Is it only the students motivation and determination to study? His talent? Or does the examiner have a big influence on the grade? We have evaluated this last question by using statistical modelling, multiple linear regression and ordered probit regression. Our findings shows that the grade a student received on the exam is correlated with the examiner. However we did not see a systematic difference of an examiner s performance over a period of time for a given course. For the reader that is unfamiliar with statistical modelling, a brief introduction to this field is provided.
INNEHÅLL Innehåll 1 Inledning 3 2 Problemformulering 4 3 Teoretisk bakgrund 5 3.1 Multipel linjär regression..................... 5 3.2 Indikatorvariabler......................... 5 3.3 Ordinal probit regression..................... 5 4 Genomförande 7 5 Resultat 10 6 Diskussion 11 6.1 Regressionerna.......................... 12 6.1.1 Examinatorer....................... 12 6.1.2 Kursomgångar...................... 13 6.2 Linjär regression......................... 13 7 Slutsatser 14 7.1 Examinatorer........................... 14 7.2 Kursomgångar.......................... 14 2
1 Inledning När tentaveckan närmar sig så blir den genomsnittlige studenten allt mer stressad. Det är mycket som måste göras. Ska man läsa mer teori i boken eller lägga mer tid på dem där övningsuppgifterna som man glömde att göra? Är det dags att börja med extentorna? Hela tiden undrar man vilket betyg man får. Och vad är det som gör att man får ett visst tentamensbetyg? Vårt examensarbete behandlar betygsstatistik från KTH-studenter. Tanken är att undersöka vilka faktorer som bidrar till det betyg som en student får på tentamen. Den behandlade datan hämtades från Verksamhetsuppföljning och studiedokumentation, som har uppdraget att förvalta KTHs studieadministrativa system. Flera olika statistiska modeller undersöktes. Undersökningen gjordes med hjälp av relativt enkla statistiska verktyg, såsom multipel linjär och ordered probit regression. 3
2 PROBLEMFORMULERING 2 Problemformulering Den problemformulering som ligger till grund för projektarbetet är följande: 1. Är betyget oberoende av examinatorn? Vilken slutsats kan vi dra av en hypotesprövning? 2. Förändras betygsfördelningen med tiden om en och samma examinator har samma kurs flera gånger? 4
3 Teoretisk bakgrund För att kunna besvara frågorna i problemformuleringen behövs modeller för multipel regressionsanalys. Betygen betraktas som utfall som är beroende av olika variabler såsom studentents ålder, antal poäng tagna under första läsåret etc. Då betygen antar diskreta värden är det olämpligt att göra en OLS-skattning ( Ordinary Least Squares ), därför valdes Ordinal Probit Regression istället. 3.1 Multipel linjär regression Inom statistiken är multipel linjär regression en teknik med vilken man kan undersöka huruvida det finns ett linjärt samband mellan en beroende variabel, y och två eller flera kovariater, x i :na. Detta samband kan skivas y = β i x i + e = βx + e där β i :na är respektive verkliga koefficienter och e är feltermen. Feltermen förklaras ej av modellen. Har man data över den beroende variabeln och kovariaterna kan koefficienterna, β i :na och feltermen, e skattas. Det som erhålles är istället de skattade koefficienterna enligt y = ˆβiˆx i + ê = ˆβˆx + ê Om ˆβ ligger tillräckligt nära det verkliga värdet är det statistiskt signifikant. Detta rapporteras i de flesta statistikprogramm. 3.2 Indikatorvariabler Indikatorvariabler är kovariater som kan bara anta värdena 0 eller 1. Detta gör att man kan kompensera för faktorer som inte är direkt matematiskt mätbara, exempelvis kön. 3.3 Ordinal probit regression Ordered probit är en vidareutveckling av multipel linjär regression. Den linjära regressionen är lättare att tolka entydigt men den är ej tillräcklig i vårat fall. Den tar inte hänsyn till datans ordinala karaktär, dvs att betygen är stegvis ordnade. Om man till exempel har flera val, 0, 3, 4, eller 5, kommer den linjära regressionen att behandla steget mellan 5 och 4 på samma sätt som steget mellan 5
3 TEORETISK BAKGRUND 4 och 3. Detta är vore felaktigt. Egentligen är 0, 3, 4, eller 5 bara olika sätt att rangordna datan. Vi fortsätter med själva modellen och utgår från den linjära regressionsanalysen: y = βx + e I vårt fall är y ej observerbar, det vi observerar är istället: y = 0, om : y < 0 y = 1, om : (0 < y < µ 1 ) y = 2, om : (µ 1 < y < µ 2 )... y = J, om : (µ J 1 < y < ) Detta fungerar ungefär som censur av information. Ordered probit-modellen anpassar datan till en normalfördelning. Den rapporterar de olika trösklarna mellan de olika nivåerna och de skattade koefficienterna. Trösklarna beräknas med hjälp av Maximum Likelihood Estimate, denna skattning tar hänsyn till de olika frekvenserna av den beroende variabeln. Det vill säga, sannolikhetsmassan mellan två närliggande trösklar är lika med frekvensen. Frekvensen är andelen av ett givet värde på den beroende variabeln i procent. Tolkningen av dessa blir annorlunda jämfört med vanlig linjär regression. Om ett β i är positiv betyder det att den motsvarande kovariaten påverkar den beroende variabeln positivt. Koefficienter flyttar den till höger på y-axeln, se figur 1. I boken Econometric Analysis författad av Greene [1] visas i exempel 23.18 hur den så kallade Ordered Probit Model kan användas för att analysera betygsstatistik. Betygsstatistiken i detta fall är betyg satta i ekonomikurser och regressionen genomförs mot betyg i den senaste kursen i matematisk analys, olika typer av uppgifter relaterade till tidigare kurser, klassens storlek, Freshman Grade Point Average m.m. 6
kovariat beskrivning x 1 studentens ålder x 2 antalet avklarade poäng efter första läsåret x 3 indikatorvariabel för ordinarie tentamen x 4 indikatorvariabel för examinator 2 x 5 indikatorvariabel för examinator 3... osv Tabell 1: Kovariater för frågeställning 1 kovariat beskrivning x 1 studentens ålder x 2 antalet avklarade poäng efter första läsåret x 3 indikatorvariabel för ordinarie tentamen x 4 indikatorvariabel för registreringstermin 2 x 5 indikatorvariabel för registreringstermin 3... osv Tabell 2: Kovariater för frågeställning 2 4 Genomförande Ekvationerna kan skrivas på följande form och i tabellerna ovan visas vilka kovariater som har valts i respektive modell. y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 +... För att testa om betygen är oberoende av examinatorn har kovariater enligt tabell 1 valts ut. I tabell 2 visas de kovariater som har valts ut för att kunna studera hur betygsfördelningen förändras när en och samma lärare har haft en kurs under flera år. Databehandlingen av statistiken genomfördes i MS Access och regressionerna genomfördes med programvaran SPSS Statistics (Statistical Package for the Social Sciences). För att besvara vår frågeställning genomfördes totalt elva regressioner, tio av dessa utfördes med ordered probit-modellen och en med multipel linjär regression. Den senare genomfördes för att vi ville jämföra olika modeller. Valet av kurser beror på antalet examinatorer som haft kursen genom åren. Om en kurs har haft många olika examinatorer så ingick den i undersökningen för att besvara frågeställning 1. Kurser som har haft en och samma examinator under många år undersöktes för att besvara frågestllning 2. I tabell 4 listas de kurser som har valts ut för att försöka besvara fråge- 7
4 GENOMFÖRANDE kurskod SF1629 5B1202 5A1301 kursnamn Differentialekvationer och transformer II Differentialekvationer och transformer II Fysikens matematiska metoder Tabell 3: Valda kurser för frågeställning 1 kurskod 5C1113 SI1140 2D1210 kursnamn Mekanik, fortsättningskurs Fysikens matematiska metoder Numeriska metoder, grundkurs Tabell 4: Valda kurser för frågeställning 2 ställning 1 i avsnitt 2, observera att det förekommer två kurser med samma kursnamn. Den ena kursen gavs efter höstterminen (Ht) 2007 och den andra innan dess. Observera också att sifferbetyg har satts på kurser innan Ht 2007 och bokstavsbetyg därefter. För att kunna hantera bokstavsbetyg i SPSS Statistics var det nödvändigt att koda om betygen till siffror, annars blir inte rankningen av betygen korrekt. I de tabeller som innehåller den statistik som vi har analyserat har vi namngett indikatorvariablerna för registreringsterminerna på följande sätt; D står för Dummy som i Dummy variable (engelska för indikatorvariabel), de fyra följande siffrorna för årtalet och den sista siffran anger termin. Termin 1 är vårterminen och 2 är höstterminen, ett exempel på variabelnamn är D20022. Indikatorvariablerna för respektive examinator har namngetts enligt Ex1, Ex2 etc. Studenternas åldrar var okända, de enda uppgifter som fanns om detta i statistiken var inom vilka intervall som födelseåren låg. Exempelvis så fanns uppgiften 88-90 i statistiken för alla studenter födda mellan år 1988 och 1990, därför så gjordes följande grova uppskattning av studenternas åldrar: differensen mellan det årtal då given student skrev tentamen och födelseåret beräknades. Något som är viktigt att notera är att regressionerna endast genomfördes mot de betyg som studenterna erhöll vid de första försöken. Det faktum att 8
vissa studenter tenterar ett och samma moment mer än en gång är något som kan komplicera analysen betydligt. Det är ju mycket vanligt att studenter blir underkända vid första försöken i respektive moment och tenterar vid ett senare tillfälle, då kanske de erhåller nya betyg. Något som inte är lika vanligt men som förekommer är att studenter tenterar moment som de redan är godkända i för att försöka förbättra sina betyg. 9
5 RESULTAT 5 Resultat Utskrifterna från programmet finns bifogade under Appendix A. Här finns information om de skattade parametrarna, om resultaten är statistiskt signifikanta, skattade trösklar m.m. Utifrån dessa utskrifter kan vi sammanställa följande tabeller: kurskod signifikans SF1629, Del1 Med hög signifikans är koefficienten för Ex 3 positiv. SF1629, Del2 Med hög signifikans är koefficienterna för Ex 3 och Ex 4 positiva. 5B1202, Del2 På 4.7% signifikansnivå är koefficienten för Ex 2 positiv. 5A1301 På 1.7% signifikansnivå är koefficienten för Ex 4 positiv. Tabell 5: Signifikanta koefficienter för frågeställning 1 kurskod signifikans 5C1113, Del1 På 0.2% signifikansnivå är koefficienten för D20052 negativ. 5C1113, Del2 På 4% signifikansnivå är koefficienten för D20022 negativ. SI1140, Del1 På 3.5% signifikansnivå är koefficienten för D20092 positiv. Tabell 6: Signifikanta koefficienter för frågeställning 2 Notera att i fallet med frågeställning 1 så är koefficienterna för examinatorerna mått på skillnaderna mot examinator nr 1. På motsvarande sätt så har vi för frågeställning 2 och varje given regression en termin som utgör referens. 10
Figur 1: Visar hur man kan tolka ordered probit-regressioner grafiskt 6 Diskussion I figur 1 kan man se att ju större βx är desto större är chansen att en enskild individ passerar en tröskel och får högre betyg. β skattade som positiva påverkar tentamensresultatet positivt, β skattade som negativa påverkar tentamensresultatet negativt. För att en koefficient ska kunna tolkas entydigt så krävs att den är statistiskt signifikant. När vi skriver att en koefficient är relativt stor eller liten jämför vi den med intervallen som definieras av trösklarna. Under vår undersökning erhöll vi blandade resultat. Målet var att utröna huruvida det gick att se skillnad på tentamensresultatet på en viss kurs under olika examinatorer och om en och samma examinator som har betygsatt samma kurs under flera kursomgångar har haft en positiv eller negativ påverkan på tentamensresultatet över årens lopp. Sammanfattningsvis kan man säga att undersökningen tyder på att det finns en korrelation mellan examinatorer och tentamensbetyg. Dock är det svårt att mäta den exakt. Dessutom håller en och samma examinatorer ungefär samma nivå på tentamina under de år han medverkar i kursen vilket verkar vara rättvist. De variabler som vi till slut valde för att utföra våra regressioner var tyvärr inte exakt de som vi tänkte använda från början. Vi erhöll datan rätt sent i vårt arbete och en del av de relevanta kovariaterna saknades tyvärr. De mest relevanta kovariater som saknades för många individer i vår undersökning var, medelbetyget från gymnasiet och medelbetyget från KTH fram till den tidpunkt då man påbörjade kursen. Detta kan ha lett till att vi inte erhöll så många signifikanta koefficienter i våra regressioner. Detta fenomen kallas för endogenitet och innebär att felet är korrelerat med minst en av kovariaterna. Det finns uppgifter som vi saknar som i allra högsta grad är relevanta. Hur pass studiebegåvad är en viss student? Hur många timmar har studenten ifråga ägnat åt studierna i en viss given kurs? Det faktum att vi saknar 11
6 DISKUSSION sådana uppgifter och att vi därför inte inkluderar kovariater för dem medför att vi har endogenitet. Det kan vara en mängd olika faktorer som påverkar tentamensresultatet och vissa av dem är kanske inte ens direkt mätbara. I övrigt är studiebegåvning en egenskap som sägs vara ej observerbar. En annan relevant uppgift som vi tyvärr inte hade är om examinatorn och föreläsaren var samma person i respektive kurs och omgång. Motsvarande kovariat hade varit bra att ha för undersökningen. Om examinatorn och föreläsaren är en och samma person har denna mer koll på vad som har gåtts igenom i kursen och kan då sammanställa mer rättvisande tentamina. Endogenitet uppträder i många olika former men kan ibland vara enkelt att åtgärda, ibland kan man helt enkelt inkludera kovariater som saknas. Dessvärre så kunde vi inte begära mer data än det vi hade. Ett annat vanligt förekommande problem är när antalet data är för lågt. Då gäller inte de antagningar man gör i ordered probit-modellen, det vill säga att datan och feltermerna är normalfördelade. Detta åtgärdas på samma sätt som ovan. Då vi hade tidsbrist kunde vi inte heller göra detta. 6.1 Regressionerna Här diskuteras de resultat som vi har erhållit från regressionerna. Endast de signifikanta koefficienterna visas här. Siffrorna i tabell 5 och 6 är ett utdrag från Appendix A. 6.1.1 Examinatorer Utifrån tabell 5 ser vi att bara några koefficienter är signifikanta. Men man får inte glömma att även detta är ett resultat. Den första delen av vår problemformulering var huruvida det gick att se skillnad på tentamensresultatet på en viss kurs under olika examinatorer och det är just det som vi kan göra. De ej signifikanta koefficienterna tyder på att det är ingen systematisk skillnad mellan de benämnda examinatorerna. Skillnadena för dessa examinatorer kan lika gärna vara slumpmässiga. De signifikanta koefficienterna tyder på att det är bättre att ha just den examinatorn i den kursen om koefficienten är positiv. Är den negativ tyder det förstås på det motsatta, att det är sämre. Exempelvis kan man med hög signifikans säga att på den första tentan i kursen SF1629 var det bättre att ha examinator nr 3 som examinator än nr 1, se tabell 5. Vi ser när vi betraktar koefficienten för examinator nr 3 att koefficienten är relativt stor, det verkar som att sannolikheten var stor att studenterna passerade en tröskel och fick 12
6.2 Linjär regression bättre betyg jämfört med om de hade haft examinator nr 1. Detta skulle alltså exempelvis kunna innebära att en viss given student som får betyget C med en viss examinator istället får B med en annan. Vi kan alltså dra slutsatsen att det är bättre att ha vissa examinatorer i vissa kurser. Vilka examinatorerna är kan vi tyvärr inte avslöja men fråga gärna de äldre studenterna på ditt program. De vet säkert ett och annat. 6.1.2 Kursomgångar Den andra delen i vår problemformulering var huruvida det gick att utröna om en och samma examinator som har betygsatt samma kurs under flera kursomgångar har haft en positiv eller negativ påverkan på tentamensresultatet över årens lopp. Trots de blandade resultaten eller kanske just på grund av dem kan vi besvara även denna fråga. Då det inte går att se en systematisk ökning eller minskning av de respektive koeffiecienterna under flera kursomgångar kan vi dra slutsatsen att en examinator inte blir bättre eller sämre på att sammanställa tentamina. Vi kan alltså inte se någon urskiljbar trend bland koefficienterna och detta liknar de resultat som vi erhöll i förra delen. Ej heller går det att urskilja några tendenser till betygsinflation. Exempelvis ser vi att i kursen 5C1113 del 1 är koefficienten för Ht 2005 negativ med ett relativt stort absolutbelopp. Här har vi också ett statistiskt signifikant resultat, tydligen fick studenterna sämre betyg på just denna tentamen. Alltså var sannolikheten stor att passera en tröskel och få sämre betyg jämfört med Ht 2001. För kurserna 2D1210, SI1140 del 2, 5B1202 del 1, var ingen av indikatorvariablerna statistiskt signifikanta på 5% nivå. Det betyder att variationerna av tentamensresultaten mellan olika år lika gärna kan vara slumpmässiga. Det finns alltså ingen statistiskt mätbar skillnad mellan de olika åren. 6.2 Linjär regression För kursen 2D1210 genomförde vi även en linjär regression. Målet var att jämföra de olika modellerna och se eventuella skillnader som fanns. Det vi såg var att de skattade koefficienterna för indikatorvariablerna var också ej signifikanta. Dessutom hade de värden som låg nära ordered probit-modellen men vi kunde konstatera en viss skillnad. Detta tyder på att vi gjorde rätt när vi valde att basera vår undersökning på den senare modellen. 13
REFERENSER 7 Slutsatser 7.1 Examinatorer Undersökningen tyder på att det finns ett samband mellan vilken examinator man har och vilket betyg man får på tentamen. Vissa examinatorer sammanställer tentamina på vilka studenterna får bättre betyg. 7.2 Kursomgångar Undersökningen tyder på att om en examinator har varit anvarig för en kurs i ett flertal kursomgångar så är nivån på tentamina densamma. Det finns alltså ingen systematisk förändring. Referenser [1] William H. Greene, Econometric Analysis: Pearson International Edition. Upper Saddle River, New Jersey, Sjätte upplagan, 2008. 14