En nyttomaximerande skola i det innovationsdrivna samhället

Relevanta dokument
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressionsanalys av lägenhetspriser i Spånga

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Utbildningskostnader

Regressions- och Tidsserieanalys - F4

Linjär regressionsanalys. Wieland Wermke

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

PISA åringars kunskaper i matematik, läsförståelse och naturvetenskap

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematiken i PISA

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tabeller. Förklaring till symbolerna i tabellerna. Kategorin är inte relevant för det aktuella landet varför data inte kan finnas.

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

PISA (Programme for International

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

PISA åringars kunskaper i matematik, läsförståelse, naturvetenskap och digital problemlösning

Metod och teori. Statistik för naturvetare Umeå universitet

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Multipel Regressionsmodellen

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Repetitionsföreläsning

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

LABORATION 3 - Regressionsanalys

Lektionsanteckningar 11-12: Normalfördelningen

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Föreläsning 12: Regression

Att välja statistisk metod

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Regressions- och Tidsserieanalys - F1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

LABORATION 3 - Regressionsanalys

Prissättningsanalys av annonser på internet

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Matematik Läsförståelse Naturvetenskap

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Medicinsk statistik II

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Föreläsning 4. Kap 5,1-5,3

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Regressions- och Tidsserieanalys - F1

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Analys av bostadsrättspriset i Stockholms innerstad

MVE051/MSG Föreläsning 14

Skrivning i ekonometri lördagen den 29 mars 2008

Följande resultat erhålls (enhet: 1000psi):

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

EXAMINATION KVANTITATIV METOD vt-11 (110319)

7.5 Experiment with a single factor having more than two levels

, s a. , s b. personer från Alingsås och n b

I fråga om problemlösning. Finland de minsta skillnaderna mellan skolorna och i fråga om elevernas familjebakgrund.

Grundläggande matematisk statistik

5. Högskolenivå. Svensk högskoleutbildning i ett internationellt perspektiv

Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressionsanalys av NHL-statistik

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Fråga nr a b c d 2 D

En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

EN RAPPORT FRÅN LÄRARNAS RIKSFÖRBUND. Svenska lärarlöner i ett europeiskt perspektiv

OBS! Vi har nya rutiner.

Laboration 2 multipel linjär regression

Matematisk statistik, Föreläsning 5

Analytisk statistik. Tony Pansell, optiker Universitetslektor

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

import totalt, mkr index 85,23 100,00 107,36 103,76

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Bilaga 6 till rapport 1 (5)

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Högskolenivå. Kapitel 5

Skrivning i ekonometri lördagen den 25 augusti 2007

F3 Introduktion Stickprov

Andel av befolkningen med högre utbildning efter ålder Högskoleutbildning, kortare år år år år år

Kunskaper och färdigheter i grundskolan under 40 år: En kritisk granskning av resultat från internationella jämförande studier

Hur skriver man statistikavsnittet i en ansökan?

Regressions- och Tidsserieanalys - F7

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Transkript:

EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2016 En nyttomaximerande skola i det innovationsdrivna samhället ERIC FORNANDER SIMON PARK KTH KUNGLIGA TEKNISKA HÖGSKOLAN SKOLAN FÖR TEKNIKVETENSKAP

En nyttomaximerande skola i det innovationsdrivna samhället ERIC FORNANDER SIMON PARK Examensarbete inom teknik: Tillämpad matematik och industriell ekonomi (15 hp) Civilingenjörsutbildning i industriell ekonomi (300 hp) Kungliga Tekniska högskolan 2016 Handledare på KTH: Henrik Hult, Jonatan Freilich Examinator: Henrik Hult TRITA-MAT-K 2016:14 ISRN-KTH/MAT/K--16/14--SE Royal Institute of Technology SCI School of Engineering Sciences KTH SCI SE-100 44 Stockholm, Sweden URL: www.kth.se/sci

Sammanfattning Det här kandidatexamensarbetet inom matematisk statistik och industriell ekonomi tar fram ett underlag för hur Sverige och andra innovationsdrivna länder kan agera för att uppnå en nyttomaximerande skola. Detta genom att undersöka vilka faktorer som påverkar resultatet på PISA-testet via användning av multipel linjär regression, samt vilka faktorer som främjar innovation med hjälp av en litteraturstudie. Utifrån fyra perspektiv (generellt-, skol-, lärar- och elevperspektiv) valdes förklaringsvariabler ut för att inkluderas i regressionsanalysen. Resultatet gav att signifikanta variabler återfanns i samtliga perspektiv. Litteraturstudien utgick från två perspektiv (individ och organisation), där resultatet var i form av en omfattande översikt av innovationsdrivande faktorer. Den dragna slutsatsen var att högre lärarlöner och högre kvalitet på skolmateriel leder till effektivare kunskapsutlärning. Mindre klasstorlekar däremot påverkar inte kunskapsutlärningen, medan längre tid för elever i skolan leder till sämre sådan. Ytterligare konklusioner var att skolan bör fokusera mer på arbete i grupp istället för individuellt arbete, träna elever på att definiera problem och inte bara lösa färdiga sådana samt låta elever kombinera olika ämneskunskaper i större utsträckning.

Abstract This thesis within mathematical statistics and industrial economics forms a foundation which explains how Sweden and other innovation-driven countries can act to achieve an efficient school. Multiple linear regression is used to identify explanatory variables that affect the results on the PISA test and factors that foster innovation are examined via a literature review. The included variables in the regression analysis were chosen out of four perspectives: general, school, teaching and student. The result showed that significant variables were found in all four perspectives. Moreover, the literature review was based on an individual perspective and an organisational perspective. Result was presented as an extensive overview of factors that affect innovation. A conclusion that higher teacher salaries and better quality of equipment in schools lead to more efficient learning was drawn. However, smaller class sizes do not affect quality of learning and more time spent in school by students affects quality of learning negatively. Further conclusions were that schools should focus on group-based work instead of individual work. Students should also be taught to redefine problems and combine knowledge from different subjects to a greater extent.

Innehållsförteckning Tabeller 4 Figurer 5 1 Inledning 6 1.1 Bakgrund............................... 6 1.2 Syfte.................................. 7 1.3 Problemformulering.......................... 7 1.3.1 Frågeställning......................... 7 1.4 Kunskapsbas.............................. 7 1.5 Rapportens disposition........................ 8 2 Teori 9 2.1 Matematisk teori........................... 9 2.1.1 Multipel linjär regression................... 9 2.1.2 Hypotestest.......................... 10 2.1.3 Eta squared.......................... 11 2.1.4 Förklaringsgrad........................ 11 2.1.5 AIC.............................. 11 2.1.6 Multikolinjäritet....................... 12 2.1.7 VIF.............................. 12 2.1.8 Endogenitet.......................... 12 2.1.9 Hetereoskedasticitet...................... 13 2.1.10 Normal Quantile-Quantile plot................ 14 2.1.11 Residualplot.......................... 14 2.1.12 Variabelselektion....................... 15 2.1.13 Variabler............................ 15 2.2 Teori om resultatdrivande faktorer i skolan............. 15 2.2.1 Generellt perspektiv..................... 16 2.2.2 Skolperspektiv......................... 16 2.2.3 Lärarperspektiv........................ 16 2.2.4 Elevperspektiv........................ 16 3 Metod 17 3.1 Datainsamling............................. 17 3.2 Variabler................................ 17 1

3.2.1 Responsvariabel........................ 17 3.2.2 Förklaringsvariabler...................... 17 3.3 Antaganden.............................. 19 3.4 Genomförande............................. 20 3.4.1 Program............................ 20 3.4.2 Struktur............................ 20 3.4.3 Variabelselektion....................... 20 4 Resultat 21 4.1 Grundmodell............................. 21 4.1.1 VIF.............................. 21 4.1.2 Resultat av regression.................... 22 4.2 Reduktion av modellen........................ 22 4.3 Slutgiltig modell........................... 23 4.3.1 Homoskedasticitet...................... 23 4.3.2 Normalfördelade residualer.................. 24 5 Diskussion 25 5.1 Analys av slutmodell......................... 25 5.1.1 Utelämnade förklaringsvariabler............... 26 5.2 Utvärdering av resultatet....................... 26 5.2.1 Generellt perspektiv..................... 26 5.2.2 Skolperspektiv......................... 27 5.2.3 Lärarperspektiv........................ 29 5.2.4 Elevperspektiv........................ 29 5.2.5 Reducerade förklaringsvariabler............... 29 6 Innovationsdrivande faktorer 30 6.1 Bakgrund............................... 30 6.2 Teoretisk referensram......................... 31 6.2.1 Innovationsfrämjande faktorer och skolan.......... 32 6.3 Metod................................. 33 6.4 Resultat................................ 34 6.4.1 Individfaktorer........................ 34 6.4.2 Organisationsfaktorer..................... 35 6.4.3 Samspelet mellan individ och organisation......... 36 6.5 Diskussion............................... 37 6.5.1 Metoddiskussion....................... 37 6.5.2 Resultatdiskussion...................... 38 7 Diskussion 39 7.1 Slutsats................................ 40 7.1.1 Förslag till fortsatta studier inom området......... 41 8 Litteraturförteckning 42 2

A Regressionsspecificering 46 3

Tabeller 3.1 Sammanställning av de ingående variablerna............ 19 3.2 Gruppindelning av jämförbara länder................ 19 4.1 Beräknade VIF-värden för respektive förklaringsvariabel..... 21 4.2 Resultat av regression av grundmodell............... 22 4.3 Reducering av grundmodell. P-värdet samt η 2 är värden gällande den exkluderade variabeln, övriga värden ges för hela modellen.. 22 4.4 Ingående variabler för slutgiltig modell............... 23 6.1 Litteratursökning........................... 33 A.1 Resultat av regression vid exkludering av Skolstart från grundmodellen................................ 46 A.2 Resultat av regression vid exkludering av Prv.utgifter från modellen använd i tabell A.1...................... 46 A.3 Resultat av regression vid exkludering av Kön.lärare från modellen använd i tabell A.2...................... 47 A.4 Resultat av regression vid exkludering av Datorer från modellen använd i tabell A.3.......................... 47 A.5 Resultat av regression vid exkludering av Utb.utgifter från modellen använd i tabell A.4...................... 47 4

Figurer 2.1 QQ-plot vid normalfördelade residualer............... 14 2.2 Residualplot vid homoskedasticitet................. 15 4.1 Residualplot för slutgiltig modell................... 24 4.2 QQ-plot för slutgiltig modell..................... 24 6.1 Innovationsprocess........................... 32 5

Del 1 Inledning 1.1 Bakgrund Utbildningsväsendet har en central roll i ett lands utveckling. Således är det av högsta prioritet för de styrande i samtliga länder att maximera nyttan av sina tillgängliga resurser för att skapa ett välfungerande sådant. Skillnader har emellertid funnits i synen på hur det ska uppnås, som inom de flesta politiska områden. Meningsskiljaktigheter har infunnit sig i både ekonomiska och strategiska frågor. Exempelvis om hur mycket av ett lands totala budget som bör läggas på utbildningsområdet och mer specifikt hur de pengarna bör allokeras eller hur utlärningstiden ska utformas. Vidare ska det även nämnas att kulturella skillnader influerat den pedagogiska utlärningsprocessen och följaktligen gett upphov till skillnader även där. Av ovan nämnda anledningar har det genom åren gjorts många försök att identifiera drivande faktorer bakom ett framgångsrikt utbildningsväsende. Första steget i att göra detta är att försöka definiera vad som utmärker detsamma samt ta fram ett tydligt och rättvisande mått. Organisationen för ekonomiskt samarbete och utveckling (OECD) har, utifrån denna bakgrund, konstruerat en studie bestående av ett test, Programme for International Student Assessment (PISA), som 15-åriga skolungdomar gör vart tredje år. Detta test genomfördes första gången år 2000 och har sedan dess använts frekvent som måttstock för elevers kunskaper [1]. PISA-testet utförs individuellt och är uppdelat i tre olika delar: matematik, naturvetenskap och läsförståelse. I samband med att testet genomförs samlas även ytterligare information in om de skrivande eleverna via frågeformulär. Resultat tillsammans med denna ytterligare information sammanställs sedan av OECD och presenteras på deras hemsida som underlag för studier i utbildningsfrågor [1]. En del kritik har dock framförts mot att PISA-testet inte mäter alla de individuella egenskaper som är relevanta i dagens moderna samhälle. Kritiker hävdar att 6

detta gör resultatet från PISA-testet oanvändbart i syfte att utvärdera utbildningskvalitén. Framförallt har det lyfts fram att kvalitén på kunskaperna inom PISA:s tre områden inte säger något om individen i frågas innovationsförmåga [2]. En förmåga vilken i dagens innovationsdrivna samhälle är viktigare än någonsin (6.1 Bakgrund). Det svenska utbildningsväsendet har historiskt haft hög status och många framgångsrika innovatörer har fått sin utbildning i Sverige. Sverige presterade även initialt över genomsnittet i PISA-studien men har konstant haft en negativ trend och resultatet från senaste studien 2012 visade att Sverige låg under genomsnittet inom samtliga tre kunskapsområden [3]. Följderna av detta ras har ännu inte kunnat betraktas då de aktuella individerna fortfarande är relativt unga och ännu inte kommit ut i arbetslivet. 1.2 Syfte Syftet med kandidatexamensarbetet är att via statistiska metoder samt litteraturstudie ta fram underlag för hur Sverige och andra innovationsdrivna länder uppnår en nyttomaximerande skola. 1.3 Problemformulering För att ta fram relevanta resultat undersöks först hur skolsituationen idag kan nyttomaximeras. Detta genom att identifiera drivande faktorer och analysera på vilket sätt dessa påverkar resultatet på PISA-testet. Det ämnas genomföras med hjälp av relevanta statistiska metoder. Vidare ämnas det lyftas fram andra faktorer skolan eventuellt bör flytta fokus mot utifrån vad som efterfrågas i dagens innovationsdrivna samhälle. Därför avses en litteraturstudie genomföras av forskning kring främjande av innovation för att identifiera dessa faktorer. 1.3.1 Frågeställning De två konkreta frågeställningarna är följande: Vilka faktorer påverkar resultatet på PISA-testet och i vilken riktning? Vilka faktorer främjar innovation? 1.4 Kunskapsbas För att identifiera och analysera faktorer som tillsammans påverkar ett specifikt ting, exempelvis resultatet på PISA-testet, används ofta regressionsanalys. Regressionsanalys är en statistisk metod som kommer att beskrivas närmare i 7

2.1 Matematisk teori. Huvuddelen av den kunskap regressionsanalysen genomförs utifrån är inhämtad via kursen SF2930 Regressionsanalys på KTH och detta kompletteras med kunskap från två böcker i ekonometri, av Kennedy P respektive Studenmund A.H. Vilka förklaringsvariabler en regressionsanalys bör utgå ifrån bestäms med hjälp av en analys av ämnet i fråga. Denna rapport kommer att använda studier från OECD på liknande frågeställningar som grund för val av förklaringsvariabler, något som beskrivs utförligare i 2.2 Teori om resultatdrivande faktorer i skolan. 1.5 Rapportens disposition Rapporten avser behandla de två frågeställningarna separat och de presenteras i del 2 till och med 5, respektive del 6. Med en avslutande gemensam diskussion i del 7 där respektive dels resultat integreras utifrån rapportens syfte. 8

Del 2 Teori 2.1 Matematisk teori 2.1.1 Multipel linjär regression Då en beroende responsvariabel ska approximeras utifrån ett antal oberoende förklarande variabler används multipel linjär regression. Modellen ställs upp enligt y i = k x ij β j + e i, i = 1,..., n (2.1) j=0 Responsvariabeln representeras av y, förklaringsvariablerna betecknas x och normalfördelade feltermen med e. β 0 utgör interceptet och β 1, β 2,..., β n, är koefficienterna för respektive förklaringsvariabel. Dessa estimeras utifrån modellen. Den uppställda modellen innefattar n antal observationer och k antal förklaringsvariabler [4]. Matrisnotation kan användas för uppställning av modellen och ger då där Y = Xβ + e y 1 1 x 11 x k1 β 0 e 1 y 2 Y =., X = 1 x 13 x k2......, β = β 1., e = e 2. y n 1 x 1n x kn β k e n Fem antaganden bör vara uppfyllda för att den linjära regressionen ska kunna genomföras och ge rättvisande resultat [5]. 1. En linjär modell enligt (2.1) kan formuleras, där den beroende variabeln uttrycks som en funktion av de oberoende variablerna samt en felterm. 9

2. E[e i ] = 0, d.v.s. att väntevärdet av feltermerna är lika med noll. 3. E[e 2 i ] = σ, d.v.s. att variansen av feltermerna är enhetliga. Dessutom är de okorrelerade, d.v.s. sinsemellan oberoende. 4. För upprepade stickprov anses värdena av de oberoende variablerna vara fixa. 5. Det existerar inte något exakt linjärt samband mellan de oberoende variablerna. För att estimera regressionskoefficienterna β, betecknat ˆβ, används Ordinary Least Squares (OLS). Det bygger på minstakvadratmetoden där summan av residualerna ê t ê = ê 2 minimeras, samt genom utnyttjande av normalekvationen X t ê = 0, där ê = Y X ˆβ. Från detta erhålls [4] ˆβ = (X t X) 1 X t Y 2.1.2 Hypotestest En vanlig metod för analys av signifikansen av de oberoende variablerna är F-test. Utifrån detta test kan ett p-värde kalkyleras. Kort visar p-värdet sannolikheten att nästa observation ger ett värde lika extremt som tidigare observerade värde. Genom vald signifikansnivå (normalt 0,05) kan det med hjälp av p-värdet avgöras ifall en förklaringsvariabel bör behållas eller ej. Vanligtvis ställs en nollhypotes upp innebärande att koefficienten för en oberoende variabel är noll. Alternativhypotesen består av motsatsen. Matematiskt ger det H 0 : β j = 0 H A : β j 0 F-värdet för hypotesen β j = β 0 j beräknas enligt F = ( ˆβj β 0 j SE( ˆ β j ) Utifrån beräkning av P r(x > F ), där X tillhör F-distributionen ovan, erhålls p-värdet [4]. F-test kan även användas för att kontrollera hypotesen huruvida flera koefficienter är lika med noll, dv.s. β 1 = β j+1 = β j+2 =... = 0 En nollhypotes ställs således upp där r antal β sägs vara lika med noll, alltså att motsvarande oberoende variabler inte påverkar responsvariabeln. F-värdet kan, om residualerna är normalfördelade, då beräknas enligt F = n k 1 r ) 2 ( ) ê 2 ê 1 F (r, n k 1) 2 10

där ê är residualen i regressionen för nollhypotesen, och ê residualen för totala regressionsmodellen. n och k betecknar antalet observationer respektive antal exkluderade förklaringsvariabler. Hypotesen förkastas om F-värdet är högt [4]. 2.1.3 Eta squared Eta squared, η 2, beskriver effekten av totala regressionsmodellens varians kopplat till en specifik förklaringsvariabel. η 2 kan beskrivas matematiskt η 2 = ê ê 2 ê där ê och ê är motsvarande kvadratsumma för residualerna för den reducerade respektive den ursprungliga modellen. Lågt värde på η 2 kan anses vara en motivering varför en oberoende variabel bör reduceras ur modellen [4]. 2.1.4 Förklaringsgrad Förklaringsgraden R 2, även kallad goodness of fit, är ett mått på hur väl de oberoende förklaringsvariablerna tillsammans förklarar variansen av den beroende variabeln. Det är således ett verktyg för att avgöra regressionsmodellens validitet. Matematiskt definieras R 2 med ekvationen [4] R 2 = Var(x ˆβ) Var(y) = 1 Var(ê) Var(y) Ett så högt värde på R 2 som möjligt är eftersträvansvärt eftersom det minimerar feltermen ê och således implicerar att den estimerande modellen av responsvariabeln förbättras [4]. Vidare finns även ett justerat R 2 -värde, R2. Detta värde är anpassat så att inte onödigt många variabler tas med i modellen genom att ta hänsyn till frihetsgraden av densamma. Om enbart R 2 används premieras ett högt antal förklaringsvariabler då R 2 ökar ju fler variabler som används. Det justerade värdet däremot, sjunker om en oberoende variabel inkluderas i modellen vars förklaringsgrad är liten [5]. 2.1.5 AIC Akaike Information Criterion (AIC) är ett verktyg liksom förklaringsgrad för validering av en regressionsmodell. Syftet är att undersöka huruvida en viss förklaringsvariabel bör ingå i modellen eller inte. AIC beräknas matematiskt enligt AIC = n ln( ê 2 ) + 2k AIC beräknas för den reducerade modellen, där en oberoende variabel tagits bort, respektive för den föregående, icke reducerade, modellen. Modellen vars AIC-värde minimeras bör föredras [4]. 11

2.1.6 Multikolinjäritet Perfekt multikolinjäritet innebär att två eller fler förklaringsvariabler är linjärt beroende. Följden blir att koefficienterna framföra dessa variabler ej kan bestämmas entydigt. Detta problem är något som uppstår vid uppställandet av en modell och kan därför undvikas. Imperfekt multikolinjäritet däremot (hädanefter enbart refererat till som multikolinjäritet ) är ett vanligare problem som innebär att minst en av förklaringsvariablerna är starkt korrelerad med en linjärkombination av de övriga variablerna. Problematiken med bestämmandet av koefficienterna blir likartad då estimeringen i detta fall blir oprecis, vilket innebär att den aktuella variabelns standardavvikelse blir hög. En modell med multikolinjäritet kan inte användas som grund för en strukturell analys eftersom den stora osäkerheten i koefficienterna medför att det ej går att fastställa vilken effekt som ges av vilken förklaringsvariabel. Multikolinjäritet är inte en följd av en dåligt uppställd modell och kan därför inte undvikas lika enkelt. De tänkbara lösningarna som finns är antingen att ta bort en förklaringsvariabel som starkt bidrar till multikolinjäriteten eller samla in mer data om det är möjligt, eftersom standardavvikelsen minskar med fler datapunkter. Att samla in data är att föredra då exkluderandet av en tänkbar förklaringsvariabel medför förlust av presumtivt relevant information [4]. 2.1.7 VIF En metod för att identifiera multikolinjäritet hos en modell är att studera Variance Inflation Factor (VIF). VIF är ett mått på hur mycket variansen hos en förklaringsvariabels koefficient har ökat på grund av multikolinjäritet. Detta beräknas genom att utföra en regression med respektive förklaringsvariabel i den ursprungliga modellen som beroende av de övriga. Sedan från respektive regression ta fram förklaringsgraden R 2 och använda följande formel VIF(β j ) = 1 1 R 2 j Vad som är ett högt VIF-värde är ej entydigt men en ofta förekommande rekommendation är att så länge VIF < 5 kan modellen fortsätta studeras utan att vidare hänsyn tas till multikolinjäriteten [6]. 2.1.8 Endogenitet Ett av antagandena för att kunna genomföra en OLS regression är att E[e i ] = 0 (2.1.1 Multipel linjär regression). Begreppet endogenitet används om de situationer när detta antagande bryts, viket det gör till följd av att det förväntade värdet av e i beror på en eller flera av de valda förklaringsvariablerna. Med andra ord när residualen korrelerar med en eller flera förklaringsvariabler. Problemet med detta 12

är att det skapar felaktiga estimat för den koefficient vars förklaringsvariabel korrelerar med residualen, koefficienten överestimeras vid en positiv korrelation och underestimeras vid en negativ sådan. Detta gör att en strukturell analys ej blir tillförlitlig om den baseras på en regression vars modell innefattar endogenitet [4]. En lösning på problemet med endogenitet är att använda sig av Two Stage Least Square (2SLS) istället för OLS. Det bygger på att ersätta den korrelerade förklaringsvariabeln med en eller flera instrumentvariabler vilka är korrelerade med förklaringsvariabeln men ej med residualen [4]. Endogenitet kan uppstå i följande situationer [4] Sample selection bias - urvalet av data påverkas av något annat än förklaringsvariablernas värde i sig. Simultaneity - den beroende variabeln påverkar en eller flera av förklaringsvariablerna. Saknad av relevanta förklaringsvariabler - då kan i vissa fall dessa variabler identifieras och vid inkludering i modellen upphör endogeniteten. Mätfel i förklaringsvariablerna. 2.1.9 Hetereoskedasticitet Heteroskedasticitet innebär att residualerna e i ej har konstant standardavvikelse, vilket betyder att antagandet om homoskedasticitet inte är uppfyllt (2.1.1 Multipel linjär regression). Om modellen innefattar heteroskedasticitet men beräknas utifrån antagandet om homoskedasticitet kommer de estimerade koefficienternas standardavvikelser att vara felaktiga. Detta leder i sin tur till att signifikanstesterna för de aktuella förklaringsvariablerna ej blir tillförlitliga och således kan fel variabler exkluderas eller inkluderas i modellen. Identifieras heteroskedasticitet i modellen bör det först göras ett försök att omformulera modellen. Exempelvis genom att addera ytterligare förklaringsvariabler eller transformera de befintliga. Detta med syfte att få residualer med konstant standardavvikelse. Om detta ej löser problemet kan White s Consistent Variance Estimator användas, vilken är en alternativ metod att räkna ut kovariansmatrisen med. Den ser ut enligt följande Côv( ˆβ) = (X T X) 1 (Σ n j=1ê 2 jx t jx j )(X T X) 1 Istället för kovariansmatrisen som används vid homoskedasticitet Côv( ˆβ) = (X T X) 1 ê 2 ( n k 1 ) 13

I många fall är det dock svårt att med säkerhet fastställa huruvida homoskedasticitet råder eller ej och därför kan det vara fördelaktigt att använda sig av White s estimator, även om homoskedacticitet ser ut att råda [4]. 2.1.10 Normal Quantile-Quantile plot Normal Quantile-Quantile plot (hädanefter refererad till som QQ-plot ) är ett hjälpmedel för att studera antagandet om normalfördelade residualer (2.1.1 Multipel linjär regression). I den visas de estimerade kvantilerna för residualerna mot de teoretiska kvantilerna för en normalfördelning. Givet att antagandet stämmer följer punkterna en rät linje, likt Figur 2.1. Följer punkterna inte den räta linjen är residualerna troligen av en annan sannolikhetsfördelning och antagandet är således ej uppfyllt. Detta kan se ut på många sätt men det gemensamma är att det finns ett tydligt avvikande mönster för punkterna gentemot den räta linjen. Figur 2.1: QQ-plot vid normalfördelade residualer. 2.1.11 Residualplot Residaulplot används för att identifiera heteroskedasticitet. Den visar de studentiserade residualerna för respektive observation. Givet att punkterna är slumpmässigt fördelade längs hela den horisontella axeln råder homoskedasticitet, Figur 2.2. Studentisering innebär att det görs en justering för variansen för respektive residual, vilket görs för att ge en mer rättvisande bild av hur punkterna är fördelade. Ifall ett mönster identifieras innebär det att residualerna är heteroskedastiska. Vid få observationer ger ej detta en rättvisande bild då även heteroskedastiska residualer kan se ut att vara slumpmässigt fördelade då det finns så få datapunkter. 14

Figur 2.2: Residualplot vid homoskedasticitet 2.1.12 Variabelselektion Givet att ett visst antal variabler är tänkbara att inkludera i modellen och antagandena för regression är uppfyllda (2.1.1 Multipel linjär regression) startas processen att välja ut den bästa modellen. Grundtanken är att först och främst eliminera variabler som ej är signifikanta på en förutbestämd nivå. Detta kan göras antingen via Backward Elimination, Forward Selection eller Stegvis regression. Vanligt förekommande är användande av Backward Elimination där en grundmodell med samtliga variabler inkluderade reduceras steg för steg. 2.1.13 Variabler De olika förklaringsvariablerna i regressionen kan bestå av två olika typer. Dessa är kvalitativa respektive kvantitativa variabler. Kvalitativa variabler kan enbart mätas enligt en nominalskala eller ordinalskala. Värdena ansätts utifrån om variabeln innehar en viss vald egenskap eller inte. Det finns diskreta och kontinuerliga kvantitativa variabler. Om det för de diskreta variablerna existerar en inbördes ordning med ekvidistanta mätsteg mellan värdena, kan dessa betraktas likvärdigt med kontinuerliga. Mätskalan är mestadels en absolutskala där det finns en naturgiven måttenhet samt nollpunkt. 2.2 Teori om resultatdrivande faktorer i skolan Kvalitén på ett lands utbildningsväsende bestäms av samverkande faktorer på flertalet olika nivåer. Därav är det ett ytterst komplext problem att identifiera 15

och konkretisera vilka faktorer som är de relevanta. Det går att angripa detta problem utifrån olika vinklar, gemensamt för dessa är att det första steget är att definiera olika perspektiv från vilka man kan se på problemet. OECD har tagit fram åtskilliga rapporter där de utvärderar olika länders utbildningsväsende samt försöker identifiera just drivande faktorer bakom lyckade exempel. De presenterar i dessa rapporter flertalet skilda sätt att genom olika perspektiv utforska eventuella faktorer. Denna rapport utgår ifrån indelning som gjordes i 2006 års rapport PISAT Science Competencies for Tomorrow s World, vilken utgick från ett generellt-, skol- och studentperspektiv [7]. Vidare har ett lärarperspektiv lagts till då det är allmänt accepterat att kvalitén på lärarna är av vikt samt att det har använts som perspektiv av OECD tidigare år. 2.2.1 Generellt perspektiv Inom detta perspektiv ämnas identifiera variabler som på en övergripande nationell nivå har en förklarande del i kvalitén av landets utbildningsväsende. Dessa variabler är antingen givna från tidigare generationer eller variabler som inte enkom beror på beslut gällande utbildningsväsendet. Av denna anledning är dessa svåra att påverka i syfte att förbättra utbildningsväsendet men inkluderas likväl då de kan ha en förklarande del. Exempel på en variabel som flitigt diskuterats inom detta perspektiv är föräldrars utbildningsnivå. 2.2.2 Skolperspektiv Detta perspektiv syftar till att identifiera variabler som är direkt kopplade till utbildningssystemet. Variabler som rör beslut antingen på nationell eller lokal nivå vars syfte är att givet en viss budget optimera kvalitén. Ett typexempel är variabler som rör hur resurser fördelas. 2.2.3 Lärarperspektiv Lärarperspektivet inkluderar variabler som i mångt och mycket kan beskrivas i likhet med antingen det generella- eller skolperspektivet. Det som utmärker detta perspektiv är att det inriktar sig direkt mot variabler som rör läraryrket, oavsett vilket av de andra perspektiven de ursprungligen tillhör. 2.2.4 Elevperspektiv Det avslutande perspektivet rör variabler som beskriver studenters motivation i och till skolan. Variabler inom detta perspektiv är ofta svåra att med tillförlitlighet mäta, varför det istället används variabler som hur ofta personer kommer sent till skolan eller hur många i en viss åldersgrupp som går i skolan. 16

Del 3 Metod 3.1 Datainsamling Den använda data erhölls i huvudsakligen från OECD, vars publikationer Education at Glance från 2015 respektive 2008 användes. Utöver detta inhämtades även viss data från Världsbankens hemsida. All relevant data gällde åren 2012 respektive 2006 eller nyast tillgängliga innan dess. Totalt antal erhållna observationer uppgick till 68 stycken. Data saknades för ett fåtal förklaringsvariabler. Eftersom antalet observationer var relativt få gjordes antaganden för saknade data. Detta kan motiveras med att det endast behövdes göras för ett litet antal observationer, även om det finns risk att uppskattningarna blir partiska [8]. 3.2 Variabler De använda variablerna i rapporten är alla kvantitativa samt har ekvidistanta mätsteg. 3.2.1 Responsvariabel Den valda responsvariabeln är PISA-resultatet. Det är i denna rapport ett lands medelvärde av resultatet på PISA-testet. Det räknades ut genom att för varje delprov beräkna medelvärdet av tjejerna och killarnas resultat och sedan beräkna medelvärdet av de tre delproven tillsammans. 3.2.2 Förklaringsvariabler Inom de fyra tidigare nämna perspektiven valdes följande förklaringsvariabler ut att ingå i den initiala modellen för regressionsanalys. Valen gjordes utifrån tillgänglig data samt via jämförelser av tidigare undersökningar från OECD. 17

Generellt perspektiv Utb.vuxna Beskriver andelen 25-64 åringar i landet som har examen från tertiär utbildning. Anges i procent. Utb.utgifter Antal procent av BNP som lagts på icke-tertiär utbildning i landet. Prv.utgifter Antal procent av totala spenderade summan pengar inom icketertiär utbildning som utgörs av privata utgifter. Skolperspektiv Utlärningstid Antalet timmar som spenderas på utlärning till en grupp eller en klass av studenter enligt rådande skolpolicy i landet. Presenteras i totala antalet timmar per år. Klasstorlek Genomsnittsstorleken av klasserna i låg- och mellanstadiet. Mätt i antalet elever per klass gällande sammanslagning av både privata och statliga skolor. Skolstart Beskriver vid vilken ålder elever i landet börjar i grundskolan. Datorer Genomsnitt av antalet elever per skoldator i landet för låg- och mellanstadiet. Annat.utgifter Procent av grundskolans tillgängliga pengar som läggs på annat än löner för lärare och annan personal. Lärarperspektiv Lärarlön Genomsnittslön för lärare i grundskolan med 15-års erfarenhet. Anges i enheten amerikanska dollar som är justerat med köpkraftsparitet. Kön.lärare Andelen av lärarkåren i låg- och mellanstadiet som utgörs av kvinnor, mätt i procent. Elevperspektiv Inskrivningsgrad Antal procent av 15-19 åringar som är inskrivna på utbildning. 18

Tabell 3.1: Sammanställning av de ingående variablerna Benämning Variabel Enhet Responsvariabel PISA-resultat y i Poäng Förklaringsvariabler Lärarlön x 1, i USD, $ Utb.utgifter x 2, i Procent,% Utlärningstid x 3, i Timmar Utb.vuxna x 4, i Procent,% Prv.utgifter x 5, i Procent,% Klasstorlek x 6, i Styck Skolstart x 7, i År Datorer x 8, i Styck/elev Inskrivningsgrad x 9, i Procent, % Annat.utgifter x 10, i Procent, % Kön.lärare x 11, i Procent, % 3.3 Antaganden För saknad data gjordes antaganden då all befintlig information behövdes användas och utrymme för bortfall av observationer således inte var ett alternativ. Länderna för vilka regressionen genomfördes på delades in i sju grupper baserat på geografiska, kulturella samt ekonomiska aspekter. Geografisk närhet samt kulturell likhet var framförallt avgörande för indelningen, men utöver det togs det hänsyn till de berörda ländernas BNP/capita. Målet var att de framtagna grupperna skulle innehålla så jämförbara länder som möjligt. Detta för att när data för ett land saknades kunna ta ett medelvärde av resterande länder i samma grupp och ansätta det för det saknade värdet. De sju framtagna grupperna redovisas nedan i Tabell 3.2. Tabell 3.2: Gruppindelning av jämförbara länder Grupp 1 Sverige Norge Danmark Finland Island Nya Zeeland Grupp 2 Tyskland Österrike Schweiz Luxemburg Belgien Nederländerna Grupp 3 Estland Slovakien Slovenien Tjeckien Polen Grupp 4 Mexico Chile Turkiet Grekland Ungern Grupp 5 Storbrittanien USA Canada Australien Grupp 6 Spanien Italien Portugal Frankrike Grupp 7 Korea Japan Responsvariabelns värden samt förklaringsvariablernas dito togs från samma år. Det finns en tröghet hos responsvariabeln, det vill säga att förklaringsvariablerna inte direkt påverkar utgången för värdet hos responsvariabeln. Dock ansågs de 19

använda förklaringsvariablerna vara stabila och trendfasta. Värdena hos desamma representerar följaktligen även åren precis efter respektive åren precis före. Därav kunde de ändå betraktas ge en rättvisande förklaring av PISA-resultaten för motsvarande år. 3.4 Genomförande För att analysera sambandet mellan responsvariabeln och de aktuella förklaringsvariablerna med hjälp av kvantitativa metoder valdes regressionsanalys. 3.4.1 Program Rapportens beräkningsarbete utfördes i mjukvaruprogrammet R. Datainsamlingen sammanställdes med hjälp av Microsoft Excel. 3.4.2 Struktur Först genomfördes ett VIF-test för att identifiera eventuella korrelationer, detta för att säkerställa att modellen gav rättvisande resultat. Vidare reducerades modellen utifrån vald selektionsprincip, Backward Elimination, till dess att en slutmodell erhölls. Avslutningsvis testades modellens validitet utifrån antagandena för multipel linjär regression med respektive relevant metod. I samtliga genomförda regressioner användes White s estimator, då kapacitet fanns för detta. 3.4.3 Variabelselektion Variabelselektionen utfördes primärt via p-värde och η 2 samt testades med hjälp av AIC. Det gick till på ett sådant sätt att efter varje genomförd regression reducerades den förklaringsvariabel med högst p-värde bort givet att även η 2 var låg. Signifikansnivån valdes till 5%. Vidare jämfördes AIC mellan modellen med samt utan den aktuella förklaringsvariabel för att bekräfta valet av reducering. Ytterligare komplement bestod av R 2 och R 2 där framförallt R 2 användes för att styrka reduceringen. 20

Del 4 Resultat 4.1 Grundmodell Följande avsnitt behandlar rapportens grundmodell, utförligare beskrivning av alla ingående förklaringsvariabler återfinns i metoden. PISA-resultat = β 0 + (Lärarlön)β 1 + (Utb.utgifter)β 2 +... + (Kön.lärare)β 11 + e 4.1.1 VIF I Tabell 4.1 nedan presenteras de uträknade VIF-värdena för respektive förklaringsvariabel. Alla värden är klart <5, vilket indikerar att ingen allvarlig multikolinjäritet råder. Antagandet om ej existerande multikolinjäritet är således uppfyllt och därför kan regressionen utföras utan komplikationer med avseende på detta. Tabell 4.1: Beräknade VIF-värden för respektive förklaringsvariabel VIF Lärarlön 1.9723 Utb.utgifter 1.3592 Utlärningstid 1.5486 Utb.vuxna 2.3418 Prv.utgifter 1.8026 Klasstorlek 2.3410 Skolstart 1.6094 Datorer 2.3474 Inskrivningsgrad 1.7852 Annat.utgifter 1.7441 Kön.lärare 2.4598 21

4.1.2 Resultat av regression De erhållna resultaten från den genomförda regressionen av grundmodellen redovisas i Tabell 4.2. Tabell 4.2: Resultat av regression av grundmodell Estimate Std.Error Eta.sq p.value (Intercept) 329.44 30.68 0.60 0.00 Lärarlön 0.00 0.00 0.24 0.00 Utb.utgifter -3.72 3.24 0.03 0.26 Utlärningstid -0.04 0.02 0.11 0.01 Utb.vuxna 0.61 0.27 0.09 0.03 Prv.utgifter -0.24 0.31 0.01 0.43 Klasstorlek 1.45 0.65 0.07 0.03 Skolstart -0.97 3.40 0.00 0.78 Datorer 0.26 0.29 0.01 0.37 Inskrivningsgrad 1.29 0.21 0.35 0.00 Annat.utgifter 1.12 0.30 0.23 0.00 Kön.lärare 0.24 0.28 0.01 0.38 Förklaringsgraden för modellen var R 2 = 0.7861 och den justerade förklaringsgraden R 2 = 0.7434. 4.2 Reduktion av modellen I enlighet med vad som beskrivs i metoden genomfördes reduceringen utifrån p-värden och η 2. Tabell 4.3: Reducering av grundmodell. P-värdet samt η 2 är värden gällande den exkluderade variabeln, övriga värden ges för hela modellen R 2 R2 AIC Exkl. variabel p-värde η 2 Regression 2 0.7859 0.7476-1.9138 Skolstart 0.78 0.00 Regression 3 0.7844 0.7503-1.5449 Prv.utgifter 0.47 0.01 Regression 4 0.7820 0.7520-1.2739 Kön.lärare 0.44 0.01 Regression 5 0.7816 0.7557-1.8602 Datorer 0.65 0.00 Regression 6 0.7764 0.7540-0.4287 Utb.utgifter 0.26 0.02 Regression 7 0.7599 0.7403 2.7638 Klasstorlek 0.05 0.07 De första sex regressionerna gav entydiga resultat givet vald metod. Vid exkludering av förklaringsvariabeln Klasstorlek i regression sju, vilken gjordes ty p-värdet ej var < 0.05 samt η 2 låg precis på gränsen för vad som i detta sammanhang kan anses lågt, går resultatet isär. Den på förhand valda signifikansnivån indikerade att regression sju borde genomföras, däremot indikerar AIC samt den 22

justerade förklaringsgraden det motsatta. Gränsdragningen av signifikansnivån på exakt fem procent är godtycklig och när då p-värdet låg nära fem procent samtidigt som AIC och den justerade förklaringsgraden föredrog den tidigare modellen valdes densamma. 4.3 Slutgiltig modell Efter genomförandet av de olika regressionerna genererades följande slutgiltiga modell PISA-resultat = β 0 +(Lärarlön)β 1 +(Utlärningstid)β 2 +(Utb.vuxna)β 3 +(Klasstorlek)β 4 +(Inskrivningsgrad)β 5 + (Annat.utgifter)β 6 + e Förklaringsgraden uppgick till R 2 = 0.7764, den justerade förklaringsgraden till R 2 = 0.7540 och genomfört F-test med nollhypotesen att alla ingående förklaringsvariabler var lika med noll gav ett värde på 52,62. Hypotesen kunde därmed förkastas. Tabell 4.4: Ingående variabler för slutgiltig modell Estimate Std.Error Eta.sq p.value (Intercept) 334.95 16.76 0.81 0.00 Lärarlön 0.00 0.00 0.25 0.00 Utlärningstid -0.04 0.01 0.12 0.00 Utb.vuxna 0.51 0.23 0.08 0.03 Klasstorlek 1.08 0.54 0.07 0.05 Inskrivningsgrad 1.31 0.17 0.41 0.00 Annat.utgifter 1.18 0.24 0.27 0.00 Noteras bör att koefficienterna ej är standardiserade vilket gör att de inte är jämförbara. Anledningen till att förklaringsvariabeln Lärarlön har en koefficient nära noll, 6 10 4, är att den mäts i enheten dollar och inkluderar värden i storleksordning tiotusental, medan responsvariabeln behandlar värden i hundratal. 4.3.1 Homoskedasticitet Undersökningen för huruvida homoskedasticitet rådde resulterade i Figur 4.1 nedan. Figuren påvisar homoskedasticitet, men på grund av de få datapunkterna går det inte att helt utesluta heteroskedasticitet. 23

Figur 4.1: Residualplot för slutgiltig modell. 4.3.2 Normalfördelade residualer Antagandet om normalfördelade residualer är uppfyllt eftersom punkterna följer linjen väl utan systematisk avvikelse, vilket visas av Figur 4.2 nedan. Figur 4.2: QQ-plot för slutgiltig modell. 24

Del 5 Diskussion 5.1 Analys av slutmodell Slutmodellen testades utifrån antagandena för linjär regression (2.1.1 Multipel linjär regression) för att undersöka reliabiliteten. Antagandet om normalfördelade residualer visades med önskad tydlighet vara uppfyllt. Vidare indikerade även residualploten att antagandet om homoskedasticitet var uppfyllt, där återfinns dock en problematik då det är svårt att med säkerhet uttala sig till följd av de få observationerna. Däremot användes White s estimator i regressionen vilket innebär att resultaten är tillförlitliga även om heteroskedasticitet skulle råda. Redan för grundmodellen påvisades att ingen multikolinjäritet rådde vilket betyder att så är fallet även för den slutgiltiga modellen. I övrigt skulle en tänkbar felkälla kunna vara den ingående data. I detta fall är data tagen direkt från OECD och Världsbanken och utrymme fanns inte att dubbelkolla uppgifterna. Däremot får data betraktas tillförlitlig då den kommer från två organisationer med hög trovärdighet. Allt detta sammantaget gör att modellens reliabilitet anses vara hög. Förklaringsgraden för slutmodellen uppgick till 77.64% och den justerade förklaringsgraden till 75.40%. Detta får i sammanhanget anses vara högt, däremot är inte en hög förklaringsgrad liktydigt med att modellen på ett tillfredsställande sätt mäter det som avses mätas. Eftersom regressionen genomförs med relativt få observationer finns risken att den överestimeras, det vill säga anpassar förklaringsvariablerna väl enligt den givna data men att den ej är generaliserbart för andra datamängder. För att testa detta skulle modellen utvärderas utifrån en test-datamängd. Detta är dock inte genomförbart då tidigare PISA-studier inte samlat in data för alla inkluderade förklaringsvariabler. Därför diskuteras modellens validitet vidare utifrån andra aspekter. Modellens innehållsvaliditet anses vara hög då de ingående variablerna är sådana som OECD har använt för liknande analyser. Däremot är de relativt få datapunkterna ett problem i den benämningen att det har begränsat antalet förklaringsvariabler. Vidare har även urvalet av de ingående variablerna begränsats på grund av saknad data, vilket gjort att även om de ingående förklaringsvariab- 25

lerna i sig är valida så kan det saknas vissa variabler som hade varit intressanta att utforska. Den samtida validiteten anses i övrigt vara hög då de flesta av rapportens identifierade samband styrks av samtida forskningsresultat, något som kommer diskuterats vidare i 5.2 Utelämnade förklaringsvariabler. 5.1.1 Utelämnade förklaringsvariabler Som tidigare tagits upp begränsades valet av förklaringsvariabler. Detta gjorde att flertalet potentiellt relevanta variabler ej kunde analyseras. Ett exempel på en sådan variabel är andelen licensierade lärare i skolan, en variabel som helt saknade data från 2006 men som i samtida forskning diskuterats[9]. En annan variabel som skulle kunna bidra med relevant information är något form av mått på skolmatskvalitén. Detta då det är tänkbart att maten är en starkt bidragande orsak till hur länge elever orkar hålla sig fokuserade under en dag. På samma tema är det tänkbart att mängden läxor elever tilldelas i någon utsträckning kan påverka elevers prestationer. Eftersom även detta bidrar till att eventuellt förlänga tiden en elev behöver fokusera på inlärning under en dag. Ytterligare intressanta variabler skulle vara antal timmar i respektive land som läggs på olika ämnen, eftersom det diskuterats att exempelvis mer tid på fysisk aktivitet (idrott och hälsa) skulle generera bättre generella resultat[10]. 5.2 Utvärdering av resultatet De ingående förklaringsvariablerna i slutmodellen diskuteras i följande avsnitt. Även de reducerade variablerna analyseras kort. Indelningen av förklaringsvariablerna i fyra olika perspektiv visade sig vara rimlig då minst en variabel från respektive perspektiv kom att ingå i den reducerade slutmodellen. Det indikerar att urvalet av variabler var välmotiverat. 5.2.1 Generellt perspektiv Utb.vuxna Något som flitigt lyfts fram i diskussionen kring utbildning är att föräldrars utbildningsnivå är starkt korrelerad med hur väl deras barn presterar i skolan. Resultaten från denna rapports slutmodell är i enlighet med detta då det säger att det är en positiv korrelation mellan utbildningsnivån hos vuxna generellt i ett land och detta lands prestation på PISA-testet. Anledningar till varför detta samband råder är komplexa och bygger ofta på korrelation mellan hög utbildningsnivå och andra relevanta egenskaper hos föräldrar, vilket i sig krävs en egen rapport att utförligt klargöra. Kort sagt är det så att föräldrar med hög utbildningsnivå är bättre förberedda att hjälpa barnen med läxor hemma samt mer benägna att lyfta fram vikten av att prestera väl i skolan. Ytterligare en aspekt som förtjänas lyftas fram i detta sammanhang är värdet av att föräldrar 26

engagerar sig i sina barns skolgång [11], ett engagemang som kan antas vara mer troligt om föräldern i fråga är medveten om betydelsen av barnets prestation. 5.2.2 Skolperspektiv Utlärningstid För utlärningstid är koefficienten i den slutgiltiga modellen negativ vilket indikerar en negativ korrelation mellan antalet timmar lärare lär ut och resultat på PISA-testet. Vid en första betraktelse av det identifierade sambandet kan det kännas kontraintuitivt, däremot finns det tidigare forskning som stödjer detta samband och som också vid en djupare analys är i enlighet med vad som kan tänkas vara rimligt. En förklaring kan vara att en högre utlärnignstid påverkar utlärnignskvalitén negativt. Alltså att lärarnas prestation i klassrummet blir sämre på grund av en för hög arbetsbörda. I England exempelvis arbetar lärare i snitt 60-timmarsveckor, inklusive pappersarbete, vilket har lett till att kvalitén på det faktiska utlärandet har sjunkit [12]. Vidare är det även rimligt att anta att attraktiviteten hos läraryrket påverkas av antalet timmar som lärare förväntas arbeta, ett antagande som styrks av OECD:s rapport Education at Glance [13]. Vilket betyder att ett lägre antal timmar spenderade i skolan skulle höja attraktiviteten och i enlighet med vad som diskuteras under Lärarlön generera ett högre resultat på PISAtestet. Denna förklaring är dock delvis bristfällig då förklaringsvariabeln gäller hur många timmar lärare spenderar på att lära ut. Alltså tas inte tiden som spenderas på annat med, en tid som är relevant för den tänkbara förklaringen som diskuterats ovan. Något som däremot är direkt kopplat till den aktuella förklaringsvariabeln är kvalitén på inlärningsförmågan hos de elever som mottar utlärningen. Där det kan antas vara en avtagande inlärningsförmåga ju längre tid en elev spenderar i en inlärningssituation per dag [14]. Något som förklaras med att barn har ett begränsat fokusering- samt uppmärksamhetsspann vilket gör att det är svårare att koncentrera sig i slutet av en lång dag. Samt att även förmågan att koda in information i hjärnan försämras. Klasstorlek Resultatet från rapporten indikerar ett positivt samband mellan klasstorlek och resultat på PISA-testet. Flertalet studier har med grund i ett pedagogiskt perspektiv hävdat att det bör vara fördelaktigt med mindre klasser. Däremot har detta inte enhälligt kunnat styrkas genom empiriska studier. En tänkbar förklaring till varför det inte har kunnat göras är att andra faktorer har större betydelse, exempelvis att lärarkvalité är överordnad lärarkvantitet [15]. 27

Att resultaten från denna rapport visar på ett positivt samband är svårare att förklara utifrån tidigare forskning jämfört med det ovan diskuterade, att det inte är ett negativt samband trots att det bör vara det i teorin. Det som kan tänkas vara en förklaring och som också har stöd i annan forskning är faktumet att det ofta ger mer nytta att investera i annat än reducering av storleken på klasser [15]. Därav är det tänkbart att länder med stora klasser har investerat i annat (och vice versa) vilket i så fall skulle förklara den identifierade positiva korrelationen mellan klasstorlek och resultat på PISA-testet. Det bör även nämnas att inget land hade i denna rapport hade ett större klassnitt än 30 elever, så effekten av att ha ett snitt på över 30 har ej utforskats. Dessa resultat bör därför inte tolkas som att större klasser är att föredra, utan istället bör de tolkas som att det finns andra faktorer att investera pengar i än att just reducera klasstorleken. Annat.utgifter Den positiva koefficienten framför förklaringsvariabeln Annat.utgifter indikerar ett positivt samband mellan den procentuella delen pengar som läggs på annat än personal inom skolan och resultatet på PISA-testet. Detta betyder att det är viktigt att prioritera skolmateriel, det vill säga allt från böcker och pennor till whiteboardtavlor och projektorer. Tidigare forskning har varit tudelad kring detta då vissa hävdat att det är en nödvändighet för att bedriva en effektiv utlärning medan andra fört i bevis att det centrala snarare är hur man använder materielen. Empiriska studier har tidigare styrkt båda argumenten [16]. Därför bör en tolkning av just denna rapports resultat tolkas med försiktighet och den allmänna generaliseringen att mer investeringar i annat än personallöner ger bättre resultat på PISA-testet undvikas, speciellt som det även identifierats ett positivt samband mellan lärarlöner och resultatet på PISA-testet. För alla förklaringsvariabler gäller antagandet ceteris paribus vid tolkningen av resultatet. Men det blir för denna förklaringsvariabel extra viktigt då detta betyder att given en viss nivå på lärarlönerna ska en större procentuell del av den totala budgeten läggas på annat än just personallöner. Det är givetvis så att det finns en del annan personal (t.ex. skolkökspersonal) vars löner ska inkluderas i den totala budgeten, men deras lönebidrag är marginellt och bör därför inte vara det som förklarar varför både Lärarlön och Annat.utgifter har positiva koefficienter. Tolkningen bör istället vara att förklaringen är att det är bättre med en högre real budget, då det möjliggör att givet en bestämd lärarlön ska en större procentuell del av budgeten läggas på skolmateriel. Det vill säga att sambandet mellan mer investeringar i annat än personallöner och bättre resultat på PISA-testet egentligen är ett samband mellan den reala investeringen i skolan och resultatet på PISA-testet givet att lärarlönerna är konstanta. 28

5.2.3 Lärarperspektiv Lärarlön Koefficienten för lärarlön i den slutgiltiga modellen är positiv vilket indikerar att det råder en positiv korrelation mellan lärarlöner och resultat på PISA-testet. Detta samband är intuitivt riktigt och stärks genom åtskilliga studier på ämnet. Tänkbara förklaringar till varför detta samband existerar är att det attraherar fler presumtivt duktiga lärare. Vidare gäller att högre auktoritet i samhället för lärare genererar bättre skolresultat [17] och att göra kopplingen högre lön- högre auktoritet ligger nära till hands. Lönegapet mellan Sverige och de övriga nordiska länderna har ökat de senaste åren [18]och en jämförelse mellan Sveriges resultat 2006 och 2012 i förhållande till övriga nordiska länders resultat visar att Sverige har tappat markant. Detta samband är med andra ord helt i linje med vad regressionsanalysen indikerar. Tolkningen av detta kan göras att ett arbete mot högre lärarlöner i Sverige är en tänkbar del i ett större åtgärdsprogram. 5.2.4 Elevperspektiv Inskrivningsgrad En positiv koefficient framför förklaringsvariabeln Inskrivningsgrad tyder på att det är fördelaktigt att en stor del av ungdomarna i samhället går i skolan. Vidare tolkningar av detta resultat är begränsade då det inte finns lika mycket forskning på denna faktor som det finns på de övriga. Tanken med förklaringsvariabeln var att den skulle mäta motivationen hos ungdomar att gå i skolan. Med antagandet att den gör detta rättvisa kan en förklaring till resultatet ges med det intuitiva sambandet att en ökad motivation och glädje till skolan ger ett bättre resultat. 5.2.5 Reducerade förklaringsvariabler Följande förklaringsvariabler reducerades från modellen: Utb.utgifter, Prv.utgifter, Skolstart, Datorer och Kön.lärare. Ingen av dessa var med andra ord signifikanta och därför kan inga slutsatser dras om huruvida dessa påverkar resultatet på PISA-testet givet underlaget i denna rapport. 29

Del 6 Innovationsdrivande faktorer Det övergripande syftet med detta arbete är att ta fram underlag för hur Sverige och andra innovationsdrivna länder uppnår en nyttomaximerande skola. Det mer specifika syftet med denna del är att identifiera vilka faktorer skolan eventuellt bör flytta fokus mot att stimulera, genom att identifiera vilka faktorer som främjar innovation i arbetslivet. Detta med bakgrund av att dagens samhälle är starkt innovationsberoende, vilket är ett påstående som förklaras utförligt i 6.1 Bakgrund för att ge läsaren en förståelse för varför just innovationsfrämjande faktorer är de som skolan eventuellt bör flytta fokus mot. 6.1 Bakgrund Kunskapsbaserad ekonomi är ett relativt nytt begrepp där det centrala är att man lyfter fram kunskap som en essentiell del i ekonomisk tillväxt. Kunskap har alltid haft en roll i synen på ekonomisk tillväxt men det är först på senare år som dess fulla betydelse har uppmärksammats och börjat studeras [19]. En av de viktigaste komponenterna inom den moderna kunskapsbaserade ekonomin är enligt flertalet forskare innovation, där vissa går så långt som att säga att innovation och skapandet av idéer är det mest drivande i dagens ekonomi [20, 21]. Samtidigt som andra genom empirisk data fört i bevis att det på senare år har varit de kunskaps och innovationsdrivna branscherna som uppvisat högst tillväxt [22]. Även om det aktuella forskningsfältet idag inte är moget, det råder ingen konsensus om exakt på vilket sätt innovation påverkar tillväxten, så är forskare överens om att innovationen har en betydande roll och att investeringar i innovation är ett måste för att generera tillväxt på sikt. Detta gäller för alla utvecklade länder men än mer central roll beskrivs innovation ha hos länder vars industri är exportorienterad, vilket är fallet för stora delar av Europas länder generellt och för Sverige specifikt. Detta för att länderna inte har en tillräckligt stor inhemsk marknad för att driva ekonomin framåt. Vilket leder till att länderna behöver konkurrera med varandra om att få exportera en viss vara och därmed blir innovationsfaktorn viktig som konkurrensfördel för densamma [23]. Länder som varit 30

framgångsrika på det planet har även historiskt benämnts som innovationsdrivna ekonomier. Den totala vikten av innovation förstås dock först vid en holistisk syn på dess följder då det förutom att förändra processer och varor även påverkar människors syn på arbete och behov av varor [22]. Ett exempel på hur innovation påverkar i flera led är faktumet att befolkningen i länder blir allt äldre till följd av att innovation inom vård och omsorg gör att människor lever längre och längre. Vilket i sin tur skapar ett behov av innovation inom processer för att kunna effektivisera produktionen och skapa samma välstånd för alla människor men med mindre del arbetsför befolkning. En innovation ger alltså upphov till innovationsbehov inom andra områden givet att innovation förändrar något som tidigare varit konstant, om det så varit den allmänna livslängden eller synen på något specifikt. Oberoende av vad den totala vikten av innovation innebär så är det som tidigare nämnts en livsnödvändighet för länder att främja och skapa innovation i landet. Innovationsdrivna ekonomier har historiskt kunnat förlita sig på den enskilda innovatören för dessa innovationer. Företagen liksom hela samhällen har dragit nytta av specifika revolutionerande innovationer där en ensam individ har ansetts ansvarig för framtagandet av desamma. Tydliga exempel finns för ett historiskt innovationsberoende Sverige. Om det tidigare varit så att enskilda individer varit nyckeln i innovationsprocessen eller om den egentliga nyckeln snarare är organisationen som utvecklat och format deras idéer så är faktumet att fler människor måste bli innovatörer sant. Detta i och med att övergången till allt mer tjänstebaserade samhällen för ett stort antal utvecklade länder leder till nya utmaningar. Tidigare effektiviseringar av produktionslinor inom tillverkningsindustrin ger inte längre samma effekt ur ett tillväxtekonomiskt perspektiv. I och med att yrkena inom tjänstebranschen dessutom snabbt blir mer kunskapsbaserade resulterar det i att höga krav ställs på nya satsningar vad gäller innovationspolicyer [19]. Det vill säga att majoriteten av de anställda i framtiden inte innehar enklare jobb där de enbart blir användare av nya innovationer framtagna av enskilda personer. Snarare tvingas de bli delaktiga i skapandeprocessen själva. 6.2 Teoretisk referensram Denna rapport utgår från en etablerad teori om hur innovation skapas som säger att både individen och organisationen har en betydande roll. För att kunna skapa innovation inom en organisation behöver det finnas individer inom denna organisation som har förutsättningar för att vara kreativa. Samtidigt behöver det också finnas en organisation kring dessa individer som både stimulerar och gör skapandet möjligt [24]. 31

Individen De faktorer som på individnivå bestämmer förmågan till innovation delas i allmänhet upp i följande två kategorier med tillhörande definition: Egenskaper - de personlighetsdrag samt kognitiva förmågor en individ innehar Kunskaper - de erfarenheter och den information som utgör en individs explicita minne Organisationen De faktorer som på organisationsnivå bestämmer förmågan till innovation delas i allmänhet upp i följande två kategorier med tillhörande definition: Arbetsmiljö - den fysiska arbetsmiljön samt organisationskulturen Arbetsprocess - hur det faktiska arbetet inom en organisation sköts Figur 6.1: Innovationsprocess. 6.2.1 Innovationsfrämjande faktorer och skolan Grundpremissen för att de resultat som presenteras i denna del ska gå att använda som underlag för hur en nyttomaximerande skola bör utformas är att faktorer som främjar innovation också är faktorer som efterfrågas i arbetslivet. Vidare förutsätts utbildningsväsendets roll i samhället vara att förbereda individer för att aktivt kunna delta i samhällsutvecklingen, vilket delvis görs genom att bidra i arbetslivet. Av detta följer logiskt att en identifierad faktor som främjar innovation är en faktor skolan bör ta hänsyn till i sin utbildningsplan. 32