EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2018 En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer PETER DAKERMANDJI DANTE FORSTÉN KTH SKOLAN FÖR TEKNIKVETENSKAP
Sammanfattning I detta projekt inom matematisk statistik ges en inblick i vilka faktorer som kan påverka en högskolestudents studieprestation. Två hälsorelaterade faktorer som sömn och fysisk aktivitet beaktades samt om studenten har föräldrar med akademisk bakgrund. För att studera sambandet mellan dessa faktorer och studieprestationen på högskolenivå tillämpades en multipel linjär regression. Regressionsmodellen baserades på data som insamlades från enbart studenter i Kungliga Tekniska Högskolan i Stockholm via ett internet baserat frågeformulär. Sammanfattningsvis kan det konstateras att det utifrån denna undersökning identifierats ett positivt samband mellan högskolestudentens studieprestation och att minst en av dennes föräldrar har en akademisk bakgrund, framförallt om området till denna akademiska bakgrund var inom teknik/vetenskap. Dessutom hittades ett positivt samaband mellan studieprestationen och interaktionen mellan sömn och ålder. I denna undersökning hittades däremot inga tillräckliga bevis för att påstå att fysisk aktivitet har ett samband med högskolestudentens studieprestation. Regrssionsmodellen erhöll ett lågt värde på determinationskoefficienten, där de möjliga orsakerna diskuteras utförligt i denna rapport. 3
Title of thesis An analysis of the relationship between study performance in an academic level and selected factors Abstract This thesis in mathematical statistics, gives the reader an insight of which factors affect the study performance of a university student. Two health related factors such as the amount of sleep and physical activity were examined as well as the student s parental academic background. A regression analysis was conducted in order to analyze the relationship between these factors and the study performance of a university student. The regression model was based on data collected solely by students from the Royal Institute of Technology in Stockholm through an internet based questionnaire. In summary, a positive relationship was identified between the student s study performance and having at least one parent with an academical background, especially if the academical background was in the area of technical- and scientifical studies. A positive relationship was also found between the study performance and the interaction between sleep and age. However, could a relationship not be found between the physical activity and the study performance. The final regression model provided a low value for the coefficient of determination where the possible causes are well discussed in this report. 5
Innehållsförteckning 1 Inledning 9 1.1 Bakgrund............................... 9 1.1.1 Tidigare studier....................... 9 1.2 Syfte.................................. 9 1.3 Problemformulering......................... 9 1.3.1 Frågeställning......................... 10 2 Matematisk teori 11 2.1 Komplexa undersökningar...................... 11 2.1.1 Obundet slumpmässigt urval (OSU)............ 11 2.1.2 Korrektion för ändliga populationer............ 11 2.2 Den linjära regressionsmodellen................... 12 2.3 Antaganden.............................. 12 2.4 Multipel linjär regressionsanalys.................. 12 2.4.1 Estimering av regressionskoefficienter............ 13 2.4.2 Interaktionseffekter...................... 13 2.5 Normalfördelade feltermer...................... 13 2.5.1 Homoskedasticitet...................... 14 2.5.2 Endogenitet.......................... 14 2.5.3 Quantile-Quantile plot.................... 14 2.5.4 Residualplot......................... 15 2.6 Multikollinearitet........................... 16 2.6.1 VIF.............................. 16 2.7 Hypotesprövning........................... 17 2.7.1 t-test & p-värde....................... 17 2.8 R 2 och justerad R 2.......................... 18 2.9 Akaike Information Criterion (AIC)................ 19 3 Metod 20 3.1 Datainsamling............................ 20 3.1.1 Responsvariabeln....................... 20 3.1.2 Förklarande variabler.................... 21 3.1.3 Förkastade enkätsvar..................... 21 3.2 Genomförande............................ 22 3.2.1 Mjukvaror........................... 22 4 Resultat 23 4.1 Enkätsvar............................... 23 4.2 Initial regressionsmodell....................... 24 4.3 Modifiering av regressionsmodell.................. 24 4.4 Slutgiltig regressionsmodell..................... 26 4.4.1 Modellvalidering....................... 27 5 Diskussion 29 7
6 Slutsats 31 7 Referenser 32 8 Bilagor 34 8.1 Bilaga A - Frågeformulär...................... 34 8
1 Inledning 1.1 Bakgrund I dagens stressfyllda samhälle kan det vara mödosamt för studenter att finna motivation och energi att hinna med studierna parallellt med en fritid. Det uppstår svårigheter i att veta vad och hur mycket man bör lägga fokus på i vardagen, vilket kan resultera i oro, stress, ångest och dylikt. Dessa fysiologiskhormonella reaktioner är i stort fokus idag och vanliga ämnen för forskning är bland annat hur träning och sömn påverkar hjärnan. 1.1.1 Tidigare studier I en interventionsstudie som genomfördes av Lina B. Käll, Michael Nilsson och Thomas Lindén studerades fysiska aktivitetens inverkan på studieresultatet för grundskoleelever. Studien visade att ökad fysisk aktivitet möjligtvis kan förbättra studieresultaten för grundskoleeleverna. I en annan interventionsstudie utförd av Ingegerd Ericsson, som genomfördes på grundskoleelever i årskurs 1-3, studerades relationerna mellan barnens motorik, koncentrationsförmåga och studieprestation. Studien undersökte om ökad fysisk aktivitet påverkade koncentrationsförmågan och resultatet av studien visar ett positivt samband. Enligt årsrapporten från UKÄ (2014) är det dubbelt så vanligt att barn vars föräldrar är akademiker börjar studera efter gymnasiet. 1.2 Syfte Då de flesta tidigare studierna har riktat sig till grundskoleelever är syftet med denna studie att ge läsaren en inblick i hur två olika typer av faktorer påverkar högskolestudenternas prestation. Dessa typer av faktorer är de hälsorelaterade faktorerna sömn och träning samt föräldrarnas akademiska bakgrund. 1.3 Problemformulering För att genomföra denna studie samlas data in via en enkätundersökning som riktar sig till en population av utvalda civilingenjörsprogram på KTH. Populationen begränsas till samma skola och program med likartade kursupplägg för att undvika påverkande faktorer såsom svårighetsgrader på kurser. Datan insamlad från enkätundersökningen skall vidare analyseras med statistiska metoder i form av linjär regressionsanalys för att mäta faktorernas samband med studieprestationen som i denna undersökning mäts i snittbetyg. 9
1.3.1 Frågeställning Frågeställningen för detta projekt kan beskrivas med nedanstående punkter: Kommer ett samband finnas mellan studenternas studieprestation och tiden de lägger ner till sömn och fysisk aktivitet? Presterar studenter bättre med föräldrar som har någon form av akademisk bakgrund? 10
2 Matematisk teori 2.1 Komplexa undersökningar I en komplex undersökning (Complex Survey i engelskspråkig litteratur) delas populationen in i flera nivåer av grupper (så kallade strata) och i den lägsta av dessa nivåer tas sedan stickprov som utgör observationerna för analysen. Exempelvis kan nivåindelningen vara att man begränsar sig till Sverige, Stockholm, sedan KTH och slutligen civilingenjörsprogrammen där dessa blir den lägsta nivån. Om populationen delas in i strata med mindre inre variation, kan mängden observationer oftast minskas utan förlust av resultatens tillförlitlighet. Med en utförd komplex undersökning kan inte observationerna antas vara helt oberoende; detta då stickprov från samma undergrupp troligen kommer vara mer lika än stickprov från en annan undergrupp (Frongillo, 1996). 2.1.1 Obundet slumpmässigt urval (OSU) En urvalsmetod som kan användas för datainsamling är ett obundet slumpmässigt urval (OSU) (Simple Random Sampling i engelskspråkig litteratur). OSU innebär att man inte styr urvalet utan att det helt och hållet är slumpen som bestämmer (Dahmström, 2005). Vid användandet av denna urvalsmetod gäller att: En population av N element antas, som samtidigt är urvalsenheterna. Varje tänkbart stickprov om n st element har samma sannolikhet. Varje element har samma sannolikhet att bli valt och denna inklusionssanoliket är lika n/n Det finns två olika varianter på denna urvalsmetod, nämligen (Dahmström, 2005): Dragning med återläggning där totalt N n st olika stickprov kan erhållas. Dragning utan återläggning där ( N n) st olika stickprov kan erhållas. 2.1.2 Korrektion för ändliga populationer Vid insamling av data från en ändlig population måste en korrektion göras för medelfelet (Standard Error, SE, i engelskspråkig litteratur). Denna korrektion utförs via Finite Population Correction (FPC) som beräknas enligt (Dahmström, 2005) N n F P C = (1) N 1 Om stickprovsstorleken är mindre än 10% av populationsstorleken kan FPC ignoreras, men bör annars inkluderas för att ge en mer korrekt analys (Blom, 2005). 11
2.2 Den linjära regressionsmodellen Linjär regressionsanalys används för att approximera en beroende variabel (responsvariabel) med hjälp av en eller flera oberoende variabler (förklarande variabler). I en modell med endast en förklarande variabel benämns analysen för simpel linjär regression och i fallet med två eller fler förklarande variabler benämns analysen för multipel linjär regression (Montgomery, 2012). 2.3 Antaganden Vid användande av linjär regressionsanalys måste några antaganden göras, nämligen att Det föreligger ett linjärt samband mellan de förklarande variablerna och responsvariabeln. Multikollinearitet råder ej, vilket innebär att det inte existerar ett exakt linjärt samband mellan de förklarande variablerna. Feltermerna ε i är normalfördelade enligt: ε i N (0, σ 2 ). Med denna fördelning gäller det vidare att E(ε i ) = 0, det vill säga att väntevärdet av feltermerna antas vara noll Var(ε i ) = σ 2, det vill säga att variansen är densamma för samtliga feltermer, detta benämns homoskedasticitet. 2.4 Multipel linjär regressionsanalys Med ett insamlat dataset {y i, x i1, x i2,..., x ik } n i=1, där x i är de förklarande variablerna, y i är responsvariabeln, n är storleken på datasetet och k är antalet förklarande variabler, ställs modellen för regressionsanalys upp enligt y i = x i T β + ε i = β 0 + β 1 x i1 +... + β k x ik + ε i. (2) β 0 utgör ett intercept, β 1, β 2,, β k är koefficienter för de förklarande variablerna (regressionskoefficienter) och ε i är en felterm. De n ekvationerna kan skrivas på matrisnotation enligt Y = Xβ + ε där y 1 1 x 11 x 1k β 0 ε 1 y 2 Y=., X= 1 x 21 x 2k......, β = β 1., ε = ε 2. y n 1 x n1 x nk β k ε k 12
2.4.1 Estimering av regressionskoefficienter Regressionskoefficienten, β i, reflekterar hur responsvariabeln ändras med förändringar i den i:te förklarande variabeln, förutsatt att övriga förklarande variabler hålls konstanta. Regressionskoefficienterna, β i, är okända konstanter som kan estimeras med bland annat Ordinary Least Square (OLS) utifrån den insamlade datan. OLSestimeringen av β, ˆβ, är värdet som minimerar summan av de kvadrerade residualerna vilket kan fås genom att lösa normalekvationen, X T ˆε = 0. Härledningen av ekvationen utelämnas i denna rapport, OLS-estimeringen av β är (Lang, 2015) ˆβ = (X T X) 1 X T Y (3) 2.4.2 Interaktionseffekter Regressionmodeller kan även innehålla interaktionseffekter som kan påverka modellen. Om två eller fler förklarande variabler antas vara interaktiva är det viktigt att ta hänsyn till interaktionseffekterna, om inte kan det medföra komplikationer i den slutgiltiga regressionmodellen (Frost, 2017a). Exempelvis, betrakta modellen: x 3 sätts till x 3 = x 1 x 2 och β 3 = β 12. Ekvationen ovan skrivs nu om till: y = β 0 + β 1 x 1 + β 2 x 2 + β 12 x 1 x 2 + ɛ (4) y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + ɛ (5) som nu är en linjär regressionsmodell (om modellen är linjär i parametrarna β i anses modellen vara linjär). Interaktionen innebär att effekten skapad av en variabel, x 1, beror på nivån av den andra variabeln, x 2. (Montgomery, 2012). 2.5 Normalfördelade feltermer Ett vanligt antagande för regressionsanalysen är som tidigare nämnt (se 2.3 Antaganden) att feltermerna, ε i, är normalfördelade enligt ε i N (0, σ 2 ). Detta antagande görs för att förenkla teorin och beräkningarna, men är inte helt sanningsriktig. Dock kommer detta antagande att göras för denna studie. Ur antagandet följer det att homoskedasticitet och exogenitet bör föreligga för att regressionsmodellen skall ge ett rillrättavisande resultat (Lang 2015). 13
2.5.1 Homoskedasticitet Homoskedasticitet innebär att feltermerna har konstant varians, Var(ε i ) = σ 2, och om motsatsen råder (heteroskedasticitet) tenderar p-värdena att bli lägre än de borde (se sektion 2.7.1 för beskrivning av p-värde). Anledningen till detta är för att OLS-metoden detekterar inte den ökade variansen i estimeringen av regressionskoefficienten som uppstår vid heteroskedasticitet. Om p-värdet är lägre än vad det bör, kan den dragna slutsatsen om signifikansnivån vara felaktig. Om heteroskedasticitet råder bör modellen i första hand omformuleras genom att exempelvis lägga till/ta bort förklarande variabler eller transformera dem. Ett annat sätt är att utföra en viktad regressionsanalys vilket minskar summan av de viktade kvadrerade residualerna; med rätt viktning övergår heteroskedasticiteten till homoskedasticitet. Om datan manipuleras genom exempelvis transformationer eller viktning kan resultatet dock bli svårare att tolka (Lang 2015). 2.5.2 Endogenitet Ett antagande för regressionsmodellen är att E(ε i ) = 0 (2.2 Antaganden) vilket är en direkt konsekvens av exogenitetsantagandet som säger att E(ε X) = 0. Antagandet om exogenitet är ett krav för att OLS-modellen för estimeringen av regressionskoefficienterna skall hålla. Om antagandet inte är uppfyllt, alltså att E(ε X) 0, kallas de förklarande variabler som korrelerar med sina feltermer för endogena. Det problem som uppstår då är att de regressionskoefficienter som tillhör de endogena variablerna blir överestimerade vid positiv korrelation med feltermerna och underestimerade vid negativ korrelation med feltermerna (Lang, 2015). 2.5.3 Quantile-Quantile plot En quantile-quantile plot (Q-Q plot) är ett grafiskt hjälpmedel för att avgöra om ett dataset har en viss fördelning, exempelvis normal eller logaritmisk, och i regressionsanalysen antas feltermerna vara normalfördelade vilket kan kontrolleras med en sådan graf. I en Q-Q plot visas de estimerade kvantilerna för datasetet mot kvantilerna för fördelningen, och om båda kvantilerna besitter samma fördelning kommer punkterna att forma en rak linje (Ford, 2015). Måttligt avvikande värden är vanliga, men vid mer extrema avvikningar bör feltermerna analyseras mer noggrannt. Nedan visas olika former och dess respektive benämningar. 14
2.5.4 Residualplot Figur 2.1: Olika former av Q-Q plot. För att undersöka om det råder heteroskedacitet i regressionsmodellen kan det analyseras grafiskt via residualplottar. Det går även att undersöka om regressionmodellen uppfyller antangandet om linjäritet. (Wooldridge, 2013) En residualplot som går att använda är en så kallad Residuals vs. Fitted-plot. 15
Figur 2.2: Olika scenarion av residualplot. Skulle punkterna följa ett mönster, såsom den andra plotten på figur 2.2 skulle det innebära att regressionsmodeller innehåller heteroskedastiska residualertermer, vilket bör åtgärdas. Däremot om inget mönster upptäcks, såsom den första plotten på figur 2.2 råder homoskedacitet och antagandet om residualernas lika varians uppfylls. Den tredje plotten på figur 2.2 visar en parabelformad struktur och detta indikerar icke-linjäritet vilket bryter antagandet om linjäritet. 2.6 Multikollinearitet Multikollinearitet råder när två eller fler av de förklarande variablerna i regressionsanalysen har ett linjärt samband med varandra, vilket i princip innebär att samma information används på mer än ett sätt. Hög multikollinearitet orsakar problem i analysen då variansen i estimeringen av koefficienterna för de förklarande variablerna, β i, ökar. Resultatet blir en instabil estimering av parametrarna och medför svårigheter att fastställa de förklarande variablernas effekt på responsvariabeln (Wooldridge, 2013). 2.6.1 VIF En metod för att testa multikollineariteten är att beräkna Variance Inflation Factor (VIF) för regressionskoefficienterna. VIF mäter hur mycket de estimerade regressionskoefficienterna är amplifierade i jämförelse med då de oberoende variablerna inte ingår i ett linjärt samband. VIF beräknas för den i:te koefficienten enligt (Dickey, 1998) VIF i = 1 (1 R 2 i ) (6) där Ri 2 är determinationskoefficienten från regressionen av den i:te förklarande variabeln, X i, på de övriga förklarande variablerna. Om VIF i > 10 anses de förklarande variablerna vara starkt korrelerade vilket innebär att multikollinearitet råder. 16
2.7 Hypotesprövning För att bedömma om den uppställda hypotesen är rimlig måste ett hypotest utföras. En hypotesprövning evaluerar två olika hypoteser i en population för att sedan bestämma vilken av dessa hypoteser som stämmer mest överens med dataurvalet. En hypotesprövning består vanligtvis av en nollhypotes H 0 och en alternativ hypotes H A (Minitab,2017). Signifikansnivån α sätts vanligtvis till 5% och om p-värdet överstiger denna nivå kan inte nollhypotesen förkastas. 2.7.1 t-test & p-värde Ett sätt att testa hypotesen är att utföra t-test (även kallad Student s t-test) som jämför två medelvärden och anlyserar deras olikheter. Testet visar dessutom hur signifikanta dessa olikheter är, alltså om olikheterna är slumpartade eller inte (Wooldridge, 2013). T-testet följer en t-fördelningskurva som uppkommer i scenarion där medelvärdet estimeras av en normalfördelad population vars storlek är liten och standardavvikelse är okänd. Skulle antalet frihetsgrader öka går t-fördelningen mot en standardiserad normalfördelning (Hazewinkel, 2001). Figur 2.3: t-fördelningskurvan med olika frihetsgrader k. I sammanhang med regressionsanalys ställs vanligtvis nollhypotesen upp så att den förklarande variabeln är lika med noll; alltså att regressionmodellen är bättre om den iakttagna oberoende variabeln exkluderas från modellen. Den alternativa hypotesen påstår det motsatta, att den beaktade oberoende variabeln bör inkluderas i modellen (Montgomery, 2012). Matematiskt kan detta skrivas H 0 : β i = 0 H A : β i 0 17
Vidare är t-värdet matematiskt definierad som t = ˆβ i β i SE( ˆβ i ) (7) där SE( ˆβ i ) är medelfelet för den i:te estimerade koefficienten. Ett högt t-värde kommer att medföra ett högt p-värde och vice versa. Hur högt eller lågt t-värdet är beror på om p-värdet är inom den valda signifikansnivån eller inte. P-värdet för t-testet kan erhållas enligt där X följer en t-fördelning. P r(x > t ) (8) P-värdet avgör om det observerade förhållandet i samplingspopulationen också existerar i en större population. P-värdet testar nollhypotesen för varje förklarande variabel och undersöker om något samband finns med responsvariabeln. Ett p- värde större än den givna signifikansnivån, α, indikerar brist på bevis i datasetet för att förkasta nollhypotesen, vilket medför att den beaktade förklarande variabeln bör exkluderas eller modifieras. Således skall p-värdet vara mindre än den givna signifikansnivån, α, för att nollhypotesen skall förkastas. 2.8 R 2 och justerad R 2 Determinationskoefficienten R 2 (även kallad förklaringsgrad) är andelen av den totala kvadratsumman av responsvariabeln förklarad av de oberoende variablerna i modellen (Dickey, 1998). Matematiskt uttrycks detta som n R 2 i=1 = (ŷ i ȳ) 2 n i=1 (y (9) i ȳ) 2 där n är antalet observationer, den beräknade i:te punkt från regressionsmodellen, ȳ det skattade medelvärdet för y och y i det i:te värdet av den beroende variabeln från mätningen. Då determinationskoefficienten tenderar att öka ju fler oberoende variabler som används i modellen, vilket resulterar i en felaktig determinationskoefficient, används en så kallad justerad determinationskoefficient. Detta är aktuellt för fallet med multipel linjär regression och är definerad som R 2 adj = 1 (1 R2 )(n 1) n k där k är antalet oberoende variabler i modellen. (10) 18
Detta uttryck tar bort frihetsgradernas inverkan och med modeller som involverar flera parametrar. Till skillnad från R 2 ökar vanligtvis inte Radj 2 när parametrar läggs till i modellen. Värdet av Radj 2 kommer att stabilisera till en övre gräns när parametrar läggs till. (Dickey, 1998) 2.9 Akaike Information Criterion (AIC) Ett AIC-test kan användas för att kontrollera kvaliteten av regressionsmodeller och är definierad matematiskt som AIC = n ln ( ˆε 2) + 2k (11) där ˆε är den estimerade residualen för regressionsmodellen som testas. AIC-testet tillhandahåller information om vilken regressionsmodell som generar minst informationsförlust i förhållande till den exakta modellen. Den regressionsmodell som minimerar AIC-värdet är den regressionsmodell som minimerat informationsförlusten, och är därför att föredra (Lang, 2015). 19
3 Metod Denna studie kan delas upp i tre steg, nämligen enkätundersökning, val av regressionsmodell och slutligen modifiering och validering av modellen. Enkätundersökningen utfördes på en population som approximerats som ett obundet slumpmässigt urval för att ta hänsyn till Finite Population Correction - faktorn (se 2.1.2 Korrektion för ändliga populationer). När datan samlats in ställdes en initial regressionsmodell upp, med val av förklarande variabler utifrån enkätsvaren. Denna regressionsmodell modifierades till en slutgiltig modell som valideras utifrån de olika testerna beskrivna under teoriavsnittet. 3.1 Datainsamling Som tidigare nämnt (1.3 Problemformulering) begränsades populationen till samma skola och program med likartade kursupplägg för att minska antalet påverkande faktorer. Populationen innefattade därav studenter från civilingenjörsprogrammen Maskinteknik, Farkostteknik och Design och produktframtagning vid KTH. Vidare prioriterades data från studenter som har studerat i minst tre år för att erhålla en bättre analys; detta eftersom snittbetyget konvergerar med fler avklarade kurser. Datan samlades in via en enkät (se Bilaga 1) som besvarades online via Google Formulär. Enkäten delades ut till tre Facebook-grupper som huvudsakligen inkluderar medlemmar utifrån ovanstående populationsbegränsning och det totala antalet medlemmar i grupperna som sett informationen angående enkäten valdes som populationens storlek, N. Stickprovsstorleken, n, är antal svar som användes i regressionsanalysen. 3.1.1 Responsvariabeln Den responsvariabel som valdes för att reflektera studieprestationen blev i denna analys studentens snittbetyg. I enkäten fanns kryssalternativ för olika intervall av snittbetyg enligt F-E (0.0-3.0) E-D (3.0-3.5) D-C (3.5-4.0) C-B (4.0-4.5) B-A (4.5-5.0) Skalan avser KTH-studenter och betygen är enligt den sjugradiga målrelaterade betygsskalan vars varje numeriska värde är representerad ovan (KTH, 2018). Det inkluderades även en följdfråga med enkätsvararens exakta snittbetyg, som 20
var valfri att besvara. Vektorn med snittbetyg innehöll de exakta snittbetygen för de studenter som svarade med detta, och de som enbart angav snittbetyget i intervallerna fick medelvärdet i intervallet som snittbetyg (exempelvis ett svar D-C fick värdet 3.75). Undantag för svar F-E som gavs värdet 3.0. 3.1.2 Förklarande variabler De förklarande variablerna som användes i analysen var: Ålder: denna variabel används i analysen med värdet som är angivet på enkäten. Sömn: denna variabel mäts i antal timmar studenten i genomsnitt sover på vardagarna. Träning: denna variabel mäts i antal dagar studenten i genomsnitt tränar per vecka. Föräldrarnas akademiska bakgrund: denna variabel delas upp i två dummy variabler där Förälder 1 är första variabeln som antar värdet 1 om en av föräldrarna har akademisk bakgrund, och 0 om ingen av föräldrarna har akademisk bakgrund. Förälder 2 är andra variabeln som antar värdet 1 om den andra föräldern också har akademisk bakgrund. Värdet 0 här innebär att antingen ena förälderna eller ingen av föräldrarna har akademisk bakgrund, beroende på värdet i föregående variabel. Teknisk bakgrund: denna variabel bildas som en dummy variabel som antar värdet 1 om minst en av föräldrarna har akademisk bakgrund inom området teknik/vetenskap och värdet 0 om föräldrarna har akademisk bakgrund inom annat område alternativt inte har någon akademisk bakgrund. Denna uppdelning gjordes för att hälften av studenterna som svarade på denna fråga angav teknik/vetenskap (se 4.1 Enkätsvar). 3.1.3 Förkastade enkätsvar Enkäten innehöll frågor som inte besvarades med kryssalternativ, vilket ledde till att orimliga värden uppstod; exempelvis ett svar på snittbetyget som inte fanns inom det korrekta intervallet. Enkätsvaren med orimliga värden beaktades ej i analysen. Ålder var en valfri fråga, och då denna variabel användes i analysen förkastades även de enkätsvar där svar på denna fråga var utelämnad. 21
3.2 Genomförande När enkätundersökningen ansågs vara färdig kunde regressionsanalysen påbörjas där en initial modell ställdes upp och VIF-värden kontrollerades för att identifiera eventuella korrelationer mellan variablerna. Modellen modifierades därefter utifrån erhållna p-värden, AIC och R 2 samt Radj 2 till en slutgiltig modell; detta genom att antingen ta bort eller modifiera den förklarande variabel med för högt p-värde tills dess att önskad signifikansnivå α på 5% uppnåddes. När önskad signifikansnivå var uppnådd verifierades modellens validitet utifrån de antaganden som gjorts för multipel linjär regressionsanalys (se 2.3 Antaganden). 3.2.1 Mjukvaror De program som användes i studien var Google Forms, för att utföra enkätundersökningen Microsoft Excel, för att sammanställa datan från enkätundersökningen R, med tilläggspaketet Survey, för att genomföra regressionsanalysen utifrån en komplex undersökning och korrektionsfaktorn för ändliga populationer (se avsnitt 2.1.2) 22
4 Resultat 4.1 Enkätsvar Totalt erhölls 204 enkätsvar ur en population på 403 studenter. Av dessa 204 svar användes 182 svar för analysen. Nedan följer samlad statistik av samtliga svar. Figur 4.1: Åldersfördelning med ålder på horisontell axel och antal på vertikal axel Figur 4.2: Könsfördelning till vänster och typ av civilingenjörsprogram till höger Figur 4.3: Årskurs till vänster och antal föräldrar med akademisk bakgrund till höger Figur 4.4: Genomsnittlig träning per vecka till vänster och genomsnittlig sömn i vardagen till höger 23
Figur 4.5: Snittbetyg 4.2 Initial regressionsmodell Den initiala regressionsmodellen som ställdes upp var Snittbetyg = β 0 + β 1 (Förälder 1) + β 2 (Förälder 2) +β 3 (Teknisk bakgrund) + β 4 (Sömn) + β 5 (Träning) + ε. där de förklarande variablernas innebörd beskrivs i detalj i metodavsnittet. I Tabell 4.1 nedan presenteras erhållna resultat för respektive förklarande variabel. VIF-värden skall enligt tidigare nämnt ligga <10 vilket är fallet. P-värdet för respektive förklarande variabel skall ha ett värde under (eller lika med) signifikansnivån på 5% vilket inte gäller och innebär alltså att modellen bör modifieras. Förklarande variabel β-estimering Medelfel p-värde VIF (Intercept) 4.358 0.201 0.000 - Förälder 1 0.174 0.073 0.019 1.59 Förälder 2-0.093 0.065 0.156 1.59 Teknisk bakgrund 0.267 0.065 0.000 1.62 Sömn -0.064 0.031 0.039 1.27 Träning 0.021 0.016 0.198 1.35 Tabell 4.1: Resultat för den initiala modellen 4.3 Modifiering av regressionsmodell Då den initiala modellen inte håller önskvärda värden måste de förklarande variablerna modifieras. Modifiering 1 Först och främst reduceras modellen och den förklarande variabeln Förälder 2 tas bort. Vidare omformuleras då den förklarande variabeln Förälder 1 och innebär att minst en av föräldrarna har akademisk bakgrund om variabeln erhåller värdet 1 (värdet 0 innebär som innan att ingen av studentens föräldrar har akademisk bakgrund). Med denna modell erhålls värden enligt Tabell 4.2 nedan. 24
Förklarande variabel β-estimering Medelfel p-värde VIF (Intercept) 4.318 0.200 0.000 - Förälder 1 0.136 0.068 0.048 1.38 Teknisk bakgrund 0.233 0.062 0.000 1.47 Sömn -0.059 0.031 0.060 1.31 Träning 0.021 0.016 0.200 1.38 Tabell 4.2: Resultat efter modifiering 1 Som i den initiala modellen är VIF-värdena godkända men regressionsmodellen måste vidare modifieras för att uppnå önskvärd signifikansnivå på de förklarande variablerna. Modifiering 2 Då förklaringsvariabeln Träning hade högsta p-värdet i modellen ovan hanteras denna. Variabeln är dock önskvärda i analysen och modifieras därför istället för att tas bort, och modifikationen som testas här är en interaktion med variabeln Sömn. Resultaten kan ses i Tabell 4.3 nedan (ett kolontecken mellan två variabler innebär en interaktion mellan dem). Förklarande variabel β-estimering Medelfel p-värde VIF (Intercept) 4.373 0.213 0.000 - Förälder 1 0.135 0.068 0.049 1.38 Teknisk bakgrund 0.234 0.061 0.000 1.47 Sömn -0.067 0.034 0.048 1.56 Sömn:Träning 0.003 0.002 0.164 1.66 Tabell 4.3: Resultat efter modifiering 2 Som i modellen efter första modifieringen är VIF-värdena godkända men regressionsmodellen måste vidare modifieras för att uppnå önskvärd signifikansnivå på de förklarande variablerna. 25
Modifiering 3 I den andra modifieringen testades Träning i en interaktion med Sömn men var ej statistiskt signifikant, och därför valdes denna förklarande variabel att tas bort från analysen. Resultaten för de tre kvarvarande förklarande variablerna ses i Tabell 4.4 nedan. Förklarande variabel β-estimering Medelfel p-värde VIF (Intercept) 4.303 0.20058 0.000 - Förälder 1 0.145 0.06936 0.038 1.42 Teknisk bakgrund 0.233 0.06195 0.000 1.41 Sömn -0.050 0.02913 0.088 1.03 Tabell 4.4: Resultat efter modifiering 3 Som i övriga modeller är VIF-värdena godkända men regressionsmodellen måste vidare modifieras för att uppnå önskvärd signifikansnivå på de förklarande variablerna. 4.4 Slutgiltig regressionsmodell I den tredje modifieringen av modellen hade den förklarande variabeln Träning tagits bort, men däremot uppnådde inte Sömn en godkänd signifikansnivå. På samma sätt önskades inte denna förklarande variabel att tas bort, och därför interagerades denna variabel med studentens ålder. Resultaten kan ses i Tabell 4.5 nedan. Förklarande variabel β-estimering Medelfel p-värde VIF (Intercept) 4.406 0.162 0.000 - Förälder 1 0.144 0.070 0.041 1.45 Teknisk bakgrund 0.228 0.062 0.000 1.41 Sömn:Ålder -0.003 0.001 0.006 1.03 Tabell 4.5: Resultat för den slutgiltiga regressionsmodellen Modellen ovan håller de kriterier som var satta, nämligen en signifikansnivå på 5% och ett VIF-värde <10 för de förklarande variablerna. Varje modells AICvärde samt R 2 - och Radj 2 -värde är även presenterade i tabellen nedan, där det kan konstateras att den slutgiltiga modellen även hade lägst AIC-värde (vilket föredras) samt högst R 2 - och Radj 2 -värde (vilket föredras) även om skillnaderna är marginella. 26
Regressionsmodell AIC-värde R 2 -värde Radj 2 -värde Initial modell 41.57 0.115 0.090 Modifiering 1 41.57 0.110 0.090 Modifiering 2 41.53 0.111 0.091 Modifiering 3 41.53 0.105 0.090 Slutgiltig modell 41.03 0.115 0.100 Tabell 4.6: AIC-, R 2 - och Radj 2 -värden för de olika regressionsmodellerna 4.4.1 Modellvalidering För att vidare validera modellen kontrolleras om antagandena för regressionsanalysen, enligt 2.3 Antaganden, är uppfyllda. Q-Q plot Ett av dessa antaganden är att feltermerna är normalfördelade (se 2.3 Antaganden). Som Figur 4.5 nedan visar är residualerna approximativt normalfördelade; små avvikelser är vanligt förekommande. Figur 4.6: Q-Q plot för slutgiltig modell 27
Homoskedasticitet För att kontrollera antagandet om homoskedasticitet och linjäritet användes en residualplot. I Figur 4.6 nedan kan det ses att antagandena är uppfyllda (jämför med Figur 2.2 i teoriavsnittet), och anledningen till residualplottens utseende diskuteras närmare i diskussionsavsnittet. Figur 4.7: Residualplot för slutgiltig modell 28
5 Diskussion Låg förklaringsgrad Som resultatet visar har den slutgiltiga modellen en låg determationskoefficient, vilket i teorin inte är eftersträvat för att erhålla ett tydligt resultat. Determinationskoefficienten är den procentuella mängd av responsvariabeln som förklaras av modellen vilket innebär kortfattat hur väl modellen kan förklara verkligheten. Men innebär en låg determinationskoefficient alltid att modellen är dålig? I vissa studiefält är det förväntat att få en låg determinationskoefficient, exempelvis studier som försöker förutspå mänskligt beteende (Minitab, 2013) tenderar att ge ett lågt R 2 värde då mänskligt beteende är komplext och svårt att förutspå. Ett lågt R 2 -värde innebär inte nödvändigtvis att regressionsmodellen är dålig, bara att modellen har sämre förutsägelse. De statistiskt signifikanta β- estimeringarna kan användas för att dra viktiga slutsatser på hur ändringarna i de förklarande variablerna är associerade med ändringar i responsvariabeln. Oavsett värde på R 2 -värdet representerar de signifikanta regressionskoefficienterna förändringen i responsvariabeln per enhet ändring i tillhörande förklarande variabel givet att övriga förklarande variabler hålls konstanta. En annan faktor som kan vara en orsak till den låga förklaringsgraden är att människor i allmänhet tenderar att svara utifrån deras romantiserade bild av verkligheten och inte deras faktiska bild av verkligheten, exempelvis en respondent som svarar att personen tränar 4 dagar i veckan egentligen inte gör det. Dessutom kan frågorna i enkäten vara svåra att besvara då de är väldigt generella. Residualplottens utseende Anledningen till att det tydligt finns fem stycken räta linjer i Figur 4.6 är för att responsvariabeln är diskret. Detta innebär att den bara kan anta ett visst antal värden, i vårat fall de värden som motsvarar intervallen för snittbetyget vilket är fem olika värden. Utifrån detta kan vi i helhet se i Figur 4.6 att homoskedasticitet råder. Borttagandet av variabeln Träning I den slutgiltiga modellen har variabeln Träning valts att exkluderas ur modellen. Som nämnt i resultatdelen är detta för att p-värdet inte uppnår den satta signifikansnivån på 5%, vilket medför att nollhypotesen inte kan förkastas. Om nollhypotesen inte kan förkastas för den valda signifikansnivån, föreligger inget samband mellan responsvariabeln och den förklarande variabeln. I denna studie innebär detta resultatet för vår lokala population inte har tillräckligt med bevis för att gälla för en global population. Orsakerna kan vara många till varför Träning-variabeln gav det låga p-värdet. Som tidigare nämnt tenderar människor att svara utifrån deras deras romantiserade bild av verkligheten, inte 29
minst i Tränings-aspektet och detta kan vara en orsak till det låga p-värdet som Träning-variabeln erhöll. Val av populationsstorlek N Populationsstorleken, N, valdes som det totala antalet studenter som sett informationen angående enkäten, vilket uppgick till ett antal av 403. Denna populationsstorlek valdes för att detta blir den lägsta nivån av grupper (se 2.1 Komplexa undersökningar) som stickprov tas ifrån. Man kan argumentera för att den lägsta nivån bör vara antalet medlemmar i Facebook-grupperna, men på grund av inaktivitet hos medlemmar som till exempel medlemmar som inte längre studerar, valdes denna ytterligare nivå att läggas till. Interaktionens innebörd Då den förklarande variabeln Sömn inte uppnådde signifikansnivån valdes den att modifieras. Modifieringen blev en interaktion med studentens ålder, vilket gav en korrekt signifikansnivå i den slutgiltiga modellen. Denna interaktion innebär i ord att sömnens påverkan på snittbetyget beror på åldern på studenten, och omvänt att ålderns påverkan på snittbetyget beror på studentens sömnvanor. R och survey package I mjukvaran R så användes tilläggspaketet Survey för att genomföra analysen, då vi hade en komplex undersökning. Med funktionerna i detta paket kunde inte något F-test, η 2 -värde eller p-värde för hela modellen att erhållas och är anledningen till att de inte återfinns i resultatdelen. Förbättringsområden Något vi skulle förbättra är att ta med fler förklarande variabler som kunde förbättra regressionmodellen, exempelvis studenternas studietid. Varför dessa variabler valdes att exkluderas från analysen är på grund av deras uppenbara koppling till responsvariabeln vilket skulle försvåra tolkningen av de övriga parametrarna. Nu i efterhand skulle det förmodligen vara bättre att inkludera dessa faktorer i analysen, då regressionmodellen möjligen skulle erhålla en bättre förklaringsgrad. Dessutom skulle de andra parametrarnas inverkan på responsvariabeln ändå kunnas undersökas med hjälp av estimaterna av regressionskoefficienterna. 30
6 Slutsats Syftet med detta projekt var att ge läsaren en inblick på hur häslorelaterade faktorer som träning och sömn samt föräldrarnas akademiska bakgrund påverkar studentens studieprestation. Den slutgiltiga regressionsmodellen gav ett lågt värde på förklaringsgraden vilket innebär att modellen har en dålig förutsägelse. Trots detta erhöll statistisk signifikanta estimeringar till samtliga regressionkoefficienter, förutom regressionkoefficienten med variabeln Träning. Regressionskoefficienterna kan användas för att tolka hur responsvariabeln påverkas av förändringar i den tillhörande förklarande variabeln. Sammanfattningsvis kan dessa slutsatser dras från denna analys Ett positivt samband identifierades mellan snittbetyget och om studenten hade minst en föräldrer med akademisk bakgrund, framförallt om denne föräldrer hade en akademisk bakgrund inom området Teknik/Vetenskap. Interaktionen mellan Ålder & Sömn gav ett positivt samband till regressionsmodellen. Inga tillräckliga bevis identifierades i denna analys för att påstå att fysisk aktivitet har ett positivt samband med studieprestationen hos en högskolestudent inom den valda signifikansnivån. 31
7 Referenser AstroML (2012). Example of Student s t distribution http://www.astroml.org/book_figures/chapter3/fig_student_t_distribution. html#example-of-student-s-t-distribution Blom, G., Enger, J., Englung, G., Grandell, G. Holst, L (2005). Sannolikhetsteori och statistikteori med tillämpningar, Upplaga 5:14. Studentliteratur. Dahmström, K. (2005). Från datainsamling till rapport - att göra en statistisk undersökning, Fjärde upplagan. Studentlitteratur. Dickey, D.A., Pantula, S.G., Rawlings, J.O., (1998). Applied Regression Analysis: A Research Tool, Second Edition. Springer. Ericsson, I. (2003). Motorik, Koncentrationsförmåga och Skolprestationer. Malmö Högskola. Faraway, J.J. (2005). Linear Models with R. Chapman Hall/CRC. Ford, C. (2015). Understanding Q-Q Plots. http://data.library.virginia.edu/understanding-q-q-plots/ Frongillo, E. (1996). What is a Complex Survey? https://www.cscu.cornell.edu/news/statnews/stnews11.pdf Frost, J. (2017a). Understanding Interaction Effects in Statistics.+ http://statisticsbyjim.com/regression/interaction-effects/ Frost, J. (2017b). How to Interpret P-values and Coefficients in Regression Analysis. http://statisticsbyjim.com/regression/interpret-coefficients-p-values-regression/ Frost, J. (2017c). How to Interpret the F-test of Overall Significance in Regression Analysis. http://statisticsbyjim.com/regression/interpret-f-test-overall-significance-regression/ Hazewinkel, M. (2001). Student distribution https://www.encyclopediaofmath.org/index.php/student_distribution Kahlroth, M., Lindqvist, T. (2014). Universitet och högskolor: Årsrapport 2014, 2014:7. Universitetskanslersämbetet (UKÄ). 32
KTH, (2018). Hur medelbetygsuträkning går till i KTH:s Ladok vid stipendieansökan till KTH:s stiftelser. https://www.kth.se/student/studentliv/stipendier/medelbetyg-1. 68811 Käll, L.B., Nilsson, M., Lindén, T. (2014). The impact of a physical activity intervention program on academic achievement in a Swedish elementary school setting. J Sch Health. 2014; 84: 473-480. Lang, H. (2015). Elements of Regression Analysis. KTH Mathematics. Lohr, S.L. (2010). Sampling: Design and Analysis, Second Edition. Arizona State University. Brooks/Cole Cengage Learning. Lumley, T. (2010). Complex Surveys: A Guide to Analysis Using R. Wiley. Minitab (2013). Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit? http://blog.minitab.com/blog/adventures-in-statistics-2/ regression-analysis-how-do-i-interpret-r-squared-and-assess-the-goodness-of-fit Minitab (2017). What is a hypothesis test? http://support.minitab.com/en-us/minitab/17/topic-library/ basic-statistics-and-graphs/hypothesis-tests/basics/ what-is-a-hypothesis-test/ Montgomery, D.C., Peck, E.A. Vining, G.G (2012). Introduction to Linear Regression Analysis, Fifth edition. Wiley. Seltman, H. (2015). Experimental Design and Analysis. Carnegie Mellon University. Sridharan, R. (2015). Linear Regression http://www.mit.edu/~6.s085/ notes/lecture3.pdf 33
8 Bilagor 8.1 Bilaga A - Frågeformulär 34
www.kth.se