Examensprediktion med hjälp av Markovkedjor. Karin Björk

Relevanta dokument
TAMS79: Föreläsning 10 Markovkedjor

Matematisk statistik för D, I, Π och Fysiker

Stokastiska processer

SF1901 Sannolikhetsteori och statistik I

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Lösningsförslag till Matematisk statistik LKT325 Tentamen

LKT325/LMA521: Faktorförsök

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Markovprocesser SF1904

Markovprocesser SF1904

MSG830 Statistisk analys och experimentplanering - Lösningar

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

MVE051/MSG Föreläsning 7

FÖRELÄSNING 8:

Markovprocesser SF1904

Markovprocesser SF1904

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Markovprocesser SF1904

Laboration 2: Styrkefunktion samt Regression

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Markovprocesser SF1904

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 12: Regression

Stokastiska processer och simulering I 24 maj

Föreläsning 12: Repetition

Föreläsning 11: Mer om jämförelser och inferens

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Stokastiska processer och simulering I 24 augusti

Lektionsanteckningar 11-12: Normalfördelningen

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

4 Diskret stokastisk variabel

Grafer och grannmatriser

Markovprocesser SF1904

2 Dataanalys och beskrivande statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen i FMS180/MASC03 Markovprocesser

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistik 1 för biologer, logopeder och psykologer

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

F3 Introduktion Stickprov

Härledning av Black-Littermans formel mha allmänna linjära modellen

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

, s a. , s b. personer från Alingsås och n b

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Exempel på tentamensuppgifter

Regressionsmodellering inom sjukförsäkring

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Markovprocesser SF1904

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

3 Maximum Likelihoodestimering

Statistik 1 för biologer, logopeder och psykologer

Sannolikheter och kombinatorik

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Formler och tabeller till kursen MSG830

Avd. Matematisk statistik

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TMS136: Dataanalys och statistik Tentamen

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik TMS064/TMS063 Tentamen

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 8: Konfidensintervall

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Matematisk statistik för B, K, N, BME och Kemister

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Hemuppgift 3 modellval och estimering

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Övningstenta för MSG830

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Avd. Matematisk statistik

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

1.1 Diskret (Sannolikhets-)fördelning

Thomas Önskog 28/

Transkript:

Examensprediktion med hjälp av Markovkedjor Karin Björk 27 januari 2013

Innehåll 1 Introduktion 1 1.1 Struktur.............................. 2 2 Tidigare studier 2 3 Data 3 4 Markovkedjor 4 4.1 Klassicering av kedjor och tillstånd.............. 5 4.2 Chapman-Kolmogorovs sats................... 6 4.3 Inferens.............................. 6 4.4 Goodness-of-t.......................... 6 5 Metod 7 6 Resultat 9 6.1 Simulering av 19932011..................... 9 6.1.1 Modell 1: Ingen uppdelning............... 10 6.1.2 Modell 2: Bologna.................... 12 6.1.3 Modell 3: Kön....................... 15 6.1.4 Modell 4: Program.................... 16 6.1.5 Modell 5: Bologna & Kön................ 18 6.1.6 Modell 6: Bologna & Program.............. 19 6.1.7 Modell 7: Kön & Program................ 20 6.1.8 Modell 8: Bologna, Kön & Program........... 21 6.2 Prediktion för kommande år................... 22 6.3 Jämförelse av övergångsmatriser................. 27 6.3.1 Gammal kontra ny.................... 28 6.3.2 Män kontra kvinnor................... 28 6.4 Utvärdering............................ 29 7 Diskussion 30 7.1 Vidare arbete........................... 30 A Matriser 33 A.1 Övergångsmatris, modell 1.................... 33 A.2 Äldre studenter.......................... 33 A.3 Nyare studenter.......................... 34 A.4 Manliga studenter........................ 34 A.5 Kvinnliga studenter........................ 34 2

B Tabeller 35 B.1 Pearsonstatistika, modell 6: Bologna & Program........ 35 B.2 Pearsonstatistika, modell 7: Kön & Program.......... 36 3

Sammanfattning Denna rapport utreder möjligheten att modellera en student vid LTH och dennes väg till examen med hjälp av teorin om Markovkedjor. Olika uppdelningar av populationen testas för att hitta bästa precision och samtidigt undvika bias. Lämpligheten i att använda dessa modeller för att prediktera antalet examina utfärdade av universitetet framöver undersöks också. Den enklaste modellen nns vara den mest lämpliga, om man ska kunna fullt utnyttja Markovmodellens fördelar. 1 Introduktion Det är av vikt för universiteten att veta hur många av deras studenter som kommer att ta examen varje år, eftersom både överproduktion och underproduktion av examinerade studenter skapar problem vid budegeterande. Lärosäten får ingen ersättning för de studenter som tar examen utöver vad de får bidrag för, och om för få examina produceras kan de bli återbetalningsskyldiga. Universiteten skulle därför vara hjälpta av att kunna förutspå detta för att kunna balansera sin budget över åren. Då bara cirka 10% av de studenter som tar examen från LTH gör det på utsatt tid (9 respektive 10 terminer för före och efter Bolognaprocessen) och variansen i tid till examen ligger på 8.33 terminer behövs en modell för att försöka ställa prognoser för hur många examina som kommer utfärdas på universitetet under kommande år. Målet med denna rapport är att försöka skapa en Markovmodell som representerar en lundateknologs väg genom sin utbildning, samt att sedan se om denna modell kan användas för att förutspå hur många examina universitetet kommer att kunna utfärda i framtiden.

1.1 Struktur Till att börja med kommer tidigare studier i ämnet gås igenom och sammanställas. Därefter presenteras den data vi i detta fall haft att jobba med. Teorin bakom Markovkedjor, och även de kontroller vi kommer att använda oss av presenteras och därpå beskrivs tillvägagångssättet för projektet. De potentiella modellerna listas i kapitel 5. Där redogörs även för den vidare uppdelning av tillstånden i datan som behövs för att kunna göra lämpliga modeller. Resultaten presenteras i kapitel 6 som en serie diagram med kommentarer. Här testas också hur väl modellerna stämmer med verkligheten. Ett försök att prediktera utkomsten av innevarande år görs, och de olika övergångsmatriserna studeras. Slutligen diskuteras resultaten av projektet och möjligt vidare arbete reekteras över. 2 Tidigare studier Problemet med att modellera LTH:s studenter har tidigare studerats av Panyangam och Xia, som i [8] använde sig av överlevnadsanalys för att beräkna sannolikheten att en student tar examen inom en viss tid, samt Coxregression för att studera vilka faktorer som har eekt på tiden till examen. En modell som fanns passa väl till data togs här fram och tydde på att följande faktorer har en signikant påverkan på förväntad tid till examen, fte: minskar fte minst 60 hp tas under första året, studenten är kvinna ökar fte programmet läggs ner, många uppehållsterminer, antagen från annat än gymnasiebetyg, hög ålder I gruppen kvinnliga studenter antagna från gymnasiet som tog minst 60 hp under sitt första år och hade högst två uppehållsterminer beräknades hälften ta examen inom 10 terminer. Detta överensstämmer med resultat från liknande studier utförda vid andra universitet, såsom [12] från Pennsylvania state, [13] från Ohio och [14] från New York. Redlinger och Gordon testade i [11] att använda Markovkedjor för att förutspå examen vid University of Texas. De använde då ekonometriska modeller för att förutspå mängden antagna studenter, innan man skapade en grov markovmodell med 6 tillstånd varav 1 absorberande (examen) som skulle beskriva vägen till en Bachelor's-examen. Studien fann att Markovmodellen gav resultat likvärdiga med de erhållna från säsongstrend-regression och Box-Jenkinsmodeller. Fördelarna för Markovmodellen i den här studien var att den krävde små urval av studenter för att byggas upp och att den läm- 2

pade sig för nare detaljnivå än de övriga. Nackdelarna var avsaknaden av goodness-of-t-test och att övergångssannolikheterna var tvungna att antas vara tidsinvarianta. 3 Data Vår data består av alla som registrerats som nya studenter på LTH, oavsett på vilken termin de registrerats, på något av programmen Bioteknik (B), Informations- och kommunikationsteknik (C), Datateknik (D), Elektroteknik (E), Teknisk fysik (F), Industriell ekonomi (I), Kemiteknik (K), Lantmäteri (L), Maskinteknik (M), Maskinteknik med Design (MD), Teknisk nanovetenskap (N), Teknisk matematik (Pi), Väg- och vattenbyggnad (V) eller Ekosystemteknik (W). Alla starter mellan 1993 och 2011 nns representerade och en individ följs till examen, avbrutna studier, eller vårterminen 2012 om ingen av de tidigare händelserna inträar innan dess. Varje ny termin ger en ny datapunkt, och varje datapunkt innehåller informationen: Program (BW) Löpnr (118434): individens löpnummer Kön (0 eller 1): dummyvariabel där 1 motsvarar kvinna och 0 man Kull (1993220112): namn på antagningstermin (de första fyra sirorna är året, sista siran indikerar 1: vt och 2: ht) Termin (1993220121): vilken termin datapunkten gäller Status: resultat av denna termin, se förklaring nedan Poäng ( 0): antal godkända hp i Ladok under aktuell termin Ptnr (138): antal terminer sedan antagningen Status: 1-10 Registrerad på termin 1:10-2 Studieuppehåll -3 Utbytesstudier -4 Inaktiv (ingen termins- eller kursregistrering nns) -5 Examen 3

-7 Anmält avbrott En person kan alltså nnas representerad som era individer, om denna avbrutit sina studier vid något program för att påbörja ett annat, eller av någon anledning valt att starta om på sitt eget program. Vi vill hitta en modell för hur studenter rör sig mellan dessa tillstånd. 4 Markovkedjor En Markovkedja är, enligt [1], en stokastisk process i diskret tid som lyder under det allmänna Markovvilkoret: Denition 1 Låt {X n } n=0 vara en tidsdiskret stokastisk process som antar icke-negativa heltalsvärden. Denna kallas en diskret Markovkedja om det för varje n 0 och i varje utfall i 0, i 1,..., i n+1 gäller P (X n+1 = i n+1 X n = i n, X n 1 = i n 1,..., X 0 = i 0 ) = P (X n+1 = i n+1 X n = i n ) Detta innebär att processens framtida utseende beror av nuet, men inte av den tidigare historien [2]. Processen kan därmed helt beskrivas av en övergångsmatris P, där varje element p ij representerar sannolikheten att gå till tillstånd j, förutsatt att nuvarande tillstånd är i. Detta värde kallas övergångssannolikheten. Av denitionen följer att för en övergångsmatris med n tillstånd gäller n i=1 p ij = 1. Markovkedjor används i statistisk modellering på grund av att de ger en enkel generalisering av processer samtidigt som de är lätta att skatta och att tolka. En Markovkedja med de tillstånd vi listat skulle exempelvis kunna illustreras som i diagrammet nedan, där pilarna representerar övergångar och ska förses med olika sannolikheter. Fler övergångar är möjliga än de som visas med pilar i diagrammet, denna bild är bara till för att ge en överskådlig blick av hela processen. 4

Figur 1: En skiss av en Markovkedja för LTH-studenter Det är dessa övergångssannolikheter vi vill skatta för att bygga vår modell. Markovvillkoret håller troligtvis inte i vårt fall, en individ är sällan helt frikopplad från sin personliga historia och tidigare akademiska fram- /motgångar har era gånger visats (bl a i [12], [13] och [14]) vara betydande för förväntningar på en students fortsatta studerande. Enkelheten i att bygga och tolka Markovmodeller gör dock att vi ändå vill försöka använda denna förenkling om vi kan få användbara resultat. Först några denitioner. 4.1 Klassicering av kedjor och tillstånd Denition 2 Låt {X n } n=0 vara en Markovkedja och låt i vara ett godtyckligt tillstånd. Om sannolikheten P (X n = i för något n > 0 X 0 = i) = 1, sägs tillstånd i vara beständigt, annars sägs det vara transient. Denition 3 För ett absorberande tillstånd k gäller p ii = 1, dvs. att när tillståndet väl har nåtts är det inte möjligt att gå till något annat tillstånd. Denition 4 Låt {X n } n=0 vara en Markovkedja med övergångsmatris P och låt i och j vara två tillstånd. Om det nns ett m > 0 sådant att p (m) ij > 0 sägs 5

i kommunicera ensidigt med j, vilket vi skriver i j. Om i j och j i sägs i och j kommunicera tvåsidigt med varandra, vilket vi skriver i j. Om i j för alla i och j i kedjans tillståndsrum sägs kedjan vara irreducibel. För att nna sannolikheten att röra sig från ett tillstånd till ett annat över en viss tid kan man använda sig av Chapman-Kolmogorovs sats. 4.2 Chapman-Kolmogorovs sats Sats 1 Låt P = {p ij } vara övergångsmatrisen för en tidshomogen Markovkedja. För varje m > 1 gäller då p (m) ij = k p(m 1) ik p kj, där k genomlöper Markovkedjans tillståndsrum, dvs antingen {0, 1,..., r} eller {0, 1, 2,... }. I matrisform kan detta skrivas P (m) = P (m 1) P = P m. 4.3 Inferens Denition 5 Sannolikheten p i (n) = P (X n = i) kallas den absoluta sannolikheten att Markovkedjan är i tillstånd i vid tiden n. Radvektorn p(n) är den vektor vars element med index i är p i (n). Speciellt kallas p(0) för initialvektorn eller initialfördelningen. Om n ij betecknar antalet övergångar från tillstånd i till j, härleds Maximum Likelihood-skattningen av p ij i [3] och ges av ˆp ij = n ij n i, där n i = j n ij. För en irreducibel Markovkedja med ändligt tillståndsrum är denna skattning konsistent. När vi har övergångsmatrisen P, används följande algoritm för simulering av Markovkedjan: 1. Drag X 0 från initialfördelningen p (0). Kalla resultatet x 0. 2. För k = 1, 2,..., n: Drag X k ur den betingade fördelningen ifrån X k givet X k 1 = x k 1. Fördelningen ges av rad nummer x k 1 i övergångsmatrisen. Kalla resultatet x k. 4.4 Goodness-of-t För att testa hur väl modellerna passar data kommer vi att anta en multinomialfördelning för studenternas olika tillstånd efter en viss tid. Denition 6 [4] Antag att ett försök kan utfalla på r olika sätt A 1,..., A r med respektive sannolikhet p 1,..., p r där p i = 1. Om n oberoende försök utförs och X i betecknar antalet gånger som A i inträar, gäller att den stokastiska variabeln (X 1,..., X r ) är multinomialfördelad med sannolikhetsfunktionen p X1,...,X r (k 1,..., k r ) = n! k 1! k r! pkr 1 pk r r 6

För jämförelse av olika modeller kommer Likelihood ratio-test (LR-test) att användas. Enligt [6] är LR-testet inte optimalt, men det är icke-optimalt i situationer där inget optimalt test existerar, och presterar vanligtvis tillräckligt väl. Följande sats är användbar för skattning av nolldistributionen, där Λ är dierensen mellan log-likelihood för nollmodellen och specialfallet: Sats 2 Under glatthetsvillkor för den inblandade täthetsfuntionen eller frekvensfunktionen, går nollfördelningen för 2 log Λ mot en χ 2 -fördelning med frihetsgrad df = dim (Ω) dim (ω 0 ) när urvalsstorleken går mot oändligheten, där Ω är parameterrummet för alternativmodellen och ω 0 är parameterrummet för nollhypotesen. För multinomialfördelning är Pearsons statistik, det vill säga X 2 = m i=1 ( ) 2 x i np i (ˆθ) np i (ˆθ) (observerad incidens förväntad incidens) 2, förväntad incidens och LR ekvivalenta under nollhypotesen. LR-test bygger på följande sats, från [9] Sats 3 Anta att M 0 med parameter θ (2) är undermodellen till M 1 med parameter θ 0 = (θ (1), θ (2) ) under begränsningen att den k-dimensionella delvektorn θ (1) = 0. Låt l 0 (M 0 ) och l 1 (M 1 ) vara de maximerade värdena av log-likelihoodfunktionerna för modell M 0 respektive M 1. Ett test av validiteten hos modell M 0 relativt M 1 på α signikansnivå är att förkasta M 0 till förmån för M 1 om D = 2{l 1 (M 1 ) l 0 (M 0 )} > c α, där c α är (1 α)-kvantilen för χ 2 k -fördelningen. Stora värden på D indikerar alltså att modell M 1 förklarar väsentligt mer av variationen i data än modell M 0. Valet av α är dock fortfarande subjektivt. 5 Metod Det nns era nästade modeller att välja ibland, då studenterna kan delas upp efter kön, program och kull, någon kombination av dessa kategorier, eller inte delas upp alls. På grund av att Bolognaprocessen 2007 innebar stora 7

förändringar för samtliga program på LTH, bland annat genom att lägga en termin och 30 hp till programmen och skriva om kursplaner, utbildningsplaner och examenskrav [5], har en grov kulluppdelning i före respektive efter Bologna gjorts. Val av modell är en avvägning; en noggrannare anpassning av övergångsmatrisen till sammansättningen av populationen kan göra modellen mer responsiv till förändringar och trender, men det gör även att urvalet som skattningarna byggs på för varje grupp är mindre och risken för bias ökar. Enligt [1] kan approximationen av övergångssannolikheterna med en normalfördelning anses vara god om n i p ij (1 p ij ) 10. (1) De nästade modeller som kommer undersökas här är följaktligen uppdelningarna: 1. Ingen uppdelning 2. Kull (2b. Finare kulluppdelning) 3. Kön 4. Program 5. Kull och kön 6. Kull och program 7. Kön och program 8. Samtliga kategorier För att anpassa vår modell bättre till data behöver vi införa er tillstånd. Enligt [8] gör det stor skillnad för resultaten hur många poäng studenten tagit under innevarande termin. Därför väljer vi att se en termin där få poäng tagits som ett annat tillstånd än en där er tagits. Som avgränsare väljer vi 22.5 hp, dvs 75% av heltidsstudier, på grund av att detta bland annat är kravet för att få fortsatt studiestöd. Vi har kallat dessa tillstånd för 0.5, 1.5, 2.5,... ; alltså den termin studenten är registrerad på minus 0.5. Vad gäller de olika formerna av tillfälliga avbrott är det uppenbart att ett avbrott som inträar efter termin 1 har mycket annorlunda övergångssannolikheter jämfört med ett avbrott efter termin 5, där exempelvis en övergång till tillstånd 3 vore omöjlig. Det leder till att dessa avbrott delas upp i underkategorier: -12, -22, -32,... Studieuppehåll efter termin 1, 2, 3,... -13, -23, -33,... Utbytestermin efter termin 1, 2, 3,... -14, -24, -34,... Inaktiv efter termin 1, 2, 3,... 8

Av samma anledning vill vi skilja på olika former av utbytesstudier, inte bara baserat på när i utbildningens gång de inträar, utan också på hur lång tid de varar. Utbytesstudier vid LTH är som regel antingen en termin eller ett läsår. Utbyten som varar mer än en termin döps därför om till -16, -26, -36,... De personer som varit registrerade på utbyte i mer än två terminer i streck är få (32 st) i urvalet, så detta tillstånd buntas ihop med utbytesår, som alltså innebär utbyte i >1 termin. 6 Resultat 6.1 Simulering av 19932011 Vid simulering används övergångsmatriserna på det antal individer i de olika kategorier som enligt Ladok började på respektive år. Eftersom intresset i denna undersökning främst ligger på att försöka förutspå hur många studenter som kommer ta examen varje år har här tagits som utkomst av simuleringen dels antalet avhopp, dels antalet examen. De faktiska sirorna illustreras i gur 2 1600 1400 Avhopp Examen 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 Figur 2: Antal studenter som lämnat LTH per termin Man kan ana en skillnad mellan vår- och hösttermin, i synnerhet vad gäller examen. Detta kan bekräftas genom konstruerandet av ett ensidigt kondensintervall för dierensen mellan vår och höst i samma läsår som, antaget t-fördelning, visar sig med kondensgrad 0.95 ligga över 45.6 utfärdade 9

examina och alltså är signikant skilt från noll. En liknande undersökning av avhoppen leder inte till någon sådan slutsats; ett tvåsidigt intervall med signikansgrad 0.95 för dessa hamnar på [-86.4, 236.3] avhoppade studenter. Att skillnaden är noll kan här alltså inte uteslutas. Den stora avvikelsen i mängden avhopp under vårterminen 2011 beror på en rensning gjord av universitetet vid denna tidpunkt, där studenter som varit inaktiva en längre tid togs bort. Säsongsberoendet för examen, samt det faktum att studenter anländer till skolan läsårsvis, gör att resultaten här också kommer att summeras läsårsvis (se gur 3). 1800 1600 Avhopp Examen 1400 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 3: Antal studenter som lämnat LTH per läsår 6.1.1 Modell 1: Ingen uppdelning Först ser vi hur väl vi kan efterlikna verligheten med vår modell. Enligt modell 1 simulerar vi det faktiska antal studenter som börjat varje år och hur det går för dessa, och använder samma övergångsmatris för samtliga studenter. Övergångsmatrisen är en 59 59-matris och tillstånden är ordnade i stigande storleksordning, med undantag för 7 och 5, som läggs i slutet eftersom de är absorberande tillstånd. Övergångsmatrisen för denna modell nns i appendix A. Ett problem som uppstår inför simuleringarna är att det bara nns en enda student i vårt urval som gått på utbyte efter sin första termin, och eftersom detta hände vt 2012 nns inga uppgifter om vad som hänt efter 10

detta. Det nns alltså ingen väg ifrån detta tillstånd i den övergångsmatris vi genererat. I denna rad kommer sannolikheten sättas som 1 att gå vidare till termin 3, eftersom utbyten som varar ett år tenderar att starta på höstterminen (förhållandet mellan utbytesår som startar ht:vt är 1599:226). Kravet för en säker kondensgrad, n i p ij (1 p ij ) 10, är i övergångsmatrisen för denna modell uppfyllt för 63.2% av de nollskilda elementen. Efter 1000 simuleringar med denna övergångsmatris (variansen ändras inte nämnvärt vid ökad mängd simuleringar efter detta) konstrueras ett 95% prediktionsintervall för hur många avhopp respektive examen som skulle förutspås av denna modell med de aktuella sirorna. Resultatet illustreras här, tillsammans med historiska data (se gur 4). 1800 1600 1400 intervall för avhopp intervall för examen avhopp examen 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 4: Skattning med modell 1 Datapunkter inom intervallet (avhopp + examen) 11 (2+9) Genomsnittlig varians, avhopp resp. examen 244.87 resp. 338.66 Medelfel 155.40 Medelkvadratfel 1.12 10 5 För att se hur väl den här modellen passar använder vi oss av bootstrap med återläggning. Vanligtvis skulle man använda medelabsorptionstid för en enkel kontroll när det gäller Markovkedjor, men eftersom vi vill skilja på de två absorberande tillstånden får vi vara lite noggrannare än så. Vi kan urskilja tre olika tillstånd som varje student benner sig i vid varje tidpunkt: 11

A: går kvar på LTH B: har hoppat av C: har tagit examen Eftersom medeltiden till examen i urvalet ligger på 11.98 terminer väljs som kontrolltid 6 år samt två år innan respektive efter detta. Vid antagande om multinomialfördelning är sannolikheten samma för varje student att benna sig i ett visst av dessa tre tillstånd efter viss tid. Denna sannolikhet beräknas med hjälp av Chapman-Kolmogorovs sats, och blir i det här fallet p A p B p C 4 år 0.8099 0.1858 0.0043 6 år 0.5111 0.2066 0.2823 8 år 0.5088 0.2246 0.3666 Studenternas vägar radas upp, 10 000 väljs slumpvis ut och vi kontrollerar hur många av dessa som benner sig i de olika grupperna efter att 4, 6 respektive 8 år har passerat. Vi får fram teststatistiken X. Enligt våra antaganden kommer denna från en χ 2 -fördelning. Den observerade incidensen i vårt bootstrap-urval är x A x B x C 4 år 8120 1841 39 6 år 5095 2039 2866 8 år 4087 2225 3688 Således får vi Pearsonstatistikan X4 2 = 57.34, X2 6 = 436.57 och X2 8 = 4.35 10 3. Detta jämförs med χ 2 -fördelningen med 2 frihetsgrader (3 tillstånd - 0 parametrar - 1) och α = 0.025 : χ 2.025(2) = 5.99. För god passform bör Pearsonstatistikan ligga under detta värde för χ 2. Modellen verkar alltså inte passa data väl enligt detta test. 6.1.2 Modell 2: Bologna Vi gör samma test, men nu med olika övergångsmatriser beroende på om studenten börjar före eller efter Bolognaprocessen. Samma anpassning för den student som gått på tidigt utbyte får göras här. Eftersom det är en ny student påverkar den bara övergångsmatrisen för post-bologna-studenterna. Det visar sig också att bland dessa studenter nns de som nått, men inte lämnat tillstånden 9.5, 10, -94, -93 och -92. För att kunna göra en simulering plockas därför övergångssannolikheterna från dessa tillstånd ifrån 12

matrisen för de äldre studenterna, vilket naturligtvis inför en osäkerhet i vår skattning. En likadan plot som i föregående test genereras. 1800 1600 1400 intervall för avhopp intervall för examen avhopp examen 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 5: Skattning med modell 2 Datapunkter inom intervallet (avhopp + examen) 11 (1+10) Genomsnittlig varians, avhopp resp. examen 260.78 resp. 323.71 Medelfel 151.82 Medelkvadratfel 9.85 10 4 Pearsonstatistika kontrolleras också och uppmäts till X4 2 X6 2 X8 2 Äldre studenter 44.8 377.2 100.2 Nyare studenter 65.7 2994.9 9841.5 Värdena jämförs med χ 2 0.025 (4) = 11.1 (6 1 1 variabel). De osedvanligt höga värdena för nyare studenter efter 6 respektive 8 år kommer sig av att de studenter som börjat 2007 eller senare hittills bara har läst 5 år, så dessa värden är inte jämförbara med skattningen. Pearsonstatistikan talar inte för denna modell. Modell 2b Speciella regler gäller för de studenter som antogs ht 2006. De ck ett program som inte var identiskt med varken tidigare eller senare årskullar, och hade möjlighet att själva välja om de ville ta ut en examen 13

på 270 hp eller en Bolognaexamen på 300 hp. Därför kan det vara intressant att se om kulluppdelningen ger bättre resultat om denna kull får en egen kategori. Inga övriga justeringar behöver göras jämfört med modell 2. 1800 1600 1400 1200 intervall för avhopp intervall för examen avhopp examen 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 6: Skattning med modell 2b Datapunkter inom intervallet (avhopp + examen) 11 (1+10) Genomsnittlig varians, avhopp resp. examen 259.30 resp. 330.17 Medelfel 151.68 Medelkvadratfel 9.83 10 4 Pearsonstatistik, att jämföra med samma χ 2 -värde som tidigare: X4 2 X6 2 X8 2 Äldre studenter 55.4 379.8 134.0 Kull 2006 8.7 1.7 198.2 Nyare studenter 66.1 3009.6 9857.4 I de esta fall överstiger Pearsonstatistikan det förväntade värdet från χ 2 -fördelningen; modellen passar alltså inte så bra till data. Vi noterar mycket liten skillnad mellan modell 2 och modell 2b, men kommer senare för utförlighetens skull även kontrollera skillnaden i likelihood ratio för de båda modellerna. 14

6.1.3 Modell 3: Kön Vi forsätter med att undersöka eekten av att ta hänsyn till studentens kön. En ny uppdelning görs alltså av studenterna varje år, där en binär variabel indikerar studentens kön, och två nya övergångsmatriser genereras enbart baserade på kön (gur 7). Utöver studenten med tidigt utbyte behöver inga övriga justeringar göras i matriserna. 1800 1600 1400 1200 intervall för avhopp intervall för examen avhopp examen 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 7: Skattning med modell 3 Datapunkter inom intervallet (avhopp + examen) 14 (2+12) Genomsnittlig varians, avhopp resp. examen 256.99 resp. 332.08 Medelfel 156.42 Medelkvadratfel 1.096 10 5 Bootstrap utförs igen och leder till Pearsonstatistikan: X4 2 X6 2 X8 2 Män 62.6 134.3 1022.5 Kvinnor 33.7 117.3 864.5 Denna jämförs med samma χ 2 -värde som för modell 2. Samtliga statistika överstiger detta värde. 15

6.1.4 Modell 4: Program Den sista parametern vi har att kontrollera är vilket program studenten går på. När vi tar hänsyn till enbart detta får vi följande resultat (gur 8). För att kunna simulera med hjälp av denna modell ck ett antal justeringar göras. Som innan för studenten med tidigt utbyte, men det visar sig också att det saknas underlag för att säga något om de högre tillstånden (termin 10 samt tillstånd -92 och -94) bland studenter på de nyare programmen; B, MD, I, Pi och N. De tillstånd där övergångsdata saknas i dessa fall får raderna ersättas med de från ett program som ligger nära det aktuella programmet. För att avgöra vilka andra program som liknar de nyare har jag valt att jämföra hur stor andel av de antagna studenterna som tagit examen efter en viss tid som mått på hur vägarna till examen liknar varandra. Resultatet illustreras i tabellen, där e 1 och e 2 är summan av avvikelserna för år 1:9 för det program som ligger närmst (P rog 1 ) respektive näst närmst (P rog 2 ): P rog 1 (e 1 ) P rog 2 (e 2 e 1 ) P rog 1 (e 2 1 ) P rog 2 (e 2 2 e2 1 ) B I (0.0392) W (0.0807) I (0.0004) W (0.0034) MD C (0.3137) Pi (0.0964) C (0.0240) Pi (0.0103) I B (0.0392) W (0.0551) B (0.0004) W (0.0018) N F (0.1364) M (0.0179) M (0.0066) F (0.0005) Pi D (0.0631) E (0.0886) D (0.0011) E (0.0052) Eftersom skillnaden mellan första och andra mest lika program för N enligt den ackumulerade kvadratavvikelsen är så liten (0.0005) kommer F att väljas som närmast approximation, och M i andra hand. I vår data går tillståndet att plocka från förstahandsvalet i alla fall utom vad gäller tillstånd -92 på program I. Detta tillstånd är tomt även på B, och hämtas därför istället från W. Datapunkter inom intervallet (avhopp + examen) 12 (2+10) Genomsnittlig varians, avhopp resp. examen 251.71 resp. 341.48 Medelfel 151.62 Medelkvadratfel 1.100 10 5 Här nns er kategorier och vår Pearsonstatistik jämförs med χ 2 0.025 (40) = 59.3. 16

1800 1600 1400 1200 intervall för avhopp intervall för examen avhopp examen 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 8: Skattning med modell 4 X4 2 X6 2 X8 2 B 5.6 95.5 379.3 C 6.1 38.7 158.1 D 9.6 22.2 207.1 E 4.7 31.6 60.4 F 11.5 39.5 131.5 MD 10.1 109.6 372.4 I 28.4 61.7 379.6 K 7.7 21.0 49.8 L 9.2 26.7 113.2 M 22.3 10.5 130.0 N 0.5 108.7 405.7 Pi 4.7 53.7 305.7 V 14.6 43.0 305.9 W 12.7 81.7 466.0 Med detta test kan inte modellen förkastas för beskrivning av fördelningen för de första 4 åren, och för ungefär hälften av programmen verkar den även med tillräcklig noggrannhet beskriva de första 6 åren. När vi nu testat alla modeller med en variabel, vill vi jämföra dem med varandra och se vad vi fått. Utöver testen som utförts på föregående modeller kan vi nu även jämföra dem med ett likelihood ratio-test. Vi kontrollerar 17

alltså loglikelihood för varje student att antingen ta examen eller hoppa av på den tid detta tagit, förutsatt fördelningen i våra modeller. För beräkning av dessa sannolikheter används Chapman-Kolmogorovs sats. LR för de olika modellerna jämfört med Modell 1 kan ses i tabellen nedan Modell LR 2 1435.3 2b 1393.6 3 2461.3 4 2861.4 Samtliga mer komplicerade modeller, och i synnerhet modell 3 och 4, förklarar klart mycket mer än modell 1 vad gäller variation i data. Vi ser också att modell 2b inte bidrar med en bättre förklaring än modell 2. Vi kommer därför inte att fortsätta använda denna noggrannare uppdelning av kullarna. Något som genomgående påverkar hur väl modellen passar data är den stora avvikelsen bland avhoppen för höstterminen 2011. Den beror på en utrensning av studenter som varit inaktiva en längre tid, gjord av universitetet denna termin 1, och är alltså något man hade kunnat ta med i beräkningarna då man visste att detta skulle ske. Detta har ingen synbar eekt på examen, som är av större intresse för universitetet, men det kan göra att modellen fungerar sämre för avhopp än för examen, och att en modell som ska passas till båda dessa utkomster kan vara mindre lämplig än en som enbart passas till examen. 6.1.5 Modell 5: Bologna & Kön Så är frågan om man kan få ännu bättre modeller genom att använda era av uppdelningarna på en gång. Först ska vi titta på uppdelning efter kön och kull. Vi använder den grövre kulluppdelningen och har alltså fyra olika övergångsmatriser. 1 Rensning gjord av utbildningsavdelningen vid LTH 18

1800 1600 1400 intervall för avhopp intervall för examen avhopp examen 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 9: Skattning med modell 5 Datapunkter inom intervallet (avhopp + examen) 10 (1+9) Genomsnittlig varians, avhopp resp. examen 259.008 resp. 336.47 Medelfel 204.22 Medelkvadratfel 5.50 10 3 Pearsonstatika för dessa grupper: X4 2 X6 2 X8 2 Äldre studenter, män 27.32 281.91 69.95 Äldre studenter, kvinnor 21.59 53.27 7.9254 Nyare studenter, män 92.19 2376.6 7782.1 Nyare studenter, kvinnor 13.79 862.6 2688.7 Som tidigare ser vi att X6 2 och X2 8 inte är användbara för nyare studenter. χ 2 -värdet vi vill använda här är χ 2 0.025 (9) = 19.023 (12 1 2 variabler), ett värde som endast matchas av den 4-åriga statistiken för en av grupperna. 6.1.6 Modell 6: Bologna & Program Även här använder vi oss av den grövre kulluppdelningen från modell 2: Bologna, vilket i kombination med programuppdelningen ger oss 28 matriser. 19

1800 1600 1400 intervall för avhopp intervall för examen avhopp examen 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 10: Skattning med modell 6 Datapunkter inom intervallet (avhopp + examen) 10 (2+8) Genomsnittlig varians, avhopp resp. examen 187.82 resp. 353.20 Medelfel 203.69 Medelkvadratfel 1.270 10 5 Pearsonstatistikan nns i appendix B. Modellen kan inte förkastas för de äldre studentgrupperna, och inte heller för de nyare gruppernas första 4 år. 6.1.7 Modell 7: Kön & Program I modell 7 har vi återigen 28 matriser, uppdelade efter kön samt program. 20

1800 1600 1400 intervall for avhopp intervall for examen avhopp examen 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 11: Skattning med modell 7 Datapunkter inom intervallet (avhopp + examen) 10 (2+8) Genomsnittlig varians, avhopp resp. examen 247.60 resp. 333.27 Medelfel 207.21 Medelkvadratfel 1.156 10 5 Pearsonstatistikan nns i appendix B. Modellen kan inte förkastas för 4 eller 6 år, och för 15 av de 28 grupperna kan den inte heller förkastas för 8 år. 6.1.8 Modell 8: Bologna, Kön & Program När alla uppdelningar vi har sätts samman får vi en modell innehållande 56 st övergångsmatriser. Den noggranna uppdelningen gör att några av grupperna blir mycket små; de minsta grupperna innehåller bara runt 30 individer och de esta ligger på 100200 individer. Bland de 8933 nollskilda elementen i matriserna uppfyller bara 21.43% villkoret för välbestämd kondensgrad. 21

1800 1600 1400 intervall för avhopp intervall för examen avhopp examen 1200 1000 800 600 400 200 0 1994 1996 1998 2000 2002 2004 2006 2008 2010 Figur 12: Skattning med modell 8 Datapunkter inom intervallet (avhopp + examen) 10 (1+9) Genomsnittlig varians, avhopp resp. examen 251.58 resp. 334.03 Medelfel 151.70 Medelkvadratfel 1.03 10 5 Övergångsmatriserna för denna modell kräver många justeringar: 110 av raderna är hämtade från andra matriser. Det betyder att det tar mycket lång tid att färdigställa simuleringen. Grupperna är också för små för att Pearsonstatistikan ska vara användbar i det här fallet. 6.2 Prediktion för kommande år Eftersom förhoppningen är att nna en metod att prediktera kommande års examina ska vi nu titta på hur det sett ut om man använt Markovmodellen för att skatta antal examen respektive avhopp 1 år framåt i tiden. I graferna nedan har för varje år en övergångsmatris skapats baserad på all data från 1993 fram till aktuellt år, och en prediktion för nästa år har gjorts baserat på 1000 simuleringar av denna. Prediktionerna startar med läsår 99/00, för att en matris med tillstånd ända fram till examen ska ha en chans att hinna byggas upp (dvs ptnr för de äldsta studenterna ska hinna gå upp till 12). Det smalare intervallet i graferna är för α = 0.05 och det bredare för α = 0.01. De faktiska utkomsterna är också inlagda i diagrammet som en jämförelse, och en prediktion för läsår 12/13 inkluderas, för att se vad man kan få ut av 22

modellen idag. Antal nyantagna studenter på varje program för ht 2012 har här hämtats ifrån uppgifter på LTH:s hemsida [10]. 1800 1600 1400 predikterat intervall för avhopp predikterat intervall för examen avhopp examen 1200 1000 800 600 400 200 0 1998 2000 2002 2004 2006 2008 2010 2012 Figur 13: 1 års prediktion för 19992012, modell 1 Korrekt predikterade examen med 95% signikans: 5 st. Korrekt predikterade examen med 99% signikans: 6 st. Korrekt predikterade avhopp med 95% signikans: 1 st. Korrekt predikterade avhopp med 99% signikans: 3 st. Än en gång är vi intresserade av eekten av att dela upp simuleringen i era grupper i förhoppning om bättre anpassning, så vi genererar även två könsmatriser för varje år och simulerar med hjälp av dessa. 23

1800 1600 1400 1200 predikterat intervall för avhopp predikterat intervall för examen avhopp examen 1000 800 600 400 200 0 1998 2000 2002 2004 2006 2008 2010 2012 Figur 14: 1 års prediktion för 19992012, modell 3 Korrekt predikterade examen med 95% signikans: 7 st. Korrekt predikterade examen med 99% signikans: 7 st. Korrekt predikterade avhopp med 95% signikans: 0 st. Korrekt predikterade avhopp med 99% signikans: 1 st. För modell 4 behöver många justeringar av övergångsmatriserna göras innan simuleringen går att genomföra, eftersom era av programmen inte funnits ända sedan 1993. När ett program är nytt kan de saknade tillstånden inte tas från ett program som ligger nära med avseende på studenternas beteende, eftersom detta inte är känt än. Därför har här istället använts ett medelvärde av de saknade radvektorerna från alla program där de existerar. De program som har ofullständiga matriser (matriser där det nns vägar in i något tillstånd som det saknas övergångssannolikheter ifrån) för något av de simulerade åren är: 24

Program Startår I 1998 W 1998 B 2001 C 2001 Pi 2002 N 2003 MD 2003 För de program som funnits minst 6 år vid början av 1999 används [7], en äldre studie där Coxregression använts för att testa skillnader i examination, för att se vilka program som ligger nära varandra i sammansättning och beräknad tid till examen. 1800 1600 1400 predikterat intervall för avhoppp predikterat intervall för examen avhopp examen 1200 1000 800 600 400 200 0 1998 2000 2002 2004 2006 2008 2010 2012 Figur 15: 1 års prediktion för 19992012, modell 4 Korrekt predikterade examen med 95% signikans: 4 st. Korrekt predikterade examen med 99% signikans: 5 st. Korrekt predikterade avhopp med 95% signikans: 2 st. Korrekt predikterade avhopp med 99% signikans: 3 st. Ingen av modellerna ger någon indikation på att precisionen skulle bli bättre efter hand. Mer välbestämda matriser tycks alltså inte ge säkrare resultat. Modell 2 nns ingen större poäng med att prova här, eftersom den över- 25

gångsmatris som skulle användas för de nyare studenterna inte är tillräckligt välbestämd för ett test förrän efter 2011. För att vara en användbar modell krävs att den åtminstone presterar bättre än en ren gissning på att saker fortsätter vara ungefär som de är. Vi jämför därför prediktioner för nästa år bara baserat på medelvärde och standardavvikelse för resultaten över de senaste åren. I guren nedan är α = 0.025. 2000 1500 1000 500 0 500 1998 2000 2002 2004 2006 2008 2010 2012 Figur 16: 1 års prediktion för 19992012, grundad på medelvärde och standardavvikelse Som synes i guren träar denna prediktion visserligen ofta rätt, men intervallen är så stora att de egentligen inte ger någon information. Om man istället testar att utgå ifrån att nästa års värden kommer från en normalfördelning med samma väntevärde som årets och gör en skattning av detta värde får man följande resultat (för de inre intervallen är α = 0.025 och för de yttre α = 0.005) 26

1800 1600 1400 avhopp examen intervall avhopp intervall examen 1200 1000 800 600 400 200 0 1998 2000 2002 2004 2006 2008 2010 2012 Figur 17: 1 års prediktion för 19992012, grundad på antagande om bibehållet väntevärde Korrekt predikterade examen med 95% signikans: 1 st. Korrekt predikterade examen med 99% signikans: 3 st. Korrekt predikterade avhopp med 95% signikans: 2 st. Korrekt predikterade avhopp med 99% signikans: 2 st. Denna enkla modell kunde bättre fånga upp avhoppen, men presterade sämre vad gäller examen som är vårt huvudsakliga intresse. Man kan också se att prediktionsintervallen är betydligt större än de som tagits fram med Markovmodellerna. 6.3 Jämförelse av övergångsmatriser En liten detaljstudie av de olika övergångsmatriserna kan också vara intressant. En grov jämförelse av hur bara övergångssannolikheterna mellan de olika terminerna skiljer sig mellan de olika grupperna kan ge en tydligare inblick i våra resultat och vår population. Vi väljer att titta främst på de absorberande tillstånden, samt de tillstånd som representerar terminer då studenten är aktivt studerande vid LTH. De delar av matriserna som omnämns står att nna i appendix A. 27

6.3.1 Gammal kontra ny En jämförelse av övergångsmatriserna för den äldre gruppen studenter, 'old', respektive den nyare, 'new', (före respektive från och med 2007) ger vid handen att övergångssannolikheterna från en termin till nästa i allmänhet är högre i 'new'. I synnerhet är övergångssannolikheten från en full termin (termin med 22.5 hp tagna) större i 'new' än i 'old' i samtliga fall. Noteras kan även att bland diagonalelementen, dvs sannolikheten att gå om samma termin igen, tillhör 15 av de största värdena 'old' och 3 'new'. Däremot är övergångssannolikheten från 11 av terminstillstånden till examen högre i 'old', medan den bara är högre i 'new' för tillstånd 8.5. För tillstånd 9.5 och 10 är de lika eftersom dessa tagits från 'old', och för resten av tillstånden är sannolikheten att gå vidare till examen i ett steg 0. Av de värden som omnämnts här uppfyller samtliga villkoret (1) för att ha en välbestämd kondensgrad. Hypotesen att övergångsmatriserna är lika, H 0 : P old = P new testas mot H 1 : P old P new, och vi ser att 'old'- diagonalelementen i samtliga 15 fall är signikant högre än 'new', medan det bara är ett av fallen där 'new' är signikant högre. Vidare kan vi se att 'new' är signikant högre vid terminsövergång för full termin gällande termin 2:7. För högre terminer kan H 0 ej förkastas. Vid 6 av de 11 övergångarna från någon termin till examen är 'old':s sannolikhet signikant högre. 6.3.2 Män kontra kvinnor Vad gäller övergångsmatriserna för gruppen kvinnliga studenter, 'women', respektive manliga, 'men', syns en viss övervikt i övergången från en full termin till nästa för kvinnor: 7 av övergångarna har högre sannolikhet i 'women' än i 'men'. Bland övergångarna från de olika terminstillstånden till examen är 9 av dessa högre i 'women', resp. 5 i 'men'. Den kanske tydligaste skillnaden mellan matriserna syns dock i diagonalen, dvs sannolikheten att stanna kvar i samma tillstånd även nästa termin, där 14 av övergångssannolikheterna är högre i 'men', jämfört med 6 i 'women'. Enligt samma hypotestestning som ovan ser vi att 8 av de diagonalelement där 'men' har högre värde än 'women' har en signikant skillnad. Detta gäller att stanna i tillstånd 1.5, 2.5, 3.5, 4.5, 5.5, 6.5 och 7.5, dvs bara ofullständiga terminer (termin med < 22.5 hp tagna). Vad gäller övergång till examen har 'women' signikant högre värde för 5 tillstånd, i övrigt hittas inga signikanta skillnader. 28

6.4 Utvärdering Den modell där est av datapunkterna innesluts i intervallet är modell 3, den enbart könsuppdelade. Detsamma gäller vid simuleringen i 6.2. Om man däremot tittar på hur stora felen är, när punkterna väl hamnar utanför intervallet, verkar modell 8, Bologna, Kön & Program, vara den bästa modellen. Vid användning av modell 8 för att beskriva föregående år ser man att den fulla uppdelningen av studentgrupperna inte gör att modellen passar mycket bättre, den är rent av mindre precis än era av de grövre modellerna. Detta kan bero på att så många anpassningar måste göras för att kunna genomföra simuleringarna. De grupper som är för små har alltså här skattats och liknats vid andra grupper så mycket att det inte verkar ha varit värt att separera dem över huvud taget. Med den tillgängliga datamängden verkar Markovmodellerna i kapitel 6.2 prediktera examina med största fel på ungefär 150 studenter för modell 1 och 100 för modell 3 och 4. Mängden avhopp hamnar sällan i intervallet, då variansen här varierar kraftigare. Jämfört med de enklare modellerna som testades är prediktionsintervallen betydligt snävare. Den sammanlagda meddelavvikelsen från det 95%:iga intervallet över åren 1999 till 2011 är lägre för Markovmodellen än för den enkla normalfördelningsmodellen. Intressant vore också att se hur väl prediktionen fungerar för en längre tidsperiod. Det har inte genomförts på grund av tidsbegränsningar. Jämförelsen i kapitel 6.3 stöder vad som antytts i tidigare studier om att kvinnliga studenter har en snabbare väg genom högskolan än manliga; de tenderar både att ta examen snabbare och att fortskrida från termin till termin i högre tempo. Den tyder också på att nyare studenter är snabbare på att ta sig framåt i utbildningen än de från tidigare årskullar. Här kan man dock även se att de äldre studenterna i allmänhet tycks ha en mindre rak väg mot examen; skeenden som att stanna kvar länge på exempelvis termin 5 för att sedan gå direkt till examen är vanligare i denna grupp. Detta kan bero på att system för terminsregistrering har ändrats över åren, från manuell till elektronisk hantering. Mängden felregistreringar och missade registreringar kan sålunda ha minskat med tiden. Skillnaden mellan prestationen från de olika modellerna är inte så stor. Därför, med tanke på att Markovmodellens största fördel är dess enkelhet, är Modell 1, utan uppdelning, den lämpligaste modellen av de testade. 29

7 Diskussion Syftet med denna rapport var att nna en Markovmodell för studenter vid Lunds Tekniska Högskola och undersöka huruvida denna kunde gå att använda för att prediktera hur många examina som kommer utfärdas av universitetet. Trots att Markovvillkoret troligtvis inte håller när det gäller människors skolgång skulle en sådan modell vara tilltalande på grund av dess lättillgänglighet både tolknings- och konstruktionsmässigt. Nackdelarna är desamma som fanns av Redlinger och Gordon i [11]; svårighet att nna ett bra goodness-of-t-test och att övergångssannolikheterna får antas vara tidsinvarianta. Som tillstånd i Markovkedjan väljs dels terminerna, dels olika typer av uppehåll emellan dessa. Utöver det nns 2 absorberande tillstånd: avhopp och examen. Vi ville se hur noggranna uppdelningar av populationen det var möjligt att göra utan att grupperna blev så små att bias uppstod. Goodness-of-t-testen utförda på modellerna pekar inte på att modellen passar data mycket väl. De efter hand uppdaterande prediktionerna i kapitel 6.2 visar inte heller på att modellen skulle bli mer precis eller korrekt efter hand, men detta skulle kunna bero på att det fortfarande är testat på en förhållandevis kort tidsserie. En Markovkedja visar sig vara användbar för att modellera detta system på ett sätt som ger resultat med en precision på ca ±150 studenter, vilket är en bättre prestation än enkla modeller som bygger på normalfördelning med bibehållet väntevärde. Att göra modellen mer komplicerad genom uppdelning av populationen i mindre grupper gav möjlighet att studera skillnader mellan dessa grupper med avseende på utseendet hos studenternas vägar genom sin utbildning, men gav däremot inte nämnvärt ökad precision i prediktionerna för antal framtida examina respektive avhopp. Genomgående är modelleringen av examina bättre än den för avhopp. En jämförelse av övergångsmatriserna visade på att kvinnor har en snabbare och rakare väg till examen. Detta stämmer med vad som funnits i bl a [8] och [7]. Den visar även på liknande skillnader mellan de studenter som påbörjat sina studier efter bolognaprocessen och de som börjat innan. 7.1 Vidare arbete Vid tiden för den här rapporten har de studenter som startat efter att Bolognaprocessen tagit eekt precis börjat ta examen, och en betydande ökning i utfärdande av 5-årig examen kan väntas under nuvarande läsår. En tydligare och mer korrekt bild av hur denna grupp agerar i modellen borde därför kunna fås när detta skett. 30

Det kunde vara intressant att jämföra resultaten med data från andra svenska tekniska högskolor. Om de är tillräckligt lika varandra skulle man kunna använda dessa data som stöd i de fall där grupper på LTH blir för små för att bygga fullständiga övergångsmatriser. Man skulle också kunna använda längre tidsserier för att se om det har någon eekt på precisionen i prediktionerna. För att göra avhoppen lättare att prediktera skulle det kanske hjälpa att lägga till ett tillstånd som representerar långt uppehåll", där studenter har en låg sannolikhet att komma tillbaka till att studera. 31

Referenser [1] T. Ryden & G.Lindgren. Markovprocesser. Lunds Universitet med Lunds Tekniska Högskola, 2000. [2] J. Enger & J. Grandell. Markovprocesser och köteori. Chalmers, 2007. [3] I.V. Basawa & B.L.S. Prakasa Rao. Statistical Inference for Stochastic Processes. Academic Press London, 1980. [4] G. Blom, et. al. Sannolikhetsteori och statistiktori med tillämpningar 5e upplagan. Studentlitteratur Lund, 2005. [5] P. Warfvinge. Efter Bologna... LTH-nytt 2006; 2:30-31. [6] A. Rice. Mathematical Statistics and Data Analysis 3e upplagan. Duxbury, 2007. [7] A. Lindgren. Säg mig hur de klarade först året och jag skall säga dig hur många som kommer att ta examen. Matematisk statistik, Matematikcentrum, LTH, 2004. [8] C. Panyangam & K. Xia Prediction of Degrees using Survival Analysis. Master's Theses in Mathematical Sciences, Lund, 2012:E26. [9] S. Coles. An Introduction to Statistical Modeling of Extreme Values. Springer, 2001. [10] Lunds Tekniska Högskola: Antagningsstatistik. www.lth.se/ utbildning/antagning_och_behoerighet/antagningsstatistik Hämtad 20/11 2012. Senast uppdaterad 18/9 2012. [11] L. J. Redlinger & S. L. Gordon A comparison of Time Horizon Models to Forecast Enrollment. University of Texas, Dallas, 2004. [12] M. Lafer et. al. Factors aecting Time to Baccalaureate Degree at Pennsylvania Colleges and Universities. Pennsylvania Higher Education Assistance Agency, 2001. [13] W. E. Knight Time to Bachelor's Degree Attainment: An Application of Descriptive, Bivariate, and Multiple Regression Techniques. IR Applications vol. 2, 2004. [14] L. Zhu Exploring the Determinants of Time-to-Degree in public 4-year colleges. Annual Forum of the Association for Institutional Research, 2004. 32

A Matriser A.1 Övergångsmatris, modell 1 Antal övergångar mellan intressanta tillstånd för alla studenter vid LTH 1993 till 2011. Angivna i absolut form för att tydligare visa hur många övergångar skattningen bygger på. Övergångssannolikheterna fås när varje rad divideras med summan för densamma, förutom för de absorberande tillstånden där övergångssannolikheten är 0 till alla andra tillstånd och 1 till sig själv. 0 0.5 1 1.5 2 2.5 3 9 9.5 10-7 -5 totalt 0 0 9466 8381 13 1 18 2 0 0 0 519 0 18434 0.5 0 29 8 3589 4549 4 0 0 0 0 526 0 9599 1 0 5 14 1097 6943 9 11 0 0 0 229 0 8413 1.5 0 0 0 527 79 2064 887 0 0 0 220 0 5219 2 0 0 0 41 29 2969 7192 0 0 0 259 0 10899 2.5 0 0 0 0 0 933 170 0 0 0 133 1 6394 3 0 0 0 0 0 89 64 0 0 0 35 0 8450................. 9 0 0 0 0 0 0 0 281 96 135 0 1910 3809 9.5 0 0 0 0 0 0 0 0 5 5 0 10 32 10 0 0 0 0 0 0 0 0 10 4 0 35 75-7 0 0 0 0 0 0 0 0 0 0 5584 0 5584-5 0 0 0 0 0 0 0 0 0 0 0 7224 7224 A.2 Äldre studenter Tillstånd 1:10 (fulla terminer) samt -7 och -5 för de övergångsmatriser som omnämns i kapitel 6.3. 0 0.82 0 0 0 0 0 0 0 0 0.023 0 0 0.0034 0.62 0.00013 0 0 0 0 0 0 0.024 0 0 0 0.0074 0.82 0.0029 0 0 0 0 0 0.0038 0 0 0 0 0.013 0.68 0.0011 0 0 0 0 0.0063 0 0 0 0 0 0.036 0.78 0.004 0 0 0 0.00092 0.00046 0 0 0 0 0 0.07 0.48 0.0042 0.00013 0 0.0014 0.0051 0 0 0 0 0 0 0.11 0.54 0.0022 0 0.00052 0.027 0 0 0 0 0 0 0 0.033 0.18 0.00019 0.00039 0.17 0 0 0 0 0 0 0 0 0.077 0.012 0 0.52 0 0 0 0 0 0 0 0 0 0.042 0 0.47 0 0 0 0 0 0 0 0 0 0 1.0 0 0 0 0 0 0 0 0 0 0 0 0 1.0 33

A.3 Nyare studenter 0.0043 0.84 0.0034 0 0 0 0 0 0 0 0.029 0 0 0.00069 0.74 0.00069 0 0 0 0 0 0 0.023 0 0 0 0.0083 0.89 0.011 0 0 0 0 0 0.0029 0 0 0 0 0.0025 0.75 0.002 0 0 0 0 0.0044 0 0 0 0 0 0.01 0.89 0.015 0 0 0 0.0017 0 0 0 0 0 0 0.026 0.6 0.004 0 0 0.00079 0.00079 0 0 0 0 0 0 0.035 0.79 0.011 0 0 0.0031 0 0 0 0 0 0 0 0.0024 0.67 0 0 0.034 0 0 0 0 0 0 0 0 0.037 0.31 0 0.27 0 0 0 0 0 0 0 0 0 0.042 0 0.47 0 0 0 0 0 0 0 0 0 0 1.0 0 0 0 0 0 0 0 0 0 0 0 0 1.0 A.4 Manliga studenter 0.0015 0.82 0.0013 0 0 0 0 0 0 0 0.028 0 0 0.0027 0.65 0.00039 0 0 0 0 0 0 0.022 0 0 0 0.0078 0.84 0.0055 0 0 0 0 0 0.0041 0 0 0 0 0.012 0.69 0.0013 0 0 0 0 0.0059 0 0 0 0 0 0.036 0.8 0.0068 0 0 0 0.00095 0.00032 0 0 0 0 0 0.066 0.5 0.0044 0.00014 0 0.0014 0.0042 0 0 0 0 0 0 0.094 0.58 0.0025 0 0.00019 0.023 0 0 0 0 0 0 0 0.028 0.22 0 0.00068 0.16 0 0 0 0 0 0 0 0 0.071 0.034 0 0.48 0 0 0 0 0 0 0 0 0 0.037 0 0.52 0 0 0 0 0 0 0 0 0 0 1.0 0 0 0 0 0 0 0 0 0 0 0 0 1.0 A.5 Kvinnliga studenter 0.0021 0.85 0.0012 0.00041 0 0 0 0 0 0 0.025 0 0 0.0026 0.67 0.00032 0 0 0 0 0 0 0.029 0 0 0 0.0071 0.86 0.0054 0 0 0 0 0 0.0042 0 0 0 0 0.0098 0.72 0.0022 0 0 0 0 0.0073 0 0 0 0 0 0.023 0.81 0.0089 0 0 0 0.0012 0.00041 0 0 0 0 0 0.056 0.5 0.0036 0 0 0.0012 0.0044 0 0 0 0 0 0 0.1 0.57 0.0081 0 0.001 0.024 0 0 0 0 0 0 0 0.034 0.24 0.00064 0.0013 0.15 0 0 0 0 0 0 0 0 0.082 0.039 0 0.55 0 0 0 0 0 0 0 0 0 0.095 0 0.33 0 0 0 0 0 0 0 0 0 0 1.0 0 0 0 0 0 0 0 0 0 0 0 0 1.0 34