Examensprediktion med hjälp av Markovkedjor. Karin Björk

Storlek: px
Starta visningen från sidan:

Download "Examensprediktion med hjälp av Markovkedjor. Karin Björk"

Transkript

1 Examensprediktion med hjälp av Markovkedjor Karin Björk 27 januari 2013

2

3 Innehåll 1 Introduktion Struktur Tidigare studier 2 3 Data 3 4 Markovkedjor Klassicering av kedjor och tillstånd Chapman-Kolmogorovs sats Inferens Goodness-of-t Metod 7 6 Resultat Simulering av Modell 1: Ingen uppdelning Modell 2: Bologna Modell 3: Kön Modell 4: Program Modell 5: Bologna & Kön Modell 6: Bologna & Program Modell 7: Kön & Program Modell 8: Bologna, Kön & Program Prediktion för kommande år Jämförelse av övergångsmatriser Gammal kontra ny Män kontra kvinnor Utvärdering Diskussion Vidare arbete A Matriser 33 A.1 Övergångsmatris, modell A.2 Äldre studenter A.3 Nyare studenter A.4 Manliga studenter A.5 Kvinnliga studenter

4 B Tabeller 35 B.1 Pearsonstatistika, modell 6: Bologna & Program B.2 Pearsonstatistika, modell 7: Kön & Program

5 Sammanfattning Denna rapport utreder möjligheten att modellera en student vid LTH och dennes väg till examen med hjälp av teorin om Markovkedjor. Olika uppdelningar av populationen testas för att hitta bästa precision och samtidigt undvika bias. Lämpligheten i att använda dessa modeller för att prediktera antalet examina utfärdade av universitetet framöver undersöks också. Den enklaste modellen nns vara den mest lämpliga, om man ska kunna fullt utnyttja Markovmodellens fördelar. 1 Introduktion Det är av vikt för universiteten att veta hur många av deras studenter som kommer att ta examen varje år, eftersom både överproduktion och underproduktion av examinerade studenter skapar problem vid budegeterande. Lärosäten får ingen ersättning för de studenter som tar examen utöver vad de får bidrag för, och om för få examina produceras kan de bli återbetalningsskyldiga. Universiteten skulle därför vara hjälpta av att kunna förutspå detta för att kunna balansera sin budget över åren. Då bara cirka 10% av de studenter som tar examen från LTH gör det på utsatt tid (9 respektive 10 terminer för före och efter Bolognaprocessen) och variansen i tid till examen ligger på 8.33 terminer behövs en modell för att försöka ställa prognoser för hur många examina som kommer utfärdas på universitetet under kommande år. Målet med denna rapport är att försöka skapa en Markovmodell som representerar en lundateknologs väg genom sin utbildning, samt att sedan se om denna modell kan användas för att förutspå hur många examina universitetet kommer att kunna utfärda i framtiden.

6 1.1 Struktur Till att börja med kommer tidigare studier i ämnet gås igenom och sammanställas. Därefter presenteras den data vi i detta fall haft att jobba med. Teorin bakom Markovkedjor, och även de kontroller vi kommer att använda oss av presenteras och därpå beskrivs tillvägagångssättet för projektet. De potentiella modellerna listas i kapitel 5. Där redogörs även för den vidare uppdelning av tillstånden i datan som behövs för att kunna göra lämpliga modeller. Resultaten presenteras i kapitel 6 som en serie diagram med kommentarer. Här testas också hur väl modellerna stämmer med verkligheten. Ett försök att prediktera utkomsten av innevarande år görs, och de olika övergångsmatriserna studeras. Slutligen diskuteras resultaten av projektet och möjligt vidare arbete reekteras över. 2 Tidigare studier Problemet med att modellera LTH:s studenter har tidigare studerats av Panyangam och Xia, som i [8] använde sig av överlevnadsanalys för att beräkna sannolikheten att en student tar examen inom en viss tid, samt Coxregression för att studera vilka faktorer som har eekt på tiden till examen. En modell som fanns passa väl till data togs här fram och tydde på att följande faktorer har en signikant påverkan på förväntad tid till examen, fte: minskar fte minst 60 hp tas under första året, studenten är kvinna ökar fte programmet läggs ner, många uppehållsterminer, antagen från annat än gymnasiebetyg, hög ålder I gruppen kvinnliga studenter antagna från gymnasiet som tog minst 60 hp under sitt första år och hade högst två uppehållsterminer beräknades hälften ta examen inom 10 terminer. Detta överensstämmer med resultat från liknande studier utförda vid andra universitet, såsom [12] från Pennsylvania state, [13] från Ohio och [14] från New York. Redlinger och Gordon testade i [11] att använda Markovkedjor för att förutspå examen vid University of Texas. De använde då ekonometriska modeller för att förutspå mängden antagna studenter, innan man skapade en grov markovmodell med 6 tillstånd varav 1 absorberande (examen) som skulle beskriva vägen till en Bachelor's-examen. Studien fann att Markovmodellen gav resultat likvärdiga med de erhållna från säsongstrend-regression och Box-Jenkinsmodeller. Fördelarna för Markovmodellen i den här studien var att den krävde små urval av studenter för att byggas upp och att den läm- 2

7 pade sig för nare detaljnivå än de övriga. Nackdelarna var avsaknaden av goodness-of-t-test och att övergångssannolikheterna var tvungna att antas vara tidsinvarianta. 3 Data Vår data består av alla som registrerats som nya studenter på LTH, oavsett på vilken termin de registrerats, på något av programmen Bioteknik (B), Informations- och kommunikationsteknik (C), Datateknik (D), Elektroteknik (E), Teknisk fysik (F), Industriell ekonomi (I), Kemiteknik (K), Lantmäteri (L), Maskinteknik (M), Maskinteknik med Design (MD), Teknisk nanovetenskap (N), Teknisk matematik (Pi), Väg- och vattenbyggnad (V) eller Ekosystemteknik (W). Alla starter mellan 1993 och 2011 nns representerade och en individ följs till examen, avbrutna studier, eller vårterminen 2012 om ingen av de tidigare händelserna inträar innan dess. Varje ny termin ger en ny datapunkt, och varje datapunkt innehåller informationen: Program (BW) Löpnr (118434): individens löpnummer Kön (0 eller 1): dummyvariabel där 1 motsvarar kvinna och 0 man Kull ( ): namn på antagningstermin (de första fyra sirorna är året, sista siran indikerar 1: vt och 2: ht) Termin ( ): vilken termin datapunkten gäller Status: resultat av denna termin, se förklaring nedan Poäng ( 0): antal godkända hp i Ladok under aktuell termin Ptnr (138): antal terminer sedan antagningen Status: 1-10 Registrerad på termin 1:10-2 Studieuppehåll -3 Utbytesstudier -4 Inaktiv (ingen termins- eller kursregistrering nns) -5 Examen 3

8 -7 Anmält avbrott En person kan alltså nnas representerad som era individer, om denna avbrutit sina studier vid något program för att påbörja ett annat, eller av någon anledning valt att starta om på sitt eget program. Vi vill hitta en modell för hur studenter rör sig mellan dessa tillstånd. 4 Markovkedjor En Markovkedja är, enligt [1], en stokastisk process i diskret tid som lyder under det allmänna Markovvilkoret: Denition 1 Låt {X n } n=0 vara en tidsdiskret stokastisk process som antar icke-negativa heltalsvärden. Denna kallas en diskret Markovkedja om det för varje n 0 och i varje utfall i 0, i 1,..., i n+1 gäller P (X n+1 = i n+1 X n = i n, X n 1 = i n 1,..., X 0 = i 0 ) = P (X n+1 = i n+1 X n = i n ) Detta innebär att processens framtida utseende beror av nuet, men inte av den tidigare historien [2]. Processen kan därmed helt beskrivas av en övergångsmatris P, där varje element p ij representerar sannolikheten att gå till tillstånd j, förutsatt att nuvarande tillstånd är i. Detta värde kallas övergångssannolikheten. Av denitionen följer att för en övergångsmatris med n tillstånd gäller n i=1 p ij = 1. Markovkedjor används i statistisk modellering på grund av att de ger en enkel generalisering av processer samtidigt som de är lätta att skatta och att tolka. En Markovkedja med de tillstånd vi listat skulle exempelvis kunna illustreras som i diagrammet nedan, där pilarna representerar övergångar och ska förses med olika sannolikheter. Fler övergångar är möjliga än de som visas med pilar i diagrammet, denna bild är bara till för att ge en överskådlig blick av hela processen. 4

9 Figur 1: En skiss av en Markovkedja för LTH-studenter Det är dessa övergångssannolikheter vi vill skatta för att bygga vår modell. Markovvillkoret håller troligtvis inte i vårt fall, en individ är sällan helt frikopplad från sin personliga historia och tidigare akademiska fram- /motgångar har era gånger visats (bl a i [12], [13] och [14]) vara betydande för förväntningar på en students fortsatta studerande. Enkelheten i att bygga och tolka Markovmodeller gör dock att vi ändå vill försöka använda denna förenkling om vi kan få användbara resultat. Först några denitioner. 4.1 Klassicering av kedjor och tillstånd Denition 2 Låt {X n } n=0 vara en Markovkedja och låt i vara ett godtyckligt tillstånd. Om sannolikheten P (X n = i för något n > 0 X 0 = i) = 1, sägs tillstånd i vara beständigt, annars sägs det vara transient. Denition 3 För ett absorberande tillstånd k gäller p ii = 1, dvs. att när tillståndet väl har nåtts är det inte möjligt att gå till något annat tillstånd. Denition 4 Låt {X n } n=0 vara en Markovkedja med övergångsmatris P och låt i och j vara två tillstånd. Om det nns ett m > 0 sådant att p (m) ij > 0 sägs 5

10 i kommunicera ensidigt med j, vilket vi skriver i j. Om i j och j i sägs i och j kommunicera tvåsidigt med varandra, vilket vi skriver i j. Om i j för alla i och j i kedjans tillståndsrum sägs kedjan vara irreducibel. För att nna sannolikheten att röra sig från ett tillstånd till ett annat över en viss tid kan man använda sig av Chapman-Kolmogorovs sats. 4.2 Chapman-Kolmogorovs sats Sats 1 Låt P = {p ij } vara övergångsmatrisen för en tidshomogen Markovkedja. För varje m > 1 gäller då p (m) ij = k p(m 1) ik p kj, där k genomlöper Markovkedjans tillståndsrum, dvs antingen {0, 1,..., r} eller {0, 1, 2,... }. I matrisform kan detta skrivas P (m) = P (m 1) P = P m. 4.3 Inferens Denition 5 Sannolikheten p i (n) = P (X n = i) kallas den absoluta sannolikheten att Markovkedjan är i tillstånd i vid tiden n. Radvektorn p(n) är den vektor vars element med index i är p i (n). Speciellt kallas p(0) för initialvektorn eller initialfördelningen. Om n ij betecknar antalet övergångar från tillstånd i till j, härleds Maximum Likelihood-skattningen av p ij i [3] och ges av ˆp ij = n ij n i, där n i = j n ij. För en irreducibel Markovkedja med ändligt tillståndsrum är denna skattning konsistent. När vi har övergångsmatrisen P, används följande algoritm för simulering av Markovkedjan: 1. Drag X 0 från initialfördelningen p (0). Kalla resultatet x För k = 1, 2,..., n: Drag X k ur den betingade fördelningen ifrån X k givet X k 1 = x k 1. Fördelningen ges av rad nummer x k 1 i övergångsmatrisen. Kalla resultatet x k. 4.4 Goodness-of-t För att testa hur väl modellerna passar data kommer vi att anta en multinomialfördelning för studenternas olika tillstånd efter en viss tid. Denition 6 [4] Antag att ett försök kan utfalla på r olika sätt A 1,..., A r med respektive sannolikhet p 1,..., p r där p i = 1. Om n oberoende försök utförs och X i betecknar antalet gånger som A i inträar, gäller att den stokastiska variabeln (X 1,..., X r ) är multinomialfördelad med sannolikhetsfunktionen p X1,...,X r (k 1,..., k r ) = n! k 1! k r! pkr 1 pk r r 6

11 För jämförelse av olika modeller kommer Likelihood ratio-test (LR-test) att användas. Enligt [6] är LR-testet inte optimalt, men det är icke-optimalt i situationer där inget optimalt test existerar, och presterar vanligtvis tillräckligt väl. Följande sats är användbar för skattning av nolldistributionen, där Λ är dierensen mellan log-likelihood för nollmodellen och specialfallet: Sats 2 Under glatthetsvillkor för den inblandade täthetsfuntionen eller frekvensfunktionen, går nollfördelningen för 2 log Λ mot en χ 2 -fördelning med frihetsgrad df = dim (Ω) dim (ω 0 ) när urvalsstorleken går mot oändligheten, där Ω är parameterrummet för alternativmodellen och ω 0 är parameterrummet för nollhypotesen. För multinomialfördelning är Pearsons statistik, det vill säga X 2 = m i=1 ( ) 2 x i np i (ˆθ) np i (ˆθ) (observerad incidens förväntad incidens) 2, förväntad incidens och LR ekvivalenta under nollhypotesen. LR-test bygger på följande sats, från [9] Sats 3 Anta att M 0 med parameter θ (2) är undermodellen till M 1 med parameter θ 0 = (θ (1), θ (2) ) under begränsningen att den k-dimensionella delvektorn θ (1) = 0. Låt l 0 (M 0 ) och l 1 (M 1 ) vara de maximerade värdena av log-likelihoodfunktionerna för modell M 0 respektive M 1. Ett test av validiteten hos modell M 0 relativt M 1 på α signikansnivå är att förkasta M 0 till förmån för M 1 om D = 2{l 1 (M 1 ) l 0 (M 0 )} > c α, där c α är (1 α)-kvantilen för χ 2 k -fördelningen. Stora värden på D indikerar alltså att modell M 1 förklarar väsentligt mer av variationen i data än modell M 0. Valet av α är dock fortfarande subjektivt. 5 Metod Det nns era nästade modeller att välja ibland, då studenterna kan delas upp efter kön, program och kull, någon kombination av dessa kategorier, eller inte delas upp alls. På grund av att Bolognaprocessen 2007 innebar stora 7

12 förändringar för samtliga program på LTH, bland annat genom att lägga en termin och 30 hp till programmen och skriva om kursplaner, utbildningsplaner och examenskrav [5], har en grov kulluppdelning i före respektive efter Bologna gjorts. Val av modell är en avvägning; en noggrannare anpassning av övergångsmatrisen till sammansättningen av populationen kan göra modellen mer responsiv till förändringar och trender, men det gör även att urvalet som skattningarna byggs på för varje grupp är mindre och risken för bias ökar. Enligt [1] kan approximationen av övergångssannolikheterna med en normalfördelning anses vara god om n i p ij (1 p ij ) 10. (1) De nästade modeller som kommer undersökas här är följaktligen uppdelningarna: 1. Ingen uppdelning 2. Kull (2b. Finare kulluppdelning) 3. Kön 4. Program 5. Kull och kön 6. Kull och program 7. Kön och program 8. Samtliga kategorier För att anpassa vår modell bättre till data behöver vi införa er tillstånd. Enligt [8] gör det stor skillnad för resultaten hur många poäng studenten tagit under innevarande termin. Därför väljer vi att se en termin där få poäng tagits som ett annat tillstånd än en där er tagits. Som avgränsare väljer vi 22.5 hp, dvs 75% av heltidsstudier, på grund av att detta bland annat är kravet för att få fortsatt studiestöd. Vi har kallat dessa tillstånd för 0.5, 1.5, 2.5,... ; alltså den termin studenten är registrerad på minus 0.5. Vad gäller de olika formerna av tillfälliga avbrott är det uppenbart att ett avbrott som inträar efter termin 1 har mycket annorlunda övergångssannolikheter jämfört med ett avbrott efter termin 5, där exempelvis en övergång till tillstånd 3 vore omöjlig. Det leder till att dessa avbrott delas upp i underkategorier: -12, -22, -32,... Studieuppehåll efter termin 1, 2, 3, , -23, -33,... Utbytestermin efter termin 1, 2, 3, , -24, -34,... Inaktiv efter termin 1, 2, 3,... 8

13 Av samma anledning vill vi skilja på olika former av utbytesstudier, inte bara baserat på när i utbildningens gång de inträar, utan också på hur lång tid de varar. Utbytesstudier vid LTH är som regel antingen en termin eller ett läsår. Utbyten som varar mer än en termin döps därför om till -16, -26, -36,... De personer som varit registrerade på utbyte i mer än två terminer i streck är få (32 st) i urvalet, så detta tillstånd buntas ihop med utbytesår, som alltså innebär utbyte i >1 termin. 6 Resultat 6.1 Simulering av Vid simulering används övergångsmatriserna på det antal individer i de olika kategorier som enligt Ladok började på respektive år. Eftersom intresset i denna undersökning främst ligger på att försöka förutspå hur många studenter som kommer ta examen varje år har här tagits som utkomst av simuleringen dels antalet avhopp, dels antalet examen. De faktiska sirorna illustreras i gur Avhopp Examen Figur 2: Antal studenter som lämnat LTH per termin Man kan ana en skillnad mellan vår- och hösttermin, i synnerhet vad gäller examen. Detta kan bekräftas genom konstruerandet av ett ensidigt kondensintervall för dierensen mellan vår och höst i samma läsår som, antaget t-fördelning, visar sig med kondensgrad 0.95 ligga över 45.6 utfärdade 9

14 examina och alltså är signikant skilt från noll. En liknande undersökning av avhoppen leder inte till någon sådan slutsats; ett tvåsidigt intervall med signikansgrad 0.95 för dessa hamnar på [-86.4, 236.3] avhoppade studenter. Att skillnaden är noll kan här alltså inte uteslutas. Den stora avvikelsen i mängden avhopp under vårterminen 2011 beror på en rensning gjord av universitetet vid denna tidpunkt, där studenter som varit inaktiva en längre tid togs bort. Säsongsberoendet för examen, samt det faktum att studenter anländer till skolan läsårsvis, gör att resultaten här också kommer att summeras läsårsvis (se gur 3) Avhopp Examen Figur 3: Antal studenter som lämnat LTH per läsår Modell 1: Ingen uppdelning Först ser vi hur väl vi kan efterlikna verligheten med vår modell. Enligt modell 1 simulerar vi det faktiska antal studenter som börjat varje år och hur det går för dessa, och använder samma övergångsmatris för samtliga studenter. Övergångsmatrisen är en matris och tillstånden är ordnade i stigande storleksordning, med undantag för 7 och 5, som läggs i slutet eftersom de är absorberande tillstånd. Övergångsmatrisen för denna modell nns i appendix A. Ett problem som uppstår inför simuleringarna är att det bara nns en enda student i vårt urval som gått på utbyte efter sin första termin, och eftersom detta hände vt 2012 nns inga uppgifter om vad som hänt efter 10

15 detta. Det nns alltså ingen väg ifrån detta tillstånd i den övergångsmatris vi genererat. I denna rad kommer sannolikheten sättas som 1 att gå vidare till termin 3, eftersom utbyten som varar ett år tenderar att starta på höstterminen (förhållandet mellan utbytesår som startar ht:vt är 1599:226). Kravet för en säker kondensgrad, n i p ij (1 p ij ) 10, är i övergångsmatrisen för denna modell uppfyllt för 63.2% av de nollskilda elementen. Efter 1000 simuleringar med denna övergångsmatris (variansen ändras inte nämnvärt vid ökad mängd simuleringar efter detta) konstrueras ett 95% prediktionsintervall för hur många avhopp respektive examen som skulle förutspås av denna modell med de aktuella sirorna. Resultatet illustreras här, tillsammans med historiska data (se gur 4) intervall för avhopp intervall för examen avhopp examen Figur 4: Skattning med modell 1 Datapunkter inom intervallet (avhopp + examen) 11 (2+9) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel För att se hur väl den här modellen passar använder vi oss av bootstrap med återläggning. Vanligtvis skulle man använda medelabsorptionstid för en enkel kontroll när det gäller Markovkedjor, men eftersom vi vill skilja på de två absorberande tillstånden får vi vara lite noggrannare än så. Vi kan urskilja tre olika tillstånd som varje student benner sig i vid varje tidpunkt: 11

16 A: går kvar på LTH B: har hoppat av C: har tagit examen Eftersom medeltiden till examen i urvalet ligger på terminer väljs som kontrolltid 6 år samt två år innan respektive efter detta. Vid antagande om multinomialfördelning är sannolikheten samma för varje student att benna sig i ett visst av dessa tre tillstånd efter viss tid. Denna sannolikhet beräknas med hjälp av Chapman-Kolmogorovs sats, och blir i det här fallet p A p B p C 4 år år år Studenternas vägar radas upp, väljs slumpvis ut och vi kontrollerar hur många av dessa som benner sig i de olika grupperna efter att 4, 6 respektive 8 år har passerat. Vi får fram teststatistiken X. Enligt våra antaganden kommer denna från en χ 2 -fördelning. Den observerade incidensen i vårt bootstrap-urval är x A x B x C 4 år år år Således får vi Pearsonstatistikan X4 2 = 57.34, X2 6 = och X2 8 = Detta jämförs med χ 2 -fördelningen med 2 frihetsgrader (3 tillstånd - 0 parametrar - 1) och α = : χ 2.025(2) = För god passform bör Pearsonstatistikan ligga under detta värde för χ 2. Modellen verkar alltså inte passa data väl enligt detta test Modell 2: Bologna Vi gör samma test, men nu med olika övergångsmatriser beroende på om studenten börjar före eller efter Bolognaprocessen. Samma anpassning för den student som gått på tidigt utbyte får göras här. Eftersom det är en ny student påverkar den bara övergångsmatrisen för post-bologna-studenterna. Det visar sig också att bland dessa studenter nns de som nått, men inte lämnat tillstånden 9.5, 10, -94, -93 och -92. För att kunna göra en simulering plockas därför övergångssannolikheterna från dessa tillstånd ifrån 12

17 matrisen för de äldre studenterna, vilket naturligtvis inför en osäkerhet i vår skattning. En likadan plot som i föregående test genereras intervall för avhopp intervall för examen avhopp examen Figur 5: Skattning med modell 2 Datapunkter inom intervallet (avhopp + examen) 11 (1+10) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Pearsonstatistika kontrolleras också och uppmäts till X4 2 X6 2 X8 2 Äldre studenter Nyare studenter Värdena jämförs med χ (4) = 11.1 (6 1 1 variabel). De osedvanligt höga värdena för nyare studenter efter 6 respektive 8 år kommer sig av att de studenter som börjat 2007 eller senare hittills bara har läst 5 år, så dessa värden är inte jämförbara med skattningen. Pearsonstatistikan talar inte för denna modell. Modell 2b Speciella regler gäller för de studenter som antogs ht De ck ett program som inte var identiskt med varken tidigare eller senare årskullar, och hade möjlighet att själva välja om de ville ta ut en examen 13

18 på 270 hp eller en Bolognaexamen på 300 hp. Därför kan det vara intressant att se om kulluppdelningen ger bättre resultat om denna kull får en egen kategori. Inga övriga justeringar behöver göras jämfört med modell intervall för avhopp intervall för examen avhopp examen Figur 6: Skattning med modell 2b Datapunkter inom intervallet (avhopp + examen) 11 (1+10) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Pearsonstatistik, att jämföra med samma χ 2 -värde som tidigare: X4 2 X6 2 X8 2 Äldre studenter Kull Nyare studenter I de esta fall överstiger Pearsonstatistikan det förväntade värdet från χ 2 -fördelningen; modellen passar alltså inte så bra till data. Vi noterar mycket liten skillnad mellan modell 2 och modell 2b, men kommer senare för utförlighetens skull även kontrollera skillnaden i likelihood ratio för de båda modellerna. 14

19 6.1.3 Modell 3: Kön Vi forsätter med att undersöka eekten av att ta hänsyn till studentens kön. En ny uppdelning görs alltså av studenterna varje år, där en binär variabel indikerar studentens kön, och två nya övergångsmatriser genereras enbart baserade på kön (gur 7). Utöver studenten med tidigt utbyte behöver inga övriga justeringar göras i matriserna intervall för avhopp intervall för examen avhopp examen Figur 7: Skattning med modell 3 Datapunkter inom intervallet (avhopp + examen) 14 (2+12) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Bootstrap utförs igen och leder till Pearsonstatistikan: X4 2 X6 2 X8 2 Män Kvinnor Denna jämförs med samma χ 2 -värde som för modell 2. Samtliga statistika överstiger detta värde. 15

20 6.1.4 Modell 4: Program Den sista parametern vi har att kontrollera är vilket program studenten går på. När vi tar hänsyn till enbart detta får vi följande resultat (gur 8). För att kunna simulera med hjälp av denna modell ck ett antal justeringar göras. Som innan för studenten med tidigt utbyte, men det visar sig också att det saknas underlag för att säga något om de högre tillstånden (termin 10 samt tillstånd -92 och -94) bland studenter på de nyare programmen; B, MD, I, Pi och N. De tillstånd där övergångsdata saknas i dessa fall får raderna ersättas med de från ett program som ligger nära det aktuella programmet. För att avgöra vilka andra program som liknar de nyare har jag valt att jämföra hur stor andel av de antagna studenterna som tagit examen efter en viss tid som mått på hur vägarna till examen liknar varandra. Resultatet illustreras i tabellen, där e 1 och e 2 är summan av avvikelserna för år 1:9 för det program som ligger närmst (P rog 1 ) respektive näst närmst (P rog 2 ): P rog 1 (e 1 ) P rog 2 (e 2 e 1 ) P rog 1 (e 2 1 ) P rog 2 (e 2 2 e2 1 ) B I (0.0392) W (0.0807) I (0.0004) W (0.0034) MD C (0.3137) Pi (0.0964) C (0.0240) Pi (0.0103) I B (0.0392) W (0.0551) B (0.0004) W (0.0018) N F (0.1364) M (0.0179) M (0.0066) F (0.0005) Pi D (0.0631) E (0.0886) D (0.0011) E (0.0052) Eftersom skillnaden mellan första och andra mest lika program för N enligt den ackumulerade kvadratavvikelsen är så liten (0.0005) kommer F att väljas som närmast approximation, och M i andra hand. I vår data går tillståndet att plocka från förstahandsvalet i alla fall utom vad gäller tillstånd -92 på program I. Detta tillstånd är tomt även på B, och hämtas därför istället från W. Datapunkter inom intervallet (avhopp + examen) 12 (2+10) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Här nns er kategorier och vår Pearsonstatistik jämförs med χ (40) =

21 intervall för avhopp intervall för examen avhopp examen Figur 8: Skattning med modell 4 X4 2 X6 2 X8 2 B C D E F MD I K L M N Pi V W Med detta test kan inte modellen förkastas för beskrivning av fördelningen för de första 4 åren, och för ungefär hälften av programmen verkar den även med tillräcklig noggrannhet beskriva de första 6 åren. När vi nu testat alla modeller med en variabel, vill vi jämföra dem med varandra och se vad vi fått. Utöver testen som utförts på föregående modeller kan vi nu även jämföra dem med ett likelihood ratio-test. Vi kontrollerar 17

22 alltså loglikelihood för varje student att antingen ta examen eller hoppa av på den tid detta tagit, förutsatt fördelningen i våra modeller. För beräkning av dessa sannolikheter används Chapman-Kolmogorovs sats. LR för de olika modellerna jämfört med Modell 1 kan ses i tabellen nedan Modell LR b Samtliga mer komplicerade modeller, och i synnerhet modell 3 och 4, förklarar klart mycket mer än modell 1 vad gäller variation i data. Vi ser också att modell 2b inte bidrar med en bättre förklaring än modell 2. Vi kommer därför inte att fortsätta använda denna noggrannare uppdelning av kullarna. Något som genomgående påverkar hur väl modellen passar data är den stora avvikelsen bland avhoppen för höstterminen Den beror på en utrensning av studenter som varit inaktiva en längre tid, gjord av universitetet denna termin 1, och är alltså något man hade kunnat ta med i beräkningarna då man visste att detta skulle ske. Detta har ingen synbar eekt på examen, som är av större intresse för universitetet, men det kan göra att modellen fungerar sämre för avhopp än för examen, och att en modell som ska passas till båda dessa utkomster kan vara mindre lämplig än en som enbart passas till examen Modell 5: Bologna & Kön Så är frågan om man kan få ännu bättre modeller genom att använda era av uppdelningarna på en gång. Först ska vi titta på uppdelning efter kön och kull. Vi använder den grövre kulluppdelningen och har alltså fyra olika övergångsmatriser. 1 Rensning gjord av utbildningsavdelningen vid LTH 18

23 intervall för avhopp intervall för examen avhopp examen Figur 9: Skattning med modell 5 Datapunkter inom intervallet (avhopp + examen) 10 (1+9) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Pearsonstatika för dessa grupper: X4 2 X6 2 X8 2 Äldre studenter, män Äldre studenter, kvinnor Nyare studenter, män Nyare studenter, kvinnor Som tidigare ser vi att X6 2 och X2 8 inte är användbara för nyare studenter. χ 2 -värdet vi vill använda här är χ (9) = ( variabler), ett värde som endast matchas av den 4-åriga statistiken för en av grupperna Modell 6: Bologna & Program Även här använder vi oss av den grövre kulluppdelningen från modell 2: Bologna, vilket i kombination med programuppdelningen ger oss 28 matriser. 19

24 intervall för avhopp intervall för examen avhopp examen Figur 10: Skattning med modell 6 Datapunkter inom intervallet (avhopp + examen) 10 (2+8) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Pearsonstatistikan nns i appendix B. Modellen kan inte förkastas för de äldre studentgrupperna, och inte heller för de nyare gruppernas första 4 år Modell 7: Kön & Program I modell 7 har vi återigen 28 matriser, uppdelade efter kön samt program. 20

25 intervall for avhopp intervall for examen avhopp examen Figur 11: Skattning med modell 7 Datapunkter inom intervallet (avhopp + examen) 10 (2+8) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Pearsonstatistikan nns i appendix B. Modellen kan inte förkastas för 4 eller 6 år, och för 15 av de 28 grupperna kan den inte heller förkastas för 8 år Modell 8: Bologna, Kön & Program När alla uppdelningar vi har sätts samman får vi en modell innehållande 56 st övergångsmatriser. Den noggranna uppdelningen gör att några av grupperna blir mycket små; de minsta grupperna innehåller bara runt 30 individer och de esta ligger på individer. Bland de 8933 nollskilda elementen i matriserna uppfyller bara 21.43% villkoret för välbestämd kondensgrad. 21

26 intervall för avhopp intervall för examen avhopp examen Figur 12: Skattning med modell 8 Datapunkter inom intervallet (avhopp + examen) 10 (1+9) Genomsnittlig varians, avhopp resp. examen resp Medelfel Medelkvadratfel Övergångsmatriserna för denna modell kräver många justeringar: 110 av raderna är hämtade från andra matriser. Det betyder att det tar mycket lång tid att färdigställa simuleringen. Grupperna är också för små för att Pearsonstatistikan ska vara användbar i det här fallet. 6.2 Prediktion för kommande år Eftersom förhoppningen är att nna en metod att prediktera kommande års examina ska vi nu titta på hur det sett ut om man använt Markovmodellen för att skatta antal examen respektive avhopp 1 år framåt i tiden. I graferna nedan har för varje år en övergångsmatris skapats baserad på all data från 1993 fram till aktuellt år, och en prediktion för nästa år har gjorts baserat på 1000 simuleringar av denna. Prediktionerna startar med läsår 99/00, för att en matris med tillstånd ända fram till examen ska ha en chans att hinna byggas upp (dvs ptnr för de äldsta studenterna ska hinna gå upp till 12). Det smalare intervallet i graferna är för α = 0.05 och det bredare för α = De faktiska utkomsterna är också inlagda i diagrammet som en jämförelse, och en prediktion för läsår 12/13 inkluderas, för att se vad man kan få ut av 22

27 modellen idag. Antal nyantagna studenter på varje program för ht 2012 har här hämtats ifrån uppgifter på LTH:s hemsida [10] predikterat intervall för avhopp predikterat intervall för examen avhopp examen Figur 13: 1 års prediktion för , modell 1 Korrekt predikterade examen med 95% signikans: 5 st. Korrekt predikterade examen med 99% signikans: 6 st. Korrekt predikterade avhopp med 95% signikans: 1 st. Korrekt predikterade avhopp med 99% signikans: 3 st. Än en gång är vi intresserade av eekten av att dela upp simuleringen i era grupper i förhoppning om bättre anpassning, så vi genererar även två könsmatriser för varje år och simulerar med hjälp av dessa. 23

28 predikterat intervall för avhopp predikterat intervall för examen avhopp examen Figur 14: 1 års prediktion för , modell 3 Korrekt predikterade examen med 95% signikans: 7 st. Korrekt predikterade examen med 99% signikans: 7 st. Korrekt predikterade avhopp med 95% signikans: 0 st. Korrekt predikterade avhopp med 99% signikans: 1 st. För modell 4 behöver många justeringar av övergångsmatriserna göras innan simuleringen går att genomföra, eftersom era av programmen inte funnits ända sedan När ett program är nytt kan de saknade tillstånden inte tas från ett program som ligger nära med avseende på studenternas beteende, eftersom detta inte är känt än. Därför har här istället använts ett medelvärde av de saknade radvektorerna från alla program där de existerar. De program som har ofullständiga matriser (matriser där det nns vägar in i något tillstånd som det saknas övergångssannolikheter ifrån) för något av de simulerade åren är: 24

29 Program Startår I 1998 W 1998 B 2001 C 2001 Pi 2002 N 2003 MD 2003 För de program som funnits minst 6 år vid början av 1999 används [7], en äldre studie där Coxregression använts för att testa skillnader i examination, för att se vilka program som ligger nära varandra i sammansättning och beräknad tid till examen predikterat intervall för avhoppp predikterat intervall för examen avhopp examen Figur 15: 1 års prediktion för , modell 4 Korrekt predikterade examen med 95% signikans: 4 st. Korrekt predikterade examen med 99% signikans: 5 st. Korrekt predikterade avhopp med 95% signikans: 2 st. Korrekt predikterade avhopp med 99% signikans: 3 st. Ingen av modellerna ger någon indikation på att precisionen skulle bli bättre efter hand. Mer välbestämda matriser tycks alltså inte ge säkrare resultat. Modell 2 nns ingen större poäng med att prova här, eftersom den över- 25

30 gångsmatris som skulle användas för de nyare studenterna inte är tillräckligt välbestämd för ett test förrän efter För att vara en användbar modell krävs att den åtminstone presterar bättre än en ren gissning på att saker fortsätter vara ungefär som de är. Vi jämför därför prediktioner för nästa år bara baserat på medelvärde och standardavvikelse för resultaten över de senaste åren. I guren nedan är α = Figur 16: 1 års prediktion för , grundad på medelvärde och standardavvikelse Som synes i guren träar denna prediktion visserligen ofta rätt, men intervallen är så stora att de egentligen inte ger någon information. Om man istället testar att utgå ifrån att nästa års värden kommer från en normalfördelning med samma väntevärde som årets och gör en skattning av detta värde får man följande resultat (för de inre intervallen är α = och för de yttre α = 0.005) 26

31 avhopp examen intervall avhopp intervall examen Figur 17: 1 års prediktion för , grundad på antagande om bibehållet väntevärde Korrekt predikterade examen med 95% signikans: 1 st. Korrekt predikterade examen med 99% signikans: 3 st. Korrekt predikterade avhopp med 95% signikans: 2 st. Korrekt predikterade avhopp med 99% signikans: 2 st. Denna enkla modell kunde bättre fånga upp avhoppen, men presterade sämre vad gäller examen som är vårt huvudsakliga intresse. Man kan också se att prediktionsintervallen är betydligt större än de som tagits fram med Markovmodellerna. 6.3 Jämförelse av övergångsmatriser En liten detaljstudie av de olika övergångsmatriserna kan också vara intressant. En grov jämförelse av hur bara övergångssannolikheterna mellan de olika terminerna skiljer sig mellan de olika grupperna kan ge en tydligare inblick i våra resultat och vår population. Vi väljer att titta främst på de absorberande tillstånden, samt de tillstånd som representerar terminer då studenten är aktivt studerande vid LTH. De delar av matriserna som omnämns står att nna i appendix A. 27

32 6.3.1 Gammal kontra ny En jämförelse av övergångsmatriserna för den äldre gruppen studenter, 'old', respektive den nyare, 'new', (före respektive från och med 2007) ger vid handen att övergångssannolikheterna från en termin till nästa i allmänhet är högre i 'new'. I synnerhet är övergångssannolikheten från en full termin (termin med 22.5 hp tagna) större i 'new' än i 'old' i samtliga fall. Noteras kan även att bland diagonalelementen, dvs sannolikheten att gå om samma termin igen, tillhör 15 av de största värdena 'old' och 3 'new'. Däremot är övergångssannolikheten från 11 av terminstillstånden till examen högre i 'old', medan den bara är högre i 'new' för tillstånd 8.5. För tillstånd 9.5 och 10 är de lika eftersom dessa tagits från 'old', och för resten av tillstånden är sannolikheten att gå vidare till examen i ett steg 0. Av de värden som omnämnts här uppfyller samtliga villkoret (1) för att ha en välbestämd kondensgrad. Hypotesen att övergångsmatriserna är lika, H 0 : P old = P new testas mot H 1 : P old P new, och vi ser att 'old'- diagonalelementen i samtliga 15 fall är signikant högre än 'new', medan det bara är ett av fallen där 'new' är signikant högre. Vidare kan vi se att 'new' är signikant högre vid terminsövergång för full termin gällande termin 2:7. För högre terminer kan H 0 ej förkastas. Vid 6 av de 11 övergångarna från någon termin till examen är 'old':s sannolikhet signikant högre Män kontra kvinnor Vad gäller övergångsmatriserna för gruppen kvinnliga studenter, 'women', respektive manliga, 'men', syns en viss övervikt i övergången från en full termin till nästa för kvinnor: 7 av övergångarna har högre sannolikhet i 'women' än i 'men'. Bland övergångarna från de olika terminstillstånden till examen är 9 av dessa högre i 'women', resp. 5 i 'men'. Den kanske tydligaste skillnaden mellan matriserna syns dock i diagonalen, dvs sannolikheten att stanna kvar i samma tillstånd även nästa termin, där 14 av övergångssannolikheterna är högre i 'men', jämfört med 6 i 'women'. Enligt samma hypotestestning som ovan ser vi att 8 av de diagonalelement där 'men' har högre värde än 'women' har en signikant skillnad. Detta gäller att stanna i tillstånd 1.5, 2.5, 3.5, 4.5, 5.5, 6.5 och 7.5, dvs bara ofullständiga terminer (termin med < 22.5 hp tagna). Vad gäller övergång till examen har 'women' signikant högre värde för 5 tillstånd, i övrigt hittas inga signikanta skillnader. 28

33 6.4 Utvärdering Den modell där est av datapunkterna innesluts i intervallet är modell 3, den enbart könsuppdelade. Detsamma gäller vid simuleringen i 6.2. Om man däremot tittar på hur stora felen är, när punkterna väl hamnar utanför intervallet, verkar modell 8, Bologna, Kön & Program, vara den bästa modellen. Vid användning av modell 8 för att beskriva föregående år ser man att den fulla uppdelningen av studentgrupperna inte gör att modellen passar mycket bättre, den är rent av mindre precis än era av de grövre modellerna. Detta kan bero på att så många anpassningar måste göras för att kunna genomföra simuleringarna. De grupper som är för små har alltså här skattats och liknats vid andra grupper så mycket att det inte verkar ha varit värt att separera dem över huvud taget. Med den tillgängliga datamängden verkar Markovmodellerna i kapitel 6.2 prediktera examina med största fel på ungefär 150 studenter för modell 1 och 100 för modell 3 och 4. Mängden avhopp hamnar sällan i intervallet, då variansen här varierar kraftigare. Jämfört med de enklare modellerna som testades är prediktionsintervallen betydligt snävare. Den sammanlagda meddelavvikelsen från det 95%:iga intervallet över åren 1999 till 2011 är lägre för Markovmodellen än för den enkla normalfördelningsmodellen. Intressant vore också att se hur väl prediktionen fungerar för en längre tidsperiod. Det har inte genomförts på grund av tidsbegränsningar. Jämförelsen i kapitel 6.3 stöder vad som antytts i tidigare studier om att kvinnliga studenter har en snabbare väg genom högskolan än manliga; de tenderar både att ta examen snabbare och att fortskrida från termin till termin i högre tempo. Den tyder också på att nyare studenter är snabbare på att ta sig framåt i utbildningen än de från tidigare årskullar. Här kan man dock även se att de äldre studenterna i allmänhet tycks ha en mindre rak väg mot examen; skeenden som att stanna kvar länge på exempelvis termin 5 för att sedan gå direkt till examen är vanligare i denna grupp. Detta kan bero på att system för terminsregistrering har ändrats över åren, från manuell till elektronisk hantering. Mängden felregistreringar och missade registreringar kan sålunda ha minskat med tiden. Skillnaden mellan prestationen från de olika modellerna är inte så stor. Därför, med tanke på att Markovmodellens största fördel är dess enkelhet, är Modell 1, utan uppdelning, den lämpligaste modellen av de testade. 29

34 7 Diskussion Syftet med denna rapport var att nna en Markovmodell för studenter vid Lunds Tekniska Högskola och undersöka huruvida denna kunde gå att använda för att prediktera hur många examina som kommer utfärdas av universitetet. Trots att Markovvillkoret troligtvis inte håller när det gäller människors skolgång skulle en sådan modell vara tilltalande på grund av dess lättillgänglighet både tolknings- och konstruktionsmässigt. Nackdelarna är desamma som fanns av Redlinger och Gordon i [11]; svårighet att nna ett bra goodness-of-t-test och att övergångssannolikheterna får antas vara tidsinvarianta. Som tillstånd i Markovkedjan väljs dels terminerna, dels olika typer av uppehåll emellan dessa. Utöver det nns 2 absorberande tillstånd: avhopp och examen. Vi ville se hur noggranna uppdelningar av populationen det var möjligt att göra utan att grupperna blev så små att bias uppstod. Goodness-of-t-testen utförda på modellerna pekar inte på att modellen passar data mycket väl. De efter hand uppdaterande prediktionerna i kapitel 6.2 visar inte heller på att modellen skulle bli mer precis eller korrekt efter hand, men detta skulle kunna bero på att det fortfarande är testat på en förhållandevis kort tidsserie. En Markovkedja visar sig vara användbar för att modellera detta system på ett sätt som ger resultat med en precision på ca ±150 studenter, vilket är en bättre prestation än enkla modeller som bygger på normalfördelning med bibehållet väntevärde. Att göra modellen mer komplicerad genom uppdelning av populationen i mindre grupper gav möjlighet att studera skillnader mellan dessa grupper med avseende på utseendet hos studenternas vägar genom sin utbildning, men gav däremot inte nämnvärt ökad precision i prediktionerna för antal framtida examina respektive avhopp. Genomgående är modelleringen av examina bättre än den för avhopp. En jämförelse av övergångsmatriserna visade på att kvinnor har en snabbare och rakare väg till examen. Detta stämmer med vad som funnits i bl a [8] och [7]. Den visar även på liknande skillnader mellan de studenter som påbörjat sina studier efter bolognaprocessen och de som börjat innan. 7.1 Vidare arbete Vid tiden för den här rapporten har de studenter som startat efter att Bolognaprocessen tagit eekt precis börjat ta examen, och en betydande ökning i utfärdande av 5-årig examen kan väntas under nuvarande läsår. En tydligare och mer korrekt bild av hur denna grupp agerar i modellen borde därför kunna fås när detta skett. 30

35 Det kunde vara intressant att jämföra resultaten med data från andra svenska tekniska högskolor. Om de är tillräckligt lika varandra skulle man kunna använda dessa data som stöd i de fall där grupper på LTH blir för små för att bygga fullständiga övergångsmatriser. Man skulle också kunna använda längre tidsserier för att se om det har någon eekt på precisionen i prediktionerna. För att göra avhoppen lättare att prediktera skulle det kanske hjälpa att lägga till ett tillstånd som representerar långt uppehåll", där studenter har en låg sannolikhet att komma tillbaka till att studera. 31

36 Referenser [1] T. Ryden & G.Lindgren. Markovprocesser. Lunds Universitet med Lunds Tekniska Högskola, [2] J. Enger & J. Grandell. Markovprocesser och köteori. Chalmers, [3] I.V. Basawa & B.L.S. Prakasa Rao. Statistical Inference for Stochastic Processes. Academic Press London, [4] G. Blom, et. al. Sannolikhetsteori och statistiktori med tillämpningar 5e upplagan. Studentlitteratur Lund, [5] P. Warfvinge. Efter Bologna... LTH-nytt 2006; 2: [6] A. Rice. Mathematical Statistics and Data Analysis 3e upplagan. Duxbury, [7] A. Lindgren. Säg mig hur de klarade först året och jag skall säga dig hur många som kommer att ta examen. Matematisk statistik, Matematikcentrum, LTH, [8] C. Panyangam & K. Xia Prediction of Degrees using Survival Analysis. Master's Theses in Mathematical Sciences, Lund, 2012:E26. [9] S. Coles. An Introduction to Statistical Modeling of Extreme Values. Springer, [10] Lunds Tekniska Högskola: Antagningsstatistik. utbildning/antagning_och_behoerighet/antagningsstatistik Hämtad 20/ Senast uppdaterad 18/ [11] L. J. Redlinger & S. L. Gordon A comparison of Time Horizon Models to Forecast Enrollment. University of Texas, Dallas, [12] M. Lafer et. al. Factors aecting Time to Baccalaureate Degree at Pennsylvania Colleges and Universities. Pennsylvania Higher Education Assistance Agency, [13] W. E. Knight Time to Bachelor's Degree Attainment: An Application of Descriptive, Bivariate, and Multiple Regression Techniques. IR Applications vol. 2, [14] L. Zhu Exploring the Determinants of Time-to-Degree in public 4-year colleges. Annual Forum of the Association for Institutional Research,

37 A Matriser A.1 Övergångsmatris, modell 1 Antal övergångar mellan intressanta tillstånd för alla studenter vid LTH 1993 till Angivna i absolut form för att tydligare visa hur många övergångar skattningen bygger på. Övergångssannolikheterna fås när varje rad divideras med summan för densamma, förutom för de absorberande tillstånden där övergångssannolikheten är 0 till alla andra tillstånd och 1 till sig själv totalt A.2 Äldre studenter Tillstånd 1:10 (fulla terminer) samt -7 och -5 för de övergångsmatriser som omnämns i kapitel

38 A.3 Nyare studenter A.4 Manliga studenter A.5 Kvinnliga studenter

TAMS79: Föreläsning 10 Markovkedjor

TAMS79: Föreläsning 10 Markovkedjor TAMS79: Föreläsning 0 Markovkedjor Johan Thim december 08 0. Markovkedjor Vi ska nu betrakta en speciell tidsdiskret diskret stokastisk process, nämligen Markovkedjan. Vi börjar med en definition Definition.

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 9 Johan Lindström 16 oktober 2018 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F9 1/26 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03

Läs mer

Stokastiska processer

Stokastiska processer Stokastiska processer Fredrik Olsson, fredrik.olsson@iml.lth.se Avdelningen för produktionsekonomi Lunds tekniska högskola, Lunds universitet Dessa förläsningsanteckningar kommer att behandla diskreta

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på

Läs mer

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Markovkedjor. Patrik Zetterberg. 8 januari 2013 Markovkedjor Patrik Zetterberg 8 januari 2013 1 / 15 Markovkedjor En markovkedja är en stokastisk process där både processen och tiden antas diskreta. Variabeln som undersöks kan både vara numerisk (diskreta)

Läs mer

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Lösningsförslag till Matematisk statistik LKT325 Tentamen Lösningsförslag till Matematisk statistik LKT325 Tentamen 20190115 Kursansvarig: Reimond Emanuelsson Betygsgränser: för betyg 3 krävs minst 20 poäng, för betyg 4 krävs minst 30 poäng, för betyg 5 krävs

Läs mer

LKT325/LMA521: Faktorförsök

LKT325/LMA521: Faktorförsök Föreläsning 2 Innehåll Referensfördelning Referensintervall Skatta variansen 1 Flera mätningar i varje grupp. 2 Antag att vissa eekter inte existerar 3 Normalfördelningspapper Referensfördelning Hittills

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 3 Markovprocesser 16 April 2015 Johan Westerborn Markovprocesser (1) Föreläsning 3 Föreläsningsplan 1 Förra Föreläsningen 2 Markovprocesser

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 3 Markovprocesser 13 April 2016 Johan Westerborn Markovprocesser (1) Föreläsning 3 Föreläsningsplan 1 Förra Föreläsningen 2 Markovprocesser

Läs mer

MSG830 Statistisk analys och experimentplanering - Lösningar

MSG830 Statistisk analys och experimentplanering - Lösningar MSG830 Statistisk analys och experimentplanering - Lösningar Tentamen 16 augusti 2016, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel:

Läs mer

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN): Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF50: Matematisk statistik för L och V OH-bilder på föreläsning 7, 2017-11-20 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Läs mer

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:... Avd. Matematisk statistik TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Examinator för SF94/SF96: Tatjana Pavlenko, 08-790 84 66 Examinator för

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 2 Markovprocesser 4 April 2016 Johan Westerborn Markovprocesser (1) Föreläsning 2 Föreläsningsplan 1 Förra Föreläsningen 2 Absorption

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 2 Markovprocesser 30 Mars 2015 Johan Westerborn Markovprocesser (1) Föreläsning 2 Föreläsningsplan 1 Förra Föreläsningen 2 Absorption

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 5 Markovprocesser 2 Maj 2016 Johan Westerborn Markovprocesser (1) Föreläsning 5 Föreläsningsplan 1 Förra Föreläsningen 2 Poissonprocessen

Läs mer

Laboration 2: Styrkefunktion samt Regression

Laboration 2: Styrkefunktion samt Regression Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 5 Markovprocesser 24 April 2015 Johan Westerborn Markovprocesser (1) Föreläsning 5 Föreläsningsplan 1 Förra Föreläsningen 2 Poissonprocessen

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Stokastiska processer och simulering I 24 maj

Stokastiska processer och simulering I 24 maj STOCKHOLMS UNIVERSITET LÖSNINGAR MATEMATISKA INSTITUTIONEN Stokastiska processer och simulering I Avd. Matematisk statistik 24 maj 2016 Lösningar Stokastiska processer och simulering I 24 maj 2016 9 14

Läs mer

Föreläsning 12: Repetition

Föreläsning 12: Repetition Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) SF1901: Sannolikhetslära och statistik Föreläsning 9. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 21.02.2012 Jan Grandell & Timo Koski () Matematisk statistik 21.02.2012

Läs mer

Stokastiska processer och simulering I 24 augusti

Stokastiska processer och simulering I 24 augusti STOCKHOLMS UNIVERSITET LÖSNINGAR MATEMATISKA INSTITUTIONEN Stokastiska processer och simulering I Avd Matematisk statistik 24 augusti 2016 Lösningar Stokastiska processer och simulering I 24 augusti 2016

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018 SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14-15 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 14 maj 2018 PLAN FÖR DAGENS FÖRELÄSNING Icke-parametriska metoder. (Kap. 13.10) Det

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

Grafer och grannmatriser

Grafer och grannmatriser Föreläsning 2, Linjär algebra IT VT2008 Som avslutning på kursen ska vi knyta samman linjär algebra med grafteori och sannolikhetsteori från första kursen. Resultatet blir så kallade slumpvandringar på

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 1 Markovprocesser 25 Mars 2015 Johan Westerborn Markovprocesser (1) Föreläsning 1 Föreläsningsplan 1 Kursinformation 2 Stokastiska processer

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska

Läs mer

Tentamen i FMS180/MASC03 Markovprocesser

Tentamen i FMS180/MASC03 Markovprocesser Matematisk statistik Matematikcentrum Lunds Universitet Tentamen i FMS80/MASC03 Markovprocesser 009-05-5 Lösningsförslag. Följande är en möjlighet. 6 5 3 4 Här är tillstånden, och 3 transienta, tillstånd

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski SF1901: Sannolikhetslära och statistik Föreläsning 10. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 18.02.2016 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test SF1915 Sannolikhetsteori och statistik 6 hp Föreläsning 12 χ 2 -test Jörgen Säve-Söderbergh Anpassningstest test av given fördelning n oberoende försök med r möjliga olika utfall Händelse A 1 A 2... A

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012 Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R) Exempel Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V mulet (M regn (R Exempel Vackert idag vackert imorgon sannolikheten 0.6 Vackert idag mulet imorgon sannolikheten

Läs mer

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14 STOCKHOLMS UNIVERSITET MT 5001 MATEMATISKA INSTITUTIONEN TENTAMEN Avd. Matematisk statistik 13 januari 2014 Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14 Examinator: Martin Sköld, tel.

Läs mer

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression Lunds tekniska högskola, Matematikcentrum, Matematisk statistik Matematisk statistik kompletterande projekt, FMSF Övning om regression Denna övningslapp behandlar regression och är tänkt som förberedelse

Läs mer

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0 Avd. Matematisk statistik TENTAMEN I SF191, SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 1:A JUNI 216 KL 8. 13.. Kursledare: Thomas Önskog, 8-79 84 55 Tillåtna hjälpmedel: Formel- och tabellsamling i

Läs mer

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger LÖSNINGAR TILL Matematisk statistik Tentamen: 2015 08 18 kl 8 00 13 00 Matematikcentrum FMS 086 Matematisk statistik för B, K, N och BME, 7.5 hp Lunds tekniska högskola MASB02 Matematisk statistik för

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Regressionsmodellering inom sjukförsäkring

Regressionsmodellering inom sjukförsäkring Matematisk Statistik, KTH / SHB Capital Markets Aktuarieföreningen 4 februari 2014 Problembeskrivning Vi utgår från Försäkringsförbundets sjuklighetsundersökning och betraktar en portfölj av sjukförsäkringskontrakt.

Läs mer

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa. Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 1 Markovprocesser Johan Westerborn Markovprocesser (1) Föreläsning 1 Föreläsningsplan 1 Kursinformation 2 Stokastiska processer 3 Betingade

Läs mer

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar Lunds tekniska högskola Matematikcentrum Matematisk statistik Laboration 3 Matematisk statistik AK för CDIFysiker, FMS012/MASB03, HT15 Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk

Läs mer

3 Maximum Likelihoodestimering

3 Maximum Likelihoodestimering Lund Universitet med Lund Tekniska Högskola Finansiell Statistik Matematikcentrum, Matematisk Statistik VT 2006 Parameterestimation och linjär tidsserieanalys Denna laborationen ger en introduktion till

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Analys av korstabeller 2 Innehåll 1 Analys av korstabeller 2 Korstabeller Vi har tidigare under kursen redan bekantat oss med korstabeller. I en korstabell redovisar man fördelningen på två

Läs mer

Sannolikheter och kombinatorik

Sannolikheter och kombinatorik Sannolikheter och kombinatorik En sannolikhet är ett tal mellan 0 och 1 som anger hur frekvent en händelse sker, där 0 betyder att det aldrig sker och 1 att det alltid sker. När vi talar om sannolikheter

Läs mer

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)

Läs mer

Formler och tabeller till kursen MSG830

Formler och tabeller till kursen MSG830 Formler och tabeller till kursen MSG830 Deskriptiva mått För ett datamängd x 1,, x n denieras medelvärde standardavvikelse standardfelet (SEM) Sannolikheter x = 1 n n i=1 = x 1 + + x n n s = 1 n (x i x)

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF194 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAG 1 AUGUSTI 019 KL 8.00 13.00. Examinator: Björn-Olof Skytt, 08-790 86 49. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:... Avd. Matematisk statistik EXEMPELTENTAMEN I SANNOLIKHETSTEORI OCH STATISTIK, Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik (utdelas vid tentamen). Tentamen består av två delar,

Läs mer

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p) Avd. Matematisk statistik TENTAMEN I SF1901, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 27:E OKTOBER 2014 KL 08.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66, Björn-Olof Skytt, 08-790 86 49.

Läs mer

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1 Kaitel 1 Mer Markovkedjor Med att secificera en Markovkedja menar vi att man bestämmer övergångsmatrisen P. Detta säger ju allt om dynamiken för rocessen. Om vi dessutom vet hur kedjan startar, dvs startfördelningen

Läs mer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer Laboration 2 i 5B52, Grundkurs i matematisk statistik för ekonomer Namn: Elevnummer: Laborationen syftar till ett ge information och träning i Excels rutiner för statistisk slutledning, konfidensintervall,

Läs mer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer Lunds universitet Matematikcentrum Matematisk statistik Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer Information om laborationerna I andra halvan av MASA01 kursen ingår två laborationer.

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03 Allmänt Kursen ger 9hp och omfattar 36 timmar föreläsning, 28 timmar

Läs mer

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02 Sannolikhetsteori Följande gäller för sannolikheter:

Läs mer

TMS136: Dataanalys och statistik Tentamen

TMS136: Dataanalys och statistik Tentamen TMS136: Dataanalys och statistik Tentamen 013-08-7 Examinator och jour: Mattias Sunden, tel. 0730 79 9 79 Hjälpmedel: Chalmersgodkänd räknare och formelsamling (formelsamling delas ut med tentan). Betygsgränser:

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik

Läs mer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005 . Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 =

Läs mer

Matematisk statistik TMS064/TMS063 Tentamen

Matematisk statistik TMS064/TMS063 Tentamen Matematisk statistik TMS64/TMS63 Tentamen 29-8-2 Tid: 4:-8: Tentamensplats: SB Hjälpmedel: Bifogad formelsamling och tabell samt Chalmersgodkänd räknare. Kursansvarig: Olof Elias Telefonvakt/jour: Olof

Läs mer

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 Statistiska Institutionen Patrik Zetterberg Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 2013-01-18 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 11 Johan Lindström 13 november 2018 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 1/25 Repetition Stickprov & Skattning Maximum likelihood

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018 SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 11 INTERVALLSKATTNING. Tatjana Pavlenko 24 april 2018 PLAN FÖR DAGENS FÖRELÄSNING Vad är en intervallskattning? (rep.) Den allmänna metoden för

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret

Läs mer

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p) Avd. Matematisk statistik TENTAMEN I SF1901, SF1905, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 17:E AUGUSTI 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66 Tillåtna hjälpmedel: Formel-

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9, Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9, 8-5-4 EXEMPEL: Hur mycket kunder förlorar vi om vi höjer biljettpriset?

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Hemuppgift 3 modellval och estimering

Hemuppgift 3 modellval och estimering Lunds Universitet Ekonomihögskolan Statistiska Institutionen STAB 13 VT11 Hemuppgift 3 modellval och estimering 1 Inledning Denna hemuppgift är uppdelad i två delar. I den första ska ni med hjälp av olika

Läs mer

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p) Avd. Matematisk statistik TENTAMEN I SF90 OCH SF905 SANNOLIKHETSTEORI OCH STATISTIK, FREDAGEN DEN 4:E MARS 204 KL 4.00 9.00. Kursledare: För D och Media: Gunnar Englund, 073 32 37 45 Kursledare: För F:

Läs mer

Övningstenta för MSG830

Övningstenta för MSG830 Övningstenta för MSG830 Max 30 p, för godkänt krävs 12 p 1. Vi har två händelser A och B. Om dessa vet vi att A sker med sannolikheten 0.2 och B med sannolikheten 0.5. Sannolikheten att varken A eller

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD 208-08-26 Sannolikhetsteori Följande gäller för sannolikheter: 0 P(A P(Ω = P(A

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 8:E JANUARI 2018 KL 14.00 19.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion Gnuer i skyddade/oskyddade områden, binära utfall och binomialfördelningar Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 I vissa områden i Afrika har man observerat att förekomsten

Läs mer

1.1 Diskret (Sannolikhets-)fördelning

1.1 Diskret (Sannolikhets-)fördelning Föreläsning III. Diskret (Sannolikhets-)fördelning Med diskret menas i matematik, att något antar ett ändligt antal värden eller uppräkneligt oändligt med värden e.vis {, 2, 3,...}. Med fördelning menas

Läs mer

Thomas Önskog 28/

Thomas Önskog 28/ Föreläsning 0 Thomas Önskog 8/ 07 Konfidensintervall På förra föreläsningen undersökte vi hur vi från ett stickprov x,, x n från en fördelning med okända parametrar kan uppskatta parametrarnas värden Detta

Läs mer