Kandidatuppsats. Statistiska institutionen. Bachelor thesis, Department of Statistics

Relevanta dokument
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 12: Regression

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Exempel på tentamensuppgifter

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Statistisk analys av komplexa data

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Regressions- och Tidsserieanalys - F4

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Föreläsning 4. Kap 5,1-5,3

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Föreläsning 12: Repetition

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Statistisk analys av komplexa data

Lektionsanteckningar 11-12: Normalfördelningen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Medicinsk statistik II

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Statistisk analys av komplexa data

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys av lägenhetspriser i Spånga

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

LABORATION 3 - Regressionsanalys

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: Styrkefunktion samt Regression

Matematisk statistik, Föreläsning 5

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Att välja statistisk metod

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Resursfördelningsmodellen

Föreläsning 5. Kapitel 6, sid Inferens om en population

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

TVM-Matematik Adam Jonsson

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Statistik 1 för biologer, logopeder och psykologer

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

2. Test av hypotes rörande medianen i en population.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

F3 Introduktion Stickprov

Modeller för studieframgång i Matematisk Analys IV

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

, s a. , s b. personer från Alingsås och n b

Linjär regressionsanalys. Wieland Wermke

LABORATION 3 - Regressionsanalys

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Repetitionsföreläsning

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Statistik B Regressions- och tidsserieanalys Föreläsning 1

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Uppgift a b c d e Vet inte Poäng

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Analytisk statistik. Tony Pansell, optiker Universitetslektor

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

10.1 Enkel linjär regression

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Skattningsmetoder för binär data: En simuleringsstudie

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Bayesiansk statistik, 732g43, 7.5 hp

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Multipel Regressionsmodellen

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Hur skriver man statistikavsnittet i en ansökan?

Matematisk statistik för B, K, N, BME och Kemister

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

F22, Icke-parametriska metoder.


a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

Transkript:

Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2014:x Automatiserade variabelselektionsmetoder för logistisk regression Automated variable selection methods in logistic regression Marina Andrianova Rahwa Ghebresellase Självständigt arbete 15 högskolepoäng inom Statistik III, VT2014 Handledare: Dr. Tatjana von Rosen

Sammanfattning Vid logistisk regression vill vi undersöka sambandet mellan en kategorisk responsvariabel och ett antal prediktorer. Valet av prediktorer som ska ingå i en regressionsmodell är en viktig och svår uppgift, speciellt då antalet variabler är stort. Ett sätt att lösa detta problem är att använda automatiserade variabelselektionsmetoder. I denna uppsats beskrivs, tillämpas och jämförs de tre mest förekommande automatiserade variabelselektionsmetoderna; framlänges, baklänges och stegvis. Dessa metoder tillämpas på data från Skolverket för att identifiera de faktorer som predikterar elevers gymnasiebetyg. Eftersom responsvariabeln är betyg kan en ordinal logistisk regressionsmodell användas. Resultaten av den empiriska studien visar att de tre variabelselektionsmetoderna ofta leder till samma slutmodell, vilket överensstämmer väl med tillgängliga forskningsresultat. Vid användning av de tre variabelselektionsmetoderna kan forskaren själv välja signifikansnivån i metodernas beslutsregler (stoppregel och elimineringsregel) och på så vis påverka sitt slutresultat. För de valda slutmodellerna i den empiriska studien låg signifikansnivåerna ( ) i följande intervall:. Detta ganska breda intervall av signifikansnivåer överlappar med de mest vanliga rekommendationerna som förekommer i teorin. Nyckelord: framlänges variabelselektion, baklänges variabelselektion, stegvis variabelselektion, Akaike informationskriterium, proportionella-odds, ordinal logistisk regression, stoppregel. 2

Förord Ett stort tack till Sven Sundin, undervisningsråd på Skolverket, som försett oss med datamaterial och hjälpt till med att tolka detta. Vi tackar Tatjana von Rosen, docent på Statistiska institutionen vid Stockholms universitet, för inspiration och handledning. 3

Innehållsförteckning 1. INTRODUKTION... 5 2. BAKGRUND... 7 3. MATERIAL OCH METOD... 9 3.1. DATAMATERIAL... 9 3.2. LOGISTISK REGRESSION... 12 3.2.1. LÄNKFUNKTION... 12 3.2.2. BINÄR LOGISTISK REGRESSION... 12 3.2.3. NOMINAL LOGISTISK REGRESSION... 13 3.2.4. ORDINAL LOGISTISK REGRESSION (PROPORTIONELLA ODDS MODELLEN)... 14 3.3. VARIABELSELEKTIONSMETODER... 17 3.3.1. STEGVIS VARIABELSELEKTION... 17 3.3.2. FRAMLÄNGES VARIABELSELEKTION... 21 3.3.3. BAKLÄNGES VARIABELSELEKTION... 21 3.3.4. SCORETEST OCH WALDTEST... 22 3.3.5. STOPPREGEL OCH ELIMINERINGSREGEL... 23 3.4. INFORMATIONSKRITERIER... 25 3.5. MODELLUTVÄRDERING... 27 3.5.1. TEST FÖR ANTAGANDET OM PROPORTIONELLA ODDS... 27 3.5.2. HOSMER-LEMESHOW ANPASSNINGSTEST... 28 3.5.3. RESIDUALANALYS... 30 4. RESULTAT... 33 5. DISKUSSION... 43 LITTERATURFÖRTECKNING... 45 BILAGA A: URVAL AV SAS UTSKRIFTER... 48 BILAGA B: PROGRAMKODER... 60 4

1. Introduktion I Sverige har sedan början på 1990-talet ett antal genomgripande skolreformer genomförts. Målet har varit att förbättra den svenska skolan genom att dels höja den allmänna kvaliteten på utbildningen, dels skapa ett skolsystem som kan effektiviseras med hjälp av decentralisering (Skolverket, 2009). År 1990 kommunaliserades skolan och 1992 infördes fria skolval, en utbildningspolitisk reform som gjorde det möjligt att starta fristående skolor. År 2000 togs ett ytterligare steg mot en konkurrensinriktad skolmarknad då gymnasieskolor slutade att prioritera elever som kom från det egna området och istället antog elever enbart baserat på tidigare studieprestation (Vlachos, 2010). Det senaste decenniet har fokus på skolans resultat accentuerats i den allmänna skoldebatten. OECDs senaste PISA ("Programme for International Student Assessment") undersökning från 2012 visade att svenska 15-åringars resultat i matematik och läsförståelse har sjunkit (andelen lågpresterande elever har ökat samtidigt som andelen högpresterande elever minskat) jämfört med tidigare PISA undersökningar (Skolverket, 2013). Samtidigt som det rapporteras om en sjunkande kunskapsnivå så har den genomsnittliga betygsnivån ökat på grund- och gymnasieskolan (Skolverket, 2012). Att gymnasieskolor använder grundskolebetyg som det enda urvalskriteriet medför att betygen från grundskolan får en avgörande betydelse för elevens fortsatta studiemöjligheter. Att använda betyg som ett kunskapsmått är dock inte problemfritt. Men trots sina brister tyder forskning på att betyg i genomsnitt är en bra prediktor av framtida studieprestationer (Björklund et al., 2010). Inom forskning av utbildningsrelaterade frågor har logistisk regression sedan sent 1980-tal blivit en alltmer använd analysmetod (Peng et al., 2002). Logistisk regression, som tillhör en bredare familj av modeller kallade generaliserade linjära modeller, är en lämplig metod om responsvariabeln är kategorisk. Det innebär generellt att om vi i en empirisk studie använder oss av betyg som responsvariabel, kan vi använda oss av logistisk regression, eftersom betyg är en kategorisk variabel. Valet av prediktorer är ofta en svår uppgift att utföra manuellt, särskilt om antalet prediktorer är stort, vilket har resulterat i att användning av automatiserade variabelselektionsmetoder blivit vanligare. De variabelselektionsmetoder som liknar varandra mest är framlänges, baklänges och stegvis variabelselektion. En annan liknande variabelselektionsmetod är den s.k. bästa delmängdsselektion (eng: best subset selection). Dessa metoder kan användas för att skapa slutmodeller som är en delmängd av den fullständiga modellen (modellen med alla variabler). Uppsatsens syfte är att beskriva, tillämpa samt jämföra framlänges, baklänges och stegvis variabelselektion inom logistisk regression. Uppsatsen utförs dels som en beskrivande litteraturstudie genom att teori inom området gås igenom, dels genom att de tre metoderna tillämpas i en empirisk studie där data från Skolverket används. Datan omfattar responsvariabeln elevers gymnasiebetyg i ämnena Matematik A och Svenska A, samt ett relativt stort antal prediktorer. Eftersom responsvariabeln gymnasiebetyg (IG, G, VG och MVG) är ordinal används ordinal logistisk regression. Den empiriska studien syftar åt att jämföra de tre variabelselektionsmetoderna genom att bland annat undersöka om metoderna leder till samma uppsättning av förklarande variabler (slutmodell). 5

I nästa kapitel ges en översikt av framlänges, baklänges och stegvis variabelselektionsmetoderna. I Kapitel 3 presenteras datamaterialet samt metoderna som används i den empiriska studien. I Kapitel 4 presenterar vi resultaten från tillämpningen av metoderna på data från Skolverket. Uppsatsen avslutas med en diskussion av de erhållna resultaten i Kapitel 5. 6

2. Bakgrund Inom olika forskningsområden (utbildning, medicin, etc.) baseras ofta valet av de förklarande variabler (prediktorer) som ska ingå i en statistisk modell på automatiserade algoritmer som utnyttjar statistisk information. Utvecklingen av automatiserade metoder för val av variabler började på slutet av 1950-talet, och idag finns det många statistiska datorprogram som erbjuder olika automatiserade algoritmer för olika typer av statistiska modeller. Automatiserade selektionsmetoder används ofta i situationer där en a priori modell inte finns och/eller då datamaterialet innehåller många variabler. Generellt kan modeller 1 konstrueras, där är lika med antalet förklarande variabler (prediktorer) i den fullständiga modellen, vilket vanligtvis är fler än antalet oberoende variabler i datasetet, eftersom t.ex. interaktionstermer och kvadratiska termer ofta introduceras i den fullständiga modellen. Om antalet prediktorer i den fullständiga modellen t.ex. är 20, så kan alltså olika modeller konstrueras. Till exempel föreslår Collett (2003) att om antalet variabler i den fullständiga modellen överstiger 10 kan det vara lämpligt att använda sig av automatiserade metoder. Att hantera ett stort antal möjliga modeller manuellt kan medföra ökade kostnader, ökad tidsåtgång samt att risken att kvalitetsbrister kan uppstå, t.ex. att en slutmodell som inte är optimal väljs. Därför är det eftersträvansvärt att identifiera en enklare version av den fullständiga modellen, enligt sparsamhetsprincipen (principle of parsimony, se Derksen et al., 1992). Även om automatiserade metoder erbjuder möjligheten att göra detta är litteraturen fylld med kritik mot dessa metoder. Vidare finns inga tydliga gemensamma rekommendationer för hur en studie med automatiserade metoder ska genomföras. Detta försvårar genomförandet av dataanalys. En del forskare menar att automatiserade selektionsmetoder endast är ett explorativt statistiskt verktyg för val av prediktorer. De ska alltså inte ses som substitut för val av variabler baserade på mänskliga bedömningar (Hosmer et al., 2013; Menard, 2002). Men metoderna anses ändå vara behjälpliga i sökandet av en lämplig modell om resultaten används med försiktighet (Agresti, 2002). Austin & Tu (2004) betonar att automatiserade selektionsmetoder alltid bör kombineras med omfattande kunskap inom tillämpningsområdet. Tabell 2.1 visar en sammanfattning av de tre variabelselektionsmetoderna som används i denna uppsats. Tabellen ger en kort beskrivning av varje metod och de beslutsregler som används. De tre variabelselektionsmetoderna beskrivs i detalj i avsnitt 3.3. 1 Då har även en modell med bara ett intercept inkluderats, dvs. en minimal modell. 7

Metod Kort beskrivning Beslutsregler Stegvis variabelselektion (Stepwise) Framlänges variabelselektion (Forward) Börjar med en minimal modell, variabler läggs till modellen sekventiellt (framlänges selektion) Varje variabel som adderats kan även elimineras (kontroll för baklänges eliminering) Börjar med en minimal modell, variabler läggs till modellen sekventiellt (framlänges selektion) Stoppregel: fix beslutsregel som avgör om en variabel bör adderas eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Scoretest Elimineringsregel: fix beslutsregel som avgör om en tidigare adderad variabel bör behållas eller inte. Elimineringsregeln definieras av en förutbestämd signifikansnivå (λ-värde) Statistiskt test (i denna uppsats): Waldtest Stoppregel: fix beslutsregel som avgör om en variabel bör adderas eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Scoretest Baklänges variabelselektion (Backward) Börjar med en fullständig modell (med p variabler), variabler elimineras sedan sekventiellt Stoppregel: fix beslutsregel som avgör om en variabel bör elimineras eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Waldtest Tabell 2.1 Översikt av stegvis, framlänges och baklänges variabelselektionsmetoderna. Innebörden av vad som gör en variabel betydelsefull för en modell är inte fullständigt utrett i litteraturen, men en möjlig tolkning är att en variabel är viktig om dess uteslutning har en betydande påverkan på modellens prediktionsförmåga (Izenman, 2008). I denna uppsats är variablers betydelse definierad i termer av statistisk signifikans. När det gäller automatiserade metoder för selektion av variabler inom logistisk regression kan t.ex. Scoretestet eller Waldtestet användas för att avgöra om en variabel ska inkluderas i modellen eller elimineras från modellen (se Tabell 2.1). Vidare har forskning visat att dessa tre selektionsmetoder ofta producerar likartade resultat, men att resultaten sällan är reproducerbara (Thompson, 1995; Austin & Tu, 2004). Austin & Tu (2004) fann i sin studie med hjälp av simuleringar att små variationer i ett dataset kan påverka vilka variabler som väljs. Detta innebär att selektionsmetoderna ofta leder till modeller som inte nödvändigtvis skulle erhållas med annan, liknande data. Urvalsfel är den variation i ett urval som är unikt för det urvalet och kan därmed inte återskapas i ett annat urval (Austin & Tu, 2004). En risk med automatiserad variabelselektion är alltså att en modell optimeras för ett specifikt dataset, men om ett liknande dataset används istället kan det resultera i en väldigt annorlunda modell (Menard, 2002). Detta kan inträffa då två olika urval dras från samma population. Thompson (1995) anser dock att detta är ett mindre allvarligt problem om urvalet är tillräckligt stort samt om de ursprungliga variablerna inte är för många. Det finns inga riktlinjer eller rekommendationer för vilken av de tre metoderna som ska användas. Enligt Agresti (2002) föredrar många forskare baklänges metoden över framlänges metoden. Anledningen till detta är att det kan kännas tryggare att eliminera variabler en i taget från en fullständig modell än att addera en variabel i taget till en minimal (tom) modell. En risk med framlänges metoden är att selektionsproceduren avslutas för tidigt om ett hypotestest i ett tidigt steg under proceduren har låg styrka (Agresti, 2002). Där styrka definieras som sannolikheten att förkasta nollhypotesen när alternativhypotesen är sann. 8

3. Material och metod 3.1. Datamaterial Datamaterialet för denna uppsats har erhållits från Skolverket och omfattar 25 652 elever hösten 2013. Dessa elever påbörjade gymnasieskolan i Stockholms län hösten 2009. Vi studerar med andra ord gymnasieelever som vid hösten 2013 har haft fyra år på sig att avsluta sina gymnasiestudier. Materialet från Skolverket är skyddat för att minimera röjanderisk. För den empiriska studien avgränsar vi oss till att med hjälp av variabelselektionsmetoderna identifiera vilka variabler som påverkar en elevs gymnasiebetyg i ämnena Matematik A och Svenska A. Vid genomgången av materialet framkom det att vissa elever inte fått något betyg alls vare sig i Engelska, Matematik eller Svenska när de slutat årskurs 9. Vi undersöker därför inte dessa elever. I denna studie medtags således endast de som har betyg, Icke Godkänt (IG), Godkänt (G), Väl Godkänt (VG) eller Mycket Väl Godkänt (MVG) i dessa grundskoleämnen. Av de 18 nationella gymnasieprogram som finns är 6 högskoleförberedande. För denna uppsats har vi valt att begränsa oss till de elever som har läst det Samhällsvetenskapliga programmet (SP) eller det Naturvetenskapliga programmet (NP) som båda är högskoleförberedande utbildningar. Övriga avgränsningar görs löpande i uppsatsen. Responsvariablerna, betyg i Matematik A och betyg i Svenska A, är båda ordinala och kan anta fyra olika kategorier (IG, G, VG, MVG). Utifrån programmen SP och NP samt betygen i Matematik A och Svenska A har fyra dataset skapats, se Tabell 3.1. Dataset Responsvariabel Program inriktning Antal observationer (elever) 1 Matematik A NP 3502 2 Matematik A SP 6838 3 Svenska A NP 3474 4 Svenska A SP 6789 Tabell 3.1 Beskrivning av de fyra olika dataseten som används i studien. 9

I Tabell 3.2 framgår frekvensfördelningen för olika betygsteg i varje dataset. Betygssteg Frekvenser för responsvariabeln Matematik A Frekvenser för responsvariabeln Svenska A Dataset 1 Dataset 2 Dataset 3 Dataset 4 IG 0 71 5 11 G 371 2979 446 1633 VG 1238 2665 1455 3112 MVG 1893 1123 1568 2033 SUMMA 3502 6838 3474 6789 Tabell 3.2 Betygsfördelning redovisat i antal för de fyra olika dataseten. Tabell 3.3 beskriver andelen elever för olika betygsteg för dessa fyra dataset. Betygssteg Andel elever för responsvariabeln Matematik A (%) Andel elever för responsvariabeln Svenska A (%) Dataset 1 Dataset 2 Dataset 3 Dataset 4 IG 0 1,04 0,14 0,16 G 10,59 43,57 12,84 24,05 VG 35,35 38,97 41,88 45,84 MVG 54,05 16,42 45,14 29,95 SUMMA 100 100 100 100 Tabell 3.3 Betygsfördelning redovisat i andelar för de fyra olika dataseten. Vi ser i Tabell 3.3 att betygsfördelningen för Matematik A och Svenska A för de som läst NP är strängt växande. Vi ser även i Tabell 3.3 att betygsfördelningen för Matematik A och Svenska A för de som läst SP är unimodal med en maxpunkt i betygsintervallet. Generellt ser vi även att det är väldigt få elever som har betyget IG. 10

Variablerna för den empiriska studien sammanfattas i Tabell 3.4. SAS Variabel kod MATTE_A SVA_A Variabel namn Variabel typ Kategorisk, ordinal Kategorisk, ordinal MA_GR X 1 Kategorisk, ordinal SV_GR X 2 Kategorisk, ordinal EN_GR X 3 Kategorisk, ordinal DKON X 4 Kategorisk, dikotom 4 4 4 4 4 2 Antal kategorier Beskrivning Responsvariabel för betyg i Matematik A 1 = IG, 2 = G, 3 = VG, 4 = MVG Responsvariabel för betyg i Svenska A 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Matematik årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Svenska årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Engelska årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Kön Man=0 Kvinna=1 AGE X 5 Numerisk - Elevens ålder (i antal år) hösten 2013 UTL_BAKG X 6 Kategorisk 3 FORUNIVA X 7 Kategorisk 5 DSLHMAN X 8 Kategorisk, dikotom DHMAN_AR9 X 9 Kategorisk, dikotom 2 2 Elevens bakgrund 0 = svensk 1 = 2:a generationsinvandrare 2 = 1:a generationsinvandrare Föräldrarnas utbildningsnivå 0 = okänd; 1 = förgymnasial, 2 = gymnasial, 4 = högskola ( 3 år), 5 = högskola (> 3 år) Huvudman i gymnasiet 0 = kommun/ landsting; 1 = fristående Huvudman i grundskolan 0 = kommun/landsting; 1 = fristående 41 (NV) SL_SKOM X 10 Kategorisk Skolkommuner i Stockholms län 60 (SP) Tabell 3.4 Variabellista med variabelkoder och beskrivning av variablerna i de fyra dataseten. Variabler och är responsvariabler i statistiska analyser (se Kapitel 4) för dataset 1, 2, 3 och 4. Variabler till är förklarande variabler i samtliga fyra dataset. Det kräver mycket datorkapacitet att köra automatisk variabelselektion (se Kapitel 4), därför begränsades antalet förklarande variabler till 15. Givet att vi redan har 10 förklarande variabler i datasetet skapades även fem interaktionstermer ( som kan anses vara informativa. Detta innebär att vi har 15 förklarande variabler i vår fullständiga modell. 11

3.2. Logistisk regression Vid logistisk regression vill vi undersöka sambandet mellan en kategorisk responsvariabel och ett antal prediktorer. 3.2.1. Länkfunktion Logistisk regression utnyttjar logit funktionen som länkfunktion, där logit funktionen generellt för en sannolikhet kan skrivas Inversen av logit (den logistiska funktionen) kan sedan skrivas som Fördelen med den logistiska funktionen är att den resulterar i värden som ligger mellan 0 och 1, och därmed garanterar att sannolikheten också ligger mellan 0 och 1. Om går mot oändligheten så går mot 1, och om går mot minus oändligheten går mot 0. Alternativa länkfunktioner vid modellering av sambandet mellan en kategorisk responsvariabel och ett antal prediktorer är t.ex. probit (liknar logit) samt complementary loglog (ej symmetrisk, såsom logit och probit). 3.2.2. Binär logistisk regression Om sambandet mellan en binär responsvariabel och förklarande variabler beskrivs med en linjär regressionsmodell,, kan vi inte garantera att Här är en given uppsättning av förklarande variabler. Låt den betingade sannolikheten för utfallet 1, för en given uppsättning av förklarande variabler, betecknas. Genom att använda oss utav logit funktionen kan vi lösa detta problem enligt där är den linjära komponenten i den logistiska regressionsmodellen. är en vektor av parametrar som ska skattas. Om vi sedan tar inversen av logit funktionen får vi enligt ekvation (3.2) Logit funktionen garanterar att sannolikheten,, ligger mellan 0 och 1 (Kutner et al., 2005). 12

För fallet med endast en prediktor med en linjär komponent implicit skrivas som, kan oddskvoten där och är specifika värden på. Ifall (då x är kvantitativ) kan oddskvoten explicit skrivas som representerar förändringen i den naturliga logaritmen av odds, för sannolikheten associerad med en enhetsförändring i. 3.2.3. Nominal logistisk regression En nominal logistisk regressionsmodell kan användas för att beskriva sambandet mellan en kategorisk responsvariabel och ett antal prediktorer, där antalet responskategorier är större eller lika med två. Om antalet kategorier är två erhålls specialfallet binär logistisk regression. Om antalet kategorier hos den kategoriska responsvariabeln är större än två kan nominal logistisk regression användas både då responsvariabeln är nominal eller ordinal. Ett exempel på en ordinal variabel är samt i Tabell 3.4 ovan. Fallet då kallas ibland även för polytom eller multikategorisk logistisk regression. Låt responskategorin vara,. Sannolikheten för utfall för observation, är Vidare är en given uppsättning av förklarande variabler, vilket ger att den betingade sannolikheten för utfallet, för en given uppsättning förklarande variabler, kan betecknas, där och Summan av sannolikheter över utfallsrummet summeras till ett: Den nominala logistiska regressionsmodellen med referenskategori är följande: Kategori i ekvationen ovan avser en godtyckligt vald referenskategori. Där alltså parametervektorer ( ) behöver skattas. 13

Avslutningsvis kan sedan sannolikheter per kategori beräknas enligt Detta är en komplex, svårtolkad modell (Kutner et al., 2005). Om följande modell användas. är ordinal kan eventuellt 3.2.4. Ordinal logistisk regression (proportionella odds modellen) För en ordinal responsvariabel kan en ordinal logistisk regressionsmodell användas förutsatt att antagandet om proportionella odds ( parallel lines ) är uppfyllt (se avsnitt 3.5). Denna modell tar hänsyn till den naturliga ordningen bland responskategorierna, vilket leder till att vi får en modell som är enklare att tolka (Kutner et al., 2005). Ordinal logistisk regression kallas ibland även för en kumulativ odds modell. Modellen utgår från kumulativa sannolikheter istället för de specifika kategori sannolikheter som användes vid nominal logistisk regression. En kumulativ sannolikhet kan skrivas som Den ordinala logistiska regressionsmodellen utgår ifrån: Det proportionella odds antagandet innebär att regressionsmodellen kan då beskrivas enligt. Den ordinala logistiska Proportionella odds antagandet måste dock testas (se avsnitt 3.5.1). I de fall då vi har en ordinal responsvariabel, men antagandet om proportionella odds inte är uppfyllt, kan t.ex. nominal logistisk regressionsmodell användas (se avsnitt 3.2.3) eller en partiell proportionell odds modell användas (Peterson & Harrell, 1990). I den sistnämnda modellen antas att en delmängd av de förklarande variablerna inte uppfyller antagandet om proportionella odds. I denna uppsats används ordinal logistisk regression. 14

För en ordinal logistisk regressionsmodell behöver endast en vektor av riktningskoefficienter skattas, medan intercepten blir unika för varje responskategori. Detta kan jämföras med den nominala modellen, där varje parametervektor 2 är unik. Vidare kan exp, liksom vid binär logistisk regression, tolkas som en oddskvot, där är koefficienten för en enskild variabel, Skillnaden jämfört med det binära fallet blir dock att här får vi kumulativa oddskvoter, eftersom vi utgår från kumulativa sannolikheter. För fallet med endast en prediktor ( ) med en linjär komponent, kan den kumulativa oddskvoten implicit skrivas som Där och är specifika värden på. Då (då x är kvantitativ) kan alltså den kumulativa oddskvoten explicit skrivas som representerar förändringen i den naturliga logaritmen av kumulativa odds, för sannolikheten associerad med en enhetsförändring i. Avslutningsvis kan kumulativa sannolikheter beräknas enligt Detta ger sedan sannolikheterna för varje kategori Parameterskattningar i den ordinala logistiska regressionsmodellen För att skatta modellparametrar kan maximum-likelihood metoden användas. Givet ett urval av storlek, kan likelihood funktionen vid ordinal logistisk regression med proportionella odds antagandet skrivas: 2 Inkluderar både en vektor av riktningskoefficienter samt en vektor av intercept. 15

där är binära variabler för varje observation, dvs. då utfallet är. Likelihood funktionen är en funktion av och en vektor av riktningskoefficienter. Maximum-likelihood skattningarna för dessa parametrar är då de skattningar som maximerar likelihood funktionen. Inferens En maximum likelihood estimator (MLE) för en modellparameter är asymptotiskt normalfördelad. Det innebär att maximum-likelihood skattningars samplingsfördelning vid stora urval är approximativt normalfördelade, med varianser och kovarianser som är funktioner av andra-ordningens partiella derivator av den naturliga logaritmen av likelihood funktionen. Inferens (intervallskattningar och statistiska test) inom logistisk regresson är baserad på att maximum-likelihood skattningars samplingsfördelning är approximativt normalfördelad (Kutner et al., 2005). Att normalfördelad för stora utnyttjas t.ex. i ett Waldtest för en enskild modellparameter enligt där Test-statistikan under för stora är 16

3.3. Variabelselektionsmetoder Stegvis, framlänges och baklänges variabelselektion utgår från förklarande variabler. Den resulterande modellen som väljs av respektive metod benämns här slutmodell. Olika test-statistikor i olika statistikprogram används vid val av variabler i de tre selektionsmetoderna. Till exempel i statistikprogramvaran SAS används Scoretest vid framlänges variabelselektion samt vid framlänges selektion inom stegvis variabelselektion. Waldtest används vid baklänges variabelselektion samt vid kontroll för eliminering inom stegvis variabelselektion (se Tabell 2.1). CLASS kommandot används i SAS för att hantera kategoriska, förklarande variabler som har fler kategorier än två 3. Generellt gäller för alla modeller i metoderna nedan. Nedan har vi utelämnat index, motsvarande observation. 3.3.1. Stegvis variabelselektion Den stegvisa metoden innefattar framlänges selektion samt kontroll för baklänges eliminering. Metoden kan beskrivas med följande steg (Hosmer et al., 2013). Steg 1: Framlänges selektion. I detta steg jämförs en minimal modell som består bara av ett intercept med andra modeller som alla innehåller en variabel För modeller kan vi testa den minimala modellen mot en modell som innehåller en variabel. Detta ger oss sammanlagt stycken p-värden. 3 Framställningen här är principiellt korrekt, men förenklad. Variabeln X motsvarar här endast kvantitativa eller binära variabler. 17

Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 2 med den utvalda variabeln. Annars avslutas metoden. Steg 2: Framlänges selektion. I detta steg jämförs en modell som innehåller den variabel som valdes i Steg 1, med andra modeller som alla innehåller en av de kvarvarande (ej utvalda) variablerna samt den utvalda variabeln från Steg 1,. Detta ger oss stycken utav följande modeller För dessa p-1 modeller kan vi göra följande test Detta ger oss sammanlagt stycken p-värden. Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 3 med de utvalda variablerna (. Annars avslutas metoden. Steg 3 omfattar Steg 3(i) och Steg 3(ii). 18

Steg 3(i): Kontroll för baklänges eliminering. Först jämförs en modell med endast variabeln (Modell 1) med en modell som inkluderar både variabel och (Modell 2). En jämförelse i formen av ett statistiskt test mellan dessa två modeller ger ett p-värde ( ). Sedan jämförs en modell med endast variabeln (Modell 3) med en modell som inkluderar både variabel och (Modell 2). En jämförelse i formen av ett statistiskt test mellan dessa två modeller ger ett p-värde ( ). Låt den förutbestämda signifikansnivån i elimineringsregeln vara. Elimineringsregeln är då följande: Ifall prövar vi följande hypotes Om, förkastas, och då följer variablerna ( med till Steg 4. Om inte förkastas följer variabel med till Steg 4. Alternativt ifall prövar vi följande hypotes, Om, förkastas, och då följer variablerna ( med till Steg 4. Om inte förkastas följer variabel med till Steg 4. Steg 3(ii): Framlänges selektion I detta steg jämförs en modell med de variabler som valdes i Steg 2, med andra modeller som alla innehåller en av de kvarvarande (ej utvalda) variablerna samt de utvalda variablerna, och, från Steg 2. Detta ger oss stycken utav följande modeller 19

För dessa modeller kan vi göra följande test, Detta ger oss sammanlagt p-2 stycken p-värden. Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 4 med samt variablerna/variabeln från Steg 3(i). Annars avslutas metoden. Steg 4: Proceduren för Steg 4 är identisk med den i Steg 3 (Steg 3(i) och Steg 3(ii)). Proceduren forstätter på detta vis tills metoden avslutas vid Steg S. Steg S: Detta inträffar då: (1) Alla variabler har inkluderats i modellen, eller (2) Alla variabler i modellen har p-värden (beräknade vid baklänges elimineringssteget) som är mindre än λ. Och alla variabler som inte inkluderats i modellen har p-värden (beräknade vid framlänges selektionssteget) som är större än α. 20

3.3.2. Framlänges variabelselektion Denna metod motsvarar stegvis selektion utan kontroll för baklänges eliminering. 3.3.3. Baklänges variabelselektion Denna metod kan beskrivas med följande steg. Steg 1: I detta steg jämförs en fullständig modell med p variabler, med p andra modeller som alla innehåller p-1 variabler (dvs. i varje modell har en utav p variabler tagits bort). För alla dessa modeller kan vi testa den fullständiga modellen mot en modell som innehåller variabler. Här används olika test-statistikor i olika statistikprogram. Därefter väljs modellen med högst p-värde, signifikansnivå (α)., som sedan jämförs med en förutbestämd Det vill säga för den valda modellen gör vi följande test H 0 (reducerad modell): modell med p-1 variabler (den med högst p-värde). Stoppregeln är följande: H A (full modell): den fullständiga modellen med p variabler. Om, kan inte förkastas och vi går till Steg 2 med den utvalda modellen med variabler (en variabel elimineras). Annars avslutas proceduren. Steg 2: Samma process som i Steg 1. Proceduren avslutas vid det tillfälle då alla variabler har eliminerats i modellen eller då stoppregeln uppfyllts. 21

3.3.4. Scoretest och Waldtest För att testa de förklarande variablernas signifikans, dvs. vilka variabler som ska adderas till modellen eller elimineras från modellen, används Scoretest och Waldtest. Fördelen med Waldtest och Scoretest jämfört med Likelihood kvottestet är att bara en modell under behöver skattas. Vid baklänges variabelselektion innebär det att endast en modell behöver skattas vid varje Waldtestet. Vid framlänges variabelselektion innebär det att endast en modell behöver skattas vid varje Scoretest (Fox, 1997; Johnston & DiNardo, 1997). Waldtest Linjära hypoteser för regressionskoefficienter kan uttryckas i matrisform som Wald test-statistikan för test av beräknas som där är en matris av koefficienter för de linjära hypoteserna och är en vektor av konstanter. Vektorn av regressionskoefficienter innefattar lutningsparametrar samt interceptparametrar. är den skattade kovariansmatrisen av. Under följer asymptotiskt en chi-två fördelning med frihetsgrader, där är rangen av. Scoretest Score statistikan för att testa definieras som där är en vektor av första ordningens partiella derivator (d.v.s. en Jacobian) av loglikelihood funktionen med avseende på parametervektorn ; är en matris av andra ordningens partiella derivator (d.v.s. en Hessian) av log-likelihood funktionen med avseende på ; är väntevärdet av, och är maximum likelihood skattningen av under. Score test-statistikan har en asymptotisk chi-två fördelning med frihetsgrader under, där är antalet restriktioner införda på under. 22

3.3.5. Stoppregel och elimineringsregel För de automatiserade variabelselektionsmetoderna specificeras förutbestämda signifikansnivåer (α) för att avgöra om en variabel ska inkluderas i eller elimineras från en modell. Med hjälp av signifikansnivåer kan antalet variabler som kommer med i den slutgiltiga modellen kontrolleras. Högre signifikansnivåer vid framlänges selektion gör det möjligt för fler variabler att inkluderas och lägre signifikansnivåer vid baklänges selektion ser till att inte alla möjliga variabler kvarstår i modellen (Derksen et al., 1992). Signifikansnivån kan alltså avgöra om en variabel kommer med eller inte i den resulterande slutmodellen (som är en delmängd av den fullständiga modellen). Valet av signifikansnivå bestäms av forskaren. Många anser att detta godtyckliga val av signifikansnivåer leder till opålitliga selekteringskriterier, eftersom det innebär att helt andra variabler kan väljas när en annan forskare använder en annan signifikansnivå (Rice, 2011). Statistiska test som används vid variabelselektionsmetoder använder sig inte av ett p-värde i den traditionella bemärkelsen vid hypotesprövning. De bör istället ses som indikatorer av relativ betydelse bland variabler i datasetet (Hosmer et al., 2013). Effekten av detta blir att signifikansnivåer för stoppregler oftast sätts på en högre nivå än vid traditionell hypotesprövning. Vissa statistiska datorprogram har som standardinställning att signifikansnivån (α) är 0,05. Men detta har kritiserats för att vara för lågt, eftersom att det kan leda till att betydelsefulla variabler uteslutes från modellen (Bendel et al., 1977). Vad som är den lämpligaste signifikansnivån har forskare i olika studier angett att det beror på vilken variabelselektionsmetod som används. Stegvis variabelselektion Vid stegvis variabelselektion rekommenderade Bendel et al. (1977) att de optimala signifikansnivåerna (för stoppregeln (α) och elimineringsregeln (λ)) ligger mellan 0,15 och 0,25. Hosmer et al. (2013) förordar att signifikansnivån för elimineringsregeln är något högre än signifikansnivån för stoppregeln. Till exempel kan det vara lämpligt att välja en signifikansnivå för elimineringsregeln som är lika med signifikansnivån för stoppregeln plus 2 till 5 procentenheter. Detta för att undvika att samma variabel adderas och elimineras successivt i följande steg. Elimineringsregeln innebär att ett minimum krav ställs på en variabels bidrag till modellen (Hosmer et al., 2013). Framlänges variabelselektion Lee & Koval (1997) visade i en studie att signifikansnivåer som varierar mellan 0,05 och 0,40 är lämpligast för framlänges variabelselektion inom logistisk regression, men gav en generell rekommendation att 0,15 < α < 0,20 bör användas. Liknande rekommendationer har givits i en annan studie där signifikansnivåer mellan 0,15 och 0,25 resulterade i att inte alltför många icke-relevanta variabler kom med i modellen, samtidigt som signifikansnivån var stor nog att autentiska variabler (relevanta) inkluderades (Bendel et al., 1977). 23

Baklänges variabelselektion För baklänges selektion har α=0,10 rekommenderats (Kennedy & Bancroft, 1971), medan Wang et al. (2008) rekommenderar 0,20 < α < 0,40. Vidare anmärker Wang et al. (2008) att antalet förklarande variabler, p, är viktigt för att bestämma optimala signifikansnivåer. De menar alltså att den bästa signifikansnivån ökar när antalet variabler i datasetet ökar enligt formeln α=p/100. Det innebär att det är svårt att ge generella rekommendationer för val värden på signifikansnivåer. 24

3.4. Informationskriterier Efter att de tre metoderna för variabelselektion (se avsnitt 3.3) applicerats, kommer vi i denna uppsats att ha ett relativt stort antal modeller kvar att välja mellan per dataset (se Kapitel 4). Detta val baserar vi på ett informationskriterium. Den lämpligaste modellen av en mängd av konkurrerande modeller definieras ofta som den modell som ger den relativt bästa anpassningen till data (Hosmer & Lemeshow, 2000). Hur bra denna anpassning till data blir beror bl.a. på antalet parametrar i modellen. Ett för stort antal parametrar kan leda till att algoritmer för parameterskattningarna inte konvergerar (Dobson, 2002). Den lämpligaste modellen, dvs. den som ger relativt bäst anpassning, brukar ofta väljas genom att anpassa konkurrerande modeller till data och jämföra modellernas anpassningsgrad. Viktigt att notera i detta sammanhang är att dessa konkurrerande modeller kan innehålla samma antal parametrar men olika prediktorer eller olika antal parametrar. I fallet med olika prediktorer är det inte meningsfullt att jämföra modellernas anpassningsgrad med hjälp av test-statistikor som används för jämförelse av nested models. Av denna anledning har jämförelsemått skapats som tar hänsyn till antalet parametrar i respektive modell. Två av de vanligaste måtten av denna typ är s.k. informationskriterier, Akaike informationskriterium (AIC) och Schwarz informationskriterium (SC) som ibland kallas Bayesian Information Criterion, BIC. Låt vara en parametervektor av dimension q för en modell. Akaike informationskriterium definieras som där betecknar logaritmen av den skattade likelihoodfunktionen. Schwarz informationskriterium kan i sin tur definieras som där n är antalet observationer i urvalet. Den modell utav alla konkurrerande modeller som har minst värde på eller väljs som bästa modell utifrån respektive AIC eller SC. Både AIC och SC baseras alltså på skattningar av log-likelihoodfunktionen samt justerar för antalet parametrar i modellen (Cnaan et al., 1997). Om, till exempel, två modeller har samma värde för maximum av log-likelihood funktionen, säger både AIC och SC att den lämpligaste modellen är den som har lägst antal parametrar, dvs. lägst värde på informationskriterierna. Den huvudsakliga skillnaden mellan kriterierna är att de straffar en modell för antal skattade parametrar på olika sätt (avseende logistisk regression se Shtatland et al., 2001). För n e 2 7, 39 straffar SC komplexa modeller mer än AIC. Vid relativt små urvalsstorlekar kan SC leda till att en alltför enkel modell (med alltför få parametrar) väljs en nackdel i jämförelse med AIC (Zucchini, 2000). En fördel med SC är att dess sannolikhet att identifiera 25

korrekt modell för datan ökar och går mot ett då et al., 2009)., vilket inte är fallet för AIC (Casella I denna uppsats utgår vi i valet av modell med bästa anpassningsgrad från AIC. Ett antal forskare (Yanagihara et al., 2003; Burnham & Anderson, 2004) framhäver att AIC kan ge biased resultat inom logistisk regression, vilket kan påverka valet av bästa modell vid små till medelstora urvalsstorlekar. Men eftersom vårt datamaterial består av tusentals observationer nivelleras denna bias. 26

3.5. Modellutvärdering I empiriska studier är det viktigt att ha modeller som är välanpassade till data för att kunna dra pålitliga slutsatser. I detta avsnitt diskuteras proportionella odds antagandet, anpassningstest och residualanalys för ordinal logistisk regression. För ordinala logistiska regressionsmodeller finns få metoder för anpassningstest och residualanalys i litteraturen, dessutom finns inga statistiskprogram som hanterar detta för ordinal logistisk regression (Fagerland & Hosmer, 2012; O'Connell & Liu, 2011). Istället rekommenderas då att modellutvärdering med avseende på anpassningstest och residualanalys vid en ordinal logistisk regressionsmodell (med J kategorier hos responsvariabeln) genomförs med hjälp av olika binära logistiska regressionsmodeller (Kutner et al., 2005; O'Connell & Liu, 2011). 3.5.1. Test för antagandet om proportionella odds För att testa om modellantagandet om proportionella odds prövas följande nollhypotes För att pröva denna hypotes kan olika statistiska test användas. I denna studie används Scoretest (finns i SAS). Om ej förkastas kan vi säga att data stöder att en ordinal logistisk regressionsmodell kan användas enligt följande modell Avsnitt 3.2.4 beskriver denna modell i detalj. 27

3.5.2. Hosmer-Lemeshow anpassningstest För ordinal logistisk regression ( kategorier hos responsvariabeln) rekommenderas alltså att anpassningstest genomförs med hjälp av binära logistiska regressionsmodeller, eftersom det finns få teoretiska modeller och inga statistiskprogram som hanterar anpassningstest för ordinal logistisk regression (Fagerland & Hosmer, 2012). Först väljs då en godtycklig referenskategori. Sedan körs en binär logistisk regressions modell för alla de övriga J-1 kategorierna (en i taget). Varje gång används endast data som tillhör referenskategorin samt den kategori som är aktuell, vilket innebär att vi då kan definiera en binär responsvariabel utifrån två kategorier hos responsvariabeln (Kutner et al., 2005). Hosmer-Lemeshows anpassningstest (goodness-of-fit test) utförs på en skattad binär logistisk regressionsmodell. För att testa om en skattad modell är lämplig för datamaterialet prövas följande hypotes Vid genomförandet av Hosmer-Lemeshows anpassningstest delas observationerna in i grupper (g) med liknande skattade sannolikheter Vanligtvis skapas tio grupper, där grupp 1 består av observationer med den lägsta skattade sannolikheten,, och grupp 10 består av observationer med den högsta skattade sannolikheten, (Hosmer et al., 2013). Antalet grupper kan väljas godtyckligt men kan dock inte vara färre än g=3. Låt responsvariabeln (, är antalet observationer i den jte gruppen, j=1,...,g) vara en Bernoulli variabel som kan anta värdena 0 eller 1. De observerade frekvenserna i grupp j då betecknas som och de observerade frekvenserna i grupp j då betecknas som. De observerade frekvenserna och blir följande, De skattade frekvenserna för den j:te gruppen är En korstabell med de observerade och skattade frekvenserna kan då skapas (Fagerland & Hosmer, 2012). 28

Hosmer-Lemeshows test-statistikan definieras som Under är Hosmer-Lemeshows anpassningstest mäter alltså hur bra de genomsnittliga förväntade sannolikheterna sammanfaller med de observerade sannolikheterna i de skapade grupperna. Att förkastas kan t.ex. bero på en felaktig modellspecifikation, en felaktig länkfunktion, befintliga outliers (se avsnitt 3.5.3) eller overdispersion (Collett, 2003). Modellspecifikation: Frågan här är om den linjära komponenten i modellen är korrekt specificerad. Problem kan orsakas av att irrelevanta variabler från datasetet inkluderats, att informativa variabler saknas och/eller att den funktionella formen för variablerna är felaktig. Länkfunktion: I denna uppsats används logit som länkfunktion (se avsnitt 3.2.1). Alternativa länkfunktioner som förekommer är probit samt complementary log-log modeller. Overdispersion: På grund av heterogenitet och/eller korrelation mellan observationer på responsvariabeln blir variansen större än vad som antas i modellen. Overdispersion kan öka osäkerheten vid inferens om det inte åtgärdas (Collett, 2003). 29

3.5.3. Residualanalys För ordinal logistisk regression ( kategorier hos responsvariabeln) rekommenderas alltså att residualanalys genomförs med hjälp av binära logistiska regressionsmodeller, eftersom det finns få teoretiska modeller och inga statistiskprogram som hanterar residualanalys för ordinal logistisk regression (O'Connell & Liu, 2011). Först väljs då en godtycklig referenskategori. Sedan körs en binär logistisk regressions modell för alla de övriga kategorierna (en i taget). Varje gång används endast data som tillhör referenskategorin samt den kategori som är aktuell, vilket innebär att vi då kan definiera en binär responsvariabel utifrån två kategorier hos responsvariabeln (Kutner et al., 2005). I detta avsnitt betraktar vi tre moment för residualanalys vid binär logistisk regression. Först, en genomgång av residualer, sedan hur residualanalys kan användas för anpassningstest samt sist hur residualanalys kan användas för att identifera outliers (Kutner et al., 2005). Residualer vid binär logistisk regression I logistisk regression kan Y-variabeln anta ett av två värden residual,, också bara anta ett av två värden,. Därför kan en där,. Residualer är skattningar av feltermen per observation. De mäter avståndet mellan den skattade modellen samt enskilda observationer. Men i vårt fall har vi individuell data (responsvariabeln är binär). Då, eftersom bara två värden kan antas, kan inga antaganden om fördelningen för residualerna göras. Inga utav residualerna som erhålls vid binär logistisk regression kan därmed approximeras med normalfördelningen (Collett, 2003). Vidare, eftersom responsvariabeln i detta avsnitt är binär, är plottar av residualer mot den linjära prediktorn eller mot de förklarande variablerna i modellen generellt inte informativa (Collett, 2003; Kutner et al., 2005). Pearson residualer fås genom att residualen (3.36) delas med dess skattade standardavvikelse,, och definieras som 30

Den standardiserade Pearson residualen är definierad som där är Pearson residualen och, s.k. leverage, är det ite diagonala elementet av skattade hatt matrisen (eng; hat matrix): -1 där är en diagonal matris med element, och är en design matris, där q är antalet okända parametrar i modellen (för detaljer se Kutner et al., 2005; Collett, 2003). En annan residual är deviance residualen och dess motsvarande standardiserade version. Deviance residualen definieras som I detta avsnitt använder vi den standardiserade Pearson residualen samt (leverage). Residualanalys för anpassningstest En indexplott av standardiserade residualer mot observationernas ordningsnummer kan generellt ge användbar information för att utvärdera hur väl den linjära delen av modellen passar datan (Collett, 2003). Frånvaron av omfattande mönster i denna indexplott indikerar att modellen är väl anpassad till datan. Enligt Kutner et al. (2005) bör om modellen är korrekt en "lowess smooth" plot av residualer mot skattade sannolikheter approximativt resultera i en horisontell linje med ett noll intercept. En "Half-Normal Probability Plot with Simulated Envelope" kan användas för att utvärdera hur väl den linjära delen av modellen passar datan. Sammanfattningsvis inkluderar vi indexplottar för de standardiserade Pearson residualerna i Kapitel 4. Men dessa studeras inte i detalj, eftersom vårt huvudsakliga test för anpassning i Kapitel 4 är Hosmer-Lemeshow testet från avsnitt 3.5.2. Outliers Outliers är generellt värden på variabler för enskilda observationer som är mycket större eller mycket mindre än övriga värden i ett dataset (Kleinbaum et al., 2008). Outliers kan i vissa fall representera icke-slumpmässiga fel i termer av felaktig data i datasetet (mätfel, felaktig inmatning, etc.). Varje statistisk analys av data bör därför inledas med att studera de största samt minsta värden för varje variabel och sedan jämföra dessa med respektive variabels utfallsrum. Värden som bedöms vara felaktig data kan sedan omkodas till missing, dvs. partiellt bortfall (Kleinbaum et al., 2008). 31

Outliers som inte betraktas som felaktig data kan ibland påverka en modells anpassning till ett dataset (Kleinbaum et al., 2008). Om modellskattningen inte blir signifikant annorlunda då outliers plockas bort från datasetet kan dessa ignoreras. Om modellskattningen blir signifikant annorlunda då outliers plockas bort från datasetet kan eventuellt denna modellskattning väljas. Men ett sådant val måste noga motiveras. Det räcker då inte som motivering endast att en signifikant annorlunda modellskattning erhålls utan outliers (Kleinbaum et al., 2008). Outliers (avvikande observationer) som påverkar inferens för en modell kallas för inflytelserika observationer. Kleinbaum et al. (2008) betonar i detta sammanhang att outliers kan ses som en naturlig slumpmässig variation. Vissa författare hävdar till och med att outliers aldrig ska tas bort, eftersom ett dataset med outliers troligtvis är mer representativt än ett dataset utan outliers (Orr, Sackett & DuBois, 1991). Vid binär logistisk regression kan de statistiska mått som används för att identifiera outliers inte kopplas till någon form av statistisk fördelning (Kutner et al., 2005). Ett alternativ är då att förlita sig på olika former av tumregler. Genom att plotta mot observationerna i datasetet är det möjligt att identifiera avvikande observationer. Medelvärdet för är, och en förekommande tumregel för identifiering av avvikande observationer är (Hosmer et al., 2013). Dock så behöver höga leverage värden inte innebära att observationerna är inflytelserika, och inflytelserika observationer behöver inte anta höga leverage värden (Chatterjee & Yilmaz, 1992). Vid stora urval måste dock olika tumregler fokusera på andelen outliers i relation till urvalsstorleken (Kleinbaum et al., 2008). Kutner et al. (2005) anser att identifiering av potentiellt inflytelserika observationer vid binär logistisk regression får göras på basis av subjektiv visuell analys av lämpliga grafer. Avslutningsvis, relaterar även ett anpassningstest till outliers. Om anpassningstestet stöder att modellen är väl anpassad till data så stödjer detta att inga inflytelserika observationer av vikt finns i datasetet (Collett, 2003). Sammanfattningsvis, analyserar vi möjliga avvikande observationer i vår empiriska studie enligt följande (se Kapitel 4): De största samt minsta värden för varje variabel har jämförts med dess utfallsrum. plottar av (leverage) mot observationerna i datasetet. Hosmer-Lemeshow anpassningstest. 32

4. Resultat För att kunna tillämpa samt jämföra de tre variabelselektionsmetoderna väljer vi 19 olika värden på α (stoppregeln) från 0,05 till 0,95, där α ökar successivt med 0,05. För den stegvisa metoden sätter vi elimineringsregelns λ-värde till stoppregelns α-värde plus 2,5 procentenheter. För varje dataset erhåller vi 57 (3*19) slutmodeller, se Tabell 4.1. Dataset Baklänges variabelselektion Stegvis variabelselektion Framlänges variabelselektion 1-4 Modeller med 19 olika α-värden (stoppregeln) 0,05 α 0,95. Modeller med 19 olika kombinationer av stoppregelns α-värde, 0,05 α 0,95, samt elimineringsregelns λ-värde, 0,075 λ 0,975. Modeller med 19 olika α-värden (stoppregeln) 0,05 α 0,95. Tabell 4.1: Sammanfattning av signifikansnivåer för modeller valda med olika variabelselektionsmetoder för varje dataset. Nedan presenteras våra resultat. Dessa resultat diskuteras i Kapitel 5. Slutmodeller per dataset Vi använder ordinala logistiska regressionsmodeller för variabeln (betyget i Matematik A) och variabeln (betyget i Svenska A) för respektive dataset. För att identifiera faktorer som prediktera elevernas gymnasiebetyg används en ordinal logistisk regressionsmodell (se ekvation (3.13) i avsnitt 3.2.4) Analysen genomförs med SAS/STAT 9.4 The Logistic Procedure, där de automatiserade variabelselektionsmetoderna utförs genom kommandot SELECTION (= STEPWISE BACKWARD FORWARD). De variabler som väljs (slutmodeller) för de fyra dataseten med varje selektionsmetod redovisas i Tabell 4.2-4.5. Kolumn ett i Tabell 4.2-4.5 anger ett numeriskt namn för slutmodellerna (modellerna) i kolumn två, samt anger inom parantes antalet variabler. Kolumn tre är de variabelselektionsmetoder som valt variablerna i kolumn två och kolumn fyra anger de signifikansnivåer (stoppregler) som använts för varje metod. Kolumn fem anger AIC värdet för respektive modell. Principen för hur variablerna i kolumn två redovisas, är att modellen expanderas successivt med de variabler som läggs till. Till exempel är den första raden av variabler för Modell 1.2 och 1.1 densamma. På samma sätt är de två första raderna för Modell 1.2 och 1.3 densamma. 33