Kandidatuppsats. Statistiska institutionen. Bachelor thesis, Department of Statistics

Storlek: px
Starta visningen från sidan:

Download "Kandidatuppsats. Statistiska institutionen. Bachelor thesis, Department of Statistics"

Transkript

1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2014:x Automatiserade variabelselektionsmetoder för logistisk regression Automated variable selection methods in logistic regression Marina Andrianova Rahwa Ghebresellase Självständigt arbete 15 högskolepoäng inom Statistik III, VT2014 Handledare: Dr. Tatjana von Rosen

2 Sammanfattning Vid logistisk regression vill vi undersöka sambandet mellan en kategorisk responsvariabel och ett antal prediktorer. Valet av prediktorer som ska ingå i en regressionsmodell är en viktig och svår uppgift, speciellt då antalet variabler är stort. Ett sätt att lösa detta problem är att använda automatiserade variabelselektionsmetoder. I denna uppsats beskrivs, tillämpas och jämförs de tre mest förekommande automatiserade variabelselektionsmetoderna; framlänges, baklänges och stegvis. Dessa metoder tillämpas på data från Skolverket för att identifiera de faktorer som predikterar elevers gymnasiebetyg. Eftersom responsvariabeln är betyg kan en ordinal logistisk regressionsmodell användas. Resultaten av den empiriska studien visar att de tre variabelselektionsmetoderna ofta leder till samma slutmodell, vilket överensstämmer väl med tillgängliga forskningsresultat. Vid användning av de tre variabelselektionsmetoderna kan forskaren själv välja signifikansnivån i metodernas beslutsregler (stoppregel och elimineringsregel) och på så vis påverka sitt slutresultat. För de valda slutmodellerna i den empiriska studien låg signifikansnivåerna ( ) i följande intervall:. Detta ganska breda intervall av signifikansnivåer överlappar med de mest vanliga rekommendationerna som förekommer i teorin. Nyckelord: framlänges variabelselektion, baklänges variabelselektion, stegvis variabelselektion, Akaike informationskriterium, proportionella-odds, ordinal logistisk regression, stoppregel. 2

3 Förord Ett stort tack till Sven Sundin, undervisningsråd på Skolverket, som försett oss med datamaterial och hjälpt till med att tolka detta. Vi tackar Tatjana von Rosen, docent på Statistiska institutionen vid Stockholms universitet, för inspiration och handledning. 3

4 Innehållsförteckning 1. INTRODUKTION BAKGRUND MATERIAL OCH METOD DATAMATERIAL LOGISTISK REGRESSION LÄNKFUNKTION BINÄR LOGISTISK REGRESSION NOMINAL LOGISTISK REGRESSION ORDINAL LOGISTISK REGRESSION (PROPORTIONELLA ODDS MODELLEN) VARIABELSELEKTIONSMETODER STEGVIS VARIABELSELEKTION FRAMLÄNGES VARIABELSELEKTION BAKLÄNGES VARIABELSELEKTION SCORETEST OCH WALDTEST STOPPREGEL OCH ELIMINERINGSREGEL INFORMATIONSKRITERIER MODELLUTVÄRDERING TEST FÖR ANTAGANDET OM PROPORTIONELLA ODDS HOSMER-LEMESHOW ANPASSNINGSTEST RESIDUALANALYS RESULTAT DISKUSSION LITTERATURFÖRTECKNING BILAGA A: URVAL AV SAS UTSKRIFTER BILAGA B: PROGRAMKODER

5 1. Introduktion I Sverige har sedan början på 1990-talet ett antal genomgripande skolreformer genomförts. Målet har varit att förbättra den svenska skolan genom att dels höja den allmänna kvaliteten på utbildningen, dels skapa ett skolsystem som kan effektiviseras med hjälp av decentralisering (Skolverket, 2009). År 1990 kommunaliserades skolan och 1992 infördes fria skolval, en utbildningspolitisk reform som gjorde det möjligt att starta fristående skolor. År 2000 togs ett ytterligare steg mot en konkurrensinriktad skolmarknad då gymnasieskolor slutade att prioritera elever som kom från det egna området och istället antog elever enbart baserat på tidigare studieprestation (Vlachos, 2010). Det senaste decenniet har fokus på skolans resultat accentuerats i den allmänna skoldebatten. OECDs senaste PISA ("Programme for International Student Assessment") undersökning från 2012 visade att svenska 15-åringars resultat i matematik och läsförståelse har sjunkit (andelen lågpresterande elever har ökat samtidigt som andelen högpresterande elever minskat) jämfört med tidigare PISA undersökningar (Skolverket, 2013). Samtidigt som det rapporteras om en sjunkande kunskapsnivå så har den genomsnittliga betygsnivån ökat på grund- och gymnasieskolan (Skolverket, 2012). Att gymnasieskolor använder grundskolebetyg som det enda urvalskriteriet medför att betygen från grundskolan får en avgörande betydelse för elevens fortsatta studiemöjligheter. Att använda betyg som ett kunskapsmått är dock inte problemfritt. Men trots sina brister tyder forskning på att betyg i genomsnitt är en bra prediktor av framtida studieprestationer (Björklund et al., 2010). Inom forskning av utbildningsrelaterade frågor har logistisk regression sedan sent 1980-tal blivit en alltmer använd analysmetod (Peng et al., 2002). Logistisk regression, som tillhör en bredare familj av modeller kallade generaliserade linjära modeller, är en lämplig metod om responsvariabeln är kategorisk. Det innebär generellt att om vi i en empirisk studie använder oss av betyg som responsvariabel, kan vi använda oss av logistisk regression, eftersom betyg är en kategorisk variabel. Valet av prediktorer är ofta en svår uppgift att utföra manuellt, särskilt om antalet prediktorer är stort, vilket har resulterat i att användning av automatiserade variabelselektionsmetoder blivit vanligare. De variabelselektionsmetoder som liknar varandra mest är framlänges, baklänges och stegvis variabelselektion. En annan liknande variabelselektionsmetod är den s.k. bästa delmängdsselektion (eng: best subset selection). Dessa metoder kan användas för att skapa slutmodeller som är en delmängd av den fullständiga modellen (modellen med alla variabler). Uppsatsens syfte är att beskriva, tillämpa samt jämföra framlänges, baklänges och stegvis variabelselektion inom logistisk regression. Uppsatsen utförs dels som en beskrivande litteraturstudie genom att teori inom området gås igenom, dels genom att de tre metoderna tillämpas i en empirisk studie där data från Skolverket används. Datan omfattar responsvariabeln elevers gymnasiebetyg i ämnena Matematik A och Svenska A, samt ett relativt stort antal prediktorer. Eftersom responsvariabeln gymnasiebetyg (IG, G, VG och MVG) är ordinal används ordinal logistisk regression. Den empiriska studien syftar åt att jämföra de tre variabelselektionsmetoderna genom att bland annat undersöka om metoderna leder till samma uppsättning av förklarande variabler (slutmodell). 5

6 I nästa kapitel ges en översikt av framlänges, baklänges och stegvis variabelselektionsmetoderna. I Kapitel 3 presenteras datamaterialet samt metoderna som används i den empiriska studien. I Kapitel 4 presenterar vi resultaten från tillämpningen av metoderna på data från Skolverket. Uppsatsen avslutas med en diskussion av de erhållna resultaten i Kapitel 5. 6

7 2. Bakgrund Inom olika forskningsområden (utbildning, medicin, etc.) baseras ofta valet av de förklarande variabler (prediktorer) som ska ingå i en statistisk modell på automatiserade algoritmer som utnyttjar statistisk information. Utvecklingen av automatiserade metoder för val av variabler började på slutet av 1950-talet, och idag finns det många statistiska datorprogram som erbjuder olika automatiserade algoritmer för olika typer av statistiska modeller. Automatiserade selektionsmetoder används ofta i situationer där en a priori modell inte finns och/eller då datamaterialet innehåller många variabler. Generellt kan modeller 1 konstrueras, där är lika med antalet förklarande variabler (prediktorer) i den fullständiga modellen, vilket vanligtvis är fler än antalet oberoende variabler i datasetet, eftersom t.ex. interaktionstermer och kvadratiska termer ofta introduceras i den fullständiga modellen. Om antalet prediktorer i den fullständiga modellen t.ex. är 20, så kan alltså olika modeller konstrueras. Till exempel föreslår Collett (2003) att om antalet variabler i den fullständiga modellen överstiger 10 kan det vara lämpligt att använda sig av automatiserade metoder. Att hantera ett stort antal möjliga modeller manuellt kan medföra ökade kostnader, ökad tidsåtgång samt att risken att kvalitetsbrister kan uppstå, t.ex. att en slutmodell som inte är optimal väljs. Därför är det eftersträvansvärt att identifiera en enklare version av den fullständiga modellen, enligt sparsamhetsprincipen (principle of parsimony, se Derksen et al., 1992). Även om automatiserade metoder erbjuder möjligheten att göra detta är litteraturen fylld med kritik mot dessa metoder. Vidare finns inga tydliga gemensamma rekommendationer för hur en studie med automatiserade metoder ska genomföras. Detta försvårar genomförandet av dataanalys. En del forskare menar att automatiserade selektionsmetoder endast är ett explorativt statistiskt verktyg för val av prediktorer. De ska alltså inte ses som substitut för val av variabler baserade på mänskliga bedömningar (Hosmer et al., 2013; Menard, 2002). Men metoderna anses ändå vara behjälpliga i sökandet av en lämplig modell om resultaten används med försiktighet (Agresti, 2002). Austin & Tu (2004) betonar att automatiserade selektionsmetoder alltid bör kombineras med omfattande kunskap inom tillämpningsområdet. Tabell 2.1 visar en sammanfattning av de tre variabelselektionsmetoderna som används i denna uppsats. Tabellen ger en kort beskrivning av varje metod och de beslutsregler som används. De tre variabelselektionsmetoderna beskrivs i detalj i avsnitt Då har även en modell med bara ett intercept inkluderats, dvs. en minimal modell. 7

8 Metod Kort beskrivning Beslutsregler Stegvis variabelselektion (Stepwise) Framlänges variabelselektion (Forward) Börjar med en minimal modell, variabler läggs till modellen sekventiellt (framlänges selektion) Varje variabel som adderats kan även elimineras (kontroll för baklänges eliminering) Börjar med en minimal modell, variabler läggs till modellen sekventiellt (framlänges selektion) Stoppregel: fix beslutsregel som avgör om en variabel bör adderas eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Scoretest Elimineringsregel: fix beslutsregel som avgör om en tidigare adderad variabel bör behållas eller inte. Elimineringsregeln definieras av en förutbestämd signifikansnivå (λ-värde) Statistiskt test (i denna uppsats): Waldtest Stoppregel: fix beslutsregel som avgör om en variabel bör adderas eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Scoretest Baklänges variabelselektion (Backward) Börjar med en fullständig modell (med p variabler), variabler elimineras sedan sekventiellt Stoppregel: fix beslutsregel som avgör om en variabel bör elimineras eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Waldtest Tabell 2.1 Översikt av stegvis, framlänges och baklänges variabelselektionsmetoderna. Innebörden av vad som gör en variabel betydelsefull för en modell är inte fullständigt utrett i litteraturen, men en möjlig tolkning är att en variabel är viktig om dess uteslutning har en betydande påverkan på modellens prediktionsförmåga (Izenman, 2008). I denna uppsats är variablers betydelse definierad i termer av statistisk signifikans. När det gäller automatiserade metoder för selektion av variabler inom logistisk regression kan t.ex. Scoretestet eller Waldtestet användas för att avgöra om en variabel ska inkluderas i modellen eller elimineras från modellen (se Tabell 2.1). Vidare har forskning visat att dessa tre selektionsmetoder ofta producerar likartade resultat, men att resultaten sällan är reproducerbara (Thompson, 1995; Austin & Tu, 2004). Austin & Tu (2004) fann i sin studie med hjälp av simuleringar att små variationer i ett dataset kan påverka vilka variabler som väljs. Detta innebär att selektionsmetoderna ofta leder till modeller som inte nödvändigtvis skulle erhållas med annan, liknande data. Urvalsfel är den variation i ett urval som är unikt för det urvalet och kan därmed inte återskapas i ett annat urval (Austin & Tu, 2004). En risk med automatiserad variabelselektion är alltså att en modell optimeras för ett specifikt dataset, men om ett liknande dataset används istället kan det resultera i en väldigt annorlunda modell (Menard, 2002). Detta kan inträffa då två olika urval dras från samma population. Thompson (1995) anser dock att detta är ett mindre allvarligt problem om urvalet är tillräckligt stort samt om de ursprungliga variablerna inte är för många. Det finns inga riktlinjer eller rekommendationer för vilken av de tre metoderna som ska användas. Enligt Agresti (2002) föredrar många forskare baklänges metoden över framlänges metoden. Anledningen till detta är att det kan kännas tryggare att eliminera variabler en i taget från en fullständig modell än att addera en variabel i taget till en minimal (tom) modell. En risk med framlänges metoden är att selektionsproceduren avslutas för tidigt om ett hypotestest i ett tidigt steg under proceduren har låg styrka (Agresti, 2002). Där styrka definieras som sannolikheten att förkasta nollhypotesen när alternativhypotesen är sann. 8

9 3. Material och metod 3.1. Datamaterial Datamaterialet för denna uppsats har erhållits från Skolverket och omfattar elever hösten Dessa elever påbörjade gymnasieskolan i Stockholms län hösten Vi studerar med andra ord gymnasieelever som vid hösten 2013 har haft fyra år på sig att avsluta sina gymnasiestudier. Materialet från Skolverket är skyddat för att minimera röjanderisk. För den empiriska studien avgränsar vi oss till att med hjälp av variabelselektionsmetoderna identifiera vilka variabler som påverkar en elevs gymnasiebetyg i ämnena Matematik A och Svenska A. Vid genomgången av materialet framkom det att vissa elever inte fått något betyg alls vare sig i Engelska, Matematik eller Svenska när de slutat årskurs 9. Vi undersöker därför inte dessa elever. I denna studie medtags således endast de som har betyg, Icke Godkänt (IG), Godkänt (G), Väl Godkänt (VG) eller Mycket Väl Godkänt (MVG) i dessa grundskoleämnen. Av de 18 nationella gymnasieprogram som finns är 6 högskoleförberedande. För denna uppsats har vi valt att begränsa oss till de elever som har läst det Samhällsvetenskapliga programmet (SP) eller det Naturvetenskapliga programmet (NP) som båda är högskoleförberedande utbildningar. Övriga avgränsningar görs löpande i uppsatsen. Responsvariablerna, betyg i Matematik A och betyg i Svenska A, är båda ordinala och kan anta fyra olika kategorier (IG, G, VG, MVG). Utifrån programmen SP och NP samt betygen i Matematik A och Svenska A har fyra dataset skapats, se Tabell 3.1. Dataset Responsvariabel Program inriktning Antal observationer (elever) 1 Matematik A NP Matematik A SP Svenska A NP Svenska A SP 6789 Tabell 3.1 Beskrivning av de fyra olika dataseten som används i studien. 9

10 I Tabell 3.2 framgår frekvensfördelningen för olika betygsteg i varje dataset. Betygssteg Frekvenser för responsvariabeln Matematik A Frekvenser för responsvariabeln Svenska A Dataset 1 Dataset 2 Dataset 3 Dataset 4 IG G VG MVG SUMMA Tabell 3.2 Betygsfördelning redovisat i antal för de fyra olika dataseten. Tabell 3.3 beskriver andelen elever för olika betygsteg för dessa fyra dataset. Betygssteg Andel elever för responsvariabeln Matematik A (%) Andel elever för responsvariabeln Svenska A (%) Dataset 1 Dataset 2 Dataset 3 Dataset 4 IG 0 1,04 0,14 0,16 G 10,59 43,57 12,84 24,05 VG 35,35 38,97 41,88 45,84 MVG 54,05 16,42 45,14 29,95 SUMMA Tabell 3.3 Betygsfördelning redovisat i andelar för de fyra olika dataseten. Vi ser i Tabell 3.3 att betygsfördelningen för Matematik A och Svenska A för de som läst NP är strängt växande. Vi ser även i Tabell 3.3 att betygsfördelningen för Matematik A och Svenska A för de som läst SP är unimodal med en maxpunkt i betygsintervallet. Generellt ser vi även att det är väldigt få elever som har betyget IG. 10

11 Variablerna för den empiriska studien sammanfattas i Tabell 3.4. SAS Variabel kod MATTE_A SVA_A Variabel namn Variabel typ Kategorisk, ordinal Kategorisk, ordinal MA_GR X 1 Kategorisk, ordinal SV_GR X 2 Kategorisk, ordinal EN_GR X 3 Kategorisk, ordinal DKON X 4 Kategorisk, dikotom Antal kategorier Beskrivning Responsvariabel för betyg i Matematik A 1 = IG, 2 = G, 3 = VG, 4 = MVG Responsvariabel för betyg i Svenska A 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Matematik årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Svenska årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Engelska årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Kön Man=0 Kvinna=1 AGE X 5 Numerisk - Elevens ålder (i antal år) hösten 2013 UTL_BAKG X 6 Kategorisk 3 FORUNIVA X 7 Kategorisk 5 DSLHMAN X 8 Kategorisk, dikotom DHMAN_AR9 X 9 Kategorisk, dikotom 2 2 Elevens bakgrund 0 = svensk 1 = 2:a generationsinvandrare 2 = 1:a generationsinvandrare Föräldrarnas utbildningsnivå 0 = okänd; 1 = förgymnasial, 2 = gymnasial, 4 = högskola ( 3 år), 5 = högskola (> 3 år) Huvudman i gymnasiet 0 = kommun/ landsting; 1 = fristående Huvudman i grundskolan 0 = kommun/landsting; 1 = fristående 41 (NV) SL_SKOM X 10 Kategorisk Skolkommuner i Stockholms län 60 (SP) Tabell 3.4 Variabellista med variabelkoder och beskrivning av variablerna i de fyra dataseten. Variabler och är responsvariabler i statistiska analyser (se Kapitel 4) för dataset 1, 2, 3 och 4. Variabler till är förklarande variabler i samtliga fyra dataset. Det kräver mycket datorkapacitet att köra automatisk variabelselektion (se Kapitel 4), därför begränsades antalet förklarande variabler till 15. Givet att vi redan har 10 förklarande variabler i datasetet skapades även fem interaktionstermer ( som kan anses vara informativa. Detta innebär att vi har 15 förklarande variabler i vår fullständiga modell. 11

12 3.2. Logistisk regression Vid logistisk regression vill vi undersöka sambandet mellan en kategorisk responsvariabel och ett antal prediktorer Länkfunktion Logistisk regression utnyttjar logit funktionen som länkfunktion, där logit funktionen generellt för en sannolikhet kan skrivas Inversen av logit (den logistiska funktionen) kan sedan skrivas som Fördelen med den logistiska funktionen är att den resulterar i värden som ligger mellan 0 och 1, och därmed garanterar att sannolikheten också ligger mellan 0 och 1. Om går mot oändligheten så går mot 1, och om går mot minus oändligheten går mot 0. Alternativa länkfunktioner vid modellering av sambandet mellan en kategorisk responsvariabel och ett antal prediktorer är t.ex. probit (liknar logit) samt complementary loglog (ej symmetrisk, såsom logit och probit) Binär logistisk regression Om sambandet mellan en binär responsvariabel och förklarande variabler beskrivs med en linjär regressionsmodell,, kan vi inte garantera att Här är en given uppsättning av förklarande variabler. Låt den betingade sannolikheten för utfallet 1, för en given uppsättning av förklarande variabler, betecknas. Genom att använda oss utav logit funktionen kan vi lösa detta problem enligt där är den linjära komponenten i den logistiska regressionsmodellen. är en vektor av parametrar som ska skattas. Om vi sedan tar inversen av logit funktionen får vi enligt ekvation (3.2) Logit funktionen garanterar att sannolikheten,, ligger mellan 0 och 1 (Kutner et al., 2005). 12

13 För fallet med endast en prediktor med en linjär komponent implicit skrivas som, kan oddskvoten där och är specifika värden på. Ifall (då x är kvantitativ) kan oddskvoten explicit skrivas som representerar förändringen i den naturliga logaritmen av odds, för sannolikheten associerad med en enhetsförändring i Nominal logistisk regression En nominal logistisk regressionsmodell kan användas för att beskriva sambandet mellan en kategorisk responsvariabel och ett antal prediktorer, där antalet responskategorier är större eller lika med två. Om antalet kategorier är två erhålls specialfallet binär logistisk regression. Om antalet kategorier hos den kategoriska responsvariabeln är större än två kan nominal logistisk regression användas både då responsvariabeln är nominal eller ordinal. Ett exempel på en ordinal variabel är samt i Tabell 3.4 ovan. Fallet då kallas ibland även för polytom eller multikategorisk logistisk regression. Låt responskategorin vara,. Sannolikheten för utfall för observation, är Vidare är en given uppsättning av förklarande variabler, vilket ger att den betingade sannolikheten för utfallet, för en given uppsättning förklarande variabler, kan betecknas, där och Summan av sannolikheter över utfallsrummet summeras till ett: Den nominala logistiska regressionsmodellen med referenskategori är följande: Kategori i ekvationen ovan avser en godtyckligt vald referenskategori. Där alltså parametervektorer ( ) behöver skattas. 13

14 Avslutningsvis kan sedan sannolikheter per kategori beräknas enligt Detta är en komplex, svårtolkad modell (Kutner et al., 2005). Om följande modell användas. är ordinal kan eventuellt Ordinal logistisk regression (proportionella odds modellen) För en ordinal responsvariabel kan en ordinal logistisk regressionsmodell användas förutsatt att antagandet om proportionella odds ( parallel lines ) är uppfyllt (se avsnitt 3.5). Denna modell tar hänsyn till den naturliga ordningen bland responskategorierna, vilket leder till att vi får en modell som är enklare att tolka (Kutner et al., 2005). Ordinal logistisk regression kallas ibland även för en kumulativ odds modell. Modellen utgår från kumulativa sannolikheter istället för de specifika kategori sannolikheter som användes vid nominal logistisk regression. En kumulativ sannolikhet kan skrivas som Den ordinala logistiska regressionsmodellen utgår ifrån: Det proportionella odds antagandet innebär att regressionsmodellen kan då beskrivas enligt. Den ordinala logistiska Proportionella odds antagandet måste dock testas (se avsnitt 3.5.1). I de fall då vi har en ordinal responsvariabel, men antagandet om proportionella odds inte är uppfyllt, kan t.ex. nominal logistisk regressionsmodell användas (se avsnitt 3.2.3) eller en partiell proportionell odds modell användas (Peterson & Harrell, 1990). I den sistnämnda modellen antas att en delmängd av de förklarande variablerna inte uppfyller antagandet om proportionella odds. I denna uppsats används ordinal logistisk regression. 14

15 För en ordinal logistisk regressionsmodell behöver endast en vektor av riktningskoefficienter skattas, medan intercepten blir unika för varje responskategori. Detta kan jämföras med den nominala modellen, där varje parametervektor 2 är unik. Vidare kan exp, liksom vid binär logistisk regression, tolkas som en oddskvot, där är koefficienten för en enskild variabel, Skillnaden jämfört med det binära fallet blir dock att här får vi kumulativa oddskvoter, eftersom vi utgår från kumulativa sannolikheter. För fallet med endast en prediktor ( ) med en linjär komponent, kan den kumulativa oddskvoten implicit skrivas som Där och är specifika värden på. Då (då x är kvantitativ) kan alltså den kumulativa oddskvoten explicit skrivas som representerar förändringen i den naturliga logaritmen av kumulativa odds, för sannolikheten associerad med en enhetsförändring i. Avslutningsvis kan kumulativa sannolikheter beräknas enligt Detta ger sedan sannolikheterna för varje kategori Parameterskattningar i den ordinala logistiska regressionsmodellen För att skatta modellparametrar kan maximum-likelihood metoden användas. Givet ett urval av storlek, kan likelihood funktionen vid ordinal logistisk regression med proportionella odds antagandet skrivas: 2 Inkluderar både en vektor av riktningskoefficienter samt en vektor av intercept. 15

16 där är binära variabler för varje observation, dvs. då utfallet är. Likelihood funktionen är en funktion av och en vektor av riktningskoefficienter. Maximum-likelihood skattningarna för dessa parametrar är då de skattningar som maximerar likelihood funktionen. Inferens En maximum likelihood estimator (MLE) för en modellparameter är asymptotiskt normalfördelad. Det innebär att maximum-likelihood skattningars samplingsfördelning vid stora urval är approximativt normalfördelade, med varianser och kovarianser som är funktioner av andra-ordningens partiella derivator av den naturliga logaritmen av likelihood funktionen. Inferens (intervallskattningar och statistiska test) inom logistisk regresson är baserad på att maximum-likelihood skattningars samplingsfördelning är approximativt normalfördelad (Kutner et al., 2005). Att normalfördelad för stora utnyttjas t.ex. i ett Waldtest för en enskild modellparameter enligt där Test-statistikan under för stora är 16

17 3.3. Variabelselektionsmetoder Stegvis, framlänges och baklänges variabelselektion utgår från förklarande variabler. Den resulterande modellen som väljs av respektive metod benämns här slutmodell. Olika test-statistikor i olika statistikprogram används vid val av variabler i de tre selektionsmetoderna. Till exempel i statistikprogramvaran SAS används Scoretest vid framlänges variabelselektion samt vid framlänges selektion inom stegvis variabelselektion. Waldtest används vid baklänges variabelselektion samt vid kontroll för eliminering inom stegvis variabelselektion (se Tabell 2.1). CLASS kommandot används i SAS för att hantera kategoriska, förklarande variabler som har fler kategorier än två 3. Generellt gäller för alla modeller i metoderna nedan. Nedan har vi utelämnat index, motsvarande observation Stegvis variabelselektion Den stegvisa metoden innefattar framlänges selektion samt kontroll för baklänges eliminering. Metoden kan beskrivas med följande steg (Hosmer et al., 2013). Steg 1: Framlänges selektion. I detta steg jämförs en minimal modell som består bara av ett intercept med andra modeller som alla innehåller en variabel För modeller kan vi testa den minimala modellen mot en modell som innehåller en variabel. Detta ger oss sammanlagt stycken p-värden. 3 Framställningen här är principiellt korrekt, men förenklad. Variabeln X motsvarar här endast kvantitativa eller binära variabler. 17

18 Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 2 med den utvalda variabeln. Annars avslutas metoden. Steg 2: Framlänges selektion. I detta steg jämförs en modell som innehåller den variabel som valdes i Steg 1, med andra modeller som alla innehåller en av de kvarvarande (ej utvalda) variablerna samt den utvalda variabeln från Steg 1,. Detta ger oss stycken utav följande modeller För dessa p-1 modeller kan vi göra följande test Detta ger oss sammanlagt stycken p-värden. Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 3 med de utvalda variablerna (. Annars avslutas metoden. Steg 3 omfattar Steg 3(i) och Steg 3(ii). 18

19 Steg 3(i): Kontroll för baklänges eliminering. Först jämförs en modell med endast variabeln (Modell 1) med en modell som inkluderar både variabel och (Modell 2). En jämförelse i formen av ett statistiskt test mellan dessa två modeller ger ett p-värde ( ). Sedan jämförs en modell med endast variabeln (Modell 3) med en modell som inkluderar både variabel och (Modell 2). En jämförelse i formen av ett statistiskt test mellan dessa två modeller ger ett p-värde ( ). Låt den förutbestämda signifikansnivån i elimineringsregeln vara. Elimineringsregeln är då följande: Ifall prövar vi följande hypotes Om, förkastas, och då följer variablerna ( med till Steg 4. Om inte förkastas följer variabel med till Steg 4. Alternativt ifall prövar vi följande hypotes, Om, förkastas, och då följer variablerna ( med till Steg 4. Om inte förkastas följer variabel med till Steg 4. Steg 3(ii): Framlänges selektion I detta steg jämförs en modell med de variabler som valdes i Steg 2, med andra modeller som alla innehåller en av de kvarvarande (ej utvalda) variablerna samt de utvalda variablerna, och, från Steg 2. Detta ger oss stycken utav följande modeller 19

20 För dessa modeller kan vi göra följande test, Detta ger oss sammanlagt p-2 stycken p-värden. Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 4 med samt variablerna/variabeln från Steg 3(i). Annars avslutas metoden. Steg 4: Proceduren för Steg 4 är identisk med den i Steg 3 (Steg 3(i) och Steg 3(ii)). Proceduren forstätter på detta vis tills metoden avslutas vid Steg S. Steg S: Detta inträffar då: (1) Alla variabler har inkluderats i modellen, eller (2) Alla variabler i modellen har p-värden (beräknade vid baklänges elimineringssteget) som är mindre än λ. Och alla variabler som inte inkluderats i modellen har p-värden (beräknade vid framlänges selektionssteget) som är större än α. 20

21 Framlänges variabelselektion Denna metod motsvarar stegvis selektion utan kontroll för baklänges eliminering Baklänges variabelselektion Denna metod kan beskrivas med följande steg. Steg 1: I detta steg jämförs en fullständig modell med p variabler, med p andra modeller som alla innehåller p-1 variabler (dvs. i varje modell har en utav p variabler tagits bort). För alla dessa modeller kan vi testa den fullständiga modellen mot en modell som innehåller variabler. Här används olika test-statistikor i olika statistikprogram. Därefter väljs modellen med högst p-värde, signifikansnivå (α)., som sedan jämförs med en förutbestämd Det vill säga för den valda modellen gör vi följande test H 0 (reducerad modell): modell med p-1 variabler (den med högst p-värde). Stoppregeln är följande: H A (full modell): den fullständiga modellen med p variabler. Om, kan inte förkastas och vi går till Steg 2 med den utvalda modellen med variabler (en variabel elimineras). Annars avslutas proceduren. Steg 2: Samma process som i Steg 1. Proceduren avslutas vid det tillfälle då alla variabler har eliminerats i modellen eller då stoppregeln uppfyllts. 21

22 Scoretest och Waldtest För att testa de förklarande variablernas signifikans, dvs. vilka variabler som ska adderas till modellen eller elimineras från modellen, används Scoretest och Waldtest. Fördelen med Waldtest och Scoretest jämfört med Likelihood kvottestet är att bara en modell under behöver skattas. Vid baklänges variabelselektion innebär det att endast en modell behöver skattas vid varje Waldtestet. Vid framlänges variabelselektion innebär det att endast en modell behöver skattas vid varje Scoretest (Fox, 1997; Johnston & DiNardo, 1997). Waldtest Linjära hypoteser för regressionskoefficienter kan uttryckas i matrisform som Wald test-statistikan för test av beräknas som där är en matris av koefficienter för de linjära hypoteserna och är en vektor av konstanter. Vektorn av regressionskoefficienter innefattar lutningsparametrar samt interceptparametrar. är den skattade kovariansmatrisen av. Under följer asymptotiskt en chi-två fördelning med frihetsgrader, där är rangen av. Scoretest Score statistikan för att testa definieras som där är en vektor av första ordningens partiella derivator (d.v.s. en Jacobian) av loglikelihood funktionen med avseende på parametervektorn ; är en matris av andra ordningens partiella derivator (d.v.s. en Hessian) av log-likelihood funktionen med avseende på ; är väntevärdet av, och är maximum likelihood skattningen av under. Score test-statistikan har en asymptotisk chi-två fördelning med frihetsgrader under, där är antalet restriktioner införda på under. 22

23 Stoppregel och elimineringsregel För de automatiserade variabelselektionsmetoderna specificeras förutbestämda signifikansnivåer (α) för att avgöra om en variabel ska inkluderas i eller elimineras från en modell. Med hjälp av signifikansnivåer kan antalet variabler som kommer med i den slutgiltiga modellen kontrolleras. Högre signifikansnivåer vid framlänges selektion gör det möjligt för fler variabler att inkluderas och lägre signifikansnivåer vid baklänges selektion ser till att inte alla möjliga variabler kvarstår i modellen (Derksen et al., 1992). Signifikansnivån kan alltså avgöra om en variabel kommer med eller inte i den resulterande slutmodellen (som är en delmängd av den fullständiga modellen). Valet av signifikansnivå bestäms av forskaren. Många anser att detta godtyckliga val av signifikansnivåer leder till opålitliga selekteringskriterier, eftersom det innebär att helt andra variabler kan väljas när en annan forskare använder en annan signifikansnivå (Rice, 2011). Statistiska test som används vid variabelselektionsmetoder använder sig inte av ett p-värde i den traditionella bemärkelsen vid hypotesprövning. De bör istället ses som indikatorer av relativ betydelse bland variabler i datasetet (Hosmer et al., 2013). Effekten av detta blir att signifikansnivåer för stoppregler oftast sätts på en högre nivå än vid traditionell hypotesprövning. Vissa statistiska datorprogram har som standardinställning att signifikansnivån (α) är 0,05. Men detta har kritiserats för att vara för lågt, eftersom att det kan leda till att betydelsefulla variabler uteslutes från modellen (Bendel et al., 1977). Vad som är den lämpligaste signifikansnivån har forskare i olika studier angett att det beror på vilken variabelselektionsmetod som används. Stegvis variabelselektion Vid stegvis variabelselektion rekommenderade Bendel et al. (1977) att de optimala signifikansnivåerna (för stoppregeln (α) och elimineringsregeln (λ)) ligger mellan 0,15 och 0,25. Hosmer et al. (2013) förordar att signifikansnivån för elimineringsregeln är något högre än signifikansnivån för stoppregeln. Till exempel kan det vara lämpligt att välja en signifikansnivå för elimineringsregeln som är lika med signifikansnivån för stoppregeln plus 2 till 5 procentenheter. Detta för att undvika att samma variabel adderas och elimineras successivt i följande steg. Elimineringsregeln innebär att ett minimum krav ställs på en variabels bidrag till modellen (Hosmer et al., 2013). Framlänges variabelselektion Lee & Koval (1997) visade i en studie att signifikansnivåer som varierar mellan 0,05 och 0,40 är lämpligast för framlänges variabelselektion inom logistisk regression, men gav en generell rekommendation att 0,15 < α < 0,20 bör användas. Liknande rekommendationer har givits i en annan studie där signifikansnivåer mellan 0,15 och 0,25 resulterade i att inte alltför många icke-relevanta variabler kom med i modellen, samtidigt som signifikansnivån var stor nog att autentiska variabler (relevanta) inkluderades (Bendel et al., 1977). 23

24 Baklänges variabelselektion För baklänges selektion har α=0,10 rekommenderats (Kennedy & Bancroft, 1971), medan Wang et al. (2008) rekommenderar 0,20 < α < 0,40. Vidare anmärker Wang et al. (2008) att antalet förklarande variabler, p, är viktigt för att bestämma optimala signifikansnivåer. De menar alltså att den bästa signifikansnivån ökar när antalet variabler i datasetet ökar enligt formeln α=p/100. Det innebär att det är svårt att ge generella rekommendationer för val värden på signifikansnivåer. 24

25 3.4. Informationskriterier Efter att de tre metoderna för variabelselektion (se avsnitt 3.3) applicerats, kommer vi i denna uppsats att ha ett relativt stort antal modeller kvar att välja mellan per dataset (se Kapitel 4). Detta val baserar vi på ett informationskriterium. Den lämpligaste modellen av en mängd av konkurrerande modeller definieras ofta som den modell som ger den relativt bästa anpassningen till data (Hosmer & Lemeshow, 2000). Hur bra denna anpassning till data blir beror bl.a. på antalet parametrar i modellen. Ett för stort antal parametrar kan leda till att algoritmer för parameterskattningarna inte konvergerar (Dobson, 2002). Den lämpligaste modellen, dvs. den som ger relativt bäst anpassning, brukar ofta väljas genom att anpassa konkurrerande modeller till data och jämföra modellernas anpassningsgrad. Viktigt att notera i detta sammanhang är att dessa konkurrerande modeller kan innehålla samma antal parametrar men olika prediktorer eller olika antal parametrar. I fallet med olika prediktorer är det inte meningsfullt att jämföra modellernas anpassningsgrad med hjälp av test-statistikor som används för jämförelse av nested models. Av denna anledning har jämförelsemått skapats som tar hänsyn till antalet parametrar i respektive modell. Två av de vanligaste måtten av denna typ är s.k. informationskriterier, Akaike informationskriterium (AIC) och Schwarz informationskriterium (SC) som ibland kallas Bayesian Information Criterion, BIC. Låt vara en parametervektor av dimension q för en modell. Akaike informationskriterium definieras som där betecknar logaritmen av den skattade likelihoodfunktionen. Schwarz informationskriterium kan i sin tur definieras som där n är antalet observationer i urvalet. Den modell utav alla konkurrerande modeller som har minst värde på eller väljs som bästa modell utifrån respektive AIC eller SC. Både AIC och SC baseras alltså på skattningar av log-likelihoodfunktionen samt justerar för antalet parametrar i modellen (Cnaan et al., 1997). Om, till exempel, två modeller har samma värde för maximum av log-likelihood funktionen, säger både AIC och SC att den lämpligaste modellen är den som har lägst antal parametrar, dvs. lägst värde på informationskriterierna. Den huvudsakliga skillnaden mellan kriterierna är att de straffar en modell för antal skattade parametrar på olika sätt (avseende logistisk regression se Shtatland et al., 2001). För n e 2 7, 39 straffar SC komplexa modeller mer än AIC. Vid relativt små urvalsstorlekar kan SC leda till att en alltför enkel modell (med alltför få parametrar) väljs en nackdel i jämförelse med AIC (Zucchini, 2000). En fördel med SC är att dess sannolikhet att identifiera 25

26 korrekt modell för datan ökar och går mot ett då et al., 2009)., vilket inte är fallet för AIC (Casella I denna uppsats utgår vi i valet av modell med bästa anpassningsgrad från AIC. Ett antal forskare (Yanagihara et al., 2003; Burnham & Anderson, 2004) framhäver att AIC kan ge biased resultat inom logistisk regression, vilket kan påverka valet av bästa modell vid små till medelstora urvalsstorlekar. Men eftersom vårt datamaterial består av tusentals observationer nivelleras denna bias. 26

27 3.5. Modellutvärdering I empiriska studier är det viktigt att ha modeller som är välanpassade till data för att kunna dra pålitliga slutsatser. I detta avsnitt diskuteras proportionella odds antagandet, anpassningstest och residualanalys för ordinal logistisk regression. För ordinala logistiska regressionsmodeller finns få metoder för anpassningstest och residualanalys i litteraturen, dessutom finns inga statistiskprogram som hanterar detta för ordinal logistisk regression (Fagerland & Hosmer, 2012; O'Connell & Liu, 2011). Istället rekommenderas då att modellutvärdering med avseende på anpassningstest och residualanalys vid en ordinal logistisk regressionsmodell (med J kategorier hos responsvariabeln) genomförs med hjälp av olika binära logistiska regressionsmodeller (Kutner et al., 2005; O'Connell & Liu, 2011) Test för antagandet om proportionella odds För att testa om modellantagandet om proportionella odds prövas följande nollhypotes För att pröva denna hypotes kan olika statistiska test användas. I denna studie används Scoretest (finns i SAS). Om ej förkastas kan vi säga att data stöder att en ordinal logistisk regressionsmodell kan användas enligt följande modell Avsnitt beskriver denna modell i detalj. 27

28 Hosmer-Lemeshow anpassningstest För ordinal logistisk regression ( kategorier hos responsvariabeln) rekommenderas alltså att anpassningstest genomförs med hjälp av binära logistiska regressionsmodeller, eftersom det finns få teoretiska modeller och inga statistiskprogram som hanterar anpassningstest för ordinal logistisk regression (Fagerland & Hosmer, 2012). Först väljs då en godtycklig referenskategori. Sedan körs en binär logistisk regressions modell för alla de övriga J-1 kategorierna (en i taget). Varje gång används endast data som tillhör referenskategorin samt den kategori som är aktuell, vilket innebär att vi då kan definiera en binär responsvariabel utifrån två kategorier hos responsvariabeln (Kutner et al., 2005). Hosmer-Lemeshows anpassningstest (goodness-of-fit test) utförs på en skattad binär logistisk regressionsmodell. För att testa om en skattad modell är lämplig för datamaterialet prövas följande hypotes Vid genomförandet av Hosmer-Lemeshows anpassningstest delas observationerna in i grupper (g) med liknande skattade sannolikheter Vanligtvis skapas tio grupper, där grupp 1 består av observationer med den lägsta skattade sannolikheten,, och grupp 10 består av observationer med den högsta skattade sannolikheten, (Hosmer et al., 2013). Antalet grupper kan väljas godtyckligt men kan dock inte vara färre än g=3. Låt responsvariabeln (, är antalet observationer i den jte gruppen, j=1,...,g) vara en Bernoulli variabel som kan anta värdena 0 eller 1. De observerade frekvenserna i grupp j då betecknas som och de observerade frekvenserna i grupp j då betecknas som. De observerade frekvenserna och blir följande, De skattade frekvenserna för den j:te gruppen är En korstabell med de observerade och skattade frekvenserna kan då skapas (Fagerland & Hosmer, 2012). 28

29 Hosmer-Lemeshows test-statistikan definieras som Under är Hosmer-Lemeshows anpassningstest mäter alltså hur bra de genomsnittliga förväntade sannolikheterna sammanfaller med de observerade sannolikheterna i de skapade grupperna. Att förkastas kan t.ex. bero på en felaktig modellspecifikation, en felaktig länkfunktion, befintliga outliers (se avsnitt 3.5.3) eller overdispersion (Collett, 2003). Modellspecifikation: Frågan här är om den linjära komponenten i modellen är korrekt specificerad. Problem kan orsakas av att irrelevanta variabler från datasetet inkluderats, att informativa variabler saknas och/eller att den funktionella formen för variablerna är felaktig. Länkfunktion: I denna uppsats används logit som länkfunktion (se avsnitt 3.2.1). Alternativa länkfunktioner som förekommer är probit samt complementary log-log modeller. Overdispersion: På grund av heterogenitet och/eller korrelation mellan observationer på responsvariabeln blir variansen större än vad som antas i modellen. Overdispersion kan öka osäkerheten vid inferens om det inte åtgärdas (Collett, 2003). 29

30 Residualanalys För ordinal logistisk regression ( kategorier hos responsvariabeln) rekommenderas alltså att residualanalys genomförs med hjälp av binära logistiska regressionsmodeller, eftersom det finns få teoretiska modeller och inga statistiskprogram som hanterar residualanalys för ordinal logistisk regression (O'Connell & Liu, 2011). Först väljs då en godtycklig referenskategori. Sedan körs en binär logistisk regressions modell för alla de övriga kategorierna (en i taget). Varje gång används endast data som tillhör referenskategorin samt den kategori som är aktuell, vilket innebär att vi då kan definiera en binär responsvariabel utifrån två kategorier hos responsvariabeln (Kutner et al., 2005). I detta avsnitt betraktar vi tre moment för residualanalys vid binär logistisk regression. Först, en genomgång av residualer, sedan hur residualanalys kan användas för anpassningstest samt sist hur residualanalys kan användas för att identifera outliers (Kutner et al., 2005). Residualer vid binär logistisk regression I logistisk regression kan Y-variabeln anta ett av två värden residual,, också bara anta ett av två värden,. Därför kan en där,. Residualer är skattningar av feltermen per observation. De mäter avståndet mellan den skattade modellen samt enskilda observationer. Men i vårt fall har vi individuell data (responsvariabeln är binär). Då, eftersom bara två värden kan antas, kan inga antaganden om fördelningen för residualerna göras. Inga utav residualerna som erhålls vid binär logistisk regression kan därmed approximeras med normalfördelningen (Collett, 2003). Vidare, eftersom responsvariabeln i detta avsnitt är binär, är plottar av residualer mot den linjära prediktorn eller mot de förklarande variablerna i modellen generellt inte informativa (Collett, 2003; Kutner et al., 2005). Pearson residualer fås genom att residualen (3.36) delas med dess skattade standardavvikelse,, och definieras som 30

31 Den standardiserade Pearson residualen är definierad som där är Pearson residualen och, s.k. leverage, är det ite diagonala elementet av skattade hatt matrisen (eng; hat matrix): -1 där är en diagonal matris med element, och är en design matris, där q är antalet okända parametrar i modellen (för detaljer se Kutner et al., 2005; Collett, 2003). En annan residual är deviance residualen och dess motsvarande standardiserade version. Deviance residualen definieras som I detta avsnitt använder vi den standardiserade Pearson residualen samt (leverage). Residualanalys för anpassningstest En indexplott av standardiserade residualer mot observationernas ordningsnummer kan generellt ge användbar information för att utvärdera hur väl den linjära delen av modellen passar datan (Collett, 2003). Frånvaron av omfattande mönster i denna indexplott indikerar att modellen är väl anpassad till datan. Enligt Kutner et al. (2005) bör om modellen är korrekt en "lowess smooth" plot av residualer mot skattade sannolikheter approximativt resultera i en horisontell linje med ett noll intercept. En "Half-Normal Probability Plot with Simulated Envelope" kan användas för att utvärdera hur väl den linjära delen av modellen passar datan. Sammanfattningsvis inkluderar vi indexplottar för de standardiserade Pearson residualerna i Kapitel 4. Men dessa studeras inte i detalj, eftersom vårt huvudsakliga test för anpassning i Kapitel 4 är Hosmer-Lemeshow testet från avsnitt Outliers Outliers är generellt värden på variabler för enskilda observationer som är mycket större eller mycket mindre än övriga värden i ett dataset (Kleinbaum et al., 2008). Outliers kan i vissa fall representera icke-slumpmässiga fel i termer av felaktig data i datasetet (mätfel, felaktig inmatning, etc.). Varje statistisk analys av data bör därför inledas med att studera de största samt minsta värden för varje variabel och sedan jämföra dessa med respektive variabels utfallsrum. Värden som bedöms vara felaktig data kan sedan omkodas till missing, dvs. partiellt bortfall (Kleinbaum et al., 2008). 31

32 Outliers som inte betraktas som felaktig data kan ibland påverka en modells anpassning till ett dataset (Kleinbaum et al., 2008). Om modellskattningen inte blir signifikant annorlunda då outliers plockas bort från datasetet kan dessa ignoreras. Om modellskattningen blir signifikant annorlunda då outliers plockas bort från datasetet kan eventuellt denna modellskattning väljas. Men ett sådant val måste noga motiveras. Det räcker då inte som motivering endast att en signifikant annorlunda modellskattning erhålls utan outliers (Kleinbaum et al., 2008). Outliers (avvikande observationer) som påverkar inferens för en modell kallas för inflytelserika observationer. Kleinbaum et al. (2008) betonar i detta sammanhang att outliers kan ses som en naturlig slumpmässig variation. Vissa författare hävdar till och med att outliers aldrig ska tas bort, eftersom ett dataset med outliers troligtvis är mer representativt än ett dataset utan outliers (Orr, Sackett & DuBois, 1991). Vid binär logistisk regression kan de statistiska mått som används för att identifiera outliers inte kopplas till någon form av statistisk fördelning (Kutner et al., 2005). Ett alternativ är då att förlita sig på olika former av tumregler. Genom att plotta mot observationerna i datasetet är det möjligt att identifiera avvikande observationer. Medelvärdet för är, och en förekommande tumregel för identifiering av avvikande observationer är (Hosmer et al., 2013). Dock så behöver höga leverage värden inte innebära att observationerna är inflytelserika, och inflytelserika observationer behöver inte anta höga leverage värden (Chatterjee & Yilmaz, 1992). Vid stora urval måste dock olika tumregler fokusera på andelen outliers i relation till urvalsstorleken (Kleinbaum et al., 2008). Kutner et al. (2005) anser att identifiering av potentiellt inflytelserika observationer vid binär logistisk regression får göras på basis av subjektiv visuell analys av lämpliga grafer. Avslutningsvis, relaterar även ett anpassningstest till outliers. Om anpassningstestet stöder att modellen är väl anpassad till data så stödjer detta att inga inflytelserika observationer av vikt finns i datasetet (Collett, 2003). Sammanfattningsvis, analyserar vi möjliga avvikande observationer i vår empiriska studie enligt följande (se Kapitel 4): De största samt minsta värden för varje variabel har jämförts med dess utfallsrum. plottar av (leverage) mot observationerna i datasetet. Hosmer-Lemeshow anpassningstest. 32

33 4. Resultat För att kunna tillämpa samt jämföra de tre variabelselektionsmetoderna väljer vi 19 olika värden på α (stoppregeln) från 0,05 till 0,95, där α ökar successivt med 0,05. För den stegvisa metoden sätter vi elimineringsregelns λ-värde till stoppregelns α-värde plus 2,5 procentenheter. För varje dataset erhåller vi 57 (3*19) slutmodeller, se Tabell 4.1. Dataset Baklänges variabelselektion Stegvis variabelselektion Framlänges variabelselektion 1-4 Modeller med 19 olika α-värden (stoppregeln) 0,05 α 0,95. Modeller med 19 olika kombinationer av stoppregelns α-värde, 0,05 α 0,95, samt elimineringsregelns λ-värde, 0,075 λ 0,975. Modeller med 19 olika α-värden (stoppregeln) 0,05 α 0,95. Tabell 4.1: Sammanfattning av signifikansnivåer för modeller valda med olika variabelselektionsmetoder för varje dataset. Nedan presenteras våra resultat. Dessa resultat diskuteras i Kapitel 5. Slutmodeller per dataset Vi använder ordinala logistiska regressionsmodeller för variabeln (betyget i Matematik A) och variabeln (betyget i Svenska A) för respektive dataset. För att identifiera faktorer som prediktera elevernas gymnasiebetyg används en ordinal logistisk regressionsmodell (se ekvation (3.13) i avsnitt 3.2.4) Analysen genomförs med SAS/STAT 9.4 The Logistic Procedure, där de automatiserade variabelselektionsmetoderna utförs genom kommandot SELECTION (= STEPWISE BACKWARD FORWARD). De variabler som väljs (slutmodeller) för de fyra dataseten med varje selektionsmetod redovisas i Tabell Kolumn ett i Tabell anger ett numeriskt namn för slutmodellerna (modellerna) i kolumn två, samt anger inom parantes antalet variabler. Kolumn tre är de variabelselektionsmetoder som valt variablerna i kolumn två och kolumn fyra anger de signifikansnivåer (stoppregler) som använts för varje metod. Kolumn fem anger AIC värdet för respektive modell. Principen för hur variablerna i kolumn två redovisas, är att modellen expanderas successivt med de variabler som läggs till. Till exempel är den första raden av variabler för Modell 1.2 och 1.1 densamma. På samma sätt är de två första raderna för Modell 1.2 och 1.3 densamma. 33

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 28, 2012 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

Föreläsning 4. Kap 5,1-5,3

Föreläsning 4. Kap 5,1-5,3 Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet

Läs mer

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018 SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14-15 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 14 maj 2018 PLAN FÖR DAGENS FÖRELÄSNING Icke-parametriska metoder. (Kap. 13.10) Det

Läs mer

Föreläsning 12: Repetition

Föreläsning 12: Repetition Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 12, 2013 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 18, 2016 Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Laboration 2: Styrkefunktion samt Regression

Laboration 2: Styrkefunktion samt Regression Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Att välja statistisk metod

Att välja statistisk metod Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Resursfördelningsmodellen

Resursfördelningsmodellen PCA/MIH Johan Löfgren Rapport 25-6-26 (6) Resursfördelningsmodellen Växjös skolor våren 25 Inledning Underlag för analyserna utgörs av ett register som innehåller elever som gått ut årskurs nio 2 24. Registret

Läs mer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 5. Kapitel 6, sid Inferens om en population Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning

Läs mer

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015 SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 12 oktober 2015 PLAN FÖR DAGENS FÖRELÄSNING Icke-parametsriska metoder. (Kap. 13.10) Det grundläggande

Läs mer

TVM-Matematik Adam Jonsson

TVM-Matematik Adam Jonsson TVM-Matematik Adam Jonsson 014-1-09 LABORATION 3 I MATEMATISK STATISTIK, S0001M REGRESSIONSANALYS I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistikprogrammet

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad

Läs mer

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E Innehåll I. Grundläggande begrepp II. Deskriptiv statistik (sid 53 i E) III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser 1 II. Beskrivande statistik,

Läs mer

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test SF1915 Sannolikhetsteori och statistik 6 hp Föreläsning 12 χ 2 -test Jörgen Säve-Söderbergh Anpassningstest test av given fördelning n oberoende försök med r möjliga olika utfall Händelse A 1 A 2... A

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab Repetition: Gnuer i (o)skyddade områden χ 2 -metoder, med koppling till binomialfördelning och genetik. Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 Endast 2 av de 13 observationerna

Läs mer

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i )

Läs mer

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier: Stat. teori gk, ht 006, JW F1 χ -TEST (NCT 16.1-16.) Ordlista till NCT Goodness-of-fit-test χ, chi-square Test av anpassning χ, chi-två Test av anpassning: sannolikheter specificerade i förväg Data: n

Läs mer

2. Test av hypotes rörande medianen i en population.

2. Test av hypotes rörande medianen i en population. Stat. teori gk, ht 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 15.1, 15.3-15.4) Ordlista till NCT Nonparametric Sign test Rank Icke-parametrisk Teckentest Rang Teckentest Teckentestet är formellt ingenting

Läs mer

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt. Stat. teori gk, vt 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 13.1, 13.3-13.4) Or dlista till NCT Nonparametric Sign test Rank Teckentest Icke-parametrisk Teckentest Rang Teckentestet är formellt ingenting

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Modeller för studieframgång i Matematisk Analys IV

Modeller för studieframgång i Matematisk Analys IV Modeller för studieframgång i Matematisk Analys IV Filip Walldén Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:9 Matematisk statistik Juni 2015

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys

Läs mer

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 12. MER HYPOTESPRÖVNING. χ 2 -TEST Jan Grandell & Timo Koski 25.02.2016 Jan Grandell & Timo Koski Matematisk statistik 25.02.2016 1 / 46 INNEHÅLL Hypotesprövning

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng Matematisk statistik Provmoment: Ladokkod: Tentamen ges för: TT091A, TVJ22A, NVJA02 Pu, Ti 7,5 högskolepoäng Namn: (Ifylles av student) Personnummer: (Ifylles av student) Tentamensdatum: 2012-05-29 Tid:

Läs mer

Uppgift a b c d e Vet inte Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Uppgift a b c d e Vet inte Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 TENTAMEN: Dataanalys och statistik för I, TMS136 Onsdagen den 5 oktober kl. 8.30-13.30 på M. Jour: Jenny Andersson, ankn 5317 Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd ordlista

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa. Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten

Läs mer

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk

Läs mer

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Till ampad statistik (A5) Förläsning 13: Logistisk regression Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08 Exempel 1: NTU2015 Exempel 2: En jobbannons Exempel 3 1 1 Klofstad, C.

Läs mer

Skattningsmetoder för binär data: En simuleringsstudie

Skattningsmetoder för binär data: En simuleringsstudie Skattningsmetoder för binär data: En simuleringsstudie Greta Olsson Lööf Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2017:7 Matematisk statistik Juni

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p) Avd. Matematisk statistik TENTAMEN I SF1901, SF1905, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 17:E AUGUSTI 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66 Tillåtna hjälpmedel: Formel-

Läs mer

Bayesiansk statistik, 732g43, 7.5 hp

Bayesiansk statistik, 732g43, 7.5 hp Bayesiansk statistik, 732g43, 7.5 hp Moment 2 - Linjär regressionsanalys Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 1 / 29 Översikt moment 2: linjär

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 17 februari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 17 februari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312,

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 5 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Andelar (kap 24) o Binomialfördelning (kap 24.1) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial? MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl Karlstads Universitet Avdelningen för Nationalekonomi och Statistik Tentamen i Statistik, STG A0 och STG A06 (3,5 hp) Torsdag 5 juni 008, Kl 4.00-9.00 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema

Läs mer

F22, Icke-parametriska metoder.

F22, Icke-parametriska metoder. Icke-parametriska metoder F22, Icke-parametriska metoder. Christian Tallberg Statistiska institutionen Stockholms universitet Tidigare när vi utfört inferens, dvs utifrån stickprov gjort konfidensintervall

Läs mer

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson (examinator) VT2017 TENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2017-04-20 LÖSNINGSFÖRSLAG Första version, med reservation för tryck-

Läs mer

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade) 5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk

Läs mer