Kandidatuppsats. Statistiska institutionen. Bachelor thesis, Department of Statistics
|
|
- Frida Jansson
- för 7 år sedan
- Visningar:
Transkript
1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2014:x Automatiserade variabelselektionsmetoder för logistisk regression Automated variable selection methods in logistic regression Marina Andrianova Rahwa Ghebresellase Självständigt arbete 15 högskolepoäng inom Statistik III, VT2014 Handledare: Dr. Tatjana von Rosen
2 Sammanfattning Vid logistisk regression vill vi undersöka sambandet mellan en kategorisk responsvariabel och ett antal prediktorer. Valet av prediktorer som ska ingå i en regressionsmodell är en viktig och svår uppgift, speciellt då antalet variabler är stort. Ett sätt att lösa detta problem är att använda automatiserade variabelselektionsmetoder. I denna uppsats beskrivs, tillämpas och jämförs de tre mest förekommande automatiserade variabelselektionsmetoderna; framlänges, baklänges och stegvis. Dessa metoder tillämpas på data från Skolverket för att identifiera de faktorer som predikterar elevers gymnasiebetyg. Eftersom responsvariabeln är betyg kan en ordinal logistisk regressionsmodell användas. Resultaten av den empiriska studien visar att de tre variabelselektionsmetoderna ofta leder till samma slutmodell, vilket överensstämmer väl med tillgängliga forskningsresultat. Vid användning av de tre variabelselektionsmetoderna kan forskaren själv välja signifikansnivån i metodernas beslutsregler (stoppregel och elimineringsregel) och på så vis påverka sitt slutresultat. För de valda slutmodellerna i den empiriska studien låg signifikansnivåerna ( ) i följande intervall:. Detta ganska breda intervall av signifikansnivåer överlappar med de mest vanliga rekommendationerna som förekommer i teorin. Nyckelord: framlänges variabelselektion, baklänges variabelselektion, stegvis variabelselektion, Akaike informationskriterium, proportionella-odds, ordinal logistisk regression, stoppregel. 2
3 Förord Ett stort tack till Sven Sundin, undervisningsråd på Skolverket, som försett oss med datamaterial och hjälpt till med att tolka detta. Vi tackar Tatjana von Rosen, docent på Statistiska institutionen vid Stockholms universitet, för inspiration och handledning. 3
4 Innehållsförteckning 1. INTRODUKTION BAKGRUND MATERIAL OCH METOD DATAMATERIAL LOGISTISK REGRESSION LÄNKFUNKTION BINÄR LOGISTISK REGRESSION NOMINAL LOGISTISK REGRESSION ORDINAL LOGISTISK REGRESSION (PROPORTIONELLA ODDS MODELLEN) VARIABELSELEKTIONSMETODER STEGVIS VARIABELSELEKTION FRAMLÄNGES VARIABELSELEKTION BAKLÄNGES VARIABELSELEKTION SCORETEST OCH WALDTEST STOPPREGEL OCH ELIMINERINGSREGEL INFORMATIONSKRITERIER MODELLUTVÄRDERING TEST FÖR ANTAGANDET OM PROPORTIONELLA ODDS HOSMER-LEMESHOW ANPASSNINGSTEST RESIDUALANALYS RESULTAT DISKUSSION LITTERATURFÖRTECKNING BILAGA A: URVAL AV SAS UTSKRIFTER BILAGA B: PROGRAMKODER
5 1. Introduktion I Sverige har sedan början på 1990-talet ett antal genomgripande skolreformer genomförts. Målet har varit att förbättra den svenska skolan genom att dels höja den allmänna kvaliteten på utbildningen, dels skapa ett skolsystem som kan effektiviseras med hjälp av decentralisering (Skolverket, 2009). År 1990 kommunaliserades skolan och 1992 infördes fria skolval, en utbildningspolitisk reform som gjorde det möjligt att starta fristående skolor. År 2000 togs ett ytterligare steg mot en konkurrensinriktad skolmarknad då gymnasieskolor slutade att prioritera elever som kom från det egna området och istället antog elever enbart baserat på tidigare studieprestation (Vlachos, 2010). Det senaste decenniet har fokus på skolans resultat accentuerats i den allmänna skoldebatten. OECDs senaste PISA ("Programme for International Student Assessment") undersökning från 2012 visade att svenska 15-åringars resultat i matematik och läsförståelse har sjunkit (andelen lågpresterande elever har ökat samtidigt som andelen högpresterande elever minskat) jämfört med tidigare PISA undersökningar (Skolverket, 2013). Samtidigt som det rapporteras om en sjunkande kunskapsnivå så har den genomsnittliga betygsnivån ökat på grund- och gymnasieskolan (Skolverket, 2012). Att gymnasieskolor använder grundskolebetyg som det enda urvalskriteriet medför att betygen från grundskolan får en avgörande betydelse för elevens fortsatta studiemöjligheter. Att använda betyg som ett kunskapsmått är dock inte problemfritt. Men trots sina brister tyder forskning på att betyg i genomsnitt är en bra prediktor av framtida studieprestationer (Björklund et al., 2010). Inom forskning av utbildningsrelaterade frågor har logistisk regression sedan sent 1980-tal blivit en alltmer använd analysmetod (Peng et al., 2002). Logistisk regression, som tillhör en bredare familj av modeller kallade generaliserade linjära modeller, är en lämplig metod om responsvariabeln är kategorisk. Det innebär generellt att om vi i en empirisk studie använder oss av betyg som responsvariabel, kan vi använda oss av logistisk regression, eftersom betyg är en kategorisk variabel. Valet av prediktorer är ofta en svår uppgift att utföra manuellt, särskilt om antalet prediktorer är stort, vilket har resulterat i att användning av automatiserade variabelselektionsmetoder blivit vanligare. De variabelselektionsmetoder som liknar varandra mest är framlänges, baklänges och stegvis variabelselektion. En annan liknande variabelselektionsmetod är den s.k. bästa delmängdsselektion (eng: best subset selection). Dessa metoder kan användas för att skapa slutmodeller som är en delmängd av den fullständiga modellen (modellen med alla variabler). Uppsatsens syfte är att beskriva, tillämpa samt jämföra framlänges, baklänges och stegvis variabelselektion inom logistisk regression. Uppsatsen utförs dels som en beskrivande litteraturstudie genom att teori inom området gås igenom, dels genom att de tre metoderna tillämpas i en empirisk studie där data från Skolverket används. Datan omfattar responsvariabeln elevers gymnasiebetyg i ämnena Matematik A och Svenska A, samt ett relativt stort antal prediktorer. Eftersom responsvariabeln gymnasiebetyg (IG, G, VG och MVG) är ordinal används ordinal logistisk regression. Den empiriska studien syftar åt att jämföra de tre variabelselektionsmetoderna genom att bland annat undersöka om metoderna leder till samma uppsättning av förklarande variabler (slutmodell). 5
6 I nästa kapitel ges en översikt av framlänges, baklänges och stegvis variabelselektionsmetoderna. I Kapitel 3 presenteras datamaterialet samt metoderna som används i den empiriska studien. I Kapitel 4 presenterar vi resultaten från tillämpningen av metoderna på data från Skolverket. Uppsatsen avslutas med en diskussion av de erhållna resultaten i Kapitel 5. 6
7 2. Bakgrund Inom olika forskningsområden (utbildning, medicin, etc.) baseras ofta valet av de förklarande variabler (prediktorer) som ska ingå i en statistisk modell på automatiserade algoritmer som utnyttjar statistisk information. Utvecklingen av automatiserade metoder för val av variabler började på slutet av 1950-talet, och idag finns det många statistiska datorprogram som erbjuder olika automatiserade algoritmer för olika typer av statistiska modeller. Automatiserade selektionsmetoder används ofta i situationer där en a priori modell inte finns och/eller då datamaterialet innehåller många variabler. Generellt kan modeller 1 konstrueras, där är lika med antalet förklarande variabler (prediktorer) i den fullständiga modellen, vilket vanligtvis är fler än antalet oberoende variabler i datasetet, eftersom t.ex. interaktionstermer och kvadratiska termer ofta introduceras i den fullständiga modellen. Om antalet prediktorer i den fullständiga modellen t.ex. är 20, så kan alltså olika modeller konstrueras. Till exempel föreslår Collett (2003) att om antalet variabler i den fullständiga modellen överstiger 10 kan det vara lämpligt att använda sig av automatiserade metoder. Att hantera ett stort antal möjliga modeller manuellt kan medföra ökade kostnader, ökad tidsåtgång samt att risken att kvalitetsbrister kan uppstå, t.ex. att en slutmodell som inte är optimal väljs. Därför är det eftersträvansvärt att identifiera en enklare version av den fullständiga modellen, enligt sparsamhetsprincipen (principle of parsimony, se Derksen et al., 1992). Även om automatiserade metoder erbjuder möjligheten att göra detta är litteraturen fylld med kritik mot dessa metoder. Vidare finns inga tydliga gemensamma rekommendationer för hur en studie med automatiserade metoder ska genomföras. Detta försvårar genomförandet av dataanalys. En del forskare menar att automatiserade selektionsmetoder endast är ett explorativt statistiskt verktyg för val av prediktorer. De ska alltså inte ses som substitut för val av variabler baserade på mänskliga bedömningar (Hosmer et al., 2013; Menard, 2002). Men metoderna anses ändå vara behjälpliga i sökandet av en lämplig modell om resultaten används med försiktighet (Agresti, 2002). Austin & Tu (2004) betonar att automatiserade selektionsmetoder alltid bör kombineras med omfattande kunskap inom tillämpningsområdet. Tabell 2.1 visar en sammanfattning av de tre variabelselektionsmetoderna som används i denna uppsats. Tabellen ger en kort beskrivning av varje metod och de beslutsregler som används. De tre variabelselektionsmetoderna beskrivs i detalj i avsnitt Då har även en modell med bara ett intercept inkluderats, dvs. en minimal modell. 7
8 Metod Kort beskrivning Beslutsregler Stegvis variabelselektion (Stepwise) Framlänges variabelselektion (Forward) Börjar med en minimal modell, variabler läggs till modellen sekventiellt (framlänges selektion) Varje variabel som adderats kan även elimineras (kontroll för baklänges eliminering) Börjar med en minimal modell, variabler läggs till modellen sekventiellt (framlänges selektion) Stoppregel: fix beslutsregel som avgör om en variabel bör adderas eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Scoretest Elimineringsregel: fix beslutsregel som avgör om en tidigare adderad variabel bör behållas eller inte. Elimineringsregeln definieras av en förutbestämd signifikansnivå (λ-värde) Statistiskt test (i denna uppsats): Waldtest Stoppregel: fix beslutsregel som avgör om en variabel bör adderas eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Scoretest Baklänges variabelselektion (Backward) Börjar med en fullständig modell (med p variabler), variabler elimineras sedan sekventiellt Stoppregel: fix beslutsregel som avgör om en variabel bör elimineras eller om algoritmen (metoden) avbryts Stoppregeln definieras av en förutbestämd signifikansnivå (α-värde) Statistiskt test (i denna uppsats): Waldtest Tabell 2.1 Översikt av stegvis, framlänges och baklänges variabelselektionsmetoderna. Innebörden av vad som gör en variabel betydelsefull för en modell är inte fullständigt utrett i litteraturen, men en möjlig tolkning är att en variabel är viktig om dess uteslutning har en betydande påverkan på modellens prediktionsförmåga (Izenman, 2008). I denna uppsats är variablers betydelse definierad i termer av statistisk signifikans. När det gäller automatiserade metoder för selektion av variabler inom logistisk regression kan t.ex. Scoretestet eller Waldtestet användas för att avgöra om en variabel ska inkluderas i modellen eller elimineras från modellen (se Tabell 2.1). Vidare har forskning visat att dessa tre selektionsmetoder ofta producerar likartade resultat, men att resultaten sällan är reproducerbara (Thompson, 1995; Austin & Tu, 2004). Austin & Tu (2004) fann i sin studie med hjälp av simuleringar att små variationer i ett dataset kan påverka vilka variabler som väljs. Detta innebär att selektionsmetoderna ofta leder till modeller som inte nödvändigtvis skulle erhållas med annan, liknande data. Urvalsfel är den variation i ett urval som är unikt för det urvalet och kan därmed inte återskapas i ett annat urval (Austin & Tu, 2004). En risk med automatiserad variabelselektion är alltså att en modell optimeras för ett specifikt dataset, men om ett liknande dataset används istället kan det resultera i en väldigt annorlunda modell (Menard, 2002). Detta kan inträffa då två olika urval dras från samma population. Thompson (1995) anser dock att detta är ett mindre allvarligt problem om urvalet är tillräckligt stort samt om de ursprungliga variablerna inte är för många. Det finns inga riktlinjer eller rekommendationer för vilken av de tre metoderna som ska användas. Enligt Agresti (2002) föredrar många forskare baklänges metoden över framlänges metoden. Anledningen till detta är att det kan kännas tryggare att eliminera variabler en i taget från en fullständig modell än att addera en variabel i taget till en minimal (tom) modell. En risk med framlänges metoden är att selektionsproceduren avslutas för tidigt om ett hypotestest i ett tidigt steg under proceduren har låg styrka (Agresti, 2002). Där styrka definieras som sannolikheten att förkasta nollhypotesen när alternativhypotesen är sann. 8
9 3. Material och metod 3.1. Datamaterial Datamaterialet för denna uppsats har erhållits från Skolverket och omfattar elever hösten Dessa elever påbörjade gymnasieskolan i Stockholms län hösten Vi studerar med andra ord gymnasieelever som vid hösten 2013 har haft fyra år på sig att avsluta sina gymnasiestudier. Materialet från Skolverket är skyddat för att minimera röjanderisk. För den empiriska studien avgränsar vi oss till att med hjälp av variabelselektionsmetoderna identifiera vilka variabler som påverkar en elevs gymnasiebetyg i ämnena Matematik A och Svenska A. Vid genomgången av materialet framkom det att vissa elever inte fått något betyg alls vare sig i Engelska, Matematik eller Svenska när de slutat årskurs 9. Vi undersöker därför inte dessa elever. I denna studie medtags således endast de som har betyg, Icke Godkänt (IG), Godkänt (G), Väl Godkänt (VG) eller Mycket Väl Godkänt (MVG) i dessa grundskoleämnen. Av de 18 nationella gymnasieprogram som finns är 6 högskoleförberedande. För denna uppsats har vi valt att begränsa oss till de elever som har läst det Samhällsvetenskapliga programmet (SP) eller det Naturvetenskapliga programmet (NP) som båda är högskoleförberedande utbildningar. Övriga avgränsningar görs löpande i uppsatsen. Responsvariablerna, betyg i Matematik A och betyg i Svenska A, är båda ordinala och kan anta fyra olika kategorier (IG, G, VG, MVG). Utifrån programmen SP och NP samt betygen i Matematik A och Svenska A har fyra dataset skapats, se Tabell 3.1. Dataset Responsvariabel Program inriktning Antal observationer (elever) 1 Matematik A NP Matematik A SP Svenska A NP Svenska A SP 6789 Tabell 3.1 Beskrivning av de fyra olika dataseten som används i studien. 9
10 I Tabell 3.2 framgår frekvensfördelningen för olika betygsteg i varje dataset. Betygssteg Frekvenser för responsvariabeln Matematik A Frekvenser för responsvariabeln Svenska A Dataset 1 Dataset 2 Dataset 3 Dataset 4 IG G VG MVG SUMMA Tabell 3.2 Betygsfördelning redovisat i antal för de fyra olika dataseten. Tabell 3.3 beskriver andelen elever för olika betygsteg för dessa fyra dataset. Betygssteg Andel elever för responsvariabeln Matematik A (%) Andel elever för responsvariabeln Svenska A (%) Dataset 1 Dataset 2 Dataset 3 Dataset 4 IG 0 1,04 0,14 0,16 G 10,59 43,57 12,84 24,05 VG 35,35 38,97 41,88 45,84 MVG 54,05 16,42 45,14 29,95 SUMMA Tabell 3.3 Betygsfördelning redovisat i andelar för de fyra olika dataseten. Vi ser i Tabell 3.3 att betygsfördelningen för Matematik A och Svenska A för de som läst NP är strängt växande. Vi ser även i Tabell 3.3 att betygsfördelningen för Matematik A och Svenska A för de som läst SP är unimodal med en maxpunkt i betygsintervallet. Generellt ser vi även att det är väldigt få elever som har betyget IG. 10
11 Variablerna för den empiriska studien sammanfattas i Tabell 3.4. SAS Variabel kod MATTE_A SVA_A Variabel namn Variabel typ Kategorisk, ordinal Kategorisk, ordinal MA_GR X 1 Kategorisk, ordinal SV_GR X 2 Kategorisk, ordinal EN_GR X 3 Kategorisk, ordinal DKON X 4 Kategorisk, dikotom Antal kategorier Beskrivning Responsvariabel för betyg i Matematik A 1 = IG, 2 = G, 3 = VG, 4 = MVG Responsvariabel för betyg i Svenska A 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Matematik årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Svenska årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Betyg i Engelska årskurs 9 1 = IG, 2 = G, 3 = VG, 4 = MVG Kön Man=0 Kvinna=1 AGE X 5 Numerisk - Elevens ålder (i antal år) hösten 2013 UTL_BAKG X 6 Kategorisk 3 FORUNIVA X 7 Kategorisk 5 DSLHMAN X 8 Kategorisk, dikotom DHMAN_AR9 X 9 Kategorisk, dikotom 2 2 Elevens bakgrund 0 = svensk 1 = 2:a generationsinvandrare 2 = 1:a generationsinvandrare Föräldrarnas utbildningsnivå 0 = okänd; 1 = förgymnasial, 2 = gymnasial, 4 = högskola ( 3 år), 5 = högskola (> 3 år) Huvudman i gymnasiet 0 = kommun/ landsting; 1 = fristående Huvudman i grundskolan 0 = kommun/landsting; 1 = fristående 41 (NV) SL_SKOM X 10 Kategorisk Skolkommuner i Stockholms län 60 (SP) Tabell 3.4 Variabellista med variabelkoder och beskrivning av variablerna i de fyra dataseten. Variabler och är responsvariabler i statistiska analyser (se Kapitel 4) för dataset 1, 2, 3 och 4. Variabler till är förklarande variabler i samtliga fyra dataset. Det kräver mycket datorkapacitet att köra automatisk variabelselektion (se Kapitel 4), därför begränsades antalet förklarande variabler till 15. Givet att vi redan har 10 förklarande variabler i datasetet skapades även fem interaktionstermer ( som kan anses vara informativa. Detta innebär att vi har 15 förklarande variabler i vår fullständiga modell. 11
12 3.2. Logistisk regression Vid logistisk regression vill vi undersöka sambandet mellan en kategorisk responsvariabel och ett antal prediktorer Länkfunktion Logistisk regression utnyttjar logit funktionen som länkfunktion, där logit funktionen generellt för en sannolikhet kan skrivas Inversen av logit (den logistiska funktionen) kan sedan skrivas som Fördelen med den logistiska funktionen är att den resulterar i värden som ligger mellan 0 och 1, och därmed garanterar att sannolikheten också ligger mellan 0 och 1. Om går mot oändligheten så går mot 1, och om går mot minus oändligheten går mot 0. Alternativa länkfunktioner vid modellering av sambandet mellan en kategorisk responsvariabel och ett antal prediktorer är t.ex. probit (liknar logit) samt complementary loglog (ej symmetrisk, såsom logit och probit) Binär logistisk regression Om sambandet mellan en binär responsvariabel och förklarande variabler beskrivs med en linjär regressionsmodell,, kan vi inte garantera att Här är en given uppsättning av förklarande variabler. Låt den betingade sannolikheten för utfallet 1, för en given uppsättning av förklarande variabler, betecknas. Genom att använda oss utav logit funktionen kan vi lösa detta problem enligt där är den linjära komponenten i den logistiska regressionsmodellen. är en vektor av parametrar som ska skattas. Om vi sedan tar inversen av logit funktionen får vi enligt ekvation (3.2) Logit funktionen garanterar att sannolikheten,, ligger mellan 0 och 1 (Kutner et al., 2005). 12
13 För fallet med endast en prediktor med en linjär komponent implicit skrivas som, kan oddskvoten där och är specifika värden på. Ifall (då x är kvantitativ) kan oddskvoten explicit skrivas som representerar förändringen i den naturliga logaritmen av odds, för sannolikheten associerad med en enhetsförändring i Nominal logistisk regression En nominal logistisk regressionsmodell kan användas för att beskriva sambandet mellan en kategorisk responsvariabel och ett antal prediktorer, där antalet responskategorier är större eller lika med två. Om antalet kategorier är två erhålls specialfallet binär logistisk regression. Om antalet kategorier hos den kategoriska responsvariabeln är större än två kan nominal logistisk regression användas både då responsvariabeln är nominal eller ordinal. Ett exempel på en ordinal variabel är samt i Tabell 3.4 ovan. Fallet då kallas ibland även för polytom eller multikategorisk logistisk regression. Låt responskategorin vara,. Sannolikheten för utfall för observation, är Vidare är en given uppsättning av förklarande variabler, vilket ger att den betingade sannolikheten för utfallet, för en given uppsättning förklarande variabler, kan betecknas, där och Summan av sannolikheter över utfallsrummet summeras till ett: Den nominala logistiska regressionsmodellen med referenskategori är följande: Kategori i ekvationen ovan avser en godtyckligt vald referenskategori. Där alltså parametervektorer ( ) behöver skattas. 13
14 Avslutningsvis kan sedan sannolikheter per kategori beräknas enligt Detta är en komplex, svårtolkad modell (Kutner et al., 2005). Om följande modell användas. är ordinal kan eventuellt Ordinal logistisk regression (proportionella odds modellen) För en ordinal responsvariabel kan en ordinal logistisk regressionsmodell användas förutsatt att antagandet om proportionella odds ( parallel lines ) är uppfyllt (se avsnitt 3.5). Denna modell tar hänsyn till den naturliga ordningen bland responskategorierna, vilket leder till att vi får en modell som är enklare att tolka (Kutner et al., 2005). Ordinal logistisk regression kallas ibland även för en kumulativ odds modell. Modellen utgår från kumulativa sannolikheter istället för de specifika kategori sannolikheter som användes vid nominal logistisk regression. En kumulativ sannolikhet kan skrivas som Den ordinala logistiska regressionsmodellen utgår ifrån: Det proportionella odds antagandet innebär att regressionsmodellen kan då beskrivas enligt. Den ordinala logistiska Proportionella odds antagandet måste dock testas (se avsnitt 3.5.1). I de fall då vi har en ordinal responsvariabel, men antagandet om proportionella odds inte är uppfyllt, kan t.ex. nominal logistisk regressionsmodell användas (se avsnitt 3.2.3) eller en partiell proportionell odds modell användas (Peterson & Harrell, 1990). I den sistnämnda modellen antas att en delmängd av de förklarande variablerna inte uppfyller antagandet om proportionella odds. I denna uppsats används ordinal logistisk regression. 14
15 För en ordinal logistisk regressionsmodell behöver endast en vektor av riktningskoefficienter skattas, medan intercepten blir unika för varje responskategori. Detta kan jämföras med den nominala modellen, där varje parametervektor 2 är unik. Vidare kan exp, liksom vid binär logistisk regression, tolkas som en oddskvot, där är koefficienten för en enskild variabel, Skillnaden jämfört med det binära fallet blir dock att här får vi kumulativa oddskvoter, eftersom vi utgår från kumulativa sannolikheter. För fallet med endast en prediktor ( ) med en linjär komponent, kan den kumulativa oddskvoten implicit skrivas som Där och är specifika värden på. Då (då x är kvantitativ) kan alltså den kumulativa oddskvoten explicit skrivas som representerar förändringen i den naturliga logaritmen av kumulativa odds, för sannolikheten associerad med en enhetsförändring i. Avslutningsvis kan kumulativa sannolikheter beräknas enligt Detta ger sedan sannolikheterna för varje kategori Parameterskattningar i den ordinala logistiska regressionsmodellen För att skatta modellparametrar kan maximum-likelihood metoden användas. Givet ett urval av storlek, kan likelihood funktionen vid ordinal logistisk regression med proportionella odds antagandet skrivas: 2 Inkluderar både en vektor av riktningskoefficienter samt en vektor av intercept. 15
16 där är binära variabler för varje observation, dvs. då utfallet är. Likelihood funktionen är en funktion av och en vektor av riktningskoefficienter. Maximum-likelihood skattningarna för dessa parametrar är då de skattningar som maximerar likelihood funktionen. Inferens En maximum likelihood estimator (MLE) för en modellparameter är asymptotiskt normalfördelad. Det innebär att maximum-likelihood skattningars samplingsfördelning vid stora urval är approximativt normalfördelade, med varianser och kovarianser som är funktioner av andra-ordningens partiella derivator av den naturliga logaritmen av likelihood funktionen. Inferens (intervallskattningar och statistiska test) inom logistisk regresson är baserad på att maximum-likelihood skattningars samplingsfördelning är approximativt normalfördelad (Kutner et al., 2005). Att normalfördelad för stora utnyttjas t.ex. i ett Waldtest för en enskild modellparameter enligt där Test-statistikan under för stora är 16
17 3.3. Variabelselektionsmetoder Stegvis, framlänges och baklänges variabelselektion utgår från förklarande variabler. Den resulterande modellen som väljs av respektive metod benämns här slutmodell. Olika test-statistikor i olika statistikprogram används vid val av variabler i de tre selektionsmetoderna. Till exempel i statistikprogramvaran SAS används Scoretest vid framlänges variabelselektion samt vid framlänges selektion inom stegvis variabelselektion. Waldtest används vid baklänges variabelselektion samt vid kontroll för eliminering inom stegvis variabelselektion (se Tabell 2.1). CLASS kommandot används i SAS för att hantera kategoriska, förklarande variabler som har fler kategorier än två 3. Generellt gäller för alla modeller i metoderna nedan. Nedan har vi utelämnat index, motsvarande observation Stegvis variabelselektion Den stegvisa metoden innefattar framlänges selektion samt kontroll för baklänges eliminering. Metoden kan beskrivas med följande steg (Hosmer et al., 2013). Steg 1: Framlänges selektion. I detta steg jämförs en minimal modell som består bara av ett intercept med andra modeller som alla innehåller en variabel För modeller kan vi testa den minimala modellen mot en modell som innehåller en variabel. Detta ger oss sammanlagt stycken p-värden. 3 Framställningen här är principiellt korrekt, men förenklad. Variabeln X motsvarar här endast kvantitativa eller binära variabler. 17
18 Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 2 med den utvalda variabeln. Annars avslutas metoden. Steg 2: Framlänges selektion. I detta steg jämförs en modell som innehåller den variabel som valdes i Steg 1, med andra modeller som alla innehåller en av de kvarvarande (ej utvalda) variablerna samt den utvalda variabeln från Steg 1,. Detta ger oss stycken utav följande modeller För dessa p-1 modeller kan vi göra följande test Detta ger oss sammanlagt stycken p-värden. Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 3 med de utvalda variablerna (. Annars avslutas metoden. Steg 3 omfattar Steg 3(i) och Steg 3(ii). 18
19 Steg 3(i): Kontroll för baklänges eliminering. Först jämförs en modell med endast variabeln (Modell 1) med en modell som inkluderar både variabel och (Modell 2). En jämförelse i formen av ett statistiskt test mellan dessa två modeller ger ett p-värde ( ). Sedan jämförs en modell med endast variabeln (Modell 3) med en modell som inkluderar både variabel och (Modell 2). En jämförelse i formen av ett statistiskt test mellan dessa två modeller ger ett p-värde ( ). Låt den förutbestämda signifikansnivån i elimineringsregeln vara. Elimineringsregeln är då följande: Ifall prövar vi följande hypotes Om, förkastas, och då följer variablerna ( med till Steg 4. Om inte förkastas följer variabel med till Steg 4. Alternativt ifall prövar vi följande hypotes, Om, förkastas, och då följer variablerna ( med till Steg 4. Om inte förkastas följer variabel med till Steg 4. Steg 3(ii): Framlänges selektion I detta steg jämförs en modell med de variabler som valdes i Steg 2, med andra modeller som alla innehåller en av de kvarvarande (ej utvalda) variablerna samt de utvalda variablerna, och, från Steg 2. Detta ger oss stycken utav följande modeller 19
20 För dessa modeller kan vi göra följande test, Detta ger oss sammanlagt p-2 stycken p-värden. Därefter väljs modellen med lägst p-värde,, och vi definierar den linjära komponenten för denna modell som ( ). Sedan jämförs med en förutbestämd signifikansnivå (α) i följande test Stoppregeln är följande: Om, förkastas, och vi går till Steg 4 med samt variablerna/variabeln från Steg 3(i). Annars avslutas metoden. Steg 4: Proceduren för Steg 4 är identisk med den i Steg 3 (Steg 3(i) och Steg 3(ii)). Proceduren forstätter på detta vis tills metoden avslutas vid Steg S. Steg S: Detta inträffar då: (1) Alla variabler har inkluderats i modellen, eller (2) Alla variabler i modellen har p-värden (beräknade vid baklänges elimineringssteget) som är mindre än λ. Och alla variabler som inte inkluderats i modellen har p-värden (beräknade vid framlänges selektionssteget) som är större än α. 20
21 Framlänges variabelselektion Denna metod motsvarar stegvis selektion utan kontroll för baklänges eliminering Baklänges variabelselektion Denna metod kan beskrivas med följande steg. Steg 1: I detta steg jämförs en fullständig modell med p variabler, med p andra modeller som alla innehåller p-1 variabler (dvs. i varje modell har en utav p variabler tagits bort). För alla dessa modeller kan vi testa den fullständiga modellen mot en modell som innehåller variabler. Här används olika test-statistikor i olika statistikprogram. Därefter väljs modellen med högst p-värde, signifikansnivå (α)., som sedan jämförs med en förutbestämd Det vill säga för den valda modellen gör vi följande test H 0 (reducerad modell): modell med p-1 variabler (den med högst p-värde). Stoppregeln är följande: H A (full modell): den fullständiga modellen med p variabler. Om, kan inte förkastas och vi går till Steg 2 med den utvalda modellen med variabler (en variabel elimineras). Annars avslutas proceduren. Steg 2: Samma process som i Steg 1. Proceduren avslutas vid det tillfälle då alla variabler har eliminerats i modellen eller då stoppregeln uppfyllts. 21
22 Scoretest och Waldtest För att testa de förklarande variablernas signifikans, dvs. vilka variabler som ska adderas till modellen eller elimineras från modellen, används Scoretest och Waldtest. Fördelen med Waldtest och Scoretest jämfört med Likelihood kvottestet är att bara en modell under behöver skattas. Vid baklänges variabelselektion innebär det att endast en modell behöver skattas vid varje Waldtestet. Vid framlänges variabelselektion innebär det att endast en modell behöver skattas vid varje Scoretest (Fox, 1997; Johnston & DiNardo, 1997). Waldtest Linjära hypoteser för regressionskoefficienter kan uttryckas i matrisform som Wald test-statistikan för test av beräknas som där är en matris av koefficienter för de linjära hypoteserna och är en vektor av konstanter. Vektorn av regressionskoefficienter innefattar lutningsparametrar samt interceptparametrar. är den skattade kovariansmatrisen av. Under följer asymptotiskt en chi-två fördelning med frihetsgrader, där är rangen av. Scoretest Score statistikan för att testa definieras som där är en vektor av första ordningens partiella derivator (d.v.s. en Jacobian) av loglikelihood funktionen med avseende på parametervektorn ; är en matris av andra ordningens partiella derivator (d.v.s. en Hessian) av log-likelihood funktionen med avseende på ; är väntevärdet av, och är maximum likelihood skattningen av under. Score test-statistikan har en asymptotisk chi-två fördelning med frihetsgrader under, där är antalet restriktioner införda på under. 22
23 Stoppregel och elimineringsregel För de automatiserade variabelselektionsmetoderna specificeras förutbestämda signifikansnivåer (α) för att avgöra om en variabel ska inkluderas i eller elimineras från en modell. Med hjälp av signifikansnivåer kan antalet variabler som kommer med i den slutgiltiga modellen kontrolleras. Högre signifikansnivåer vid framlänges selektion gör det möjligt för fler variabler att inkluderas och lägre signifikansnivåer vid baklänges selektion ser till att inte alla möjliga variabler kvarstår i modellen (Derksen et al., 1992). Signifikansnivån kan alltså avgöra om en variabel kommer med eller inte i den resulterande slutmodellen (som är en delmängd av den fullständiga modellen). Valet av signifikansnivå bestäms av forskaren. Många anser att detta godtyckliga val av signifikansnivåer leder till opålitliga selekteringskriterier, eftersom det innebär att helt andra variabler kan väljas när en annan forskare använder en annan signifikansnivå (Rice, 2011). Statistiska test som används vid variabelselektionsmetoder använder sig inte av ett p-värde i den traditionella bemärkelsen vid hypotesprövning. De bör istället ses som indikatorer av relativ betydelse bland variabler i datasetet (Hosmer et al., 2013). Effekten av detta blir att signifikansnivåer för stoppregler oftast sätts på en högre nivå än vid traditionell hypotesprövning. Vissa statistiska datorprogram har som standardinställning att signifikansnivån (α) är 0,05. Men detta har kritiserats för att vara för lågt, eftersom att det kan leda till att betydelsefulla variabler uteslutes från modellen (Bendel et al., 1977). Vad som är den lämpligaste signifikansnivån har forskare i olika studier angett att det beror på vilken variabelselektionsmetod som används. Stegvis variabelselektion Vid stegvis variabelselektion rekommenderade Bendel et al. (1977) att de optimala signifikansnivåerna (för stoppregeln (α) och elimineringsregeln (λ)) ligger mellan 0,15 och 0,25. Hosmer et al. (2013) förordar att signifikansnivån för elimineringsregeln är något högre än signifikansnivån för stoppregeln. Till exempel kan det vara lämpligt att välja en signifikansnivå för elimineringsregeln som är lika med signifikansnivån för stoppregeln plus 2 till 5 procentenheter. Detta för att undvika att samma variabel adderas och elimineras successivt i följande steg. Elimineringsregeln innebär att ett minimum krav ställs på en variabels bidrag till modellen (Hosmer et al., 2013). Framlänges variabelselektion Lee & Koval (1997) visade i en studie att signifikansnivåer som varierar mellan 0,05 och 0,40 är lämpligast för framlänges variabelselektion inom logistisk regression, men gav en generell rekommendation att 0,15 < α < 0,20 bör användas. Liknande rekommendationer har givits i en annan studie där signifikansnivåer mellan 0,15 och 0,25 resulterade i att inte alltför många icke-relevanta variabler kom med i modellen, samtidigt som signifikansnivån var stor nog att autentiska variabler (relevanta) inkluderades (Bendel et al., 1977). 23
24 Baklänges variabelselektion För baklänges selektion har α=0,10 rekommenderats (Kennedy & Bancroft, 1971), medan Wang et al. (2008) rekommenderar 0,20 < α < 0,40. Vidare anmärker Wang et al. (2008) att antalet förklarande variabler, p, är viktigt för att bestämma optimala signifikansnivåer. De menar alltså att den bästa signifikansnivån ökar när antalet variabler i datasetet ökar enligt formeln α=p/100. Det innebär att det är svårt att ge generella rekommendationer för val värden på signifikansnivåer. 24
25 3.4. Informationskriterier Efter att de tre metoderna för variabelselektion (se avsnitt 3.3) applicerats, kommer vi i denna uppsats att ha ett relativt stort antal modeller kvar att välja mellan per dataset (se Kapitel 4). Detta val baserar vi på ett informationskriterium. Den lämpligaste modellen av en mängd av konkurrerande modeller definieras ofta som den modell som ger den relativt bästa anpassningen till data (Hosmer & Lemeshow, 2000). Hur bra denna anpassning till data blir beror bl.a. på antalet parametrar i modellen. Ett för stort antal parametrar kan leda till att algoritmer för parameterskattningarna inte konvergerar (Dobson, 2002). Den lämpligaste modellen, dvs. den som ger relativt bäst anpassning, brukar ofta väljas genom att anpassa konkurrerande modeller till data och jämföra modellernas anpassningsgrad. Viktigt att notera i detta sammanhang är att dessa konkurrerande modeller kan innehålla samma antal parametrar men olika prediktorer eller olika antal parametrar. I fallet med olika prediktorer är det inte meningsfullt att jämföra modellernas anpassningsgrad med hjälp av test-statistikor som används för jämförelse av nested models. Av denna anledning har jämförelsemått skapats som tar hänsyn till antalet parametrar i respektive modell. Två av de vanligaste måtten av denna typ är s.k. informationskriterier, Akaike informationskriterium (AIC) och Schwarz informationskriterium (SC) som ibland kallas Bayesian Information Criterion, BIC. Låt vara en parametervektor av dimension q för en modell. Akaike informationskriterium definieras som där betecknar logaritmen av den skattade likelihoodfunktionen. Schwarz informationskriterium kan i sin tur definieras som där n är antalet observationer i urvalet. Den modell utav alla konkurrerande modeller som har minst värde på eller väljs som bästa modell utifrån respektive AIC eller SC. Både AIC och SC baseras alltså på skattningar av log-likelihoodfunktionen samt justerar för antalet parametrar i modellen (Cnaan et al., 1997). Om, till exempel, två modeller har samma värde för maximum av log-likelihood funktionen, säger både AIC och SC att den lämpligaste modellen är den som har lägst antal parametrar, dvs. lägst värde på informationskriterierna. Den huvudsakliga skillnaden mellan kriterierna är att de straffar en modell för antal skattade parametrar på olika sätt (avseende logistisk regression se Shtatland et al., 2001). För n e 2 7, 39 straffar SC komplexa modeller mer än AIC. Vid relativt små urvalsstorlekar kan SC leda till att en alltför enkel modell (med alltför få parametrar) väljs en nackdel i jämförelse med AIC (Zucchini, 2000). En fördel med SC är att dess sannolikhet att identifiera 25
26 korrekt modell för datan ökar och går mot ett då et al., 2009)., vilket inte är fallet för AIC (Casella I denna uppsats utgår vi i valet av modell med bästa anpassningsgrad från AIC. Ett antal forskare (Yanagihara et al., 2003; Burnham & Anderson, 2004) framhäver att AIC kan ge biased resultat inom logistisk regression, vilket kan påverka valet av bästa modell vid små till medelstora urvalsstorlekar. Men eftersom vårt datamaterial består av tusentals observationer nivelleras denna bias. 26
27 3.5. Modellutvärdering I empiriska studier är det viktigt att ha modeller som är välanpassade till data för att kunna dra pålitliga slutsatser. I detta avsnitt diskuteras proportionella odds antagandet, anpassningstest och residualanalys för ordinal logistisk regression. För ordinala logistiska regressionsmodeller finns få metoder för anpassningstest och residualanalys i litteraturen, dessutom finns inga statistiskprogram som hanterar detta för ordinal logistisk regression (Fagerland & Hosmer, 2012; O'Connell & Liu, 2011). Istället rekommenderas då att modellutvärdering med avseende på anpassningstest och residualanalys vid en ordinal logistisk regressionsmodell (med J kategorier hos responsvariabeln) genomförs med hjälp av olika binära logistiska regressionsmodeller (Kutner et al., 2005; O'Connell & Liu, 2011) Test för antagandet om proportionella odds För att testa om modellantagandet om proportionella odds prövas följande nollhypotes För att pröva denna hypotes kan olika statistiska test användas. I denna studie används Scoretest (finns i SAS). Om ej förkastas kan vi säga att data stöder att en ordinal logistisk regressionsmodell kan användas enligt följande modell Avsnitt beskriver denna modell i detalj. 27
28 Hosmer-Lemeshow anpassningstest För ordinal logistisk regression ( kategorier hos responsvariabeln) rekommenderas alltså att anpassningstest genomförs med hjälp av binära logistiska regressionsmodeller, eftersom det finns få teoretiska modeller och inga statistiskprogram som hanterar anpassningstest för ordinal logistisk regression (Fagerland & Hosmer, 2012). Först väljs då en godtycklig referenskategori. Sedan körs en binär logistisk regressions modell för alla de övriga J-1 kategorierna (en i taget). Varje gång används endast data som tillhör referenskategorin samt den kategori som är aktuell, vilket innebär att vi då kan definiera en binär responsvariabel utifrån två kategorier hos responsvariabeln (Kutner et al., 2005). Hosmer-Lemeshows anpassningstest (goodness-of-fit test) utförs på en skattad binär logistisk regressionsmodell. För att testa om en skattad modell är lämplig för datamaterialet prövas följande hypotes Vid genomförandet av Hosmer-Lemeshows anpassningstest delas observationerna in i grupper (g) med liknande skattade sannolikheter Vanligtvis skapas tio grupper, där grupp 1 består av observationer med den lägsta skattade sannolikheten,, och grupp 10 består av observationer med den högsta skattade sannolikheten, (Hosmer et al., 2013). Antalet grupper kan väljas godtyckligt men kan dock inte vara färre än g=3. Låt responsvariabeln (, är antalet observationer i den jte gruppen, j=1,...,g) vara en Bernoulli variabel som kan anta värdena 0 eller 1. De observerade frekvenserna i grupp j då betecknas som och de observerade frekvenserna i grupp j då betecknas som. De observerade frekvenserna och blir följande, De skattade frekvenserna för den j:te gruppen är En korstabell med de observerade och skattade frekvenserna kan då skapas (Fagerland & Hosmer, 2012). 28
29 Hosmer-Lemeshows test-statistikan definieras som Under är Hosmer-Lemeshows anpassningstest mäter alltså hur bra de genomsnittliga förväntade sannolikheterna sammanfaller med de observerade sannolikheterna i de skapade grupperna. Att förkastas kan t.ex. bero på en felaktig modellspecifikation, en felaktig länkfunktion, befintliga outliers (se avsnitt 3.5.3) eller overdispersion (Collett, 2003). Modellspecifikation: Frågan här är om den linjära komponenten i modellen är korrekt specificerad. Problem kan orsakas av att irrelevanta variabler från datasetet inkluderats, att informativa variabler saknas och/eller att den funktionella formen för variablerna är felaktig. Länkfunktion: I denna uppsats används logit som länkfunktion (se avsnitt 3.2.1). Alternativa länkfunktioner som förekommer är probit samt complementary log-log modeller. Overdispersion: På grund av heterogenitet och/eller korrelation mellan observationer på responsvariabeln blir variansen större än vad som antas i modellen. Overdispersion kan öka osäkerheten vid inferens om det inte åtgärdas (Collett, 2003). 29
30 Residualanalys För ordinal logistisk regression ( kategorier hos responsvariabeln) rekommenderas alltså att residualanalys genomförs med hjälp av binära logistiska regressionsmodeller, eftersom det finns få teoretiska modeller och inga statistiskprogram som hanterar residualanalys för ordinal logistisk regression (O'Connell & Liu, 2011). Först väljs då en godtycklig referenskategori. Sedan körs en binär logistisk regressions modell för alla de övriga kategorierna (en i taget). Varje gång används endast data som tillhör referenskategorin samt den kategori som är aktuell, vilket innebär att vi då kan definiera en binär responsvariabel utifrån två kategorier hos responsvariabeln (Kutner et al., 2005). I detta avsnitt betraktar vi tre moment för residualanalys vid binär logistisk regression. Först, en genomgång av residualer, sedan hur residualanalys kan användas för anpassningstest samt sist hur residualanalys kan användas för att identifera outliers (Kutner et al., 2005). Residualer vid binär logistisk regression I logistisk regression kan Y-variabeln anta ett av två värden residual,, också bara anta ett av två värden,. Därför kan en där,. Residualer är skattningar av feltermen per observation. De mäter avståndet mellan den skattade modellen samt enskilda observationer. Men i vårt fall har vi individuell data (responsvariabeln är binär). Då, eftersom bara två värden kan antas, kan inga antaganden om fördelningen för residualerna göras. Inga utav residualerna som erhålls vid binär logistisk regression kan därmed approximeras med normalfördelningen (Collett, 2003). Vidare, eftersom responsvariabeln i detta avsnitt är binär, är plottar av residualer mot den linjära prediktorn eller mot de förklarande variablerna i modellen generellt inte informativa (Collett, 2003; Kutner et al., 2005). Pearson residualer fås genom att residualen (3.36) delas med dess skattade standardavvikelse,, och definieras som 30
31 Den standardiserade Pearson residualen är definierad som där är Pearson residualen och, s.k. leverage, är det ite diagonala elementet av skattade hatt matrisen (eng; hat matrix): -1 där är en diagonal matris med element, och är en design matris, där q är antalet okända parametrar i modellen (för detaljer se Kutner et al., 2005; Collett, 2003). En annan residual är deviance residualen och dess motsvarande standardiserade version. Deviance residualen definieras som I detta avsnitt använder vi den standardiserade Pearson residualen samt (leverage). Residualanalys för anpassningstest En indexplott av standardiserade residualer mot observationernas ordningsnummer kan generellt ge användbar information för att utvärdera hur väl den linjära delen av modellen passar datan (Collett, 2003). Frånvaron av omfattande mönster i denna indexplott indikerar att modellen är väl anpassad till datan. Enligt Kutner et al. (2005) bör om modellen är korrekt en "lowess smooth" plot av residualer mot skattade sannolikheter approximativt resultera i en horisontell linje med ett noll intercept. En "Half-Normal Probability Plot with Simulated Envelope" kan användas för att utvärdera hur väl den linjära delen av modellen passar datan. Sammanfattningsvis inkluderar vi indexplottar för de standardiserade Pearson residualerna i Kapitel 4. Men dessa studeras inte i detalj, eftersom vårt huvudsakliga test för anpassning i Kapitel 4 är Hosmer-Lemeshow testet från avsnitt Outliers Outliers är generellt värden på variabler för enskilda observationer som är mycket större eller mycket mindre än övriga värden i ett dataset (Kleinbaum et al., 2008). Outliers kan i vissa fall representera icke-slumpmässiga fel i termer av felaktig data i datasetet (mätfel, felaktig inmatning, etc.). Varje statistisk analys av data bör därför inledas med att studera de största samt minsta värden för varje variabel och sedan jämföra dessa med respektive variabels utfallsrum. Värden som bedöms vara felaktig data kan sedan omkodas till missing, dvs. partiellt bortfall (Kleinbaum et al., 2008). 31
32 Outliers som inte betraktas som felaktig data kan ibland påverka en modells anpassning till ett dataset (Kleinbaum et al., 2008). Om modellskattningen inte blir signifikant annorlunda då outliers plockas bort från datasetet kan dessa ignoreras. Om modellskattningen blir signifikant annorlunda då outliers plockas bort från datasetet kan eventuellt denna modellskattning väljas. Men ett sådant val måste noga motiveras. Det räcker då inte som motivering endast att en signifikant annorlunda modellskattning erhålls utan outliers (Kleinbaum et al., 2008). Outliers (avvikande observationer) som påverkar inferens för en modell kallas för inflytelserika observationer. Kleinbaum et al. (2008) betonar i detta sammanhang att outliers kan ses som en naturlig slumpmässig variation. Vissa författare hävdar till och med att outliers aldrig ska tas bort, eftersom ett dataset med outliers troligtvis är mer representativt än ett dataset utan outliers (Orr, Sackett & DuBois, 1991). Vid binär logistisk regression kan de statistiska mått som används för att identifiera outliers inte kopplas till någon form av statistisk fördelning (Kutner et al., 2005). Ett alternativ är då att förlita sig på olika former av tumregler. Genom att plotta mot observationerna i datasetet är det möjligt att identifiera avvikande observationer. Medelvärdet för är, och en förekommande tumregel för identifiering av avvikande observationer är (Hosmer et al., 2013). Dock så behöver höga leverage värden inte innebära att observationerna är inflytelserika, och inflytelserika observationer behöver inte anta höga leverage värden (Chatterjee & Yilmaz, 1992). Vid stora urval måste dock olika tumregler fokusera på andelen outliers i relation till urvalsstorleken (Kleinbaum et al., 2008). Kutner et al. (2005) anser att identifiering av potentiellt inflytelserika observationer vid binär logistisk regression får göras på basis av subjektiv visuell analys av lämpliga grafer. Avslutningsvis, relaterar även ett anpassningstest till outliers. Om anpassningstestet stöder att modellen är väl anpassad till data så stödjer detta att inga inflytelserika observationer av vikt finns i datasetet (Collett, 2003). Sammanfattningsvis, analyserar vi möjliga avvikande observationer i vår empiriska studie enligt följande (se Kapitel 4): De största samt minsta värden för varje variabel har jämförts med dess utfallsrum. plottar av (leverage) mot observationerna i datasetet. Hosmer-Lemeshow anpassningstest. 32
33 4. Resultat För att kunna tillämpa samt jämföra de tre variabelselektionsmetoderna väljer vi 19 olika värden på α (stoppregeln) från 0,05 till 0,95, där α ökar successivt med 0,05. För den stegvisa metoden sätter vi elimineringsregelns λ-värde till stoppregelns α-värde plus 2,5 procentenheter. För varje dataset erhåller vi 57 (3*19) slutmodeller, se Tabell 4.1. Dataset Baklänges variabelselektion Stegvis variabelselektion Framlänges variabelselektion 1-4 Modeller med 19 olika α-värden (stoppregeln) 0,05 α 0,95. Modeller med 19 olika kombinationer av stoppregelns α-värde, 0,05 α 0,95, samt elimineringsregelns λ-värde, 0,075 λ 0,975. Modeller med 19 olika α-värden (stoppregeln) 0,05 α 0,95. Tabell 4.1: Sammanfattning av signifikansnivåer för modeller valda med olika variabelselektionsmetoder för varje dataset. Nedan presenteras våra resultat. Dessa resultat diskuteras i Kapitel 5. Slutmodeller per dataset Vi använder ordinala logistiska regressionsmodeller för variabeln (betyget i Matematik A) och variabeln (betyget i Svenska A) för respektive dataset. För att identifiera faktorer som prediktera elevernas gymnasiebetyg används en ordinal logistisk regressionsmodell (se ekvation (3.13) i avsnitt 3.2.4) Analysen genomförs med SAS/STAT 9.4 The Logistic Procedure, där de automatiserade variabelselektionsmetoderna utförs genom kommandot SELECTION (= STEPWISE BACKWARD FORWARD). De variabler som väljs (slutmodeller) för de fyra dataseten med varje selektionsmetod redovisas i Tabell Kolumn ett i Tabell anger ett numeriskt namn för slutmodellerna (modellerna) i kolumn två, samt anger inom parantes antalet variabler. Kolumn tre är de variabelselektionsmetoder som valt variablerna i kolumn två och kolumn fyra anger de signifikansnivåer (stoppregler) som använts för varje metod. Kolumn fem anger AIC värdet för respektive modell. Principen för hur variablerna i kolumn två redovisas, är att modellen expanderas successivt med de variabler som läggs till. Till exempel är den första raden av variabler för Modell 1.2 och 1.1 densamma. På samma sätt är de två första raderna för Modell 1.2 och 1.3 densamma. 33
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet
732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris
Läs merF19, (Multipel linjär regression forts) och F20, Chi-två test.
Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med
Läs merFöreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Läs merBild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Läs merExempel på tentamensuppgifter
STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11
Läs merFör logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
Läs merStatistisk analys av komplexa data
Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 28, 2012 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012
Läs merTillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2
Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning
Läs merRegressions- och Tidsserieanalys - F4
Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1
Läs merSkolprestationer på kommunnivå med hänsyn tagen till socioekonomi
1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer
Läs merFöreläsning 4. Kap 5,1-5,3
Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet
Läs merSF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018
SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14-15 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 14 maj 2018 PLAN FÖR DAGENS FÖRELÄSNING Icke-parametriska metoder. (Kap. 13.10) Det
Läs merFöreläsning 12: Repetition
Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse
Läs merFör logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
Läs merInstuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8
1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,
Läs merStatistisk analys av komplexa data
Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 12, 2013 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013
Läs merLektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Läs merF18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Läs merMedicinsk statistik II
Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning
Läs merLogistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013
Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas
Läs merResidualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
Läs merStatistisk analys av komplexa data
Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 18, 2016 Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016
Läs merRegressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet
Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.
Läs merRegressionsanalys av lägenhetspriser i Spånga
Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016
Läs merHypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University
Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att
Läs merProvmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13
Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare
Läs merLABORATION 3 - Regressionsanalys
Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet
Läs merF14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva
Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H
Läs merLaboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
Läs merLaboration 2: Styrkefunktion samt Regression
Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens
Läs merMatematisk statistik, Föreläsning 5
Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk
Läs merAnalys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken
Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen
Läs merRegressionsanalys med SPSS Kimmo Sorjonen (2010)
1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;
Läs merAnalytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens
Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större
Läs merFöreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Läs merAtt välja statistisk metod
Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...
Läs merRättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal
Läs merResursfördelningsmodellen
PCA/MIH Johan Löfgren Rapport 25-6-26 (6) Resursfördelningsmodellen Växjös skolor våren 25 Inledning Underlag för analyserna utgörs av ett register som innehåller elever som gått ut årskurs nio 2 24. Registret
Läs merFöreläsning 5. Kapitel 6, sid Inferens om en population
Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning
Läs merSF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015
SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 12 oktober 2015 PLAN FÖR DAGENS FÖRELÄSNING Icke-parametsriska metoder. (Kap. 13.10) Det grundläggande
Läs merTVM-Matematik Adam Jonsson
TVM-Matematik Adam Jonsson 014-1-09 LABORATION 3 I MATEMATISK STATISTIK, S0001M REGRESSIONSANALYS I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistikprogrammet
Läs merFöreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar
Läs merStatistik 1 för biologer, logopeder och psykologer
Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad
Läs merInnehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E
Innehåll I. Grundläggande begrepp II. Deskriptiv statistik (sid 53 i E) III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser 1 II. Beskrivande statistik,
Läs merSF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test
SF1915 Sannolikhetsteori och statistik 6 hp Föreläsning 12 χ 2 -test Jörgen Säve-Söderbergh Anpassningstest test av given fördelning n oberoende försök med r möjliga olika utfall Händelse A 1 A 2... A
Läs merFöreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en
Läs merLösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015
MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14
Läs merF5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab
Repetition: Gnuer i (o)skyddade områden χ 2 -metoder, med koppling till binomialfördelning och genetik. Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 Endast 2 av de 13 observationerna
Läs merVid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar
ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i )
Läs merχ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:
Stat. teori gk, ht 006, JW F1 χ -TEST (NCT 16.1-16.) Ordlista till NCT Goodness-of-fit-test χ, chi-square Test av anpassning χ, chi-två Test av anpassning: sannolikheter specificerade i förväg Data: n
Läs mer2. Test av hypotes rörande medianen i en population.
Stat. teori gk, ht 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 15.1, 15.3-15.4) Ordlista till NCT Nonparametric Sign test Rank Icke-parametrisk Teckentest Rang Teckentest Teckentestet är formellt ingenting
Läs merπ = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.
Stat. teori gk, vt 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 13.1, 13.3-13.4) Or dlista till NCT Nonparametric Sign test Rank Teckentest Icke-parametrisk Teckentest Rang Teckentestet är formellt ingenting
Läs merF3 Introduktion Stickprov
Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever
Läs merModeller för studieframgång i Matematisk Analys IV
Modeller för studieframgång i Matematisk Analys IV Filip Walldén Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:9 Matematisk statistik Juni 2015
Läs merLÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29
UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN
Läs mer, s a. , s b. personer från Alingsås och n b
Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen
Läs merLinjär regressionsanalys. Wieland Wermke
+ Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån
Läs merLABORATION 3 - Regressionsanalys
Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys
Läs merSF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski
SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 12. MER HYPOTESPRÖVNING. χ 2 -TEST Jan Grandell & Timo Koski 25.02.2016 Jan Grandell & Timo Koski Matematisk statistik 25.02.2016 1 / 46 INNEHÅLL Hypotesprövning
Läs merLaboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall
Läs merAnvändning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå
Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)
Läs merRepetitionsföreläsning
Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning
Läs merPoissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)
Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0
Läs merHärledning av Black-Littermans formel mha allmänna linjära modellen
Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem
Läs merFöreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
Läs merStatistik B Regressions- och tidsserieanalys Föreläsning 1
Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs
Läs merTT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng
Matematisk statistik Provmoment: Ladokkod: Tentamen ges för: TT091A, TVJ22A, NVJA02 Pu, Ti 7,5 högskolepoäng Namn: (Ifylles av student) Personnummer: (Ifylles av student) Tentamensdatum: 2012-05-29 Tid:
Läs merUppgift a b c d e Vet inte Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
TENTAMEN: Dataanalys och statistik för I, TMS136 Onsdagen den 5 oktober kl. 8.30-13.30 på M. Jour: Jenny Andersson, ankn 5317 Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd ordlista
Läs merAutokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012
Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov
Läs merAnalytisk statistik. Tony Pansell, optiker Universitetslektor
Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp
Läs mer1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell
Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning
Läs mer10.1 Enkel linjär regression
Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot
Läs merBetrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.
Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten
Läs merKapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT
Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur
Läs merSTOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.
MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på
Läs merKorrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION
KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat
Läs merAnalys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression
Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk
Läs merTill ampad statistik (A5) Förläsning 13: Logistisk regression
Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08 Exempel 1: NTU2015 Exempel 2: En jobbannons Exempel 3 1 1 Klofstad, C.
Läs merSkattningsmetoder för binär data: En simuleringsstudie
Skattningsmetoder för binär data: En simuleringsstudie Greta Olsson Lööf Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2017:7 Matematisk statistik Juni
Läs merSpridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.
Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:
Läs merBestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)
Avd. Matematisk statistik TENTAMEN I SF1901, SF1905, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 17:E AUGUSTI 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66 Tillåtna hjälpmedel: Formel-
Läs merBayesiansk statistik, 732g43, 7.5 hp
Bayesiansk statistik, 732g43, 7.5 hp Moment 2 - Linjär regressionsanalys Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 1 / 29 Översikt moment 2: linjär
Läs mer2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer
Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna
Läs merLTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING
LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga
Läs merFöreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är
Läs merTentamen för kursen. Linjära statistiska modeller. 17 februari
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 17 februari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312,
Läs merMultipel Regressionsmodellen
Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b
Läs merTvå innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval
Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande
Läs merSF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.
SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt
Läs merFöreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 5 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Andelar (kap 24) o Binomialfördelning (kap 24.1) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test
Läs merHur skriver man statistikavsnittet i en ansökan?
Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det
Läs merMatematisk statistik för B, K, N, BME och Kemister
Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret
Läs merPROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik
Läs merAnalytisk statistik. Mattias Nilsson Benfatto, PhD.
Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik
Läs merMULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?
MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.
Läs merTentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.
Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för
Läs merTentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl
Karlstads Universitet Avdelningen för Nationalekonomi och Statistik Tentamen i Statistik, STG A0 och STG A06 (3,5 hp) Torsdag 5 juni 008, Kl 4.00-9.00 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema
Läs merF22, Icke-parametriska metoder.
Icke-parametriska metoder F22, Icke-parametriska metoder. Christian Tallberg Statistiska institutionen Stockholms universitet Tidigare när vi utfört inferens, dvs utifrån stickprov gjort konfidensintervall
Läs merSTOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson (examinator) VT2017 TENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2017-04-20 LÖSNINGSFÖRSLAG Första version, med reservation för tryck-
Läs mera) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)
5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk
Läs mer