Då föddes barnen. En statistisk studie om födelseintervall på 1800-talet i Skellefteå. Ellen Holmlund Maja Zelán

Transkript

1 Då föddes barnen En statistisk studie om födelseintervall på 1800-talet i Skellefteå Ellen Holmlund Maja Zelán Student Vt 2016 Examensarbete, Statistik C2 15 hp

2 Sammanfattning Kyrkböcker är en viktig källa till information om hur olika levnadsförhållanden såg ut i Sverige förr i tiden. Idag finns information lagrat om Sveriges befolkning som sträcker sig så långt som 400 år bakåt i tiden. Datamaterialet som används i denna uppsats kommer från den Demografiska databasen vid Umeå universitet och innehåller information om kvinnors livsförhållanden under talets Skellefteå. Uppsatsens syfte är att förklara intervallängden mellan två födslar från en och samma moder genom att använda sig av överlevnadsanalys och Coxregression. Vidare har två Coxregressions- grundmodeller tagits fram. Skillnaden mellan modellerna är hur tidsintervallet bestäms. Den ena modellen tar hänsyn till intervallängden mellan två födslar och den andra tar hänsyn till moderns ålder vid varje födsel. I huvudsak har tiden mellan två födslar analyseras mellan de olika pariteterna för sig. Det är svårt att jämföra de två modellerna då proportionalitetsantagandet för den ena modellen inte är uppfyllt och måste därför tolkas med försiktighet. Det visade sig att amning förlänger tiden till nästa födsel för samtliga pariteter jämfört med en moder som inte ammar. Även faderns samhällsklass kan ha betydelse för tiden mellan två födslar, men detta framgår inte lika tydligt. Abstract Title: When the children were born a statistical study of birth intervalls in the 19 th century in Skellefteå, Sweden Church records are an important source of information on historical living conditions in Sweden. There is information about Sweden s population dating back as far as 400 years. The dataset used in this study comes from the demographic database (Demografiska databasen) at Umeå University wich contains information about female living conditions in Skellefteå during the 19 th century. The purpose of the study is to explain interval lengths between births by using survival analysis and cox regression. Two cox proportional hazard ground models were contructed with the differences between the models being how the time intarvals were determined. The first model used the interval between dates of births, whilst the second used the difference between mother s age at each birth. The time between births was analysed between the different parities separately. It is difficult to compare the two models as the assumption of proportionality is not fulfilled for one of the models and therefore needs to be interpreted cautiously. It was found that breast- feeding increases the time to the next birth for all parities, when compared to mothers that did not breast- feed. It was also found that the fathers social status influenced on the time between births, though this was not a pronounced effect. i

3 Populärvetenskaplig sammanfattning Kyrkböcker är en viktig källa till att hitta information om levnadsvillkor i Sverige förr i tiden. Denna information har använts i uppsatsen till syftet att hitta förklaringar till vad tiden mellan två födslar kan bero på i Skellefteå under talet. Det huvudsakliga fokuset i uppsatsen har varit att visa hur amning påverkar tiden mellan två födslar från en och samma moder, samt om könet på föregående barn påverkar hur lång tid det tar till nästa födsel. En undersökning av vad som påverkar tiden mellan två händelser är vanligt inom demografiska undersökningar. Analysmetoden kallas för överlevnadsanalys och är den metod som använts i uppsatsen. Det visade sig att amning förlänger tiden till nästa födsel oavsett vilket ordningsnummer barnet har i syskonskaran. Även faderns samhällsklass kan ha betydelse för tiden mellan två födslar, men detta framgår inte lika tydligt. Anledningen till det kan vara att kvinnorna i Västerbotten under talet generellt hade en högre arbetsbörda än vad de hade i övriga delar i Sverige och amning kunde därför inte prioriteras. Det hittades inte heller någon påverkan mellan könet på föregående barn och hur lång tid det tar till nästa födsel. ii

4 Innehållsförteckning 1 Inledning Bakgrund Frågeställning och Syfte Disposition 2 2 Teori Överlevnadsanalys Coxregression Censurering och tidsskalor Upprepade händelser 6 3. Metod Datamaterial Val av variabler Modellframtagande Proportionalitets- och linjäritetsantaganden 11 4 Resultat Modell Modell Proportionalitet- och linjäritetsantaganden Diskussion Resultatdiskussion Proportionalitetsdiskussion 20 Referenslista 22 R- paket 23 Appendix 1 24 Appendix 2 28 Appendix 3 34 iii

5 1 Inledning En av de första överlevnadsanalyserna genomfördes av John Graunt på talet där han tog fram tabeller på förväntad livslängd och dödlighet bland Londons invånare. Han ville jämföra olika sjukdomar med varandra och även dödligheten över tid. Denna metod kom att spela stor roll för biomedicinska forskare då metoden la grunden till att kunna studera tiden från en sjukdomsdiagnos till att patienten dog (Guo 2010, 5). Under slutet på talet började stora databaser skapas med information om individuella livshistorier. En av de första databaserna fanns på den Demografiska databasen vid Umeå universitet och innehöll data från sju svenska socknar (Broström 2012, xv). I dag finns information lagrat om befolkningen i Sverige som sträcker sig så långt som 400 år bakåt i tiden (Nilsdotter Jeub 1993, 4). Datamaterialet som är grunden till denna uppsats kommer från den Demografiska databasen och innehåller information från kyrkböcker skrivna/författade i talets Skellefteå. Kyrkböcker är en viktig källa till information om levnadsvillkor i Sverige. Prästerna hade som ansvar att föra husförhörslängder för att kontrollera församlingsbornas kyrkkunskaper. Husförhören som skrevs under tidigt tal innehöll trolovningar, vigslar och dop. Efter en tid ändrades detta till att även innehålla information om deras kristendomskunskaper och läskunnighet (Nilsdotter Jeub 1993, 4). 1.1 Bakgrund Efter den första stora folkräkningen på talet i Sverige visade det sig att spädbarnsdödligheten var större i vissa finländska områden jämfört med hur det såg ut i svenska områden. Detta berodde bland annat på att barnen i de finländska delarna inte ammades i samma utsträckning som barnen i de svenska delarna (Lithell 1999, 34). I Sverige på talet var det vanligt att amma sitt barn under ett år, men det ogillades av läkarna att amma längre än så eftersom lång amningstid kunde resultera till färre graviditeter (Lithell 1999, 23). Amning resulterade i att spädbarnsdödligheten minskade då barnets hälsotillstånd förbättrades (Lithell 1999, 20). Spädbarnen i överklassen under den här tiden ammades sällan av sin egna moder, men hade istället tillgång till bröstmjölk genom en amma. (Lithell 1999, 29) Detta resulterade i att kvinnor i den övre samhällsklassen ofta födde fler barn till skillnad från kvinnorna i arbetarklassen (Lithell 1999, 23). Det finns idag beskrivet att en kvinna som ammar sitt barn utan att ge någon övrig ersättning förhindrar ägglossningen att komma igång igen efter en graviditet (Kylberg, Westlund och Zwedberg 2009, 73). I Västerbotten däremot, hade kvinnorna högre arbetsbörda än vad de hade i övriga delar i Sverige och generellt var barnafödandet högt. Det hårda arbetet resulterade till att amning inte kunde prioriteras och barnen fick istället färsk komjölk, surmjölk eller grynvälling (Lithell 1999, 24-25). 1

6 1.2 Frågeställning och Syfte Syftet med uppsatsen är att med hjälp av överlevnadanalys förklara intervallängden mellan två födslar från en och samma moder. Speciellt syftar denna uppsats till att besvara följande frågor: Påverkar amning av senast födda barn intervallängden till nästa barn? Påverkas intervallängden mellan två födslar beroende på vilken samhällsklass modern tillhör? Har könet på senast födda barn någon påverkan på intervallängden till nästa barn? Påverkas tidsintervallet mellan två födslar av hur könsfördelningen ser ut på nuvarande barnaskaran? 1.3 Disposition I nästkommande kapitel kommer teorin bakom överlevnadsanalys att presas. Här presas begrepp som coxregression, frailtymodeller och stratifierad coxregression. Kapitlet kommer ge en överblick i vilka metoder som kommer användas i arbetet. Därefter följer en beskrivning av datamaterialet samt vilka variabler som valts att användas i analysen. Även tillvägagångssättet för modellvallen beskrivs i denna del. I den tredje delen kommer resultatet att presas. Avslutningsvis diskuteras det framtagna resultatet med en kritisk reflektion och förslag till vidare forskning ges. 2

7 2 Teori I detta kapitel kommer de olika metoder och begrepp som används för att analysera datamaterialet att redogöras. 2.1 Överlevnadsanalys Att analysera tiden till en händelse kallas för överlevnadsanalys och används inom ett flertal områden såsom medicin, biologi, demografi och ekonomi (Klein och Moeschberger 1997, 1). En händelse inom överlevnadsanalys är en förutbestämd incident som kan inträffa under en observerad tid. Intresset av överlevnadsanalys ligger i att hitta faktorer som förklarar tiden till att händelsen inträffar (Kleinbaum och Klein 2005, 4-5). Överlevnadsfunktionen är en central funktion inom överlevnadsanalys och anger sannolikheten att en individ inte har varit med om händelsen vid tidpunkt t och skrivs som S t = P T t, t > 0 där tiden då händelsen inträffar betecknas som T och antas vara den slumpmässiga tiden till händelsen under studien. I överlevnadsanalys så kallas det att en individ har överlevt fram till en viss tidpunkt, t, om händelsen inte inträffat innan dess. Överlevnadsfunktionen antas vara en avtagande funktion där sannolikheten för att händelsen ska inträffa antas gå mot noll då tiden, t, går mot oändligheten. Täthetsfunktionen för variabeln tid, t, är definierad som minus derivatan av överlevnadsfunktionen och skrivs som följande S t f t = t, t > 0 och ger sannolikheten att händelsen inträffar inom ett nog litet tidsintervall (Broström 2012, 19-20). Hasardfunktionen är sannolikheten att händelsen inträffar inom ett nog litet tidsintervall från tidpunkten, t, givet att händelsen inte inträffat än. Denna funktion skrivs som 5 t T < t + s T t h t = lim 2 4 2, där s = t (Broström 2012, 20) (1) 3

8 2.2 Coxregression Coxregression, även kallad Cox proportional hasard, används huvudsakligen i analyser där målet är att skatta effekten av de studerade förklaringsvariablerna på överlevnadstiden (Hosmer, Lemeshow och May 2008, 92). Modellen uttrycks oftast i termer av hasardfunktionen (1), därav de två namnen, och skrivs h t, x 1,, x p = h 4 t e C DE D F FC H E H (2) Där x I,, x J är förklaringsvariablerna för en individ och β I,, β J är koefficina. Modellen anger hasarfunktionen vid tidpunkt t som en funktion av förklaringsvariablerna x I,, x J (Cox 1972, 178). I Coxregressionen är skattningarna av koefficina storleken på varje förklaringsvariabels effekt på hasardfunktionen. När e C DE D F FC H E H = 1 så blir h t, x 1,, x p = h 4 (t), vilket även kallas för baseline hasardfunktionen. Denna funktion innehåller inte någon information om förklaringsvariablerna. Eftersom baseline hasardfunktionen, h 4 t, i Coxregressionsmodellen inte är specificerad och skattningarna av β I,, β J skattas av maximum likelihood, är modellen semiparametrisk (Kleinbaum och Klein 2005, 95-98). Länkfunktionen till linjärtransformation för en Coxregression (2) är den naturliga logaritmfunktionen och skrivs som ln h(t, x, β) = ln h 4 t + xβ Enligt Hosmer, Lemeshow och May (2008, 92-93) är skillnaden i log- hasardfunktionen för två olika värden för en förklaringsvariabel, x = a och x = b, är ln h(t, x = a, β) ln h t, x = b, β = ln h 4 t + aβ ln h 4 t + bβ = aβ bβ = a b β I uttrycket syns det att differensen inte är beroende över tid och proportionalitetsantagandet för Coxregression är därför uppfyllt. (Hosmer, Lemeshow och May 2008, 177). I uttrycket syns det att differensen inte är beroende över tid och proportionalitetsantagandet att Coxregression är en funktion av tiden och inte av de enskilda förklaringsvariablerna, är därför uppfyllt (Hosmer, Lemeshow och May 2008, 177). 4

9 Linjäritet är ett viktigt antagande för de kontinuerliga förklaringsvariablerna i en Coxregression. För att kontrollera detta antagande så används Martingale- residualer som plottas mot förklaringsvariablerna. Antagandet om linjäritet är uppfyllt om plottarna är linjära (Klein och Moeschberger 1997, 360). Martingale- residualerna kan definieras som r WX = δ Z r [X, där r [X = e^x`h b T X, i = 1,, n i = 1,, n där H b T X är den kumulativa hasardfunktionen, vilket är integralen av hasardfunktionen och δ Z är en indikator för en händelse för den i: te observationen. Dessa residualer kan tolkas som skillnaden mellan de observerade antalen händelser och förväntade antalet för varje individ (Broström 2012, 78). För att kontrollera om förklaringsvariablerna i modellerna har en signifikant effekt på tidsintervallet görs ett likelihoodkvottest (Broström 2012, 90). Här testas det om nollhypotesen att en av variablerna har sitt parametervärde lika med noll mot alternativhypotesen att detta parametervärde inte är noll. Likelihoodkvottestet skrivs 2 ln λ = 2 ln f g h f(g i ) där L Ω 4 är maximerad likelihood under H 4 och L Ω r är maximerad likelihood under H r H 4 För ett datamaterial med många observationer antas 2ln (λ) vara approximativt χ u fördelad med r 4 r r frihetsgrader, där r 4 är antalet fria förklaringsvariabler under H 4 och r r antalet fria förklaringsvariabler under H r (Wackerly, Mendenhall och Scheaffer 2002, ). 5

10 2.3 Censurering och tidsskalor Två vanliga problem inom överlevnadsanalys är censurering och trunkering (Klein och Moeschberger 1997, 63). Generellt sett sker censurering av en individ när det inte finns information om exakt när händelsen har inträffat, eller om den inträffar, men det finns viss information om överlevnadstiden. Censurering kan ske på tre olika sätt, högercensurering, vänstercensurering och intervallcensurering. Om en individ inte är med om händelsen innan undersökningens slut kallas det för en högercensurering (Klein och Moeschberger 1997, 64-70). I detta datamaterial så högercensureras kvinnorna när de är 50 år gamla och inte längre är fertila, om de dör innan de fyller 50 år eller om de på något sätt försvinner ur datamaterialet innan de fyller 50. Vänstercensurering innebär att händelsen har inträffat för en individ innan observationstiden startat. Intervallcensurering innebär att överlevnadstiden endast är känd inom vissa intervall och om händelsen inträffat i något intervall så är det inte känt exakt när i intervallet (Klein och Moeschberger 1997,70 72). Vänstertrunkering kallas även för fördröjd starttid och sker när observationerna inte har samma starttid (Broström 2012, 6). Det finns olika sätt att mäta tiden mellan två händelser. Ett alternativ är att beräkna tiden då alla observationer har samma startvärde eller då observationerna kan ha olika startvärden. Att ha en tidsskala som börjar när alla individer i en observation är 15 år är ett exempel på det först nämnda alternativet. Ett exempel på det andra alternativet är att ha en tidsskala som börjar när individer gifter sig då ålder vid giftermål skiljer sig från person till person. Resultatet av en analys kan skilja sig åt beroende på vilken tidsskala som använts (Broström 2012, 7). I detta datamaterial så är tidsskalorna ålder på modern vid varje födsel och intervallängd mellan varje födsel. När tidsskalan är ålder på modern vänstertrunkeras observationerna då de inte har samma starttid. 2.4 Upprepade händelser Majoriteten av överlevnadsanalys görs på data då händelsen bara kan inträffa en gång, till exempel en analys där den observerade händelsen är att dö. Det datamaterial som analyserats i denna uppsats har upprepade händelser då en kvinna kan föda mer än ett barn. Upprepade händelser definieras som en händelse som inträffar fler än en gång för en och samma individ. Stratifierad Coxregression och frailtymodeller är två metoder för att hantera datamaterial som innehåller upprepande händelser (Hosmer, Lemeshow och May 2008, 287). Den stratifierade Coxregressionsmodellen är en modifiering av den vanliga Coxregressionen (Kleinbaum och Klein 2005, 176). För Coxregression finns det två typiska orsaker till stratifiering av variabler. Den första orsaken är när proportionalitetsantagandet inte är uppfyllt och den andra är när det finns en faktor som har för många nivåer så att det blir olämpligt att behandla det som en vanlig faktor (Broström 2012, 74). När en variabel 6

11 stratifieras får de olika stratumen egna baseline hasarder och den variation som antas finnas inom varje stratum och antas vara problemet för proportionalitetsantagandet delas upp för de olika stratumen (Klein och Moeschberger 1997, 308). En nackdel med att använda stratifiering av variabler är att det inte går att skatta effekten av de variabler som stratifieras (Broström 2012, 136). Då variablerna och är kontinuerliga kommer dessa att delas upp i fyra lika stora delar om stratifiering är nödvändigt. Frailtymodell är en Coxregressionsmodell som även innehåller en frailtyvariabel. En sådan variabel är utformad för att ta hänsyn till variation inom en variabel som beror på faktorer som inte observerats och som bortses av övriga variabler (Kleinbaum och Klein 2005, 294). Frailtymodeller fungerar bäst när datamaterialet innehåller naturliga grupperingar där observationerna inom gruppen är bundna till varandra men de olika grupperingarna är oberoende av varandra. Enligt Broström (2012, 130) så är det naturligt att anta att längden på födelseintervall varierar mellan mödrar och att mödrarna och dennes barn är bundna till varandra. Frailtymodellen definieras på samma sätt som (2) med skillnaden att en frailtyvariabel läggs till h t, x 1,, x p = Zh 4 t e C DE D F FC H E H där Z är frailtyvariabeln och antas vara oberoende för varje observation (Broström 2012, 129). 7

12 3. Metod Nedan presas tillvägagångssättet för uppsatsen. Datamaterialet och val av variabler beskrivs först som sedan följs av modellframtagandet. 3.1 Datamaterial Kyrkböcker är en bra källa till information om hur levnadsförhållandena såg ut i Sverige förr i tiden. I kyrkböckerna finns bland annat information om kvinnor och deras livssituation (Nilsdotter Jeub 1993, 4-6), vilket är vad som kommer användas i uppsatsen. Datamaterialet består av 29 variabler och ungefär observationer. Dessa variabler har valts ut från två andra datamaterial med hänsyn till uppsatsens syfte och frågeställningar. Det finns några saknade värden för observationerna, men dessa var så få och kan uteslutas från datamaterialet då de inte anses ha någon påverkan på resultatet. 3.2 Val av variabler Från datamaterialet kommer variabler tas fram med utgångspunkt från frågeställningarna. Det finns olika metoder för att välja passande variabler till modellen där en av dem är Stepwise selection. En annan metod är att välja variabler med hänsyn till tidigare forskningsresultat, vilket är att föredra om sådana uppgifter finns tillgängliga (Broström 2012, 49). Det finns relevant och tillförlitlig information från tidigare studier som liknar de frågeställningar och datamaterial som studeras i denna uppsats. Av den anledningen kommer den sistnämna metoden användas för att ta fram de förklaringsvariabler som behövs för framtagandet av modellerna. Dessa variabler kommer användas för att förklara vilka faktorer som påverkar tiden mellan två födslar av en och samma moder. Tidigare undersökningar har visat att de mödrar som helammar, alltså när barnet inte får något annat än bröstmjölk, har en betydligt mindre sannolikhet för att bli gravida än de som inte helammar. Det här gäller speciellt de första sex månaderna då helamning kan vara ett alternativ till preventivmedel (Kylberg, Westlund och Zwedberg 2009, 122). Det finns ingen information i datamaterialet om mödrarna ammat eller inte, men om en moder föder ett dödfött barn så kommer hon inte att amma. Av den anledningen används en variabel som anger om barnet är dödfött eller inte som surrogatvariabel, vilket indirekt kan ge information om modern ammade eller inte. En surrogatvariabel är en variabel som inte är direkt sammankopplad till frågeställningen, utan en variabel som tros ha en stark korrelation till den tänkta variabel (Björck Linné och Liedholm 2001, ). 8

13 På talet i Sverige kunde samhällsklass ha betydelse för om en moder ammade eller inte. Det var vanligt att mödrar som tillhörde den övre samhällsklassen sällan eller aldrig ammade sina nyfödda barn, utan anlitade ammor istället. (Lithell 1999, 29) Det finns även studier på att i vissa delar i Sverige ammades det senast födda barnet fram tills att en ny graviditet konstaterats. I dessa områden kunde läkarna lägga märke till att kvinnorna inte födde fler än fyra till fem barn, medan i andra delar i Sverige i den högre samhällsklassen var det inte ovanligt med åtta till tio barn (Lithell 1999, 23). Av anledningarna ovan kommer samhällsklass inkluderas som förklaringsvariabel. Förklaringsvariabeln kön är även av intresse då det kan komma att svara på frågeställningen om könet på det senast födda barnet har betydelse för intervallängden till nästa barn. I Indien så har det visat sig att pojkar ammas längre på grund av att amning anses vara den viktigaste källan till mat när mat, vatten och sanitet är bristfällig (Barcellos, Carvalho och Lleras- Muney 2014, 8). Av den anledningen väcktes intresset av att se om samma koppling finns även för detta datamaterial. Information om antalet flickor och hur könsfördelningen ser ut i barnaskaran är av intresse. Till exempel så kan en familj med få barn vara mindre intresserade av att få ett specifikt kön på nästa barn och därmed kommer tidsintervallet till ett nytt barn inte påverkas. För en familj med många barn där samtliga syskon har samma kön så kan längtan att få ett barn med motsatt kön påverka tidsintervallet till nästa barn. Då modell 2 beräknar tidsskalan från noll vid varje ny händelse så kan det vara intressant att se om åldern på kvinnorna har någon signifikant påverkan på intervallängden mellan två födslar. Därför används information om moderns ålder vid varje födsel som förklaringsvariabel i den modellen. För att kunna avgöra om det finns någon skillnad på intervallängden mellan två födslar beroende på när modern är född så kommer en förklaringsvariabel som innehåller sådan information att finnas med i modellerna. 9

14 Nedan presas en tabell över de variabler som kommer användas i uppsatsen Tabell 1. De variabler som kommer användas i uppsatsen samt en kort variabelbeskrivning Variabler exit intervall event parity sex stillbirth girls soc sibset Moderns ålder vid intervallets start, alltså moderns ålder vid födseln vid det senast födda barnet Moderns ålder vid intervallets slut, alltså moderns ålder vid födseln vid nästkommande barn Längden mellan två födslar, alltså intervallängden (i år) TRUE = Om intervallet avslutas med en födsel FALSE = Om intervallet avslutas med att modern dör eller blir över 50 år Moderns födelsedatum Ordningsnummer i syskonskaran, med hänsyn av det senast födda barnet Kön på det senaste födda barnet Det senaste barnets tillstånd vid födseln, vid liv eller dödfött Antal flickor som finns i syskonskaran efter det senaste födda barnet Faderns samhällsklass när barnet föds; okänd, överklass och arbetarklass Könsfördelningen ; endast pojkar, endast flickor eller blandat 10

15 3.3 Modellframtagande Datamaterialet som tidigare har beskrivits behandlar intervall mellan händelser och vid ett sådant material så används överlevnadsanalys med Coxregression som utgångspunkt. De två Coxregressions- grundmodellerna som presas i Tabell 2 nedan kommer att användas. Tabell 2. Tabell över de två grundmodellerna Mätning av intervallängd Förklaringsvariabler Modell 1 Enter, exit, event Sex, stillbirth, girls, soc, sibset, Modell 2 Intervall, event Sex, stillbirth, girls, soc, sibset,, Modell 1 kommer ha variablerna exit, och event som tillsammans utgör tiden mellan två födslar och där tidsskalan är moderns ålder. Den andra modellen, modell 2, kommer ha intervall och event som variabler för att definiera tiden mellan två födslar. Tidsskalan för den modellen är år mellan födslar som startar när hon får sitt första barn. Enligt Broström (2012, 7)så kan resultatet skilja sig från varandra när olika tidsskalor används och att tidsskalorna kan ha stor påverkan på resultatet. För att vara säker på att analysen görs på bästa sätt så används två modeller med olika tidsskalor. 3.4 Proportionalitets- och linjäritetsantaganden Proportionalitetsantagandet kommer att testas för båda modellerna då det är viktigt att det antagandet är uppfyllt. Om en modell inte uppfyller detta antagande kommer en närmare granskning av de enskilda förklaringsvariablerna göras för att avgöra vilka hasardfunktioner som inte är proportionerliga. De variabler som inte har proportionerliga hasardfunktioner delas upp i stratum, en metod som kallas stratifierad Coxmodell. Denna metod tillåter de olika stratumen att använda Coxregression inom varje stratum och på det sättet tillåta stratumen att vara egna modeller. Linjäritetsantagandet är ett annat viktigt antagande som ska vara uppfyllt för Coxregression. För att kontrollera detta antagande så analyseras Martingale- residualerna för den kontinuerliga förklaringsvariabeln (Klein och Moeschberger 1997, 360). När proportionalitets- och linjäritetsantagandena kontrollerats används likelihoodkvottest för att avgöra vilka förklaringsvariabler som påverkar intervalltiden (Broström 2012, 78). För att hantera, skatta och analysera datamaterialet har programvaran R. använts då detta är ett bra hjälpmedel för statistiska analyser. 11

16 4 Resultat I detta kapitel kommer modell 1 att presas först och sedan modell 2. För varje modell kommer ett proportionalitetstest att presas och skattningar av parametervärden, hasardkvoter samt p- värden kommas. 4.1 Modell 1 Det viktigaste för modellerna är att de uppfyller antagandena som gäller för en Coxregression. En kontroll av proportionalitetsantagandet görs med ett test som har nollhypotesen att proportionaliteten är uppfylld. Detta test ska ge p- värden som är större än den valda signifikansnivån om proportionalitetsantagandet ska anses vara uppfyllt (Broström 2012, 81). För modell 1 är antagandet för proportionalitet av förklaringsvariablerna och modellen uppfylld för de olika pariteterna på 5% signifikansnivå, se Tabell 7 i Appendix 1. Linjäritetsantagandet presas i kapitel 4.3. För att se vilka förklaringsvariabler som har en signifikant effekt på intervallängden mellan två födslar så görs ett likelihoodkvottest. Då kvinnorna har fött två, tre, fyra, och sex barn så ger samma tre förklaringsvariabler en signifikant påverkan på intervallängden till nästa födsel. I Tabell 3 ser vi att det som påverkar intervallängden för dessa pariteter är om det senast födda barnet var vid liv eller inte vid födseln, faderns samhällsklass då det senaste barnet föddes och året då modern föddes. När en kvinna fått sju eller fler barn så påverkar även hur många flickor som finns bland syskonen tiden till nästa födsel. I tabellen ser vi även att då kvinnorna fött fem barn så är det endast moderns ålder vid senaste födsel som påverkar intervallängden. En fullständig tabell över de samtliga variablerna för likelihoodkvottestet finns i Tabell 8 i Appendix 1. Tabell 3. De signifikanta variablerna från likelihoodkvottestet för modell 1 Parity = 2 P-värde stillbirth } soc II Parity = 3 P-värde stillbirth soc Parity = 4 P-värde Stillbirth soc Parity = 5 P-värde Parity = 6 P-värde 12

17 stillbirth soc Parity = 7+ P-värde stillbirth } girls soc } I Tabell 4 presas hasardkvoter och parametervärden för de förklaringsvariabler som är signifikanta för varje paritet. En fullständig tabell över alla variabler återfinns i Tabell 9 i Appendix 1. Det går att se i tabellen att för pariteterna två, tre, fyra och sex så följer de signifikanta förklaringsvariablerna samma mönster. För dessa pariteter minskar intervallet till nästa födsel om barnet vid den senaste födseln inte är vid liv. Paritet 2 har det största värdet på hasardkvoten för de pariteter som har denna variabel signifikant. Värdet är på 2.10 och det betyder att det går mer än dubbelt så fort att få ett nytt barn efter en födsel av ett dödfött barn än om barnet är vid liv vid födseln. Om faderns samhällsklass är okänd så är intervallet längre till nästa barn jämfört med arbetsklass och tillhör han överklass så förkortas tiden till nästa barn jämfört med om han tillhör arbetsklass. Det skiljer sig mellan de olika pariteterna om det är en signifikant skillnad mellan de olika samhällsklasserna, se Tabell 8 i Appendix 1. Paritet 4 har en signifikant större sannolikhet på gånger att få ett nytt barn om pappan till det senaste barnet tillhör överklassen jämfört om han tillhör arbetarklassen, intervallet blir alltså kortare till nästa barn för överklassen. För paritet 6 är det en signifikant skillnad på intervallängden till ett nytt barn om pappans sociala klass är okänd jämfört med arbetarklassen. Hasardkvoten på betyder att intervallängden förlängs. Året då modern föds har en signifikant positiv påverkan på sannolikheten att få ett nytt barn för alla pariteter. När en kvinna har fött fem barn så är det enligt modellen endast denna förklaringsvariabel som påverkar sannolikheten till ett nytt barn. Vid sju eller fler barn så påverkar även hur många flickor som finns bland syskonen intervallängden till nästa barn med Sannolikheten för ett nytt barn ökar och alltså förkortas intervallängden. 13

18 Tabell 4. Koeffici, hasardkvot och p-värde för de signifikanta variablerna för samtliga pariteter för modell 1 Parity = 2 coef exp(coef) P-värde stillbirthyes socunknown socupper Parity = 3 coef exp(coef) P-värde stillbirthyes socupper Parity = 4 coef exp(coef) P-värde stillbirthyes socupper Parity = 5 coef exp(coef) P-värde Parity = 6 coef exp(coef) P-värde stillbirthyes socunknown Parity = 7+ coef exp(coef) P-värde stillbirthyes } girls socunknown } 4.2 Modell 2 Proportionalitetstestet för modell 2 är inte uppfyllt för samtliga pariteter. De variabler som inte uppfyller proportionalitetsantagandet stratifieras för de olika pariteterna med undantag från variabeln stillbirth och girls. Stillbirth stratifieras inte även om den inte uppfyller antagandet om proportionalitet. Variabeln girls kan inte stratifieras i modellen. En tabell för proportionalitetstestet kan ses i Tabell 10 och Tabell 11 i Appendix 2. De variabler som har en signifikant effekt på intervallängden mellan två födslar presas nedan i Tabell 5, eller se fullständig tabell över alla variabler i Tabell 12 i Appendix 2. I tabellen återfinns även de variabler som stratifieras. För både paritet 2 och 3 påverkas stillbirth, och soc intervallängden. Variabeln stillbirth är den enda variabel som påverkar intervallängden för paritet 5. För paritet 7 så har alla variabler utom stillbirth och girls stratifieras och dessa har en signifikant effekt på intervallängden. Som kan ses i tabellen så fick fem variabler stratifieras till ett försök att göra modellen proportionerlig. 14

19 Tabell 5. De signifikanta variablerna från likelihoodkvottestet samt de variabler som stratifierats för modell 2 Parity = 2 P-värde stillbirth < I soc < I Parity = 3 P-värde stillbirth I4 soc I Parity = 4 P-värde stillbirth I soc Parity = 5 P-värde stillbirth Parity = 6 P-värde stillbirth I4 soc Stratifieras < I Parity = 7+ P-värde sex stillbirth < 2 10 I girls soc sibset sirthdate I Tabell 6 visas hasardkvoter och parametervärden för de signifikanta förklaringsvariablerna för varje paritet. En fullständig tabell över alla variabler återfinns i Tabell 13 i Appendix 2. För samtliga pariteter minskar intervallet till nästa födsel om barnet vid den senaste födseln inte är vid liv. Paritet 2 har det största värdet på hasardkvoten ( exp(coef) ) i tabellen som är Om en kvinna får ett dödfött barn så är sannolikheten att hon får ett nytt barn 4.31 gånger större än för en kvinna som föder ett barn som är vid liv vid födseln och intervallet till nästa barn är kortare om ett dödfött barn föds. För paritet 2, 3 och 4 är intervallängden till nästa barn längre för fäder som har okänd samhällsklass vid barnets födsel jämfört med de som tillhör arbetarklassen, då hasardkvoten är mindre än ett. Intervallängden till ett nytt barn är något kortare om fadern tillhör den övre samhällsklassen jämfört med arbetarklassen för paritet 2 då hasardkvoten är För samtliga pariteter utom paritet. Vid 15

20 sju och fler barn påverkar även hur många flickor som finns bland syskonen intervallängden till nästa barn som förkortas något. Tabell 6. Koeffici, hasardkvot och p-värde för de signifikanta variablerna för samtliga pariteter för modell 2 Parity = 2 coef exp(coef) P-värde stillbirthyes < 2 10 I socunknown I4 socupper Parity = 3 coef exp(coef) P-värde stillbirthyes II socupper I Parity = 4 coef exp(coef) P-värde stillbirthyes < 2 10 I socupper Parity = 5 coef exp(coef) P-värde stillbirthyes Parity = 6 coef exp(coef) P-värde stillbirthyes Iu socunknown socupper < 2 10 I Parity = 7+ Coef exp(coef) P-värde sexgirl stillbirthyes < 2 10 I girls socunknown socupper sibsetonly boys sibsetonly girls 16

21 4.3 Proportionalitet- och linjäritetsantaganden I Figur 1 visas en proportionalitetsplot för variabeln stillbirth för modell 2. Grafen visar hur sannolikhetsfunktionen ser ut för kvinnor som föder ett dödfött barn jämfört med en kvinna som föder ett barn som är vid liv, där x- axeln är tiden till nästa barn i år och de olika strecken i grafen visar tiden mellan det sista barnet till censurering. För de första åren ser inte variabeln stillbirth proportionerlig ut, men det gör den efter ungefär tre år. Detta kan utläsas genom att sannolikhetsfunktionerna för vardera utfall är parallella efter ungefär tre år. Figuren visar att de som föder ett barn som är vid liv har en större sannolikhet att få ett nytt barn jämfört med de som föder ett dödfött barn. De flesta som får ett dödfött barn får ett nytt inom tre år. Detta skiljer sig något åt för de mödrar som föder ett barn vid liv, som får ett nytt efter ungefär fyra år. Figur 1. Proportionalitetsplot för variabeln stillbirth 17

22 I Figur 2 undersöks linjäritetsantagandet för paritet 2 genom att kontrollera Martingale- residualerna över den kontinuerliga variabeln i modell 1. Det är svårt att se om linjäritetsantagandet är uppfyllt för modellen. Samtliga Martingaleplottar för de olika pariteterna återfinns i Appendix 3. Figur 2. Martingaleplot över förklaringsvariabeln för paritet 2 Istället läggs en kvadrerad term till för att avgöra om den är signifikant, då den termen oftast fångar upp icke linjäriteter. Detta görs med hjälp av ett ANOVA- test där två modeller jämförs. Den ena modellen innehåller variabeln, medan den andra innehåller både och i kvadrat. Nollhypotesen testar om de två modellerna inte skiljer sig åt. Detta test resulterar till att modellen med kvadrattermen inte är signifikant på en 5% signifikansnivå (P- värde = 0,104) vilket betyder det inte finns något empiriskt stöd för att den kvadratiska termen har någon effekt. Antagandet om linjäritet antas då vara uppfyllt. 18

23 5. Diskussion I det här kapitlet diskuteras resultatet utifrån uppsattens syfte och frågeställningar. Vidare följer en diskussion om proportionalitetsantagandet och en kort diskussion om fortsatta modellframtaganden. 5.1 Resultatdiskussion Resultatet indikerar på att amning kan påverka intervallängden mellan två födslar. Variabeln stillbirth har använts som en surrogatvariabel då det inte finns någon direkt information om modern ammar eller inte. Den variabeln visar på att intervallängden blir kortare om modern föder ett dödfött barn jämfört med en mor som föder ett barn som är vid liv för båda modellerna. Detta kan bero på att en moder som föder ett dödfött barn inte ammar och kan därför blir gravid snabbare med nästa barn. Detta stämmer överens med tidigare studier som visar att amning förhindrar ägglossningen. Det borde tas i beaktning att det inte finns en direkt information om modern ammade eller inte. En moder som föder ett dödfött barn skulle till exempel kunna amma ett barn som inte är hennes egen. Det kan även finnas andra anledningar än amning till att intervallängden är kortare för kvinnor som föder ett dödfött barn. Till exempel kan längtan efter ett nytt barn vara större än för de som föder ett barn som är vid liv. För de pariteter där intervallängden påverkas av samhällsklass går det att se att det finns en signifikant men liten skillnad mellan samhällsklasserna, trots att datamaterialet behandlar information från Västerbotten. Resultatet talar emot teorin angående att Västerbottens kvinnor skiljer sig från kvinnorna i övriga delar av Sverige när det gäller amning. En anledning till att resultatet skiljer sig mot teorin kan bero på att det inte finns tillräckligt med information i datamaterialet. Det kan även bero på att ett stort datamaterial kan ha enklare att upptäcka om det finns signifikanta skillnader mellan observationerna, som ett mindre datamaterial kanske inte kan göra. Detta kan tala för att det fanns en skillnad mellan över- och arbetarklassen även i Västerbotten, men att den inte var stor. Det finns ingen indikation på att könet på det senast födda barnet påverkar tiden till nästa barn för samtliga pariteter. Det kan förklaras som att mödrarna inte gjorde någon skillnad med amningstiden beroende på barnets kön. Det kan även bero på av samma anledning som nämns ovan, att kvinnorna i Västerbotten på den tiden inte hade möjlighet att amma och därför påverkas inte intervallängden av könet på det senast födda barnet. För att försöka svara på om tidsintervallet påverkas av könsfördelningen på den nuvarande barnaskaran används variablerna sibset och girls. I resultatet finns ingen antydan på att tidsintervallet påverkas av hur barnaskaran ser ut. Det som kan ifrågasättas är om variabeln girls borde vara med i modellen eller inte, då det pekar på att variablerna sex, sibset och girls innehåller liknade information. Detta kan också vara en anledning till att girls inte gick att 19

24 stratifiera i modell 2. Anledningen till att girls används i modellen är att den innehåller information om hur många flickor som finns bland syskonen. Om enbart sibset förekommer i modellen så finns endast information om vilka kön som finns bland syskonen, inte hur det är fördelat. Variabeln finns med i samtliga pariteter och resultatet säger att moderns födelseår påverkar intervallängden. Denna variabel är svårtolkad då det är svårt att avgöra hur den påverkar. Det som eventuellt skulle kunna förenkla tolkningen är att dela upp i två grupper, där den ena gruppen represar mödrar som är födda under första halvan av talet och den andra gruppen represar mödrar som är födda på den senare halvan. Samhället är under ständig utveckling och det är därför troligt att det skulle kunna finnas en skillnad i födelsehastigheten beroende på när kvinnan är född. 5.2 Proportionalitetsdiskussion Som nämnt tidigare är proportionalitetsantagandet inte är uppfyllt för modell 2 vilket resulterar till att modellen måste tolkas med försiktighet. En stor del av syftet innefattar amning och stillbirth är den enda variabel som tar hänsyn till detta. Av den anledningen fick den variabeln finnas kvar i modellen även om den inte uppfyllde proportionalitetsantagandet. I Figur 1 syns ett proportionerligt samband om barnet är dödfött eller inte när tiden överskrider ungefär tre år efter födseln, medan antagandet inte är uppfyllt för de första åren. Figuren kan tolkas att sannolikheten att föda ett nytt barn kommer vara oförändrad för de olika utgångspunkterna när tidsintervallet överskrider ungefär tre år. Detta låter troligt då även en mor som ammar sitt barn från födseln kommer någon gång sluta amma. Då stillbirth är en viktigt variabel för syftet är ett sätt att lösa proportionalitetsantagandet att dela upp modellen i två delar, där delningen sker vid gränsen för när stillbirth är proportionerligt. Ett annat sätt är att skapa en tidsberoende förklaringsvariabel då den ändras över tiden Den modell som kan förväntas vara bättre är modell 2 då intervallängden mellan två födslar räknas från varje ny födsel istället för mammans ålder. Modell 1 räknar på moderns ålder och hur gammal hon var vid varje födsel, inte hur lång tid det var sedan den senaste födseln. Alltså när moderns ålder används som tidsskala så tas ingen hänsyn till över hur lång tid det var till det senaste barnet, den enda informationen som ges är hur gammal hon är när hon föder nästa barn. Detta borde skilja sig när intervallängden används som tidsskala istället då den kan ta hänsyn till mer information. Till exempel att en kvinna inte kan blir gravid igen om hon redan är gravid, vilket denna tidsskala kan ta hänsyn till. 20

25 En intressant fortsättning skulle ha varit att testa en modell som har moderns id som frailtyvariabel. En sådan variabel tar till hänsyn till att mödrarna har olika förutsättningar till att kunna bli gravid med nästa barn och att tiden mellan födslar är olika mellan olika kvinnor. För att använda en frailtyvariabel hade modellen också behövt ha parity som förklaringsvariabel och inte bara modellerat enskilda pariteter. I de modeller som presats i uppsatsen så analyseras intervallet från en bestämd händelse och varje individ har endast en observation. Fratiltymodeller går endast att använda då flera observationer är från en och samma individ. Ytterligare en intressant fortsättning hade varit att jämföra olika sätt att välja variabler på. I uppsatsen valdes variabler utifrån frågeställningar och tidigare forskningsresultat. Det hade varit intressant att se om valet av variabler skiljer sig åt med en annan metod, till exempel Stepwise selection. 21

26 Referenslista Barcellos Silvia Helena., Carvalho, Leandro S, Lleras- Muney, Adriana Child gender and parental investments in India: Are boys and girls treated differently? Am Econ J Appl Econ 6(1): doi: /app Björck Linné, Agneta. Liedholm, Hans Läkemedelsinformationen måste granskas kritiskt. Läkartidningen Nr 16: Broström, Göran, Event History Analaysis with R. Boca Raton: Taylor & Francis Group, LLC Cox, David R Regression Models and Life Tables. Journal of the Royal Statistical Society. Vol. 34(2). pp Guo, Shenyang Survival analysis. New York: Oxford University Press. Hosmer, David W., Lemeshow, Sanley., May, Susanne Applied survival analysis: Regression modelng of time- to- event data. New Jersey: John Wiley & Sons, Inc. Klein, John P.,Moeschberger, Melvin L Survival analysis techniques for censored and truncated data. New York: Springer- Verlag New York, Inc. E- bok. Kleinbaum, David G., Klein, Mitchel Survival analysis a self- learning text. New York: Springer Science+Business Media, Inc. E- bok. Kylberg, Elisabeth., Westlund, Anna Maria., Zwedberg Sofia, Amning idag. Stockholm: Gothia Förlag AB Lithell, Ulla- Britt Små barn under knappa villkor. Torsby: Torsby Finnkulturcentrum Nilsdotter Jeub, Ulla., Parish records: 19th century ecclesiastical registers. Umeå: Demografiska databasen Haparanda och Umeå Wackerly, Dennis D., Mendenhall III, William., Scheaffer, Richard L Mathematical statistics with applications. Duxbury: Pacific Grove 22

27 R- paket R Core Team (2016). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL project.org/ Göran Broström (2015). eha: Event History Analysis. R package version project.org/package=eha Göran Broström (2015). skel15: Skellefteå data for summer school R package version 0.4. Therneau T (2015). _A Package for Survival Analysis in S_. version 2.38, <URL: project.org/package=survival> Terry M. Therneau and Patricia M. Grambsch (2000). _Modeling Survival Data: Extending the Cox Model. Springer, New York. ISBN

28 Appendix 1 Nedan visas tabellerna som tillhör modell 1 Tabell 7. Proportionalitetstest för samtliga pariteter för modell 1 Parity = 2 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Parity = 3 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Parity = 4 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Parity = 5 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Parity = 6 P-värde sexgirl stillbirthyes girls

29 socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Parity = 7+ P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Tabell 8. Tabell över likelihoodkvottest för samtliga pariteter Parity = 2 P-värde sex stillbirth girls soc sibset Parity = 3 P-värde sex stillbirth girls soc sibset Parity = 4 P-värde sex Stillbirth girls soc sibset Parity = P-värde sex stillbirth girls soc sibset Parity = P-värde 25

30 sex stillbirth girls soc sibset Parity = 7+ P-värde sex stillbirth girls soc sibset Tabell 9.. Koeffici, hasardkvot och p-värde över alla variablerna för samtliga pariteter i modell 1 Parity = 2 Coef exp(coef) Z P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls Parity = 3 Coef exp(coef) Z P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls Parity = 4 Coef exp(coef) Z P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls Parity = 5 Coef exp(coef) Z P-värde sexgirl stillbirthyes girls socunknown socupper

31 sibsetonly boys sibsetonly girls Parity = 6 Coef exp(coef) Z P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls Parity = 7+ Coef exp(coef) Z P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls

32 Appendix 2 Nedan visas tabellerna som tillhör modell 2 Tabell 10. Proportionalitetstest innan stratifiering för modell 2 Parity = 2 P-värde sexgirl stillbirthyes I4 girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL 1.38e-13 Parity = 3 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Parity = 4 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls } GLOBAL Parity = 5 P-värde sexgirl stillbirthyes II girls socunknown socupper sibsetonly boys sibsetonly girls } } 28

33 GLOBAL Parity = 6 P-värde sexgirl stillbirthyes I girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Parity = 7+ P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls GLOBAL Tabell 11. Proportionalitetstest efter stratifiering för modell 2 Parity = 2 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls Stratifieras GLOBAL I4 Parity = 3 P-värde sexgirl stillbirthyes girls socunknown socupper sibsetonly boys sibsetonly girls Stratifieras GLOBAL Parity = 4 P-värde 29

Visa mer