Matematisk Statistik, KTH / SHB Capital Markets Aktuarieföreningen 4 februari 2014
Problembeskrivning Vi utgår från Försäkringsförbundets sjuklighetsundersökning och betraktar en portfölj av sjukförsäkringskontrakt. Portföljens risk och lönsamhet beskrivs huvudsakligen av den underliggande populationens insjuknande- och avvecklingsfrekvens. Vi lever i en värld där förutsättningarna för individ och bolag ständigt förändras. Viktigt att använda aktuella skattningar när man beräknar Premier Reserver Solvenskapital Vad är en aktuell skattning? Enkelt att skatta insjuknande årsvis... men avveckling är mer komplicerat.
Insjuknande, lösningsstrategi För att fånga förändringar i tiden men ändå behålla tillräcklig stabilitet använder vi oss av följande strategi. Dela upp data i ålderskohorter på 1 år, för varje kalenderår. Beräkna antalet individer under risk att insjukna och antalet incidenser för varje kohort. Ställ upp en parametrisk modell för logistisk insjuknandesannolikhet som funktion av ålder. Detta garanterar att sannolikheterna ligger mellan 0 och 1. Skatta parametrarna med maximum likelihood för varje kalenderår.
Modell för insjuknande Låt E x,t beteckna antalet friska individer i beståndet med ålder x vid början av period t Låt D x,t beteckna antalet individer med ålder x som insjuknade i tidsintervallet [t, t + 1) Antag att D x,t är binomialfördelat givet E x,t : D x,t Bin(E x,t,p x,t ) där p x,t är sannolikheten att en x-åring som är frisk i början av period t insjuknar under perioden.
Modell för insjuknande Vi inser snabbt att modellen har för många frihetsgrader för att man ska kunna göra effektiva skattningar. Vi reducerar dimensionaliteten genom att modellera de logistiska sannolikheterna som ( px,t ) logitp x,t := log = 1 p x,t n νtφ i i (x), i=1 där φ i (x) är användardefinierade, åldersberoende basfunktioner, och ν i t stokastiska riskfaktorer Byt notation av p x,t till p νt (x), som ges av p νt (x) = 1 1+exp( n i=1 νi tφ i (x)) Genom att modellera de logistiska sannolikheterna kan vi garantera att p νt (x) (0,1).
Modell för insjuknande Givet historiska värden på D x,t och E x,t, och en uppsättning basfunktioner {φ i }, kan log-likelihood- funktionen för årliga värden på ν t skrivas som l(ν t ) = x X n [D x,t νtφ i i (x) E x,t log ( 1+exp { n νtφ i i (x) })] +c t. i=1 i=1 Om basfunktionerna är linjärt oberoende blir l(ν t ) strikt konvex. Minimering över R n med numeriska metoder ger unika skattningar av ν t. Hur bestämmer man basfunktionerna? Kan väljas av användaren. Alternativt kan en optimal bas beräknas utifrån det givna datat.
Modell för insjuknande Önskade egenskaper hos p νt (x), exempelvis styckvis linjäritet m.a.p. x, fås genom lämpliga val av basfunktioner φ i (x) Karakteristika för en specifik population kan tas i beaktande Lämpliga val av basfunktioner ger riskfaktorerna konkreta tolkningar, vilket underlättar vid tillämpning Vektorn ν t med riskfaktorer modelleras som en stokastisk process baserat på historiska data och/eller expertkännedom. Tack vare den enkla modellen, och det faktum att (minus) likelihoodfunktionen är konvex, kan detta göras numeriskt med hög precision och utan att vara krävande beräkningsmässigt.
Modell för insjuknande Betrakta modellen logit p νt (x) = ν 1 tφ 1 (x)+ν 2 tφ 2 (x), där basfunktionerna är linjära då x [25,64]: φ 1 (x) = 64 x 39, φ 2 (x) = x 25 39
Modell för insjuknande 1 1 1 0.9 0.9 0.9 0.8 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.6 0.5 0.5 0.5 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0 25 30 35 40 45 50 55 60 0 25 30 35 40 45 50 55 60 0 25 30 35 40 45 50 55 60 Figure: T.v: två basfunktioner. Mitten: basfunktionerna skalas med riskfaktorvärden 0.4 resp. 0.6. T.h: summan av de skalade basfunktionerna
Modell för insjuknande Den logistiska insjuknandesannolikheten för en 25-åring ges av P.s.s. för en 64-åring, logitp νt (25) = ν 1 tφ 1 (25)+ν 2 tφ 2 (25) = ν 1 t. logitp νt (64) = ν 2 t. Insjuknandesannolikheterna för alla andra åldrar bestäms (logistiskt) som en linjärkombination av dessa. Insjuknandet för hela populationen bestäms således av endast två riskfaktorer. Genom att studera hur dessa riskfaktorer ändrar sig över tid kan man få en känsla för hur populationens beteende varierar.
Resultat, insjuknande 2000 2005 2010 60 50 40 30 2000 2005 2010 60 50 40 30 Figure: Vänster: insjuknandefrekvens per 5-årsgrupper, kvinnor. Höger: Modellen.
Avveckling Avveckling är lite mer komplicerat att modellera Beror av fler variabler Man brukar anta att sannolikheten att avvecklas beror på sjukdomens duration Detta kallas semi-markov-egenskapen. Ålder, kön och andra faktorer kan/bör också tas i beaktande. Vi utvidgar insjuknandemodellen till semi-markov-fallet och sätter upp en modell för avveckling!
Avveckling, tillbakablick På avvecklingssidan har SUS använt sig av en metodik där man studerar tidsperioden 2000-2007 som om den vore statisk, delar upp data i åtta ålderskohorter, skattar icke-parametrisk avvecklingskurva för varje kohort, väljer en parametrisk funktion och anpassar till data. För att kunna skatta åtta bra avvecklingskurvor behöver man mycket data, och man har då valt att titta på ett långt tidsintervall. Detta gör att man tappar tidsdynamiken.
Lösningsstrategi För att fånga förändringar över tiden delar vi upp data i ålders- och durationskohorter på 1 år resp 1 månad, för varje kalenderår, beräknar antalet individer under risk att avvecklas och antalet avvecklingar för varje kohort, ställer upp en parametrisk modell för logistisk avvecklingssannolikhet som funktion av duration och ålder, samt skattar parametrarna med maximum likelihood för varje kalenderår. Den stora fördelen med denna metod är att det krävs mindre data för att skatta en bra avvecklingsyta. Detta medför att man kan skapa avvecklingskurvor för varje enskilt kalenderår!
Modell för avveckling Låt E x,d,t beteckna antalet individer med insjuknandeålder x och sjukdomsduration [d, d + d) under tidsperioden [t,t +1). Låt R x,d,t beteckna antalet individer bland E x,d,t som avvecklas inom [d,d + d) and [t,t +1). Mål: modellera avveckling över tid, t = 0,1,2,... för ett givet antal åldrar Antag att R x,d,t är binomialfördelat givet informationen vid t (i enklaste fallet är detta E x,d,t ): R x,d,t Bin(E x,d,t,p x,d,t ) där p x,d,t är sannolikheten att en individ med insjuknandeålder [x,x +1) och sjukdomsduration [d,d + d) avvecklas under perioden [t,t +1).
Modell för avveckling Vi inser snabbt att modellen har för många frihetsgrader för att man ska kunna göra effektiva skattningar. Vi reducerar dimensionaliteten genom att modellera de logistiska sannolikheterna som logitp νt (x,d) = n φ i (x) i=1 k j=1 ν ij t ψ j (d), där φ i och ψ j ålders- respektive durationsberoende basfunktioner, och ν ij t är stokastiska riskfaktorer. Genom att modellera de logistiska sannolikheterna kan vi garantera att p νt (x,d) (0,1).
Modell för avveckling Log-likelihood-funktionen kan skrivas l(ν t ) = x X d D n [R x,d,t φ i (x) i=1 k j=1 ν ij t ψ j (d) E x,d,t log ( 1+exp { n φ i (x) i=1 k j=1 ν ij t ψ j (d) })] +c t. Funktionen (med omvänt tecken) är strikt konvex om {φ i } linj. ober. {ψ j } linj. ober. Minimering över R n med numeriska metoder ger unika skattningar av ν t
Modell för avveckling Låt den stokastiska variabeln D x beteckna en x-årings sjukdomsduration. För ett fixt ν t ges sannolikheten att sjukdomen varar längre än d år som S x (d) = P νt (D x > d) = d/ d 1 n=0 Detta är alltså avvecklingskurvorna! Med dessa avvecklingskurvor kan man visualisera outputen från modellen, och validera modellen. (1 p νt (x,n d)).
Modell för avveckling 2006 0 0 5 10 15 25 30 35 40 45 50 55 60 5 10 15 25 30 35 40 45 50 55 60 Figure: Avvecklingsytan för kvinnor, 2006.
Modell för avveckling Vi betraktar modellen logit p νt (x,d) = φ 1 (x) 3 j=1 ν 1j t ψ j (d)+φ 2 (x) 3 j=1 ν 2j t ψ j (d) där φ och ψ ges av: φ 1 (x) = 64 x, 39 φ 2 (x) = x 25, 39 ψ 1 (d) = 1, ψ 2 (d) = d, ψ 3 (d) = d.
Modell för avveckling Tolkningen är inte lika rättfram som för insjuknandemodellen, men grovt kan man säga att avvecklingsfunktionen för en 25-åring (64-åring) bestäms av parameteruppsättningen ν 1,1,ν 1,2,ν 1,3 (ν 2,1,ν 2,2,ν 2,3 ) avvecklingsfunktionen för alla andra åldrar bestäms (logistiskt) av en linjärkombination av dessa. Hela avvecklingsytan bestäms av 6 parametrar. Precis som på insjuknandesidan kan man få en känsla för hur populationens beteende varierar över tid genom att studera hur parametrarna ändras.
Modellvalidering För att validera skattningarna jämförs modellens avvecklingskurvor med vanliga Kaplan-Meier-kurvor för åtta kohorter. Jämförelsen försvåras dock något av att vår modell skapar en avvecklingsyta per kalenderår, medan KM-kurvorna är baserade på data från ett treårs-fönster kring önskat årtal, detta för att erhålla någorlunda jämna skattningar. Man kan likna detta vid någon sorts glidande medelvärde. En rimlig modell ligger i närheten av KM-kurvorna, men i en föränderlig värld kommer skattningarna inte att sammanfalla.
Modellvalidering 2000 2004 2008 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 2001 2005 2009 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 2002 2006 2010 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 2003 2007 2011 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 Figure: Avvecklingsfunktioner för kvinnor med ålder 45-49, åren 2000-2011.
Simulering och prognosticering Nedan visas modellparametrarna ν t för åren 2000-2011. Genom att anpassa en tidsseriemodell för ν t till historiska data kan avvecklingskurvor för kommande år prognosticeras. Vi tolkar ν som en process som beskriver omvärlden. ν t 1,1 ν t 1,2 ν t 1,3 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 ν t 2,1 ν t 2,2 ν t 2,3 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 Figure: Modellparametrarna ν t för åren 2000-2011.
Metod för prognosticering Följande metod kan användas för prediktion av avveckling. Anpassa en tidsseriemodell för ν t till historiska data för t = t 0,t 1,...,t n. Generera predikterade värden på ν t för t = t n+1,t n+2,... Beräkna predikterade avvecklingssannolikheter p νt (x,d) för t = t n+1,t n+2,... Beräkna premier och reserver utifrån de predikterade avvecklingssannolikheterna.
Metod för simulering Följande metod kan användas för simulering av avveckling. Anpassa en tidsseriemodell för ν t till historiska data för t = t 0,t 1,...,t n. Generera simulerade värden på ν t för t = t n+1,t n+2,... Beräkna simulerade avvecklingssannolikheter p νt (x,d) för t = t n+1,t n+2,... Med dessa kan man Beräkna premier, reserver utifrån de simulerade avvecklingssannolikheterna. Simulera hur populationens individer insjuknar och avvecklas. Lämpligt/möjligt antagande: Individerna oberoende av varandra betingat på omvärldsprocessen. Upprepa för ett stort antal simuleringar.
Intern modell för Solvens II I standardmodellen för Solvens II tar man differensen mellan best estimate av skuldens värde skuldens värde under ett stress-scenario där insjuknande och avveckling ökar respektive minskar. Detta kan tolkas som differensen mellan en kvantil av skuldens värde om ett år, och best estimate. En intern modell bör baseras på Value-at-Risk, på nivån 99,5%.
Intern modell för Solvens II Simuleringsalgoritmen ovan kan användas för detta ändamål: Simulera skuldens framtida värde genom att simulera insjuknande- och avvecklingssannolikheterna, och populationens individer. Att simulera varje individ kan vara tungt beräkningsmässigt Man kan lösa detta genom att göra en typ av Stora Talens Lag-approximation Detta bygger på att man diversifierat bort all individrisk, och att endast den systematiska risken består. Man kan simulera den systematiska risken enbart genom att simulera insjuknande- och avvecklingssannolikheterna.
Simuleringsresultat 1000 900 800 700 600 500 400 300 200 100 0 Figure: Histogram över skuldens framtida värde.
Simuleringsresultat 1.5 1.4 1.3 1.2 1.1 1 0.9 0.8 0.7 0.6 0.5 100 200 300 400 500 600 700 800 900 1000 Figure: Blå: VaR-skattning som funktion av antalet simulerade individer. Röd: LLN-approximation (grafen skalad så att LLN-approx = 1)
Tack!