Regressionsmodellering inom sjukförsäkring



Relevanta dokument
MVE051/MSG Föreläsning 7

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Exempel på tentamensuppgifter

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tillvägaghångssätt för skattning av körkortsmodell

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Lektionsanteckningar 11-12: Normalfördelningen

Avd. Matematisk statistik

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 12: Regression

Avd. Matematisk statistik

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Avd. Matematisk statistik

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Härledning av Black-Littermans formel mha allmänna linjära modellen

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

4 Diskret stokastisk variabel

Parameterskattning i linjära dynamiska modeller. Kap 12

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

Aggregering av kapitalkrav i standardformeln i Solvens II. Magnus Carlehed

Approximerande Splines. B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor.

f(x) = 2 x2, 1 < x < 2.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 4 Poissonregression

TANA09 Föreläsning 8. Kubiska splines. B-Splines. Approximerande Splines. B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor.

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Stokastiska vektorer och multivariat normalfördelning

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

PROGRAMFÖRKLARING III

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Matematisk statistik, Föreläsning 5

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 7. Statistikens grunder.

Laboration 2: Styrkefunktion samt Regression

Föreläsning 7: Punktskattningar

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Lufttorkat trä Ugnstorkat trä

1 Duala problem vid linjär optimering

Avd. Matematisk statistik

Statistiska metoder för säkerhetsanalys

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Optimering och simulering: Hur fungerar det och vad är skillnaden?


Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 8: Konfidensintervall

Statistiska metoder för säkerhetsanalys

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

TAMS14/36 SANNOLIKHETSLÄRA GK Poissonprocessen (komplettering) Torkel Erhardsson 14 maj 2010

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

1 LP-problem på standardform och Simplexmetoden

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Omtentamen i DV & TDV

TSRT62 Modellbygge & Simulering

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Datorövning 4 Poissonregression

SF1901 Sannolikhetsteori och statistik I

Kap 3: Diskreta fördelningar

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1901 Sannolikhetsteori och statistik I

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Finansmatematik II Kapitel 2 Stokastiska egenskaper hos aktiepriser

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Tentamen MVE301 Sannolikhet, statistik och risk

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1901: Sannolikhetslära och statistik

Tenta i Statistisk analys, 15 december 2004

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

MVE051/MSG Föreläsning 14

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005

bli bekant med summor av stokastiska variabler.

SUS SjuklighetsUnderSökning inom svensk försäkring

Avd. Matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Partiella differentialekvationer: Koppling Diskret - Kontinuum och Finita Elementmetoden

Transkript:

Matematisk Statistik, KTH / SHB Capital Markets Aktuarieföreningen 4 februari 2014

Problembeskrivning Vi utgår från Försäkringsförbundets sjuklighetsundersökning och betraktar en portfölj av sjukförsäkringskontrakt. Portföljens risk och lönsamhet beskrivs huvudsakligen av den underliggande populationens insjuknande- och avvecklingsfrekvens. Vi lever i en värld där förutsättningarna för individ och bolag ständigt förändras. Viktigt att använda aktuella skattningar när man beräknar Premier Reserver Solvenskapital Vad är en aktuell skattning? Enkelt att skatta insjuknande årsvis... men avveckling är mer komplicerat.

Insjuknande, lösningsstrategi För att fånga förändringar i tiden men ändå behålla tillräcklig stabilitet använder vi oss av följande strategi. Dela upp data i ålderskohorter på 1 år, för varje kalenderår. Beräkna antalet individer under risk att insjukna och antalet incidenser för varje kohort. Ställ upp en parametrisk modell för logistisk insjuknandesannolikhet som funktion av ålder. Detta garanterar att sannolikheterna ligger mellan 0 och 1. Skatta parametrarna med maximum likelihood för varje kalenderår.

Modell för insjuknande Låt E x,t beteckna antalet friska individer i beståndet med ålder x vid början av period t Låt D x,t beteckna antalet individer med ålder x som insjuknade i tidsintervallet [t, t + 1) Antag att D x,t är binomialfördelat givet E x,t : D x,t Bin(E x,t,p x,t ) där p x,t är sannolikheten att en x-åring som är frisk i början av period t insjuknar under perioden.

Modell för insjuknande Vi inser snabbt att modellen har för många frihetsgrader för att man ska kunna göra effektiva skattningar. Vi reducerar dimensionaliteten genom att modellera de logistiska sannolikheterna som ( px,t ) logitp x,t := log = 1 p x,t n νtφ i i (x), i=1 där φ i (x) är användardefinierade, åldersberoende basfunktioner, och ν i t stokastiska riskfaktorer Byt notation av p x,t till p νt (x), som ges av p νt (x) = 1 1+exp( n i=1 νi tφ i (x)) Genom att modellera de logistiska sannolikheterna kan vi garantera att p νt (x) (0,1).

Modell för insjuknande Givet historiska värden på D x,t och E x,t, och en uppsättning basfunktioner {φ i }, kan log-likelihood- funktionen för årliga värden på ν t skrivas som l(ν t ) = x X n [D x,t νtφ i i (x) E x,t log ( 1+exp { n νtφ i i (x) })] +c t. i=1 i=1 Om basfunktionerna är linjärt oberoende blir l(ν t ) strikt konvex. Minimering över R n med numeriska metoder ger unika skattningar av ν t. Hur bestämmer man basfunktionerna? Kan väljas av användaren. Alternativt kan en optimal bas beräknas utifrån det givna datat.

Modell för insjuknande Önskade egenskaper hos p νt (x), exempelvis styckvis linjäritet m.a.p. x, fås genom lämpliga val av basfunktioner φ i (x) Karakteristika för en specifik population kan tas i beaktande Lämpliga val av basfunktioner ger riskfaktorerna konkreta tolkningar, vilket underlättar vid tillämpning Vektorn ν t med riskfaktorer modelleras som en stokastisk process baserat på historiska data och/eller expertkännedom. Tack vare den enkla modellen, och det faktum att (minus) likelihoodfunktionen är konvex, kan detta göras numeriskt med hög precision och utan att vara krävande beräkningsmässigt.

Modell för insjuknande Betrakta modellen logit p νt (x) = ν 1 tφ 1 (x)+ν 2 tφ 2 (x), där basfunktionerna är linjära då x [25,64]: φ 1 (x) = 64 x 39, φ 2 (x) = x 25 39

Modell för insjuknande 1 1 1 0.9 0.9 0.9 0.8 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.6 0.5 0.5 0.5 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0 25 30 35 40 45 50 55 60 0 25 30 35 40 45 50 55 60 0 25 30 35 40 45 50 55 60 Figure: T.v: två basfunktioner. Mitten: basfunktionerna skalas med riskfaktorvärden 0.4 resp. 0.6. T.h: summan av de skalade basfunktionerna

Modell för insjuknande Den logistiska insjuknandesannolikheten för en 25-åring ges av P.s.s. för en 64-åring, logitp νt (25) = ν 1 tφ 1 (25)+ν 2 tφ 2 (25) = ν 1 t. logitp νt (64) = ν 2 t. Insjuknandesannolikheterna för alla andra åldrar bestäms (logistiskt) som en linjärkombination av dessa. Insjuknandet för hela populationen bestäms således av endast två riskfaktorer. Genom att studera hur dessa riskfaktorer ändrar sig över tid kan man få en känsla för hur populationens beteende varierar.

Resultat, insjuknande 2000 2005 2010 60 50 40 30 2000 2005 2010 60 50 40 30 Figure: Vänster: insjuknandefrekvens per 5-årsgrupper, kvinnor. Höger: Modellen.

Avveckling Avveckling är lite mer komplicerat att modellera Beror av fler variabler Man brukar anta att sannolikheten att avvecklas beror på sjukdomens duration Detta kallas semi-markov-egenskapen. Ålder, kön och andra faktorer kan/bör också tas i beaktande. Vi utvidgar insjuknandemodellen till semi-markov-fallet och sätter upp en modell för avveckling!

Avveckling, tillbakablick På avvecklingssidan har SUS använt sig av en metodik där man studerar tidsperioden 2000-2007 som om den vore statisk, delar upp data i åtta ålderskohorter, skattar icke-parametrisk avvecklingskurva för varje kohort, väljer en parametrisk funktion och anpassar till data. För att kunna skatta åtta bra avvecklingskurvor behöver man mycket data, och man har då valt att titta på ett långt tidsintervall. Detta gör att man tappar tidsdynamiken.

Lösningsstrategi För att fånga förändringar över tiden delar vi upp data i ålders- och durationskohorter på 1 år resp 1 månad, för varje kalenderår, beräknar antalet individer under risk att avvecklas och antalet avvecklingar för varje kohort, ställer upp en parametrisk modell för logistisk avvecklingssannolikhet som funktion av duration och ålder, samt skattar parametrarna med maximum likelihood för varje kalenderår. Den stora fördelen med denna metod är att det krävs mindre data för att skatta en bra avvecklingsyta. Detta medför att man kan skapa avvecklingskurvor för varje enskilt kalenderår!

Modell för avveckling Låt E x,d,t beteckna antalet individer med insjuknandeålder x och sjukdomsduration [d, d + d) under tidsperioden [t,t +1). Låt R x,d,t beteckna antalet individer bland E x,d,t som avvecklas inom [d,d + d) and [t,t +1). Mål: modellera avveckling över tid, t = 0,1,2,... för ett givet antal åldrar Antag att R x,d,t är binomialfördelat givet informationen vid t (i enklaste fallet är detta E x,d,t ): R x,d,t Bin(E x,d,t,p x,d,t ) där p x,d,t är sannolikheten att en individ med insjuknandeålder [x,x +1) och sjukdomsduration [d,d + d) avvecklas under perioden [t,t +1).

Modell för avveckling Vi inser snabbt att modellen har för många frihetsgrader för att man ska kunna göra effektiva skattningar. Vi reducerar dimensionaliteten genom att modellera de logistiska sannolikheterna som logitp νt (x,d) = n φ i (x) i=1 k j=1 ν ij t ψ j (d), där φ i och ψ j ålders- respektive durationsberoende basfunktioner, och ν ij t är stokastiska riskfaktorer. Genom att modellera de logistiska sannolikheterna kan vi garantera att p νt (x,d) (0,1).

Modell för avveckling Log-likelihood-funktionen kan skrivas l(ν t ) = x X d D n [R x,d,t φ i (x) i=1 k j=1 ν ij t ψ j (d) E x,d,t log ( 1+exp { n φ i (x) i=1 k j=1 ν ij t ψ j (d) })] +c t. Funktionen (med omvänt tecken) är strikt konvex om {φ i } linj. ober. {ψ j } linj. ober. Minimering över R n med numeriska metoder ger unika skattningar av ν t

Modell för avveckling Låt den stokastiska variabeln D x beteckna en x-årings sjukdomsduration. För ett fixt ν t ges sannolikheten att sjukdomen varar längre än d år som S x (d) = P νt (D x > d) = d/ d 1 n=0 Detta är alltså avvecklingskurvorna! Med dessa avvecklingskurvor kan man visualisera outputen från modellen, och validera modellen. (1 p νt (x,n d)).

Modell för avveckling 2006 0 0 5 10 15 25 30 35 40 45 50 55 60 5 10 15 25 30 35 40 45 50 55 60 Figure: Avvecklingsytan för kvinnor, 2006.

Modell för avveckling Vi betraktar modellen logit p νt (x,d) = φ 1 (x) 3 j=1 ν 1j t ψ j (d)+φ 2 (x) 3 j=1 ν 2j t ψ j (d) där φ och ψ ges av: φ 1 (x) = 64 x, 39 φ 2 (x) = x 25, 39 ψ 1 (d) = 1, ψ 2 (d) = d, ψ 3 (d) = d.

Modell för avveckling Tolkningen är inte lika rättfram som för insjuknandemodellen, men grovt kan man säga att avvecklingsfunktionen för en 25-åring (64-åring) bestäms av parameteruppsättningen ν 1,1,ν 1,2,ν 1,3 (ν 2,1,ν 2,2,ν 2,3 ) avvecklingsfunktionen för alla andra åldrar bestäms (logistiskt) av en linjärkombination av dessa. Hela avvecklingsytan bestäms av 6 parametrar. Precis som på insjuknandesidan kan man få en känsla för hur populationens beteende varierar över tid genom att studera hur parametrarna ändras.

Modellvalidering För att validera skattningarna jämförs modellens avvecklingskurvor med vanliga Kaplan-Meier-kurvor för åtta kohorter. Jämförelsen försvåras dock något av att vår modell skapar en avvecklingsyta per kalenderår, medan KM-kurvorna är baserade på data från ett treårs-fönster kring önskat årtal, detta för att erhålla någorlunda jämna skattningar. Man kan likna detta vid någon sorts glidande medelvärde. En rimlig modell ligger i närheten av KM-kurvorna, men i en föränderlig värld kommer skattningarna inte att sammanfalla.

Modellvalidering 2000 2004 2008 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 2001 2005 2009 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 2002 2006 2010 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 2003 2007 2011 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 Figure: Avvecklingsfunktioner för kvinnor med ålder 45-49, åren 2000-2011.

Simulering och prognosticering Nedan visas modellparametrarna ν t för åren 2000-2011. Genom att anpassa en tidsseriemodell för ν t till historiska data kan avvecklingskurvor för kommande år prognosticeras. Vi tolkar ν som en process som beskriver omvärlden. ν t 1,1 ν t 1,2 ν t 1,3 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 ν t 2,1 ν t 2,2 ν t 2,3 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 Figure: Modellparametrarna ν t för åren 2000-2011.

Metod för prognosticering Följande metod kan användas för prediktion av avveckling. Anpassa en tidsseriemodell för ν t till historiska data för t = t 0,t 1,...,t n. Generera predikterade värden på ν t för t = t n+1,t n+2,... Beräkna predikterade avvecklingssannolikheter p νt (x,d) för t = t n+1,t n+2,... Beräkna premier och reserver utifrån de predikterade avvecklingssannolikheterna.

Metod för simulering Följande metod kan användas för simulering av avveckling. Anpassa en tidsseriemodell för ν t till historiska data för t = t 0,t 1,...,t n. Generera simulerade värden på ν t för t = t n+1,t n+2,... Beräkna simulerade avvecklingssannolikheter p νt (x,d) för t = t n+1,t n+2,... Med dessa kan man Beräkna premier, reserver utifrån de simulerade avvecklingssannolikheterna. Simulera hur populationens individer insjuknar och avvecklas. Lämpligt/möjligt antagande: Individerna oberoende av varandra betingat på omvärldsprocessen. Upprepa för ett stort antal simuleringar.

Intern modell för Solvens II I standardmodellen för Solvens II tar man differensen mellan best estimate av skuldens värde skuldens värde under ett stress-scenario där insjuknande och avveckling ökar respektive minskar. Detta kan tolkas som differensen mellan en kvantil av skuldens värde om ett år, och best estimate. En intern modell bör baseras på Value-at-Risk, på nivån 99,5%.

Intern modell för Solvens II Simuleringsalgoritmen ovan kan användas för detta ändamål: Simulera skuldens framtida värde genom att simulera insjuknande- och avvecklingssannolikheterna, och populationens individer. Att simulera varje individ kan vara tungt beräkningsmässigt Man kan lösa detta genom att göra en typ av Stora Talens Lag-approximation Detta bygger på att man diversifierat bort all individrisk, och att endast den systematiska risken består. Man kan simulera den systematiska risken enbart genom att simulera insjuknande- och avvecklingssannolikheterna.

Simuleringsresultat 1000 900 800 700 600 500 400 300 200 100 0 Figure: Histogram över skuldens framtida värde.

Simuleringsresultat 1.5 1.4 1.3 1.2 1.1 1 0.9 0.8 0.7 0.6 0.5 100 200 300 400 500 600 700 800 900 1000 Figure: Blå: VaR-skattning som funktion av antalet simulerade individer. Röd: LLN-approximation (grafen skalad så att LLN-approx = 1)

Tack!