EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2017 Tariffanalys av fritidshusförsäkring En riskmodellering med hjälp av Jungs metod hos If Skadeförsäkring HENNING RYDSTRÖM KTH SKOLAN FÖR TEKNIKVETENSKAP
Abstract In recent years, it has become easier and easier to compare insurance rates. Consequently, pricing has become increasingly important for insurance companies. The price must cover the insurance company's costs and generate profits. It should also be sufficiently competitive to attract customers. But it s equally important that the price corresponds to the risk the insurance company is taking on. Low prices only generate losses if the damage the insurance company must pay for is higher than the income they receive from the insurance premiums. Making correct assessments of the risk is very important for an insurance company's profitability. The pricing of an insurance is therefore based on a risk model. The risk model has the task of modelling the expected cost for a certain insurance. This bachelor thesis in mathematical statistics was ordered by and performed for the non-life insurance company If P&C. The purpose of the project was to make a proposal for a new pricing model for If's insurance for cottages. This report will focus on the creation of the risk model underlying the pricing model. The aim of the project is that the new risk model should be more risk correct than the old one. Since the results of the project will be used by If and is based on their data, the report will not be able to contain the names of the variables, the amount of damages or the amount of insurances. The risk model is based on the risk premium, which is defined as the claim cost divided by the duration of the insurance. The model can be described by several factors, each of which depends on the value of an independent variable. When creating the model, generalized linear models were used. The type of GLM used was Poisson log linear, which assumes poisson distribution for the response variable and uses log(μ) as the link function. The method that uses Poisson log linear GLM for modelling the risk premium is called Jungs method. Jungs method was used in this project. The project has briefly followed a four-step process. Firstly, the data was retrieved. The next step was to investigate which variables that could possibly be included in a risk model. After that, the risk model was created with the most statistically significant and most appropriate variables. Finally, the risk model was compared with the risk model of the current tariff. The final risk model is based on 15 variables. Most variables gave good results in the validation analysis and the new risk model was better overall than the current one. 1
Sammanfattning I takt med att det blivit lättare och lättare att jämföra priser på försäkringar så har prissättning blivit allt viktigare för försäkringsbolagen. Priset ska täcka försäkringsbolagets kostnader och generera vinst. Det ska även vara tillräckligt konkurrenskraftiga för att locka kunder. Lika viktigt är att priset motsvarar den risk försäkringsbolaget tar på sig. Låga priser generar bara förluster om skadorna försäkringsbolaget måste betala är högre än intäkterna från försäkringspremierna. Att göra korrekta bedömningar av risken är därför väldigt viktigt för ett försäkringsbolags lönsamhet. Prissättningen av en försäkring bygger därför på en riskmodell. Riskmodellen har som uppgift att modellera den förväntade skadekostnaden för en viss försäkring. Detta kandidatexamensarbete inom matematisk statistik är beställt av och utfört åt If skadeförsäkring. Projektet har gått ut på att göra ett förslag till ny prissättningsmodell för If:s försäkring för lösöre till fritidshus. Denna rapport kommer fokusera på skapandet av riskmodellen som ligger till grund till prissättningsmodellen. Syftet med projektet är att den nya riskmodellen ska vara mer riskkorrekt än den gamla. Eftersom resultatet av projektet kommer användas av If och bygger på deras data så kommer rapporten inte kunna innehålla namnen på variablerna, mängden skador eller mängden försäkringar. Riskmodellen bygger på riskpremien, som definieras som skadekostnaden genom försäkringens duration. Modellen kan beskrivas av en mängd faktorer som var och en beror på värdet av en oberoende variabel. Vid skapandet av modellen användes generaliserade linjära modeller. Den typ av GLM som användes var Poisson loglinjär, vilken antar poissonfördelning för responsvariabeln och använder log (μ) som länkfunktion. Jungs metod kallas den metod som modellerar riskpremien med hjälp av Poisson loglinjär GLM. Det var denna metod som användes i projektet. Projektet har i korta drag följt en process på fyra steg. Först togs data som behövdes fram. Sedan undersöktes vilka variabler som kunde vara möjliga att ha med i en riskmodell. Efter det skapades riskmodellen efter de mest statistiskt signifikanta och lämpligaste variablerna. Slutligen jämfördes den framtagna riskmodellen med den nuvarande tariffens riskmodell. Den slutgiltiga riskmodellen bygger på 15 variabler. De flesta variablerna gav bra resultat i valideringen och som helhet var den framtagna riskmodellen bättre än den nuvarande tariffens riskmodell. 2
Förord och tack Jag vill tacka Jonna Alnervik och Stefan Ekwall för förtroendet att genomföra mitt kandidatexamensarbete hos If Skadeförsäkringar. Vidare vill jag rikta ett tack till de analytiker på If som jag fått hjälp av i mitt arbete. Slutligen vill jag även tacka min handledare på KTH, Thomas Önskog, som kommit med kontinuerlig feedback vid skapandet av denna rapport. 3
Innehåll Abstract... 1 Sammanfattning... 2 Förord och tack... 3 1. Inledning... 7 1.1. Bakgrund... 7 1.2. Syfte... 8 1.3. Problemformulering... 8 1.4. Avgränsningar... 8 1.4.1. Avgränsningar inom projekt... 8 1.4.2 Avgränsningar inom rapport... 8 2. Teori... 9 2.1. Prissättning av försäkringar... 9 2.1.1. Grunder inom prissättning för försäkringar... 9 2.1.2. Olika typer av faktorer... 10 2.1.2. Olika typer av variabler... 10 2.2. Statistiska definitioner... 10 2.3. Antaganden... 11 2.4. Multiplikationsmodellering... 11 2.5. Generaliserade linjära modeller... 12 2.5.1. Slumpmässiga variabeln... 12 2.5.2. Systematiska komponenten... 13 2.5.3. Länkfunktionen... 13 2.6. Poisson Loglinjär GLM... 13 2.7. Multiplikationsmodellering med Poisson loglinjär GLM... 14 2.8. Val av parametrar... 15 2.9. Chi-squared fördelning... 15 2.10. Deviance... 16 2.11. Multikollinearitet... 16 3. Material och metoder... 18 3.1. Sammanfattning... 18 3.2. Framtagning av data... 18 4
3.3. Undersökning av variabler... 18 3.4. Skapandet av riskmodell... 19 3.5. Validering av riskmodell... 19 4. Resultat... 20 4.1. Faktorer... 20 4.1.1. Variabel x1... 21 4.1.2. Variabel x2... 21 4.1.3. Variabel x3... 22 4.1.4. Variabel x4... 22 4.1.5. Variabel x5... 22 4.1.6. Variabel x6... 23 4.1.7. Variabel x7... 23 4.1.8. Variabel x8... 24 4.1.9. Variabel x9... 25 4.1.10. Variabel x10... 25 4.1.11. Variabel x11 - x15... 26 4.2. Värden och standardfel... 26 4.3. Chi-Squared test... 28 4.4. Korrelation... 28 5. Analys av modellen... 30 5.1 Validering 1... 30 5.1.1 Variabel x1... 30 5.1.2 Variabel x2... 31 5.1.3 Variabel x3... 32 5.1.4 Variabel x4... 32 5.1.5 Variabel x5... 32 5.1.6 Variabel x6... 33 5.1.7 Variabel x7... 33 5.1.8 Variabel x8... 34 5.1.9 Variabel x9... 36 5.1.10 Variabel x10... 36 5.1.11 Variabel x11 - x15 samt variabel y1... 36 5.2. Validering 2... 40 5
5.3. Validering 3... 41 6. Slutsats och diskussion... 43 6.1. Riskmodellens uppbyggnad... 43 6.1.1 Variabler... 43 6.1.2. Korrelationer, chi-square test och standardfel... 43 6.2. Jämförelse med nuvarande tariffs riskmodell... 43 6.3. Diskussion kring metod och framtida förbättringar... 43 6.3.1. Jungs metod eller Enkel standard GLM... 43 6.3.2. Total skadekostnad eller per skadetyp... 44 6.3.3. Mer data... 44 6.3.4. Val av valideringsdata... 44 6.3.5. Användning av deviance... 45 Referenser... 46 A. Appendix... 47 A.1. Faktorer... 47 A.1.1. Variabel x1... 47 A.1.2. Variabel x2... 48 A.1.3. Variabel x3... 48 A.1.4. Variabel x4... 48 A.1.5. Variabel x5... 48 A.1.6. Variabel x6... 48 A.1.7. Variabel x7... 48 A.1.8. Variabel x8... 48 A.1.9. Variabel x9... 48 A.1.10. Variabel x10... 49 A.1.11. Variabel x11... 49 A.1.12. Variabel x12... 49 A.1.13. Variabel x13... 49 A.1.14. Variabel x14... 49 A.1.15. Variabel x15... 49 6
1. Inledning 1.1. Bakgrund Detta arbete är beställt och utfört åt If skadeförsäkring, närmare bestämt deras pris och produkt avdelning inom privatförsäkringar. If skadeförsäkring är Nordens största företag inom sakförsäkring. Företaget har 3,6 miljoner kunder, 6 700 medarbetare och en premieinkomst på 42 miljarder SEK 2014. If ägs av finländska Sampokoncernen. 1 If är uppdelad i de fyra affärsområdena Privat, Företag, Industri och Baltikum. Arbetet är som sagt utfört på Privat, vilket är det största affärsområdet med 56 % av premieinkomsten. 2 Projektet har gått ut på att göra en tariffanalys av If:s försäkring för lösöre till fritidshus, en tariff är ett annat ord för prissättningsmodellen hos en försäkring. En försäkring för lösöre innefattar vanliga föremål som i huvudsak används och förvaras i hemmet. Det finns både en vanlig och en stor försäkring för lösöre som har olika stor omfattning, det går även att välja hur hög självrisk och försäkringssumma man vill ha, vilket bestämmer hur stor ersättningen kan bli. 3 Denna rapport kommer fokusera på skapandet av riskmodellen som ligger till grund till tariffen. En sakförsäkring är ett kontrakt mellan ett försäkringsbolag och en kund, där försäkringsbolaget åtar sig att kompensera kunden för specifika och oförutsägbara skador under en tidsperiod mot en årlig premie. Genom detta kontrakt överförs den ekonomiska risken från kunden till försäkringsbolaget. Tack vare de stora talens lag kommer försäkringsbolagets förlust, som är en summa av många relativt små oberoende förluster, vara betydligt mer förutsägbar än kundens risk. Därav kommer principen att premien ska baseras på den förväntade förlusten som överförs från kunden till försäkringsbolaget. Premien måste även innefatta kompensation för verksamhetskostnader och i If:s fall även vinstmarginaler, dessa är dock inte behandlade i detta arbete. Behovet av statistiska metoder uppstår på grund av att den förväntade förlusten varierar beroende på kund och objekt. 4 Prissättning inom sakförsäkring är konsten att beräkna en försäkringspremie för en kund som baseras på egenskaperna hos kunden och det försäkrade objektet. Den huvudsakliga källan till utformningen av denna prissättning är försäkringsbolagets egna historiska data över försäkringar och skadekostnader. I en tariffanalys används denna data för att skapa en riskmodell som beskriver hur risken för skadekostnader hos en kund med ett visst objekt beror på en mängd av förklarande variabler. På 90-talet introducerades generaliserade linjära modeller (förkortning: GLM) som verktyg för tariffanalyser vilket nu blivit standard i många länder. 5 Det som satte fart på spridningen av GLM var behovet av tariffanalyser efter avregleringarna av försäkringsbranschen som skedde under 90-talet. I och med det styrs nu prissättningen av fri konkurrens, vilket medför att prissättningen måste optimeras för att attrahera nya och gamla kunder. Prissättningen är essentiell för försäkringsbolaget eftersom den både ska täcka kostnader och generera vinst samtidigt som den ska vara konkurrenskraftig. En riskkorrekt prissättning är grunden för framgångsrik prissättning. 6 1 If, Om If affärsinformation, <URL: https://www.if.se/om-if/om-oss/affarsinformation> - hämtad 2017-02-06 2 If, Om If marknad och affärsområde, <URL: https://www.if.se/om-if/om-oss/marknad-och-affarsomraden > - hämtad 2017-02-06 3 If, våra försäkringar hög och radhus, <URL: https://www.if.fi/web/fi/svenska/privat/varaforsakringar/hogochradhus/pages/default.aspx > - hämtad 2017-02-06 4 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. 1-2) 5 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. vii) 6 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s.1-2) 7
GLM kan dels användas för att modellera riskpremien, vilket är den förväntade skadekostnaden per år för en viss försäkring. Genom att modellera riskpremien kan en riskkorrekt premie beräknas. GLM kan även användas för att modellera frekvensen och medelskadan. Frekvensen är det förväntade antalalet skador per år för en viss försäkring. Medelskadan är den förväntade kostnaden för en skada hos en viss försäkring om en skada väl inträffar. Genom att multiplicera resultaten från modellerna för frekvensen och medelskadan fås riskpremien, och på så sätt kan rätt premie modelleras. Innan den generella GLM teorin formulerades så användes i Sverige den så kallade Jungs metod, även kallad marginal metod. Jung var en svensk aktuarie (analytiker inom försäkring) som var delaktig i utvecklingen av denna metod från 1960-talet. När GLM introducerades visade det sig att Jungs metod var ett specialfall för GLM, nämligen att man modellerar efter riskpremien, antar poissonfördelning och använder log (μ) som länkfunktion (se delkapitel 2.1, 2.5 och 2.6). 7 Jungs metod är fortfarande en av de vanligaste metoderna på If, det är även den metod som användes i detta arbete. 1.2. Syfte Anledningen till att en ny tariff är aktuell är att den gamla inte anses vara tillräckligt riskkorrekt. If har som målsättning att vara ledande inom riskbedömning 8 vilket korrekt prissättning såklart är en väldigt viktig del av. Syftet med projektet är därför att den nya riskmodellen, vilket är grunden till tariffen, är mer riskkorrekt än den gamla. Detta ger dels kunden ett mer rättvist pris samt gynnar If:s konkurrensförmåga. 1.3. Problemformulering 1. Vilka variabler påverkar risken för skador för försäkringen fritidshus lösöre, och med hur mycket? 2. Går det att ta fram en mer riskkorrekt riskmodell än den som ligger till grund för försäkringen idag? 3. Finns det några andra variabler än de som är med i nuvarande tariffens riskmodell som har en signifikant påverkan på risken? 1.4. Avgränsningar 1.4.1. Avgränsningar inom projekt Analysen har gjorts för försäkringar som var gällande från 1:a januari 2012 till 30:e september 2016. Antalet variabler som togs med i början av analysen begränsades till ett hundratal. 1.4.2 Avgränsningar inom rapport Denna rapport kommer fokusera på framtagandet av riskmodellen, den ligger till grund för skapandet av själva tariffen. Därför analyseras och diskuteras inget kring val av vinstmarginaler för priset eller vilka konsekvenser som en ändring av prismodellen skulle innebära föra If:s kunder. Eftersom resultatet av projektet kommer användas av If och bygger på deras data så kommer rapporten inte kunna innehålla namnen på variablerna, mängden skador eller mängden försäkringar. 7 Bengt Eriksson, Aktuarie på If, 23/5-2017 8 If, presenation av Torbjörn Magnusson <URL: http://wms.magneetto.com/webcasts/hd1/sampo/2014_0602_cmd/attachment/sampo_cmd_2014_magnusson.pdf > - hämtad 2017-02-06 8
2. Teori 2.1. Prissättning av försäkringar 2.1.1. Grunder inom prissättning för försäkringar 9 Prissättning av försäkring bygger på en riskmodell. Riskmodellen ska ge en premie till en viss försäkring som motsvarar den förväntade skadekostnaden hos försäkringen. Den tas fram med hjälp av statistiska metoder och bygger på data över tidigare försäkringar och skadekostnader. Prismodellen skapas sedan med riskmodellen som grund, men där man höjer priset för försäkringarna så att företaget kan täcka omkostnader och göra vinst. Prismodellen inkluderar eventuellt även taktiska förändringar, såsom exempelvis att sänka priserna för en viss grupp individer. I denna rapport kommer som sagt endast framtagandet av riskmodellen behandlas. Metoden som använts i arbetet kallas Jungs metod. Vid användandet av Jungs metod ska riskmodellen modellera riskpremien, som definieras som skadekostnaden genom försäkringens duration. Durationen definieras som tiden försäkringen gäller, oftast mätt i år. Oftast pratas det om durationen för en mängd av försäkringar, som då definieras som den totala tiden som försäkringarna gäller (1000 försäkringar som gäller i ett år var ger en duration på 1000 år). I denna rapport anges oftast andelen duration hos en grupp av försäkringar. Detta är den procentuella andelen av den totala durationen som tillhör en grupp av försäkringar. Vi brukar även tala om riskpremien för en grupp av försäkringar, denna definieras som försäkringarnas totala skadekostnader genom deras duration. Antag till exempel att vi har en grupp med 1000 försäkringar vars totala duration är 800 år och vars totala skadekostnader är 80 000 kr. Vi får då att riskpremien för dessa försäkringar är 100 kr/år, därför vill vi att riskmodellen ska ge en genomsnittlig premie för denna grupp som är nära 100 kr/år. Generellt ges riskpremien för en mängd försäkringar Ω som: Riskpremie(Ω) = Skadekostnad(Ω) (ekvation 2.1. ) Duration(Ω) där Skadekostnad(Ω) och Duration(Ω) är försäkringarnas totala skadekostnader respektive duration. Riskpremien är därmed skadekostnaden per år för en eller flera försäkringar. Modellen kan beskrivas av n faktorer som var och en beror på värdet av en oberoende variabel. Riskmodellen för en försäkring j kan beskrivas som (se delkapitel 2.4 för mer teori kring detta): n Riskmodell(j) = Riskbas f i (i(j)) (ekvation 2.2. ) i=1 där f i är faktorvärdet för den oberoende variabeln i, som beror av värdet av variabeln i hos försäkring j. Riskbasen bestäms av randvillkoret för alla försäkringar m som ges av: m Riskmodell(j) = Skadekostnad(j) (ekvation 2.3. ) j=1 m j=1 där Skadekostnad(j) är kostnaden för en eller flera eventuella skador hos försäkringen j. Antag att vi exempelvis har en enkel modell med variablerna ålder och husets yta. Faktorvärdet för ålder är 1 då åldern är 9 Information från analytiker på If Skadeförsäkring 9
över 40 och 1.5 annars. För husets yta är faktorvärdet 1 för under 80 m 2 och 1.5 för över 80 m 2. Riskbasen är 100 kr. Riskmodellen ger då en premie för försäkring j = (21 år, 100 m 2 ) enligt: Premie (kr/år) = Riskmodell(j) = 100 f ålder (ålder(j)) f yta (yta(j)) = 100 f ålder (21) f yta (100) = 100 1.5 1.5 = 225 Riskmodellens riskratio för en grupp av försäkringar, Ω, definieras som: j Ω Riskratio(Riskmodell, Ω) = j Ω Skadekostnad(j) (ekvation 2.4. ) Riskmodell(j) Riskration ska idealt vara så nära ett som möjligt. Detta eftersom Riskmodellen ska ge premier som motsvarar den förväntade skadekostnaden hos försäkringen. Om riskration är mindre än ett så överskattas risken och om riskration är mer än ett så underskattas risken. En tariffcell definieras som mängden av de försäkringar som har samma faktorvärden på alla oberoende variabler. 2.1.2. Olika typer av faktorer Faktorerna i ekvation 2 beror som sagt på värdet av variabel i. Hur faktorn beror av värdet på variabeln kan delas in i tre olika typer. Dessa är polynom, grupperingar och förutbestämda värden. Polynom ger faktorvärden till en variabel enligt en kurva och används till kontinuerliga variabler såsom exempelvis ålder. I grupperingar delar man upp en variabel i lämpliga grupper och ger varje grupp ett faktorvärde, exempelvis kan ålder delas upp i en grupp för de över respektive under 50 år. En gruppering är ibland den enda indelning man kan ge, till exempel för en variabel som anger vilken landsdel som ett försäkrat hus ligger i. Förutbestämda värden är variabler som har faktorvärden som redan bestämts sedan innan, de beror oftast på att riskanalyser redan gjorts på den variabeln. 10 2.1.2. Olika typer av variabler De förklarande variablerna kan I regel delas in I tre olika kategorier, dessa är: Egenskaper hos kunden, såsom ålder och yrke. Egenskaper hos objektet, såsom värde, storlek och ålder. Geografiska variabler, såsom inkomst per capita eller invånartäthet. 2.2. Statistiska definitioner Väntevärdet kan beskrivas som medelvärdet vid oändligt många utfall och definieras som 11 : μ = E(X) = xp(x) x (ekvation 2.5. ) för diskreta stokastiska variabler X med sannolikhetsfunktionen P(x), och som: μ = E(X) = xf(x)dx (ekvation 2.6. ) 10 Information från analytiker på If Skadeförsäkring 11 Gunnar Blom, m. fl., Sannolikhetsteori och statistikteori med tillämpningar. Studentlitteratur, Lund, 2005 (5:e upplagan) 10
för kontinuerliga stokastiska variabler X med täthetsfunktionen f(x). En stokastisk variabel X med väntevärdet μ har en standardavvikelse σ som definieras enligt 12 : σ = E[(X μ) 2 ] = E[X 2 ] (E[X]) 2 (ekvation 2.7. ) Korrelationskoefficienten ρ XY mellan två slumpvariabler X och Y med de förväntade väntevärdena μ x och μ y med standardavvikelserna σ x och σ y definieras som 13 : ρ XY = E[(X μ x)(y μ y )] σ x σ y (ekvation 2.8. ) Två händelser är oberoende av varandra om deras gemensamma sannolikhet är densamma som produkten av de individuella sannolikheterna, vilket kan skrivas som: P(A B) = P(A)P(B) (ekvation 2.9. ) Standardfelet för en mängd observationer definieras som 14 : σ e = n (ekvation 2.10. ) Där n är antalet observationer. Standardfelet avtar alltså med ökat antal observationer. 2.3. Antaganden Vid skapandet av riskmodellen gör vi ett antal antaganden 15 : Antag att vi har m försäkringar. Då antar vi att försäkringarnas skadekostnader är oberoende av varandra. Detta antagande är uppfyllt till relativt hög grad. Undantaget är vid naturkatastrofer då många skador kan ske samtidigt. Detta bör rimligtvis påverka försäkringen på byggnaden mer än den på lösöre och dessutom finns ofta återförsäkring för de största katastroferna. Vi antar att två försäkringar inom samma tariffcell och med samma duration har samma sannolikhetsfördelning för skadekostnaden. Detta är inte helt sant eftersom vi i en tariffanalys aldrig kan gruppera försäkringarna i helt homogena grupper, dessutom kan skadekostnaden bero på tiden på året. 2.4. Multiplikationsmodellering Om det fanns tillräckligt mycket skador i vår historiska data så skulle varje tariffcell kunna prissättas för sig. Om vi exempelvis har två variabler med två värden vardera så skulle riskpremien för de fyra tariffcellerna kunna beräknas. Detta är sällan möjligt i praktiken och därför används istället multiplikationsmodellering. I en sådan modell beror riskmodellen på ett antal faktorer. Vi har N stycken variabler som var och en har olika värden, låt m i beteckna antalet värden för variabel i. Antag att N är lika med två, vi kan benämna tariffcellen 12 Gunnar Blom, m. fl., Sannolikhetsteori och statistikteori med tillämpningar. Studentlitteratur, Lund, 2005 (5:e upplagan) 13 Gunnar Blom, m. fl., Sannolikhetsteori och statistikteori med tillämpningar. Studentlitteratur, Lund, 2005 (5:e upplagan) 14 Douglas G Altman and J Martin Bland, Standard deviations and standard errors <URL: https://www.ncbi.nlm.nih.gov/pmc/articles/pmc1255808/ > - hämtad 2017-04-06 15 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s.6-s.7) 11
med värdena i och j för den första respektive andra oberoende variabeln som cell (i,j). Vi har då att den väntade riskpremien enligt multiplikationsmodellering ges av: μ ij = γ 0 γ 1i γ 2j (ekvation 2.11. ) i = 1, 2,, m 1, j = 1, 2,, m 2 där parametern γ ni är faktorn för variabel n med värde i och γ 0 är riskbasen. Modellen har för många parametrar då exempelvis γ 1i 2 och 2γ 2i ger samma väntevärde. Därför gör vi en tariffcell med hög duration till referenscell med alla faktorer lika med ett, antag att denna cell är cell (1,1). Nu är γ 0 referenscellens uppskattade väntevärde och resterande parametrar mäter den relativa risken mellan referenscellen och övriga tariffceller. Om γ 12 = 1.2 betyder att väntevärdet för cell (2, 1) är 20 % högre än för referenscellen. Multiplikationsmodellen antar att det inte finns någon interaktion mellan de olika faktorerna. Antag att variabel 1 är ålder och faktor 2 är geografiregion, då har vi att relationen i riskpremie för två åldersklasser är densamma mellan olika regioner. 16 2.5. Generaliserade linjära modeller 17 Linjär regression, eller den något mer omfattande metoden generaliserad linjär regression, lämpar sig dåligt för riskmodellering av sakförsäkringar. För det första för att de slumpmässiga felen är normalfördelade i dessa regressioner, vilket stämmer dåligt överens med fördelningen av skadekostnader och antal skador. För det andra för att medelvärdet i dessa regressioner är en linjär funktion av de oberoende variablerna, detta ger en additiv modellering vilket inte är lika rimligt som multiplikationsmodellering. Därför används istället generaliserade linjära modeller (eng: generalized linear models, förkortning: GLM). Dessa generaliserar vanliga ordinära regressionsmodeller på två olika sätt. 1. Istället för att anta normalfördelad responsvariabel så arbetar GLM med en generell klass av fördelningar. 2. I ordinär linjär modellering är väntevärdet en linjär funktion av de oberoende variablerna. I en GLM är någon monoton och differentierar transformation av väntevärdet en linjär funktion av de oberoende variablerna. Nelder och Wedderburn var de som introducerade klassen GLM, då fanns dock redan många etablerade modeller i klassen. Det är tre komponenter som specificerar en GLM. Dessa tre komponenter är den slumpmässiga variabeln, den systematiska komponenten och länkfunktionen. 2.5.1. Slumpmässiga variabeln Den första komponenten är den slumpmässig komponenten (eng: random component) som identifierar responsvariabeln Y, alltså den beroende variabeln, och dess fördelning. Den slumpmässiga komponenten består av en responsvariabel Y med oberoende observationer (y 1, y 2,, y n ) från en fördelning som tillhör exponentialfamiljen (eng: the exponential family). Exponentialfamiljen är en grupp av fördelningar som har en täthetsfunktion eller sannolikhetsfunktion av formen: f(y i ; θ i ) = a(θ i )b(y i ) exp[y i Q(θ i )] (ekvation 2.12. ) 16 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. 9-10) 17 Alan Agresti, Categorical Data Analysis, 2nd edition (2002), (s.116-117) 12
i = 1, 2,, N Värdet av θ i kan variera beroende på de oberoende variablerna. Termen Q(θ) kallas den naturliga parametern (natural parameter). Det finns många viktiga fördelningar av denna typ såsom normalfördelningen, exponentialfördelningen och poissonfördelningen. 2.5.2. Systematiska komponenten Den andra komponenten är den systematiska komponenten (eng: systematic component). Den systematiska komponenten relaterar en vektor (η 1, η 2,, η n ) med de förklarande variablerna, alltså de oberoende variablerna, genom en linjär relation. Låt x ij beteckna värdet för den förklarande variabeln j för observationen y i. Då har vi att: η i = β j x ij (ekvation 2.13. ) j Denna linjära kombination benämns som den linjära prediktorfunktionen (eng: linear predictor function). 2.5.3. Länkfunktionen Den tredje och sista komponenten är en länkfunktion (eng: link function) som kopplar den slumpmässiga komponenten med den systematiska komponenten. Låt μ i = E(Y i ), i = 1, 2,, N. Modellen kopplar μ i med η i genom η i = g(μ i ), där g är länkfunktionen som är monoton och differentierbar. Vi har alltså att: g(μ i ) = β j x ij (ekvation 2.14. ) j Länkfunktionen som transformerar medelvärdet till den naturliga parametern kallas för den kanoniska länkfunktionen (eng: canonical link). För den har vi: Q(θ i ) = β j x ij (ekvation 2.15. ) j 2.6. Poisson Loglinjär GLM 18 Vissa responsvariabler har antal som sina möjliga utfall. Detta är fallet för riskpremien som anger hur många kronor en viss försäkring kostar försäkringsbolaget per år. I sådana fall används ofta poissonfördelningen i den generaliserade linjära modellen. Poissonfördelningen är en sannolikhetsfördelning som tillhör exponentialfamiljen. Låt Y ange en responsvariabel och låt μ = E(Y), sannolikhetsfördelningen ges då av: f(y; θ) = exp( μ) 1 exp[y log(μ)] (ekvation 2.16. ) y! i = 1, 2, N Om vi jämför denna fördelning med ekvation 2.12. så ser vi att: θ = μ 18 Alan Agresti, Categorical Data Analysis, 2nd edition (2002), (s.117-118) 13
a(θ) = a(μ) = exp ( μ) b(y) = 1 y! Q(θ) = Q(μ) = log (μ) Eftersom den naturliga parametern är log (μ) så har vi att den kanoniska länkfunktionen ges av log (μ). Vi får nu av ekvation 2.15. att: Detta ger vidare att: log(μ i ) = β j x ij (ekvation 2.17. ) μ i = e j β jx ij j = e β jx ij (ekvation 2.18. ) j På detta sätt kan vi få en multiplikationsmodellering av μ i, se nästa delkapitel för mer detaljer. Den GLM som antar poissonfördelning för Y och använder log(μ) som länkfunktion kallas för Poisson loglinjär (eng: Poisson Loglinear Model). Metoden som använder Poisson loglinjär GLM för att modellera riskpremien kallas för Jungs metod och fanns innan klassen GLM introducerades. Det är denna metod som använts i detta arbete. 2.7. Multiplikationsmodellering med Poisson loglinjär GLM 19 Vi återgår nu till exemplet från delkapitel 2.4. och tar logaritmen av ekvation 2.11. Då får vi att: log(μ ij ) = log(γ 0 ) + log(γ 1i ) + log (γ 2j ) (ekvation 2.19. ) Sedan tidigare har vi att cell (1,1) är referenscell, därmed är både γ 21 och γ 11 lika med ett och därmed deras logaritmer lika med noll. Vi antar vidare att m 1 = 2 och m 2 = 3. Vi inför nu följande betakoefficienter: Detta ger tillsammans med ekvation 2.19 att: β 1 = log(γ 0 ) β 2 = log(γ 12 ) β 3 = log(γ 22 ) β 4 = log(γ 23 ) log(μ i ) = β j x ij Där μ i är det modellerade väntevärdet för försäkring i och x ij är dummy variabler som ges av följande tabell: 4 j=1 Tabell 1 Beskrivning av dummy variabler i Tariffcell x i1 x i2 x i3 x i4 1 (1,1) 1 0 0 0 19 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. 9-10) 14
2 (1,2) 1 0 1 0 3 (1,3) 1 0 0 1 4 (2,1) 1 1 0 0 5 (2,2) 1 1 1 0 6 (2,3) 1 1 0 1 Detta kan på ett naturligt sätt generaliseras från två till godtyckligt antal variabler med godtyckligt antal faktorvärden och därmed godtyckligt antal beta koefficienter. Vi får nu att: log(μ i ) = β j x ij Vi ser att detta är exakt samma ekvation som ekvation 2.17. Vi har därmed visat kopplingen mellan multiplikationsprincipen och Poisson loglinjär GLM. 2.8. Val av parametrar Målet med riskmodelleringen är att producera en modell som kan förklara den historiska data som ligger till grund till analysen samt kan prediktera framtiden. När vi lägger till fler parametrar γ ni, desto exaktare kan vi modellera den historiska datan men desto mindre prediktiv blir modellen av framtiden. Om vi har för få parametrar har vi en svag modell för den historiska datan och denna modell kommer därför även den vara dålig på att prediktera framtiden. Att ha rätt nivå av parametrar är därför väldigt viktigt. Vi kan reducera antalet parametrar genom att göra grövre grupperingar av variabler, använda polynom eller helt ta bort variabeln. På motsvarande sätt kan vi öka antalet parametrar. En variabel bör tas bort från modellen om: j Alla variabelns betakoefficienter är nära noll (vilket motsvarar parametrar nära ett) Parametrarna/ betakoefficienterna är inte konsekventa över tid När vi anpassat modellen kommer varje faktornivås betakoefficient få ett standardfel. Om standardfelet uttryckt som procent av betakoefficienten är för stora betyder det att det inte finns en statistisk signifikant skillnad mellan faktornivån och referenscellen. Vi vill helst att standardfelet uttryckt som procent av betakoefficienten är mindre än 50% och försöker helt undvika standardfel över 75%. När en variabel exkluderas från modellen är den nya modellen inte signifikant annorlunda med ett chi-squared test. Med hjälp av dessa kriterier kan vi bygga upp en modell som både kan förklara den historiska data som ligger till grund till analysen samt kan prediktera framtiden. 20 2.9. Chi-squared fördelning Vi har att Chi-squared fördelningens täthetsfunktion ges av: f(x) = 1 n 2 n 2Γ( n x 2 1 e x/2 (ekvation 2.20. ) 2 ) där n är antalet frihetsgrader. I vårt fall kommer n alltid vara större än noll och då har vi att: 20 Emblem Users guide, Choosing Factors to Include 15
om n är ett udda heltal större än noll och: Γ ( n 2 ) = (n 1)! (ekvation 2.21. ) 2 Γ ( n 2 ) = (n 1)! 2 n 1 ( n 2 1 2 )! π (ekvation 2.22. ) om n är ett jämt heltal större än noll. 21 Chi-squared fördelningen används bland annat för hypotestestning. Se nästa kapitel. 2.10. Deviance Deviance är en uppskattning av avvikelsen mellan de observerade värdena och värdena enligt modellen. För poissonfördelning ges deviance av: Deviance = 2 {y i log ( y i μ i ) (y i μ i )} (ekvation 2.23. ) i där y i är det observerade värdet och μ i är det modellerade värdet. Observera att summan över (y i μ i ) i vårat fall är noll eftersom vi har att modellen ska ge lika stor total skadekostnad som i vår analyserade data. Antag nu att vi har två modeller M 1 och M 2, där M 1 innehåller alla parametrarna från M 2 och k ytterligare. Under det ytterligare antagandet att M 2 är den sanna modellen, så följer skillnaden mellan modellernas deviance approximativt en chi-square fördelning med k graders frihet. 22 Tack vare detta kan vi undersöka om det finns en statistisk signifikant skillnad mellan modellerna med hjälp av ett chi-squared test. Noll hypotesen i detta test är att det inte finns en statistisk signifikant skillnad mellan modellerna. En låg Chi squared sannolikhet betyder därmed att det finns en statistisk skillnad mellan modellerna. Ett gränsvärde på 5% för Chi squared sannolikheten brukar användas för att indikera att det finns en signifikant skillnad mellan modellerna. 23 På detta sätt kan vi undersöka om vi ska ta med en viss variabel och/eller göra grövre/mer finfördelade grupperingar av variabeln. 2.11. Multikollinearitet 24 Om våra oberoende variabler korrelerar med varandra uppstår problemet multikollinearitet. Problemet uppstår i och med att vår modell inte kan avgöra vilka av våra korrelerade variabler som påverkar utfallet. Detta beror på att när vi beräknar regressionskoefficienten för en variabel används variation som är unik för den aktuella variabeln, variationen som delas med andra variabler kan inte användas då det inte går att avgöra vilken variabel det är som påverkar. Standardfelen för variablerna ökar i och med multikollinearitet. 21 Math Uah, Chi Square <URL: http://www.math.uah.edu/stat/special/chisquare.html > 22 Data.princeton, Generalized Linear Models notes c4 <URL: http://data.princeton.edu/wws509/notes/c4.pdf > - hämtad 2016-05-07 23 Emblem Users guide, Choosing Factors to Include 24 Pär Nyman 19, Regressionsdiagnostik och experimentell design, september 2014 <URL: http://www.parnyman.com/files/lectures/140919_notes.pdf > -hämtad 2016-04-06 16
Vid en regression är det naturligt att multikollinearitet uppstår och det behöver nödvändigtvis inte vara ett problem. Det finns inget exakt svar på hur mycket multikollinearitet en modell kan innehålla. För att på ett enkelt sätt minska multikollineariteten kan man ta bort variabler, ta med mer data eller slå ihop variabler. 17
3. Material och metoder 3.1. Sammanfattning Projektet har i korta drag följt följande process: 1. Ta fram data som behövs. 2. Undersök vilka variabler som har så gott som komplett data och som kan ha en påverkan på riskpremien. Ta med dessa variabler till steg tre. 3. Se vilka variabler som har en statistisk signifikant påverkan på riskpremien. Bestäm vilka som är lämpligast att ta med i modellen. Skapa sedan riskmodellen. 4. Validering av riskmodellen. Undersök hur bra riskmodellen är jämfört med den nuvarande riskmodellen. 3.2. Framtagning av data Det mesta av den data som användes i analysen fanns i If:s databaser. If förvarar mängder av data i olika listor som kan kommas åt med hjälp av databasspråket SAS, ett språk som är väldigt bra på att hantera stora mängder data. 25 Data hämtades även från databaserna ekonomifakta.se och scb.se. Med hjälp av SAS kan data från olika listor matchas ihop för att skapa ett dataset med all den information som behövs för att kunna göra analysen. I det här steget tas så många variabler som möjligt med. I detta steg sker även en kapning av skadekostnaden för de skadorna med högst skadekostnad. Med andra ord beräknas en ny skadekostnad enligt: Skadekostnad2 = min (Skadekostnad, X) (ekvation 3.1. ) som vi kommer skapa och validera modellen efter. Detta görs för att göra vår data mindre volatil och på så sätt förbättra analysen. Dessa skador som var väldigt få till antalet (drygt 0,1% av alla skador) stod nämligen för en stor del av den totala skadekostnaden. Denna del av skadekostnaden är svårmodellerad eftersom antalet skador som sagt är väldigt få, och därför sätts dessa skadors skadekostnad till det lägre värdet X. 26 Varje försäkring ges även en slumpmässig siffra mellan ett och fem. De med siffran ett till fyra blir riskmodellens träningsdata och de med siffran fem blir valideringsdata. Träningsdatan tas vidare i steg två och tre medan valideringsdatan sparas till steg fyra. Riskmodellen ska skapas med hjälp av träningsdatan och sedan ska den testas med hjälp av valideringsdatan. 3.3. Undersökning av variabler If har hundratals olika variabler i sin databas, och utöver det kan massvis av variabler tas fram från databaser såsom SCB och ekonomifakta. Självklart är alla inte relevanta och för att välja ut de som kan ha betydelse så används det grafiska programmet tableau, som är ett program som är byggt för att kunna undersöka och presentera stora mängder data på ett interaktivt och lättförståeligt sätt. 27 För det första måste datan för en variabel vara nära till komplett, med andra ord måste variabeln ha ett värde för en absolut majoritet av försäkringarna. Om vi exempelvis vill ha med husets storlek som variabel så måste 25 SAS, software, analytics, SAS/STAT, <URL: https://www.sas.com/en_us/software/analytics/stat.html > -hämtad 2017-03-14> 26 Analytiker på If 27 Tableau, products, desktop <URL: https://www.tableau.com/products/desktop > - hämtad 2017-03-14 18
den informationen vara inrapporterad för de flesta av försäkringarna för att vi ska kunna ha med den i riskmodellen. Detta visade sig vara väldigt begränsande då väldigt många av variablerna som togs med från steg ett inte hade komplett data. För det andra ska variationer i riskpremien grupperat efter variablerna undersökas. Här undersöks det om det finns ett mönster som tyder på att en viss oberoende variabel påverkar riskpremien. Variablernas värden grupperas i många fall i större och större grupper för att se om det finns nån eventuell påverkan på riskpremien. Det sker även löpande diskussioner med analytiker om vilka variabler de tror kan vara intressanta, samt vilka variabler som inte är värda att ta med till steg tre trots att de både har komplett data och verkar kunna ha en påverkan på riskpremien. Ett exempel på när detta skulle kunna ske är när analytikerna vet att variabeln har rapporterats inkonsekvent. De variabler som efter denna process verkar ha en påverkan på riskpremien tas med till steg tre i processen. 3.4. Skapandet av riskmodell Riskmodellen görs med hjälp av programmet Emblem. Det är ett program som är specialiserat på prissättning och som är bra på att göra beräkningar på stora datamängder. Emblem kan använda många typer av generaliserad linjär regression 28, i denna analys antas poissonfördelning och länkfunktionen log (μ) (se delkapitel 2.6. för teori) för att modellera riskpremien (Jungs metod). I Emblem kan även korrelationer och standardfel beräknas. Vi kan även testa om det finns en signifikant skillnad mellan två modeller genom att göra ett Chi-Square test mellan skillnaderna hos modellernas deviance. I början testas hur stark påverkan variablerna har på riskpremien och hur stora standardfel de har. Korrelationer mellan variabler beräknas. Vi anpassar sedan riskmodellen med en variabel åt gången, samt bestämmer på vilket sätt riskmodellen ska anpassa sig efter variabeln. Om vi har en kontinuerlig variabel såsom ålder vill vi helst ha en kontinuerlig anpassning med hjälp av ett polynom. Om inte det fungerar eller om variabeln inte är kontinuerlig gör vi grupperingar av variabeln. Grupperingarna görs så små som möjligt utan att få för stora standardfel. De flesta variablerna får endast två grupperingar eftersom standardfelen annars blir för stora. När vi anpassar modellen efter en ytterligare variabel så kommer standardfelen hos övriga variabler öka, speciellt för de variabler som korrelerar med den tillagda variabeln. Mycket jobb måste därför läggas på att bygga upp en väldifferentierad riskmodell med små standardfel. När vi lägger till en variabel undersöks även om detta innebär en statistisk signifikant skillnad för modellen. 3.5. Validering av riskmodell När riskmodellen tagits fram är det dags för validering. Då undersöks det hur väl riskmodellen följer risken jämfört med den nuvarande tariffens riskmodell. Detta görs dels på träningdatan som modellen är optimerad efter men även efter valideringsdatan som inte var med då riskmodellen skapades. På så sätt kan vi se hur väl riskmodellen står sig på data som den inte har optimerats efter. Valideringen görs dels för varje variabel för sig samt för riskmodellen i sin helhet. Detta för att både kunna analysera hur väl varje enskild variabel fungerar samt se hur bra riskmodellen är i sin helhet. 28 Tower Watson, Tools, Emblem, <URL: https://www.towerswatson.com/en/services/tools/emblem > - hämtad 2017-03-14 19
4. Resultat Min slutgiltiga riskmodell bygger på 15 variabler. Variabel x11 till x15 bygger tillsammans upp en gruppering som ersätter variabel y1, som finns med i nuvarande tariffs riskmodell. Alla andra variabler som är med i den nuvarande tariffen är även med i min riskmodell, dessutom har ytterligare tre lagts till. Som tidigare nämnt kommer dessa variabler inte kunna specificeras. Från ekvation 2.11. och tabell 2 fås att riskmodellen ges av: μ ijklmnopqrstuvw = γ 0 γ x1 iγ x2 jγ x3 kγ x4 lγ x5 mγ x6 nγ x7 oγ x8 pγ x9 qγ x10 rγ x11 sγ x12 tγ x13 uγ x14 vγ x15 w i = 1, 2,, 219 j = 1, 2,, 6 k = 1, 2 l = 1, 2 m = 1, 2 n = 1, 2,, 4 o = 1, 2,, 178 p = 1, 2,, 125 q = 1, 2,, 54 r = 1, 2 s = 1, 2 t = 1, 2 u = 1, 2 v = 1, 2 w = 1, 2,, 4 där μ ijklmnopqrstuvw är väntevärdet för försäkringen med värdena ijklmnopqrstuvw för variablerna x1 till x15. För att se exakta faktorer för alla variabler se appendix A. Tabell 2. Variabler i riskmodell, översikt Variabelnamn: Faktortyp: Antal värden: Ny variabel: x1 Polynom 219 Nej X2 Förutbestämda värden 6 Nej x3 Gruppering 2 Nej x4 Gruppering 2 Ja x5 Förutbestämda värden 2 Nej x6 Gruppering 4 Ja x7 Polynom 178 Ja x8 Polynom 125 Nej x9 Förutbestämda värden 54 Nej x10 Förutbestämda värden 2 Nej x11 Gruppering 2 Ja, ersätter y1 x12 Gruppering 2 Ja, ersätter y1 x13 Gruppering 2 Ja, ersätter y1 x14 Gruppering 2 Ja, ersätter y1 x15 Gruppering 4 Ja, ersätter y1 4.1. Faktorer I följande avsnitt går vi igenom alla faktorer i riskmodellen och bedömer hur viktiga dem är för riskmodellen. Vi antar att riskmodellen används på ett bestånd av försäkringar som har liknande uppdelning mellan tariffceller som den vi haft i analysen. Hur viktig en variabel är för riskmodellen bedöms i denna analys efter tre punkter: Hur stor skillnaden är mellan faktorer för olika värden på variabeln. En variabel som kan ge faktorn 2 eller 1 kommer såklart ha en större påverkan än en variabel som kan ge faktorn 1,1 och 1. Hur många värden en variabel kan anta. En variabel med 10 istället för 2 värden kommer differentiera riskmodellen mer. 20
Hur jämnt durationen är fördelad mellan värdena på variabeln. Om en variabel har två värden med faktorerna 1 och 2 så kommer den såklart påverka mer om durationen är jämt fördelad än om bara en enstaka procent är i grupp två. 4.1.1. Variabel x1 Variabel x1 är en kontinuerlig variabel som ges faktorer enligt ett stegvis linjärt polynom. Högre värde på x1 ger högre faktor. Denna variabel har enligt riskmodellen en väldigt kraftig påverkan på riskpremien, faktorerna varierar från 0,32 till 4,01. I tabell 3 ges hur stor procent av durationen som har de olika värdena hos variabeln. Vi kan i denna variabel se att värden med faktorer över 2,0 har låg duration. Trots det kan vi konstatera att detta är en väldigt viktig variabel för riskmodellen. Det finns 219 värden av variabeln. Graf 1. Faktorer för variabel x1 Tabell 3. Andel duration per intervall av värden för variabel x1 Värden: Andel av durationen: 1-10 8,05 % 11-20 21,61 % 21-30 22,76 % 31-40 14,05 % 41-50 10,89 % 51-60 7,13 % 61-80 7,73 % 81-100 3.56 % 101-120 1,82 % 121-190 1,90 % 190-219 0,50 % 4.1.2. Variabel x2 Variabel x2 har faktorer med förutbestämda värden. Det finns 6 olika värden av variabeln med faktorer som varierar kraftigt. Vi ser dock att den totala durationen för värdena 2 6 bara är drygt 3 %. Vi kan därför 21
konstatera att denna variabel inte är speciellt viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 4. Andel duration per värde och faktorvärden för variabel x2 Värde på variabel: Faktor på variabel: Andel av durationen: 1 1 96,92% 2 0,89 0,61 % 3 0,79 1,02 % 4 0,72 0,09 % 5 0,67 0,97 % 6 0,55 0,38 % 4.1.3. Variabel x3 Variabel x3 består av två grupper med faktorer som skiljer sig väldigt mycket åt. Durationen för värde 1 är visserligen relativt låg på 10,7 %, men vi kan ändå konstatera att denna variabel är ganska viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 5. Andel duration per värde och faktorvärden för variabel x3 Värde på variabel: Faktor på variabel: Andel av durationen: 1 1,76553 10,68 % 2 1 89,32 % 4.1.4. Variabel x4 Variabel x4 är en ny variabel och består av två grupper med olika faktorer. Faktorskillnaden är ganska hög medan durationen för värde 2 är relativt låg på 7,18 %. Vi har därför att denna variabel är ganska viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 6. Andel duration per värde och faktorvärden för variabel x4 Värde på variabel: Faktor på variabel: Andel av durationen: 1 1 92,82 % 2 1,372682 7,18 % 4.1.5. Variabel x5 Variabel x5 består av två grupper med förutbestämda faktorvärden. Faktorerna skiljer sig visserligen en del åt men en absolut majoritet av durationen finns i värde 1, så denna variabel har väldigt lite inverkan när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 7. Andel duration per värde och faktorvärden för variabel x5 Värde på variabel: Faktor på variabel: Andel av durationen: 0 1 99,85 % 1 1,25 0,15 % 22
4.1.6. Variabel x6 Variabel x6 är en ny variabel och består av fyra grupper med tre olika faktorvärden, då grupp 3 och 4 får samma faktor. Faktorerna skiljer sig ganska mycket åt och durationen är jämt fördelad mellan värdena. Vi har därför att denna variabel är viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 8. Andel duration per värde och faktorvärden för variabel x6 Värde på variabel: Faktor på variabel: Andel av durationen: 1 0,69233 23,73 % 2 1 41,38 % 3 0,816727 21,74 % 4 0,816727 13,15 % 4.1.7. Variabel x7 Variabel x7 är en ny kontinuerlig variabel som ger faktorer enligt ett polynom. Från värde x7 = 0 till x7 = 35 är polynomet linjärt avtagande från drygt 1,1 till drygt 0,7 och efter det är faktorerna konstanta. Mer än 85 % av durationen har ett värde på denna variabel mellan 0 och 35, alltså det intervall där faktorerna varierar. Av de variabler som ges faktorer enligt polynom är det denna som har minst påverkan, den är dock fortfarande en av de viktigaste variablerna i riskmodellen. Det finns 178 värden av variabeln. Graf 2. Faktorer för variabel x7 Tabell 9. Andel duration per intervall av värden för variabel x7 Värden: Andel av durationen: 0-5 14,58 % 6-10 17,35 % 11-15 15,36 % 16-20 11,56 % 21-25 10,20 % 26-30 7,97 % 23
31-35 8,62 % 36-45 9,88 % 46-177 4,49 % 4.1.8. Variabel x8 Variabel x8 är en kontinuerlig variabel som från värde x8 = 35 till x8 = 85 ett linjärt avtagande polynom. Innan och efter det är faktorerna konstanta. Den mesta av durationen, ungefär 95%, finns mellan värdena 35 och 85, faktorerna varierar väldigt kraftigt i detta intervall, från 0,77 till 1,77. Vi har därför att denna variabel är väldigt viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Det finns 125 värden av variabeln. Graf 3. Faktorer för variabel x8 Tabell 10. Andel duration per intervall av värden för variabel x8 Innehåller: Andel av durationen: 0-35 1,08 % 36-40 1,91 % 41-45 3,63 % 46-50 6,12 % 51-55 8,06 % 56-60 10,29 % 61-65 13,76 % 66-70 18,97 % 71-75 16,43 % 76-80 10,71 % 81-84 4,69 % 85-124 4,34 % 24
4.1.9. Variabel x9 Variabel x9 har faktorer med förutbestämda värden. Variabeln är segmenterad i väldigt många grupper och faktorerna varierar ganska mycket. Denna variabel är därför viktig för riskmodellen. Det finns 54 olika värden av variabeln. Graf 4. Faktorer för variabel x9 Tabell 11. Andel duration per värde och faktorvärden för variabel x9 Värde: Andel av durationen: Värde: Duration: Värde: Andel av durationen: Värde: Andel av durationen: 1 0,13% 15 0,00% 29 0,59% 43 1,10% 2 1,35% 16 0,00% 30 1,55% 44 1,92% 3 0,15% 17 0,00% 31 3,15% 45 1,20% 4 0,19% 18 0,00% 32 5,71% 46 0,94% 5 0,23% 19 0,01% 33 9,91% 47 0,69% 6 0,22% 20 0,01% 34 11,01% 48 0,59% 7 0,26% 21 0,07% 35 12,08% 49 0,60% 8 0,29% 22 0,02% 36 10,47% 50 0,16% 9 0,30% 23 0,08% 37 10,59% 51 0,14% 10 0,39% 24 0,05% 38 8,46% 52 0,12% 11 0,42% 25 0,09% 39 4,19% 53 0,18% 12 0,15% 26 0,06% 40 1,07% 54 8,55% 13 0,00% 27 0,12% 41 0,14% 14 0,00% 28 0,29% 42 0,01% 4.1.10. Variabel x10 Variabel x10 består av två grupper med förutbestämda faktorvärden. Faktorerna skiljer sig marginellt åt och en absolut majoritet av durationen finns i värde 1, så denna variabel har marginell inverkan på riskmodellen. Tabell 12. Andel duration per värde och faktorvärden för variabel x10 Värde på variabel: Faktor på variabel: Andel av durationen: 1 1 97,94 % 2 0,991 2,06 % 25
4.1.11. Variabel x11 - x15 Eftersom variablerna x11 - x15 tillsammans ersätter variabel y1 presenteras dessa variabler tillsammans. Variablerna x11-x14 består av två värden vardera, medan x15 består av fyra. Faktorerna skiljer sig en del åt och durationen är relativt jämt fördelad, så dessa variabler är som helhet väldigt viktiga för riskmodellen. Tabell 13. Andel duration per värde och faktorvärden för variabel x11 - x15 Värde på variable x11: Faktor på variabel x11: Andel av durationen: 1 1 63,23 % 2 0,7952 36,77 % Värde på variable x12: Faktor på variabel x12: Andel av durationen: 1 1 77,59 % 2 1,1514 22,41 % Värde på variable x13: Faktor på variabel x13: Andel av durationen: 1 0,8033 38,31 % 2 1 61,69 % Värde på variable x14: Faktor på variabel x14: Andel av durationen: 1 1,3156 51,09 % 2 1 48,91 % Värde på variable x15: Faktor på variabel x15: Andel av durationen: 1 0,759988 28,68 % 2 0,724 30,87 % 3 0,799361 13,55 % 4 1 28,89 % 4.2. Värden och standardfel I tabell 14 visas dels betakoefficienterna som fås av regressionen och dels deras standardfel. Från ekvation 2.17. och 2.18. har vi för linjär loglinjär GLM att: log(μ i ) = β j x ij j μ i = e β jx ij j I delkapitel 2.7. la vi fram teorin som kopplar dessa ekvationer med multiplikationsprincipen. Vi har exempelvis att log (γ 0 ) är det förväntade log-värdet för referenscellen, som i tabell 13 kan läsas av till 4,6574. Detta motsvaras av ekvationerna att β 1 = 4,6574 och x ij = 1 för alla försäkringar. Anledningen till att varje grupperad variabel har en tom rad är att de försäkringar som har samma värde på variabeln som referenscellen inte har en betakoefficient (som om den fanns skulle vara lika med 0). Ett annat exempel är att log(γ x3,2 ) = 1 då referenscellen har värden som tillhör grupp 2 av variabeln x3. Ingen betakoefficient finns därför och raden för x3(2) är tom. Vi har även enligt tabellen att log(γ x3,1 ) = 0,5685. Detta motsvaras av ekvationerna att β 2 = 0,5685 och x ij = 1 för de försäkringar som tillhör grupp 1 av variabel x3. I tabellen skrivs även exponent värdet ut som beskriver faktorerna e β j i multiplikationsmodelleringen av μ i. 26
Nedan visas även standardfelen. Standardfelen uttryckt som procent av betakoefficienten är dock mer användbar. Ett högt standardfel uttryckt i procent av betakoefficienten betyder att det inte finns en statistisk signifikant skillnad mellan faktornivån och referenscellen. Standardfel på under 50% markeras som gröna, mellan 50%-75% som gråa och över 75% som röda. Detta är en fingervisning om hur höga standardfel som kan tillåtas i en modell. De höga standardfelen för kurvorna hos x1 beror på att vi styckat upp kurvan i så pass många delar. Jag vet dock att x1 ska vara växande (detta p.g.a. vad x1 representerar) och valde att ha många kurvor för att kunna följa risken bättre, så detta innebär egentligen inga problem. Både x12 och x15:s värde 3 har relativt höga standardfel men efter övervägning ansågs de vara tillräckligt låga för att tas med i riskmodellen. Tabell 14. Riskmodellens betakoefficineter och standardfel Standardfel som Variabel (värde/kurva) Betakoefficint Exp(Betakoefficinet) Standardfel procent av medelvärdet (%) Referenscell 4,6574 105,3631 0,11233 2,4 x3 (1) 0,5685 1,7655 0,10297 18,1 x3 (2) x4 (1) x4 (2) 0,3168 1,3727 0,1291 40,8 x6 (1) -0,3677 0,6923 0,10514 28,6 x6 (2) x6 (3) -0,2025 0,8167 0,09641 47,6 x12 (1) x12 (2) 0,1409 1,1514 0,09614 68,2 x11 (1) x11 (2) -0,2292 0,7952 0,09281 40,5 x15 (1) -0,2745 0,76 0,10775 39,3 x15 (2) -0,323 0,724 0,1055 32,7 x15 (3) -0,2239 0,7994 0,13614 60,8 x15 (4) x13 (1) -0,2191 0,8033 0,08705 39,7 x13 (2) x14 (1) 0,2743 1,3156 0,091 33,2 x14 (2) x8 (linjär kurva 1) -0,3557 0,7007 0,05227 14,7 x7 (linjär kurva 1) -0,1078 0,8978 0,03584 33,3 x1 (linjär kurva 1) 0,1753 1,1916 0,04434 25,3 x1 (linjär kurva 2) 0,0468 1,048 0,03865 82,5 x1 (linjär kurva 3) 0,0648 1,067 0,04726 72,9 x1 (linjär kurva 4) 0,2195 1,2454 0,1134 51,7 x1 (linjär kurva 5) 0,1249 1,133 0,06686 53,5 27
4.3. Chi-Squared test Som beskrivet i kapitel 2.9. kan vi undersöka om det finns en statistisk signifikant skillnad mellan två modeller genom att göra ett Chi-Square test mellan skillnaderna hos modellernas deviance. Ett gränsvärde på 5% för Chi squared sannolikheten brukar användas för att indikera att det finns en signifikant skillnad mellan modellerna. För att på ett strukturerat sätt undersöka om varje variabel leder till en statistiskt signifikant skillnad börjar vi med att skapa en modell med alla förutbestämda värden, alltså variablerna x2, x5, x9 och x10. Detta gör vi för det första för att Emblem inte gör några nya beräkningar när vi lägger till en förutbestämd variabel. För det andra finns det ingen poäng med att veta om dessa variabler bidrar med nån signifikant skillnad då det redan är bestämt att dessa variabler ska ingå i riskmodellen med valda faktornivåer. Efter det lägger vi till en variabel åt gången för att se om den ledde till en signifikant skillnad mellan modellerna. Tabell 15 visar resultatet av denna process. Tabell 15 visar att alla variabler förutom variabel x11 ger väldigt signifikanta chi-squared test. Variabel x11 har ett Chi-Square test på hela 14.2 %. Vi borde därmed överväga att ta bort denna variabel innan riskmodellen implementeras. Tabell 15. Deviance och Chi-Square test för riskmodeller Modell: Devinace: Chi-Squared: Förutbestämda värdena x2, x5, x9 och x10 409856153 Lagt till x1 403763359 0,00% Lagt till x1 och x3 401976878 0,00% Lagt till x1, x3 och x4 401687563 2,40% Lagt till x1, x3, x4 och x6 400921676 0,10% Lagt till x1, x3, x4, x6 och x7 399254028 0,00% Lagt till x1, x3, x4, x6, x7 och x8 397028216 0,00% Lagt till x1, x3, x4, x6, x7, x8 och x11 396912919 14,20% Lagt till x1, x3, x4, x6, x7, x8, x11 och x12 396247160 0,00% Lagt till x1, x3, x4, x6, x7, x8, x11, x12 och x13 395985763 2,70% Lagt till x1, x3, x4, x6, x7, x8, x11, x12, x13 och x14 395469666 0,20% Lagt till x1, x3, x4, x6, x7, x8, x11, x12, x13, x14 och x15 (Slutgiltiga riskmodellen) 394886320 1,00% 4.4. Korrelation Variablerna som tagits med i min riskmodell korrelerar enligt tabell 16. Det är svårt att säga hur starka korrelationer som kan tillåtas, vilket nämndes i teoridelen. Om det finns starka korrelationer bör de dock motiveras. De flesta variabler i min riskmodell har inga starka korrelationer. De finns dock ett par starka korrelationer som är markerade i tabellen. Dessa är: 28
x7 med x6 x11, x12, x13, x14 och x15 är parvis korrelerade med varandra Att det är stark korrelation mellan x7 och x6 beror på att värdet på x7 på ett naturligt sätt påverkar sannolikhetsfördelningen för x6. De beskriver dock två väldigt olika saker så de bör båda tas med i riskmodellen. En liknelse är grundskoleelevers längd och ålder, långa elever tenderar till att vara längre men informationen från dessa två variabler är långt ifrån identiska. Att x11 x15 är parvis korrelerade med varandra beror på att alla dessa variabler har med geografi att göra. Som vi såg i delkapitel 4.2. så är standardfelen inte allt för höga trots dessa korrelationer. Tabell 16. Korrelationer mellan variablerna Faktor x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x1 1 x2 0,08 1 x3 0,18 0,04 1 x4 0,1 0,02 0,04 1 x5 0,02 0,01 0,02 0,01 1 x6 0,13 0,01 0,08 0,18 0,02 1 x7 0,06 0,06 0,19 0,13 0,01 0,5 1 x8 0,03 0,03 0,11 0,03 0,02 0,03 0,06 1 x9 0,04 0,02 0,09 0,02 0,08 0,04 0,04 0,1 1 x10 0,13 0,01 0,09 0,03 0,02 0,01 0,11 0,07 0,08 1 x11 0,04 0,04 0,04 0,05 0,03 0,2 0,03 0,02 0,03 0,04 1 x12 0,05 0,02 0,02 0,03 0,02 0,1 0,03 0,03 0,03 0,01 0,68 1 x13 0,03 0,04 0,05 0,06 0,03 0,19 0,03 0,02 0,03 0,03 0,66 0,69 1 x14 0,03 0,04 0,05 0,06 0,02 0,21 0,03 0,02 0,03 0,03 0,71 0,77 0,65 1 x15 0,03 0,04 0,05 0,05 0,02 0,13 0,03 0,03 0,03 0,05 0,33 0,22 0,25 0,25 1 29
5. Analys av modellen För att jämföra min riskmodell med den nuvarande riskmodellen har tre olika typer av valideringar gjorts. Validering 1 jämför riskmodellerna för varje enskild variabel, vi undersöker hur väl riskmodellerna följer riskpremien för olika värden eller olika grupperingar av variabeln. Validering 2 aggregerar försäkringarna efter premieförändringen och undersöker riskration hos de olika modellerna. Slutligen testar validering 3 hur bra riskmodellerna är som helhet. Valideringen görs dels på träningdatan som modellen är optimerad efter men även efter valideringsdatan som inte var med då riskmodellen skapades. På så sätt kan vi se hur väl riskmodellen står sig på data som den inte har optimerats efter. 5.1 Validering 1 Validering 1 visar hur väl min riskmodell samt den nuvarande tariffen följer riskpremien för varje oberoende variabel, dels för variablerna i min modell men även för den variabel i den nuvarande tariffen som inte har tagits med i min riskmodell, här benämnd y1. Variabeln y1 har i min riskmodell ersatts av variablerna x11, x12, x13, x14 och x15, övriga variabler i nuvarande tariff finns med i min riskmodell. Variablerna med förutbestämda värden tas inte med i denna validering. För de variabler som givits faktorer enligt ett polynom delas värdena av variablerna upp i lämpliga grupper. Förtydligande av graferna: Risk_premie: Riskpremien Riskmodell_premie: Min riskmodell Tariff_premire: Nuvarande tariffs riskmodell Duration: Visar andelen duration som har ett visst värde på variabeln 5.1.1 Variabel x1 I valideringen av denna variabel har värdena för variabel x1 delats upp enligt tabell 17. Det syns tydligt i graf 5 och graf 6 att min riskmodell följer riskpremien bättre än nuvarande tariff. Främst för träningsdata men även för valideringsdata. Vi konstaterade redan i resultatdelen att denna variabel är väldigt viktig för riskmodellen. Att min riskmodell följer risken så pass mycket bättre än den nuvarande riskmodellen innebär därmed ett stort övertag för min riskmodell. Tabell 17. Beskrivning av grupper för validering av variabel x1 Grupp: Innehåller: Grupp 1 1-10 Grupp 2 11-20 Grupp 3 21-30 Grupp 4 31-40 Grupp 5 41-50 Grupp 6 51-60 Grupp 7 61-80 Grupp 8 81-100 Grupp 9 101-120 Grupp 10 121-190 Grupp 11 190-219 30
Graf 5. Validering för variabel x1 på träningsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 6. Validering för variabel x1 på valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 5.1.2 Variabel x2 Variabel x2 har förutbestämda värden och tas därför inte med i denna validering. 31
5.1.3 Variabel x3 Min riskmodell följer risken exakt för träningsdata enligt graf 7 (vilket är uppenbart då modellen har gjorts på detta sätt). I valideringsdata överskattar dock min modell risken grovt och den nuvarande tariffen ger då bättre resultat. Det är därför svårare att bedöma vilken modell som är den bättre. Klart är i alla fall att den gamla tariffens riskmodell förmodligen underskattar risken. En förklaring till att min riskmodell ger så dåligt resultat för valideringsdata är att grupp 1 innehåller lite duration och att valideringsdatan bara består av 20 % av den totala mängden data. Den låga durationen för grupp ett i valideringen leder till volatil riskpremie. Graf 7. Validering för variabel x3 på träningsdata och valderingsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 5.1.4 Variabel x4 Min riskmodell följer risken väldigt bra både för träningsdata och valideringsdata vilket dock även nuvarande tariffen gör. Denna nya variabel ger alltså ingen förbättring för min riskmodell jämfört med den nuvarande. Graf 8. Validering för variabel x4 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 5.1.5 Variabel x5 Variabel x5 har förutbestämda värden och tas därför inte med i denna validering. 32
5.1.6 Variabel x6 För variabel x6 har en gruppering gjorts enligt tabell 18. Vi ser i graf 9 att min riskmodell såklart följer risken väldigt bra för träningsdata. För valideringsdata följs risken ganska bra. I båda fallen följs risken bättre i min riskmodell än för nuvarande tariffs riskmodell. Det är dock ingen jättestor förbättring eftersom den nuvarande tariffens riskmodell följer riskpremien relativt väl. Denna nya variabel ger därmed bara en viss förbättring av prestanda för min riskmodell jämfört med den nuvarande. Tabell 18. Beskrivning av grupper för validering av variabel x6 Grupp: Innehåller: Grupp 1 1 Grupp 2 2 Grupp 3 3-4 Graf 9. Validering för variabel x6 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 5.1.7 Variabel x7 För variabel x7 har en gruppering gjorts enligt tabell 19. I resultatdelen nämndes att denna variabel var viktig för riskmodellen. Det syns tydligt i graf 10 och 11 att min riskmodell följer riskpremien bättre än nuvarande tariff. Främst för träningsdata men även för valideringsdata. Implementeringen av denna nya variabel innebär därmed en stor fördel för min riskmodell jämfört med den nuvarande. Tabell 19. Beskrivning av grupper för validering av variabel x7 Grupp: Innehåller: Grupp 1 0-5 Grupp 2 6-10 Grupp 3 11-15 Grupp 4 16-20 Grupp 5 21-25 Grupp 6 26-30 Grupp 7 31-35 Grupp 8 36-45 Grupp 9 46-177 33
Graf 10. Validering för variabel x7 på träningsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 11. Validering för variabel x7 på valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 5.1.8 Variabel x8 För variabel x8 har en gruppering enligt tabell 20 gjorts i valideringen. Det syns tydligt i graf 12 och 13 att min riskmodell följer riskpremien bättre än nuvarande tariff. Främst för träningsdata men även för valideringsdata. Riskpremien för valideringsdata är visserligen väldigt volatil men det går ändå att se en tydlig 34
minskning i riskpremie i och med högre värde på variabel x8. I resultatdelen bestämdes denna variabel som väldigt viktig. Att riskmodellen följer riskpremien bättre för denna variabel innebär därmed en stor förbättring för min riskmodell jämfört med den nuvarande. Tabell 20. Beskrivning av grupper för validering av variabel x8 Grupp: Innehåller: Grupp 1 0-35 Grupp 2 36-40 Grupp 3 41-45 Grupp 4 46-50 Grupp 5 51-55 Grupp 6 56-60 Grupp 7 61-65 Grupp 8 66-70 Grupp 9 71-75 Grupp 10 76-80 Grupp 11 81-84 Grupp 12 85-124 Graf 12. Validering för variabel x8 på träningsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 35
Graf 13. Validering för variabel x8 på valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 5.1.9 Variabel x9 Variabel x2 har förutbestämda värden och tas därför inte med i denna validering. 5.1.10 Variabel x10 Variabel x2 har förutbestämda värden och tas därför inte med i denna validering. 5.1.11 Variabel x11 - x15 samt variabel y1 Eftersom variabel x11 till x15 i min riskmodell ersatt variabel y1 i nuvarande tariffs riskmodell valideras dem tillsammans. Min riskmodell följer enligt graf 14 risken väldigt bra både för träningsdata och valideringsdata för variabel x11 vilket den nuvarande tariffen inte gör. 36
Graf 14. Validering för variabel x11 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Min riskmodell följer enligt graf 15 risken väldigt bra både för träningsdata och valideringsdata för variabel x12 vilket dock även den nuvarande tariffen gör. Graf 15. Validering för variabel x12 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. För variabel x13 följer enligt graf 16 min riskmodell risken betydligt bättre än nuvarande tariffs riskmodell på träningsdata, men skillnaden är obetydlig för valideringsdata. 37
Graf 16. Validering för variabel x13 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 17 visar att min riskmodell följer risken bra för träningsdata och ganska bra för valideringsdata för variabel 14. Den nuvarande tariffens riskmodell följer risken ungefär lika väl. Graf 17. Validering för variabel x14 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 18 visar att min riskmodell såklart följer risken väldigt bra för träningsdata, nuvarande tariff följer dock risken relativt bra den med. För valideringsdata följer varken min riskmodell eller nuvarande tariff riskpremien väl. 38
Graf 18. Validering för variabel x15 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Variabeln y1 finns som sagt inte med i min riskmodell men däremot i nuvarande tariffs riskmodell. Graf 19 visar dock att min riskmodell och nuvarande tariffs riskmodell följer risken ungefär lika bra för denna variabel. Durationen för grupp 4 är så pass låg så det spelar väldigt liten roll att nuvarande tariffs riskmodell följer risken bättre för denna grupp. För denna validering behövs såklart ingen uppdelning mellan valideringsdata och träningsdata göras. Graf 19. Validering för variabel y1 på all data. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 39
Sammanfattningsvis kan det konstateras att min riskmodell följer risken bättre för x11-x15 samtidigt som risken följs ungefär lika bra för variabel y1. Det är såklart svårt att säga hur stor förbättring i risknoggrannhet detta innebär för min riskmodell jämfört med den gamla tariffens riskmodell. Denna validering tyder dock på att min riskmodell lyckas ta hänsyn till risker som nuvarande riskmodell inte tar hänsyn till och samtidigt relativt väl kunna förutse risken hos variabel y1. 5.2. Validering 2 I denna validering så har vi premieförändringen på x-axeln, definierad som min riskmodell som procent av den nuvarande tariffen. Grupperingen 120% - 140% innehåller exempelvis de försäkringar som har tjugo till fyrtio procent högre premie med min riskmodell än med den nuvarande tariffens riskmodell. Riskration för min riskmodell visas i blått och ska i idealfallet vara ett för varje gruppering. Nuvarande tariffs riskratio visas i grönt och ska i idealfallet följa kurvan för premieförändringen (som visas i orange). Detta eftersom en ökning i premien med 20 % ska motiveras med att nuvarande tariffs riskmodell har en riskratio som är 20 % för hög. Denna validering är ett sätt att se hur bra min riskmodell är i sin helhet och om premieförändringarna är riskkorrekta. Graf 20 visar validering 2 för träningsdata och har ett önskvärt utseende. Riskration för min modell är nära ett medan riskration för nuvarande tariffs riskmodell följer linjen för premieförändringen väl. Undantaget är för de högsta premieökningarna, dessa har dock så pass låg duration så ett volatilt resultat är väntat. Graf 21 visar validering 2 för valideringsdata och har ett mer volatilt utseende. Det är dock värt att komma ihåg att vi här bara har 20% av data jämfört med träningsdata så mer volatilitet är väntat. Överlag har dock grafen ett utseende som är ganska nära det önskvärda. Vi kan slutligen konstatera att min riskmodell innebär väldigt stora premieförändringar. Graf 20. Validering efter premieförändromgar på träningsdata. Orange linje anger premieförändringen. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 40
Graf 21. Validering efter premieförändromgar på valideringsdata. Orange linje anger premieförändringen. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 5.3. Validering 3 Validering 3 är så kallade GINI grafer. På x-axeln visas kumulativa andelen av durationen från högst premie till lägst premie och på y-axeln visas den kumulativa andelen av skadekostnad. Ett x-värde av 20% och y-värde av 40% betyder att de 20% försäkringar med högst premie står för 40% av skadekostnaden. En helt slumpmässig modell ska ha en linjär kurva med lutning 1, det symboliserar fallet då de X % försäkringar med högst premie står för X % av skadekostnaden. Ju längre ut från denna linjära kurva som en riskmodell är, ju bättre är den enligt denna validering. Vi kan beräkna GINI-koefficienten för en riskmodell som arean mellan riskmodellen och den linjära kurvan dividerat med arean mellan den linjära kurvan och x-axeln. GINI-koefficienten har en värdemängd mellan 0 och 1 och ett högre värde betyder en bättre modell. Vi ser att min riskmodell, markerat med blått, är bättre både för träningsdata och valideringsdata. Skillnaden är dock märkbart mindre för valideringsdata. Enligt GINI-koefficienterna är min riskmodell klart bättre även om skillnaderna är mindre för valideringsdata. GINI-koefficienterna ges av tabell 21. Tabell 21. GINI - koefficienter Data Modell GINI-koefficient Träningsdata Nuvarande tariffs riskmodell 0,2428 Träningsdata Min riskmodell 0,3405 Valideringsdata Nuvarande tariffs riskmodell 0,2200 Valideringsdata Min riskmodell 0,2677 41