Release party: Non-life Insurance Pricing with GLMs

Relevanta dokument

Prissättning för skadeförsäkring med postnummer som kredibilitetsfaktor

Statistiska metoder för säkerhetsanalys

Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet Stockholm Sverige.

modell Finansiell statistik, vt-05 Modeller F5 Diskreta variabler beskriva/analysera data Kursens mål verktyg strukturera omvärlden formellt

Föreläsning 12: Regression

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 12: Linjär regression

Inference in multiplicative pricing

Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet Stockholm Sverige.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

4 Diskret stokastisk variabel

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Prissättning av delkaskoförsäkring - en metodjämförelse

Tariffanalys av fritidshusförsäkring

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Effekter av införande av könsneutral prissättning - en fallstudie

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Föreläsning 6, Matematisk statistik Π + E

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 7: Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Statistiska metoder för säkerhetsanalys

Föreläsning 7: Punktskattningar

SF1901 Sannolikhetsteori och statistik I

F13 Regression och problemlösning

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Statistiska metoder för säkerhetsanalys

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

AMatematiska institutionen avd matematisk statistik

Lärmål Sannolikhet, statistik och risk 2015

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen MVE302 Sannolikhet och statistik

TMS136. Föreläsning 4

Matematisk statistik för D, I, Π och Fysiker

Tentamen MVE302 Sannolikhet och statistik

Separation av IBNYR och IBNER i reservsättningen för sjukoch olycksfallsskador

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Stokastiska vektorer och multivariat normalfördelning

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Föreläsning 4: Konfidensintervall (forts.)

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE301 Sannolikhet, statistik och risk

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Några extra övningsuppgifter i Statistisk teori

Tabell 5.1: Uppdelning av avsättning för oreglerade skador.

Föreläsning 6, FMSF45 Linjärkombinationer

Föreläsning 12: Repetition

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

9. Konfidensintervall vid normalfördelning

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 7: Punktskattningar

MVE051/MSG Föreläsning 7

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Våra vanligaste fördelningar

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

0 om x < 0, F X (x) = c x. 1 om x 2.

Problemdel 1: Uppgift 1

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Statistiska metoder för säkerhetsanalys

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Kurser inom profilen Teknisk matematik (Y)

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

MVE051/MSG Föreläsning 14

Tentamen MVE301 Sannolikhet, statistik och risk

Säkerhetsreserv i skadeförsäkring

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik för D, I, Π och Fysiker

Statistisk analys av komplexa data

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Kap 2. Sannolikhetsteorins grunder

TMS136. Föreläsning 7

Exempel på tentamensuppgifter

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Negativ binomialfördelning och kvasipoisson

Statistiska metoder för säkerhetsanalys

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

En applicering av generaliserade linjära modeller på interndata för operativa risker.

Formler och tabeller till kursen MSG830

SF1901: Medelfel, felfortplantning

SF1901 Sannolikhetsteori och statistik I

Transkript:

Release party: Non-life Insurance Pricing with GLMs Esbjörn Ohlsson & Björn Johansson Svenska Aktuarieföreningen 15 juni 2010 1 Brandstod enligt 1734 års lag Ersätter för bonden nödige hus samt säd, foder och boskap, ej annat lösöre Af alle hemman i häradet skall brandstod gifvas efter hemmantalet (premie i efterhand) Således premie i proportion till risken via variabeln hemmantal (mantal) en storleksvariabel som användes vid beskattning 2 1

Brandstodens prissättning Premie i proportion till förväntad kostnad Hjälpvariabel (hemmantal) används när kostnaden är okänd 3 Grundprincip prissättning Vi bortser här från administrationskostnader, vinst mm Skälig premie = E(kostnad) Försäkring utjämnar risk (osäkerhet, varians) inte väntevärden Offentlig försäkring kan av politiska skäl fungera annorlunda Om oberoende risker: försäkringsbolagets kostnad relativt sett nära Summa(premier) 4 2

Marknaden avreglerades på 90-talet Fri konkurrens så här funkar det Skälig premie 1500 kr Skälig premie 2500 kr 5 2000 kr 2000 kr 2000 kr 2000 kr 6 Annat bolag 3

1500 kr 2500 kr 2000 kr 2000 kr 7 Annat bolag 1500 kr 2500 kr 2000 kr 2000 kr 8 Annat bolag 4

1500 kr 2500 kr 2000 kr 2000 kr 9 Annat bolag Hur gör man? Skadekostnad per försäkring = riskpremie Riskpremie = Skadefrekvens Medelskada R = S M I princip: skatta den enskilda försäkringens R I praktiken: gruppera försäkringarna efter några variabler x 1, x 2, x 3, (jämför hemmantal) 10 5

Tänkbara variabler, fallande acceptans Objektens skillnader (husstorlek, bilmodell) Kundens beteende (brandvarnare, larm, sprinklers) Andras beteende (farligt bostadsområde, dålig bilsäkerhet) Indirekta beteendevariabler som kunden inte kan styra (kön, ålder) Förmodad acceptans fallande skada 11 Exempel: observerad skadefrekvens lätt lastbil, promille (verkliga data) Skadefrekvens Nytt fordon Gammal Totalt Låg körsträcka 33 25 26 Hög körsträcka 67 49 61 Totalt 51 28 2 ggr så hög risk hög/låg körsträcka oberoende av ålder 1.3 ggr så hög risk nytt/gammalt oberoende av körsträcka 12 6

Multiplikativ tariff Exemplet: tillräckligt med data för att skatta R ij direkt I praktiken många variabler och utjämning behövs Multiplikativ modell R ij = a i b j Färre parametrar ger säkrare skattning Additiv modell R ij = a i + b j passar sällan 13 Sverige 50- och 60-tal Möte med aktuarieföreningen 1954: Bertil Almér, Fylgia, visade att multiplikativ modell passade väl för motorförsäkring 1 feb 1966: ny gemensam motortariff baserad på ADBprogram för multiplikativ modell av Gunnar Andreasson 1970 modifierat tillsammans med M-L Wennander Källor: Jung (1968), Ajne (1982) 14 7

Jan Jung, ASTIN Colloquium 1966 Arnhem + ASTIN Bulletin 1968 Metod för iterativ skattning av parametrar i multiplikativ modell Baseras på ML-skattning av Poissonfördelning Metoden föreslås även för icke-poisson-fallet ( heuristic approach ) Björn Ajne (1982), ASTIN Bulletin Simuleringsstudie för att mäta standardavvikelsen i skattningarna Tackar E. Elvers och P. Lindstroem för valuable discussions 15 Internationellt Bailey & Simon (1960) studerar multiplikativ modell, ASTIN Bulletin Bailey (1963) först med Jungs metod (the method of marginal totals), Proceedings of CAS 16 8

Generaliserade linjära modeller GLM 1972 introducerar Nelder & Wedderburn GLM 1977 McCullagh-Nelder klassisk bok om GLM ett försäkringsexempel, men ej multiplikativ modell 1984 Coutts PhD thesis City University om motortariff med GLM 1992 Brockman & Wright: praktiskt introduktion till GLM inom motorförsäkring, med GLIM-kod 1998 Brockman m fl på EMB lanserar Emblem 2010 GLM används inom sakförsäkring över hela (?) världen GLM börjar användas på försäkringsbolagen 17 GLM vs linjär regression (1) Tariffanalys är som sagt ett regressionsproblem: hur beror R på x 1, x 2, Men dess additiva/linjära struktur för väntevärdet av R passar ej försäkring GLM generaliserar: en funktion av väntevärdet ska vara linjär Speciellt ingår multiplikativ modell 18 9

GLM vs linjär regression (2) Linjär regression antar normalfördelning Försäkringsdata: Poissonfördelat antal skador Positiv kontinuerlig fördelning för skadebeloppen, t ex Gamma GLM tillåter stor familj fördelningar, inkl Poisson och Gamma I praktiken bara relationen väntevärde-varians som är viktig, inte exakt fördelning 19 Separat analys av skadefrekvens och medelskada fick sitt genombrott med introduktionen av GLM 1,4 1,2 Skadefrekvens Medelskada 1,0 Faktor 0,8 0,6 0,4 0,2 0,0-1000 1000-1500 1500-2000 2000-2500 2500- Körsträcka (km/år) 20 10

Vad har GLM mer tillfört? Tillgång till allmän, vedertagen statistisk teori och metodik Konfidensintervall Residualer Test Möjlighet att använda standardprogram (SAS, GLIM, R) Med statistisk modell i botten finns god terräng för metodutveckling God terräng 21 Exempel: Bilmärkesklassning Data: Försäkrings- och skadehistorik för personbil Variabler: Bilmodell (ca 3800 olika) Hjälpvariabler per bilmodell (bilmärke, vikt, vikt/effekt, ) Alla övriga tariffvariabler: Ägarålder, körsträcka, geografisk zon Problem: Skatta premiefaktorer för bilmodell 22 11

Analyser som bilmärkesklassningen kräver avancerade statistiska modeller Tre grundläggande typer av variabler: Kategoriska, med få klasser (t ex körsträckeklass) Multiklass, kategoriska med många klasser (t ex bilmodell) Kontinuerliga (t ex fordonsvikt) Samspelande variabler ger upphov till ytterligare typer: Kategorisk / kontinuerlig (t ex kön / ägarålder) Kontinuerlig / kontinuerlig (t ex fordonsålder / fordonsvikt) Behovet att modellera alla typer av variabler på ett bra sätt har lett till utvidgningar av GLM: GLMM, HGLM, GAM 23 Analys av nyckeltal X i Antal skador Skadekostnad Skadekostnad w i Antal försäkringsår Antal skador Antal försäkringsår Y i = X i / w i Skadefrekvens Medelskada Riskpremie 24 12

Standard-GLM inom sakförsäkring Modell för väntevärdet µ i = E[Y i ]: η i = g(µ i ) η i = u 1 (x 1i ) + u 2 (x 2i ) + u 3 (x 3i,x 4i ) + u k (x ki )= β k1 f k1 (x ki ) + β k2 f k2 (x ki ) + Multiplikativ modell: g(µ) = log µ g 1 (η) = exp{η} µ i = exp{u 1 (x 1i )} exp{u 2 (x 2i )} exp{u 3 (x 3i,x 4i )} + Exempel: x 1i = körsträcka (låg/hög) x 2i = fordonsålder (ny/gammal) Låg körsträcka, gammalt fordon: η i = β 11 + β 22 µ i = exp{β 11 + β 22 } = exp{β 11 } exp{ β 22 }= γ 11 γ 22 25 Deviansen mäter anpassningen till data Variansantagande: V(Y i ) = φ v(µ i ) / w i Deviansen D = Σ i w i d(y i,µ i ) v(µ) = 1 d(y,µ) = (y µ) 2 ( normal ) v(µ) = µ d(y,µ) = 2 (y log y y log µ y + µ) ( Poisson ) v(µ) = µ 2 d(y,µ) = 2 (y/µ 1 log (y/µ)) ( gamma ) 26 13

Deviansen d(1,µ) 0,05 normal Poisson gamma 0,04 0,03 0,02 0,01 0,00 0,8 0,9 1 1,1 1,2 27 Standard-GLM inom sakförsäkring Variansantaganden: Skadefrekvens: v(µ) = µ Medelskada: v(µ) = µ 2 Finn β-parametrar som minimerar deviansen: D = Σ i w i d(y i,µ i ) µ i = g 1 (η i ) = exp{η i } η i = u 1 (x 1i ) + u 2 (x 2i ) + u 3 (x 3i,x 4i ) + u k (x ki )= β k1 f k1 (x ki ) + β k2 f k2 (x ki ) + 28 14

Multiklassvariabler: GLM med stokastiska effekter Kategorisk: u k (x ki )= β k1 f k1 (x ki ) + β k2 f k2 (x ki ) + Multiklass: u k (x ki )= Z k1 f k1 (x ki ) + Z k2 f k2 (x ki ) +, där Z k1,z k2, är stokastiska variabler Ohlsson-Johansson: Z 12,Z k2, skattas m h a kredibilitetsteori Inspirationskällor: Svenska aktuarieidéer, t ex Campbell (1986) Kredibilitetsteori (Bühlmann-Straub, Jewells hierarkiska modell) HGLM (Lee & Nelder, 1996) 29 Bilmärkesklassningen: Kombinera tekniska data med historik för enskilda modeller Bilmodellfaktor = (faktor för vikt) (faktor för vikt/effekt) (faktorer för andra tekniska variabler) (faktor för bilmärke) (faktor för bilmodell) Stort dataunderlag: Skadehistoriken väger tyngst Litet dataunderlag: Tekniska data väger tyngst 30 15

De tekniska variablerna minskar behovet av individuell skadehistorik Antal försäkringsår 1 200 000 1 000 000 800 000 600 000 400 000 200 000 0 Med Utan <0.10 0.40 0.80 1.20 1.60 2.00 2.40 2.80 3.20 3.60 Faktor för bilmodell 31 Generaliserade additiva modeller (GAM) används för att modellera kontinuerliga variabler Modell för väntevärdet: η i = g(µ i ) η i = u 1 (x 1i ) + u 2 (x 2i ) + u 3 (x 3i ) + Antag att x 1i är kontinuerlig u 1 (x 1i )= h(x 1i ) u 2 (x 2i )= β 21 f 21 (x 2i ) + β 22 f 22 (x 2i ) + h är en godtycklig två gånger deriverbar funktion Minimera den penaliserade deviansen : Δ = Σ i w i d(y i,µ i ) + λ (h''(x)) 2 dx 32 16

Bland alla interpolerande två gånger deriverbara funktioner h, minimeras (h''(x)) 2 dx av en kubisk spline 4,00 3,00 2,00 1,00 0,00 Punkter Spline Polynom -1,00-0,1 0,3 0,7 1,1 1,5 1,9 2,3 2,7 3,1 33 Varje kubisk spline är en linjärkombination av kubiska B-splines 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 0 0,2 0,4 0,6 0,8 1 1,2 1,4 34 17

Modellen går att parametrisera Funktionerna u k (x) är linjära: u 1 (x 1i )= h(x 1i ) = β 11 B 11 (x 1i ) + β 12 B 12 (x 1i ) + u 3 (x 3i )= β 31 f 31 (x 3i ) + β 32 f 32 (x 3i ) + (h''(x)) 2 dx = Σ m Σ n β km β kn B km ''(x) B kn ''(x) dx Finn β-parametrar som minimerar den penaliserade deviansen : Δ = Σ i w i d(y i,µ i ) + λ (h''(x)) 2 dx Det finns ett flertal metoder för att skatta smoothingparametern λ 35 Lågt värde på smoothing-parametern 2,20 2,00 1,80 1,60 Faktor 1,40 1,20 1,00 0,80 0,60 0,40 700 1000 1300 1600 1900 2200 Fordonsvikt 36 18

Högt värde på smoothing-parametern 2,20 2,00 1,80 1,60 Faktor 1,40 1,20 1,00 0,80 0,60 0,40 700 1000 1300 1600 1900 2200 Fordonsvikt 37 Skattad smoothing-parameter 2,20 2,00 1,80 1,60 Faktor 1,40 1,20 1,00 0,80 0,60 0,40 700 1000 1300 1600 1900 2200 Fordonsvikt 38 19

Traditionell metod 2,20 2,00 1,80 1,60 Faktor 1,40 1,20 1,00 0,80 0,60 0,40 700 1000 1300 1600 1900 2200 Fordonsvikt 39 En kontinuerlig kurva ger bättre riskanpassning 2,20 2,00 1,80 1,60 Faktor 1,40 1,20 1,00 0,80 0,60 0,40 700 1000 1300 1600 1900 2200 Fordonsvikt 40 20

Koppling mellan kategoriska och kontinuerliga variabler 90 80 Kvinnor Män Skadefrekvens (promille) 70 60 50 40 30 20 10 0 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 Försäkringstagarens ålder 75 78 81 84 87 90 93 96 99 41 Koppling mellan två kontinuerliga variabler Thin plate splines 42 21

43 22