Inference in multiplicative pricing



Relevanta dokument
Statistik och epidemiologi T5

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

Uppgift 1. Deskripitiv statistik. Lön

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Hantering av urvalsbias i KPI

Dekomponering av löneskillnader

Lära tillsammans som grund för utveckling erfarenheter från förskolan. Sunne 3-4 februari 2010 Katina Thelin

Tentamen i Matematisk statistik Kurskod S0001M

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Samverkande Expertnät

Från sömnlös till utsövd

TAIU07 Matematiska beräkningar med Matlab

Avd. Matematisk statistik

Under min praktik som lärarstuderande

INDUKTION OCH DEDUKTION

miljö och samhällsbyggnad Till dig som ska börja ditt sista år på en utbildning inom miljö eller samhällsbyggnad

Resultatet läggs in i ladok senast 13 juni 2014.

BEDÖMNINGSSTÖD. till TUMMEN UPP! matte inför betygssättningen i årskurs 6

MATEMATIKENS SPRÅK. Syftet med denna övning är att med hjälp av logik lära oss att uttrycka matematik mer exakt,

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Effektivare avel för jaktegenskaper hos engelsk setter

Tentaupplägg denna gång

Senaste revideringen av kapitlet gjordes , efter att ett fel upptäckts.

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Lösningar till SPSS-övning: Analytisk statistik

Global nedvärdering av sig själv, andra och livet.

Instruktioner för dig som ska söka till Mattekollo 2016

Konsekvenser av indelningar i områden för redovisning av försök i svensk sortprovning. Johannes Forkman, Saeid Amiri and Dietrich von Rosen

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

8-1 Formler och uttryck. Namn:.

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Valet 2010 på facebook!

Etapp 2 trafikljusmodellen skadebolag och försäkringsrisker inkluderas i modellen från och med 2007

Föreläsning 12: Repetition

Planeringsspelets mysterier, del 1

ANDREAS REJBRAND Matematik Numeriska serier. Andreas Rejbrand, april /29

Datorlaboration 2 Konfidensintervall & hypotesprövning

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Att göra investeringskalkyler med hjälp av

Tentamen i Matematisk statistik Kurskod S0001M

K3 Om andra ordningens predikatlogik

Working Paper Series

PISA (Programme for International

Lönediskriminering praxis bland män?

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

Nina Unkuri ställer sitt brev till Avelsstiftelsen ( SIFavel ) och det är SIFavels anställda avelsledare Heimir Gunnarsson som svarar:

FÖRELÄSNING 1 ANALYS MN1 DISTANS HT06

Metod- PM: Påverkan på Sveriges apotek efter privatiseringen

Ledarskap Utbildning & bildning Matematik

S2013/9137/SF. Socialdepartementet. Regelförenklingar inom pensionsförmåner

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Ekvationssystem - Övningar

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext.

Kalibreringsrapport. Utländska doktorander

De tysta vittnena. Verklighetsbakgrunden

Uppgift 2 Betrakta vädret under en följd av dagar som en Markovkedja med de enda möjliga tillstånden. 0 = solig dag och 1 = regnig dag

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

24 oktober 2007 kl. 9 14

Permutationer med paritet

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 23 februari 2004, klockan

För att kunna genomföra en diskussion bör ämnet och syftet för diskussionen vara kända för eleven.

Lennart Carleson. KTH och Uppsala universitet

Hur kör vi egentligen en undersökning om trafikanters beteende och nya hastighetsgränser utifrån en bussförares perspektiv?

KREATIVA BÖNESÄTT. en praktisk hjälp till dig som är ledare! Initiativtagare till materialet: Maria Melin

Övning 2: I cellerna B19 och F26 ska du beräkna den totala ytan för respektive hus. I cell C28 den totala ytan, för båda husen.

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Gemensamma riktlinjer fo r genomfo rande av Examensarbete Hing Elkraftteknik

Programmeringsuppgifter 1

Tomträttsindexet i KPI: förslag om ny beräkningsmetod

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Topboy SKOLMATERIAL. Men hur fan ska man orka byta liv? Amputera bort allt. Och vad ska jag göra istället? Jag är ju den jag är.

Maxcertifikat. Istället. för aktier. En produkt från Handelsbanken Capital Markets

Medelpensioneringsålder och utträdesålder

Känslighetsanalys av NFV Beräkningskänslighet Parameterkänslighet

Trivsel på jobbet en åldersfråga? Jobbhälsobarometern, Delrapport 2012:2, Sveriges Företagshälsor

9. Beräkna volymen av det område som begränsas av planet z = 1 och paraboloiden z = 5 x 2 y 2.

Summor av slumpvariabler

Survey&Report steg för steg: Skapa rapport

Fråga om en socialnämnd fullgjort sin utredningsskyldighet i ett ärende om upphörande av vård enligt LVU.

Repetitionsuppgifter i Matematik inför Basår. Matematiska institutionen Linköpings universitet 2014

Ammoniak i flygaska Vägledning för betongtillverkare

Figur 1. Skärmbild med markerade steg i videon. Diagram och tabell som visar positionerna som funktion av tiden.

Dnr: Statliga pensioner trender och tendenser

Steg 4. Lika arbeten. 10 Diskrimineringslagen

Facit till Några extra uppgifter inför tentan Matematik Baskurs. x 2 x

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Abstrakt algebra för gymnasister

Forskningsläget betr värdet av restidsvinster för privatresor i Sverige

KLOKA FRÅGOR OM ÄLDRES LÄKEMEDELSBEHANDLING ATT STÄLLA I SJUKVÅRDEN

Det finns mycket mer än socialförsäkringarna

Valet 2010 på facebook!

Penningpolitiken och Riksbankens kommunikation

Hur definieras ett jämställt samhälle? (vad krävs för att nå dit? På vilket sätt har vi ett jämställt/ojämställt samhälle?)

Trygghet 9 Empati 6 Hänsyn 3 Bemötande 2 Tolerans 2 Förhållningssätt 2 Omsorg 2 Respekt 2 Kamrat 1 Ärlighet 1 Omtanke 1 Skyldighet 1 Rättighet 1

R AKNE OVNING VECKA 1 David Heintz, 31 oktober 2002

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Variansanalys med SPSS Kimmo Sorjonen ( )

Transkript:

Inference in multiplicative pricing Tariffanalysis med svaga antaganden Föredrag i aktuarieföreningen 2015-11-26 Stig Rosenlund Metoderna är implementerade i programspråket Rapp. För att hitta Rapp på internet, Google-sök free actuarial language. Då visas Rapp först. Det är nu i en reviewprocess för att bli ett Open-Source-program. Om mig: Fil dr i matematisk statistik vid Göteborgs Universitet 1983. Aktuarie vid Länsförsäkringar 1983-2010. Efter pension 2010 har jag återupptagit forskningen, nu med inriktning på försäkringsmatematik. Hittills har jag under 2010-talet fått tre uppsatser publicerade - två i tariffanalys och en i reservsättning.

2 Jag skall redogöra för innehållet i Rosenlund, S. (2014). Inference in multiplicative pricing. Scandinavian Actuarial Journal 2014(8), 690-713. Den är Open Access och kan alltså laddas ner gratis. Ni vet väl alla vad multiplikativ tariffanalysis är, men kortfattat: Modellen är att riskpremien är en produkt av en basfaktor och en faktor per argument bestämd av klassen det försäkrade objektet tillhör. Därutöver kan olika speciella antaganden göras. Ett antal års data över skador och försäkringar används.

3 Modeller och metoder for punktskattningar av faktorer MMT Method of Marginal Totals Modell: Riskpremien är multiplikativ i argumenten alltså bara den basala modellen. Metod: Lös ett ekvationssystem genom att föreskriva att summan av multiplikativt beräkade skadekostnadsskattningar för varje argumentklass varje marginal är lika med den empiriska skadekostnaden för klassen. Standard GLM Modell: Skadeantalen är Poissonfördelade. Skadebeloppen är Γ-fördelade med konstant CV (coefficient of variation). Vidare några lämpliga obe-

4 roendeantaganden. Metod: Lös ML-(maximum likelihood) ekvationerna som följer ur modellen. Tweedie för riskpremie Modell: Skadekostnaderna har variansfunktion v(µ) = µ p med p [1,2]. Metod: Lös ML-ekvationerna som följer ur modellen. Jag anser att jag kunnat visa i artikeln att den tredje metoden inte skall användas, och nämner den därför inte mer.

5 Variansskattningsmetoder för tariffanalys MVW MMT Variance estimates under Weak assumptions Modell: Skadefrekvens och medelskada är multiplikativa i argumenten. Skadekostnaden i en tariffcell är fördelad Compound Poisson. Metod: GLM Poisson log link för skadeantal används för skadefrekvens. För medelskada tar jag de skattade CV för univariata medelskador som startvärden. Dessa justeras uppåt med faktorer som liknar kvoterna mellan variansskattningar från GLM för skadefrekvens och enkla univariata variansskattningar för skadefrekvens.

6 Standard GLM Modell: Som förut. Metod: Variansskattningar som följer ur modellen. Mina huvudslutsatser är följande. 1. Med tillräckligt många skador eller tillräckligt många argument är MMT att föredra framför Standard GLM i tariffanalys. 2. Konfidensintervall enligt MVW är mestadels att föredra framför dem enligt Standard GLM. För att visa slutsatsen 1 behövde jag definiera att föredra med ett lämpligt goodness-of-fit-mått för en metod. Jag föreslog den expone-

7 ringsvägda medelkvadratavvikelsen av skattad riskpremie från sann riskpremie, summerade över alla tariffceller. Alltså, låt u vara index för en tariffcell {1,2,...,n} och e u τ u τ (X) u = exponering i cell u = sann riskpremie för cell u = skattning av τ u med en metod X och definiera the goodness-of-fit-måttet(eller badness-of-fit-måttet, eftersom större värden betyder sämre metod) M(X,{e u }) = E [ n u=1 e u ( τ (X) u τ u ) 2 ]/ n u=1 e u

8 Jag inför nu ett volymmått c sådant att e u = ce 0 u för någon lämpligt normerad följd {e 0 u}, t ex exponeringen under en månad. Det är intressant att se hur goodness-of-fit-måttet för X uppför sig för olika värden av c, jämfört med någon annan metod. Alltså definierade jag M M (c) = M(MMT,{ce 0 u}) M S (c) = M(Standard GLM,{ce 0 u}) Tag en stokastisk variabel Z med väntevärde µ som vi vill skall vara nära ett tal a. Det gäller

9 eller i ord E[(Z a) 2 ] = Var[Z]+(a µ) 2 Mean square error = Variance + bias 2 Man kan generalisera detta till samlingen av alla tariffceller. Jag och andra författare har funnit indikationer på att normalt, vagt uttryckt, så har Standard GLM lägre varians än MMT. Båda metoderna har bias. Jag gissade i min artikel att varianserna, lämpligt definierade för samlingen av alla tariffceller, är asymptotiskt på formen k 1 /c för MMT och k 2 /c för Standard GLM, där k 1 > k 2. Med asymptotiskt menar jag både c 0 och c, möjligen med ett par (k 1,k 2 ) för c 0 och ett annat för c.

10 Gissningen styrktes av mina simuleringar. Det betyder att när c < någon konstant, så är Standard GLM att föredra framför MMT. För metodernas bias behövde jag skilja mellan A. De sanna riskpremierna är exakt multiplikativa. B. De sanna riskpremierna avviker från exakt multiplikativitet. In fall A har båda metoderna asymptotisk 0-bias då c. Om mingissningärkorrekt,såärstandardglmattföredrabådedåc 0 och då c. Å andra sidan, om B gäller, vilket (nästan) alltid är fallet i verkliga tillämpningar med mer än ett argument, så kommer det asymp-

11 totiska goodness-of-fit-måttet då c för de båda metoderna att avgöras av deras asymptotiska bias, som nu är positiv. Definitionen av asymptotisk bias är gränsvärdet av goodness-of-fit-måttet då c. Jag gissade att i fall B är MMT s asymptotiska bias typiskt mindre än Standard GLM s. Den gissningen styrktes också av mina simuleringar. Dessa bias kunde beräknas exakt från fall då alla observerade riskpremier var exakt lika med deras förväntade värden. Således, eftersom varianserna 0, fann jag för mina fall lim M M(c) < lim M S(c) c c Den olikheten är dock inte universellt sann. Jag har gjort kalkyler för det enkla 2 2-fallet (två argument med två klasser var). I några fall

12 fann jag motsatta olikheten. De fallen hade multiplikativ medelskada, vilket ger fördel för Standard GLM, och icke multiplikativ skadefrekvens. Bortsett från dessa undantag, så bör det normalt finnas ett indifferensvärde c 0 för c sådant att M M (c) > M S (c) for c < c 0 M M (c 0 ) = M S (c 0 ) M M (c) < M S (c) for c > c 0 Standard GLM är att föredra. Standard GLM och MMT är lika. MMT är att föredra. Med andra ord, för tillräckligt liten exponering med få skador är Standard GLM att föredra. För tillräckligt stor exponering med många skador är MMT att föredra. Det är första delen av min slutsats 1.

13 Den andra delen är att tillräckligt många argument gör att MMT är att föredra. Det visade jag i mina simuleringar, där jag betraktade en följd av fall där fler och fler argument gjordes icke-multiplikativa. Då minskade indifferensvärdet c 0 mer och mer. Sättet jag gjorde argumenten icke-multiplikativa var att låta deras faktorstegar bero av något annat argument. Ett annat sätt att konstruera icke-multiplikativa riskpremier är att använda en blandning riskpremie = α(multiplikativ riskpremie) + (1 α)konstant. Jag har studerat sådana fall i opublicerad forskning. Jag såg samma fenomen med ett indifferensvärde c 0 sådant att Standard GLM är att

14 föredra under det och MMT är att föredra över det. Innan min artikel publicerades förekom en debatt bland aktuarier och på universitet om min hypotes. En student tilldelades som examensarbete att studera den. Det gjordes med ett fall som blandningen ovan. Hon fann att Standard GLM var att föredra. Min tolkning av hennes studie är att hon hade satt exponeringsfaktorn c under c 0 och att ett större c skulle ha givit fördel åt MMT. Metoden MVW är en vidareutveckling av 1984 års LF-WASA-metod för variansskattningar, vilken studerades i examensarbetet. En illustration av slutsatsen 1 följer.

MSE Medelkvadratfel (Mean square error, MSE) beroende av exponering för MMT och Standard GLM MSE = bias² + varians Varians -> 0 då exponering -> oo 15 MMT: större varians, mindre bias Standard GLM Ju fler argument desto lägre brytpunkt Brytpunkt då MMT blir bättre S-GLM bias² MMT bias² c 0 Exponering

16 För att visa slutsatsen 2 simulerade jag några fall liknande dem för att visa slutsatsen 1. Men jag gjorde dem exakt multiplikativa i skadefrekvens och medelskada för att renodla jämförelsen. Jag studerade 95-%-konfidensintervall på GLM form, dvs med bredd 0 för en basklass med faktor 1. Detta för att möjliggöra en jämförelse mellan metoderna. Basklass 1 användes. Annars ger jag normalt i praktiken konfidensintervall med alla bredder positiva. Artikeln förklarar hur man tolkar dem. Standard GLMs variansskattningar med tillhörande konfidensintervall beräknades med Pearsons χ²-baserade skattning av dispersionparametern, med användning av individuella skador. Den är bäst. Formlerna för MVW

17 ges sist i artikeln. Sannolikheten att ett konfidensintervall skall täcka det sanna värdet bör vara nära 0.95. Intervallbredderna bör vara små. Dessa mål är i konflikt. Jag formulerade ingen exakt regel för att väga ihop målen, utan såg i stället på helhetsbilden av täckningssannolikheter för olika klasser och av intervallbredderna. För fallen med konstant skadebelopp-cv fann jag Standard GLM vara att föredra genom mindre intervallbredder med täckningssannolikhet 0.95. Det hade jag väntat mig, men att det gällde även för andra skadebeloppsfördelningar än Γ var kanske ett nytt resultat, fastän det har förmodats tidigare.

18 När jag avvek från konstant CV visade sig MVW vara bäst. Standard GLM gav för hög täckningssannolikhet åt vissa klasser och för låg för andra, medan MVW hade ungefär täckningssannolikhet 0.95 för alla klasser. Detta hade priset av något större intervallbredder igenomsnitt, med en faktor ungefär 1.05. Att ha starkare antaganden ger mindre bredder, vilket är bra om antagandena är sanna, men mindre bra om de är falska. Eftersom antagandet om konstant CV är mycket starkt, dvs orealistiskt, visar detta min slutsats 2. Finns det inga nackdelar med MVW (givet att MMT är att föredra för punktskattningar)? Det finns det. För det första, om exponeringen är

19 extremt icke-multiplikativ så kan vi få några fel konfidensintervall. För det andra, MVW är beroende av att det finns tillräckligt många skador i en argumentklass för att ge ett bra konfidensintervall för den klassen. Klasser med få skador får normalt stora intervall i alla fall, men det kan hända att en intervallbredd är missvisande liten. Det är en form av överparametrisering. Sådana konfidensintervall måste justeras manuellt. Andra metoder Det finns generaliseringar av Standard GLM så att både riskpremier och dispersionsparametrar varierar över tariffcellerna och följer GLM-modeller. Log link ger multiplikativa riskpremier och dispersionsparametrar. CV för ett skadebelopp är en funktion av

20 dispersionsparametern, så den är inte konstant. Se till exempel Smyth, G. K. & Jørgensen, B. (2002). Fitting Tweedie's Compound Poisson Model to Insurance Claims Data: Dispersion Modelling. ASTIN Bulletin 2002 32(1), 143-157. Min åsikt är att dessa generaliseringar inte är mycket bättre, eftersom de gör det starka antagandet att dispersionparametern är multiplikativ. Nu några grafer som visar konfidensintervall enligt MVW, dels en över riskpremiefaktorer och dels en över univariata riskpremier. Därefter bilder från mitt Indonesienbesök i november 2014.

Rpfaktor Djurets ålder vid tecknande, Papegojförsäkring Tariff- och riskpremiefaktorer + konfidensintervall Svart=tariff, enkelstreck=90% konf, krysstreck=60% konf 2.10 2.10 2.00 2.00 1.90 1.90 1.80 1.80 1.70 1.70 1.60 1.60 1.50 1.50 1.40 1.40 1.30 1.30 1.20 1.20 1.10 1.10 1.00 1.00 0.90 0.90 0.80 0.80 0.70 0.70 0.60 0.60 0.50 0.50 0.40 0.40 0.30 0.30 0.20 0.20 0.10 0.10 21 0 0 0 år 1 år 2 år 3 år 4 år 5 år 6 år 7 år 8 år 9 år 10 år 11 år 12 år 13 år Okänd Nivå : 0 år 1 år 2 år 3 år 4 år 5 år 6 år 7 år 8 år 9 år 10 år 11 år 12 år 13 år Okänd Tarf : 0.964 0.964 0.964 1.157 1.252 1.417 1.552 1.743 1.996 2.127 2.127 2.127 2.127 1.347 0.000 Ne90%: 1.054 0.672 0.712 0.695 0.606 0.578 0.482 0.439 0.395 0.274 0.261 0.109 0.034 0.000 0.000 Punkt: 1.070 0.714 0.767 0.795 0.674 0.644 0.543 0.499 0.455 0.339 0.361 0.248 0.321 0.000 0.000 Öv90%: 1.086 0.756 0.821 0.895 0.742 0.710 0.605 0.559 0.515 0.404 0.461 0.387 0.609 0.000 0.000

Riskp-uni Djurets ålder vid tecknande, Papegojförsäkring Riskpremie marginell med konfidensintervall Enkelstreck=90% konfidens, krysstreck=60% konfidens 22 200 200 190 190 180 180 170 170 160 160 150 150 140 140 130 130 120 120 110 110 100 100 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 0 0 år 1 år 2 år 3 år 4 år 5 år 6 år 7 år 8 år 9 år 10 år 11 år 12 år 13 år Okänd Nivå : 0 år 1 år 2 år 3 år 4 år 5 år 6 år 7 år 8 år 9 år 10 år 11 år 12 år 13 år Okänd Ne90%: 104.409 71.643 97.929 120.973 126.861 157.306 157.489 167.080 155.769 106.054 94.561 32.839 12.940 0.000 0.000 Punkt: 106.000 76.000 105.000 137.000 140.000 173.000 175.000 186.000 175.000 128.000 127.000 73.000 104.000 0.000 0.000 Öv90%: 107.591 80.357 112.071 153.027 153.139 188.694 192.511 204.920 194.231 149.946 159.439 113.161 195.060 0.000 0.000

Vid anslaget utanför föreläsningssalen i Universitas Gadjah Mada, Yogyakarta, Indonesien 23

November 2014, Universitas Gadjah Mada, Yogyakarta, Indonesien Ronnie och jag diskuterar någon punkt på programmet. 24

Studenten Azka får hjälp med Rapp / Proc Map. 25

Formler för generaliserade Paretofördelningen 26 Rapp / Proc Gpdml väckte intresse. En Rappanvändare har visat att den bara kräver 3 % av tiden som Python tar.

Gruppbild på trappan i Universitas Gadjah Mada, Yogyakarta, Indonesien 27