Tariffanalys av fritidshusförsäkring

Storlek: px
Starta visningen från sidan:

Download "Tariffanalys av fritidshusförsäkring"

Transkript

1 EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2017 Tariffanalys av fritidshusförsäkring En riskmodellering med hjälp av Jungs metod hos If Skadeförsäkring HENNING RYDSTRÖM KTH SKOLAN FÖR TEKNIKVETENSKAP

2 Abstract In recent years, it has become easier and easier to compare insurance rates. Consequently, pricing has become increasingly important for insurance companies. The price must cover the insurance company's costs and generate profits. It should also be sufficiently competitive to attract customers. But it s equally important that the price corresponds to the risk the insurance company is taking on. Low prices only generate losses if the damage the insurance company must pay for is higher than the income they receive from the insurance premiums. Making correct assessments of the risk is very important for an insurance company's profitability. The pricing of an insurance is therefore based on a risk model. The risk model has the task of modelling the expected cost for a certain insurance. This bachelor thesis in mathematical statistics was ordered by and performed for the non-life insurance company If P&C. The purpose of the project was to make a proposal for a new pricing model for If's insurance for cottages. This report will focus on the creation of the risk model underlying the pricing model. The aim of the project is that the new risk model should be more risk correct than the old one. Since the results of the project will be used by If and is based on their data, the report will not be able to contain the names of the variables, the amount of damages or the amount of insurances. The risk model is based on the risk premium, which is defined as the claim cost divided by the duration of the insurance. The model can be described by several factors, each of which depends on the value of an independent variable. When creating the model, generalized linear models were used. The type of GLM used was Poisson log linear, which assumes poisson distribution for the response variable and uses log(μ) as the link function. The method that uses Poisson log linear GLM for modelling the risk premium is called Jungs method. Jungs method was used in this project. The project has briefly followed a four-step process. Firstly, the data was retrieved. The next step was to investigate which variables that could possibly be included in a risk model. After that, the risk model was created with the most statistically significant and most appropriate variables. Finally, the risk model was compared with the risk model of the current tariff. The final risk model is based on 15 variables. Most variables gave good results in the validation analysis and the new risk model was better overall than the current one. 1

3 Sammanfattning I takt med att det blivit lättare och lättare att jämföra priser på försäkringar så har prissättning blivit allt viktigare för försäkringsbolagen. Priset ska täcka försäkringsbolagets kostnader och generera vinst. Det ska även vara tillräckligt konkurrenskraftiga för att locka kunder. Lika viktigt är att priset motsvarar den risk försäkringsbolaget tar på sig. Låga priser generar bara förluster om skadorna försäkringsbolaget måste betala är högre än intäkterna från försäkringspremierna. Att göra korrekta bedömningar av risken är därför väldigt viktigt för ett försäkringsbolags lönsamhet. Prissättningen av en försäkring bygger därför på en riskmodell. Riskmodellen har som uppgift att modellera den förväntade skadekostnaden för en viss försäkring. Detta kandidatexamensarbete inom matematisk statistik är beställt av och utfört åt If skadeförsäkring. Projektet har gått ut på att göra ett förslag till ny prissättningsmodell för If:s försäkring för lösöre till fritidshus. Denna rapport kommer fokusera på skapandet av riskmodellen som ligger till grund till prissättningsmodellen. Syftet med projektet är att den nya riskmodellen ska vara mer riskkorrekt än den gamla. Eftersom resultatet av projektet kommer användas av If och bygger på deras data så kommer rapporten inte kunna innehålla namnen på variablerna, mängden skador eller mängden försäkringar. Riskmodellen bygger på riskpremien, som definieras som skadekostnaden genom försäkringens duration. Modellen kan beskrivas av en mängd faktorer som var och en beror på värdet av en oberoende variabel. Vid skapandet av modellen användes generaliserade linjära modeller. Den typ av GLM som användes var Poisson loglinjär, vilken antar poissonfördelning för responsvariabeln och använder log (μ) som länkfunktion. Jungs metod kallas den metod som modellerar riskpremien med hjälp av Poisson loglinjär GLM. Det var denna metod som användes i projektet. Projektet har i korta drag följt en process på fyra steg. Först togs data som behövdes fram. Sedan undersöktes vilka variabler som kunde vara möjliga att ha med i en riskmodell. Efter det skapades riskmodellen efter de mest statistiskt signifikanta och lämpligaste variablerna. Slutligen jämfördes den framtagna riskmodellen med den nuvarande tariffens riskmodell. Den slutgiltiga riskmodellen bygger på 15 variabler. De flesta variablerna gav bra resultat i valideringen och som helhet var den framtagna riskmodellen bättre än den nuvarande tariffens riskmodell. 2

4 Förord och tack Jag vill tacka Jonna Alnervik och Stefan Ekwall för förtroendet att genomföra mitt kandidatexamensarbete hos If Skadeförsäkringar. Vidare vill jag rikta ett tack till de analytiker på If som jag fått hjälp av i mitt arbete. Slutligen vill jag även tacka min handledare på KTH, Thomas Önskog, som kommit med kontinuerlig feedback vid skapandet av denna rapport. 3

5 Innehåll Abstract... 1 Sammanfattning... 2 Förord och tack Inledning Bakgrund Syfte Problemformulering Avgränsningar Avgränsningar inom projekt Avgränsningar inom rapport Teori Prissättning av försäkringar Grunder inom prissättning för försäkringar Olika typer av faktorer Olika typer av variabler Statistiska definitioner Antaganden Multiplikationsmodellering Generaliserade linjära modeller Slumpmässiga variabeln Systematiska komponenten Länkfunktionen Poisson Loglinjär GLM Multiplikationsmodellering med Poisson loglinjär GLM Val av parametrar Chi-squared fördelning Deviance Multikollinearitet Material och metoder Sammanfattning Framtagning av data

6 3.3. Undersökning av variabler Skapandet av riskmodell Validering av riskmodell Resultat Faktorer Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x11 - x Värden och standardfel Chi-Squared test Korrelation Analys av modellen Validering Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x Variabel x11 - x15 samt variabel y Validering

7 5.3. Validering Slutsats och diskussion Riskmodellens uppbyggnad Variabler Korrelationer, chi-square test och standardfel Jämförelse med nuvarande tariffs riskmodell Diskussion kring metod och framtida förbättringar Jungs metod eller Enkel standard GLM Total skadekostnad eller per skadetyp Mer data Val av valideringsdata Användning av deviance Referenser A. Appendix A.1. Faktorer A.1.1. Variabel x A.1.2. Variabel x A.1.3. Variabel x A.1.4. Variabel x A.1.5. Variabel x A.1.6. Variabel x A.1.7. Variabel x A.1.8. Variabel x A.1.9. Variabel x A Variabel x A Variabel x A Variabel x A Variabel x A Variabel x A Variabel x

8 1. Inledning 1.1. Bakgrund Detta arbete är beställt och utfört åt If skadeförsäkring, närmare bestämt deras pris och produkt avdelning inom privatförsäkringar. If skadeförsäkring är Nordens största företag inom sakförsäkring. Företaget har 3,6 miljoner kunder, medarbetare och en premieinkomst på 42 miljarder SEK If ägs av finländska Sampokoncernen. 1 If är uppdelad i de fyra affärsområdena Privat, Företag, Industri och Baltikum. Arbetet är som sagt utfört på Privat, vilket är det största affärsområdet med 56 % av premieinkomsten. 2 Projektet har gått ut på att göra en tariffanalys av If:s försäkring för lösöre till fritidshus, en tariff är ett annat ord för prissättningsmodellen hos en försäkring. En försäkring för lösöre innefattar vanliga föremål som i huvudsak används och förvaras i hemmet. Det finns både en vanlig och en stor försäkring för lösöre som har olika stor omfattning, det går även att välja hur hög självrisk och försäkringssumma man vill ha, vilket bestämmer hur stor ersättningen kan bli. 3 Denna rapport kommer fokusera på skapandet av riskmodellen som ligger till grund till tariffen. En sakförsäkring är ett kontrakt mellan ett försäkringsbolag och en kund, där försäkringsbolaget åtar sig att kompensera kunden för specifika och oförutsägbara skador under en tidsperiod mot en årlig premie. Genom detta kontrakt överförs den ekonomiska risken från kunden till försäkringsbolaget. Tack vare de stora talens lag kommer försäkringsbolagets förlust, som är en summa av många relativt små oberoende förluster, vara betydligt mer förutsägbar än kundens risk. Därav kommer principen att premien ska baseras på den förväntade förlusten som överförs från kunden till försäkringsbolaget. Premien måste även innefatta kompensation för verksamhetskostnader och i If:s fall även vinstmarginaler, dessa är dock inte behandlade i detta arbete. Behovet av statistiska metoder uppstår på grund av att den förväntade förlusten varierar beroende på kund och objekt. 4 Prissättning inom sakförsäkring är konsten att beräkna en försäkringspremie för en kund som baseras på egenskaperna hos kunden och det försäkrade objektet. Den huvudsakliga källan till utformningen av denna prissättning är försäkringsbolagets egna historiska data över försäkringar och skadekostnader. I en tariffanalys används denna data för att skapa en riskmodell som beskriver hur risken för skadekostnader hos en kund med ett visst objekt beror på en mängd av förklarande variabler. På 90-talet introducerades generaliserade linjära modeller (förkortning: GLM) som verktyg för tariffanalyser vilket nu blivit standard i många länder. 5 Det som satte fart på spridningen av GLM var behovet av tariffanalyser efter avregleringarna av försäkringsbranschen som skedde under 90-talet. I och med det styrs nu prissättningen av fri konkurrens, vilket medför att prissättningen måste optimeras för att attrahera nya och gamla kunder. Prissättningen är essentiell för försäkringsbolaget eftersom den både ska täcka kostnader och generera vinst samtidigt som den ska vara konkurrenskraftig. En riskkorrekt prissättning är grunden för framgångsrik prissättning. 6 1 If, Om If affärsinformation, <URL: - hämtad If, Om If marknad och affärsområde, <URL: > - hämtad If, våra försäkringar hög och radhus, <URL: > - hämtad Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. 1-2) 5 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. vii) 6 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s.1-2) 7

9 GLM kan dels användas för att modellera riskpremien, vilket är den förväntade skadekostnaden per år för en viss försäkring. Genom att modellera riskpremien kan en riskkorrekt premie beräknas. GLM kan även användas för att modellera frekvensen och medelskadan. Frekvensen är det förväntade antalalet skador per år för en viss försäkring. Medelskadan är den förväntade kostnaden för en skada hos en viss försäkring om en skada väl inträffar. Genom att multiplicera resultaten från modellerna för frekvensen och medelskadan fås riskpremien, och på så sätt kan rätt premie modelleras. Innan den generella GLM teorin formulerades så användes i Sverige den så kallade Jungs metod, även kallad marginal metod. Jung var en svensk aktuarie (analytiker inom försäkring) som var delaktig i utvecklingen av denna metod från 1960-talet. När GLM introducerades visade det sig att Jungs metod var ett specialfall för GLM, nämligen att man modellerar efter riskpremien, antar poissonfördelning och använder log (μ) som länkfunktion (se delkapitel 2.1, 2.5 och 2.6). 7 Jungs metod är fortfarande en av de vanligaste metoderna på If, det är även den metod som användes i detta arbete Syfte Anledningen till att en ny tariff är aktuell är att den gamla inte anses vara tillräckligt riskkorrekt. If har som målsättning att vara ledande inom riskbedömning 8 vilket korrekt prissättning såklart är en väldigt viktig del av. Syftet med projektet är därför att den nya riskmodellen, vilket är grunden till tariffen, är mer riskkorrekt än den gamla. Detta ger dels kunden ett mer rättvist pris samt gynnar If:s konkurrensförmåga Problemformulering 1. Vilka variabler påverkar risken för skador för försäkringen fritidshus lösöre, och med hur mycket? 2. Går det att ta fram en mer riskkorrekt riskmodell än den som ligger till grund för försäkringen idag? 3. Finns det några andra variabler än de som är med i nuvarande tariffens riskmodell som har en signifikant påverkan på risken? 1.4. Avgränsningar Avgränsningar inom projekt Analysen har gjorts för försäkringar som var gällande från 1:a januari 2012 till 30:e september Antalet variabler som togs med i början av analysen begränsades till ett hundratal Avgränsningar inom rapport Denna rapport kommer fokusera på framtagandet av riskmodellen, den ligger till grund för skapandet av själva tariffen. Därför analyseras och diskuteras inget kring val av vinstmarginaler för priset eller vilka konsekvenser som en ändring av prismodellen skulle innebära föra If:s kunder. Eftersom resultatet av projektet kommer användas av If och bygger på deras data så kommer rapporten inte kunna innehålla namnen på variablerna, mängden skador eller mängden försäkringar. 7 Bengt Eriksson, Aktuarie på If, 23/ If, presenation av Torbjörn Magnusson <URL: > - hämtad

10 2. Teori 2.1. Prissättning av försäkringar Grunder inom prissättning för försäkringar 9 Prissättning av försäkring bygger på en riskmodell. Riskmodellen ska ge en premie till en viss försäkring som motsvarar den förväntade skadekostnaden hos försäkringen. Den tas fram med hjälp av statistiska metoder och bygger på data över tidigare försäkringar och skadekostnader. Prismodellen skapas sedan med riskmodellen som grund, men där man höjer priset för försäkringarna så att företaget kan täcka omkostnader och göra vinst. Prismodellen inkluderar eventuellt även taktiska förändringar, såsom exempelvis att sänka priserna för en viss grupp individer. I denna rapport kommer som sagt endast framtagandet av riskmodellen behandlas. Metoden som använts i arbetet kallas Jungs metod. Vid användandet av Jungs metod ska riskmodellen modellera riskpremien, som definieras som skadekostnaden genom försäkringens duration. Durationen definieras som tiden försäkringen gäller, oftast mätt i år. Oftast pratas det om durationen för en mängd av försäkringar, som då definieras som den totala tiden som försäkringarna gäller (1000 försäkringar som gäller i ett år var ger en duration på 1000 år). I denna rapport anges oftast andelen duration hos en grupp av försäkringar. Detta är den procentuella andelen av den totala durationen som tillhör en grupp av försäkringar. Vi brukar även tala om riskpremien för en grupp av försäkringar, denna definieras som försäkringarnas totala skadekostnader genom deras duration. Antag till exempel att vi har en grupp med 1000 försäkringar vars totala duration är 800 år och vars totala skadekostnader är kr. Vi får då att riskpremien för dessa försäkringar är 100 kr/år, därför vill vi att riskmodellen ska ge en genomsnittlig premie för denna grupp som är nära 100 kr/år. Generellt ges riskpremien för en mängd försäkringar Ω som: Riskpremie(Ω) = Skadekostnad(Ω) (ekvation 2.1. ) Duration(Ω) där Skadekostnad(Ω) och Duration(Ω) är försäkringarnas totala skadekostnader respektive duration. Riskpremien är därmed skadekostnaden per år för en eller flera försäkringar. Modellen kan beskrivas av n faktorer som var och en beror på värdet av en oberoende variabel. Riskmodellen för en försäkring j kan beskrivas som (se delkapitel 2.4 för mer teori kring detta): n Riskmodell(j) = Riskbas f i (i(j)) (ekvation 2.2. ) i=1 där f i är faktorvärdet för den oberoende variabeln i, som beror av värdet av variabeln i hos försäkring j. Riskbasen bestäms av randvillkoret för alla försäkringar m som ges av: m Riskmodell(j) = Skadekostnad(j) (ekvation 2.3. ) j=1 m j=1 där Skadekostnad(j) är kostnaden för en eller flera eventuella skador hos försäkringen j. Antag att vi exempelvis har en enkel modell med variablerna ålder och husets yta. Faktorvärdet för ålder är 1 då åldern är 9 Information från analytiker på If Skadeförsäkring 9

11 över 40 och 1.5 annars. För husets yta är faktorvärdet 1 för under 80 m 2 och 1.5 för över 80 m 2. Riskbasen är 100 kr. Riskmodellen ger då en premie för försäkring j = (21 år, 100 m 2 ) enligt: Premie (kr/år) = Riskmodell(j) = 100 f ålder (ålder(j)) f yta (yta(j)) = 100 f ålder (21) f yta (100) = = 225 Riskmodellens riskratio för en grupp av försäkringar, Ω, definieras som: j Ω Riskratio(Riskmodell, Ω) = j Ω Skadekostnad(j) (ekvation 2.4. ) Riskmodell(j) Riskration ska idealt vara så nära ett som möjligt. Detta eftersom Riskmodellen ska ge premier som motsvarar den förväntade skadekostnaden hos försäkringen. Om riskration är mindre än ett så överskattas risken och om riskration är mer än ett så underskattas risken. En tariffcell definieras som mängden av de försäkringar som har samma faktorvärden på alla oberoende variabler Olika typer av faktorer Faktorerna i ekvation 2 beror som sagt på värdet av variabel i. Hur faktorn beror av värdet på variabeln kan delas in i tre olika typer. Dessa är polynom, grupperingar och förutbestämda värden. Polynom ger faktorvärden till en variabel enligt en kurva och används till kontinuerliga variabler såsom exempelvis ålder. I grupperingar delar man upp en variabel i lämpliga grupper och ger varje grupp ett faktorvärde, exempelvis kan ålder delas upp i en grupp för de över respektive under 50 år. En gruppering är ibland den enda indelning man kan ge, till exempel för en variabel som anger vilken landsdel som ett försäkrat hus ligger i. Förutbestämda värden är variabler som har faktorvärden som redan bestämts sedan innan, de beror oftast på att riskanalyser redan gjorts på den variabeln Olika typer av variabler De förklarande variablerna kan I regel delas in I tre olika kategorier, dessa är: Egenskaper hos kunden, såsom ålder och yrke. Egenskaper hos objektet, såsom värde, storlek och ålder. Geografiska variabler, såsom inkomst per capita eller invånartäthet Statistiska definitioner Väntevärdet kan beskrivas som medelvärdet vid oändligt många utfall och definieras som 11 : μ = E(X) = xp(x) x (ekvation 2.5. ) för diskreta stokastiska variabler X med sannolikhetsfunktionen P(x), och som: μ = E(X) = xf(x)dx (ekvation 2.6. ) 10 Information från analytiker på If Skadeförsäkring 11 Gunnar Blom, m. fl., Sannolikhetsteori och statistikteori med tillämpningar. Studentlitteratur, Lund, 2005 (5:e upplagan) 10

12 för kontinuerliga stokastiska variabler X med täthetsfunktionen f(x). En stokastisk variabel X med väntevärdet μ har en standardavvikelse σ som definieras enligt 12 : σ = E[(X μ) 2 ] = E[X 2 ] (E[X]) 2 (ekvation 2.7. ) Korrelationskoefficienten ρ XY mellan två slumpvariabler X och Y med de förväntade väntevärdena μ x och μ y med standardavvikelserna σ x och σ y definieras som 13 : ρ XY = E[(X μ x)(y μ y )] σ x σ y (ekvation 2.8. ) Två händelser är oberoende av varandra om deras gemensamma sannolikhet är densamma som produkten av de individuella sannolikheterna, vilket kan skrivas som: P(A B) = P(A)P(B) (ekvation 2.9. ) Standardfelet för en mängd observationer definieras som 14 : σ e = n (ekvation ) Där n är antalet observationer. Standardfelet avtar alltså med ökat antal observationer Antaganden Vid skapandet av riskmodellen gör vi ett antal antaganden 15 : Antag att vi har m försäkringar. Då antar vi att försäkringarnas skadekostnader är oberoende av varandra. Detta antagande är uppfyllt till relativt hög grad. Undantaget är vid naturkatastrofer då många skador kan ske samtidigt. Detta bör rimligtvis påverka försäkringen på byggnaden mer än den på lösöre och dessutom finns ofta återförsäkring för de största katastroferna. Vi antar att två försäkringar inom samma tariffcell och med samma duration har samma sannolikhetsfördelning för skadekostnaden. Detta är inte helt sant eftersom vi i en tariffanalys aldrig kan gruppera försäkringarna i helt homogena grupper, dessutom kan skadekostnaden bero på tiden på året Multiplikationsmodellering Om det fanns tillräckligt mycket skador i vår historiska data så skulle varje tariffcell kunna prissättas för sig. Om vi exempelvis har två variabler med två värden vardera så skulle riskpremien för de fyra tariffcellerna kunna beräknas. Detta är sällan möjligt i praktiken och därför används istället multiplikationsmodellering. I en sådan modell beror riskmodellen på ett antal faktorer. Vi har N stycken variabler som var och en har olika värden, låt m i beteckna antalet värden för variabel i. Antag att N är lika med två, vi kan benämna tariffcellen 12 Gunnar Blom, m. fl., Sannolikhetsteori och statistikteori med tillämpningar. Studentlitteratur, Lund, 2005 (5:e upplagan) 13 Gunnar Blom, m. fl., Sannolikhetsteori och statistikteori med tillämpningar. Studentlitteratur, Lund, 2005 (5:e upplagan) 14 Douglas G Altman and J Martin Bland, Standard deviations and standard errors <URL: > - hämtad Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s.6-s.7) 11

13 med värdena i och j för den första respektive andra oberoende variabeln som cell (i,j). Vi har då att den väntade riskpremien enligt multiplikationsmodellering ges av: μ ij = γ 0 γ 1i γ 2j (ekvation ) i = 1, 2,, m 1, j = 1, 2,, m 2 där parametern γ ni är faktorn för variabel n med värde i och γ 0 är riskbasen. Modellen har för många parametrar då exempelvis γ 1i 2 och 2γ 2i ger samma väntevärde. Därför gör vi en tariffcell med hög duration till referenscell med alla faktorer lika med ett, antag att denna cell är cell (1,1). Nu är γ 0 referenscellens uppskattade väntevärde och resterande parametrar mäter den relativa risken mellan referenscellen och övriga tariffceller. Om γ 12 = 1.2 betyder att väntevärdet för cell (2, 1) är 20 % högre än för referenscellen. Multiplikationsmodellen antar att det inte finns någon interaktion mellan de olika faktorerna. Antag att variabel 1 är ålder och faktor 2 är geografiregion, då har vi att relationen i riskpremie för två åldersklasser är densamma mellan olika regioner Generaliserade linjära modeller 17 Linjär regression, eller den något mer omfattande metoden generaliserad linjär regression, lämpar sig dåligt för riskmodellering av sakförsäkringar. För det första för att de slumpmässiga felen är normalfördelade i dessa regressioner, vilket stämmer dåligt överens med fördelningen av skadekostnader och antal skador. För det andra för att medelvärdet i dessa regressioner är en linjär funktion av de oberoende variablerna, detta ger en additiv modellering vilket inte är lika rimligt som multiplikationsmodellering. Därför används istället generaliserade linjära modeller (eng: generalized linear models, förkortning: GLM). Dessa generaliserar vanliga ordinära regressionsmodeller på två olika sätt. 1. Istället för att anta normalfördelad responsvariabel så arbetar GLM med en generell klass av fördelningar. 2. I ordinär linjär modellering är väntevärdet en linjär funktion av de oberoende variablerna. I en GLM är någon monoton och differentierar transformation av väntevärdet en linjär funktion av de oberoende variablerna. Nelder och Wedderburn var de som introducerade klassen GLM, då fanns dock redan många etablerade modeller i klassen. Det är tre komponenter som specificerar en GLM. Dessa tre komponenter är den slumpmässiga variabeln, den systematiska komponenten och länkfunktionen Slumpmässiga variabeln Den första komponenten är den slumpmässig komponenten (eng: random component) som identifierar responsvariabeln Y, alltså den beroende variabeln, och dess fördelning. Den slumpmässiga komponenten består av en responsvariabel Y med oberoende observationer (y 1, y 2,, y n ) från en fördelning som tillhör exponentialfamiljen (eng: the exponential family). Exponentialfamiljen är en grupp av fördelningar som har en täthetsfunktion eller sannolikhetsfunktion av formen: f(y i ; θ i ) = a(θ i )b(y i ) exp[y i Q(θ i )] (ekvation ) 16 Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. 9-10) 17 Alan Agresti, Categorical Data Analysis, 2nd edition (2002), (s ) 12

14 i = 1, 2,, N Värdet av θ i kan variera beroende på de oberoende variablerna. Termen Q(θ) kallas den naturliga parametern (natural parameter). Det finns många viktiga fördelningar av denna typ såsom normalfördelningen, exponentialfördelningen och poissonfördelningen Systematiska komponenten Den andra komponenten är den systematiska komponenten (eng: systematic component). Den systematiska komponenten relaterar en vektor (η 1, η 2,, η n ) med de förklarande variablerna, alltså de oberoende variablerna, genom en linjär relation. Låt x ij beteckna värdet för den förklarande variabeln j för observationen y i. Då har vi att: η i = β j x ij (ekvation ) j Denna linjära kombination benämns som den linjära prediktorfunktionen (eng: linear predictor function) Länkfunktionen Den tredje och sista komponenten är en länkfunktion (eng: link function) som kopplar den slumpmässiga komponenten med den systematiska komponenten. Låt μ i = E(Y i ), i = 1, 2,, N. Modellen kopplar μ i med η i genom η i = g(μ i ), där g är länkfunktionen som är monoton och differentierbar. Vi har alltså att: g(μ i ) = β j x ij (ekvation ) j Länkfunktionen som transformerar medelvärdet till den naturliga parametern kallas för den kanoniska länkfunktionen (eng: canonical link). För den har vi: Q(θ i ) = β j x ij (ekvation ) j 2.6. Poisson Loglinjär GLM 18 Vissa responsvariabler har antal som sina möjliga utfall. Detta är fallet för riskpremien som anger hur många kronor en viss försäkring kostar försäkringsbolaget per år. I sådana fall används ofta poissonfördelningen i den generaliserade linjära modellen. Poissonfördelningen är en sannolikhetsfördelning som tillhör exponentialfamiljen. Låt Y ange en responsvariabel och låt μ = E(Y), sannolikhetsfördelningen ges då av: f(y; θ) = exp( μ) 1 exp[y log(μ)] (ekvation ) y! i = 1, 2, N Om vi jämför denna fördelning med ekvation så ser vi att: θ = μ 18 Alan Agresti, Categorical Data Analysis, 2nd edition (2002), (s ) 13

15 a(θ) = a(μ) = exp ( μ) b(y) = 1 y! Q(θ) = Q(μ) = log (μ) Eftersom den naturliga parametern är log (μ) så har vi att den kanoniska länkfunktionen ges av log (μ). Vi får nu av ekvation att: Detta ger vidare att: log(μ i ) = β j x ij (ekvation ) μ i = e j β jx ij j = e β jx ij (ekvation ) j På detta sätt kan vi få en multiplikationsmodellering av μ i, se nästa delkapitel för mer detaljer. Den GLM som antar poissonfördelning för Y och använder log(μ) som länkfunktion kallas för Poisson loglinjär (eng: Poisson Loglinear Model). Metoden som använder Poisson loglinjär GLM för att modellera riskpremien kallas för Jungs metod och fanns innan klassen GLM introducerades. Det är denna metod som använts i detta arbete Multiplikationsmodellering med Poisson loglinjär GLM 19 Vi återgår nu till exemplet från delkapitel 2.4. och tar logaritmen av ekvation Då får vi att: log(μ ij ) = log(γ 0 ) + log(γ 1i ) + log (γ 2j ) (ekvation ) Sedan tidigare har vi att cell (1,1) är referenscell, därmed är både γ 21 och γ 11 lika med ett och därmed deras logaritmer lika med noll. Vi antar vidare att m 1 = 2 och m 2 = 3. Vi inför nu följande betakoefficienter: Detta ger tillsammans med ekvation 2.19 att: β 1 = log(γ 0 ) β 2 = log(γ 12 ) β 3 = log(γ 22 ) β 4 = log(γ 23 ) log(μ i ) = β j x ij Där μ i är det modellerade väntevärdet för försäkring i och x ij är dummy variabler som ges av följande tabell: 4 j=1 Tabell 1 Beskrivning av dummy variabler i Tariffcell x i1 x i2 x i3 x i4 1 (1,1) Esbjörn Ohlsson and Björn Johansson, Non-Life Insurance Pricing with Generalized Linear Models (2010), (s. 9-10) 14

16 2 (1,2) (1,3) (2,1) (2,2) (2,3) Detta kan på ett naturligt sätt generaliseras från två till godtyckligt antal variabler med godtyckligt antal faktorvärden och därmed godtyckligt antal beta koefficienter. Vi får nu att: log(μ i ) = β j x ij Vi ser att detta är exakt samma ekvation som ekvation Vi har därmed visat kopplingen mellan multiplikationsprincipen och Poisson loglinjär GLM Val av parametrar Målet med riskmodelleringen är att producera en modell som kan förklara den historiska data som ligger till grund till analysen samt kan prediktera framtiden. När vi lägger till fler parametrar γ ni, desto exaktare kan vi modellera den historiska datan men desto mindre prediktiv blir modellen av framtiden. Om vi har för få parametrar har vi en svag modell för den historiska datan och denna modell kommer därför även den vara dålig på att prediktera framtiden. Att ha rätt nivå av parametrar är därför väldigt viktigt. Vi kan reducera antalet parametrar genom att göra grövre grupperingar av variabler, använda polynom eller helt ta bort variabeln. På motsvarande sätt kan vi öka antalet parametrar. En variabel bör tas bort från modellen om: j Alla variabelns betakoefficienter är nära noll (vilket motsvarar parametrar nära ett) Parametrarna/ betakoefficienterna är inte konsekventa över tid När vi anpassat modellen kommer varje faktornivås betakoefficient få ett standardfel. Om standardfelet uttryckt som procent av betakoefficienten är för stora betyder det att det inte finns en statistisk signifikant skillnad mellan faktornivån och referenscellen. Vi vill helst att standardfelet uttryckt som procent av betakoefficienten är mindre än 50% och försöker helt undvika standardfel över 75%. När en variabel exkluderas från modellen är den nya modellen inte signifikant annorlunda med ett chi-squared test. Med hjälp av dessa kriterier kan vi bygga upp en modell som både kan förklara den historiska data som ligger till grund till analysen samt kan prediktera framtiden Chi-squared fördelning Vi har att Chi-squared fördelningens täthetsfunktion ges av: f(x) = 1 n 2 n 2Γ( n x 2 1 e x/2 (ekvation ) 2 ) där n är antalet frihetsgrader. I vårt fall kommer n alltid vara större än noll och då har vi att: 20 Emblem Users guide, Choosing Factors to Include 15

17 om n är ett udda heltal större än noll och: Γ ( n 2 ) = (n 1)! (ekvation ) 2 Γ ( n 2 ) = (n 1)! 2 n 1 ( n )! π (ekvation ) om n är ett jämt heltal större än noll. 21 Chi-squared fördelningen används bland annat för hypotestestning. Se nästa kapitel Deviance Deviance är en uppskattning av avvikelsen mellan de observerade värdena och värdena enligt modellen. För poissonfördelning ges deviance av: Deviance = 2 {y i log ( y i μ i ) (y i μ i )} (ekvation ) i där y i är det observerade värdet och μ i är det modellerade värdet. Observera att summan över (y i μ i ) i vårat fall är noll eftersom vi har att modellen ska ge lika stor total skadekostnad som i vår analyserade data. Antag nu att vi har två modeller M 1 och M 2, där M 1 innehåller alla parametrarna från M 2 och k ytterligare. Under det ytterligare antagandet att M 2 är den sanna modellen, så följer skillnaden mellan modellernas deviance approximativt en chi-square fördelning med k graders frihet. 22 Tack vare detta kan vi undersöka om det finns en statistisk signifikant skillnad mellan modellerna med hjälp av ett chi-squared test. Noll hypotesen i detta test är att det inte finns en statistisk signifikant skillnad mellan modellerna. En låg Chi squared sannolikhet betyder därmed att det finns en statistisk skillnad mellan modellerna. Ett gränsvärde på 5% för Chi squared sannolikheten brukar användas för att indikera att det finns en signifikant skillnad mellan modellerna. 23 På detta sätt kan vi undersöka om vi ska ta med en viss variabel och/eller göra grövre/mer finfördelade grupperingar av variabeln Multikollinearitet 24 Om våra oberoende variabler korrelerar med varandra uppstår problemet multikollinearitet. Problemet uppstår i och med att vår modell inte kan avgöra vilka av våra korrelerade variabler som påverkar utfallet. Detta beror på att när vi beräknar regressionskoefficienten för en variabel används variation som är unik för den aktuella variabeln, variationen som delas med andra variabler kan inte användas då det inte går att avgöra vilken variabel det är som påverkar. Standardfelen för variablerna ökar i och med multikollinearitet. 21 Math Uah, Chi Square <URL: > 22 Data.princeton, Generalized Linear Models notes c4 <URL: > - hämtad Emblem Users guide, Choosing Factors to Include 24 Pär Nyman 19, Regressionsdiagnostik och experimentell design, september 2014 <URL: > -hämtad

18 Vid en regression är det naturligt att multikollinearitet uppstår och det behöver nödvändigtvis inte vara ett problem. Det finns inget exakt svar på hur mycket multikollinearitet en modell kan innehålla. För att på ett enkelt sätt minska multikollineariteten kan man ta bort variabler, ta med mer data eller slå ihop variabler. 17

19 3. Material och metoder 3.1. Sammanfattning Projektet har i korta drag följt följande process: 1. Ta fram data som behövs. 2. Undersök vilka variabler som har så gott som komplett data och som kan ha en påverkan på riskpremien. Ta med dessa variabler till steg tre. 3. Se vilka variabler som har en statistisk signifikant påverkan på riskpremien. Bestäm vilka som är lämpligast att ta med i modellen. Skapa sedan riskmodellen. 4. Validering av riskmodellen. Undersök hur bra riskmodellen är jämfört med den nuvarande riskmodellen Framtagning av data Det mesta av den data som användes i analysen fanns i If:s databaser. If förvarar mängder av data i olika listor som kan kommas åt med hjälp av databasspråket SAS, ett språk som är väldigt bra på att hantera stora mängder data. 25 Data hämtades även från databaserna ekonomifakta.se och scb.se. Med hjälp av SAS kan data från olika listor matchas ihop för att skapa ett dataset med all den information som behövs för att kunna göra analysen. I det här steget tas så många variabler som möjligt med. I detta steg sker även en kapning av skadekostnaden för de skadorna med högst skadekostnad. Med andra ord beräknas en ny skadekostnad enligt: Skadekostnad2 = min (Skadekostnad, X) (ekvation 3.1. ) som vi kommer skapa och validera modellen efter. Detta görs för att göra vår data mindre volatil och på så sätt förbättra analysen. Dessa skador som var väldigt få till antalet (drygt 0,1% av alla skador) stod nämligen för en stor del av den totala skadekostnaden. Denna del av skadekostnaden är svårmodellerad eftersom antalet skador som sagt är väldigt få, och därför sätts dessa skadors skadekostnad till det lägre värdet X. 26 Varje försäkring ges även en slumpmässig siffra mellan ett och fem. De med siffran ett till fyra blir riskmodellens träningsdata och de med siffran fem blir valideringsdata. Träningsdatan tas vidare i steg två och tre medan valideringsdatan sparas till steg fyra. Riskmodellen ska skapas med hjälp av träningsdatan och sedan ska den testas med hjälp av valideringsdatan Undersökning av variabler If har hundratals olika variabler i sin databas, och utöver det kan massvis av variabler tas fram från databaser såsom SCB och ekonomifakta. Självklart är alla inte relevanta och för att välja ut de som kan ha betydelse så används det grafiska programmet tableau, som är ett program som är byggt för att kunna undersöka och presentera stora mängder data på ett interaktivt och lättförståeligt sätt. 27 För det första måste datan för en variabel vara nära till komplett, med andra ord måste variabeln ha ett värde för en absolut majoritet av försäkringarna. Om vi exempelvis vill ha med husets storlek som variabel så måste 25 SAS, software, analytics, SAS/STAT, <URL: > -hämtad > 26 Analytiker på If 27 Tableau, products, desktop <URL: > - hämtad

20 den informationen vara inrapporterad för de flesta av försäkringarna för att vi ska kunna ha med den i riskmodellen. Detta visade sig vara väldigt begränsande då väldigt många av variablerna som togs med från steg ett inte hade komplett data. För det andra ska variationer i riskpremien grupperat efter variablerna undersökas. Här undersöks det om det finns ett mönster som tyder på att en viss oberoende variabel påverkar riskpremien. Variablernas värden grupperas i många fall i större och större grupper för att se om det finns nån eventuell påverkan på riskpremien. Det sker även löpande diskussioner med analytiker om vilka variabler de tror kan vara intressanta, samt vilka variabler som inte är värda att ta med till steg tre trots att de både har komplett data och verkar kunna ha en påverkan på riskpremien. Ett exempel på när detta skulle kunna ske är när analytikerna vet att variabeln har rapporterats inkonsekvent. De variabler som efter denna process verkar ha en påverkan på riskpremien tas med till steg tre i processen Skapandet av riskmodell Riskmodellen görs med hjälp av programmet Emblem. Det är ett program som är specialiserat på prissättning och som är bra på att göra beräkningar på stora datamängder. Emblem kan använda många typer av generaliserad linjär regression 28, i denna analys antas poissonfördelning och länkfunktionen log (μ) (se delkapitel 2.6. för teori) för att modellera riskpremien (Jungs metod). I Emblem kan även korrelationer och standardfel beräknas. Vi kan även testa om det finns en signifikant skillnad mellan två modeller genom att göra ett Chi-Square test mellan skillnaderna hos modellernas deviance. I början testas hur stark påverkan variablerna har på riskpremien och hur stora standardfel de har. Korrelationer mellan variabler beräknas. Vi anpassar sedan riskmodellen med en variabel åt gången, samt bestämmer på vilket sätt riskmodellen ska anpassa sig efter variabeln. Om vi har en kontinuerlig variabel såsom ålder vill vi helst ha en kontinuerlig anpassning med hjälp av ett polynom. Om inte det fungerar eller om variabeln inte är kontinuerlig gör vi grupperingar av variabeln. Grupperingarna görs så små som möjligt utan att få för stora standardfel. De flesta variablerna får endast två grupperingar eftersom standardfelen annars blir för stora. När vi anpassar modellen efter en ytterligare variabel så kommer standardfelen hos övriga variabler öka, speciellt för de variabler som korrelerar med den tillagda variabeln. Mycket jobb måste därför läggas på att bygga upp en väldifferentierad riskmodell med små standardfel. När vi lägger till en variabel undersöks även om detta innebär en statistisk signifikant skillnad för modellen Validering av riskmodell När riskmodellen tagits fram är det dags för validering. Då undersöks det hur väl riskmodellen följer risken jämfört med den nuvarande tariffens riskmodell. Detta görs dels på träningdatan som modellen är optimerad efter men även efter valideringsdatan som inte var med då riskmodellen skapades. På så sätt kan vi se hur väl riskmodellen står sig på data som den inte har optimerats efter. Valideringen görs dels för varje variabel för sig samt för riskmodellen i sin helhet. Detta för att både kunna analysera hur väl varje enskild variabel fungerar samt se hur bra riskmodellen är i sin helhet. 28 Tower Watson, Tools, Emblem, <URL: > - hämtad

21 4. Resultat Min slutgiltiga riskmodell bygger på 15 variabler. Variabel x11 till x15 bygger tillsammans upp en gruppering som ersätter variabel y1, som finns med i nuvarande tariffs riskmodell. Alla andra variabler som är med i den nuvarande tariffen är även med i min riskmodell, dessutom har ytterligare tre lagts till. Som tidigare nämnt kommer dessa variabler inte kunna specificeras. Från ekvation och tabell 2 fås att riskmodellen ges av: μ ijklmnopqrstuvw = γ 0 γ x1 iγ x2 jγ x3 kγ x4 lγ x5 mγ x6 nγ x7 oγ x8 pγ x9 qγ x10 rγ x11 sγ x12 tγ x13 uγ x14 vγ x15 w i = 1, 2,, 219 j = 1, 2,, 6 k = 1, 2 l = 1, 2 m = 1, 2 n = 1, 2,, 4 o = 1, 2,, 178 p = 1, 2,, 125 q = 1, 2,, 54 r = 1, 2 s = 1, 2 t = 1, 2 u = 1, 2 v = 1, 2 w = 1, 2,, 4 där μ ijklmnopqrstuvw är väntevärdet för försäkringen med värdena ijklmnopqrstuvw för variablerna x1 till x15. För att se exakta faktorer för alla variabler se appendix A. Tabell 2. Variabler i riskmodell, översikt Variabelnamn: Faktortyp: Antal värden: Ny variabel: x1 Polynom 219 Nej X2 Förutbestämda värden 6 Nej x3 Gruppering 2 Nej x4 Gruppering 2 Ja x5 Förutbestämda värden 2 Nej x6 Gruppering 4 Ja x7 Polynom 178 Ja x8 Polynom 125 Nej x9 Förutbestämda värden 54 Nej x10 Förutbestämda värden 2 Nej x11 Gruppering 2 Ja, ersätter y1 x12 Gruppering 2 Ja, ersätter y1 x13 Gruppering 2 Ja, ersätter y1 x14 Gruppering 2 Ja, ersätter y1 x15 Gruppering 4 Ja, ersätter y Faktorer I följande avsnitt går vi igenom alla faktorer i riskmodellen och bedömer hur viktiga dem är för riskmodellen. Vi antar att riskmodellen används på ett bestånd av försäkringar som har liknande uppdelning mellan tariffceller som den vi haft i analysen. Hur viktig en variabel är för riskmodellen bedöms i denna analys efter tre punkter: Hur stor skillnaden är mellan faktorer för olika värden på variabeln. En variabel som kan ge faktorn 2 eller 1 kommer såklart ha en större påverkan än en variabel som kan ge faktorn 1,1 och 1. Hur många värden en variabel kan anta. En variabel med 10 istället för 2 värden kommer differentiera riskmodellen mer. 20

22 Hur jämnt durationen är fördelad mellan värdena på variabeln. Om en variabel har två värden med faktorerna 1 och 2 så kommer den såklart påverka mer om durationen är jämt fördelad än om bara en enstaka procent är i grupp två Variabel x1 Variabel x1 är en kontinuerlig variabel som ges faktorer enligt ett stegvis linjärt polynom. Högre värde på x1 ger högre faktor. Denna variabel har enligt riskmodellen en väldigt kraftig påverkan på riskpremien, faktorerna varierar från 0,32 till 4,01. I tabell 3 ges hur stor procent av durationen som har de olika värdena hos variabeln. Vi kan i denna variabel se att värden med faktorer över 2,0 har låg duration. Trots det kan vi konstatera att detta är en väldigt viktig variabel för riskmodellen. Det finns 219 värden av variabeln. Graf 1. Faktorer för variabel x1 Tabell 3. Andel duration per intervall av värden för variabel x1 Värden: Andel av durationen: ,05 % ,61 % ,76 % ,05 % ,89 % ,13 % ,73 % % ,82 % ,90 % ,50 % Variabel x2 Variabel x2 har faktorer med förutbestämda värden. Det finns 6 olika värden av variabeln med faktorer som varierar kraftigt. Vi ser dock att den totala durationen för värdena 2 6 bara är drygt 3 %. Vi kan därför 21

23 konstatera att denna variabel inte är speciellt viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 4. Andel duration per värde och faktorvärden för variabel x2 Värde på variabel: Faktor på variabel: Andel av durationen: ,92% 2 0,89 0,61 % 3 0,79 1,02 % 4 0,72 0,09 % 5 0,67 0,97 % 6 0,55 0,38 % Variabel x3 Variabel x3 består av två grupper med faktorer som skiljer sig väldigt mycket åt. Durationen för värde 1 är visserligen relativt låg på 10,7 %, men vi kan ändå konstatera att denna variabel är ganska viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 5. Andel duration per värde och faktorvärden för variabel x3 Värde på variabel: Faktor på variabel: Andel av durationen: 1 1, ,68 % ,32 % Variabel x4 Variabel x4 är en ny variabel och består av två grupper med olika faktorer. Faktorskillnaden är ganska hög medan durationen för värde 2 är relativt låg på 7,18 %. Vi har därför att denna variabel är ganska viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 6. Andel duration per värde och faktorvärden för variabel x4 Värde på variabel: Faktor på variabel: Andel av durationen: ,82 % 2 1, ,18 % Variabel x5 Variabel x5 består av två grupper med förutbestämda faktorvärden. Faktorerna skiljer sig visserligen en del åt men en absolut majoritet av durationen finns i värde 1, så denna variabel har väldigt lite inverkan när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 7. Andel duration per värde och faktorvärden för variabel x5 Värde på variabel: Faktor på variabel: Andel av durationen: ,85 % 1 1,25 0,15 % 22

24 Variabel x6 Variabel x6 är en ny variabel och består av fyra grupper med tre olika faktorvärden, då grupp 3 och 4 får samma faktor. Faktorerna skiljer sig ganska mycket åt och durationen är jämt fördelad mellan värdena. Vi har därför att denna variabel är viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Tabell 8. Andel duration per värde och faktorvärden för variabel x6 Värde på variabel: Faktor på variabel: Andel av durationen: 1 0, ,73 % ,38 % 3 0, ,74 % 4 0, ,15 % Variabel x7 Variabel x7 är en ny kontinuerlig variabel som ger faktorer enligt ett polynom. Från värde x7 = 0 till x7 = 35 är polynomet linjärt avtagande från drygt 1,1 till drygt 0,7 och efter det är faktorerna konstanta. Mer än 85 % av durationen har ett värde på denna variabel mellan 0 och 35, alltså det intervall där faktorerna varierar. Av de variabler som ges faktorer enligt polynom är det denna som har minst påverkan, den är dock fortfarande en av de viktigaste variablerna i riskmodellen. Det finns 178 värden av variabeln. Graf 2. Faktorer för variabel x7 Tabell 9. Andel duration per intervall av värden för variabel x7 Värden: Andel av durationen: ,58 % ,35 % ,36 % ,56 % ,20 % ,97 % 23

25 ,62 % ,88 % ,49 % Variabel x8 Variabel x8 är en kontinuerlig variabel som från värde x8 = 35 till x8 = 85 ett linjärt avtagande polynom. Innan och efter det är faktorerna konstanta. Den mesta av durationen, ungefär 95%, finns mellan värdena 35 och 85, faktorerna varierar väldigt kraftigt i detta intervall, från 0,77 till 1,77. Vi har därför att denna variabel är väldigt viktig när riskmodellen används på ett bestånd motsvarande den vi haft i analysen. Det finns 125 värden av variabeln. Graf 3. Faktorer för variabel x8 Tabell 10. Andel duration per intervall av värden för variabel x8 Innehåller: Andel av durationen: ,08 % ,91 % ,63 % ,12 % ,06 % ,29 % ,76 % ,97 % ,43 % ,71 % ,69 % ,34 % 24

26 Variabel x9 Variabel x9 har faktorer med förutbestämda värden. Variabeln är segmenterad i väldigt många grupper och faktorerna varierar ganska mycket. Denna variabel är därför viktig för riskmodellen. Det finns 54 olika värden av variabeln. Graf 4. Faktorer för variabel x9 Tabell 11. Andel duration per värde och faktorvärden för variabel x9 Värde: Andel av durationen: Värde: Duration: Värde: Andel av durationen: Värde: Andel av durationen: 1 0,13% 15 0,00% 29 0,59% 43 1,10% 2 1,35% 16 0,00% 30 1,55% 44 1,92% 3 0,15% 17 0,00% 31 3,15% 45 1,20% 4 0,19% 18 0,00% 32 5,71% 46 0,94% 5 0,23% 19 0,01% 33 9,91% 47 0,69% 6 0,22% 20 0,01% 34 11,01% 48 0,59% 7 0,26% 21 0,07% 35 12,08% 49 0,60% 8 0,29% 22 0,02% 36 10,47% 50 0,16% 9 0,30% 23 0,08% 37 10,59% 51 0,14% 10 0,39% 24 0,05% 38 8,46% 52 0,12% 11 0,42% 25 0,09% 39 4,19% 53 0,18% 12 0,15% 26 0,06% 40 1,07% 54 8,55% 13 0,00% 27 0,12% 41 0,14% 14 0,00% 28 0,29% 42 0,01% Variabel x10 Variabel x10 består av två grupper med förutbestämda faktorvärden. Faktorerna skiljer sig marginellt åt och en absolut majoritet av durationen finns i värde 1, så denna variabel har marginell inverkan på riskmodellen. Tabell 12. Andel duration per värde och faktorvärden för variabel x10 Värde på variabel: Faktor på variabel: Andel av durationen: ,94 % 2 0,991 2,06 % 25

27 Variabel x11 - x15 Eftersom variablerna x11 - x15 tillsammans ersätter variabel y1 presenteras dessa variabler tillsammans. Variablerna x11-x14 består av två värden vardera, medan x15 består av fyra. Faktorerna skiljer sig en del åt och durationen är relativt jämt fördelad, så dessa variabler är som helhet väldigt viktiga för riskmodellen. Tabell 13. Andel duration per värde och faktorvärden för variabel x11 - x15 Värde på variable x11: Faktor på variabel x11: Andel av durationen: ,23 % 2 0, ,77 % Värde på variable x12: Faktor på variabel x12: Andel av durationen: ,59 % 2 1, ,41 % Värde på variable x13: Faktor på variabel x13: Andel av durationen: 1 0, ,31 % ,69 % Värde på variable x14: Faktor på variabel x14: Andel av durationen: 1 1, ,09 % ,91 % Värde på variable x15: Faktor på variabel x15: Andel av durationen: 1 0, ,68 % 2 0,724 30,87 % 3 0, ,55 % ,89 % 4.2. Värden och standardfel I tabell 14 visas dels betakoefficienterna som fås av regressionen och dels deras standardfel. Från ekvation och har vi för linjär loglinjär GLM att: log(μ i ) = β j x ij j μ i = e β jx ij j I delkapitel 2.7. la vi fram teorin som kopplar dessa ekvationer med multiplikationsprincipen. Vi har exempelvis att log (γ 0 ) är det förväntade log-värdet för referenscellen, som i tabell 13 kan läsas av till 4,6574. Detta motsvaras av ekvationerna att β 1 = 4,6574 och x ij = 1 för alla försäkringar. Anledningen till att varje grupperad variabel har en tom rad är att de försäkringar som har samma värde på variabeln som referenscellen inte har en betakoefficient (som om den fanns skulle vara lika med 0). Ett annat exempel är att log(γ x3,2 ) = 1 då referenscellen har värden som tillhör grupp 2 av variabeln x3. Ingen betakoefficient finns därför och raden för x3(2) är tom. Vi har även enligt tabellen att log(γ x3,1 ) = 0,5685. Detta motsvaras av ekvationerna att β 2 = 0,5685 och x ij = 1 för de försäkringar som tillhör grupp 1 av variabel x3. I tabellen skrivs även exponent värdet ut som beskriver faktorerna e β j i multiplikationsmodelleringen av μ i. 26

28 Nedan visas även standardfelen. Standardfelen uttryckt som procent av betakoefficienten är dock mer användbar. Ett högt standardfel uttryckt i procent av betakoefficienten betyder att det inte finns en statistisk signifikant skillnad mellan faktornivån och referenscellen. Standardfel på under 50% markeras som gröna, mellan 50%-75% som gråa och över 75% som röda. Detta är en fingervisning om hur höga standardfel som kan tillåtas i en modell. De höga standardfelen för kurvorna hos x1 beror på att vi styckat upp kurvan i så pass många delar. Jag vet dock att x1 ska vara växande (detta p.g.a. vad x1 representerar) och valde att ha många kurvor för att kunna följa risken bättre, så detta innebär egentligen inga problem. Både x12 och x15:s värde 3 har relativt höga standardfel men efter övervägning ansågs de vara tillräckligt låga för att tas med i riskmodellen. Tabell 14. Riskmodellens betakoefficineter och standardfel Standardfel som Variabel (värde/kurva) Betakoefficint Exp(Betakoefficinet) Standardfel procent av medelvärdet (%) Referenscell 4, ,3631 0, ,4 x3 (1) 0,5685 1,7655 0, ,1 x3 (2) x4 (1) x4 (2) 0,3168 1,3727 0, ,8 x6 (1) -0,3677 0,6923 0, ,6 x6 (2) x6 (3) -0,2025 0,8167 0, ,6 x12 (1) x12 (2) 0,1409 1,1514 0, ,2 x11 (1) x11 (2) -0,2292 0,7952 0, ,5 x15 (1) -0,2745 0,76 0, ,3 x15 (2) -0,323 0,724 0, ,7 x15 (3) -0,2239 0,7994 0, ,8 x15 (4) x13 (1) -0,2191 0,8033 0, ,7 x13 (2) x14 (1) 0,2743 1,3156 0,091 33,2 x14 (2) x8 (linjär kurva 1) -0,3557 0,7007 0, ,7 x7 (linjär kurva 1) -0,1078 0,8978 0, ,3 x1 (linjär kurva 1) 0,1753 1,1916 0, ,3 x1 (linjär kurva 2) 0,0468 1,048 0, ,5 x1 (linjär kurva 3) 0,0648 1,067 0, ,9 x1 (linjär kurva 4) 0,2195 1,2454 0, ,7 x1 (linjär kurva 5) 0,1249 1,133 0, ,5 27

29 4.3. Chi-Squared test Som beskrivet i kapitel 2.9. kan vi undersöka om det finns en statistisk signifikant skillnad mellan två modeller genom att göra ett Chi-Square test mellan skillnaderna hos modellernas deviance. Ett gränsvärde på 5% för Chi squared sannolikheten brukar användas för att indikera att det finns en signifikant skillnad mellan modellerna. För att på ett strukturerat sätt undersöka om varje variabel leder till en statistiskt signifikant skillnad börjar vi med att skapa en modell med alla förutbestämda värden, alltså variablerna x2, x5, x9 och x10. Detta gör vi för det första för att Emblem inte gör några nya beräkningar när vi lägger till en förutbestämd variabel. För det andra finns det ingen poäng med att veta om dessa variabler bidrar med nån signifikant skillnad då det redan är bestämt att dessa variabler ska ingå i riskmodellen med valda faktornivåer. Efter det lägger vi till en variabel åt gången för att se om den ledde till en signifikant skillnad mellan modellerna. Tabell 15 visar resultatet av denna process. Tabell 15 visar att alla variabler förutom variabel x11 ger väldigt signifikanta chi-squared test. Variabel x11 har ett Chi-Square test på hela 14.2 %. Vi borde därmed överväga att ta bort denna variabel innan riskmodellen implementeras. Tabell 15. Deviance och Chi-Square test för riskmodeller Modell: Devinace: Chi-Squared: Förutbestämda värdena x2, x5, x9 och x Lagt till x ,00% Lagt till x1 och x ,00% Lagt till x1, x3 och x ,40% Lagt till x1, x3, x4 och x ,10% Lagt till x1, x3, x4, x6 och x ,00% Lagt till x1, x3, x4, x6, x7 och x ,00% Lagt till x1, x3, x4, x6, x7, x8 och x ,20% Lagt till x1, x3, x4, x6, x7, x8, x11 och x ,00% Lagt till x1, x3, x4, x6, x7, x8, x11, x12 och x ,70% Lagt till x1, x3, x4, x6, x7, x8, x11, x12, x13 och x ,20% Lagt till x1, x3, x4, x6, x7, x8, x11, x12, x13, x14 och x15 (Slutgiltiga riskmodellen) ,00% 4.4. Korrelation Variablerna som tagits med i min riskmodell korrelerar enligt tabell 16. Det är svårt att säga hur starka korrelationer som kan tillåtas, vilket nämndes i teoridelen. Om det finns starka korrelationer bör de dock motiveras. De flesta variabler i min riskmodell har inga starka korrelationer. De finns dock ett par starka korrelationer som är markerade i tabellen. Dessa är: 28

30 x7 med x6 x11, x12, x13, x14 och x15 är parvis korrelerade med varandra Att det är stark korrelation mellan x7 och x6 beror på att värdet på x7 på ett naturligt sätt påverkar sannolikhetsfördelningen för x6. De beskriver dock två väldigt olika saker så de bör båda tas med i riskmodellen. En liknelse är grundskoleelevers längd och ålder, långa elever tenderar till att vara längre men informationen från dessa två variabler är långt ifrån identiska. Att x11 x15 är parvis korrelerade med varandra beror på att alla dessa variabler har med geografi att göra. Som vi såg i delkapitel 4.2. så är standardfelen inte allt för höga trots dessa korrelationer. Tabell 16. Korrelationer mellan variablerna Faktor x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x1 1 x2 0,08 1 x3 0,18 0,04 1 x4 0,1 0,02 0,04 1 x5 0,02 0,01 0,02 0,01 1 x6 0,13 0,01 0,08 0,18 0,02 1 x7 0,06 0,06 0,19 0,13 0,01 0,5 1 x8 0,03 0,03 0,11 0,03 0,02 0,03 0,06 1 x9 0,04 0,02 0,09 0,02 0,08 0,04 0,04 0,1 1 x10 0,13 0,01 0,09 0,03 0,02 0,01 0,11 0,07 0,08 1 x11 0,04 0,04 0,04 0,05 0,03 0,2 0,03 0,02 0,03 0,04 1 x12 0,05 0,02 0,02 0,03 0,02 0,1 0,03 0,03 0,03 0,01 0,68 1 x13 0,03 0,04 0,05 0,06 0,03 0,19 0,03 0,02 0,03 0,03 0,66 0,69 1 x14 0,03 0,04 0,05 0,06 0,02 0,21 0,03 0,02 0,03 0,03 0,71 0,77 0,65 1 x15 0,03 0,04 0,05 0,05 0,02 0,13 0,03 0,03 0,03 0,05 0,33 0,22 0,25 0,

31 5. Analys av modellen För att jämföra min riskmodell med den nuvarande riskmodellen har tre olika typer av valideringar gjorts. Validering 1 jämför riskmodellerna för varje enskild variabel, vi undersöker hur väl riskmodellerna följer riskpremien för olika värden eller olika grupperingar av variabeln. Validering 2 aggregerar försäkringarna efter premieförändringen och undersöker riskration hos de olika modellerna. Slutligen testar validering 3 hur bra riskmodellerna är som helhet. Valideringen görs dels på träningdatan som modellen är optimerad efter men även efter valideringsdatan som inte var med då riskmodellen skapades. På så sätt kan vi se hur väl riskmodellen står sig på data som den inte har optimerats efter. 5.1 Validering 1 Validering 1 visar hur väl min riskmodell samt den nuvarande tariffen följer riskpremien för varje oberoende variabel, dels för variablerna i min modell men även för den variabel i den nuvarande tariffen som inte har tagits med i min riskmodell, här benämnd y1. Variabeln y1 har i min riskmodell ersatts av variablerna x11, x12, x13, x14 och x15, övriga variabler i nuvarande tariff finns med i min riskmodell. Variablerna med förutbestämda värden tas inte med i denna validering. För de variabler som givits faktorer enligt ett polynom delas värdena av variablerna upp i lämpliga grupper. Förtydligande av graferna: Risk_premie: Riskpremien Riskmodell_premie: Min riskmodell Tariff_premire: Nuvarande tariffs riskmodell Duration: Visar andelen duration som har ett visst värde på variabeln Variabel x1 I valideringen av denna variabel har värdena för variabel x1 delats upp enligt tabell 17. Det syns tydligt i graf 5 och graf 6 att min riskmodell följer riskpremien bättre än nuvarande tariff. Främst för träningsdata men även för valideringsdata. Vi konstaterade redan i resultatdelen att denna variabel är väldigt viktig för riskmodellen. Att min riskmodell följer risken så pass mycket bättre än den nuvarande riskmodellen innebär därmed ett stort övertag för min riskmodell. Tabell 17. Beskrivning av grupper för validering av variabel x1 Grupp: Innehåller: Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp

32 Graf 5. Validering för variabel x1 på träningsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 6. Validering för variabel x1 på valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell Variabel x2 Variabel x2 har förutbestämda värden och tas därför inte med i denna validering. 31

33 5.1.3 Variabel x3 Min riskmodell följer risken exakt för träningsdata enligt graf 7 (vilket är uppenbart då modellen har gjorts på detta sätt). I valideringsdata överskattar dock min modell risken grovt och den nuvarande tariffen ger då bättre resultat. Det är därför svårare att bedöma vilken modell som är den bättre. Klart är i alla fall att den gamla tariffens riskmodell förmodligen underskattar risken. En förklaring till att min riskmodell ger så dåligt resultat för valideringsdata är att grupp 1 innehåller lite duration och att valideringsdatan bara består av 20 % av den totala mängden data. Den låga durationen för grupp ett i valideringen leder till volatil riskpremie. Graf 7. Validering för variabel x3 på träningsdata och valderingsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell Variabel x4 Min riskmodell följer risken väldigt bra både för träningsdata och valideringsdata vilket dock även nuvarande tariffen gör. Denna nya variabel ger alltså ingen förbättring för min riskmodell jämfört med den nuvarande. Graf 8. Validering för variabel x4 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell Variabel x5 Variabel x5 har förutbestämda värden och tas därför inte med i denna validering. 32

34 5.1.6 Variabel x6 För variabel x6 har en gruppering gjorts enligt tabell 18. Vi ser i graf 9 att min riskmodell såklart följer risken väldigt bra för träningsdata. För valideringsdata följs risken ganska bra. I båda fallen följs risken bättre i min riskmodell än för nuvarande tariffs riskmodell. Det är dock ingen jättestor förbättring eftersom den nuvarande tariffens riskmodell följer riskpremien relativt väl. Denna nya variabel ger därmed bara en viss förbättring av prestanda för min riskmodell jämfört med den nuvarande. Tabell 18. Beskrivning av grupper för validering av variabel x6 Grupp: Innehåller: Grupp 1 1 Grupp 2 2 Grupp Graf 9. Validering för variabel x6 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell Variabel x7 För variabel x7 har en gruppering gjorts enligt tabell 19. I resultatdelen nämndes att denna variabel var viktig för riskmodellen. Det syns tydligt i graf 10 och 11 att min riskmodell följer riskpremien bättre än nuvarande tariff. Främst för träningsdata men även för valideringsdata. Implementeringen av denna nya variabel innebär därmed en stor fördel för min riskmodell jämfört med den nuvarande. Tabell 19. Beskrivning av grupper för validering av variabel x7 Grupp: Innehåller: Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp

35 Graf 10. Validering för variabel x7 på träningsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 11. Validering för variabel x7 på valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell Variabel x8 För variabel x8 har en gruppering enligt tabell 20 gjorts i valideringen. Det syns tydligt i graf 12 och 13 att min riskmodell följer riskpremien bättre än nuvarande tariff. Främst för träningsdata men även för valideringsdata. Riskpremien för valideringsdata är visserligen väldigt volatil men det går ändå att se en tydlig 34

36 minskning i riskpremie i och med högre värde på variabel x8. I resultatdelen bestämdes denna variabel som väldigt viktig. Att riskmodellen följer riskpremien bättre för denna variabel innebär därmed en stor förbättring för min riskmodell jämfört med den nuvarande. Tabell 20. Beskrivning av grupper för validering av variabel x8 Grupp: Innehåller: Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Grupp Graf 12. Validering för variabel x8 på träningsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 35

37 Graf 13. Validering för variabel x8 på valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell Variabel x9 Variabel x2 har förutbestämda värden och tas därför inte med i denna validering Variabel x10 Variabel x2 har förutbestämda värden och tas därför inte med i denna validering Variabel x11 - x15 samt variabel y1 Eftersom variabel x11 till x15 i min riskmodell ersatt variabel y1 i nuvarande tariffs riskmodell valideras dem tillsammans. Min riskmodell följer enligt graf 14 risken väldigt bra både för träningsdata och valideringsdata för variabel x11 vilket den nuvarande tariffen inte gör. 36

38 Graf 14. Validering för variabel x11 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Min riskmodell följer enligt graf 15 risken väldigt bra både för träningsdata och valideringsdata för variabel x12 vilket dock även den nuvarande tariffen gör. Graf 15. Validering för variabel x12 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. För variabel x13 följer enligt graf 16 min riskmodell risken betydligt bättre än nuvarande tariffs riskmodell på träningsdata, men skillnaden är obetydlig för valideringsdata. 37

39 Graf 16. Validering för variabel x13 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 17 visar att min riskmodell följer risken bra för träningsdata och ganska bra för valideringsdata för variabel 14. Den nuvarande tariffens riskmodell följer risken ungefär lika väl. Graf 17. Validering för variabel x14 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Graf 18 visar att min riskmodell såklart följer risken väldigt bra för träningsdata, nuvarande tariff följer dock risken relativt bra den med. För valideringsdata följer varken min riskmodell eller nuvarande tariff riskpremien väl. 38

40 Graf 18. Validering för variabel x15 på träningsdata och valideringsdata. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. Variabeln y1 finns som sagt inte med i min riskmodell men däremot i nuvarande tariffs riskmodell. Graf 19 visar dock att min riskmodell och nuvarande tariffs riskmodell följer risken ungefär lika bra för denna variabel. Durationen för grupp 4 är så pass låg så det spelar väldigt liten roll att nuvarande tariffs riskmodell följer risken bättre för denna grupp. För denna validering behövs såklart ingen uppdelning mellan valideringsdata och träningsdata göras. Graf 19. Validering för variabel y1 på all data. Röd linje anger riskpremien. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 39

41 Sammanfattningsvis kan det konstateras att min riskmodell följer risken bättre för x11-x15 samtidigt som risken följs ungefär lika bra för variabel y1. Det är såklart svårt att säga hur stor förbättring i risknoggrannhet detta innebär för min riskmodell jämfört med den gamla tariffens riskmodell. Denna validering tyder dock på att min riskmodell lyckas ta hänsyn till risker som nuvarande riskmodell inte tar hänsyn till och samtidigt relativt väl kunna förutse risken hos variabel y Validering 2 I denna validering så har vi premieförändringen på x-axeln, definierad som min riskmodell som procent av den nuvarande tariffen. Grupperingen 120% - 140% innehåller exempelvis de försäkringar som har tjugo till fyrtio procent högre premie med min riskmodell än med den nuvarande tariffens riskmodell. Riskration för min riskmodell visas i blått och ska i idealfallet vara ett för varje gruppering. Nuvarande tariffs riskratio visas i grönt och ska i idealfallet följa kurvan för premieförändringen (som visas i orange). Detta eftersom en ökning i premien med 20 % ska motiveras med att nuvarande tariffs riskmodell har en riskratio som är 20 % för hög. Denna validering är ett sätt att se hur bra min riskmodell är i sin helhet och om premieförändringarna är riskkorrekta. Graf 20 visar validering 2 för träningsdata och har ett önskvärt utseende. Riskration för min modell är nära ett medan riskration för nuvarande tariffs riskmodell följer linjen för premieförändringen väl. Undantaget är för de högsta premieökningarna, dessa har dock så pass låg duration så ett volatilt resultat är väntat. Graf 21 visar validering 2 för valideringsdata och har ett mer volatilt utseende. Det är dock värt att komma ihåg att vi här bara har 20% av data jämfört med träningsdata så mer volatilitet är väntat. Överlag har dock grafen ett utseende som är ganska nära det önskvärda. Vi kan slutligen konstatera att min riskmodell innebär väldigt stora premieförändringar. Graf 20. Validering efter premieförändromgar på träningsdata. Orange linje anger premieförändringen. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell. 40

42 Graf 21. Validering efter premieförändromgar på valideringsdata. Orange linje anger premieförändringen. Blå linje anger min riskmodell. Grön linje anger nuvarande tariffs riskmodell Validering 3 Validering 3 är så kallade GINI grafer. På x-axeln visas kumulativa andelen av durationen från högst premie till lägst premie och på y-axeln visas den kumulativa andelen av skadekostnad. Ett x-värde av 20% och y-värde av 40% betyder att de 20% försäkringar med högst premie står för 40% av skadekostnaden. En helt slumpmässig modell ska ha en linjär kurva med lutning 1, det symboliserar fallet då de X % försäkringar med högst premie står för X % av skadekostnaden. Ju längre ut från denna linjära kurva som en riskmodell är, ju bättre är den enligt denna validering. Vi kan beräkna GINI-koefficienten för en riskmodell som arean mellan riskmodellen och den linjära kurvan dividerat med arean mellan den linjära kurvan och x-axeln. GINI-koefficienten har en värdemängd mellan 0 och 1 och ett högre värde betyder en bättre modell. Vi ser att min riskmodell, markerat med blått, är bättre både för träningsdata och valideringsdata. Skillnaden är dock märkbart mindre för valideringsdata. Enligt GINI-koefficienterna är min riskmodell klart bättre även om skillnaderna är mindre för valideringsdata. GINI-koefficienterna ges av tabell 21. Tabell 21. GINI - koefficienter Data Modell GINI-koefficient Träningsdata Nuvarande tariffs riskmodell 0,2428 Träningsdata Min riskmodell 0,3405 Valideringsdata Nuvarande tariffs riskmodell 0,2200 Valideringsdata Min riskmodell 0,

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence

Läs mer

Formler och tabeller till kursen MSG830

Formler och tabeller till kursen MSG830 Formler och tabeller till kursen MSG830 Deskriptiva mått För ett datamängd x 1,, x n denieras medelvärde standardavvikelse standardfelet (SEM) Sannolikheter x = 1 n n i=1 = x 1 + + x n n s = 1 n (x i x)

Läs mer

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014 Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten.

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

TMS136. Föreläsning 4

TMS136. Föreläsning 4 TMS136 Föreläsning 4 Kontinuerliga stokastiska variabler Kontinuerliga stokastiska variabler är stokastiska variabler som tar värden i intervall av den reella axeln Det kan handla om längder, temperaturer,

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 6 13 november 2017 1 / 29 Idag Förra gången Mer om väntevärden och varianser (Kap. 5.2 5.3) Beroendemått (Kap. 5.4) Summor, linjärkombinationer

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare "Det finns inget så praktiskt som en bra teori" November 2011 Repetition Vad vi gjort hitills Vi har börjat med att studera olika typer av mätningar och sedan successivt tagit fram olika beskrivande mått

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4) Stat. teori gk, ht 006, JW F5 STOKASTISKA VARIABLER (NCT 5.1-5.3, samt del av 5.4) Ordlista till NCT Random variable Discrete Continuous Probability distribution Probability distribution function Cumulative

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler Föreläsning 2 4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler Stokastiskavariabler Stokastisk variabel (eng: random variable) En variabel vars värde

Läs mer

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Föreläsning 2 (kap 3): Diskreta stokastiska variabler Föreläsning 2 (kap 3): Diskreta stokastiska variabler Marina Axelson-Fisk 20 april, 2016 Idag: Diskreta stokastiska (random) variabler Frekvensfunktion och fördelningsfunktion Väntevärde Varians Några

Läs mer

Release party: Non-life Insurance Pricing with GLMs

Release party: Non-life Insurance Pricing with GLMs Release party: Non-life Insurance Pricing with GLMs Esbjörn Ohlsson & Björn Johansson Svenska Aktuarieföreningen 15 juni 2010 1 Brandstod enligt 1734 års lag Ersätter för bonden nödige hus samt säd, foder

Läs mer

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula Mykola Shykula LTU Mykola Shykula (LTU) 1 / 18 Föreläsning 2 4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler Mykola Shykula (LTU) 2 / 18 Stokastiska

Läs mer

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 5 June 217, 14:-18: Examiner: Zhenxia Liu (Tel: 7 89528). Please answer in ENGLISH if you can. a. You are allowed to use a calculator, the formula and

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Demonstration av laboration 2, SF1901

Demonstration av laboration 2, SF1901 KTH 29 November 2017 Laboration 2 Målet med dagens föreläsning är att repetera några viktiga begrepp från kursen och illustrera dem med hjälp av MATLAB. Laboration 2 har följande delar Fördelningsfunktion

Läs mer

S0005M, Föreläsning 2

S0005M, Föreläsning 2 S0005M, Föreläsning 2 Mykola Shykula LTU Mykola Shykula (LTU) S0005M, Föreläsning 2 1 / 18 Föreläsning 2 4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

Läs mer

Stokastiska signaler. Mediesignaler

Stokastiska signaler. Mediesignaler Stokastiska signaler Mediesignaler Stokastiska variabler En slumpvariabel är en funktion eller en regel som tilldelar ett nummer till varje resultatet av ett experiment Symbol som representerar resultatet

Läs mer

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor Kontinuerliga stokastiska variabler Exempel En stokastisk variabel är kontinuerlig om den kan anta vilka värden som helst i ett intervall, men sannolikheten för varje enskilt utfall är noll: P(X = x) =.

Läs mer

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik SF9: Sannolikhetslära och statistik Föreläsning 3. Stokastiska variabler, diskreta och kontinuerliga Jan Grandell & Timo Koski 8.9.28 Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 / 45 Stokastiska

Läs mer

Kap 2. Sannolikhetsteorins grunder

Kap 2. Sannolikhetsteorins grunder Kap 2. Sannolikhetsteorins grunder Olika händelser och deras mängbetäckningar Sats 2.7 Dragning utan återläggning av k element ur n (utan hänsyn till ordning) kan ske på ( n ) olika sätt k För två händelser

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar Föreläsning 3 Kapitel 4, sid 79-124 Sannolikhetsfördelningar 2 Agenda Slumpvariabel Sannolikhetsfördelning 3 Slumpvariabel (Stokastisk variabel) En variabel som beror av slumpen Ex: Tärningskast, längden

Läs mer

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik SF1901: Sannolikhetslära och statistik Föreläsning 4. Väntevärde och varians, funktioner av s.v:er, flera stokastiska variabler. Jan Grandell & Timo Koski 10.09.2008 Jan Grandell & Timo Koski () Matematisk

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Föreläsning 3. Sannolikhetsfördelningar

Föreläsning 3. Sannolikhetsfördelningar Föreläsning 3. Sannolikhetsfördelningar Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016 Slumpvariabel? Resultatet av ett slumpmässigt försök utgörs

Läs mer

Våra vanligaste fördelningar

Våra vanligaste fördelningar Sida Våra vanligaste fördelningar Matematisk statistik för D3, VT Geometrisk fördelning X är geometriskt fördelad med parameter p, X Geo(p), om P (X = k) = ( p) k p P (X k) = ( p) k för k =,,... Beskriver

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Hur måttsätta osäkerheter?

Hur måttsätta osäkerheter? Geotekniska osäkerheter och deras hantering Hur måttsätta osäkerheter? Lars Olsson Geostatistik AB 11-04-07 Hur måttsätta osäkerheter _LO 1 Sannolikheter Vi måste kunna sätta mått på osäkerheterna för

Läs mer

Statistiska metoder för säkerhetsanalys

Statistiska metoder för säkerhetsanalys F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016 SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 4 KONTINUERLIGA STOKASTISKA VARIABLER Tatjana Pavlenko 7 september 2016 PLAN FÖR DAGENS FÖRELÄSNING Repetition av diskreta stokastiska variabler. Väntevärde

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-10-12 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag Jörgen Säve-Söderbergh Väntevärde för en funktion av en stokastisk variabel Om

Läs mer

Kap 3: Diskreta fördelningar

Kap 3: Diskreta fördelningar Kap 3: Diskreta fördelningar Sannolikhetsfördelningar Slumpvariabler Fördelningsfunktion Diskreta fördelningar Likformiga fördelningen Binomialfördelningen Hypergeometriska fördelningen Poisson fördelningen

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 4 7 november 2017 1 / 29 Idag Förra gången Viktiga kontinuerliga fördelningar (Kap. 3.6) Fördelningsfunktion (Kap. 3.7) Funktioner av stokastiska

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE32 Sannolikhet och statistik 219-6-5 kl. 8:3-12:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2017-06-01 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler. SF1901: Sannolikhetslära och statistik Föreläsning 5. Flera stokastiska variabler. Jan Grandell & Timo Koski 31.01.2012 Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 1 / 30 Flerdimensionella

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Matematisk statistik 9hp Föreläsning 7: Normalfördelning Matematisk statistik 9hp Föreläsning 7: Normalfördelning Anna Lindgren 29+3 september 216 Anna Lindgren anna@maths.lth.se FMS12/MASB3 F7: normalfördelning 1/18 Kovarians, C(X, Y) Repetition Normalfördelning

Läs mer

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer Anna Lindgren 27+28 september 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F6: linjärkombinationer 1/21 sum/max/min V.v./var Summa av

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2 Finansiell Statistik (GN, 7,5 hp, HT 008) Föreläsning Diskreta sannolikhetsfördelningar (LLL kap. 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level

Läs mer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005 . Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 =

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F5: linjärkombinationer 1/20 sum/max/min V.v./var Summa av två oberoende, Z

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

4.1 Grundläggande sannolikhetslära

4.1 Grundläggande sannolikhetslära 4.1 Grundläggande sannolikhetslära När osäkerhet förekommer kan man aldrig uttala sig tvärsäkert. Istället använder vi sannolikheter, väntevärden, standardavvikelser osv. Sannolikhet är ett tal mellan

Läs mer

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl Karlstads universitet Institutionen för informationsteknologi Avdelningen för statistik Tentamen i Statistik, STA A13 Deltentamen, 5p 1 januari 006, kl. 09.00-13.00 Tillåtna hjälpmedel: Bifogad formel-

Läs mer

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3 Laboration 2 Fördelningar och simulering Introduktion 2014-02-06 Syftet med laborationen är dels

Läs mer

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Statistiska Institutionen Gebrenegus Ghilagaber (docent) Lösningsförslag till skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, VT09. Onsdagen 3 juni 2009-1 Sannolkhetslära Mobiltelefoner tillverkas

Läs mer

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik SF1901: Sannolikhetslära och statistik Föreläsning 5. Kovarians, korrelation, väntevärde och varians för summor av s.v.:er, normalfördelning (del 1) Jan Grandell & Timo Koski 15.09.2008 Jan Grandell &

Läs mer

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE30 Sannolikhet, statistik och risk 207-06-0 kl. 8:30-3:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 03-7725348 Hjälpmedel: Valfri miniräknare.

Läs mer

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD 208-08-26 Sannolikhetsteori Följande gäller för sannolikheter: 0 P(A P(Ω = P(A

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer

Mer om slumpvariabler

Mer om slumpvariabler 1/20 Mer om slumpvariabler Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/2 2013 2/20 Dagens föreläsning Diskreta slumpvariabler Vilket kretskort ska man välja? Väntevärde

Läs mer

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik SF9: Sannolikhetslära och statistik Föreläsning 3. Stokastiska variabler, diskreta och kontinuerliga Jan Grandell & Timo Koski 25..26 Jan Grandell & Timo Koski Matematisk statistik 25..26 / 44 Stokastiska

Läs mer

Formel- och tabellsamling i matematisk statistik

Formel- och tabellsamling i matematisk statistik Formel- och tabellsamling i matematisk statistik 1. Sannolikhetsteori för lärarprogrammet Sannolikhetsformler P (A ) = 1 P (A) P (A B) = P (A) + P (B) P (A B) P (A B) = P (A B) P (B) P (A B) = P (A B)P

Läs mer

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat. Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016 Ytterligare begrepp Viktiga

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola. Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola. Tid: Måndagen den 2015-06-01, 8.30-12.30. Examinator och Jour: Olle Nerman, tel. 7723565, rum 3056, MV, Chalmers. Hjälpmedel: Valfri

Läs mer

Matematisk statistik TMS064/TMS063 Tentamen

Matematisk statistik TMS064/TMS063 Tentamen Matematisk statistik TMS64/TMS63 Tentamen 29-8-2 Tid: 4:-8: Tentamensplats: SB Hjälpmedel: Bifogad formelsamling och tabell samt Chalmersgodkänd räknare. Kursansvarig: Olof Elias Telefonvakt/jour: Olof

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE302 Sannolikhet och statistik 2019-06-05 kl. 8:30-12:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 031-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2017-08-15 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Föreläsning 13: Multipel Regression

Föreläsning 13: Multipel Regression Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017 Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 2 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1. Avd. Matematisk statistik TENTAMEN I SF9, SF95 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 2:E JANUARI 25 KL 4. 9.. Kursledare: Gunnar Englund, 73 32 37 45 Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Laboration med Minitab

Laboration med Minitab MATEMATIK OCH STATISTIK NV1 2005 02 07 UPPSALA UNIVERSITET Matematiska institutionen Silvelyn Zwanzig, Tel. 471 31 84 Laboration med Minitab I denna laboration skall du få stifta bekantskap med ett statistiskt

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012 Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig

Läs mer