Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet Stockholm Sverige.
|
|
- Per-Erik Vikström
- för 8 år sedan
- Visningar:
Transkript
1 Å Ø Ñ Ø Ø Ø Ø ËØÓ ÓÐÑ ÙÒ Ú Ö Ø Ø ÈÖ ØØÒ Ò Ú Ò ÓÖ ÓÒ Ö Ö Ò Ñ Ê Ö Ø Ò Ë Ú Ñ Ö Ü Ñ Ò Ö Ø ¾¼½¾
2 Postadress: Matematisk statistik Matematiska institutionen Stockholms universitet Stockholm Sverige Internet:
3 Å Ø Ñ Ø Ø Ø Ø ËØÓ ÓÐÑ ÙÒ Ú Ö Ø Ø Ü Ñ Ò Ö Ø ¾¼½¾ ØØÔ»»ÛÛÛºÑ Ø º Ùº»Ñ Ø Ø Ø ÈÖ ØØÒ Ò Ú Ò ÓÖ ÓÒ Ö Ö Ò Ñ Ê Ö Ø Ò Ë Ú Ñ Ö Ñ Ö ¾¼½¾ Ë ÑÑ Ò ØØÒ Ò ÈÖ ØØÒ Ò Ú Ö Ö Ò Ö Ò Ö Ñ Ò ÑÒ ÓÐ Ø ¹ Ø Ø ÑÓ ÐÐ Öº Î ÙØ Ö ÖÒ ØÚ ÓÐ ÑÓ ÐÐ Ö Ó ÑÔÐ Ñ ÒØ Ö Ö Ñ Ñ ÐÔ Ú ÔÖÓ Ö ÑÑ Ö Ò ÔÖ Ø Ê Ó Ô Ö ÔÖ Ð ØÓÖ ¹ º º Ø Ö Ö ¹ Ö ÓÖ ÓÒ Ö Ö Ò Öº Ö Ø Ø Ö ÙÔÔÐ Ø Ñ ÙØ Ò ÔÙÒ Ø ÖÒ ØØ Ó ÑÑ Ø Ñ Ø Ö Ð ÖÒ ØØ Ö Ö Ò ÓÐ º Î Ö Ö Ò Ö Ø Ø Ö Ò Ô ØÓÖÚ Ö Ð Ö Ó Ò Ò Ö Ð Ö Ð Ò Ö ÑÓ ÐÐ Äŵº Ö Ø Ö ÒÚÒ Ö Ú Ó Ú Ò Ò Ö Ð Ö Ø Ú ÑÓ ÐРŵ Ñ ÙÖÚ ÒÔ Ò Ò ¹ ÔÐ Ò µ Ö ÓÒØ ÒÙ ÖÐ Ú Ö Ð Öº ÈÓ Ø Ö Å Ø Ñ Ø Ø Ø Ø ËØÓ ÓÐÑ ÙÒ Ú Ö Ø Ø ½¼ ½ ËÚ Ö º ¹ÔÓ Ø Ñ Ø Ð Ö Ñ ÐºÓѺ À Ò Ð Ö Â Ò¹ÇÐÓÚ È Ö ÓÒº
4 Abstract Pricing of non-life insurance can be made with a variety of statistical models. We assume two different models and implement them using the programming language R and create price lists - so called tariffs - for vehicle insurance. The work is organized on the basis of the same data set from an insurance company. We base the first tariff on factor variables and a generalized linear model (GLM). Then, we use a generalized additive model (GAM) with curve fitting (B-splines) for continuous variables. i
5 Tack Jag vill speciellt tacka till Björn Johansson vid Länsförsäkringar för att ha formulerat problemställningen, svarat på frågor och försett mig med datamaterial. Stort tack riktas även till Jan-Olov Persson vid Matematiska insitutionen, Stockholms universitet för handledning och all konstruktiv kritik. ii
6 Innehåll 1 Introduktion 1 2 Datamaterial 3 3 Generaliserad linjär modell Allmänt Offset Skattningar av parametrar Cellindelning Nyckeltal Multiplikativ struktur för väntevärden Fördelningar för nyckeltalen GLM i R Skattade relationstal Generaliserad additiv modell Allmänt Splines Ändligt antal värden Skattning av parametrar Approximerad korsvalidering GAM i R Skattade relationstal Diskussion 27 6 Appendix Datamaterial Diverse funktioner i R B-splines av grad Referenser 32 iii
7 1 Introduktion Vid bestämmande av priset för ett försäkringsavtal är det nödvändigt att utföra beräkningar på stora datamaterial. Dessa datamaterial är skapade av försäkringsbolaget och innehåller bland annat information om försäkringstagarna, försäkringsobjektens egenskaper, försäkringsavtalens giltighetsperioder och historik över försäkringstagarnas skador och kostnader. Även med dagens kraftfulla datorer och serversystem kan det ta lång tid att beräkna priset för försäkringsavtalet i den vanligt förekommande programmeringsmiljön SAS 1. I vissa fall vill man använda sig av teori och funktionalitet som ännu inte implementerats eller som finns i en senare version vilken man inte har betalat licensavgift för. R är ett annat 2 programmeringsspråk vars huvudsakliga användningsområde liksom SAS är statistisk analys. Till skillnad från SAS är R gratis och bygger på principen om att alla är välkomna att utveckla det genom skapandet av tilläggsbibliotek. Det är därmed ett potentiellt alternativ för ett försäkringsbolag som önskar minska sina licenskostnader. Vi ämnar undersöka om vi med framgång kan bestämma en tariff lista med priser för en försäkring på ett stort datamaterial från Länsförsäkringars motorförsäkringsportfölj med R. Bestämmandet av priser gör vi genom att modellera hur stor ekonomisk risk varje försäkringstagare utgör i ett kundbestånd eftersom det är denna ekonomiska risk som ligger till grund för hur mycket vi förväntar oss att behöva betala försäkringstagaren. Rent teoretiskt är det bäst att låta varje försäkringstagare betala för exakt så stor förväntad ekonomisk risk han eller hon utgör varken mer eller mindre. Ty om vi låter försäkringstagaren betala för mycket riskerar vi att förlora försäkringstagaren till en konkurrent och om vi låter försäkringstagaren betala för lite förlorar vi inkomst. I verkligheten måste man även ta hänsyn till annat, såsom försäkringsbolagets omkostnader, reservsättning, marknadsläget, prisdifferentiering, vinstmål etc. Försäkringstagarens ekonomiska risk skattar vi genom att dela upp försäkringstagare med liknande egenskaper i så homogena celler som möjligt, för att sedan skatta cellens gemensamma ekonomiska risk. I arbetsgången, som föreslogs av Björn Johansson vid Länsförsäkringar, implementerar vi två modeller som är tänkbara vid skattning av sådana ekonomiska risker. Vår första tariff är en tillämpning av en generaliserad linjär modell (förkortat GLM). Denna modell formulerades av John Nelder och Robert Wedderburn på 70-talet. Den andra modellen generaliserar en beståndsdel i en GLM
8 i något som kallas för en generaliserad additiv modell (GAM). Eftersom det tar lång tid att implementera modellerna fokuserar vi på själva prissättningen och utför ingen modelldiagnostik eller större jämförelse av modellerna. 2
9 2 Datamaterial Till vårt förfogande har vi ett datamaterial som består av ungefär två miljoner observationer. Datamaterialet kommer från Länsförsäkringars motorförsäkringsportfölj. Varje observation utgör en försäkring med eventuella förnyelser vilket innebär att vissa har gällt länge men även att olika observationer kan vara samma kund vid olika tidpunkter. Observationerna innehåller uppgifter om försäkringstagarens kön och ålder, fordonets tillverkare, ålder, vikt och vikt per hästkraft, hur länge försäkringen gällt, antal skador och total skadekostnad för skadorna. Det är inte känt under vilka datum dessa försäkringskontrakt har gällt. I tabell 1 ger vi en överblick av tillgänglig data och i appendix (tabell 7) ger vi ett utdrag av observationer. Tabell 1: Överblick av datamaterialet. Kategoriska variabler Variabel Värden Kön M för man K för kvinna Bilmärkeskod 001 till 151 Körsträckecell 1 = 0 till 1000 mil per år 2 = 1000 till 1500 mil per år 3 = 1500 till 2000 mil per år 4 = 2000 till 2500 mil per år 5 = 2500 eller fler mil per år Kontinuerliga/Diskreta variabler Variabel Fordonsägarens ålder Fordonets ålder Fordonets vikt Fordonets vikt/effekt (kg/hk) Antal försäkringsår Antal skador Skadekostnad Värden Hela år Hela år Hela kg Kg per hästkraft År Hela kronor Sammanfattning Antal försäkringar Antal skador Medelvärde bland skadekostnader kronor Minimum bland skadekostnader 1 kronor Maximum bland skadekostnader kronor 3
10 3 Generaliserad linjär modell 3.1 Allmänt Vår första tariff kommer att baseras på en generaliserad linjär modell 3. I detta avsnitt beskriver vi kortfattat vad det är för att sedan tillämpa den på datamaterialet. En generaliserad linjär modell är en generalisering av en linjär modell på så vis att den tillåter responsvariabeln Y i att ha en annan fördelning från exponentialfamiljen än normalfördelningen men som vanligt med en linjär struktur mellan de oberoende variablerna X (kallad designmatris) och väntevärdena för Y i enligt E[Y ] = µ = g 1 (Xβ) där g är den s.k. länkfunktionen och β är okända parametrar. Allmänt kan X innehålla värden för de oberoende variablerna i varje kolonn och dummyvariabler om en variabel är en faktor i modellen. Sannolikhetsfunktionen (eller täthetsfunktionen) för Y i kan skrivas [ ] yi θ i b(θ i ) f Yi (y i ; θ i, φ) = exp + c(y i, φ, w i ) φ/w i för några funktioner b( ) och c( ). θ i är den s.k. kanoniska parametern och kan bero på i medan dispersionsparametern φ > 0 är samma för alla i. Här antas att data är given på listform vilket innebär att i motsvaras av en rad i en tabell med samma form som tabell 7. En rad i en sådan tabell innehåller även exponeringsvikten w i och responsvariabeln y i. Vi kommer att använda oss av relativ Poissonfördelning, varför vi nu ger detta som exempel på en medlem i exponentialfamiljen. Anledningen till att vi använder oss av den relativa Poissonfördelningen är att vi senare antar att w i Y i P o(w i µ i ). Exempel 3.1. Relativ Poissonfördelning. Med wy N + där w är en vikt, är täthetsfunktionen för en relativt Poissonfördelad stokastisk variabel Y wµ (wµ)wy f Y (y; µ) = e (wy)! = exp[w(y log(µ) µ) + c(y, φ, w)], µ > 0 Med den nya parametriseringen θ = log(µ) får vi [ ] yθ e θ f Y (y; θ) = exp + c(y, φ, w) φ/w 3 På engelska: generalized linear model, se exempelvis [1] eller originalartikeln av Nelder och Wedderburn på 4
11 Detta är alltså en täthetsfunktion ur exponentialfamiljen med φ = 1 och b(θ) = e θ. 3.2 Offset En offset O är en vektor med konstanter i den linjära strukturen g(µ) = Xβ + O Det kan vara så att man redan känner till en effekt på g(µ) från en variabel som man inte vill skatta parametrar för och som inte ingår i designmatrisen men ändå vill inkludera den. Vi kommer att använda oss av offsets i senare avsnitt. 3.3 Skattningar av parametrar Mellan θ i och µ i gäller att och mellan µ i och β att b (θ i ) = µ i (1) m µ i = g 1 x ij β j (2) j=1 för de m parametrarna β j. För att få den mest sannolika skattningen av β (och därmed även θ i ), tittar vi på logaritmen av produkten i P (Y i = y i ) = i f Y i (y i ; θ i ). Denna, som funktion av θ, är log-likelihoodfunktionen l(θ; φ, y) = 1 w i (y i θ i b(θ i )) + c(y i, φ, w i ) φ i i Tillsammans med sambanden (1) och (2) ovan och kedjeregeln deriverar vi den m.a.p. β j. Vi sätter derivatan till 0 och får då Maximum Likelihoodekvationerna vilket ger skattningar för β. Resultatet är där även l = β j i w i y i µ i b (b 1 (µ i ))g (µ i ) x ij = 0, m µ i = g 1 x ij β j j=1 j = 1, 2,..., m för givna x ij måste vara uppfyllt. Lösningen maximerar alltså likelihoodfunktionen och räknas vanligtvis ut numeriskt med hjälp av dator. Se [1] för en mer detaljerad uträkning. 5
12 3.4 Cellindelning Vissa variabler i datamaterialet med försäkringstagarens och fordonets uppgifter är kategoriska medan andra är antingen diskreta eller kontinuerliga. Vi kommer att skapa s.k. faktorer av variablerna. Varje faktor har ett antal nivåer som motsvaras av antingen värden för variabeln eller intervall av värden. Kategoriska variabler har ofta en naturlig nivåuppdelning medan övriga delas upp i disjunkta mängder och varje sådan mängd motsvarar en nivå. Celler som försäkringstagare delas in i är en kombination av en nivå från var och en av faktorerna och eventuellt ett värde på var och en av övriga förklarande variabler i modellen alla variabler i designmatrisen behöver i allmänhet inte vara faktorer. Olika rader i datamaterialet (som är på listform) med samma kombination av nivåer och värden på variabler som inte är faktorer, slår vi ihop till en enda cell. Antalet skador, skadebelopp och hur länge försäkringarna har gällt summerar vi i och med detta. Vår modell, som kommer att baseras på en generaliserad linjär modell enligt föregående avsnitt, låter vi innehålla de förklarande variablerna kön-ägarålder, fordonsålder, årlig körsträcka, fordonsvikt och fordonets vikt per effekt. Könägarålder är ett kopplat argument med en indelning i yngre män, äldre män, yngre kvinnor och äldre kvinnor. Alla dessa variabler låter vi vara faktorer. Man kan dela upp beståndet i fler celler men vi väljer här få nivåer per faktor eftersom vi kommer att göra cellindelningen på ett mer elegant sätt i ett senare avsnitt. Nivåuppdelningen för de olika faktorerna sammanfattar vi i tabell Nyckeltal I ett tidigare avsnitt beskrev vi att försäkringstagare (el. observation) i med samma värden på variablerna i designmatrisen tillhör samma cell. Låt index i beteckna aggregerad data över olika försäkringstagare som tillhör samma cell. Antalet skador i en cell i är en stokastisk variabel som vi betecknar med N i och skadebelopp, även det en stokastisk variabel, för enskilda försäkringstagare betecknar vi med X ik. Hur länge försäkringarna, som tillhör samma cell, tillsammans har gällt kallar vi för cellens sammanlagda duration och mäter denna i försäkringsår. Vi betecknar den med w i. Vi kommer att modellera tre storheter som vi kallar nyckeltal för cell i: skadefrekvens, medelskada och riskpremie. Skadefrekvens S i definieras som antalet skador per försäkringsår, medelskada M i som skadekostnad per skada och riskpremie R i som skadekostnad per 6
13 Tabell 2: Faktorer och nivåer. Faktorindex j Faktor Nivå Nivåbeskrivning 1 Kön-ålder 1 Kvinnor yngre än 30 år 2 Kvinnor äldre än 30 år 3 Män yngre än 30 år 4 Män äldre än 30 år 2 Fordonsålder år år år 4 9 år eller äldre 3 Fordonsvikt kg kg kg kg eller mer 4 Körsträcka mil/år mil/år mil/år mil/år mil/år eller mer 5 Fordonets kg/hk vikt/effekt kg/hk kg/hk 4 30 kg/hk eller mer försäkringsår. Mellan nyckeltalen gäller sambandet R i = S i M i När vi inte menar ett speciellt nyckeltal använder vi beteckningen Y i. Vi sammanfattar detta i tabell 3. Vi vill skatta förväntad skadekostnad för försäkringstagare i varje cell. Denna skattning delar man vanligtvis upp i att först skatta E[S i ] hur ofta vi förväntar att en skada uppstår och sedan E[M i N i = n i ] hur mycket vi förväntar att skadan kostar. Genom att sedan multiplicera de två får vi fram hur mycket vi förväntar oss att försäkringstagarna i cellen kommer att kosta per försäkringsår. Vi har följande sats från [1]. Sats 3.1. Mellan E[R], E[S] och E[M] gäller sambandet E[R] = E[S] E[M] 7
14 Tabell 3: Nyckeltal. Nyckeltal Skadefrekvens Medelskada Riskpremie Y i S i = Antal skador Duration = N i w i M i = Skadekostnad Antal skador = R i = Skadekostnad Duration = N i X ik k=1 N i N i X ik k=1 w i Denna sats använder vi senare när vi har skattat E[S] och E[M] för att få fram E[R]. 3.6 Multiplikativ struktur för väntevärden Väntevärdena för nyckeltal kommer fortsättningsvis att antas ha en multiplikativ struktur: E[Y i ] = µ i = µ 0 γ i1... γ ik... γ ik där γ ik är relationstal för variabel k och rad i i data på listform. För varje variabel väljer vi en basnivå och alla basnivåer utgör tillsammans en bascell. Det är lämpligt att välja basnivåer med hög exponering eftersom vi då får en stabil skattning av bascellens väntevärde. För basnivåerna låter vi γ ik = 1. Detta leder senare till att modellen får en unik lösning när vi skattar parametrarna. Man kan tolka µ 0 som bascellens väntevärde av nyckeltalet och relationstalen som de procentuella avvikelserna från det. Väljer vi länkfunktion g(x) = log(x) får vi g 1 (x) = e x och därmed µ i = e Xiβ = e m j=1 βjxij = e β1xi1... e βmxim = µ 0 γ i1... γ ik... γ ik vilket är sambandet mellan relationstalen, parametrarna och väntevärdet för observation i. 8
15 3.7 Fördelningar för nyckeltalen Vi gör även i detta skede ett par modellantaganden: Vi antar att antalet skador och skadekostnader är oberoende mellan olika försäkringstagare. Vi antar även att de är oberoende i tid, dvs. olika skador och skadekostnader för samma försäkringstagre är oberoende. Slutligen antar vi att om två försäkringstagare tillhör samma cell och har samma exponering, så har de samma fördelning för antalet skador och skadekostnader. Låt N(t) beteckna antalet skador för ett försäkringskontrakt under intervallet [0, t] och N(0) = 0. Den stokastiska processen {N(t), t 0} kallas för skadeprocessen och med de två sista antagandena ovan samt ett antagande om att skador inte anhopar, kan man enligt [1] visa att skadeprocessen är en Poissonprocess. Vi antar därför att antalet skador för ett försäkringskontrakt under ett tidsintervall är Poissonfördelat med parameter w i µ i där w i är tidsintervallets längd. På grund av det första modellantagandet ovan får vi en sammansatt Poissonprocess om vi låter två försäkringskontrakt tillhöra samma cell och får alltså även på aggregerad nivå att antalet skador är Poissonfördelat. Man kan visa att skadefrekvensen i en cell är relativt Poissonfördelad om man antar att antalet skador i en cell är Poissonfördelat 4 med parameter och väntevärde w i µ i. I figur 1 visar vi medelskadan över försäkringstagare med minst en skada. Det ser ut som att gammafördelningen kan vara ett lämpligt alternativ. Gammafördelningen har även vissa lämpliga egenskaper; den är positiv och snedvriden till höger och har en standardavvikelse proportionell mot dess väntevärde. Det är rimligt att anta att små och stora skadekostnader varierar proportionellt mot storleken på beloppen. 3.8 GLM i R Vi beskriver kortfattat hur förfarandet går till. Innan vi får fram skattningar måste datamaterialet förberedas för analys. Det innebär att vi definierar faktorer, nivåer och nyckeltal och sätter basnivåer för faktorerna. Därefter aggregerar man eventuellt observationer med samma kombination av faktornivåer för att få färre rader och snabbare skattningar av parametrar. Man förlorar dock viss 4 Vanligtvis är variansen för antalet skador i en cell större än dess väntevärde vilket inte är förenligt med antagandet om att antalet skador är Poissonfördelat. Detta beror på att försäkringstagarna i samma cell inte är helt homogena. Det är möjligt att byta ut Poissonfördelningen mot över-spridd Poisson eller negativ binomial för att få bättre anpassning. 9
16 Frekvens Skadekostnad (kr) Figur 1: Histogram över medelskadan per försäkringstagare för försäkringstagare med minst en skada. Skadekostnader över kronor finns ej med. information om man aggregerar data. Se [1] för en diskussion kring detta. Vi ger ett urval av funktioner för dessa ändamål i appendix. Efter att man har förberett data i R är det enkelt att få fram skattningar i en GLM. Det gör vi med glm(formula, family =..., weights =...,...) där formula skrivs på formen respons ~ variabel variabeln + offset(...), family är vilken familj fördelningen tillhör, weights är eventuell vikt för varje observation och offset(...) är en konstant (vektor) enligt tidigare avsnitt. När vi är intresserade av skattningar för skadefrekvensen sätter vi helt enkelt formula = skadefrekvens ~ ägarålder fordonsviktpereffekt, family = poisson(link = "log") och weights = duration. Man kan, i specialfallet med Poissonfördelningen, även använda sig av formula = antal skador ~ ägarålder offset(log(duration)), 10
17 family = poisson(link = "log") men utan någon vikt. För medelskadan gäller å andra sidan formula = medelskada ~ ägarålder fordonsviktpereffekt, family = Gammma(link = "log") och weights = antalskador. Parameterskattningar får vi enkelt fram med coef(glm(...)). Eftersom vi använder en log-länk får vi relationstalen om vi exponerar parameterskattningarna med exp(coef(glm(...))). 3.9 Skattade relationstal Sats 3.1 och antagandet om en multiplikativ struktur hos väntevärdena för nyckeltalen ger samband mellan relationstalen och bascellernas väntevärden enligt γk R = γs k γm k och µ R 0 = µ S 0 µ M 0. Detta, tillsammans med en generaliserad modell ger relationstalen i tabell 4. Vi ger ett exempel på hur mycket en man som fyllt 31 år får betala enligt denna tariff. Exempel 3.2. En man som fyllt 31 år och som försäkrar ett nytt fordon, vilket körs strax under 1500 mil per år, med vikt kring 1400 kg och med 15 kg per hk får riskpremien kronor Relationstalen verkar vara rimliga, exempelvis utgör yngre försäkringstagare större risk än äldre och fordon som körs längre sträckor per år löper större risk att skadas oftare vilket medför att relationstalen ökar med körsträckan. Tittar vi på relationstalen för medelskadan ser vi att det inte är någon signifikant skillnad mellan olika körsträckenivåer förutom att de som kör allra mest utmärker sig något. De relationstal som inte är signifikant skilda från basnivåns relationstal sätter vi till 1. Detta är en av fördelarna av att analysera skadefrekvens och medelskada var för sig istället för riskpremien direkt: vi får ut mer information från analysen när vi ser om det är skadefrekvensen eller medelskadan som påverkar riskpremien mest för de olika nivåerna. Behållningen med modellen är att den är enkel: det är enkelt att skatta konfidensintervall, lägga till eller minska antalet variabler eller helt byta fördelning för skadefrekvens och medelskada. Tariffen skapar dock stora glapp mellan olika celler. En manlig kund som fyller 30 år men samtidigt inte gör några andra ändringar minskar sin premiekostnad med över 60 procent. Man kan tänka sig 11
18 att introducera fler nivåer på varje faktor men då riskerar man att få celler med för lite data vilket ger en skakig tariff. Den tredje tariffen (Avsnitt 4) inkluderar splines för de kontinuerliga variablerna för att få en tariff med färre hopp i prissättningen mellan celler. Tabell 4: Basnivåer för varje faktor är skrivna med fetstil. Relationstal med kursiv text är icke-signifkant skilda (5 %) från basnivån och vi sätter dem därför till 1. Tariff Relationstal γ j Faktor Nivåbeskrivning Skadefrekvens Medelskada Riskpremie Kön-ålder Kvinnor yngre än 30 år Kvinnor äldre än eller 30 år Män yngre än 30 år Män äldre än eller 30 år Fordonsålder 0 2 år år år år eller äldre Fordonsvikt kg kg kg kg eller mer Körsträcka mil/år mil/år mil/år mil/år mil/år eller mer Fordonets 0 10 kg/hk vikt/effekt kg/hk kg/hk kg/hk eller mer µ
19 4 Generaliserad additiv modell 4.1 Allmänt Vissa av variablerna i föregående avsnitt är svåra och tidskrävande att dela upp i disjunkta mängder som motsvarar någon nivå. Nivåuppdelning medför dessutom problemet att välja antal nivåer; väljer man många riskerar man för lite data i varje cell vilket medför osäkra skattningar och väljer man för få får man stora hopp i tariffen. I tariffen från föregående avsnitt som baseras på en generaliserad linjär modell får vi exempelvis ett stort hopp i riskpremie mellan yngre och äldre personer. Lösningen i detta avsnitt är att införa kontinuerliga kurvanpassningar till de kontinuerliga variablernas väntevärden. Detta är en generalisering av den den generaliserade linjära modellen och kallas för generaliserad additiv modell. En generaliserad additiv modell [1, 2] har en väntevärdesstruktur enligt g(µ i ) = X i β + f 1 (x i1 ) f j (x ij )... + f J (x ij ) (3) där g är länkfunktion, i som vanligt är observationsnummer och rad i data på listform, X i är en radvektor ur en designmatris X och β är en parametervektor. Funktionerna f j är godtyckliga och i detta avsnitt vill vi använda oss av splines för att anpassa en kurva för de kontinuerliga variablerna ägarens ålder, fordonets ålder, fordonets vikt och fordonets vikt per effekt. De kategoriska variablerna kön och körsträcka är fortfarande faktorer och ingår precis som tidigare i X. Tanken är att detta ska ge oss en jämnare tariff utan stora glapp mellan närliggande celler då även relationstalen blir kontinuerliga för de kontinuerliga variablerna. 4.2 Splines Splines och B-splines som vi nu ämnar definiera kan definieras på olika sätt [1, 2]. Följande definitioner är från [1]. Vi betecknar knopar tal i stigande ordning med u 1,..., u r. Definition 4.1. Spline. En funktion på intervallet [u 1, u r ] kallas för en spline av grad j om den är j 1 gånger kontinuerligt deriverbar och på varje intervall [u k, u k+1 ] är ett polynom av grad j. Definitionen säger att en spline är en kurva ihopsatt av polynom definierade på intervall. I ändpunkterna på dessa intervall kräver vi att kurvan är j 1 13
20 gånger kontinuerligt deriverbar. För ett polynom av grad tre behöver alltså både derivatan och andraderivatan vara lika i knoparna. Exempel 4.1. Kubiska splines. Om vi definierar s(x) i intervallet [u 1, u r ] som s(x) = p k (x) för x [u k, u k+1 ] och k = 1,..., r 1, där p k (x) = c k0 + c k1 x + c k2 x 2 + c k3 x 3 och c kl valda så att p k 1 (x) = p k (x) och p k 1 (x) = p k (x) för k = 2,..., r 1 får vi en spline s(x) av grad 3. Vi kommer dock ej att använda oss av definitionen av splines direkt. Satsen nedan säger att varje spline s( ) kan skrivas som en linjärkombination av s.k. B-splines. B-splines har trevliga numeriska egenskaper och är väl beprövade inom numerisk analys. Definition 4.2. B-splines. För k = 1,..., r 2 sätt { Bk(x) 0 1 : x [u k, u k+1 ) = 0 : x / [u k, u k+1 ) och för det sista intervallet B 0 r 1(x) = { 1 : x [u r 1, u r ] 0 : x / [u r 1, u r ] För m 0 definierar vi B-splines rekursivt genom B m+1 k (x) = { x uk m 1 u k+1 x u k u k m 1 Bk 1 m (x) + u k+1 u k m Bk m(x) : k = 1,..., r + m 0 : k 0 k r + m Vi låter u k = u 1 för k 0 och u k = u r för k r + 1. Här betecknar m + 1 splinens grad. B-splines består alltså av två trappfunktioner 5 varav den ena är definierad på halvöppna intervall och den andra på ett slutet intervall (det sista) och ett rekursivt samband mellan B-splines av grad m och m + 1. I appendix beräknar vi Bk 3 (x) för att ge läsaren en känsla för dess utseende. Nästa sats säger att dessa B-splines agerar byggstenar åt en spline s( ). Sats 4.1. För en given mängd av r knopar kan en spline s av grad m skrivas som s(x) = r+m 1 k=1 5 Man kan även tänka indikatorfunktioner. c k B m k (x) 14
21 Figur 2: De streckade kurvorna är B-splines av grad 3 multiplicerade med sina koefficienter. Summan av dessa bildar splinen, representerad av den heldragna kurvan. med unika konstanter c 1,..., c r+m 1. Bevis. Återfinns i [1]. I figur 2 visar vi en grafisk representation av sats 3. Använder vi oss av satsen ovan på kubiska splines får vi r+2 s(x) = c k Bk(x), 3 k=1 med unika konstanter c 1,..., c r+2. Eftersom vi uteslutande använder oss av kubiska splines (B-splines av grad 3) skriver vi hädanefter inte ut index m men samtidigt börjar vi använda oss av j som tidigare för att indikera variabelindex. Vi låter c k = β jk och på så vis binder vi ihop den allmänna formeln (3) för en GAM med splines eftersom vi nu har fått parametrar β jk som inte ingår i β att skatta: g(µ i ) = X i β + r 1+2 k=1 r j+2 β 1k B 1k (x i1 ) k=1 r J +2 β jk B jk (x ij ) k=1 β Jk B Jk (x ij ) 4.3 Ändligt antal värden Även om en variabel är kontinuerlig observerar vi blott ett ändligt antal värden av den eftersom antalet observationer är ändligt. Av beräkningsmässiga skäl 15
22 kommer vi att approximera dessa till närmevärden och anpassar därefter en kurva till närmevärdena. Vi låter dessa närmevärden betecknas av den monotont växande följden (z jk ) m k=1. Av naturliga skäl låter vi u j1 z j1 och z jm u jr där u jk betecknar en knop enligt tidigare. Det faller sig då naturligt att beteckna nyckeltal och vikter för närmevärdena med y zjk respektive eller om det framgår av sammanhanget vilken variabel som man menar, w zjk bara y zk respektive w zk. Vi passar även på att inför beteckningen z k för det närmevärde som vi väljer till basvärde och med vilket uttrycket s(z k) s(z k ) skalar om splinen till en kurva för relationstal istället för en kurva för väntevärden. Exempel 4.2. Ett observerat värde av vikten för ett fordon i datamaterialet är 1132 kg. Vi avrundar detta till säg närmsta hela 50 kg av skälen ovan. Det nya värdet blir då 1150 kg. 4.4 Skattning av parametrar Vi antar nu att väntevärdet µ bara beror på en kontinuerlig variabel, dvs. g(µ(x)) = r+2 k=1 β kb k (x) med någon länkfunktion. Vi är i behov av ett mått för att välja β för en splinen på något sätt. Det görs i [1, 2] genom att införa en diskrepans med en extra straffterm : (s(x; β)) = D(y, ˆµ) + λ b a (s (x)) 2 dx Diskrepansen för den relativa Poissonfördelningen är D(y, ˆµ) = 2 ( ) yi w i (y i log + ˆµ i y i ) ˆµ i i och för gammafördelningen D(y, ˆµ) = 2 i w i (log ( yi ˆµ i ) + y i ˆµ i 1) Båda kan ses som viktade mått på hur långt observationerna y i ligger från skattningarna ˆµ i. Om man exempelvis låter ˆµ i = y i (den mättade modellen) så blir båda diskrepanserna 0. Den andra termen, λ b a (s (x)) 2 dx, är ett mått på splinens totala acceleration i kvadrat över intervallet [a, b]. λ är en parameter som agerar vikt; ett stort värde på λ ger integralen och därmed kurvaturen hos grafen större betydelse än diskrepansen medan ett litet värde fungerar omvänt. Värdet för λ bestämmer man antingen subjektivt eller med någon metod. Vi använder oss av ett förfaringssätt som kallas för approximativ korsvalidering som vi beskriver senare. 16
23 Allmänt har vi att och därmed att Vi sätter och får s(x) = r+2 β k B k (x) k=1 = β 1 B 1 (x) β r+2 B r+2 (x) (s (x)) 2 = (β 1 B 1 (x) β r+2 B r+2(x)) 2 = r+2 r+2 β k B k (x)β l B l (x) Ω kl = k=1 l=1 b a B k (x)b l (x)dx r+2 r+2 (s(x; β)) = D(y, ˆµ) + λ β k β l Ω kl k=1 l=1 Beroende på vilken fördelning vi nu antar för y och vilken länkfunktion vi väljer får vi olika (s(x; β)) att minimera. Ett enklare fall än Poisson- och gammafallen är att anta att y är normalfördelad och välja identitetslänk. Vi visar nu härledningen för det fallet, för att visa principen. Vi deriverar (s(x; β)) med avseende på β l för att få de partiella derivatorna. = 2 m+2 w i y i β j B j (x i ) β l i j=1 B l (x i ) + 2λ m+2 j=1 β j Ω jl Antag att vi har skapat närmevärden (z k ) m k=1 för variabeln. Då får vi 2 i 2 m k=1 w i w zk y i y zk m+2 j=1 β j B j (x i ) B l (x i ) = m+2 j=1 β j B j (z k ) B l (z k ) Låter vi de partiella derivatorna vara lika med noll får vi ekvationerna m m+2 k=1 j=1 m+2 w zk β j B j (z k ) + λ j=1 β j Ω jl = m w zk y zk B l (z k ) k=1 för l = 1,..., m + 2. Detta löser man vanligtvis numeriskt. I modellen för nyckeltalens väntevärden använder vi en log-länk och då får vi 17
24 inte ett linjärt ekvationssystem. I [1] visar man att man kan iterera fram en lösning för de fallen. Skrivet på matrisform blir ekvationsystemet. β (n+1) = (B t W (n) B + λω) 1 B t W (n) y (n) där B = B 1 (z 1 )... B r+2 (z 1 )..... B 1 (z m )... B r+2 (z m ), W (n) är en diagonalmatris med omskalade vikter enligt nedan, y n är en vektor med omskalade observationer och Ω är en kvadratisk matris med Ω kl som element. Då Y i antas vara poissonfördelad är vikterna w zk exp(s (n) (z k )) och y zk observationerna exp(s (n) (z k )) 1 + s(n) (z k ). Antas däremot Y i gammafördelad w är vikterna zk y zk exp(s (n) (z k )) och observationerna 1 exp(s(n) (z k )) y zk + s (n) (z k ). 4.5 Approximerad korsvalidering Vi beskriver nu metoden med approximerad korsvalidering att välja λ i parameterskattningar för en spline. Låt y zk beteckna nyckeltal för observationer med närmevärde z k. Antag att vi tar bort z k och y zk ur datamaterialet och därefter anpassar en spline s λ k (x) till resterande datapunkter. Med ett bra värde på λ bör väntevärdet µ(x) = s λ k (x) kunna ge en rimlig prediktion av det borttagna nyckeltalet y zk. Detta bör gälla för alla k och ett mått för detta kan vara diskrepansen C(λ) = D(y zk, s λ k) Idén är att välja det λ för vilket C(λ) minimeras för k = 1... m. Man kan visa [1] att med A (n) = B(B t W (n) B + λω) 1 B t W (n) och omskalade vikter och observationer enligt ovan (för de olika fördelningarna) i iteration n är uttrycket C (n) (λ) = ( m y zk s (n) (z k ) w zk 1 a (n) kk k=1 en approximation till korsvalideringen. Här är s (n) splinen för hela datamaterialet där man på något sätt funnit ett minimerande λ. Detta används till nästa iteration och söks sedan på nytt. ) 2 18
25 4.6 GAM i R Till R finns ett tilläggsbibliotek kallat fda 6. Genom basis <- create.bspline.basis(..., breaks =..., norder = 4) skapar vi först ett objekt som innehåller B-splinesfunktioner. Ett av argumenten, breaks, är för att specifiera knoparna u 1,..., u r i definitionen för B-splines. norder = 4 talar om att vi tänker använda kubiska splines. Med plot(basis) kan man se basfunktionerna. För att explicit räkna fram B använder vi eval.basis med objektet som vi nyss skapade: B <- eval.basis(evalarg =..., basisobj = basis,...) där evalarg är i vilka punkter vi evaluerar B-splines. Man kan även få fram funktionsvärden för B-splines direkt med funktionen bsplines. Vi vill även få fram matrisen Ω. Det gör vi enkelt med Omega <- bsplinepen(basisobj = basis,...) Därefter skapar vi en funktion 1 b e t a S o l v e r < function (... ) { 2 b a s i s < create. b s p l i n e. b a s i s (..., b r e a k s =..., norder = 4) 3 B < eval. b a s i s ( e v a l a r g =..., b a s i s o b j = b a s i s ) 4 Omega < b s p l i n e p e n ( b a s i s o b j = b a s i s ) 5 Beta < i n n e r B e t a S o l v e r (..., B, Omega,... ) 6 return ( Beta ) 7 } där innerbetasolver är en annan funktion som löser ekvationsystem i förra avsnittet. För korsvalideringen använder vi 1000 förbestämda värden på λ per iteration och variabel inom ett visst intervall som vi testar oss fram till. Vi observerar att λ kan vara stort ( ) och litet ( 1) beroende på vilken variabel man arbetar med. Vill man göra det lätt för sig kan man använda ett annat tilläggspaket för R skapat av Wood [2], kallat mgcv, för GAM. Det inkluderar en funktion bam(...) speciellt framtagen för generaliserade additiva modeller på stora datamängder. Med gam.plot(...) kan man därefter rita varje spline. 6 Functional Data Analysis. Se [4]. 19
26 Tabell 5: Faktorvariabler och kontinuerliga variabler i vår GAM. Faktorindex Faktorvariabel Nivå Nivåbeskrivning 1 Kön 1 Kvinna 2 Man 2 Körsträcka mil/år mil/år mil/år mil/år mil/år eller mer Variabelindex Kontinuerlig variabel Närmevärden (z jk ) Knopar (u jk ) 3 Ägarålder Hela år 18, 19, 20,..., 99 4 Fordonsålder Hela år 0, 1, 2,..., 35 5 Fordonsvikt Närmsta 50 kg 600, 650, 700,..., Fordonets vikt/effekt Hela kg/hk 4, 5, 6,..., Skattade relationstal Vår väntevärdesstruktur ser nu ut på följande sätt. log(µ i ) = X i β + + r 3+2 k=1 r 5+2 k=1 r 4+2 β 3k B 3k (x i3 ) + k=1 r 6+2 β 5k B 5k (x i5 ) + k=1 β 4k B 4k (x i4 ) β 6k B 6k (x i6 ) Parametrar för kön och körsträckecell ingår i β medan parametrar för fordonsägarens ålder, fordonets ålder, fordonets vikt och fordonets vikt/effekt ingår i respektive summa av B-splines. Närmevärden {z j } och knopar {u j } för varje variabel finns i tabell 5. Skattningsförfarandet går till enligt följande. 1. Initiala parametrar för en variabel i taget som ensam förklarande variabel skattar vi antingen med ML-ekvationer (faktorer) eller diskrepans med straffterm (kontinuerliga variabler). Vi gör detta för alla variabler utom en. 2. Nyckeltal och vikter skalar vi om enligt ett förfarande som finns beskrivet i [1] när man har flera faktorer och kontinuerliga variabler i modellen, innan vi gör skattningar för variabeln vars parametrar inte skattades i (1). Idén 20
27 är att överföra skattningar på ett fall med enbart en förklarande variabel. Det är samma sak som att betrakta parametrar för övriga variabler som en offset. 3. Nyckeltal och vikter skalas om på nytt för nästa variabel (som ensam förklarande variabel och på samma sätt som i punkt 2). Relationstal för den variabeln skattas nu om. 4. (3.) upprepas för alla variabler tills dess att skattningarna konvergerat enligt något kriterium, exempelvis att skillnaden mellan relationstalen i en iteration och iterationen efter är mindre än något ɛ. Härledningar för hur β jk skattas med flera kontinuerliga variabler och faktorvariabler för skadefrekvens och medelskada finns alltså beskrivet i [1]. En generaliserad additiv modell med både faktorvariabler och kontinuerliga variabler ger skattningar av relationstalen i tabell 6 och för var och en av de kontinuerliga variablerna, en spline i figurer 3 10 nedan. Vi noterar att de relationstal som ligger en bit från splinen uteslutande är relationstal med låg vikt men med förhållandevis många skador eller hög skadekostnad. Det är främst omkring minimum och maximum för variablerna som kurvorna blir osäkra p.g.a. vi har få observationer där. Vi ser att vi fångar intressanta fenomen som man missar i tidigare tariffer. Bland annat att medelskadan för fordonets ålder till en början ökar stadigt (upp till 10 år) för att sedan minska ner till ett minimum och sedan höjs ånyo. Rent intuitivt borde det istället vara en minskande kurva; kanske är det så att försäkringsbolaget är för frikostiga med skadekrav för bilar som inte är helt nya. I övrigt verkar kurvorna rimliga. Notera att bascellens väntevärde i tabell 6 är beroende av val av basnivåer för både faktorvariabler och kontinuerliga variabler och det är därför de skiljer sig avsevärt från förra avsnittet. Där gav vi även ett exempel på vad en försäkringstagare med vissa egenskaper får för riskpremie. Vi tittar nu på en försäkringstagare med samma egenskaper. Siffrorna i exemplet kommer från tabell 6 och varje spline (som vi inte redovisar explicit utom i grafisk form). Exempel 4.3. En man som fyllt 31 år och som försäkrar ett nytt fordon, vilket körs strax under 1500 mil per år, med vikt kring 1400 kg och med 15 kg per hk får skattad skadefrekvens och medelskada
28 vilket ger riskpremie kronor Det betyder att denna kund förmodligen var subventionerad av andra kunder i den tidigare tariffen (tabell 4). I samband med förra tariffen gav vi även ett exempel på att en manlig kund som precis fyllt 30 år minskar sin riskpremie med över 60 procent. I den här tariffen minskar han bara sina kostnader med strax över åtta procent om man räknar från dess att han precis fyllt 29 år. Här har vi dessutom alternativet att kurvintegrera splinen och låta försäkringstagare förändra sina kostnader kontinuerligt. Tabell 6: Basnivåer för varje faktor är skrivna med fetstil. Tariff Relationstal Faktor Nivåbeskrivning Skadefrekvens Medelskada Riskpremie Kön Kvinnor Män Körsträcka mil/år mil/år mil/år mil/år mil/år eller mer µ
29 Relationstal för skadefrekvens Ägarålder (år) Figur 3: Kontinuerliga relationstal för skadefrekvensen för ägarens ålder. Relationstal för skadefrekvens Fordonsålder (år) Figur 4: Kontinuerliga relationstal för skadefrekvensen för fordonets ålder. 23
30 Relationstal för skadefrekvens Fordonsvikt (kg) Figur 5: Kontinuerliga relationstal för skadefrekvensen för fordonets vikt. Relationstal för skadefrekvens Vikt/Effekt (kg per hk) Figur 6: Kontinuerliga relationstal för skadefrekvensen för fordonets vikt per effekt. 24
31 Relationstal för medelskada Ägarålder (år) Figur 7: Kontinuerliga relationstal för medelskadan för ägarens ålder. Relationstal för medelskada Fordonsålder (år) Figur 8: Kontinuerliga relationstal för medelskadan för fordonets ålder. 25
32 Relationstal för medelskada Fordonsvikt (kg) Figur 9: Kontinuerliga relationstal för medelskadan för fordonets vikt. Relationstal för medelskada Vikt/Effekt (kg per hk) Figur 10: Kontinuerliga relationstal för medelskadan för fordonets vikt per effekt. 26
33 5 Diskussion I detta arbete utgår vi från två relaterade modeller och implementerar m.h.a. programmeringsspråket R två stora program för att beräkna tariffer. Även om R inte har en alldeles självklar syntax så vill författaren ändå framföra åsikten att R har en mer intuitiv och modern syntax än SAS. Inkluderar man även det faktum att både R och en mängd olika grafiska gränssnitt (exempelvis RStudio) är gratis så är R definitivt något man kan ersätta SAS med när det kommer till statistisk analys och implementering av egna modeller. Det finns även tilläggsbibiliotek till R för att speciellt kunna arbeta med stora datamängder för GLM och GAM (och givetvis även den vanliga linjära modellen) men även SQL varför det lämpar sig för försäkringsdata. Med vårt egenhändigt programmerade GAM-program tar det mindre än tio minuter att få fram splines och relationstal för alla variabler vilket kan anses acceptabelt. Å andra sidan tar det mindre än tio sekunder med tilläggsbiblioteket mgcv. Den generaliserade additiva modellen med splines använder vi när vi vill använda oss av kontinuerliga variabler och inte enbart faktorvariabler. Anledningarna var dels att man kan misstänka att vissa av dem har en underliggande kontinuerlig kurva för nyckeltalen, dels att få en mer konkurrenskraftig tariff. Figurerna i föregående avsnitt ger oss även ett par outliers som kan vara intressanta att undersöka vidare, bland annat relationstalen för vissa fordonsvikter och fordonseffekter. Dessa skulle vi möjligtvis ha missat i tariffen baserad på en vanlig GLM. En del naturliga frågeställningar dyker även upp. Hur mycket bör man lita på kurvorna i början och slutet av variablernas definitionsmängder? Här hade det varit bra med konfidensområden (något som är enkelt att få med Woods [2] tilläggsbibiliotek). Kan man kurvintegrera B-splines på ett enkelt sätt för att få en riskpremie som ändras på ett naturligt sätt för en försäkringstagare under giltighetstiden? Det finns hur mycket som helst att undersöka och inkludera i dessa modeller. Vi har inte tagit med konfidensintervall för relationstalen eller testat om varje faktor ska ingå eller ej i modellerna. Vi har ej heller gjort någon modelldiagnostik. Man kan även tänka sig att inkludera samspel mellan faktorerna och kredibilitet i en GAM. Från början inkluderade vi även en tredje modell med kredibilitetsskattningar för olika bilmärken. På grund av tidsbrist hann vi dock ej inkludera denna i texten. Däremot har vi jämfört (figur 11) parameterskattningar och grafer med de man får m.h.a. tilläggspaketet i R för GAM skapat av Simon N. Wood [2] och de stämmer bra överens! 27
34 Relationstal för medelskada s(x) Relationstal för medelskada s(x) x x Relationstal för medelskada s(x) Relationstal för medelskada s(x) x x Figur 11: Kontinuerliga relationstal med konfidensintervall för medelskadan skapade med tilläggsbiblioteket mgcv för GAM av Wood [2]. 28
35 6 Appendix 6.1 Datamaterial Tabell 7: Utdrag ur datamaterialet. i Kön Ägarålder Fordonets ålder Tillverkare 1 K K K K K i Körsträckecell Fordonsvikt Fordonets vikt per effekt i Duration Antal skador Kostnad I tabellen ovan ger vi de fem första raderna ur datamaterialet. Man kan låta en variabel vara en faktor med olika nivåer (beroende på val av modell). I sådant fall transformeras värdena för variabeln om till nivåbeteckningen i tabellen och faktorn får ett antal dummy-variabler i designmatrisen X. Ett enkelt sätt att snabba upp beräkningar är att lägga rader med skadekostnader i en separat tabell och skatta parametrar för medelskadan från den och att ha separata program för de två nyckeltalen. 29
36 6.2 Diverse funktioner i R Vi ger här ett urval av användbara funktioner i R i alfabetisk ordning som vi använder i programmeringen för att beräkna tarifferna. Funktion aggregate(...) as.factor(...) cbind(...) count(...) cut(...) ddply(...) fitted.values(...) glm(...) ifelse(...) merge(...) relevel(...) subset(...) with(...) within(...) Funktionsbeskrivning Aggregerar data enligt någon funktion. Exempelvis summation. Ändrar typ till faktor för ett objekt. Sätter ihop två objekt på bredden. Exempelvis två kolonner i en matris eller data frame. Räknar unika värden av en variabel och skapar en data frame med antalet förekomster av dessa värden. Tillhör paketet plyr. Delar upp en numerisk variabel i intervall och gör en faktor med nivåer som motsvarar var och ett av intervallen. Applicerar en funktion för varje delmängd av en data frame och kombinerar resultatet i en data frame. För exempelvis beräkning av funktionsvärden när data är på listform. Tillhör paketet plyr. Ger predikterade värden. Ger ett objekt av typen GLM. Bland attributen för objektet finns parameterskattningar, predikterade värden och konfidensintervall. Istället för att behöva skriva en if- och else-sats. Slår ihop två data frames. Sätter basnivå. Ger en delmängd av ett objekt. Exempelvis en data frame. Arbetar i en miljö, exempelvis en data frame och modifierar denna eventuellt. 30
37 PRISSÄTTNING AV EN FORDONSFÖRSÄKRING MED R 6.3 B-splines av grad 3 B 0 k (x) B 1 k (x) B 2 k (x) B 0 k 1 (x) B 3 k (x) B 1 k 1 (x) B 2 k 1 (x) B 0 k 2 (x) B 1 k 2 (x) B 0 k 3 (x) Vi visar resultatet men utelämnar stegen i uträkningen av B-splines av grad 3. Enligt Cox-de Boors formel ger varje B-spline upphov till två nya B-splines men av lägre grad som i diagrammet ovan. Tredjegradspolynomet blir Bk(x) 3 = x u k 3 x u k 3 x u k 3 B u k u k 3 u k 1 u k 3 u k 2 u k 3(x) 0 k 3 + x u k 3 x u k 3 u k 1 x B u k u k 3 u k 1 u k 3 u k 1 u k 2(x) 0 k 2 + x u k 3 u k x x u k 2 B u k u k 3 u k u k 2 u k 1 u k 2(x) 0 k 2 u k 1 x x u k 2 x u k 2 + B u k+1 u k 2 u k u k 2 u k 1 u k 2(x) 0 k 2 + x u k 3 u k x u k x B u k u k 3 u k u k 2 u k u k 1(x) 0 k 1 u k 1 x x u k 2 u k x + B u k+1 u k 2 u k u k 2 u k u k 1(x) 0 k 1 u k+1 x u k+1 x x u k 1 + B u k+1 u k 2 u k+1 u k 1 u k u k 1(x) 0 k 1 u k+1 x u k+1 x u k+1 x + B u k+1 u k 2 u k+1 u k 1 u k+1 u k(x) 0 k Utanför de fyra intervallen [u k 3, u k 2 ), [u k 2, u k 1 ), [u k 1, u k ) och [u k, u k+1 ) är Bk 3 (x) lika med 0. Vi ser att varje intervall har ett eget polynom pga. trapp- 31
38 funktionerna B 0 (x). Situationen kompliceras dock av att själva splinen s(x) är en summa av B-splines (med tillhörande koefficienter). Referenser [1] E. Ohlsson, B. Johansson Non-Life Insurance Pricing with Generalized Linear Models. Springer, [2] Simon N. Wood, Generalized Additive Models: An Introduction with R. Chapman and Hall, [3] Michael J. Crawley, The R Book. Wiley, [4] J. O. Ramsay et al, Functional Data Analysis. GPL,
Release party: Non-life Insurance Pricing with GLMs
Release party: Non-life Insurance Pricing with GLMs Esbjörn Ohlsson & Björn Johansson Svenska Aktuarieföreningen 15 juni 2010 1 Brandstod enligt 1734 års lag Ersätter för bonden nödige hus samt säd, foder
Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 3 MATEMATISK STATISTIK AK FÖR CDIFYSIKER, FMS012/MASB03, HT12 Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla
Exempel på tentamensuppgifter
STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11
MVE051/MSG Föreläsning 7
MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 6 13 november 2017 1 / 29 Idag Förra gången Mer om väntevärden och varianser (Kap. 5.2 5.3) Beroendemått (Kap. 5.4) Summor, linjärkombinationer
Prissättning för skadeförsäkring med postnummer som kredibilitetsfaktor
Prissättning för skadeförsäkring med postnummer som kredibilitetsfaktor Fredrik Bjärnek Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2014:13 Matematisk
Lektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE31 Sannolikhet, statistik och risk 218-1-12 kl. 8:3-13:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.
TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder
TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder Martin Singull Matematisk statistik Matematiska institutionen Innehåll Fö2 Punktskattningar Egenskaper Väntevärdesriktig Effektiv Konsistent
0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.
Avd. Matematisk statistik TENTAMEN I SF9, SF95 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 2:E JANUARI 25 KL 4. 9.. Kursledare: Gunnar Englund, 73 32 37 45 Tillåtna hjälpmedel: Formel- och tabellsamling
Effekter av införande av könsneutral prissättning - en fallstudie
Effekter av införande av könsneutral prissättning - en fallstudie Sandra Brännstam Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:1 Matematisk statistik
Numerisk Analys, MMG410. Lecture 12. 1/24
Numerisk Analys, MMG410. Lecture 12. 1/24 Interpolation För i tiden gällde räknesticka och tabeller. Beräkna 1.244 givet en tabel över y = t, y-värdena är givna med fem siffror, och t = 0,0.01,0.02,...,9.99,10.00.
Laboration 2: Sannolikhetsteori och simulering
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 2 MATEMATISK STATISTIK AK FÖR CDIFYSIKER, FMS012/MASB03, HT13 Laboration 2: Sannolikhetsteori och simulering Syftet med den här
Interpolation Modellfunktioner som satisfierar givna punkter
Interpolation Modellfunktioner som satisfierar givna punkter Några tillämpningar Animering rörelser, t.ex. i tecknad film Bilder färger resizing Grafik Diskret representation -> kontinuerlig 2 Interpolation
Härledning av Black-Littermans formel mha allmänna linjära modellen
Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem
PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik
4 Diskret stokastisk variabel
4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används
FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski
FACIT för Förberedelseuppgifter: SF9 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 206 KL 4.00 9.00. Examinator: Timo Koski - - - - - - - - - - - - - - - - - - - - - - - - 0. FACIT Problem
F13 Regression och problemlösning
1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell
Demonstration av laboration 2, SF1901
KTH 29 November 2017 Laboration 2 Målet med dagens föreläsning är att repetera några viktiga begrepp från kursen och illustrera dem med hjälp av MATLAB. Laboration 2 har följande delar Fördelningsfunktion
Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik
Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005 . Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 =
Matematisk statistik KTH. Formelsamling i matematisk statistik
Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska
1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5
LÖSNINGAR TILL Matematisk statistik Tentamen: 29 7 kl 8 3 Matematikcentrum FMSF45 Matematisk statistik AK för D,I,Pi,F, 9 h Lunds universitet MASB3 Matematisk statistik AK för fysiker, 9 h. För tiden mellan
Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II
Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs
Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 3, HT -06 MATEMATISK STATISTIK FÖR F, PI OCH NANO, FMS 012 MATEMATISK STATISTIK FÖR FYSIKER, MAS 233 Laboration 3: Enkla punktskattningar,
TAMS79: Föreläsning 6. Normalfördelning
TAMS79: Föreläsning 6 Normalfördelningen Johan Thim (johan.thim@liu.se 3 november 018 Normalfördelning Definition. Låt µ R och > 0. Om X är en stokastisk variabel med täthetsfunktion f X ( = 1 ( ep ( µ,
f(x) = 2 x2, 1 < x < 2.
Avd. Matematisk statistik TENTAMEN I SF90,SF907,SF908,SF9 SANNOLIKHETSTEORI OCH STATISTIK TORSDAGEN DEN 7:E JUNI 0 KL 4.00 9.00. Examinator: Gunnar Englund, tel. 07 7 45 Tillåtna hjälpmedel: Formel- och
Stokastiska vektorer och multivariat normalfördelning
Stokastiska vektorer och multivariat normalfördelning Johan Thim johanthim@liuse 3 november 08 Repetition Definition Låt X och Y vara stokastiska variabler med EX µ X, V X σx, EY µ Y samt V Y σy Kovariansen
SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.
SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt
SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010
Avd. Matematisk statistik SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010 0 Allmänna anvisningar Arbeta med handledningen, och skriv rapport, i grupper om två eller tre personer. Närvaro vid laborationstiden
Övning 1 Sannolikhetsteorins grunder
Övning 1 Sannolikhetsteorins grunder Två händelser A och B är disjunkta om {A B} =, det vill säga att snittet inte innehåller några element. Om vi har en mängd händelser A 1, A 2, A 3,..., A n, vilka är
Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Föreläsning 4: Konfidensintervall (forts.)
Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri
Statistiska metoder för säkerhetsanalys
F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3 Laboration 2 Fördelningar och simulering Introduktion 2014-02-06 Syftet med laborationen är dels
SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)
SF1901: Sannolikhetslära och statistik Föreläsning 9. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 21.02.2012 Jan Grandell & Timo Koski () Matematisk statistik 21.02.2012
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall
b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)
Avd. Matematisk statistik TENTAMEN I SF1901, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 27:E OKTOBER 2014 KL 08.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66, Björn-Olof Skytt, 08-790 86 49.
Enkel och multipel linjär regression
TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0
TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder
TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder Martin Singull Matematisk statistik Matematiska institutionen Innehåll Fö2 I Punktskattningar I Egenskaper I Väntevärdesriktig I E ektiv I Konsistent
TMS136. Föreläsning 4
TMS136 Föreläsning 4 Kontinuerliga stokastiska variabler Kontinuerliga stokastiska variabler är stokastiska variabler som tar värden i intervall av den reella axeln Det kan handla om längder, temperaturer,
Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion
Avd. Matematisk statistik TENTAMEN I 5B57 MATEMATISK STATISTIK FÖR T och M ONSDAGEN DEN 9 OKTOBER 25 KL 8. 3.. Examinator: Jan Enger, tel. 79 734. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk
Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06
Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06 Bengt Ringnér September 20, 2006 Inledning Detta är preliminärt undervisningsmaterial. Synpunkter är välkomna. 2 Väntevärde standardavvikelse
Konvergens för iterativa metoder
Konvergens för iterativa metoder 1 Terminologi Iterativa metoder används för att lösa olinjära (och ibland linjära) ekvationssystem numeriskt. De utgår från en startgissning x 0 och ger sedan en följd
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE301 Sannolikhet, statistik och risk 2018-10-12 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri
Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).
STOKASTISKA VARIABLER Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.). Definition 1. En reellvärd funktion definierad på ett utfallsrum Ω kallas en (endimensionell)
Grundläggande matematisk statistik
Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE31 Sannolikhet, statistik och risk 218-5-31 kl. 8:3-13:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.
Stokastiska vektorer
TNG006 F2 9-05-206 Stokastiska vektorer 2 Kovarians och korrelation Definition 2 Antag att de sv X och Y har väntevärde och standardavvikelse µ X och σ X resp µ Y och σ Y Då kallas för kovariansen mellan
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:
Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se
Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer
Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer Anna Lindgren 27+28 september 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F6: linjärkombinationer 1/21 sum/max/min V.v./var Summa av
SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski
SF1901: Sannolikhetslära och statistik Föreläsning 10. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 18.02.2016 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016
Föreläsning 7: Stokastiska vektorer
Föreläsning 7: Stokastiska vektorer Johan Thim johanthim@liuse oktober 8 Repetition Definition Låt X och Y vara stokastiska variabler med EX = µ X, V X = σx, EY = µ Y samt V Y = σy Kovariansen CX, Y definieras
TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65
Formel- och tabellsamling i matematisk statistik Martin Singull Innehåll 4.1 Multipel regression.............................. 15 1 Sannolikhetslära 7 1.1 Några diskreta fördelningar.........................
Avd. Matematisk statistik
Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 8:E JANUARI 2018 KL 14.00 19.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling
Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar
Sannolikhetslära och inferens II Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar 1 Diskreta slumpvariabler En slumpvariabel tilldelar tal till samtliga utfall i ett slumpförsök. Vi
Tentamen MVE302 Sannolikhet och statistik
Tentamen MVE32 Sannolikhet och statistik 219-6-5 kl. 8:3-12:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.
Numerisk Analys, MMG410. Lecture 13. 1/58
Numerisk Analys, MMG410. Lecture 13. 1/58 Interpolation För i tiden gällde räknesticka och tabeller. Beräkna 1.244 givet en tabel över y = t, y-värdena är givna med fem siffror, och t = 0,0.01,0.02,...,9.99,10.00.
PLANERING MATEMATIK - ÅK 7. Bok: X (fjärde upplagan) Kapitel : 1 Tal och räkning Kapitel : 2 Stort, smått och enheter. Elevens namn: Datum för prov
PLANERING MATEMATIK - ÅK 7 HÄLLEBERGSSKOLAN Bok: X (fjärde upplagan) Kapitel : 1 Tal och räkning Kapitel : 2 Stort, smått och enheter Elevens namn: markera med kryss vilka uppgifter du gjort Avsnitt: sidor
Avd. Matematisk statistik
Avd. Matematisk statistik TENTAMEN I SF90/SF9 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAG 5 JUNI 09 KL 4.00 9.00. Examinator: Björn-Olof Skytt, 08-790 86 49. Tillåtna hjälpmedel: Formel- och tabellsamling
SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016
SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 4 KONTINUERLIGA STOKASTISKA VARIABLER Tatjana Pavlenko 7 september 2016 PLAN FÖR DAGENS FÖRELÄSNING Repetition av diskreta stokastiska variabler. Väntevärde
Föreläsning 12: Repetition
Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse
1 Stokastiska processer. 2 Poissonprocessen
1 Stokastiska processer En stokastisk process är en stokastisk variabel X(t), som beror på en parameter t, kallad tiden. Tiden kan vara kontinuerlig, eller diskret (i vilket fall man brukar beteckna processen
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 4 7 november 2017 1 / 29 Idag Förra gången Viktiga kontinuerliga fördelningar (Kap. 3.6) Fördelningsfunktion (Kap. 3.7) Funktioner av stokastiska
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics
Matematisk statistik TMS064/TMS063 Tentamen
Matematisk statistik TMS64/TMS63 Tentamen 29-8-2 Tid: 4:-8: Tentamensplats: SB Hjälpmedel: Bifogad formelsamling och tabell samt Chalmersgodkänd räknare. Kursansvarig: Olof Elias Telefonvakt/jour: Olof
TATA42: Föreläsning 7 Differentialekvationer av första ordningen och integralekvationer
TATA42: Föreläsning 7 Differentialekvationer av första ordningen och integralekvationer Johan Thim 0 januari 207 Introduktion En differentialekvation (DE) i en variabel är en ekvation som innehåller både
Föreläsning 8: Konfidensintervall
Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga
Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar
Transformer i sannolikhetsteori
Transformer i sannolikhetsteori Joakim Lübeck 28-11-13 För dig som läst eller läser sannolikhetsteori (fram till och med normalfördelningen) och läst eller läser system och transformer (till och med fouriertransform)
Prissättning av delkaskoförsäkring - en metodjämförelse
Prissättning av delkaskoförsäkring - en metodjämförelse Tove Brickner Masteruppsats i matematisk statistik Master Thesis in Mathematical Statistics Masteruppsats 2013:7 Försäkringsmatematik Oktober 2013
SF1901: Sannolikhetslära och statistik
SF1901: Sannolikhetslära och statistik Föreläsning 4. Väntevärde och varians, funktioner av s.v:er, flera stokastiska variabler. Jan Grandell & Timo Koski 10.09.2008 Jan Grandell & Timo Koski () Matematisk
Avd. Matematisk statistik
Avd. Matematisk statistik TENTAMEN I SF1901, SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 28:E OKTOBER 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66, Björn Olof Skytt 08-790 86 49. Tillåtna
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE301 Sannolikhet, statistik och risk 2017-06-01 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri
Negativ binomialfördelning och kvasipoisson
Negativ binomialfördelning och kvasipoisson som alternativ till Poissonfördelning vid modellering av skadefrekvens. En fallstudie. Andrea Klemming Kandidatuppsats i matematisk statistik Bachelor Thesis
Kap 2. Sannolikhetsteorins grunder
Kap 2. Sannolikhetsteorins grunder Olika händelser och deras mängbetäckningar Sats 2.7 Dragning utan återläggning av k element ur n (utan hänsyn till ordning) kan ske på ( n ) olika sätt k För två händelser
Thomas Önskog 28/
Föreläsning 0 Thomas Önskog 8/ 07 Konfidensintervall På förra föreläsningen undersökte vi hur vi från ett stickprov x,, x n från en fördelning med okända parametrar kan uppskatta parametrarnas värden Detta
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Weibullanalys. Maximum-likelihoodskattning
1 Weibullanalys Jan Enger Matematisk statistik KTH Weibull-fördelningen är en mycket viktig fördelning inom tillförlitlighetsanalysen. Den används ofta för att modellera mekaniska komponenters livslängder.
Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005
Teoretisk statistik Gunnar Englund Matematisk statistik KTH Vt 2005 Inledning Vi skall kortfattat behandla aspekter av teoretisk statistik där framför allt begreppet uttömmande (ibland kallad tillräcklig
SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh
SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler Jörgen Säve-Söderbergh Stokastisk variabel Singla en slant två gånger. Ω = {Kr Kr, Kr Kl, Kl Kr, Kl Kl}
SF1911: Statistik för bioteknik
SF1911: Statistik för bioteknik Föreläsning 6. TK 14.11.2016 TK Matematisk statistik 14.11.2016 1 / 38 Lärandemål Stokastiska modeller för kontinuerliga datatyper Fördelningsfunktion (cdf) Sannolikhetstäthetsfunktion
Tentamen för kursen. Linjära statistiska modeller. 17 februari
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 17 februari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312,
Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0
Avd. Matematisk statistik TENTAMEN I SF191, SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 1:A JUNI 216 KL 8. 13.. Kursledare: Thomas Önskog, 8-79 84 55 Tillåtna hjälpmedel: Formel- och tabellsamling i
Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...
Avd. Matematisk statistik TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Examinator för SF94/SF96: Tatjana Pavlenko, 08-790 84 66 Examinator för
Lärmål Sannolikhet, statistik och risk 2015
Lärmål Sannolikhet, statistik och risk 2015 Johan Jonasson Februari 2016 Följande begrepp och metoder ska behärskas väl, kunna förklaras och tillämpas. Direkta bevis av satser från kursen kommer inte på
MVE051/MSG Föreläsning 14
MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska
Lufttorkat trä Ugnstorkat trä
Avd. Matematisk statistik TENTAMEN I SF1901 och SF1905 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 18:E OKTOBER 2012 KL 14.00 19.00. Examinator: Tatjana Pavlenko, tel 790 8466. Tillåtna hjälpmedel:
Matematisk statistik 9hp Föreläsning 7: Normalfördelning
Matematisk statistik 9hp Föreläsning 7: Normalfördelning Anna Lindgren 29+3 september 216 Anna Lindgren anna@maths.lth.se FMS12/MASB3 F7: normalfördelning 1/18 Kovarians, C(X, Y) Repetition Normalfördelning
b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)
Avd. Matematisk statistik TENTAMEN I SF1920 och SF1921 SANNOLIKHETSTEORI OCH STATISTIK, FREDAGEN DEN 8:E JUNI 2018 KL 14.00 19.00. Examinator: Björn-Olof Skytt, 08 790 86 49. Tillåtna hjälpmedel: Formel-
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE30 Sannolikhet, statistik och risk 207-08-5 kl. 8:30-3:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 03-7725325 Hjälpmedel: Valfri miniräknare.
Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer
Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F5: linjärkombinationer 1/20 sum/max/min V.v./var Summa av två oberoende, Z
SF1901: Sannolikhetslära och statistik
SF1901: Sannolikhetslära och statistik Föreläsning 6. Normalfördelning, Centrala gränsvärdessatsen, Approximationer Jan Grandell & Timo Koski 06.02.2012 Jan Grandell & Timo Koski () Matematisk statistik
Matematisk statistik för D, I, Π och Fysiker
Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar