Tillvägaghångssätt för skattning av körkortsmodell

Relevanta dokument
SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Regressionsmodellering inom sjukförsäkring

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik KTH. Formelsamling i matematisk statistik

Resursfördelningsmodellen

TAMS65 - Föreläsning 6 Hypotesprövning

Lektionsanteckningar 11-12: Normalfördelningen

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

MVE051/MSG Föreläsning 7

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Avd. Matematisk statistik

F9 Konfidensintervall

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

TAMS65 - Föreläsning 6 Hypotesprövning

Exempel på tentamensuppgifter

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning G60 Statistiska metoder

F22, Icke-parametriska metoder.

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

LABORATION 3 - Regressionsanalys

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

MVE051/MSG Föreläsning 14

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Bilaga 1. Kvantitativ analys

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Sänkningen av parasitnivåerna i blodet

Föreläsning 10, del 1: Icke-linjära samband och outliers

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Regressions- och Tidsserieanalys - F8

Matematisk statistik för B, K, N, BME och Kemister

Thomas Önskog 28/

Tentamen i Matematisk statistik Kurskod S0001M

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Stokastiska processer och simulering I 24 augusti

Föreläsning G60 Statistiska metoder

Föreläsning 5: Hypotesprövningar

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

F11. Kvantitativa prognostekniker

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Stokastiska processer med diskret tid

Föreläsning 8: Konfidensintervall

3 Maximum Likelihoodestimering

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Föreläsning 12: Linjär regression

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Antalet personer som skriver högskoleprovet minskar

Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson

Att välja statistisk metod

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Laboration 2: Styrkefunktion samt Regression

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

F13 Regression och problemlösning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Samplingfördelningar 1

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Avd. Matematisk statistik

Höftledsdysplasi hos dansk-svensk gårdshund

Introduktion till statistik för statsvetare

TAMS65 - Seminarium 4 Regressionsanalys

Föreläsning 7: Punktskattningar

Avd. Matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Statistiska metoder för säkerhetsanalys

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

OBS! Vi har nya rutiner.

Introduktion till statistik för statsvetare

Läs noggrant informationen nedan innan du börjar skriva tentamen

Transkript:

Siamak Baradaran sia@kth.se Tillvägaghångssätt för skattning av körkortsmodell 1 Syfte med modellen Syftet med denna forskning har varit att utveckla en beskrivande modell som kan hjälpa oss att förstå benägenheten hos individer att förvärva körkort ur ett beteendemässigt perspektiv. Modellen skall även möjliggöra analyser av förändrade policyer och vara känslig mot individernas förändrade förutsättningar med tiden och relevanta samhällstrender. 2 Modellens struktur Körkortsmodellen är framställd med hjälp ett dynamiskt modellramverk för så kallade hazard -modeller (även kallad durations -modeller). Modellen är tidsdynamisk det vill säga den tar hänsyn till förändringar i tiden. Denna tidsdynamik påverkar modellen på två olika sätt. 1. Som en första del är modellen känslig avseende på tidsmässiga trender i populationen, till exempel påverkar denna tidsdynamik modellen om andel personer som tar körkort i olika åldrar ändras succesivt inom populationen. Denna egenskap fångas i modellen av så kallade base-line hazard. 2. Den andra tidsdynamiken påverkar modellen då de individuella attributen ändras med tiden till exempel genom förändrade inkomstförhållanden eller familjestorlek under de år individen observeras. Dessa brukar kallas för time varying co-variater. Matematisk kallas modell funktionen complementary log-log function och ser ut enligt följande: där: log ( log (1 λ(t j x i ))) = α j + x i β α j = log ( log (1 λ 0 (t j ))) och λ 0 (t j ) är så kallade base line hazard och avser populationstrender (enligt punkt 1 ovan) då alla covariater är lika med noll, det vill säga då vi enbart tittar på hur körkortsinnehavet förändras med tiden utan att ta hänsyn till individuella attribut. x i är en vektor av individuella attribut (co-variater). Dessa attribut kan vara tids oberoende såsom kön, eller tidsberoende (time-varying) såsom ålder, inkomst, antal familjemedlemmar, etc. x i β = x i 1 β 1 + x i 2 β 2 + + x i n β n

i och j avser tider då individer har observerats så x i 1 avser attribut nummer 1 som har observerats under tidsperiod i. β 1, β 2,, β n är parametrar vilka skattas av modellen för respektive attribut (x). 3 Indata och modellresultat Modellen har skattats med hjälp av data från två unika datasätt används i detta projekt. Båda innehåller observationer för åren mellan 2003 och 2011. Första datasättet har hämtats från årliga individuella skattedeklarationer vilka existerar för samtliga vuxna individer i Sverige. Datasättet innehåller individens socioekonomiska attribut (modellens co-variater). Det andra datasättet är från bilprovningen och innehåller information om individuella fordon och dess ägare på årsbasis. Datasättet har därefter kombinerats med individuella attribut från det första datasättet. På det sättet vi får information individernas socioekonomiska attribut och om de fordon de äger. För att minska modellarbetets komplexitet har vi begränsat antal fordon som kan ägas av en och samma individ (eller hushåll) till ett maximum av två fordon. Datasättet består av ett stickprov som motsvarar 10% alla unika observerade vuxna i Sverige. Vi har helt enkelt tilldelat varje individ ett unikt ID-numer. Dessa ID är konsistent mellan åren för en och samma individ. Därefter har vi slumpmässigt valt 10 procent av individerna. Detta gör att de valda individerna finns i datasättet i olika många år. För en del finns observationer för alla år vi har data för och för somliga finns det för ett par år eller bara ett år. Efter rensning av felaktiga observationer och observationer med tomma attribut vi lyckade samla nästan 340 000 observationer gjorda bland drygt 117 000 unika individer. I datamaterialet tillkommer cirka 11.000 nya individer årligen observeras in stavnings årligen. Figur 3 visar att nästan 20% av de individer som har observerats mellan 2003-2011 skaffade körkort samma år som de fyllde 18 år. Vidare ser vi att flest individer skaffar körkort ett år efter, det vill säga då de är 19 och att andelen som skaffar körkort efter det minskar succesivt men snabbt. Som det framkommer innehåller datasättet många observationer och i och detta datasätt är inget undantag vad gäller problem. Materialet innehåller felaktigheter vilka vi har försökt åtgärda på olika sätt. Det är dock inget bra ide att beskriva problemen här (de är hel enkelt många). Vi har för vårt ändamål skrivit ett så kallat script i programvaran STATA och med hjälp av det läser vi in de olika data sätten, sätter ihop individ och fordonsattributen, rensar materialet för olika problem och slutligen förbereder materialets format för modellen. I detta script har

vi kommenterat vad som görs så om man vill upprepa modellarbetet eller vill skatta om modellen kan man använda sig av scriptet. Observera dock att skriptet är drygt 2000 rader lång och på grund av det skickas scriptet separat och i digitalt format. Tabellen nedan redogör för skattade parametrar för tre modeller med logistisk, kvadratisk och kubisk fördelningsantaganden. Modellstatistiken (grå område i figuren) visar att modellen med logistisk antagande är att föredra.

Kön (gender) är en dummy variabel där men representeras med värdet 0 och kvinnor med 1. Sama gäller variabeln student (1= student och 0 annars). Egen inkomst visade sig vara en besvärlig variabel att använda då i de unga åren, inkomsten är nästan i perfekt samvariation med ålder. Vi valde att istället använda föräldrarnas inkomst. Populationen har använts som proxy for tillgänglighet. Hypotesen är att mindre städer tenderar att ha sämre kollektivtrafik och därmed större tendens hus befolkningen att skaffa körkort medan de som bor i större städer åtnjuter bättre kollektivtrafik (och högre bilinnehavskostnader inklusive parkeringsavgifter) vilket bör minska deras benägenhet at skaffa bil och därmed även körkort. Dessa skattade parametervärde kan användas för at skatta risken för varje enskild individ att skaffa körkort. 4 Skattning av individers benägenhet att skaffa körkort för prognos året

För prognosåret kan motsvarande benägenhet skattas om vi känner till individernas attribut för prognosåret. Emellertid finns inte information om variablerna vi är intresserade av för framtiden och någon slags hybrid data måste uppskattas eller simuleras, givet historisk individ-data. Simulering av data avseende framtida individuella attribut har dock inte ingått i detta projekt. Vi kan som exempel på sådana simuleringsmodeller nämna simuleringsproceduren Survsim 1 som finns tillgänglig för och modelleringsverktyget STATA. 1 Simulating complex survival data M.J. Crowther, P.C. Lambert, The Stata Journal (2012) 12, Number 4, pp. 674 687, http://www.stata-journal.com/sjpdf.html?articlenum=st0275