Analys av miljööverträdelser i Sverige. Miljösanktionsavgiftens påverkan på återfall. Analysis of environmental violations in Sweden

Storlek: px
Starta visningen från sidan:

Download "Analys av miljööverträdelser i Sverige. Miljösanktionsavgiftens påverkan på återfall. Analysis of environmental violations in Sweden"

Transkript

1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2015:8 Analys av miljööverträdelser i Sverige Miljösanktionsavgiftens påverkan på återfall Analysis of environmental violations in Sweden Environmental sanctions effect on recidivism Zana Hussan och Max Olsen Självständigt arbete 15 högskolepoäng inom Statistik III, VT2015 Handledare: Gebrenegus Ghilagaber

2

3

4 Sammanfattning Denna uppsats har haft för avsikt att undersöka dels vilken parametrisk modell som är lämplig inom EGG-familjen samt Cox PH då man granskar miljööverträdelser i Sverige. Vidare har det granskats för de eventuella klusterspecifika effekterna för att undersöka hur detta kan påverka risken för återfall beroende på storleken av miljösanktionsavgiften. Uppsatsen kom fram till att Log-Normal fördelningen är mest lämplig med icke-observera effekter på kommunalnivå. Uppsatsen fann att det existerar icke-observerbara effekter på kommunalnivå. Vi fann att en initialt högre miljösanktionsavgift leder till minskad risk, dock är den överskattad om man väljer bortse från den icke-observerbara heterogeniteten på kommunalnivå. Nyckelord: Time to event, överlevnadsanalys, miljööverträdelser, miljötillsyn, frailty, multilevel modeling, icke-observerbara effekter, Cox-PH, Extended generalized gamma ii

5 Innehåll 1. Inledning Tidigare studier Metod Generellt om överlevnadsanalys Censurering Överlevnadsfunktionen och täthetsfunktionen Hazardfunktionen Icke-parametrisk skattning av överlevnadsfunktionen Kaplan-Meier skattning av överlevnadsfunktionen Life-table skattning för överlevnadsfunktionen Kaplan-Meier skattningen av hazardfunktionen Life-table skattningen för hazardfunktionen Wilcoxon och log-rank Cox proportionella hazard (Cox PH) modell Skattningar av differential effekten med Partial Likelihood Antagande och Diagnostik Parametriska modeller Fördelningar för parametriska modeller Icke-observerbara effekter modellering Univariata icke-observerbara effekter Multivariata icke-observerbara effekter Data Resultat Icke-parametrisk test Modellering av Cox PH modell Parametriska modeller Utvärdering av valda fördelning Modell 1, 2 och 3- Hazardfunktioner med olika fördelningar Modell 4 och 5 - Log-normal och Exponential fördelningar med gamma frailty Analys Utvärdering av Cox PH Utvärdering av parametriska modeller Utvärdering av de icke-observerbara effekterna iii

6 7. Slutsats Referenser Bilaga A. Riskfunktioner (Hazardfunctions) för samtliga kovariat B. LLS Test för Cox PH antaganden C. Fördelningar inom EGG anpassas till Kaplan-Meier skattningar av överlevnadsfunctionen D. Tabell över parametriska regressioner över olika typer av kluster av bästa respektive sämsta fördelningen E. Beskrivning av variabler iv

7 1. Inledning Hur vi väljer att ta hand om vår närmiljö har vart och är en viktig fråga i Sverige det senaste decenniet. Därför har naturvårdsverket gjort en genomgående granskning av miljötillsynen i Sverige. De har försökt granska hur den fungerar genomgående med avseende på alla dess delar. Ett viktigt verktyg är att utfärda miljösanktionsavgifter (MSA) som ämnar försöka stävja företagare negativa inverkan på miljön. Därför kan det vara intressant att undersöka hur MSA minskar de eventuella återfall i miljööverträdelser och i sådana fall hur lång tid det tar. Detta skulle kunna undersökas med överlevnadsanalys. Överlevnadsanalys är en gren inom statistik som länge har använts för att undersöka tiden till en specifik händelse ska ske. Den har implementerats inom en rad olika områden som demografi, teknik och medicin med flera andra. Det är ett viktigt verktyg för att ta beslut som har stor påverkan för både privat och offentlig sektor. Metoden är speciellt värdefull när man vill granska differentialeffekten av exempelvis politiska reformer eller mediciners påverkan på patienter. Vidare kan man också granska i likhet med logististic regression vilka kovariater som kan tänkas påverka risken för att uppleva en händelse. Styrkan med överlevnadsanalys är att den tar hänsyn för tiden det tar att uppleva händelsen och eventuella censureringar, det vill säga individer som inte upplever händelsen inom studietiden för vilka man ej har information om. Analogt med andra statistiska metoder är korrekt modellering nödvändigt för att erhålla tillförlitligt resultat. Inom överlevnadsanalys används vanligen den semiparametriska Cox Proportional hazard (Cox PH) modellen och parametriska modeller inom accelerated failure time (AFT). Cox PH mäter risken för att uppleva händelsen medan AFT mäter tiden det tar till att uppleva händelsen. Både dessa modeller kräver att vissa grundantaganden är uppfyllda för att inte få vilseledande resultat. Cox PH modellen som namnet antyder antar att kovariaternas differentialeffekt skall vara proportionella. Enligt Allison (2010) behöver man inte strikt ta hänsyn till icke-proportionalitet, dock så förutsätter det att man tolkar resultatet annorlunda. Han menar att man istället ska tolka den skattade Cox PH modellen som den genomsnittliga risken över tid. De parametriska modellerna behöver ej anta proportionalitet över tid för kovariaternas effekt på tiden det tar tills man upplever händelsen. Detta kräver att fördelningen man väljer till sin modell är lämpligt för datamaterialet. Modellen som anpassas till datamaterialet bör alltså följa de tendenser materialet gör. Fastän man har testat för antaganden om proportionalitet givet en Cox PH modell eller om en parametrisk modell har rätt fördelning kan det fortfarande ge resultat som ej speglar verkligheten. Detta eftersom man vid modellering har utelämnat eventuella viktiga kovariater som kan förklara risken för att utsättas för en händelse, eller så kan det vara att datamaterialet är hierarkisk, d.v.s. det kan finnas latenta faktorer som påverkar en grupp av individer. Inom överlevnadsanalys kallas detta för frailty och i det senare fallet, shared frailty. Generellt heter det icke-observerbar heterogenitet. 1

8 Det var Vaupel W. J. et al. (1979) som första gången kritiserade de gamla metoderna, där man bortsåg från de icke-observerbara effekterna för överlevnadsdata. De menade att man i tidigare forskning av överlevnadsdata bortsåg från heterogeniteten som kan finnas inom populationen man undersöker, både teoretiskt och i praktiken. Alla individer är inte lika och detta kan leda till att man över- eller underskattar parametrarna i de olika modellerna. Frailty (direkt översatt; skörhet, vanligen används denna term inom medicin) termen visar de icke-observerbara riskfaktorerna i modellen som kan vara på individnivå eller för en grupp, det vill säga univariat eller multivariat. För att lösa detta problem, introducerade Vaupel en ny variabel som multiplikativt förs in i modellen för att kontrollera de icke-observerbara effekter som kan finnas. Problemet Vaupel såg, var att när man skattar en parameter med maxmium likelihood (ML), är ett grundantagande att observationerna skall vara oberoende och slumpmässigt lika fördelade, men när det existerar korrelation mellan individer frångås detta antagande. Därmed erhålls inte resultat som är tillförlitliga. Beroende på hur korrelationen ser ut kan vi få kan skattningarna av koefficienternas effekt på risken att uppleva en händelse antingen över- eller underskattas vilket framgår från hur man räknar ut skattningar med ML-metoden. Eftersom statistik är grund för policy beslut, och analys av överlevnadsdata tillämpas inom medicin och andra viktiga områden såsom teknik och olika samhälleliga inriktningar bör också resultatet som redovisas vara tillförlitliga. Exempelvis, när man arbetar inom medicinutveckling och vill få fram effekten som en medicin har på patienten så är det viktigt att kontrollera för de latenta faktorer som kan existera. Detta kan annars leda till drastiska konsekvenser. Vi kommer att granska olika modeller både parametriska såsom semi-parametriska som anpassas till datamaterial baserad på återfall av miljööverträdelser för företag i Sverige mellan 2002 och Vi kommer undersöka hur val av modell påverkar skattningarna av risken för återfall (med avseende på huruvida man erhåller en ny MSA). Vi ska alltså utvärdera vilken modell som passar datamaterialet bäst med givna verktyg som specificeras i metodavsnittet. Den modell vi anser passa bäst kommer vi att jämföra med den som anses passa sämst för att få en klarare bild av omfattningen av en felaktig modellering. När vi funnit den optimala respektive minst optimala modellen, implementerar vi de icke-observerbara effekterna. Inom överlevnadsanalys kallas detta för shared frailty, men generellt kallas detta för klusterspecifik icke-observerbar heterogenitet. Vidare vill vi granska effekten av MSA på risken för att begå en ny miljööverträdelse. Denna effekt kontrolleras dels genom kontrollvariablerna; Antalet anställda, Typ av miljööverträdelse samt Beslutande myndighet. Eftersom vi har överlevnadsdata, vilket är en form av paneldata, vill vi även kontrollera för icke-observerbara effekter. Detta leder till att våra frågeställningar blir: Kan en modell med proportionell hazard antas för datamaterialet? Om inte, hur kan detta då hanteras? Följer företagens återfall av miljööverträdelser någon specifik fördelning inom EGGramverket? Hur skiljer sig en lämplig respektive mindre lämplig fördelning med avseende på skattningar och signifikansnivåer? 2

9 Finns det några icke-observerbara effekter i datamaterialet? Om det finns, hur påverkar det skattningarna? Hur förklarar MSA företagens återfall av miljööverträdelser i Sverige? Följer resultatet tidigare forskning? Uppsatsen är disponerad på följande sätt. Avsnitt 2 behandlar tidigare studier om ickeobserverbara effekter och miljööverträdelser. Avsnitt 3 behandlar det teoretiska ramverket för analys av överlevnadsdata med och de icke-observerbara effekterna. Avsnitt 4 beskriver datamaterialet som nyttjas och Avsnitt 5 redogör resultatet. Avsnitt 6 analyserar och beskriver de implikationer resultatet medför. Avsnitt 7 summerar uppsatsen. 2. Tidigare studier Artman et al. (2013) skrev på uppdrag av naturvårdsverket en rapport om effektiv miljötillsyn. Rapporten är en genomgående och tvärvetenskaplig utredning om hur miljötillsynen ser ut inom Sverige och över dess effektivitet. Målsättningen var att uppnå en effektivare miljötillsyn med avseende på alla dess komponenter från metodiken för inspektioner till den institutionella ram som inspektörer arbetar inom. Vidare ville rapporten påvisa möjligheter för att bättre kunna mäta effekterna av miljötillsynen. Dessutom konstaterar rapporten att det kan finnas en rad variabler som kan tänkas påverka företaget (verksamhetsutövaren) med avseende på huruvida man begår en miljööverträdelse eller ej. Exempel på detta enligt rapporten är politiska förhållanden, media och allmänheten. Enligt Björkman (2000) kan jävsitutationer uppkomma vid tillsyn av miljööverträdelser då kommunalpolitiker inte vill bötfälla de kommunalägda verksamheterna. Därutöver har många kommuner en negativ befolkningstillväxt vilket kan medföra att kommuner inte vill alienera sig med företag och andra intressenter då de kan anses göra kommunen oattraktiv. Artman et al. (2013) kom fram till att när kommuner vill främja sitt lokala näringslivs produktionsnivå använder de sig av en mer informativ miljötillsyn snarare än kontroll. Detta påverkar miljörisken positivt. Alltså, risken ökar för att begå miljööverträdelser när kommunen väljer att istället för att kontrollera företagen, så informeras företagen om de regler som gäller. Vidare konstaterar de att det kommunalpolitiska läget påverkar miljötillsynen och exemplifierar effekten med en difference in difference 1 skattning där de undersöker effekten av att miljöpartiet inträde i kommunalpolitiken. Där fann de att miljöpartiets inträde ökade antalet miljösanktionsavgifter som utfärdades. Artman et al. (2013) antyder att det finns en viss kommunaleffekt på hur miljötillsynen bedrivs. Därför kontrollerar vi för icke-observera effekter på kommunalnivå. Vaupel et al. (1979) kom fram till att när man inte tar hänsyn till att datamaterialet är hierarkiskt, d.v.s. i flera nivåer så leder det till att man kan får ett resultat som inte stämmer överens med hur 1 Diffrence in difference är en metod då man undersöker skillnaden i en grupp mellan två tidsperioder där oftast medelvärde jämförs i de två olika tidsperioderna för att studera skillnaden. 3

10 det faktiskt ser ut. Detta medför att politiker och andra beslutsfattare grundar sina beslut på inkorrekta underlag. Detta på grund av att i fler-nivå (multi-level) data så är inte exempelvis observationer inom ett kluster oberoende och detta faktum, när man skattar med ML-estimatorn ger felaktiga skattningar. Artman et al. (2013) använde sig av överlevnadsanalys när de undersökte företagsåterfall av miljööverträdelse givet nivån på MSA. Det som undersöktes var hur lång tid det tar för ett företag att bli dömd för en ny miljööverträdelse givet den initiala MSA. Analysen genomfördes med icke-parametriska metoder där företagen är stratifierade över den initiala MSA och därefter undersöktes skillnaden mellan de olika grupperna. Då datamaterialet inte visar när miljööverträdelse har begåtts utan endast när domen är utfärdad så använde man sig av baysiansk inferens, för att fånga upp tiden mellan handlingen för överträdelsen och utfärdandet av MSA. Detta för att undersöka de olika grupperna vilket implicerade på att ett högre initialt MSA leder till en minskad risk för återfall av miljööverträdelse. Eftersom Artman et al. (2013) nyttjade deskriptiv statistik utelämnades en rad tänkbara kovariater som kan tänkas påverka risken för återfall av miljööverträdelse. De kontrollerade även inte för eventuell heterogenitet bland företag. Då majoriteten av de som begår en ny miljööverträdelse, gör det i början av studieperioden, kan de signalera att det finns heterogenitet i datamaterialet. 3. Metod 3.1. Generellt om överlevnadsanalys Överlevnadsdata undersöker tiden det tar för att en händelse ska ske. När denna metod först utvecklades användes denna analysmetod främst inom medicin för att undersöka hur länge individer givet vissa egenskaper överlevde (Hougaard, 2000). Dock, så är metoden användbar i alla situationer där man undersöker överlevnadsdata som exempelvis inom ekonomi, demografi och naturvetenskapliga områden. Det som kännetecknar överlevnadsdata är hur man inkorporerar individer vars händelse av intresse inte har skett under den utsatta tidsperioden, d.v.s. censurering, och att själva fördelningen för när händelsen sker T i oftast är högervriden. Därför är vanliga metoder som exempelvis regression inte optimalt då den bortser från vital information från censureringen av data och vanligtvis antar normalfördelning. (Collett, 2015) Censurering Det finns ett antal typer av censurering, varav tre är de mest vanligt förekommande, nämligen: Höger-, Vänster- och Intervall-Censurering. Höger-Censurering är den mest vanligt förekommande, där utredaren har information om när individen påbörjade studien, men har ingen information om när individen upplevde händelsen. Denna typ av censurering brukar vanligtvis ske när t.ex. studien har avslutats och individen inte har upplevt händelsen vid tidpunkten, eller när individen har hoppat av studien och man därmed inte har någon information om när händelsen upplevs. Vänster-Censurering innebär att utredaren inte har information om när individen påbörjade studien, dock så vet man om när individen upplever händelsen. Intervall- 4

11 Censurering innebär att man inte har den exakta tidpunkten för när individen upplevde händelsen, dock så vet man inom vilket tidsintervall händelsen har skett, detta är vanligast när man skattar överlevnadsfunktionen genom Life-Table metoden (vilket diskuteras senare). (Collett, 2015) Överlevnadsfunktionen och täthetsfunktionen Överlevnadsanalys bygger på tre olika funktioner nämligen: hazard-, överlevnads- och täthetsfunktionen, där förhållandet mellan dem är följande f = h, där f är täthetsfunktionen, s är s överlevnadsfunktionen och h är hazardfunktionen. Överlevnadsfunktionen mäter tiden för hur länge en individ överlever, d.v.s., inte upplever händelsen. Om vi låter T vara en slumpmässig variabel som mäter tiden för att en händelse ska ske, och t vara den observerade tiden en händelse har skett, då T 0 och där är T = 0 vid undersökningens startperiod. Så är fördelningsfunktionen t 0 F(t) = P(T < t) = f(u)du, (3.1) där P( ) är sannolikheten att överlevnadstiden T är lägre än tidpunkten t, och där f(u) är täthetsfunktionen för den slumpmässiga variabeln T. Fördelningsfunktionen brukar i detta sammanhang även kallas för den kumulativa incidensfunktionen. (Collett, 2015) Därmed kan överlevnadsfunktionen härledas från fördelningsfunktionen eftersom överlevnadsfunktionen är komplementhändelsen till F(t) t S(t) = P(T > t ) = 1 P(T < t) = 1 f(u)du 0 (3.2) S(t) visar sannolikheten vars tid fram till en händelse är större än eller lika med t. Om T är en kontinuerlig variabel så är också överlevnadsfunktionen kontinuerlig och därmed en avtagande funktion, där den vid tidpunkt t = 0 är lika med 1 och vid tidpunkt = lika med noll. Om, t f(u)du = 0 0 (3.3) så implicerar det att S(t) = 1 när ingen individ har upplevt en händelse, vilket alltid är fallet vid tidpunkt noll och S(t) = 0, när t. (Collett, 2015) Hazardfunktionen Om man istället vill undersöka risken att uppleva en specifik händelse mellan tidpunkterna t och t + 1 givet att man inte har upplevt händelsen fram till tidpunkt t, kan man analysera hazardfunktionen, vilket är definierad som, h(t) = lim δt P(t T T+δt T t δt (3.4) 5

12 Notera att h(t) inte är en sannolikhet, utan mäter risken för att en individ upplever händelsen vid tid t givet att händelsen inte har inträffat innan tid t. Från ekvation (3.4) kan man vidare se att, givet att T är kontinuerlig och efter lite manipulation, att h(t) är kvoten mellan täthetsfunktionen och överlevnadsfunktionen, d.v.s., h(t) = f(t) = d S(t) dt ln (S(t)), (3.5) Detta i sin tur implicerar att den kumulativa hazardfunktion (vilket ackumulerar hazarden över tid), vid tidpunkt t är, t 0 H(t) = h(u)du = log (S(t)), (3.6) Där S(t) = exp[ H(t)], (3.7) vilket fås med lite algebraisk manipulation genom ekvation (3.5). Man kan även tolka den kumulativa hazardfunktionen som det förväntade antalet händelser mellan t = 0 och t. Dessa tre funktioner som har redovisats ovan skattas antingen med parametriska metoder eller icke-parametriska metoder (Collett, 2015) Icke-parametrisk skattning av överlevnadsfunktionen Ett första steg i att analysera överlevnadsdata är numeriska och/eller grafiska sammanfattningar över överlevnadstiden för individer i en specifik grupp, d.v.s. deskriptiv statistik. Överlevnadsdata är vanligen sammanfattad genom att skatta hazard- och överlevnadsfunktioner som har diskuterats ovan. Metoder där man skattar dessa funktioner och inte antar någon fördelning kallas för icke-parametriska metoder. När man har överlevnadsdata där ingen har censurerats kan man skatta överlevnadsfunktion med, S = s n, (3.8) där s är antalet individer som har överlevt vid tidpunkten t och n är det totala antalet individer. Två icke-parametriska metoderna som kommer att behandlas i detta avsnitt är Kaplan-Meier och Life-table estimeringar. (Collett, 2015) Kaplan-Meier skattning av överlevnadsfunktionen Kaplan-Meier (1958) introducerade produkt-limit skattningen för överlevnadsfunktionen. Denna metod används främst när det finns höger censurerad data som inte är grupperad. Kaplan-Meier metoden grundas i att det finns ett slumpmässigt urval av N individer med överlevnadstiderna, T 1, T 2,, T N där t 1 t 2 t N. Vissa av dessa N individer kan vara höger-censurerade och det kan finnas fler än en med samma överlevnadstid. Därför antar man att det finns r 6

13 personer som har upplevt händelsen och att antalet personer som upplevt händelsen kan aldrig överstiga antalet individer i studien, d.v.s. r n och om man antar att individerna i studien är oberoende varandra så leder det till Kaplan-Meier skattningen enbart blir en produkt av respektive individs sannolikhet att inte uppleva händelsen. Överlevnadsfunktionen är beroende av hur många individer n j som finns i varje intervall, där varje intervall är uppdelade med δ som är ett oändligt litet tidsintervall och hur många som upplever händelsen. Genom detta inbegriper överlevnadsfunktionen även censurerade individer vilket påverkar n j storlek i tidsintervallen. Detta leder fram till att överlevnadsfunktionen: k S = (n j d j ) j=1, (3.9) Där n j är antalet individer som inte har upplevt händelsen upp till tidpunkten t och d j är antalet individer som har upplevt händelsen vid tidpunkt t. Därmed så är överlevnadsfunktionen sannoliketen att inte uppleva händelsen, d.v.s. överleva fram till t + 1 givet att man har inte har upplevt händelsen i intervallet t. (Kaplan-Meier, 1958) Life-table skattning för överlevnadsfunktionen Analogt med detta förfarande kan man skatta life-table estimaten för överlevnadsfunktionen, dock med två större skillnader. Life-table skattningarna antar att alla censureringar i respektive tidsintervall är uniformt fördelade och att intervallen ej längre är oändligt små. Antagandet, vilket kallas för ett aktuarisk antagande, att alla censureringar är uniformt fördelade, medför att det genomsnittliga antalet individer som är utsatta för risk är, n j n j = n j c j 2, (3.10) Där n j och c j är antalet individer utsatta för risk respektive blivit censurerade vid intervall j. I intervall j så räknas sannolikheten att uppleva en händelse ut genom att ta d j n J. Därmed så blir sannolikheten att inte uppleva en händelse komplementhändelsen. Ponera nu att sannolikheten att en person inte upplever händelsen efter tidpunkt j 1, för alla j från 2 upp till m intervall. Detta kommer då vara produkten av alla sannolikheter att en individ inte upplever händelsen genom alla intervall upp till j, d.v.s., individen klarar sig genom alla intervall upp till och inkluderande j 1. Detta leder till, om man generaliserar för alla individer. j 1 n j d j n j S (t) = i=1, (3.11) När man väl skattat överlevnadsfunktionen kan det vara av intresse att också skatta hazardfunktionen som mäter den omedelbara hastigheten som individerna i urvalet upplever händelsen. (Collett, 2015) 7

14 Kaplan-Meier skattningen av hazardfunktionen För icke-grupperad data så kan man ta kvoten antalet som har upplevt händelsen vid en viss tidpunkt t mot de som inte har upplevt händelsen vid samma tidpunkt t. Detta medför att om vi har d j som har upplevt händelsen vid j th tidpunkten och n j som är utsatta för risken att uppleva händelsen så kan man skatta hazardfunktionen genom, ĥ(t) = för alla t j t t j + 1 där τ = t j+1 t j. d j n j τ j, (3.12) Vidare kan man skatta den kumulativa risken, som mäter den totala risken individerna i urvalet upplever upp till tidpunkt t. Ekvation (3.7) och ekvation (3.12) ger den kumulativa risken när man använder sig av Kaplan-Meier metoden, vilket är, k H (t) = log ( n j d j j=1 ), (3.13) för alla t k t t k+1 där k är antalet oändligt små tidsintervall som går från 1 till r, där r är de ordnade tidpunkterna för de observerade händelserna. (Collett, 2015) Life-table skattningen för hazardfunktionen Anta nu istället att de observerade överlevnadstiderna har grupperats i m intervall. Om antalet som upplever händelsen är d j, där j går från 1 till m och antag att n j från ekvation (3.10) är det genomsnittliga antalet personer utsatta för risk i det specifika intervallet. Vidare om vi antar att risken är konstant inom varje intervall och där τ är längden på intervall j, så är life-table skattningen för hazardfunktionen det j th intervall, h (t) = n j d j (n j d j 2 )τ, (3.14) därmed kan vi också konstatera att när hazardfunktionen skattas med life-table metoden så blir hazardfunktionen en trapp-funktion. (Collett, 2015) Wilcoxon och log-rank Skillnaderna mellan två eller flera gruppers överlevnadsfunktioner kan undersökas med både Wilcoxon och Log-rank test. Dessa två icke-parametriska tester, testas med hypoteserna H 0 : Det är inte någon skillnad mellan grupperna överlevnadstider H 1 : Det är en skillnad mellan gruppernas överlevnadstider Log-ranks teststatistika ges av: 8

15 (d 1i e 1i ) v t ~ χ 2 (n 1) (3.15) där d 1j är antalet som har upplevt händelsen i tidsperiod j i grupp 1 och e 1j är antalet som förväntas uppleva händelsen, vilket sedan summeras för alla tidsperioder r delas detta med standardavvikelsen v t. χ obs är χ 2 fördelat med n-1 frihetsgrader. Wilcoxons teststatistika ges av: n j (d 1j e 1j ) 2 j ~ χ 2 (n 1), (3.16) n 2 j j v j där n j är antalet individer som är utsatta för risk vid tidsperiod j, vilket sedan summeras för alla tidsperioder och n j 2 v j är lika med antalet individer utsatta för risk i tidsintervall j kvadrat och sedan multiplicerat med variansen. (Collett, 2015) Om vi undersöker Log-rank och Wilcoxons teststatistika (ekvation 3.15, 3.16) så ser vi att dessa två skiljer sig åt. Wilcoxon teststatistika (3.16) viktar både variansen och det förväntade värdet medan log-rank teststatistikan är oviktad. Detta kommer leda till att skillnader i resultat från dessa två tester då två eller flera gruppers överlevnadsfunktioner i början av en studie skiljer sig åt, eftersom Wilcoxons teststatistiska har en vikt kopplad till antalet individer som är utsatta för risk. Detta leder till att Wilcoxon teststatistika ger större utslag i skillnaderna i överlevnadsfunktioner i början av en studie än slutet av studien. Medan Log-rank inte påverkas av att skillnaden är i början eller i slutet av studien. Man bör iaktta försiktighet i tolkningen av resultaten då de kan ge falska signifikanser och vice versa. Därför är det också viktigt att nyttja den underliggande teorin till de uppsatta hypoteserna, exempelvis, om man lägger stor vikt vid skillnader i början av en studie är Wilcoxons resultat mest lämpliga Cox proportionella hazard (Cox PH) modell En modell som på grund av sin enkelhet att applicera och samtidigt kunna skatta en hazardfunktion och kontrollera för en eller flera variabler är Cox PH modellen. Modellen implementerades 1972 av den Brittiska statistikern Sir. David Cox (1972). Till skillnad från Life- Table och Kaplan-Meier skattningar så kan Cox PH inkorporera fler en grupp av variabler som kan differentieras från risken som referensgruppen (baseline), d.v.s. man kan undersöka hur olika variabler kan påverka risken för att uppleva händelsen. Vidare så skiljer den sig från de parametriska modellerna på ett sådant sätt som visar på dess enkelhet; Cox PH följer ingen fördelning och därmed eliminerar man de problem som kan uppstå när man tvingar datamaterialet att följa en viss parametrisk modell. Värt att notera är att med en Cox PH modell följer också antagandet om proportionalitet vilket kan medföra en viss problematik, vilket diskuteras i ett senare avsnitt. Modellen som Sir. David Cox presenterade var h i (t x) = λ 0 exp (β i x i + + β k x ik ) (3.17) 9

16 λ 0 i ekvation (3.17) är baselinehazard, d.v.s., den risk som individ i genom n (där n är antalet individer) kommer att utsättas för om vi ej differentierar för de olika egenskaperna finnas mellan individerna. Notera att risken referensgruppen är utsatt för måste vara större än, eller lika med noll. Faktorn exp ( ) i ekvation (3.17) är effekten av de variabler vi inkluderar i modellen på risken för att utsättas för en händelse, där β står för koefficienterna för respektive variabel effekten av x på riskfunktionen. I ekvation (3.17) kan man tydligt se att man låter fördelningen för överlevnadstiden vara okänd eftersom λ 0 ej specificerats. Men, genom att specificera λ 0 så kan vi också omvandla denna icke-parametriska modell till en parametrisk sådan, exempelvis Weibull: h(t x ) = λγ(λt) γ 1 exp (β i x i + + β k x ik ), (3.18) I ekvation (3.18) är baselinehazarden låst till att den ska följa en Weibull fördelning med parametrarna λ och γ. Därmed modellerar Weibull fördelningen nu risken för att utsättas för en händelse, till skillnad under AFT modellen där den mätte tiden det tar tills man upplever en händelse. Ett antagande är att Cox PH modellens hazardkurvor skall vara proportionell mellan två individer (eller grupper). De skall alltså enbart skiljas åt med en faktor bestående av koefficienterna β k, vilket man kan se i ekvation (3.19) h i (t) h j (t) = λ 0 λ 0 exp(β ix i + +β k x ik ) exp(β j x j + +β k x jk ) = exp [β 1(x i1 x j1 ) + + β k (x ik x jk )] (3.19) d.v.s., risken för att utsättas för händelsen måste vara konstant över tid, och detta är ett antagande i Cox PH modellen som bör kontrolleras. Vid fallet att det ej råder proportionalitet mellan baselinehazard och betakoefficienternas effekt på individerna över tid, så kan man lösa det genom att skapa en tidberoende variabel som kan ta hänsyn till effekten som finns över tid (Cox, 1972). Däremot, enligt Allison (2010) behöver man inte strikt ta hänsyn till icke-proportionalitet, med förutsättningen att man tolkar resultatet annorlunda. Han menar att man istället ska tolka den skattade Cox PH modellen som den genomsnittliga risken över tid och inte som en konstant skillnad Skattningar av differential effekten med Partial Likelihood Vi kan skatta β med hjälp av partial likelihood (PL) skattningar. PL skattar enbart β och tar inte hänsyn till referensgruppens risk. Detta medför att man får mindre effektiva skattningar när man arbetar med små urval, men med ett stort urval så är de approximativt effektiva och mer tillförlitliga. När man inte har några ties, d.v.s. att två eller flera individer upplever händelsen vid samma tidpunkt, skattas β-koefficienter av: D p exp ( β k Z (i)k ) k L(β) = i=1 p *, (3.20) j R (exp( β k Z jk )) t(i) k=1 10

17 vilket kan härledas från ekvation (3.17). I ek(3.20), är Z ik den k th kovariaten tilldelad individ i med en tid till händelsen på t i. (Cox, 1972) Vid fallet att man har ties finns det flera olika metoder för att lösa detta. Eftersom datamaterialet består av ett stort antal ties då tidsvariabel är diskret och endast antar månader som ett företag är utsatt för risk måste vi ta hänsyn till detta. Det finns tre metoder som vanligen används, nämligen; Exact, Breslow, Efron. Exact hanterar ties genom att anta att händelserna sker under olika tidpunkter fastän datamaterialet är grupperat. Ett problem med denna metod är att det tar relativt lång tid att skatta Cox PH modeller när det finns många ties i datamaterialet. Därmed kommer denna metod vara svår att tillämpa för detta datamaterial. Jadwiga Borucka (2014) utvärderade flera olika metoder för att lösa tied data där Borucka främst undersökte skillnaden mellan Breslow, Efron och Exact med flera, för att studera vilken metod som var mest optimal med avseende på skattningarna. Studien fann att Exact var den bästa metoden för att hantera ties men att Efron hade approximativt samma skattningar men en effektivare skattningsprocess än Exact. Vidare så kom Borucka fram till att Breslow enbart bör användas i de fall då man har ont om tid och inte behöver stor hänsyn till att få korrekta resultat. Detta leder till att vi kommer använda oss av Efron när vi skattar Cox PH modellerna Antagande och Diagnostik När man har skattat en modell bör man också kontrollera modellens antaganden, i detta fall handlar det om att vi bör kontrollera huruvida den skattade Cox PH modell har proportionella hazardfunktioner för respektive kovariats nivåer. Om modellens antagande ej uppfylls så innebär det att det finns en latent faktor som påverkar skillnaden mellan kontrollgrupperna. Detta innebär att modellen inte hittat den eller de faktorer som gör så att referensgruppens risk skiljer sig från den gruppen vi undersöker för, utan att det kan helt enkelt bero på att över tid, ökar eller minskar risken att utsättas för händelsen. För att kontrollera detta finns ett antal verktyg för att utvärdera hur väl modellen uppfyller antagandet. De verktyg vi kommer att använda oss av i denna studie är att grafiskt avgöra proportionalitet existerar bland kovariater Grafiskt avgöra om proportionalitet råder Man kan grafiskt studera om proportionalitet råder genom att undersöka den kumulativa hazardfunktionen (LLS). LLS ges då Cox PH regressionen integreras med avseende på tid, och logaritmeras vilket kan ses i följande ekvation: log (H i (t)) = β X i + log(h o (t)). (3.21) När man stratifierat över en kovariat och undersöker LLS kurvorna så ska de vara proportionella över tid för att antagandet om proportionalitet ska kunna antas. Om kurvorna korsas så kan man omedelbart förkasta tesen om att det råder proportionalitet, då det är matematiskt omöjligt för två 11

18 funktioner att vara proportionella om de korsas (går emot definitionen av proportionalitet, d.v.s. det skall vara en konstant kvot (skillnad(ratio); mellan två funktioner). (Collett, 2015) Men eftersom det är de skattade LLS kurvor man erhåller bör man också dra inferens om huruvida kurvorna är statistiskt signifikant skilda från varandra. D.v.s., fastän de korsar varandra så kan de ur ett statistiskt perspektiv vara lika med varandra på grund av osäkerheten behäftad med skattningarna. Däremot är det en subjektiv bedömning huruvida de är approximativt lika eller inte och det är i dessa fall upp till utredaren själv att bestämma. Det som kan göras om det ej råder proportionallitet bland kovariaten är att stratifiera de variabler som har icke proportionell risk, dock så blir modellen svårtolkad vid stratifiering av mer än en variabel. Därför kan man göra i enlighet med Allison (2010) samt Schemper et al. (2009) där de hävdar att icke proportionalitet ej behöver vara ett problem om man väljer att tolka effekten på risken över studieperioden varje variabel har som ett genomsnitt. Vidare hävdar Schemper (2009) att vid icke-proportionalitet kan skattningarna över- eller underskattas. Om man kontrollerar för icke-observerbara effekter (vilket diskuteras i avsnitt 3.5) kan över- eller underskattningen av parametrarna minskas Parametriska modeller Till skillnad från de icke-parametriska modellerna antar de parametriska modeller att den slumpmässiga variabeln T har en viss specifik fördelning med givna (dock okända) parametrar. En parametrisk modell som ofta används är Accelerated failure time model (AFT). AFT visar att tiden till en händelse inte bara kan skilja sig över tid utan också bland individerna inom befolkningen, givet vissa underliggande oberoende variabler. Den skattas, olikt de ickeparametriska modellerna, med ML metoden. AFT modellen specificerar att kovariaternas effekt på hazarden ska vara multiplikativt med tiden istället för hazard en. Därmed kan man hävda att kovariaterna kan accelerera risken eller ekvivalent uttryckt; minska tiden fram till att en specifik händelse upplevs. T = T 0 exp(βx) (3.22) Där, T är tidpunkten för när man har upplevt händelsen, T 0 är referenstidpunkten för en person upplever händelsen, och x är vektor bestående av en uppsättning av kovariater, samt β är en vektor bestående av en uppsättning av koefficienter tillhörande kovariaterna som påverkar tidpunkten för när man upplever händelsen med en faktor av β. Logaritmerar vi ekvation (3.22) kan vi vidare se att: ln(t) = ln(t 0 ) + βx, (3.23) Här kan man se att kovariaterna påverkar i vilken hastighet individen korsar tidsaxeln, d.v.s., hur lång tid det tar för en individ att uppleva händelsen. Just eftersom kovariaterna påverkar tiden till en händelse multiplikativt (och ekvivalent uttryckt; logaritmen av tiden additivt) kallar man ovanstående modell för AFT. 12

19 Vidare kan vi notera att den generella AFT modellen på formen log-linear är definierad ln (T i ) = μ + βx + σε i (3.24) där µ är intercept termen, β och x är vektor bestående av koefficienterna till kovariaterna respektive kovariaterna och σ är scaleparametern medan ε är en slumpvariabel som modellerar avvikelserna av log T i från den linjära delen av modellen d.v.s. (βx) och där ε antas ha en specifik sannolikhetsfördelning. Notera att σ låser ε vid ett visst värde och därmed låter modellens scaleparameter σ stå för all variation. Parametrarna i modellen som skall skattas, när man låser ε, är; µ, β och σ. När T som är tiden fram till en händelse logaritmeras undviker man på detta sätt negativa värden vilket skulle vara problematiskt ur ett modelleringsperspektiv då tid ej kan anta värden som understiger noll. (Allison, 2010) Fördelningar för parametriska modeller Fördelningen för ε beror på scaleparametern,σ, men fördelningen kan även bero på shapeparametern q. Beroende på vilket värde de olika parametrarna tar så kan de härledas till olika fördelningar. Vi kommer att diskutera några av de fördelningar en Extended Generalized Gamma (EGG) modell kan anta beroende på shape- och scaleparametrarna. Ett sätt för att jämföra olika fördelningar är att sätta ihop de olika fördelningarna i ett enda parametriskt ramverk för att sedan bedöma de olika fördelningarna i förhållande till EGG. Där EGG har fördelningen för T, likt ekvation (3.24), där ε har täthetsfunktionen: q Γ(q f(q, ε) = { 2 ) (q 2 ) q 2 exp{q 2 [qε exp(qε)]}, q 0 (3.25) 1 ε2 exp ( ), q = 0 2 där q är shapeparametern. Som man kan se i ekvationen (3.25) när shapeparametern q = 0 så reduceras EGG modellen till en standard normalfördelning vilket leder till att T blir en Log- Normalfördelning i enlighet med ekvation (3.25). När shapeparametern i ekvation (3.25) är lika med 1 så reduceras EGG modellen till: 2π f(q, ε) = exp{ε exp(ε)}, ε, (3.26) vilket är en standard extremvärdes fördelning. Eftersom att ln(t) är en linjärfunktion av ε, så kommer ln(t) ha samma fördelning som ε. När man tar exp (f((q, ε)) från ekvation (3.26) leder det till att T kommer att ha en Weibull fördelning: T = exp(βx + σε) (3.27) Om istället q = 1 i ekvation (3.25) så blir det ett maximerat extremvärdes fördelning av lnt, vilket leder till att T antar Reciprocal-Weibull fördelning. 13

20 Ifall q = 1 och σ = 1, så antar ekvation (3.25) en Exponentialfördelning och om σ = 1 och q > 0 leder till att ekvationen antar en Gamma fördelning. I tabell 3.1 kan vi se de olika specialfallen av EGG-ramverket. Tabell 3.1: Special fall av EGG-ramverket Fördelning σ=scale q=shape Exponential 1 1 Log-normal R 0 Weibull R 1 Reciprocal Weibull R -1 Gamma 1 > 0 EGG R R Som man kan se så är det fem modeller/fördelningar som är inkluderade som specialfall av EGG modellen. Om man fixerar med scale- och shapeparametern i EGG modellen kan man testa de olika modellerna mot EGG modellen och detta görs igenom log-likelihood. (Ghilagaber, 2005). Däremot så krävs det inte att man jämför enbart mot EGG, utan man kan jämföra två modeller med log-likelihood kvoten om och endast om de är specialfall av varandra. Hypotestestet blir då: H 0 : de fixerade värdena för modellen passar datamaterialet; mot att, H 1 : de fixerade värdena för modellen passar inte datamaterialet där teststatistikan ges av att man tar den positiva skillnaden i log-likelihood mellan de två olika modellerna och multiplicerar det med två. Där resultatet är χ 2 fördelat och testas mot hypotesen ovan med en given signifikansnivå som korresponderar till ett specifikt kritiskt χ 2 kritiskt värde. Dock, på grund av fixeringarna i de olika modellerna så förlorar man frihetsgrader för att slippa detta så kan man t.ex. testa exponentialfördelning mot Weibull eftersom att man då bara behöver göra en fixering. Att förkasta H 0 betyder i detta fall att fördelningen inte är bra och passar inte för datamaterialet som undersöks. (Ghilagaber, 2005) Man kan även använda sig av Akaike Information Criteria (AIC) för att utvärdera en given mängd modeller. AIC bestraffar modellens komplexitetet samt tar hänsyn till hur väl modellen passar datamaterialet. Den är definierad som följer, AIC = 2 log(l ) + ( φ) (3.28) Där φ är antalet parametrar i modellen och tar vanligen värdet mellan 2 och 6. De flesta statistiska programvarorna (SAS, STATA, R) antas värdet 2 för. Utöver dessa två verktyg kan man även nyttja sig av att grafiskt undersöka hur väl en viss fördelning passar datamaterialets överlevnadsfunktion som skattas med Kaplan-Meier metoden. (Collett, 2015) 14

21 3.5. Icke-observerbara effekter modellering Vaupel et al., (1979) introducerade begreppet frailty när de undersökte dödlighet. De ansåg att tidigare metoder som fanns inom överlevnadsanalys bortsåg från heterogeniteten som kan finnas inom en population. De menade att det kan finnas heterogenitet inom befolkningen som kan leda till över- eller underskattningar av överlevnadsfunktionen. Genom att introducera en variabel för de icke-observerbara effekterna så introducerar de slumpmässiga effekterna i modellen. Modeller som handskas med de icke-observerbara effekterna visar att det finns icke-observerbara slumpfaktorer mellan individer eller kluster vilket leder till felskattningar. Vid modellering av data kontrollerar man inte för korrelationen mellan individer tillhörande samma kluster får man felaktiga skattningar. Variabeln mäter den ej kontrollerade varians som finns på grund av kovariat som utelämnats. Vi kommer i denna del att diskutera icke-observerbar heterogenitet där fokus främst kommer vara på kluster specifika modeller Univariata icke-observerbara effekter Univariata modeller tar hänsyn till att befolkningar inte är homogena utan istället att befolkningen är heterogen. Man antar i univariata modeller att de icke-observerbara effekterna är på individnivå. När icke-observerbara kovariater inte har modellerats tar man inte hänsyn till heterogeniteten och detta leder till felspecificerade modeller. Det finns vissa individer inom befolkningen som har en högre skörhet (i generella termer, en icke-observerbar negativ individeffekt) och kommer därmed uppleva händelsen tidigare än andra individer inom befolkningen. Under dessa antaganden kan det konstrueras en modell likt Cox PH där risken är, given den icke-observerbara heterogeniteten; h(t Z, X) = Z h 0 (t X) exp (B X) (3.29) h 0 (t X) kan ses som baseline hazardfunktionen som både kan vara parametrisk och ickeparametrisk. Z i ekvationen (3.29) är en icke-observerbar slumpmässig variabel som visar variationen mellan individer inom befolkningen. Om Z > 1 har en individ högre risk men om Z < 1 så har individen lägre risk jämfört med referenskategorin. Det vill säga Z är multiplikativ med baseline hazardfunktionen. X och β i ekvationen är vektorer bestående av kovariater respektive parametrar. (Wienke, 2011) Eftersom vi studerar de icke-observerbara effekterna på kommunalnivå kommer vi inte använda oss av denna metodik för att granska de icke-observerbara effekterna Multivariata icke-observerbara effekter Inom överlevnadsanalys är det vanligt att stöta på hierarkisk data, vilket innebär att vi inte längre har observationer som är oberoende och slumpmässigt lika fördelade på individnivå. Ignorerar vi detta leder det till att inferensen vi drar från resultatet blir vilseledande. Detta ter sig i situationer där man exempelvis har observationer på individnivå där man har ytterligare en nivå som i sin tur påverkar en grupp av individer vilket ses som en klustereffekt. 15

22 Detta implicerar att individen korrelerar med andra individer inom sitt kluster. Det kan också vara så att en individ upplever händelsen fler än en gång, vilket i sin tur innebär att individens händelser är korrelerade med varandra. Detta medför alltså att vissa individer är mer benägna att uppleva händelsen tidigare än andra. Modellerar man ej för detta ignoreras den korrelation som finns för en individ som upplever händelsen flera gånger. Detta är en av de större skillnaderna mellan univariata och multivariata modeller, då univariata modeller enbart kontroller ickeobserverbara effekter på individnivå. Om man vill ha skattningar som är pålitliga bör detta kontrolleras för i modellen Klusterspecifika icke-observerbara effekter En form av multivariata modeller är då man antar att individer inom samma kluster delar vissa egenskaper som gör dem, relativt de andra unika. När man antar att ett kluster har gemensamma icke-observerbara effekter kan man anta en fördelning för de icke-observerbara effekterna och därmed skatta den inom klustren. Om man antar en modell där de icke-observerbara effekterna är klustrade inom grupper där det finns n kluster där kluster i har n i observationer som kan kopplas till de icke-observerbara effekterna Z i (1 < i < n). Beroende på de icke-observerbara effekterna Z i, förväntas överlevnadstiden i kluster i där (1 < i < n) vara oberoende och har hazardfunktionen: h(t X ij, Z i ) = Z i h 0 (t) exp (β X ij ), (3.30) där h 0 (t) är baselinehazard och β är en vektorkoefficient och X ij är en variabelvektor som innehåller informationen om tiden till händelsen T ij för individ j i kluster i, och Z i modellerar för de icke-observerbara effekterna. Där Z i antas vara en oberoende och lika fördelad slumpmässig variabel med täthetsfunktionen f(z). Därför måste det antas en fördelning för Z i för att den ska kunna bli skattad. Man kan även notera att Z i inte är beroende av tid och är enbart ett värde som tar hänsyn till sambandet mellan individer i kluster i. Därmed kan det konstateras att på grund av variationen mellan grupperna leder det till olika risknivåer för att utsättas för en händelse beroende på vilken grupp man tillhör. Detta blir alltså beroendet som existerar mellan individerna inom ett kluster. Skillnaderna i ekvation (3.29) och (3.30) blir hur man tolkar Z variabeln. Ekvation (3.30) representerar huruvida ett kluster är mer eller mindre benägen att uppleva en händelse till skillnad från ekvation (3.29) vars Z antas vara på individnivå. Vidare studerar man förhållandet mellan den kumulativa hazardfunktionen och överlevnadsfunktionen: S(t) = exp [ M 0 (t)], (3.31) där M 0 är den kumulativa hazardfunktionen. Följer det att den simultant betingade multivariata överlevnadsfunktionen för individerna i kluster i givet att individerna i respektive kluster delar samma icke-observerbara effekter Z i är: 16

23 n S(t i1,, t ini X i, Z i ) = exp ( Z i j M 0 (t ij ) exp (β X ij ), (3.32) j=1 där M 0 (t ij ) är den kumulativa hazardfunktionen för referenskategorierna, X ij är kovariatmatrisen för individerna i kluster i, vilket summeras för alla individer i kluster i. Z i är de delade icke-observerbara effekterna för alla individer i klustret i vilket är multiplikativ med den kumulativa hazardfunktion. Detta leder till att man sedan kan härleda den obetingade gemensamma överlevnadsfunktionen. Genom att ta medelvärdet av ekvation (3.32) med avseende på de icke-observerbara effekterna Z i får vi överlevnadsfunktionen givet kluster i: S(t i1,, t nnn X i, Z i ) = ES(t i1,, t nnn X i, Z i ) n =E j M 0 (t ij ) exp (β X ij ) j=1 n = L( j M 0 (t ij ) exp(β X ij )), (3.33) j=1 Där L är laplace transformationen av de icke-observerbara effekterna Z i. Detta leder till att den multivariata överlevnadsfunktionen härleds genom laplace transformationen av Z i fördelning. Laplace transformationen ser ut som följer: L(s) = 0 exp ( sz)f(z)dz, (3.34) Där s i detta fall är summan av den kumulativa hazardfunktionen för individer i kluster i, och Z är de icke observerbara effekterna. Här kan en notera att för att kunna skatta de icke observerbara effekterna behövs också en fördelning specificeras, f(z), vilket kommer visas i nästa avsnitt. (Wienke, 2011) Klusterspecifika icke-observerbara effekter med en Gammafördelning Den vanligaste fördelningen för de icke-observerbara effekterna Z är Gammafördelningen för dess matematiska fördelar, speciellt för dess enkla transformation genom Laplace transformationen. Förutom fördelningen av Z så är det även viktigt att man antar att tiden till händelsen bland individer inom klustret är korrelerade. Om man antar Gammafördelningen av Z med det förväntade värdet ett och variansen θ. Får vi genom laplace transformationen: L(s) = (1 + θs) 1 θ, (3.35) där s är summan av den kumulativa hazardfunktionen för inviderna i kluster i. Genom ekvation (3.33, 3.35) får vi då att den multivariata överlevnadsfunktionen för kluster i: n i S(t i1,, t inn X i ) = L( M 0 (t ij ) exp(β X ij ) j=1 n = (1 + θ i M 0 (t ij ) exp(β 1 X ij )) θ. (3.36) j=1 17

24 Detta innebär i sin tur att ju mindre θ är, desto mindre är felskattningen då man bortser från de icke-observerbara effekterna. (Wienke, 2011) Det finns flera fördelningar som man kan anta för de icke-observerbara effekterna men den som används oftast är Gamma (Clayton 1978; Vaupel et al., 1979). Det bör noteras att det finns vissa nackdelar med att anta en Gammafördelning. Hougaard (2000) diskuterar bland annat att Gammafördelningen kan ge avvikande resultat vilket beror på att baselinehazarden kan ha en stor påverkan på skattningarna än det verkliga beroendet då Gammafördelningen modellerar ett sent beroende då de icke-observerbara effekterna är klustrade. 4. Data Analysen är baserad på data från 8983 observationer från 7450 olika företag från år 2002 till Vilket betyder att datamaterialet innehåller företag som upplever händelsen flera gånger vilket det bör tas hänsyn för. Detta kan göras genom att introducera en variabel som tar hänsyn för de icke-observerbara effekterna. Av de 8983 observationerna upplever 3279 företag ett återfall i miljööverträdelse, och antalet censureringar uppgick till Företagen som är representerade återfinns i alla regioner i Sverige och nästintill alla kommuner och har från noll till över hundra anställda. Mediantiden till att erhålla en ny MSA för miljööverträdelsen är 32 månader och den genomsnittliga tiden är cirka 42 månader. Vi kan även notera att på 20 månader så har 2035 nya MSA utfärdats. Om vi sätter denna siffra i relation till det totala antalet händelser är det 62 % som har erhållit ytterligare en ny MSA för en miljööverträdelse inom 20 månader givet att alla företag som har upplevt händelsen under hela tidsperioden. I tabell 4.1. redovisas deskriptiv statistik där man kan observera antalet samt andelen censurerade företag för respektive variabel. Vidare kan man se i tabell 4.1. antalet händelser för respektive nivå för respektive variabel. Där händelser är definierade som tiden (i månader) det tar för att ett företag erhåller ytterligare en MSA. 18

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3

Läs mer

Sammanfattning. Förord

Sammanfattning. Förord Sammanfattning Varför regerar vissa ledare längre än andra? Uppsatsen använder ett datamaterial över ledares tid vid makten i 167 länder från början av 1800-talet till 1987 för att försöka besvara denna

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

1. INLEDNING Problemformulering Syfte Avgränsningar 4 2. TIDIGARE STUDIER 5 3. METOD Överlevnadsanalys 6 3.

1. INLEDNING Problemformulering Syfte Avgränsningar 4 2. TIDIGARE STUDIER 5 3. METOD Överlevnadsanalys 6 3. Sammanfattning Denna uppsats använder sig av SCB:s registerdata som omfattar samtliga par som gifte sig för första gången under 1998, dessa par studeras under cirka elva år fram till den 31 december 2008.

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Föreläsning 12: Repetition

Föreläsning 12: Repetition Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag

Läs mer

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor Survival analysis (Dag 1) Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor Henrik Källberg, 2012 Survival

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Hypotestestning och repetition

Hypotestestning och repetition Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Tre av tio har avgått

Tre av tio har avgått Statistiska institutionen Tre av tio har avgått En överlevnadsstudie av tiden till avgång för kommunfullmäktigeledamöter i Stockholms län. Three in ten has resigned A survival analysis of time to resignation

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera

Läs mer

Överlevnadsanalys. Överlevnadsanalys med tidsberoende kovariater. Tid till en händelse: observationer i kalendertid och som tid från start.

Överlevnadsanalys. Överlevnadsanalys med tidsberoende kovariater. Tid till en händelse: observationer i kalendertid och som tid från start. Överlevnadsanalys Överlevnadsanalys med tidsberoende kovariater Peter Höglund USiL 10 februari 2010 Kaplan-Meier Logrank test Cox-regression Tidsberoende kovariater (Tidsuppdaterade kovariater tas inte

Läs mer

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska

Läs mer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0

Läs mer

Föreläsning 7. Statistikens grunder.

Föreläsning 7. Statistikens grunder. Föreläsning 7. Statistikens grunder. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016 Föreläsningens innehåll Översikt, dagens föreläsning: Inledande

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad

Läs mer

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; (2) Mixed effect models; (3)

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 5. Kapitel 6, sid Inferens om en population Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning

Läs mer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005 . Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 =

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

import totalt, mkr index 85,23 100,00 107,36 103,76

import totalt, mkr index 85,23 100,00 107,36 103,76 1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion Avd. Matematisk statistik TENTAMEN I 5B57 MATEMATISK STATISTIK FÖR T och M ONSDAGEN DEN 9 OKTOBER 25 KL 8. 3.. Examinator: Jan Enger, tel. 79 734. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk

Läs mer

Hur måttsätta osäkerheter?

Hur måttsätta osäkerheter? Geotekniska osäkerheter och deras hantering Hur måttsätta osäkerheter? Lars Olsson Geostatistik AB 11-04-07 Hur måttsätta osäkerheter _LO 1 Sannolikheter Vi måste kunna sätta mått på osäkerheterna för

Läs mer

Kapitel 5 Multivariata sannolikhetsfördelningar

Kapitel 5 Multivariata sannolikhetsfördelningar Sannolikhetslära och inferens II Kapitel 5 Multivariata sannolikhetsfördelningar 1 Multivariata sannolikhetsfördelningar En slumpvariabel som, när slumpförsöket utförs, antar exakt ett värde sägs vara

Läs mer

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65 Formel- och tabellsamling i matematisk statistik Martin Singull Innehåll 4.1 Multipel regression.............................. 15 1 Sannolikhetslära 7 1.1 Några diskreta fördelningar.........................

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Trunkerade data och Tobitregression Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 10, 2015 Bertil Wegmann (statistik, LiU) Trunkerade data

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE31 Sannolikhet, statistik och risk 218-1-12 kl. 8:3-13:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 4: Konfidensintervall (forts.) Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2 Finansiell Statistik (GN, 7,5 hp, HT 008) Föreläsning Diskreta sannolikhetsfördelningar (LLL kap. 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level

Läs mer

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12 Explorativ Faktoranalys

Läs mer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser Univariata analyser Univariata analyser

Läs mer

Lufttorkat trä Ugnstorkat trä

Lufttorkat trä Ugnstorkat trä Avd. Matematisk statistik TENTAMEN I SF1901 och SF1905 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 18:E OKTOBER 2012 KL 14.00 19.00. Examinator: Tatjana Pavlenko, tel 790 8466. Tillåtna hjälpmedel:

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

f(x) = 2 x2, 1 < x < 2.

f(x) = 2 x2, 1 < x < 2. Avd. Matematisk statistik TENTAMEN I SF90,SF907,SF908,SF9 SANNOLIKHETSTEORI OCH STATISTIK TORSDAGEN DEN 7:E JUNI 0 KL 4.00 9.00. Examinator: Gunnar Englund, tel. 07 7 45 Tillåtna hjälpmedel: Formel- och

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 6 Johan Lindström 13 september 2017 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F6 1/22 : Rattonykterhet Johan Lindström - johanl@maths.lth.se

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2019-06-07 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Adam Jonsson Jourhavande

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Weibullanalys. Maximum-likelihoodskattning

Weibullanalys. Maximum-likelihoodskattning 1 Weibullanalys Jan Enger Matematisk statistik KTH Weibull-fördelningen är en mycket viktig fördelning inom tillförlitlighetsanalysen. Den används ofta för att modellera mekaniska komponenters livslängder.

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0 Avd. Matematisk statistik TENTAMEN I SF191, SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 1:A JUNI 216 KL 8. 13.. Kursledare: Thomas Önskog, 8-79 84 55 Tillåtna hjälpmedel: Formel- och tabellsamling i

Läs mer

Statistiska metoder för säkerhetsanalys

Statistiska metoder för säkerhetsanalys F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den

Läs mer

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 2 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

8 Inferens om väntevärdet (och variansen) av en fördelning

8 Inferens om väntevärdet (och variansen) av en fördelning 8 Inferens om väntevärdet (och variansen) av en fördelning 8. Skattning av µ och Students T-fördelning Om σ är känd, kan man använda statistikan X µ σ/ n för att hitta konfidensintervall för µ. Om σ inte

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 12. MER HYPOTESPRÖVNING. χ 2 -TEST Jan Grandell & Timo Koski 25.02.2016 Jan Grandell & Timo Koski Matematisk statistik 25.02.2016 1 / 46 INNEHÅLL Hypotesprövning

Läs mer

Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk

Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk Idag: AstraZeneca i Lund I morgon: Statistik-konsulterna Innehåll Risker på individ- och populationsnivå Preliminaria Logrank test/cox

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Föreläsning 13: Multipel Regression

Föreläsning 13: Multipel Regression Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017 Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE302 Sannolikhet och statistik 2019-06-05 kl. 8:30-12:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 031-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

Verksamhetsutvärdering av Mattecentrum

Verksamhetsutvärdering av Mattecentrum Verksamhetsutvärdering av Mattecentrum April 2016 www.numbersanalytics.se info@numbersanalytics.se Presskontakt: Oskar Eriksson, 0732 096657 oskar@numbersanalytics.se INNEHÅLLSFÖRTECKNING Inledning...

Läs mer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006 Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer