Statistisk analys av komplexa data



Relevanta dokument
Statistisk analys av komplexa data

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Statistisk analys av komplexa data

Tentamen MVE301 Sannolikhet, statistik och risk

Bayesiansk statistik, 732g43, 7.5 hp

SF1911: Statistik för bioteknik

Statistik 1 för biologer, logopeder och psykologer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Lärmål Sannolikhet, statistik och risk 2015

Tentamen MVE301 Sannolikhet, statistik och risk

TMS136. Föreläsning 4

Föreläsning 12: Repetition

Några extra övningsuppgifter i Statistisk teori

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen MVE302 Sannolikhet och statistik

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Lektionsanteckningar 11-12: Normalfördelningen

Statistik 1 för biologer, logopeder och psykologer

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Tentamen MVE302 Sannolikhet och statistik

Statistiska metoder för säkerhetsanalys

Summor av slumpvariabler

FACIT: Tentamen L9MA30, LGMA30

4 Diskret stokastisk variabel

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen MVE301 Sannolikhet, statistik och risk

Hur måttsätta osäkerheter?

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

SF1901: Sannolikhetslära och statistik

Föreläsning 5, Matematisk statistik Π + E

SF1901 Sannolikhetsteori och statistik I

0 om x < 0, F X (x) = c x. 1 om x 2.

Bayesiansk statistik, 732g43, 7.5 hp

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Mer om slumpvariabler

FACIT: Tentamen L9MA30, LGMA30

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Kap 2. Sannolikhetsteorins grunder

Grundläggande matematisk statistik

F9 Konfidensintervall

Tentamen MVE301 Sannolikhet, statistik och risk

F13 Regression och problemlösning

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Föreläsning 5, FMSF45 Summor och väntevärden

Tentamen MVE301 Sannolikhet, statistik och risk

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

TMS136. Föreläsning 5

LINKÖPINGS UNIVERSITET EXAM TAMS 79 / TEN 1

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

MVE051/MSG Föreläsning 7

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Filoson bakom Bayesiansk statistik med tillämpningar inom hjärnavbildning och budgivningar på ebay

Föreläsning 12: Regression

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Statistiska metoder för säkerhetsanalys

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Uppgift 3: Den stokastiska variabeln ξ har frekvensfunktionen 0 10 f(x) =

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1901 Sannolikhetsteori och statistik I

Jörgen Säve-Söderbergh

Stockholms Universitet Statistiska institutionen Termeh Shafie

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Matematisk statistik för D, I, Π och Fysiker

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Veckoblad 3. Kapitel 3 i Matematisk statistik, Dahlbom, U.

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1

ÖVNINGSUPPGIFTER KAPITEL 9

Tentamen MVE301 Sannolikhet, statistik och risk

Samplingfördelningar 1

Statistik 1 för biologer, logopeder och psykologer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

F9 SAMPLINGFÖRDELNINGAR (NCT

Demonstration av laboration 2, SF1901

Övning 1 Sannolikhetsteorins grunder

Matematisk statistik 9 hp Föreläsning 3: Transformation och simulering

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Formler och tabeller till kursen MSG830

Problemdel 1: Uppgift 1

SF1901: Sannolikhetslära och statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Avd. Matematisk statistik

TENTAMEN I STATISTIKENS GRUNDER

Transkript:

Statistisk analys av komplexa data Trunkerade data och Tobitregression Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 10, 2015 Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 1 / 13

Översikt trunkerade data och tobitregression Trunkerade data kontra censorerade data Trunkerad stokastisk variabel Trunkerad normalfördelning Moment av trunkerade fördelningar Trunkerade regressionsmodell Censorerad regressionsmodell - tobitregression Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 2 / 13

Trunkerade kontra censorerade data Eekten av trunkering inträar när ett urval dras från en subpopulation av en större population. Exempel trunkerade data: Studier av inkomster under en viss nivå. Urvalet dras bara för denna grupp av inkomster, vilket innebär att dessa inkomster är en subpopulation som är trunkerad uppifrån för hela populationen inkomster. Exempel censorerade data: I stället för att inkomster bara observeras under en viss nivå, så uppkommer censorerade data då inkomster över denna nivå rapporteras som att de är inkomster på denna nivå. Till skillnad från trunkering, så är censorering en defekt i urvalsdata. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 3 / 13

Trunkerade kontra censorerade data Exempel trunkerade data: Modellering av potentiella budgivare på ebay. Antalet potentiella budgivare följer en Poissonfördelning, men vi är bara intresserade av att modellera högst 30 st. potentiella budgivare. Alltså modelleras potentiella budgivare med en uppifrån trunkerad Poissonfördelning. Exempel censorerade data: Vi är intresserade av efterfrågan på biljetter för arrangemang i Globen. Det mått vi har är antalet sålda biljetter, men när det är slutsålt är den faktiska efterfrågan på biljetter större än antalet sålda. Alltså är antalet efterfrågade biljetter censorerade vid nivån slutsålda biljetter. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 4 / 13

Täthetsfunktion för en trunkerad stokastisk variabel Antag en kontinuerlig stokastisk variabel, X, med täthetsfunktion f (x) och där a är en konstant. Då gäller att f (x X > a) = f (x) P(X > a), där P(X > a) skalar tätheten så att den integrerar till ett för alla värden större än a. Exempel U1: X U(0, 1): Trunkering underifrån vid X = 1 3, f ( ) x X > 1 = 3 f (x) = 1, 0 x 1. f (x) P ( X > 1 3 ) = ( 1 2 ) = 3 2, 1 3 x 1. 3 Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 5 / 13

Trunkerad normalfördelning X N(µ, 2 ) : ( ) a µ P(X > a) = 1 Φ = 1 Φ(α), där α = a µ och Φ( ) är fördelningsfunktionen för en standard normalfördelad variabel. Täthetsfunktionen för X kan skrivas som ( ) df (x) f (x) = = dφ x µ dx dx vilket ger den trunkerade normalfördelningen f (x X > a) = f (x) 1 Φ(α) = ( ) = 1 x µ φ, ) ( 1 φ x µ 1 Φ(α), där φ( ) är täthetsfunktionen för en standard normalfördelad variabel. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 6 / 13

Moment av trunkerade fördelningar Det trunkerade medelvärdet ges av E [X X > a] = ˆ a x f (x x > a) dx. Exempel U2: Det trunkerade medelvärdet i exempel U1 är [ ] E X X > 1 ˆ 1 = x 3 3 1 2 dx = 2 3. 3 Variansen för en uniformt fördelad variabel på intervallet (a, b) är (b a) 2, vilket ger 12 [ ] Var X X > 1 = 1 3 27. Väntevärde och varians för den icke-trunkerade fördelningen är 1 2 och 1 12, respektive. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 7 / 13

Moment av trunkerade fördelningar Exempel U2 illustrerar två resultat: Om trunkering sker underifrån, så är det trunkerade medelvärdet större än det ursprungliga medelvärdet. Den trunkerade variansen är lägre än variansen i den icke-trunkerade fördelningen. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 8 / 13

Moment av den trunkerade normalfördelningen Om Y N(µ, 2 ) och a är en konstant: E [Y trunkering] = µ + λ(α) Var[Y trunkering] = 2 (1 δ(α)), där α = (a µ)/ och λ(α) = φ(α) 1 Φ(α) om y > a λ(α) = φ(α) Φ(α) om y < a δ(α) = λ(α) (λ(α) α) Vi har att 0 < δ(α) < 1, vilket medför att Var[Y trunkering] < 2. Funktionen λ(α) kallas för den inversa Millskvoten och även fördelningens hazardfunktion. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 9 / 13

Den trunkerade regressionsmodellen iid Y i N(µ, 2 ) : Antag att µ = βx i, vilket ger y i = βx i + ɛ i, där så att ɛ i iid N(0, 2 ), y i x i N ( βx i, 2). I den trunkerade regressionsmodellen behöver vi dock fördelningen för y i givet att y i är större än trunkeringspunkten a. Detta är precis den trunkerade normalfördelningen som vi studerade nyss men att vi nu ersätter µ med βx i överallt. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 10 / 13

Den trunkerade regressionsmodellen Den marginella eekten på E [y i y i > a] = βx i + λ(α), där α i = (a βx i ) /, blir E [y i y i > a] x = β (1 δ (α i )). Marginella eekten från en förklaringsvariabel på det trunkerade medelvärdet är mindre än på det ursprungliga medelvärdet, eftersom 0 < (1 δ (α i )) < 1. Om studien syftar till att studera subpopulationen då y > a, så är vi intresserade av ovanstående marginella eekt. Däremot om hela populationen ska studeras, så är koecienterna β det faktiska intresset. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 11 / 13

Den censorerade regressionsmodellen - tobitregression Antag att de icke-censorerade observationerna, yi denieras som yi iid N(µ, 2 ). Regressionsmodellen bestäms genom att låta medelvärdet från den latenta variabeln, yi, korrespondera till medelvärdet i den ordinära linjära regressionsmodellen, d.v.s. y i = 0 y i = y i y i = βx i + ɛ i, om y i 0, om y i > 0. Beroende på syftet med studien, så nns det tre betingade väntevärden att betrakta: E [yi x i ] = βx i, E [y i x i ], E [y i yi > 0], där det sista väntevärdet är aktuellt för den trunkerade regressionsmodellen om vi enbart vill studera de ocensorerade observationerna från en subpopulation av alla yi. Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 12 / 13

Den censorerade regressionsmodellen - tobitregression Man kan visa att E [y i x i] = Φ ( βx i ) (βx i + λ i ), där λ i = φ(βx i /) Φ(βx i /). Den marginella eekten från förklaringsvariablerna ges för de betingade väntevärdena som E [yi x i ] x i = β och E [y i x i ] ( βx ) x i = βφ i. Log likelihood funktionen för den censorerade regressionsmodellen ges som [ ] ln L = 1 ln(2π) + ln 2 + (y i βx [ ( i )2 βx )] + y 2 i >0 2 ln 1 Φ i y i =0 Bertil Wegmann (statistik, LiU) Trunkerade data och Tobitregression November 10, 2015 13 / 13