Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Relevanta dokument
Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Exempel på tentamensuppgifter

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Index. Tal procenttal som används vid jämförelser Statistiska uppgifter som visar utveckling under en viss period kan beskrivas med en indexserie

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Föreläsning 12: Linjär regression

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

10.1 Enkel linjär regression

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

F5 Index. Beräkning av index. Begreppet index har två innebörder: Christian Tallberg

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Redovisning av KPI:s förändringstal

F13 Regression och problemlösning

Repetitionsföreläsning

Regressions- och Tidsserieanalys - F5

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning 12: Regression

Multipel Regressionsmodellen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Finansiell statistik. Multipel regression. 4 maj 2011

Statistisk analys av komplexa data

F11. Kvantitativa prognostekniker

Matematisk statistik för D, I, Π och Fysiker

Statistik B Regressions- och tidsserieanalys Föreläsning 1

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Regressions- och Tidsserieanalys - F5

Föreläsning 13: Multipel Regression

Korgeffekten - effekter av förändringar i varukorgens sammansättning

Korgeffekten - effekter av förändringar i varukorgens sammansättning

SF1911: Statistik för bioteknik

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Statistiska metoder för säkerhetsanalys

MVE051/MSG Föreläsning 14

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Grundläggande matematisk statistik

Matematisk statistik, Föreläsning 5

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Statistisk analys av komplexa data

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Dekomponering av löneskillnader

Statistisk analys av komplexa data

Regressions- och Tidsserieanalys - F1

Sänkningen av parasitnivåerna i blodet

Något om index. 1 Enkla och sammansatta index. LINKÖPINGS UNIVERSITET Matematiska institutionen Statistik Anders Nordgaard

Regressions- och Tidsserieanalys - F1

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Resursfördelningsmodellen

732G71 Statistik B. Föreläsning 5. Bertil Wegmann. November 12, IDA, Linköpings universitet

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Regressions- och Tidsserieanalys - F7

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Korrelation och autokorrelation

Matematisk statistik KTH. Formelsamling i matematisk statistik

Läs noggrant informationen nedan innan du börjar skriva tentamen

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Statistiska samband: regression och korrelation

Tentamen för kursen. Linjära statistiska modeller. 17 februari

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Statistisk analys av komplexa data

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Räkneövning 4. Om uppgifterna. 1 Uppgift 1. Statistiska institutionen Uppsala universitet. 14 december 2016

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

F23 forts Logistisk regression + Envägs-ANOVA

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Linjär regressionsanalys. Wieland Wermke

Läs noggrant informationen nedan innan du börjar skriva tentamen

Finansiell statistik

STATISTISK ANALYS AV KOMPLEXA DATA

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Premiepensionens delningstal och dess känslighet för ändrad livslängd och ränteantagande

Regressions- och Tidsserieanalys - F4

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 15 hp, HT07. Fredagen 18 januari 2008

Facit till Extra övningsuppgifter

Transkript:

Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33

Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas 0 och 1. T.ex: Röker - röker inte Uppgång - nedgång för en aktie Beviljas lån eller ej. Hur modelleras Y i då den endast kan anta två olika värden? 2 / 33

Logistisk regression Vi tänker oss att värdena 1 och 0 för Y i inträffar med sannolikheterna P(Y i = 1) = Π i P(Y i = 0) = 1 Π i, i = 1, 2,..., n Vi antar att Π i beror på ett antal förklarande variabler och vill därför modellera Π i mot p st förklarande variabler x 1i, x 2i,..., x pi. På samma sätt som i vanlig regression vill vi analysera och dra slutsatser om skattade samband. 3 / 33

Hur modelleras sannolikheten Π? Antag att vi för olika grupper av individer vill observera hur många i varje grupp som har respektive inte har en viss egenskap. Då kallas observationerna grupperade och den skattade sannolikheten ˆΠ i för grupp i = 1, 2,..., N beräknas som relativa frekvenser: y 1 n 1, y N n N,..., y N n N där y i är antalet individer i grupp i som har egenskapen och n i är totala antalet individer i grupp i. Vi vill nu försöka modellera de observerade relativa frekvenserna. 5 / 33

Hur modelleras sannolikheten Π? Eftersom vi endast har två värden på Y i, måste modellens egenskaper passa definitionen för sannolikheter. Vad händer om vi använder en linjär sannolikhetsmodell? Π i = E(Y i x 1i, x 2i,..., x pi ) = β 0 + β 1 x 1i + β2x 2i +... + β p x pi I modellen tolkas nu t.ex. β 1 som den genomsnittliga förändringen i Π i då x 1i ökar med en enhet (övriga x oförändrade). 6 / 33

Nackdelar med en linjär modell Men det finns två stora nackdelar med att modellera Π i med en linjär modell: 1 Det är inte säkert att vi skattar en sannolikhet som finns i intervallet [0,1] vilket motsäger definitionen för sannolikheter! Då parametrarna modellerar Π i linjärt kommer: låga värden på p j=i β jx j att leda till Π i < 0 höga värden på p j=i β jx j att leda till Π i > 1 2 Det går att bevisa att feltermen i den linjära sannolikhetsmodellen är inte längre har konstant varians, dvs vi har heteroskedastiska feltermer: V (ε i ) = ŷ i (1 ŷ i ) Lösningen: Vi skapar en funktion g(π) av Π i som beter sig rätt. 7 / 33

Logit och Probit Eftersom fördelningsfunktioner för stokastiska variabler (föreläsning 1) endast definieras i intervallet [0,1] använder vi dessa för att avbilda intervallet (0,1) på (, ) genom funktionen g(π). Två funktioner som gör detta: 1 Logit funktionen baseras på den logistiska fördelningen: ( ) Π g(π) = ln 1 Π 2 Probit funktionen baseras på normalfördelningen g(π) = Φ 1 (Π). 8 / 33

Funktioner som skulle kunna användas.

Logit funktionen En stor anledning till varför den logistiska modellen är så användbar är att Logitfunktionen (till sklillnad från Probitfunktionen) kan modelleras linjärt som log-odds: ( ) Π ln = β 0 + β 1 x 1i + β 2 x 2i +... + β p x pi 1 Π p = β j x j j=1 Oddsen i detta fall är den relativa sannolikheten att observera y i = 1 gentemot y i = 0. Men oftast vill vi uttrycka modellen i termer av Π. Vi börjar flytta om i uttrycket: p Π 1 Π = e j=1 β j x j 9 / 33

Omskrivning till kompendiets form på modellen. Flytta över parantesen, så Π = (1 Π) e p j=1 β j x j. Multiplicera och flytta över igen, så Bryt ut Π och dividera, så Π + Πe p j=1 β j x j = e p j=1 β j x j. ( p ) Π 1 + e j=1 β j x p j = e j=1 β j x j e p j=1 β j x j Π = 1 + e Om vi påminner oss om vad Π betyder så har vi p j=1 β j x j. P (Y i = 1) = 1 + e e p j=1 β j x j p j=1 β j x j. Denna ekvation återfinns i kompendiet på sidan 3. Där är p = 2.

Skattningsmetoder Eftersom den logistiska modellen för Π i inte är linjär, kan vi inte använda minsta kvadratmetoden för att härleda parameterskattningar, b 0, b 1, b2 +..., b p. Istället måste vi använda andra skattningsmetoder: 1 Maximum Likelihood: Man försöker hitta de mest sannolika parameterskattningarna givet vårt urval. Är den metod som används oftast. 2 Icke-linjär minsta kvadratmetod: Samma princip som med vanlig minsta kvadratmetod men anpassad för icke-linjära modeller. 10 / 33

Hur tolkas parametrarna? Eftersom den logistiska modellen är en logaritmisk funktion blir tolkningarna av parametrarna β 1, β 2,..., β p lite annorlunda: ( ) β 1 är effekten av x 1 på ln Π 1 Π givet att övriga x är konstanta. Om x 1 ökar med en enhet så förändras sannolikheten Π med β 1 %. e β1 är effekten på Π 1 Π, givet övriga x konstanta. Om vi ökar x 1 med en enhet så förändras log-oddsen med e β 1. Interceptet β 0 ger sannolikheten Π då alla x = 0. 11 / 33

Den logistiska funktionen Parametrarna i den logistiska modellen avgör logitfunktionens utseende. Det går att visa att funktionens lutning i en enkel logistisk regressionsmodell är: Positiv om β 1 är positiv och negativ om β 1 är negativ. Brantare om β 1 är stor och flack om β 1 är liten. β 0 avgör läget på x-axeln för funktionen. Vi kan se hur funktionen ändras med olika värden på parameterskattningarna b 0 och b 1. I diagrammet betecknas b 0 för a och b 1 för b. 12 / 33

Effekten av parametrarna a och b positivt b

Effekten av parametrarna a och b negativt b

Den logistiska funktionen Vi utgår ifrån den logistiska modellen Π = eb 0+b 1 x 1 1 + e b 0+b 1 x 1 Vilket värde på x 1 ger att sannolikheten Π=50%? Vi söker det x 1 som löser: 1 2 = eb0+b1x1 1 + e b 0+b 1 x 1 För att lösa för x 1 flyttar vi om och förenklar uttrycket: 1 + e b 0+b 1 x 1 = 2e b 0+b 1 x 1 1 = 2e b 0+b 1 x 1 e b 0+b 1 x 1 1 = e b 0+b 1 x 1 13 / 33

Den logistiska funktionen Vi logaritmerar både höger och vänsterled: ln 1 = ln(e b 0+b 1 x 1 ) = b 0 + b 1 x 1 Då ln 1 = 0 kan vi till slut lösa ut värdet på x 1 som: x 1 = b 0 b 1 Sannolikheten att Π = 50% får vi då x 1 antar värdet b 0 b 1 14 / 33

Ett exempel Vi ska titta på ett exempel ifrån kompendiet av Thorburn och Larsson där vi har grupperat data för: låntagares inkomster, uppdelat i 11 inkomstnivåer. antalet lån vid varje inkomstnivå. antalet av dessa lån där låntagaren hade betalningssvårigheter. Vi vill skatta en enkel logistisk regression för att se om inkomstnivån påverkar sannolikheten för att ha betalningssvårigheter. Modellen vi anpassar skrivs därför: Π i = eβ 0+β 1 x 1i 1 + e β 0+β 1 x 1i 15 / 33

Betalningssvårigheter Årsinkomst, kkr(x) Antal lån (nx) Antal med bet.svårigheter (y) 0 750 183 25 40 8 75 90 20 125 250 32 175 830 48 225 1410 81 275 1320 31 350 1020 24 450 230 3 600 150-850 80 1

Ett exempel Vi kan plotta observationerna med relativa frekvenser (sannolikhet) på y-axeln och inkomst på x-axeln: Grupperat data sannolikhet 0.00 0.05 0.10 0.15 0.20 0.25 0 200 400 600 800 inkomst 16 / 33

Ett exempel Då vi anpassar modellen Π i = vi dessa resultat: eβ 0 +β 1 x 1i till datamaterialet i R får 1+e β 0 +β 1 x 1i Estimate Std. Error z value Pr(> z ) (Intercept) -1.124029098 0.0774095020-14.52056 8.977753e-48 inkomst -0.008065708 0.0004340913-18.58067 4.607039e-77 Den skattade modellen kan därför skrivas: ˆΠ i = e 1.124 0.008x 1i 1 + e 1.124 0.008x 1i 17 / 33

Ett exempel Vi plottar nu observationerna mot den skattade modellen: Observationer och anpassad modell sannolikhet 0.00 0.05 0.10 0.15 0.20 0.25 0 200 400 600 800 inkomst 18 / 33

Enkel logistisk regression med en binär x-variabel En logistisk modell som ofta används är den där vi modellerar Π i mot en binär x-variabel. Vi antar en enkel modell: Π i = eβ 0+β 1 x 1i 1 + e β 0+β 1 x 1i Där x 1 är en dummyvariabel och endast antar värdena 0 eller 1 beroende på om en undersökt person i har en viss egenskap (x 1i = 1) eller inte (x 1i = 0) 20 / 33

Enkel logistisk regression med en binär x-variabel I denna modell tolkas e β 1 som oddskvoten. Hur mycket mer/mindre sannolikt är det observera Y i = 1 om x 1i = 1 respektive x 1i = 0? T.ex. e b 1 = 2 Y i = 1 är dubbelt så sannolikt som Y i = 0. b 1 = 0 oddskvot=1 Y i = 1 lika sannolikt då x 1i = 1 och x 1i = 0 b 1 > 0 oddskvot>1 Y i = 1 mer sannolikt då x 1i = 1. b 1 < 0 oddskvot<1 Y i = 1 mer sannolikt då x 1i = 0. Dessa tolkningar är väldigt användbara och en anledning till varför logistisk regression så ofta används. Vi kan även utöka modellen så att vi har fler kategorier för x 1 samt fler kategoriska x-varaibler. 21 / 33

Vad är index? Index är ett instrument för att jämföra hur priset, volumen eller värdet för En vara eller en tjänst En grupp eller korg av varor och tjänster stokastiska variabler Förändras över tid i relation till ett valt basår. 23 / 33

Notationer Basåret betecknas år 0. Jämförelseåret betecknas år t. Priser betecknas p, kvantiteter q. Index betecknas ofta I, P (prisindex) eller Q (kvantitetsindex). index för basåret är alltid 100. Vi fokuserar främst på prisindex. 24 / 33

Prisförändring mellan två tidpunker Det enklaste indexet vi kan beräkna är en prisförändring mellan två tidpunkter: I 0 t = 100 p t p 0 Om vi enbart beräknar priskvoten p t /p 0 får vi den procentuella prisförändringen mellan år 0 och t. I 0 t < 100 negativ prisförändring I 0 t > 100 positiv prisförändring 25 / 33

Index för varukorgar Om vi vill ta reda på prisförändringen för en korg av varor, blir indexberäkningarna mer komplexa: Vi vill att indexserien ska uttrycka den sammanfattade prisförändringen. Då varorna har sålts i olika kvantiteter måste dessa vägas in i beräkningarna. Ska vi ha nuvarande eller gamla kvantiteter som vikter? Tre av de vanligaste metoderna för att beräkna index för varukorgar är Laspeyres index, Paasches index och Fishers index. 26 / 33

Laspeyres, Paasches och Fishers index Vi beräknar Laspeyres index mellan tidpunkterna 0 och t för i st varor som: n P0 t L p t,i q 0,i = 100, i = 1, 2,..., n. p 0,i q 0,i i=1 Vi beräknar Paasches index mellan tidpunkterna 0 och t för i st varor som: n P0 t P p t,i q t,i = 100, i = 1, 2,..., n. p 0,i q t,i i=1 Vi beräknar Fishers index mellan tidpunkterna 0 och t för i st varor som det geometriska medelvärdet av Laspeyres och Paasches index: P0 t F = P0 t P PL 0 t, i = 1, 2,..., n. 27 / 33

Ett räkneexempel Vi har samlat in priser och kvantiteter för torskfilé och falukorv för två tidsperioder, 1994 och 2000: Vara p 94 p 00 q 94 q 00 Falukorv 48,30 47,90 1 2 Torskfilé 72,80 69,70 3 5 1 Beräkna P L 0 t 2 Beräkna P P 0 t 3 Beräkna P F 0 t. 28 / 33

Viktade prisindex Säg att vi istället för få data över kvantiteter har information om relativa vikter för de varor som ingår i varukorgen. Vikten är den relativa tyngd som ges för respektive vara i indexberäkningara. Vikten för vara i betecknas w i. Det måste gälla att n i=1 w i = 1 där 0 w i 1 Det måste gälla att n i=1 w i = 1 där 0 w i 1 29 / 33

Viktat Laspeyres index Om vi t.ex. vet de relativa vikterna för varor i en varukorg vid tidpunkt 0 kan vi beräkna ett Laspeyres index enligt formeln: P L 0 t = 100 n i=1 w i p t,i p 0,i, i = 1, 2,..., n. där vi beräknar w i som: w i = p 0,i q 0,i k=1 p 0,kq 0,k, i = 1, 2,..., n. 30 / 33

Viktat Laspeyres index Antag att vi i det tidigare exemplet har vikterna w torsk = 1/4 och w falukorv = 3/4. Vi kan då beräkna ett Laspeyres index mellan åren 1994 och 2000: P L 94 00 = 100 2 i=1 p 00,i w i = 100 ( 1 47, 90 p 94,i 4 48, 30 + 3 69, 70 4 72, 80 ) 98 Vi kan se en prisnedgång på ungefär 2% mellan 1994 och 2000. 31 / 33

Kedjeindex Den indexmetod som oftast tillämpas är kedjeindex. Denna indextyp innebär att man multiplicerar (kedjar) ihop årliga indextal (länkar) enligt principen: I t 0 = 100 (I 1 0 I 2 1 I t t 1) där I 1 0, I 2 1,..., I t t 1 är årliga inflationstakter. Vi kan ständigt ha en någorlunda aktuell varukorg eftersom uppsättningen av varor, priser och kvantiteter hela tiden revideras. Ibland ändras indexkonstruktionen. Detta medför brutna länkar. T.ex. Ändrad definition för arbetslöshet 2005. 1 / 2

Kedjeindex Kedjeindex används bl.a. för att beräkna KPI. Detta är data hämtade ifrån Statistiska centralbyrån: År 1980 1981 1982 1983 1984... Index (årlig inflation) 1,000 1,121 1,086 1,089 1,080... Utifrån dessa data kan vi t.ex. beräkna kedjeindex för 1984 (1980 är basår för KPI): I 1984 1980 = 100 1, 121 1, 086 1, 089 1, 080 = 143, 19 33 / 33