Föreläsning 10, del 1: Icke-linjära samband och outliers

Relevanta dokument
732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Verksamhetsutvärdering av Mattecentrum

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

MVE051/MSG Föreläsning 14

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Att välja statistisk metod

InStat Exempel 4 Korrelation och Regression

Föreläsning G60 Statistiska metoder

Datorövning 5 Exponentiella modeller och elasticitetssamband

Matematisk statistik, Föreläsning 5

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Statistiska samband: regression och korrelation

Laboration 2: Styrkefunktion samt Regression

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 13: Multipel Regression

Föreläsning 10: Regressionsdiagnostik och experimentell design

Regressions- och Tidsserieanalys - F3

Statistik 1 för biologer, logopeder och psykologer

Sänkningen av parasitnivåerna i blodet

10.1 Enkel linjär regression

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

TVM-Matematik Adam Jonsson

LABORATION 3 - Regressionsanalys

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Repetitionsföreläsning

ÖVNINGSUPPGIFTER KAPITEL 7

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

NEKP34, Nationalekonomi: Ekonometrisk teori, 7,5 högskolepoäng Economics: Econometric Theory, 7.5 credits Avancerad nivå / Second Cycle

Multipel Regressionsmodellen

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Finansiell statistik. Multipel regression. 4 maj 2011

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Att beräkna t i l l v ä x t takter i Excel

Samhällsmedicin, Region Gävleborg: Sannolikheten att vara sysselsatt som utrikes född i Gävleborgs län år 2014.

F13 Regression och problemlösning

1 Förberedelseuppgifter

OBS! Vi har nya rutiner.

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 12: Regression

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Föreläsning G60 Statistiska metoder

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

ÖVNINGSUPPGIFTER KAPITEL 6

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Regression med Genetiska Algoritmer

AVDELNINGEN FÖR HANDELSHÖGSKOLANS EKONOMPROGRAM

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Matematisk statistik för D, I, Π och Fysiker

Kursplan för Sociologisk Analys VT 09, 7,5 högskolepoäng. (Syllabus for Quantitative Sociological Methods, 7.5 ECTS)

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Regressionsanalys av lägenhetspriser i Spånga

MVE051/MSG Föreläsning 7

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

tentaplugg.nu av studenter för studenter

Föreläsning 15, FMSF45 Multipel linjär regression

Regressions- och Tidsserieanalys - F1

ÖVNINGSUPPGIFTER KAPITEL 6

Regressions- och Tidsserieanalys - F1

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

oberoende av varandra så observationerna är

Verksamhetsutvärdering av Mattecentrum

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 10: Regressionsdiagnostik och experimentell design

Föreläsning 8 och 9: Regressionsanalys

3.8 Känslighetsanalys av modell. Introduktion. Hans Larsson och Olof Hellgren, SLU

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Facit till Extra övningsuppgifter

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Gruppuppgifter 1 MMA132, Numeriska metoder, distans

Delkursplan för Sociologisk Analys kvantitativ del VT 11, 4,5 hp

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

F11. Kvantitativa prognostekniker

Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Delkursplan för Sociologisk Analys kvantitativ del VT 14, 4,5 högskolepoäng.

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Exponentialfunktioner och logaritmer

Richard Öhrvall, 1

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Transkript:

Föreläsning 10, del 1: och outliers Pär Nyman par.nyman@statsvet.uu.se 19 september 2014-1 -

Sammanfattning av tidigare kursvärderingar: - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat... - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat... De sista två timmarna kommer handla om experiment. - 2 -

I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras: Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget är signifikant. - 3 -

I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras: Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget är signifikant. Interaktionseffekter innebär att effekten av en variabel är beroende av värdet på en annan variabel. Exempel: Små undervisningsgrupper i skolan förbättrar skolresultaten mer för personer med utländsk eller arbetarbakgrund än för personer med inrikes födda och högutbildade föräldrar. - 3 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. - 4 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. Men alla känner vi till där det antagandet inte stämmer. - 4 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. Men alla känner vi till där det antagandet inte stämmer. En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32. - 4 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. Men alla känner vi till där det antagandet inte stämmer. En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32. En ökning av inkomsten med 1 000 kr betyder i de flesta avseenden mer för en student än för en höginkomsttagare. - 4 -

Ett avtagande innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x. - 5 -

Ett avtagande innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x. Exempel: BNP per capita och förväntad livslängd. - 5 -

Förväntad livslängd vid födseln (år) 40 50 60 70 80 0 20000 40000 60000 BNP per capita (USD) - 6 -

Logaritmering: bra att kunna hanteras ofta genom att man ersätter värdena på den beroende variabeln (x) med logaritmen av dessa värden (logx). - 7 -

Logaritmering: bra att kunna hanteras ofta genom att man ersätter värdena på den beroende variabeln (x) med logaritmen av dessa värden (logx). När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar ( om x ökar med 100 procent ) i stället för absoluta förändringar ( om x ökar med 10 ). - 7 -

Logaritmering: bra att kunna hanteras ofta genom att man ersätter värdena på den beroende variabeln (x) med logaritmen av dessa värden (logx). När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar ( om x ökar med 100 procent ) i stället för absoluta förändringar ( om x ökar med 10 ). Valet att logaritmera kan motiveras både empiriskt ( passningen blir bättre ) och teoretiskt ( det är rimligt att en fördubbling av BNP orsakar en lika stor förändring i förväntad livslängd oavsett BNP-nivå ). - 7 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. - 8 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. När x fördubblas så ökar log 2 x med 1. - 8 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. När x fördubblas så ökar log 2 x med 1. När x tiodubblas så ökar log 10 x med 1. - 8 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. När x fördubblas så ökar log 2 x med 1. När x tiodubblas så ökar log 10 x med 1. Vilken bas vi använder påverkar inte formen på et mellan x och dess logaritm. Vår regressionslinje kommer därför se likadan ut oavsett bas. - 8 -

Variabeltransformationer Logaritmering: frivilligt att lära sig Logaritmen av x Värde på x - 9 -

Förväntad livslängd vid födseln (år) 40 50 60 70 80 0 20000 40000 60000 BNP per capita (USD) - 10 -

Förväntad livslängd vid födseln (år) 40 50 60 70 80 6 7 8 9 10 11 Logaritmerad BNP per capita - 10 -

U-formade Många är formade som ett U eller ett upp och nervänt U. - 11 -

U-formade Många är formade som ett U eller ett upp och nervänt U. Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall. - 11 -

U-formade Många är formade som ett U eller ett upp och nervänt U. Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall. Exempel: Ökar sysselsättningsgraden när man blir äldre? - 11 -

U-formade Många är formade som ett U eller ett upp och nervänt U. Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall. Exempel: Ökar sysselsättningsgraden när man blir äldre? Svar: Det beror på hur gammal man är. - 11 -

U-formade Procent av befolkningen Sysselsättningsgrad i olika åldersgrupper 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 Ålder - 12 -

U-formade Procent av befolkningen Sysselsättningsgrad i olika åldersgrupper 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 Ålder - 12 -

U-formade Procent av befolkningen Sysselsättningsgrad i olika åldersgrupper 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 Ålder - 12 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. - 13 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. Illustration: ŷ = x 0.1x 2-13 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. Illustration: ŷ = x 0.1x 2 När x ökar från 0 till 1 ökar 0.1x 2 bara med 0.1. ŷ ökar därför med 0.9 när x ökar från 0 till 1. - 13 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. Illustration: ŷ = x 0.1x 2 När x ökar från 0 till 1 ökar 0.1x 2 bara med 0.1. ŷ ökar därför med 0.9 när x ökar från 0 till 1. När x ökar från 9 till 10 ökar 0.1x 2 med 1.9 (från 8.1 till 10). ŷ minskar därför med 0.9 när x ökar från 0 till 1. - 13 -

Observationer med extrema variabelvärden kallas för outliers. Sådana observationer kan ha en avgörande effekt på regressionsresultaten. Anledning till det är att vår metod för att bestämma regressionslinjen OLS ger avvikande observationer stor betydelse. - 14 -

Tre typer av extremvärden ( outlierness ) Observationer med leverage är observationer som har ovanliga värden på de oberoende variablerna. Observationer som har ovanliga variabelvärden på den beroende variabeln givet värdena på de oberoende variablerna kallas för vertikala outliers eller regressionsoutliers. Vertikala outliers som dessutom har högt leverage kommer att ha stor påverkan på våra regressionsresultat. Den engelska termen för sådana observationer är influential observations. - 15 -

- 16 -

- 16 -

- 16 -

- 16 -

- 16 -

- 16 -

- 16 -

- 16 -

Om outliers är mätfel. Ta bort dem och berätta om det. Om vi inte är säkra på att de är mätfel, och det är tydligt vilka observationer som är outliers, redovisa resultat för regressioner både med och utan outliers. Diskutera hur resultaten skiljer sig åt. Om det inte är möjligt, använd något annat än OLS (långt bortanför vår kurs). - 17 -

innebär att effekten av en förändring i x beror på värdet på x. innebär att en förändring i x har stora effekter på den beroende variabeln vid låga värden på x och små effekten vid stora värden på x. U-formade innebär att en variabel har en maxeller minimipunkt med avseende på en annan variabel. På varje sida av den punkten har effekten av en förändring i x olika tecken. - 18 -

Observationer som har extrema värden kallas för outliers. Sådana observationer kan ha en avgörande betydelse för våra regressionsresultat. Vi kan exkludera outliers om de orsakats av mätfel eller om vi anser att de är irrelevanta för den population vi intresserar oss för. Annars är det klokt att redovisa resultat både med och utan outliers. - 19 -