Föreläsning 10, del 1: Icke-linjära samband och outliers

Föreläsning 10, del 1: och outliers Pär Nyman par.nyman@statsvet.uu.se 19 september 2014-1 -

Sammanfattning av tidigare kursvärderingar: - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.. - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat... - 2 -

Sammanfattning av tidigare kursvärderingar: Kursen är för svår. Kursen är för enkel. Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra. Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat... De sista två timmarna kommer handla om experiment. - 2 -

I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras: Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget är signifikant. - 3 -

I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras: Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget är signifikant. Interaktionseffekter innebär att effekten av en variabel är beroende av värdet på en annan variabel. Exempel: Små undervisningsgrupper i skolan förbättrar skolresultaten mer för personer med utländsk eller arbetarbakgrund än för personer med inrikes födda och högutbildade föräldrar. - 3 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. - 4 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. Men alla känner vi till där det antagandet inte stämmer. - 4 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. Men alla känner vi till där det antagandet inte stämmer. En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32. - 4 -

Hittills har vi antagit att alla är linjära, så att en ökning i x alltid ger samma ökning i ŷ. Men alla känner vi till där det antagandet inte stämmer. En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32. En ökning av inkomsten med 1 000 kr betyder i de flesta avseenden mer för en student än för en höginkomsttagare. - 4 -

Ett avtagande innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x. - 5 -

Ett avtagande innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x. Exempel: BNP per capita och förväntad livslängd. - 5 -

Förväntad livslängd vid födseln (år) 40 50 60 70 80 0 20000 40000 60000 BNP per capita (USD) - 6 -

Logaritmering: bra att kunna hanteras ofta genom att man ersätter värdena på den beroende variabeln (x) med logaritmen av dessa värden (logx). - 7 -

Logaritmering: bra att kunna hanteras ofta genom att man ersätter värdena på den beroende variabeln (x) med logaritmen av dessa värden (logx). När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar ( om x ökar med 100 procent ) i stället för absoluta förändringar ( om x ökar med 10 ). - 7 -

Logaritmering: bra att kunna hanteras ofta genom att man ersätter värdena på den beroende variabeln (x) med logaritmen av dessa värden (logx). När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar ( om x ökar med 100 procent ) i stället för absoluta förändringar ( om x ökar med 10 ). Valet att logaritmera kan motiveras både empiriskt ( passningen blir bättre ) och teoretiskt ( det är rimligt att en fördubbling av BNP orsakar en lika stor förändring i förväntad livslängd oavsett BNP-nivå ). - 7 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. - 8 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. När x fördubblas så ökar log 2 x med 1. - 8 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. När x fördubblas så ökar log 2 x med 1. När x tiodubblas så ökar log 10 x med 1. - 8 -

Logaritmering: frivilligt att lära sig x log 2 x log 10 x 1 0.00 0.00 2 1.00 0.30 3 1.58 0.48 4 2.00 0.60 5 2.32 0.70 6 2.58 0.78 7 2.81 0.85 8 3.00 0.90 9 3.17 0.95 10 3.32 1.00 En logaritm med basen k är samma sak som att fråga med vilken exponent måste k upphöjas för att anta värdet x. När x fördubblas så ökar log 2 x med 1. När x tiodubblas så ökar log 10 x med 1. Vilken bas vi använder påverkar inte formen på et mellan x och dess logaritm. Vår regressionslinje kommer därför se likadan ut oavsett bas. - 8 -

Variabeltransformationer Logaritmering: frivilligt att lära sig Logaritmen av x Värde på x - 9 -

Förväntad livslängd vid födseln (år) 40 50 60 70 80 0 20000 40000 60000 BNP per capita (USD) - 10 -

Förväntad livslängd vid födseln (år) 40 50 60 70 80 6 7 8 9 10 11 Logaritmerad BNP per capita - 10 -

U-formade Många är formade som ett U eller ett upp och nervänt U. - 11 -

U-formade Många är formade som ett U eller ett upp och nervänt U. Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall. - 11 -

U-formade Många är formade som ett U eller ett upp och nervänt U. Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall. Exempel: Ökar sysselsättningsgraden när man blir äldre? - 11 -

U-formade Många är formade som ett U eller ett upp och nervänt U. Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall. Exempel: Ökar sysselsättningsgraden när man blir äldre? Svar: Det beror på hur gammal man är. - 11 -

U-formade Procent av befolkningen Sysselsättningsgrad i olika åldersgrupper 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 Ålder - 12 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. - 13 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. Illustration: ŷ = x 0.1x 2-13 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. Illustration: ŷ = x 0.1x 2 När x ökar från 0 till 1 ökar 0.1x 2 bara med 0.1. ŷ ökar därför med 0.9 när x ökar från 0 till 1. - 13 -

U-formade För att tillåta U-formade inkluderar vi både x och x 2 i regressionsmodellen. Illustration: ŷ = x 0.1x 2 När x ökar från 0 till 1 ökar 0.1x 2 bara med 0.1. ŷ ökar därför med 0.9 när x ökar från 0 till 1. När x ökar från 9 till 10 ökar 0.1x 2 med 1.9 (från 8.1 till 10). ŷ minskar därför med 0.9 när x ökar från 0 till 1. - 13 -

Observationer med extrema variabelvärden kallas för outliers. Sådana observationer kan ha en avgörande effekt på regressionsresultaten. Anledning till det är att vår metod för att bestämma regressionslinjen OLS ger avvikande observationer stor betydelse. - 14 -

Tre typer av extremvärden ( outlierness ) Observationer med leverage är observationer som har ovanliga värden på de oberoende variablerna. Observationer som har ovanliga variabelvärden på den beroende variabeln givet värdena på de oberoende variablerna kallas för vertikala outliers eller regressionsoutliers. Vertikala outliers som dessutom har högt leverage kommer att ha stor påverkan på våra regressionsresultat. Den engelska termen för sådana observationer är influential observations. - 15 -

- 16 -

Om outliers är mätfel. Ta bort dem och berätta om det. Om vi inte är säkra på att de är mätfel, och det är tydligt vilka observationer som är outliers, redovisa resultat för regressioner både med och utan outliers. Diskutera hur resultaten skiljer sig åt. Om det inte är möjligt, använd något annat än OLS (långt bortanför vår kurs). - 17 -

innebär att effekten av en förändring i x beror på värdet på x. innebär att en förändring i x har stora effekter på den beroende variabeln vid låga värden på x och små effekten vid stora värden på x. U-formade innebär att en variabel har en maxeller minimipunkt med avseende på en annan variabel. På varje sida av den punkten har effekten av en förändring i x olika tecken. - 18 -

Observationer som har extrema värden kallas för outliers. Sådana observationer kan ha en avgörande betydelse för våra regressionsresultat. Vi kan exkludera outliers om de orsakats av mätfel eller om vi anser att de är irrelevanta för den population vi intresserar oss för. Annars är det klokt att redovisa resultat både med och utan outliers. - 19 -