REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

Relevanta dokument
Övningshäfte till kursen Regressionsanalys och tidsserieanalys

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F5

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Regressions- och Tidsserieanalys - F3

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Statistik 1 för biologer, logopeder och psykologer

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Laboration 2 multipel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Uppgift 1. Produktmomentkorrelationskoefficienten

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

F11. Kvantitativa prognostekniker

Medicinsk statistik II

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F4

ÖVNINGSUPPGIFTER KAPITEL 12

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Höftledsdysplasi hos dansk-svensk gårdshund

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Statistik 1 för biologer, logopeder och psykologer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Statistik 1 för biologer, logopeder och psykologer

Sänkningen av parasitnivåerna i blodet

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 12: Regression

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

import totalt, mkr index 85,23 100,00 107,36 103,76

MSG830 Statistisk analys och experimentplanering

Skrivning i ekonometri torsdagen den 8 februari 2007

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Föreläsning G60 Statistiska metoder

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

InStat Exempel 4 Korrelation och Regression

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

kodnr: 2) OO (5p) Klassindelningar

Föreläsning 7 och 8: Regressionsanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Del A: Schema för ifyllande av svar nns på sista sidan

ÖVNINGSUPPGIFTER KAPITEL 4

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning G60 Statistiska metoder

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Fråga nr a b c d 2 D

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 13: Multipel Regression

tentaplugg.nu av studenter för studenter

Konfidensintervall, Hypotestest

Statistiska samband: regression och korrelation

Den svenska arbetslöshetsförsäkringen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning G60 Statistiska metoder

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Demografisk rapport 2014:10. Prognosmetoder och modeller. Regressionsanalys. Befolkningsprognos /45

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

1 Grundläggande begrepp vid hypotestestning

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Statistiska metoder för säkerhetsanalys

Stockholms Universitet Statistiska institutionen Termeh Shafie

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Föreläsning 7 och 8: Regressionsanalys

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Statsvetenskapliga metoder, Statsvetenskap 2 Metoduppgift 4

Del A: Begrepp och grundläggande förståelse

Uppgift a b c d e Vet inte Poäng

Lösningsförslag till Matematisk statistik LKT325 Tentamen

, s a. , s b. personer från Alingsås och n b

Transkript:

1/11 REGRESSIONSANALYS Exempel från F6 Linda Wänström Statistiska institutionen, Stockholms universitet

2/11 Datamaterial Amerikanskt datamaterial från 1970 "Income guarantees and the working poor" där man bl.a. tittade på mäns arbetsval. Man uppskattade bl.a. en regressionsmodell med antal arbetade timmar under ett år (T) som beroende variabel och timlön (TL), partners årsinkomst (PI), övrig famils årliga inkomst (FI), årlig inkomst exklusive lön (I), likvida medel (L) samt ålder (A) som oberoende variabler.

3/11 Analys I Frågeställning: Vi vill, för varje variabel, undersöka om variabeln bidrar till att skatta antalet arbetade timmar, utöver bidragen från de andra variablerna. I Typ av test: Partiellt F-test I Se SAS-utskriften (the GLM procedure) från föreläsning 6 (F6)

4/11 Vi gör ett partiellt F -test för att testa om timlön bidrar till att skatta antalet arbetade timmar utöver bidragen från partners årsinkomst, övrig familjs årsinkomst, årlig inkomst exklusive lön, likvida medel, samt ålder. Full modell: T = β 0 + β 1 TL + β 2 PI + β 3 FI + β 4 I + β 5 L + β 6 A + E Reducerad modell: T = β 0 + β 2 PI + β 3 FI + β 4 I + β 5 L + β 6 A + E H 0 : β 1 = 0 i full modell H 1 : β 1 6= 0 i full modell α = 0.05

5/11 F (TLjPI, FI, I, L, A) = SSR(TL, PI, FI, I, L, A) SSR(PI, FI, I, L, A) = MSE (TL, PI, FI, I, L, A) SS(TLjPI, FI, I, L, A) = MSE (TL, PI, FI, I, L, A) = 981.762303 941.2824 = = 1.04

6/11 Vi förkastar H 0 om vårt observerade värde är större än F 1,n p 2,1 α = F 1,35 5 2,0.95 = F 1,28,0.95 = 4.20 1.04 4.20. H 0 kan inte förkastas på 5% signi kansnivå. Vi får inget stöd för att timlön hjälper oss att skatta antalet arbetade timmar under året utöver bidragen från partners årsinkomst, övrig familjs årsinkomst, årlig inkomst exklusive lön, likvida medel, samt ålder. (Alternativt: vi får inget stöd för att timlön förklarar någon variation i antalet arbetade timmar under året utöver den variation som kan förklaras av partners årsinkomst, övrig familjs årsinkomst, årlig inkomst exklusive lön, likvida medel, samt ålder.)

7/11 Förklaring Täljaren i uträkningen ovan (981.762303) kom från Type III SS vilket ger SSR för varje variabel givet att alla andra variabler är med i modellen. Dessa typer av test kallar boken för variables added last test. Nämnare i uträkningen ovan (941.2824) kom från ANOVA-tablån från totala modellen (full).

8/11 Variabel added last test Gör vi nu på motsvarande sätt för varje variabel kan vi skapa en tabell för variable added last tests. Källa df SS MS F R 2 TLjPI, FI, I, L, A 1 981.76 981.76 1.04 0.811 PI jpi, FI, I, L, A 1 2388.86 2388.86 2.54 FI jpi, FI, I, L, A 1 7474.74 7474.74 7.94 I jpi, FI, I, L, A 1 115.32 115.32 0.12 LjPI, FI, I, L, A 1 2401.84 2401.84 2.55 AjPI, FI, I, L, A 1 1737.663 1737.663 1.85 Fel 28 26355.91 941.28 Total 34 139673.89

9/11 Slutsats Vi kan se att de oberoende variablerna tillsammans förklarar 81.13% av variationen i antal arbetade timmar. Men behövs alla oberoende variabler i modellen? Jämför vi F -värdena i tabellen ovan med det kritiska värdet 4.20 ser vi att det är bara en regressionskoe cient som är signi kant skild från 0 givet att alla variabler ingår i regressionsmodellen: koe cienten framför FI. Vi kan dessutom se detta direkt från p-värdena som nns i SAS-utskriften som hänger samman med dessa F -test: endast p-värdet för denna variabel är mindre än 0.05. Vilken slutsats kan vi då dra? Vi har endast stöd för att övrig familjs årliga inkomst bidrar till att förklara variation i antalet arbetade timmar utöver bidragen från övriga varaibler. Ska vi då modi era vår modell och ta bort alla icke-signi kanta variabler? Inte nödvändigtvis.

10/11 Slutsats Ett nästa steg skulle kunna vara att ta bort en variabel (exempelvis I som är den variabel vars test visar på högst p-värde (lägst F -värde). Här kan även teori spela in. Vilken variabel är minst viktig"? Efter att vi tagit bort en variabel kan vi skatta en ny regressionsekvation och titta på F -testen igen.

11/11 Alternativ till F-testen Tittar vi på SAS-utskriften ser vi att p-värdena för t-testen är exakt desamma som p-värdena för F -testen (Type III SS). Dessa test är ekvivalenta. Dessa F -värden är kvadraterna på dessa t-värden. Således spelar det ingen roll, när vi vill göra variable added last test, om vi använder partiella F -test eller dessa t-test.