1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Relevanta dokument
1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

F11. Kvantitativa prognostekniker

Tidsserier. Data. Vi har tittat på två typer av data

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Regressions- och Tidsserieanalys - F1

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Finansiell statistik. Multipel regression. 4 maj 2011

Multipel Regressionsmodellen

10.1 Enkel linjär regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 12: Linjär regression

Föreläsning G60 Statistiska metoder

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

Höftledsdysplasi hos dansk-svensk gårdshund

Regressions- och Tidsserieanalys - F3

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Matematisk statistik för B, K, N, BME och Kemister

Laboration 2 multipel linjär regression

Metod och teori. Statistik för naturvetare Umeå universitet

Matematisk statistik för D, I, Π och Fysiker

Enkel och multipel linjär regression

Statistisk försöksplanering

MVE051/MSG Föreläsning 14

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 13: Multipel Regression

Statistisk försöksplanering

Grundläggande matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

F7 Polynomregression och Dummyvariabler

Regressions- och Tidsserieanalys - F3

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Regressions- och Tidsserieanalys - F3

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Regressions- och Tidsserieanalys - F7

Tentamen MVE301 Sannolikhet, statistik och risk

Stokastiska processer med diskret tid

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Föreläsning 12: Regression

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

TAMS65 - Seminarium 4 Regressionsanalys

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Matematisk statistik KTH. Formelsamling i matematisk statistik

Lycka till!

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Räkneövning 3 Variansanalys

STATISTISK ANALYS AV KOMPLEXA DATA

F13 Regression och problemlösning

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F4

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Tentamen för kursen. Linjära statistiska modeller. 17 februari

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Matematisk statistik, Föreläsning 5

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

AMatematiska institutionen avd matematisk statistik

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Skrivning i ekonometri torsdagen den 8 februari 2007

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 15: Faktorförsök

Laboration 4 R-versionen

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Bayesiansk statistik, 732g43, 7.5 hp

Kovarians och kriging

Följande resultat erhålls (enhet: 1000psi):

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Examinationsuppgifter del 2

Tentamen MVE301 Sannolikhet, statistik och risk

7.5 Experiment with a single factor having more than two levels

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Formler och tabeller till kursen MSG830

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

SAMBANDS- MODELLER, 15HP. Lärare: Ann-Charlotte Hallberg Tommy Schyman

Transkript:

1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet

2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys. Vi har nu er än en oberoende variabel. I Svårare att välja bästa modell I Svårare att visualisera skattad modell I Tolkningar kan vara svårare I Krångligare beräkningar - men vi har datorer!

3/23 Multipel regressionsmodell I En beroende variabel Y och k oberoende variabler X 1, X 2,..., X k. Y = β 0 + β 1 X 1 + β 2 X 2 +...β k X k + E

4/23 Exempel med 2 oberoende variabler Vi vill beskriva sambandet mellan sparande och inkomst och utgift där Y = sparande, X 1 = inkomst, och X 2 = utgift. Vi funderar på följande modell: Y = β 0 + β 1 X 1 + β 2 X 2 + E Möjliga (men inte alla) alternativa modeller är Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 2 1 + β 4 X 2 2 + E Vilken modell ska vi välja? Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + E

5/23 Exempel med 2 oberoende variabler forts. Om vi börjar med den enklaste modellen vill vi hitta det plan som bäst passar data. I Ett sätt: minimera de kvadrerade avvikelserna från planet: n i=1 (Y i by i ) 2 = n i=1 (Y i bβ 0 bβ 1 X i1 bβ 2 X i2 ) 2

6/23 Statistiska antaganden för en multipel linjär modell I Existence I Oberoende I Linjäritet I Homoskedasticitet I Normalfördelning

7/23 Statistiska antaganden för en multipel linjär modell Existence För varje kombination av värden på X 1, X 2,..., X k är Y en stokastisk variabel med en viss sannolikhetsfördelning med ändligt medelvärde och varians.

8/23 Statistiska antaganden för en multipel linjär modell Oberoende Y -observationerna är statistiskt oberoende

9/23 Statistiska antaganden för en multipel linjär modell Linjäritet µ Y jx1,x 2,...,X k = β 0 + β 1 X 1 + β 2 X 2 +... + β k X k

10/23 Statistiska antaganden för en multipel linjär modell Homoskedasticitet Variansen för Y är densamma för varje x kombination av X 1, X 2,..., X k, dvs σ 2 Y jx 1,X 2,...,X k = σ 2

11/23 Statistiska antaganden för en multipel linjär modell Normalfördelning Y är normalfördelad för varje x kombination av X 1, X 2,..., X k.

12/23 Hur skattas parametrarna? Att bestämma en multipel regressionsekvation I Minsta kvadratmetoden

13/23 Minsta kvadratmetoden Bästa ekvationen är den som minimerar summan av de kvadrerade avvikelserna mellan de observerade Y -värdena och de skattade Y -värdena. Låt by i = bβ 0 + bβ 1 X 1i + bβ 2 X 2i +... + bβ k X ki Summan av de kvadrerade avvikelserna kan skrivas n i=1(y i by ) 2 = n i=1(y i bβ 0 bβ 1 X 1i bβ 2 X 2i... bβ k X ki ) 2 Minsta kvadratskattningarna är de värden bβ 0, bβ 1,...,bβ k som minimerar nämnda kvadratsumma.

14/23 ANOVA-tabell Uppdelning av variation i Y Total variation i Y kan delas upp i av regressionen förklarad variation i Y och oförklarad variation i Y n i=1 SSY = SSR + SSE (Y i Y ) 2 = n i=1 ( by i Y ) 2 + n i=1 (Y i by i ) 2

15/23 ANOVA-tabell Källa df SS MS F Modell k SSR MSR=SSR/k MSR/MSE Fel n k 1 SSE MSE=SSE/(n k 1) Total n 1 SSY=SSR+SSE R 2 = SSY SSE SSY

16/23 Exempel med sparande, inkomst och utgift Vi samlar in data från 8 distrikt data one; input fors bef annons; cards; 5.4 5 5 3.8 4.2 3 10.6 10 9 5.2 4.4 3.5 4.5 3.6 5 2.7 1.3 2 2.5 2.7 1.8 4.5 3 4.7 ; proc gplot; plot fors*bef fors*annons; proc reg; model fors=bef annons; run;

17/23 Spridningsdiagram fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 annons

18/23 Spridningsdiagram fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 10 bef

19/23 Exempel med sparande, inkomst och utgift forts. Modell: MODEL1 Beroendevariabel: sparande Antal lästa observationer 13 Antal använda observationer 13 Variansanalys Modell 2 71.92534 35.96267 17.87 0.0005 Fel 10 20.12235 2.01223 Korrigerad total 12 92.04769 Rot MSE 1.41853 R kvadrat 0.7814 Beroende medel 3.76923 Just. R kvadr. 0.7377 Koeff.var. 37.63454 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 18.85816 5.08556 3.71 0.0041 inkomst 1 0.11676 0.01964 5.95 0.0001 boende 1 0.02642 0.03170 0.83 0.4241

20/23 Uppgift En ekonom är intresserad av att undersöka sambandet mellan låneinstituts vinster, avkastning samt antal kontor. Hon samlar in uppgifter om vinst, Y (1000-tals kr.), avkastning, X 1 (1000-tals kr.) och antal kontor, X 2. Följande tre modeller beaktas Y = β 0 + β 1 X 1 + E Y = β 0 + β 2 X 2 + E Y = β 0 + β 1 X 1 + β 2 X 2 + E Se datautskrifter på följande sidor. 1. Vad är SSY samt SSE i regressionsanalyserna? 2. Bestäm R 2 -värdena för respektive modell 3. Använd minsta kvadrat-ekvationen med två oberoende variabler. Vad är den uppskattade vinsten för ett institut med en avkastning på 5000 kr samt 10 kontor?

21/23 Uppgift Modell 1 Beroendevariabel: y Antal lästa observationer 25 Antal använda observationer 25 Variansanalys Modell 2 0.40151 0.20076 70.66 0.000 Fel 22 0.06250 0.00284 Korrigerad total 24 0.46402 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 1.56450 0.07940 19.70 0.000 x1 1 0.23720 0.05556 4.27 0.000 x2 1 0.00025 0.00003 7.77 0.000

22/23 Uppgift Modell 2 Beroendevariabel: y Antal lästa observationer 25 Antal använda observationer 25 Variansanalys Modell 1 0.22990 0.22990 22.59 0.000 Fel 23 0.23412 0.01018 Korrigerad total 24 0.46402 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 1.2362 0.1386 9.57 0.000 x1 1 0.16913 0.03559 4.75 0.000

23/23 Uppgift Modell 3 Beroendevariabel: y Antal lästa observationer 25 Antal använda observationer 25 Variansanalys Modell 1 0.34973 0.34973 70.38 0.000 Fel 23 0.11429 0.00497 Korrigerad total 24 0.46402 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 1.5460 0.1048 14.75 0.000 x2 1 0.00012 0.000014 8.39 0.000