1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Relevanta dokument
1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Tidsserier. Data. Vi har tittat på två typer av data

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

F11. Kvantitativa prognostekniker

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Lektionsanteckningar 11-12: Normalfördelningen

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

10.1 Enkel linjär regression

Föreläsning G60 Statistiska metoder

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Grundläggande matematisk statistik

Matematisk statistik, Föreläsning 5

Föreläsning 12: Linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Matematisk statistik KTH. Formelsamling i matematisk statistik

STATISTISK ANALYS AV KOMPLEXA DATA

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Finansiell statistik. Multipel regression. 4 maj 2011

Samplingfördelningar 1

Examinationsuppgifter del 2

Enkel och multipel linjär regression

Höftledsdysplasi hos dansk-svensk gårdshund

Statistiska samband: regression och korrelation

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Multipel Regressionsmodellen

Linjär regressionsanalys. Wieland Wermke

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Föreläsning 12: Regression

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Lycka till!

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

TAMS65 - Seminarium 4 Regressionsanalys

Metod och teori. Statistik för naturvetare Umeå universitet

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

MVE051/MSG Föreläsning 14

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

AMatematiska institutionen avd matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Stokastiska processer med diskret tid

Statistisk försöksplanering

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Regressions- och Tidsserieanalys - F3

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Statistik 1 för biologer, logopeder och psykologer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

F9 SAMPLINGFÖRDELNINGAR (NCT

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Regressions- och Tidsserieanalys - F4

TMS136. Föreläsning 7

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

TAMS79: Föreläsning 6. Normalfördelning

Tentamen MVE301 Sannolikhet, statistik och risk

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

4 Diskret stokastisk variabel

TENTAMEN I MATEMATISK STATISTIK

Följande resultat erhålls (enhet: 1000psi):

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Regressionsanalys av lägenhetspriser i Spånga

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Kovarians och kriging

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 7. Statistikens grunder.

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

SF1901 Sannolikhetsteori och statistik I

Laboration 4 R-versionen

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 11: Mer om jämförelser och inferens

Tentamen MVE301 Sannolikhet, statistik och risk

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

MVE051/MSG Föreläsning 7

Transkript:

1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet

2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att undersöka samband mellan en beroende variabel Y och en eller era oberoende variabler X 1, X 2,..., X k. Regressionsanalys kan användas vid följande situationer: I Man vill undersöka sambandet mellan en beroende variabel Y och era oberoende variabler X 1, X 2,..., X k I Man vill uttrycka en beroende variabel Y som en funktion av oberoende variabler X 1, X 2,..., X k. I Man vill undersöka sambandet mellan X 1, X 2,..., X k och Y och samtidigt kontrollera för andra variabler C 1, C 2,..., C p som man tror skulle kunna ha ett samband med Y

3/31 Kap 4: Introduktion till regressionsanalys. Introduktion I Man vill bestämma den bästa matematiska modellen för att beskriva sambandet mellan en beroende variabel och en eller era oberoende variabler. I Man vill jämföra regressionssamband mellan olika grupper. I Man vill undersöka interaktionse ekter för två eller era oberoende variabler på den beroende variabeln.

4/31 Kap 4: Introduktion till regressionsanalys. Introduktion I Korrelation innebär inte kausalitet. I Statistiska modeller är inte deterministiska modeller

5/31 Kap 4: Introduktion till regressionsanalys. Introduktion Historia I Galton (1886) I I I Samband mellan föräldrars och barns längder Barn till korta föräldrar tenderade att vara lite längre, i genomsnitt, än sina föräldrar, medan barn till långa föräldrar tenderade att vara lite kortare, i genomsnitt, än sina föräldrar regress toward the mean

6/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel I Vi vill veta om kundkretsens storlek (befolkning i 100 000 pers) samt mängden lokalt inriktad annonsering (i 10 000 kr) påverkar företagens försäljning (i milj kr). I Hur mycket skulle vi gissa att försäljningen skulle vara för ett företag som hade en kundkretsstorlek på 300 000 samt en annonsering på 20 000 kr?

7/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. Vi samlar in data från 8 distrikt data one; input fors bef annons; cards; 5.4 5 5 3.8 4.2 3 10.6 10 9 5.2 4.4 3.5 4.5 3.6 5 2.7 1.3 2 2.5 2.7 1.8 4.5 3 4.7 ; proc gplot; plot fors*bef fors*annons; proc reg; model fors=bef annons; run;

Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 10 bef 8/31

Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 annons 9/31

10/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. F örsäljning \ = 0.86 + 0.95 Befolkning F örsäljning \ = 0.45 + 1.05 Annonsering F örsäljning \ = 0.43 + 0.55 Befolkning + 0.50 Annonsering

11/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. Slutsats I Vi kan se att företag i distrikt med större kundkretsar har högre försäljning än företag i distrikt med mindre kundkretsar I Vi kan se att företag som annonserar mera har högre försäljning än företag som annonserar mindre I Det kan vara så att storlek på kundkrets samt annonsering påverkar försäljning

12/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. Hur ser vår bästa uppskattning ut? I Hur mycket skulle vi gissa att försäljningen skulle vara för ett företag som hade en kundkretsstorlek på 300 000 samt en annonsering på 20 000 kr? I Om vi inte tar hänsyn till de förklarande variablerna skulle vår bästa gissning bli medelvärdet för försäljningen i de 8 distrikten: 4.9 milj. kr. I Tar vi hänsyn till de förklarande variablerna blir vår bästa gissning: \ F örsäljning = 0.43 + 0.55 3 + 0.50 2 = 3.08

13/31 Enkel linjär regressionsanalys En beroende variabel Y och en oberoende variabel X n observationer (individer, företag, tidpunkter... ) med värden på X och Y. y x 1 L x k y 1 x 11 L x k1 M M M y n x 1n L x kn

14/31 Enkel linjär regressionsanalys. Två grundläggande frågor: 1. Vilken matematisk modell är mest lämplig? 2. Hur skattar vi parametrarna i denna modell?

15/31 1. Vilken matematisk modell är mest lämplig? I Forward Method I Backward Method I Teori

16/31 Räta linjens ekvation y = β 0 + β 1 x

17/31 Statistisk modell Y = β 0 + β 1 X + E

18/31 Statistiska antaganden för en linjär modell I Existence I Oberoende I Linjäritet I Homoskedasticitet I Normalfördelning

19/31 Statistiska antaganden för en linjär modell Existence För varje x värde på X är Y en stokastisk variabel med en viss sannolikhetsfördelning med ändligt medelvärde och varians.

20/31 Statistiska antaganden för en linjär modell Oberoende Y -observationerna är statistiskt oberoende

21/31 Statistiska antaganden för en linjär modell Linjäritet µ Y jx = β 0 + β 1 X

22/31 Statistiska antaganden för en linjär modell Homoskedasticitet Variansen för Y är densamma för varje X, dvs för alla X. σ 2 Y jx = σ2

23/31 Statistiska antaganden för en linjär modell Normalfördelning Y är normalfördelat för varje x värde på X.

2. Hur skattas parametrarna? Att bestämma en rät linje I Minsta kvadratmetoden I Minsta variansmetoden 8 6 Sparande 4 2 0 2 180 190 200 210 220 230 Inkomst 240 250 260 270 24/31

Minsta kvadratmetoden Bästa linjen är den som minimerar summan av de kvadrerade avvikelserna från linjen i Y -led. Låt by i vara det skattade värdet på Y vid X i baserat på den skattade regressionslinjen: by i = bβ 0 + bβ 1 X i där bβ 0 är den skattade linjens skärning och bβ 1 är den skattade linjens lutning. Summan av de kvadrerade avvikelserna från linjen kan skrivas n i=1(y i by ) 2 = n i=1(y i bβ 0 bβ 1 X i ) 2 Minsta kvadratskattningarna är de bβ 0 och bβ 1 som minimerar nämnda kvadratsumma. 25/31

26/31 Minsta kvadratskattningar Bästa linjen bestäms av formlerna: bβ 1 = n i=1(x i X )(Y i Y ) n i=1(x i X ) 2 bβ 0 = Y bβ 1 X där Y är stickprovsmedelvärdet för Y -observationerna och X är stickprovsmedelvärdet för X -observationerna.

27/31 Minsta kvadratskattningar Exempel. Inkomst Sparande 181 2,2 190 1,0 200 0,0 210 6,0 220 3,1 225 3,5 226 4,4 228 5,1 228 5,4 233 4,7 237 3,9 240 6,1 260 8,0

28/31 Minsta kvadratskattningar Exempel forts. 8 6 Sparande 4 2 0 2 180 190 200 210 220 230 Inkomst 240 250 260 270

29/31 Minsta kvadratskattningar Exempel forts. Modell: MODEL1 Beroendevariabel: sparande Antal lästa observationer 13 Antal använda observationer 13 Variansanalys Modell 1 70.52804 70.52804 36.05 <.0001 Fel 11 21.51965 1.95633 Korrigerad total 12 92.04769 Rot MSE 1.39869 R kvadrat 0.7662 Beroende medel 3.76923 Just. R kvadr. 0.7450 Koeff.var. 37.10808 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 21.20274 4.17709 5.08 0.0004 inkomst 1 0.11280 0.01879 6.00 <.0001

30/31 Minsta kvadratskattningar Exempel forts. bβ 0 = 21.203 I Linjens skärning av Y -axeln I Det förväntade värdet på sparande för en person med en inkomst på 0 kronor: I Om en person har en inkomst på 0 kronor förväntar vi oss att sparandet är 21203 kronor (dvs negativt sparande) I Obs! Är detta rimligt? Om värdet 0 ej nns i vårt undersökta material är tolkningen ej rimlig. Riskabelt att extrapolera utanför det undersökta området

31/31 Minsta kvadratskattningar Exempel forts. bβ 1 = 0.113 I Lutningen/riktningen I Om inkomsten ökar med 1000 kronor ökar i genomsnitt sparandet med 113 kronor I En person som har 1000 kr mer i inkomst än en annan person sparar i genomsnitt 113 kr mer. I Obs! Sambandet behöver ej vara kausalt!