1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Relevanta dokument
2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

(a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Multipel Regressionsmodellen

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Laboration 2 multipel linjär regression

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F4

10.1 Enkel linjär regression

Datorövning 1 Enkel linjär regressionsanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 25 augusti 2007

Metod och teori. Statistik för naturvetare Umeå universitet

Skrivning i ekonometri torsdagen den 8 februari 2007

Lösningar till SPSS-övning: Analytisk statistik

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Del A: Schema för ifyllande av svar nns på sista sidan

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Uppgift 1. Deskripitiv statistik. Lön

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Grundläggande matematisk statistik

sociology Unit B1: Introduction to correlation and regression 3/3 Brendan Halpin May

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

TENTAMEN I MATEMATISK STATISTIK

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Regressions- och Tidsserieanalys - F3

Standard Normal Quantiles. Vilken av följande slutsatser kan man dra från qq-plotten?

Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson

Medicinsk statistik II

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

7.5 Experiment with a single factor having more than two levels

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Premiepensionens delningstal och dess känslighet för ändrad livslängd och ränteantagande

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Exempel 1 på multipelregression

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

InStat Exempel 4 Korrelation och Regression

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen i matematisk statistik

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Uppgift 1. Produktmomentkorrelationskoefficienten

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Examinationsuppgifter del 2

Föreläsning 12: Regression

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

Exempel 1 på multipelregression

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Multivariata metoder

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Följande resultat erhålls (enhet: 1000psi):

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Laboration 4 R-versionen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

OBS! Vi har nya rutiner.

STATISTISK ANALYS AV KOMPLEXA DATA

Sänkningen av parasitnivåerna i blodet

Samhällsvetenskaplig metod, 7,5 hp

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Laboration 3: Enkel linjär regression och korrelationsanalys

Matematisk statistik, Föreläsning 5

OBS! Vi har nya rutiner.

Maximalt antal poäng för hela skrivningen är28 poäng. För Godkänt krävs minst 17 poäng. För Väl Godkänt krävs minst 22,5 poäng.

TENTAMEN I MATEMATISK STATISTIK

Psykologiska institutionen tillämpar anonymitet i samband med tentor i skrivsal, som går till så här:

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Transkript:

Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning av korrelationen,, mellan två variabler 4. Lära sig utföra test om = 0 5. Lära sig rita kon dens- och prediktionsband för regressionslinjen 6. Lära sig beräkna kon densintervall för parameterarna 1

Exempel För att illustrera med exempel betraktar vi "table 5.1" i "Applied Regression Analysis and Other Multivariable Methods" av Kleinbaum et.al. Exemplet innehåller 30 observationer på variabeln "SBP", systolic blood pressure och "Age". Vi kan läsa in datat på följande sätt data work.bloodpressure; input SBP Age; datalines; 144 39 220 47 138 45 145 47 162 65 142 46 170 67 124 42 158 67 154 56 162 64 150 56 140 59 110 34 128 42 130 48 135 45 114 17 116 20 124 19 136 36 142 50 120 39 120 21 160 44 158 53 144 63 130 29 125 25 175 69 ; Plotta en beroende variabel mot en oberoende variabel I exemplet från boken är variabeln blodtryck den beroende variabeln och variabeln ålder är förklarande variabel. Vi vill nu plotta dessa två för att se om det kan föreligga ett linjärt samband mellan dem. Vi använder "proc 2

plot" för att plotta de båda variablerna proc plot data=work.bloodpressure; plot SBP*Age; Denna kod genererar en plot som ser ut som följer SBP 220 ˆ A 218 ˆ 216 ˆ 214 ˆ 212 ˆ 210 ˆ 208 ˆ 206 ˆ 204 ˆ 202 ˆ 200 ˆ 198 ˆ 196 ˆ 194 ˆ 192 ˆ 190 ˆ 188 ˆ 186 ˆ 184 ˆ 182 ˆ 180 ˆ 178 ˆ 176 ˆ A 174 ˆ 172 ˆ 170 ˆ A 168 ˆ 166 ˆ 164 ˆ 162 ˆ AA 160 ˆ A 158 ˆ A A 156 ˆ 154 ˆ A 152 ˆ 150 ˆ A 148 ˆ 146 ˆ A 144 ˆ A A 142 ˆ A A 140 ˆ A 138 ˆ A 136 ˆ A A 134 ˆ 132 ˆ 130 ˆ A A 128 ˆ A 126 ˆ A 124 ˆ A A 122 ˆ 120 ˆ A A 118 ˆ 116 ˆ A 114 ˆ A 112 ˆ 110 ˆ A Šƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒ 0 20 40 60 80 Age Varje observation i plotten är markerad med "A". Vi kan ändra detta genom att skriva proc plot data=work.bloodpressure; plot SBP*Age='*'; 3

När vi lägger till " = * " får vi istället en stjärna som symbol. Det nns era alternativ, ett annat exempel är att skriva " = + " för att få observationerna markerade som ett plus-tecken. Vi kan också förändra y- och x-axeln genom att skriva proc plot data=work.bloodpressure; plot SBP*Age='*' /haxis= 0 to 80 by 10 vaxis= 100 to 230 by 10; I koden ovan anger kommandot "haxis=" hur vi vill att x-axeln ska se ut, och kommandot "vaxis=" anger hur y-axeln ska se ut. "haxis" står för "horisontal axis" och "vaxis" står för "vertical axis". Ovan väljer vi alltså att markeringarna på x-axeln ska gå från 0 till 80 i steg om 10, istället för i steg om 20. Vi väljer även att markeringarna på y-axeln ska gå från 100 till 230 i steg om 10 istället för i steg om 2. Skatta en enkel linjär regressionsmodell Vi kan se i plotten ovan att datat verkar kunna beskrivas av en enkel linjär regressionsmodell. För att skatta modellen i SAS använder vi "proc reg". Vi skriver koden proc reg data=work.bloodpressure; model SBP=Age; I koden ovan talar vi om hur vi vill att modellen som vi skattar ska se ut. Vi väljer att skriva "SBP" först, då det är vår beroende variabel. Efter den beroende variabeln kommer "=Age" eftersom vi vill de niera "Age" som oberoende variabel. 4

Denna kod genererar en utskrift som ser ut så här The REG Procedure Model: MODEL1 Dependent Variable: SBP Number of Observations Read 30 Number of Observations Used 30 Analysis of Variance Sum of Mean Source DF Squares Square F Value Model 1 6394.02269 6394.02269 21.33 Error 28 8393.44398 299.76586 Corrected Total 29 14787 Analysis of Variance Source Pr > F Model <.0001 Error Corrected Total Root MSE 17.31375 R Square 0.4324 Dependent Mean 142.53333 Adj R Sq 0.4121 Coeff Var 12.14716 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 98.71472 10.00047 9.87 <.0001 Age 1 0.97087 0.21022 4.62 <.0001 I utskriften kan vi utläsa antalet observationer, en "ANOVA"-tabell (Analysis of variance) och de skattade regressionsparametrarna med tillhörande mått. De mått som ges är frihetsgraderna, skattningarna av 0 och 1 och s b0 och s b1. Efter kommer t-värdet till testen H 0 : 0 = 0 och H 0 : 1 = 0: Teststatistikan till testet där 1 = 0 ser ut som följer t = b 1 s b1 t(n 2): Teststatistikan till testet där 0 = 0 har samma fördelning. Vi ser att 0 är skattad till 98.71472 och att 1 är skattad till 0.97087. Respektive standardfel 5

är 10.00047 och 0.21022. Vi kan räkna ut de observerade t-värdena genom att beräkna t obs = b 1 1 s b1 = 0:97087 0 0:21022 = 4:62 vilket även går att utläsa ur utskriften. p-värdet till detta test är < 0:0001, vi bör alltså förkasta H 0 : 1 = 0. t-värdet för testet om 0 beräknas analogt. Vi kan även ange ett "plot" kommando i "proc reg" koden för att rita den skattade regressionslinjen. Vi skriver då proc reg data=work.bloodpressure; model SBP=Age; plot SBP*Age; I koden ovan har vi lagt till en rad; "plot SBP*Age". Denna rad genererar en utskrift som ser ut så här 6

220 200 180 SBP 160 140 120 100 15 20 25 30 35 40 45 50 55 60 65 70 Age Överst till vänster ser vi ekvationen för den skattade linjen: SBP = 98:715 + 0:9709 Age. Till höger om plotten ser vi antalet observationer, R 2 (förklaringsgraden), Radj 2 och den skattade standardavvikelsen (Root MSE) hos residualerna. Beräkna korrelationen mellan två variabler samt utföra test om = 0 För att beräkna korrelationen mellan två variabler använder vi "proc corr". Vi skriver koden proc corr data=work.bloodpressure; var SBP Age; 7

Vi skriver "var SBP Age" för att beräkna korrelationen mellan dessa två variabler. (Det går givetvis bra att skriva era variabler.) Koden genererar en utskrift som ser ut så här The CORR Procedure 2 Variables: SBP Age Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum SBP 30 142.53333 22.58125 4276 110.00000 220.00000 Age 30 45.13333 15.29420 1354 17.00000 69.00000 Pearson Correlation Coefficients, N = 30 Prob > r under H0: Rho=0 SBP Age SBP 1.00000 0.65757 <.0001 Age 0.65757 1.00000 <.0001 Längst ner i utskriften, under rubriken "Pearson Correlation Coe cients", får vi mått på korrelationerna. Vi ser att korrelationen mellan "SBP" och "SBP" (självfallet) är 1. Vi ser också att korrelationen mellan "SBP" och "Age" är skattad till 0.65757. Vi kan själva beräkna det skattade värdet av korrelationen genom formeln r = s X s Y b 1 : Vi hittar standardavvikelsen för Y respektive X i utskriften ovan. Vi får då r = 15:2942 0:97087 = 0:65757: 22:58125 Under si ran 0.65757 nns värdet < 0:0001. Detta värdet anger p-värdet till testet H 0 : = 0: Eftersom p-värdet är mycket litet bör vi förkasta H 0 och anta att korrelationen mellan "SBP" och "Age" är skild från noll. 8

Rita kon dens- och prediktionsband för regressionslinjen För att rita kon densband för regressionslinjen anger vi ett tillval. Vi skriver koden ods rtf; ods graphics on; proc reg data=work.bloodpressure plots (only) = fit ; model SBP=Age ; ods graphics off; ods rtf close; Vi lägger alltså till "plots (only) = t" för att rita kon densbanden. Det nns andra kommandon för er plottar, men detta går vi igenom längre fram. När vi lägger till "(only)" genererar SAS endast de plottar vi ber om, och på så sätt utesluts de plottar som genereras "by default". När vi använder tillvalet "plots" måste vi omsluta koden med "ods" kommandon. Det går givetvis bra att välja ett annat format än "rtf ", exempelvis "pdf ". Detta genererar bilden 9

Beräkna kon densintervall för parametrarna För att beräkna ett 95%-igt kon densintervall för parametrarna, 0 och 1, i SAS skriver vi koden proc reg data=work.bloodpressure; model SBP=Age / clb alpha=0.05; Vi skriver "clb" (con dence limits beta) för att speci cera att vi vill ha ett kon densintervall för respektive. Vi skriver även "alpha=0.05" för att tala om att vi vill göra ett 95%-igt kon densintervall. Detta genererar en utskrift som ser ut så här The REG Procedure Model: MODEL1 Dependent Variable: SBP Number of Observations Read 30 Number of Observations Used 30 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 6394.02269 6394.02269 21.33 <.0001 Error 28 8393.44398 299.76586 Corrected Total 29 14787 Root MSE 17.31375 R Square 0.4324 Dependent Mean 142.53333 Adj R Sq 0.4121 Coeff Var 12.14716 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept 1 98.71472 10.00047 9.87 <.0001 78.22969 119.19975 Age 1 0.97087 0.21022 4.62 <.0001 0.54026 1.4014 Utskriften ser ut som den vi ck ovan, med tillägget att vi får kon densintervall gränserna för 0 och 1 längst ner till höger. Uppgifter Basuppgift 1. Beakta uppgift 6 i kursboken där 13 barn har undersökts. Hos barnen har medelvärdet av den totala tiden de sover registrerats (ATST) samt 10

barnens ålder. Värdena är ATST min/24 h Age 586:00 4:4 461:75 14:0 491:00 10:1 565:00 6:7 462:00 11:5 532:10 9:6 477:60 12:4 515:20 8:9 493:00 11:1 528:30 7:75 575:90 5:5 532:50 8:6 530:50 7:2 Läs in datat. (a) Plotta ATST mot ålder för att se om en enkel linjär regressionsmodell kan beskriva datat (b) Skatta en enkel linjär regressionsmodell, samt plotta den (c) Beräkna korrelationen mellan den beroende- och den oberoende variablen (d) Beräkna ett 95 %-igt kon densintervall för 1 (e) Testa om 1 = 0. Verkar testet överensstämma med kon densintervallet? (f) Rita kon densband för regressionslinjen Extrauppgift 1. I tabellen nedan redovisas observationer på hastighet (km/h) och bensin- 11

förbrukning (liter/mil) för en Ford Escort. Hastighet km/h Förbrukning liter/mil Hastighet km/h 10 2:10 90 0:76 20 1:30 100 0:83 30 1:00 110 0:90 40 0:80 120 0:99 50 0:70 130 1:08 60 0:59 140 1:18 70 0:63 150 1:28 80 0:70 Förbrukning liter/mil (a) Plotta "hastighet" mot "förbrukning" (Vilken är beroende variabel?). Ser datat ut att kunna beskrivas av en enkel linjär regressionsmodel? Om inte vilket typ av samband verkar föreligga? (b) Beräkna korrelationen samt utför testet H 0 : = 0. Är resultatet av testet konsistent med vad som kunde utläsas ur plotten? 12