Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.



Relevanta dokument
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Exempel 1 på multipelregression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Regressions- och Tidsserieanalys - F4

TENTAMEN I STATISTIK B,

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Skrivning i ekonometri lördagen den 25 augusti 2007

Regressions- och Tidsserieanalys - F3

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Skrivning i ekonometri lördagen den 29 mars 2008

10.1 Enkel linjär regression

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Regressions- och Tidsserieanalys - F7

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Skrivning i ekonometri torsdagen den 8 februari 2007

8.1 General factorial experiments

Exempel 1 på multipelregression

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen Tillämpad statistik A5 (15hp)

Regressions- och Tidsserieanalys - F5

Skrivning i ekonometri lördagen den 15 januari 2005

Regressions- och Tidsserieanalys - F1

TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F1

Metod och teori. Statistik för naturvetare Umeå universitet

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Tentamen i matematisk statistik

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Räkneövning 3 Variansanalys

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Laboration 2 multipel linjär regression

Tentamen i matematisk statistik

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Regressions- och Tidsserieanalys - F3

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

tentaplugg.nu av studenter för studenter

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F3

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen i Matematisk statistik Kurskod S0001M

Läs noggrant informationen nedan innan du börjar skriva tentamen

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Läs noggrant informationen nedan innan du börjar skriva tentamen

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Föreläsning 4. Kap 5,1-5,3

Tentamen Tillämpad statistik A5 (15hp)

Examinationsuppgifter del 2

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Föreläsning G60 Statistiska metoder

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Uppgift a b c d e f (vet ej) Poäng

sociology Unit B1: Introduction to correlation and regression 3/3 Brendan Halpin May

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i Matematisk statistik Kurskod S0001M

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

Tentamen i Matematisk statistik Kurskod S0001M

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen i Matematisk statistik Kurskod S0001M

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

7.5 Experiment with a single factor having more than two levels

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Följande resultat erhålls (enhet: 1000psi):

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Psykologiska institutionen tillämpar anonymitet i samband med tentor i skrivsal, som går till så här:

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Transkript:

Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: Betygsgränser: 732G21 Sambandsmodeller 2009-01-14, 8-12 Kalle Wahlin, 0709-719096 Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p. Redovisa och motivera tydligt alla dina lösningar! Uppgift 1 (5.5p) En marknadsanalytiker hos en bank drar ett stickprov om 8 av bankens kunder för att undersöka om det finns något samband mellan hushållets sammanlagda inkomst och hur stort lån man har hos banken. Följande data erhålles (uttryckt i tusentals kronor): Kund nr Inkomst (x) Sammanlagt lån (y) 1 35 246 2 41 350 3 41 402 4 49 523 5 48 630 6 57 700 7 54 803 8 60 942 a) Plotta inkomst mot sammanlagt lån. Vilken typ av regressionsmodell verkar lämplig? Uttryck modellen med de beteckningar som använts under kursen. (0.5p) b) Beräkna punktskattningar av parametrarna i den valda modellen. (1p) c) Tolka modellens parametrar i ord så att en ickestatistiker förstår det eventuella sambandet mellan inkomst och sammanlagt lån. (0.5p) d) Hur stort lån kan man förvänta sig för ett hushåll vars sammanlagda inkomst är 45 (tkr)? (0.5p) 1

e) Plotta residualerna mot x. Verkar modellen välanpassad? (1p) f) Marknadsanalytikern vill nu även införa information om huruvida kunden är kvinna eller man. Beskriv med de beteckningar som använts under kursen hur modellen kan utvecklas så att regressionslinjer med olika intercept och olika lutning erhålles i en enda modellanpassning. (1p) g) Antag att man nu för var och en av de 8 kunderna har gjort en bedömning om huruvida de bör få utöka sitt lån (kodat som 1) eller ej (kodat som 0). Beskriv med de beteckningar som använts under kursen en lämplig typ av regressionsmodell för att modellera sambandet mellan huruvida lånet ska få utökas eller ej (y) och hushållets inkomst (x). (1p) Uppgift 2 (4.5p) Föreliggande är ett datamaterial bestående av ett större antal försäljningar av privatbostäder i USA år 2002. För varje husförsäljning finns information om y x 1 x 2 x 3 x 4 x 5 x 6 x 7 X 8 Försäljningspris (dollar) Bostadsyta (kvadratfot) Antal sovrum Antal badrum Förekomst av luftkonditionering, 1 = luftkonditionering finns, 0 annars Antal bilar som garaget är konstruerat för Förekomst av pool, 1 = pool finns, 0 annars Byggnadsår Tomtstorlek (kvadratfot) a) Till följd av det stora antalet möjliga modeller börjar man med att köra best subsets regression i Minitab: Best Subsets Regression: y versus x1; x2; x3; x4; x5; x6; x7; x8 Response is y Mallows x x x x x x x x Vars R-Sq R-Sq(adj) Cp S 1 2 3 4 5 6 7 8 1 67.2 67.1 161.2 79123 X 1 46.7 46.6 583.3 100750 X 2 71.8 71.7 66.6 73351 X X 2 69.9 69.8 106.2 75804 X X 3 73.8 73.6 27.9 70809 X X X 3 73.0 72.8 45.2 71931 X X X 4 74.5 74.3 14.4 69857 X X X X 4 74.2 74.0 20.6 70267 X X X X 5 75.0 74.8 6.8 69286 X X X X X 5 74.6 74.3 15.4 69855 X X X X X 6 75.1 74.8 6.1 69169 X X X X X X 6 75.1 74.8 7.4 69256 X X X X X X 7 75.2 74.9 6.9 69163 X X X X X X X 7 75.1 74.8 8.1 69236 X X X X X X X 8 75.2 74.8 9.0 69230 X X X X X X X X 2

och baserat på detta har ett antal modeller anpassats (se nedan). Vilken modell anser du är den bästa? Motivera! (1.5p) Modell 1: Regression Analysis: y versus x1; x2; x5; x7; x8 The regression equation is y = - 3774167 + 132 x1-11164 x2 + 23071 x5 + 1884 x7 + 1.59 x8 Predictor Coef SE Coef T P VIF Constant -3774167 400244-9.43 0.000 x1 131.762 5.950 22.15 0.000 1.943 x2-11164 3613-3.09 0.002 1.458 x5 23071 5815 3.97 0.000 1.569 x7 1884.0 206.4 9.13 0.000 1.439 x8 1.5948 0.2714 5.88 0.000 1.091 S = 69286.3 R-Sq = 75.0% R-Sq(adj) = 74.8% Analysis of Variance Source DF SS MS F P Regression 5 7.43381E+12 1.48676E+12 309.70 0.000 Residual Error 516 2.47710E+12 4800585922 Total 521 9.91091E+12 Source DF Seq SS x1 1 6.65549E+12 x2 1 27612564716 x5 1 2.78069E+11 x7 1 3.06895E+11 x8 1 1.65746E+11 Predicted Values for Observations Obs Fit SE Fit 95% CI 95% PI 1 136852 8733 (119696; 154008) (-343; 274047) Values of Predictors for Observations Obs x1 x2 x5 x7 x8 1 1500 4.00 1.00 1974 10000 Modell 2: Regression Analysis: y versus x1; x2; x3; x5; x7; x8 The regression equation is y = - 3567709 + 126 x1-13041 x2 + 7988 x3 + 22530 x5 + 1780 x7 + 1.55 x8 Predictor Coef SE Coef T P VIF Constant -3567709 418532-8.52 0.000 x1 125.739 6.963 18.06 0.000 2.670 x2-13041 3780-3.45 0.001 1.601 3

x3 7988 4819 1.66 0.098 2.864 x5 22530 5814 3.87 0.000 1.574 x7 1779.6 215.5 8.26 0.000 1.573 x8 1.5550 0.2720 5.72 0.000 1.100 S = 69169.2 R-Sq = 75.1% R-Sq(adj) = 74.8% Analysis of Variance Source DF SS MS F P Regression 6 7.44695E+12 1.24116E+12 259.42 0.000 Residual Error 515 2.46396E+12 4784383959 Total 521 9.91091E+12 Source DF Seq SS x1 1 6.65549E+12 x2 1 27612564716 x3 1 1.42710E+11 x5 1 2.24987E+11 x7 1 2.39808E+11 x8 1 1.56350E+11 Predicted Values for Observations Obs Fit SE Fit 95% CI 95% PI 1 135741 8744 (118563; 152918) (-1229; 272711) Values of Predictors for Observations Obs x1 x2 x3 x5 x7 x8 1 1500 4.00 2.00 1.00 1974 10000 Modell 3: Regression Analysis: y versus x1; x2; x5; x6; x7; x8 The regression equation is y = - 3792575 + 131 x1-11414 x2 + 22776 x5 + 14661 x6 + 1894 x7 + 1.62 x8 Predictor Coef SE Coef T P VIF Constant -3792575 400363-9.47 0.000 x1 131.082 5.974 21.94 0.000 1.960 x2-11414 3617-3.16 0.002 1.462 x5 22776 5818 3.91 0.000 1.572 x6 14661 12184 1.20 0.229 1.037 x7 1894.1 206.5 9.17 0.000 1.441 x8 1.6198 0.2721 5.95 0.000 1.098 S = 69256.2 R-Sq = 75.1% R-Sq(adj) = 74.8% Analysis of Variance Source DF SS MS F P Regression 6 7.44075E+12 1.24013E+12 258.55 0.000 Residual Error 515 2.47016E+12 4796422846 4

Total 521 9.91091E+12 Source DF Seq SS x1 1 6.65549E+12 x2 1 27612564716 x5 1 2.78069E+11 x6 1 1510520776 x7 1 3.08084E+11 x8 1 1.69992E+11 Predicted Values for Observations Obs Fit SE Fit 95% CI 95% PI 1 136262 8743 (119086; 153437) (-877; 273401) Values of Predictors for Observations Obs x1 x2 x5 x6 x7 x8 1 1500 4.00 1.00 0.000000 1974 10000 Modell 4: Regression Analysis: y versus x1; x2; x3; x5; x6; x7; x8 The regression equation is y = - 3596612 + 126 x1-13144 x2 + 7492 x3 + 22306 x5 + 12812 x6 + 1795 x7 + 1.58 x8 Predictor Coef SE Coef T P VIF Constant -3596612 419400-8.58 0.000 x1 125.518 6.966 18.02 0.000 1.672 x2-13144 3781-3.48 0.001 1.602 x3 7492 4842 1.55 0.002 1.891 x5 22306 5818 3.83 0.000 1.577 x6 12812 12226 1.05 0.015 1.047 x7 1794.9 216.0 8.31 0.000 1.580 x8 1.5793 0.2730 5.79 0.000 1.108 S = 69162.7 R-Sq = 75.2% R-Sq(adj) = 74.9% Analysis of Variance Source DF SS MS F P Regression 7 7.45221E+12 1.06460E+12 222.56 0.000 Residual Error 514 2.45870E+12 4783472628 Total 521 9.91091E+12 Source DF Seq SS x1 1 6.65549E+12 x2 1 27612564716 x3 1 1.42710E+11 x5 1 2.24987E+11 x6 1 223386194 x7 1 2.41071E+11 x8 1 1.60116E+11 5

Predicted Values for Observations Obs Fit SE Fit 95% CI 95% PI 1 135294 8753 (118098; 152490) (-1666; 272254) Values of Predictors for Observations Obs x1 x2 x3 x5 x6 x7 x8 1 1500 4.00 2.00 1.00 0.000000 1974 10000 Modell 5: Regression Analysis: y versus x1; x2; x3; x4; x5; x7; x8 The regression equation is y = - 3566090 + 126 x1-13046 x2 + 7982 x3 + 142 x4 + 22518 x5 + 1779 x7 + 1.56 x8 Predictor Coef SE Coef T P VIF Constant -3566090 431933-8.26 0.000 x1 125.743 6.975 18.03 0.000 2.673 x2-13046 3797-3.44 0.001 1.612 x3 7982 4836 1.65 0.099 2.879 x4 142 9196 0.02 0.988 1.291 x5 22518 5874 3.83 0.000 1.604 x7 1778.7 222.9 7.98 0.000 1.680 x8 1.5555 0.2745 5.67 0.000 1.118 S = 69236.5 R-Sq = 75.1% R-Sq(adj) = 74.8% Analysis of Variance Source DF SS MS F P Regression 7 7.44696E+12 1.06385E+12 221.93 0.000 Residual Error 514 2.46396E+12 4793689888 Total 521 9.91091E+12 Source DF Seq SS x1 1 6.65549E+12 x2 1 27612564716 x3 1 1.42710E+11 x4 1 33417146001 x5 1 2.00190E+11 x7 1 2.33614E+11 x8 1 1.53925E+11 Predicted Values for Observations Obs Fit SE Fit 95% CI 95% PI 1 135762 8862 (118353; 153171) (-1369; 272893) Values of Predictors for Observations 6

Studentized deleted residuals Obs x1 x2 x3 x4 x5 x7 x8 1 1500 4.00 2.00 1.00 1.00 1974 10000 b) Hur många husförsäljningar har din valda regressionsanalys baserats på? (0.5p) c) Från datamaterialet har också en modell med p = 8 parametrar anpassats och nedanstående residualplottarna tagits fram. Baserat på (en av) dessa, finns det några indikationer på outliers med avseende på de förklarande variablerna (x)? (1p) 6 Scatterplot of Studentized deleted residuals vs y 5 4 3 2 1 0-1 -2-3 0 100000 200000 300000 400000 500000 y 600000 700000 800000 900000 7

COOKS DISTANCE Leverage values 0.14 Scatterplot of Leverage values vs y 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 100000 200000 300000 400000 500000 y 600000 700000 800000 900000 0.18 Scatterplot of COOKS DISTANCE vs y 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 100000 200000 300000 400000 500000 y 600000 700000 800000 900000 8

DFFITS Scatterplot of DFFITS vs y 1.0 0.5 0.0-0.5-1.0 0 100000 200000 300000 400000 500000 y 600000 700000 800000 900000 d) Baserat på din valda modell, ange ett 95% intervall för det förväntade försäljningspriset för ett specifikt hus som är 1500 kvadratfot stort och som har 4 sovrum, 2 badrum, luftkonditionering, garage för 1 bil, ingen pool, byggnadsår 1974 och med en tomtyta om 10000 kvadratfot. (0.5p) e) Beskriv i ord metodiken för att göra en stepwise regression. (1p) 3 Vid ett forskningslaboratorium ville man få fram en komponent för lindring av hösnuva. I ett experiment utsattes 36 frivilliga för två olika substanser med varierande koncentration. De två substanserna kallas här A och B. Responsvariabel Y är tiden tills lindring. Till var och en av de 9 kombinationerna slumpades 4 frivilliga. Se korstabell: Rows: B Columns: A Tabell med medelvärden för Y. låg medel hög All låg 24,75 46,00 45,75 38,83 9

4 4 4 12 medel 54,50 81,75 91,25 75,83 4 4 4 12 hög 59,75 102,75 132,50 98,33 4 4 4 12 All 46,33 76,83 89,83 71,00 12 12 12 36 Cell Contents: Y : Mean Count Nedan har två modeller anpassats. Modell 1 = Yijk i j ijk samt modell 2 = Yijk i j ij ijk Uppgifterna kommer efter alla utskrifter. Modell 1 The GLM Procedure Class Level Information Class Levels Values A 3 1 2 3 B 3 1 2 3 Number of Observations Read 36 Number of Observations Used 36 10

Dependent Variable: Y Sum of Source DF Squares Mean Square F Value Pr > F Model 4 33628.00000 8407.00000 70.63 <.0001 Error 31 3690.00000 119.03226 Corrected Total 35 37318.00000 R-Square Coeff Var Root MSE Y Mean 0.901120 15.36647 10.91019 71.00000 Source DF Type III SS Mean Square F Value Pr > F A 2 11966.00000 5983.00000 50.26 <.0001 B 2 21662.00000 10831.00000 90.99 <.0001 Modell 2 The GLM Procedure Dependent Variable: Y Sum of Source DF Squares Mean Square F Value Pr > F Model 8 36465.50000 4558.18750 144.36 <.0001 Error 27 852.50000 31.57407 Corrected Total 35 37318.00000 R-Square Coeff Var Root MSE Y Mean 0.977156 7.914199 5.619081 71.00000 11

Mean Source DF Type III SS Mean Square F Value Pr > F A 2 11966.00000 5983.00000 189.49 <.0001 B 2 21662.00000 10831.00000 343.03 <.0001 A*B 4 2837.50000 709.37500 22.47 <.0001 140 120 Interaction Plot for Y Data Means A 1 2 3 100 80 60 40 20 1 2 B 3 a) Pröva på 1% signifikansnivå om Substans B har effekt i modell 1. 1p b) Bilda konfidensintervall med Tukeys metod för alla differenser mellan nivåerna på substans B i modell 1. 2p c) Ta hjälp av interaktionsplotten för att avgöra om interaktion kan vara närvarande. Hur kan en interaktion tolkas i detta exempel? d) Skatta, samt 1 2 3 i modell 2. 1p 1p e) Genom att bara titta på data så ser det inte ut att vara någon större skillnad mellan medel- och hög koncentration för de båda substanserna. Bilda därför ett 22 23 32 33 95% konfidensintervall för kontrasten. 2 2 Motivera noggrant vilket MSE du använder för detta konfidensintervall. 3p 4 a) Ge ett exempel på då man hellre vill ha varianskomponenter istället för fixa effekter. 1p 12

b) Förklara varför man inte kan ha interaktionsterm vid randomiserat blockförsök med en obs per cell. 13