För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Relevanta dokument
a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressions- och Tidsserieanalys - F7

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F4

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Skrivning i ekonometri lördagen den 15 januari 2005

Regressions- och Tidsserieanalys - F3

Skrivning i ekonometri lördagen den 29 mars 2008

Metod och teori. Statistik för naturvetare Umeå universitet

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

F7 Polynomregression och Dummyvariabler

10.1 Enkel linjär regression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Skrivning i ekonometri lördagen den 25 augusti 2007

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Exempel 1 på multipelregression

Regressions- och Tidsserieanalys - F3

Multipel Regressionsmodellen

TENTAMEN I STATISTIK B,

Tentamen Tillämpad statistik A5 (15hp)

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Regressions- och Tidsserieanalys - F3

Tentamen i matematisk statistik

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i matematisk statistik

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Föreläsning G60 Statistiska metoder

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

TENTAMEN I MATEMATISK STATISTIK

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Matematisk statistik, Föreläsning 5

tentaplugg.nu av studenter för studenter

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen Tillämpad statistik A5 (15hp)

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Föreläsning 4. Kap 5,1-5,3

F23 forts Logistisk regression + Envägs-ANOVA

Laboration 2 multipel linjär regression

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Regressions- och Tidsserieanalys - F5

Tentamen i matematisk statistik

Examinationsuppgifter del 2

Tentamen i Matematisk statistik Kurskod S0001M

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Följande resultat erhålls (enhet: 1000psi):

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

F11. Kvantitativa prognostekniker

Tentamen i Matematisk statistik Kurskod S0001M

tentaplugg.nu av studenter för studenter

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i Matematisk statistik Kurskod S0001M

Höftledsdysplasi hos dansk-svensk gårdshund

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Exempel 1 på multipelregression

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Facit till Extra övningsuppgifter

Transkript:

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson Skriftlig hemtentamen i Fortsättningskurs i statistik, moment 1, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys Måndagen den 25 oktober 2004. LÄS DESSA ANVISNINGAR INNAN NI BÖRJAR! Tentamenbeståravfemfrågormeddeluppgifter. Totaltkanmanfå50poäng. Föratt erhålla full utdelning krävs motiverade och fullständigt redovisade lösningar. De som har genomfört och fått godkänt på den frivilliga inlämningsuppgiften får 5 extrapoäng, motsvarande % av maxpoängen. Detta medför att maxpoängen kan bli 55 poäng. För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng. Alla hjälpmedel är tillåtna utom att ta hjälp av andra personer, du skall lösa uppgifterna på egen hand. Bifogat finner du en försäkran där du skall intyga att du har löst uppgifterna på egen hand och utan hjälp av andra. Denna skall undertecknas och lämnas in tillsammans med dina lösningar. Redovisa lösningarna till varje uppgift på separata A4-ark. Deluppgifter redovisas dock påsammaark. Behövsfleränettarkförenuppgifthäftasdessaihop. Häftainteihop redovisningarna till flera olika uppgifter! Skriv ditt namn överst på varje ark. SKRIV TYDLIGT OCH LÄSBART! Fyll i dina personuppgifter på det bifogade försättshäftet. Skriv under försäkran och lägg det tillsammans med dina lösningar i försättshäftet. Markera även vilka uppgifter sombehandlats. Detgårbraattläggahelabunteniettkuvert. Tentamen och försäkran skall lämnas in i samband med undervisningen fredagen den 29 oktober kl..00-11.00, på studentexpeditionen i Hus B, plan 7, rum 724. Lägg inte lösningarna i brevlådan mitt emot hissarna! Återlämning och tentamensgenomgång äger rum måndagen den 8 november vid en ännu inte bestämd tidpunkt, återkommer om detta! Jag är tillgänglig för frågor under tisdagen den 26 oktober kl. 9.30-11.30 och 12.30-16.40, ihusb,plan7,rum790. Detgårocksåbraattringapåtel. 08-162957,ellerskicka e-post till Michael.Carlson@stat.su.se. LYCKA TILL!

1. Din uppdragsgivare kan inte mycket om statistik och vill att du ska förklara några olika begrepp. Menhanärenotåligpersonsomharontomtidochvillhasnabbaochkonkreta förklaringar. För var och en av deluppgifterna nedan ska du alltså ge ett kortfattat svar, ingauppsatser. Begränsaertillmax200ordperuppgift(omduskrivermerslutarhan läsa och frågar någon annan). Använd gärna ordbehandlare eller skrivmaskin. Om du behöver skriva formler eller göra enkla illustrationer kan du alltid göra detta för hand. (a) (2p) Vad är konfidensband och prediktionsband i enkel linjär regressionsanalys och vad är skillnaden mellan dessa begrepp? Var är banden som smalast? (b) (2p) Man talar talar ofta om två typer av ovanliga observationer. Redogör för dessa - gärna med enkla diagram- och ange hur man kan identifiera sådana observationer. (c) (2p) Vad är dummyvariabler för något och när använder man det? Hur många behöver man? (d) (2p) Förklara begreppet multikollinearitet och förkortningen VIF. Varför är multikollinearitet ett problem? 2. Följande datamaterial har samlats in: i 1 2 3 4 5 6 7 8 9 11 X 201 189 189 166 174 145 161 135 177 228 227 Y 324 306 3 245 282 225 296 240 264 304 201 Obs! Uppgifterna nedan ska utföras för hand men du kan använda Minitab eller något annat program för att kontrollera dina beräkningar och för att framställa diagram. (a) (3p) Skatta den enkla linjära regressionsmodellen med X som oberoende variabel och Y som beroende variabel. Beräkna även standardfelen för dina parameterskattningar. Sammanfatta sedan dina resultat i en sammanställning liknande Minitabs eller SAS s utskrifter tillsammans med en ANOVA-tablå. Sammanfatta sedan slutresultaten för sig och beräkningarna för sig, tex i en bilaga till uppgiften. (b) (2p) Vad är din slutsats beträffande den skattade modellen? Genomför ett lämpligt test på signifikansnivå α = 0.05. Ange noll- och mothypotes samt testvariabel och dess fördelning. (c) (2p) Utgå ifrån den enkla linjära regressionsmodellen och låt r beteckna den sedvanliga korrelationskoefficienten. Visa med hjälp av formler ur kurslitteraturen att ˆβ 1 = r n 2 Sˆβ1 1 r 2 Ledning:AnvändattS 2 Y =SST/(n 1)ochattS 2 Y X =SSE/(n 2). (d) (2p) Beräkna korrelationskoefficienten r mellan X och Y och bilda ett 95% konfidensintervall för ρ. Beskriv sambandet mellan konfidensintervallet och testet i (b)-uppgiften ovan. 2

(e) (2p) Beräkna på nytt korrelationskoefficienten r mellan X och Y och bilda ett 95% konfidensintervall för ρ men utelämna nu observation nummer 11. Förklara också vad som skulle hända om du genomförde en ny regressionsanalys med denna observation borttagen med avseende på ett test motsvarande den i(b)-uppgiften. (f) (1p) Åskådliggör observationerna i ett diagram och försök förklara resultaten i(d) och(e). (g) (2p) I tabellen nedan finns för varje observation två diagnostiska mått angivna som är framräknade från den fullständiga analysen med samtliga observationer i (a) ovan. Förklara hur de är definierade och analysera sedan siffrorna. Standardiserade Leveragemått i residualer,z i h i 1 0.5900 0.2563 2 0.28 0.1609 3 0.0625 0.1786 4 0.5642 0.1378 5 0.4911 0.0966 6 1.5326 0.23 7 1.3562 0.1254 8 2.2407 0.1565 9 0.1428 0.0954 2.2954 0.1528 11 3.2768 0.4087 3. I USA försökte man förklara variationen i brottslighet mellan de olika delstaterna med hjälp av en multipel linjär regressionsmodell. Ett antal olika brottsrelaterade och demografiska variabler avseende 47 delstater i USA under året 1960 inhämtades från FBI s Uniform Crime Report och från andra offentliga myndigheter varefter en regressionsanalys genomfördes. I bilagan hittar du en beskrivning av de olika variablerna samt en ofullständig ANOVA-tablå som erhölls vid körningen. Kommentar: När du redovisar dina svar ska i förekommande fall noll- och mothypotes samt testvariabel och dess fördelning anges. Använd genomgående signifikansnivån α=0.05. IbilaganfinnsävenenutökadtabellmedkritiskavärdenförF-fördelningen. (a) (2p)Beräknaochfyllidetiovärdensomsaknasiutskriften. Glöminteattkontrollera att dina svar är konsistenta, dvs att du inte har fått motsägelsefulla resultat. Glöm inte att inte redovisa beräkningarna. (b) (2p) Man vill testa om modellen som helhet fungerar. Vad kan du meddela för slutsats? (c) (2p) Man vill testa om Age tillför något till modellen, givet att Ex0, X och Ed redanärmedimodellen. Vadkandumeddelaförslutsats? (d) (2p) Man vill testa om Ed, Age och U2 tillsammans tillför något till modellen, givetattex0ochx redanärmedimodellen. Vadkandumeddelaförslutsats? (e) (2p)ManvilltestaomX tillförnågottillmodellen,givetattalla deandraredan ärmedimodellen. Vadkandumeddelaförslutsats? 3

(f) (2p) Vartefter de fem förklaringsvariabler kommer in i modellen ska ju förklaringsgradenr 2 öka. BeräknaR 2 förvarochenavdessafemmodellerna(dvsmodellen med endast Ex0 som prediktor, modellen med Ex0 och X som prediktorer, osv). (g) (2p) Det kausala sambandet mellan polismyndigheternas kostnader(ex0) och antalet anmälda brott (R) är inte helt klart här. Vad är det som påverkar vad? Resonera kortfattat(0-200 ord) kring orsakssambandet. 4. I bilagan återfinns utskrifter och diagram för tre olika modeller; Modell 1 är en enkel linjärmodellmedxsomprediktorochy somberoendevariabel;modell2ärenutökning avmodell1tillenkvadratiskmodell,dvsmedenx 2 -termtillagd;modell3ärocksåen kvadratisk modell men här har prediktorvariabel X först centrerats runt sitt medelvärde, dvsx c = ( X X ) ochx 2 c =( X X )2 ärförklaringsvariabler. Kommentar: Hela den här uppgiften ska besvaras på max ett A4-blad, dvs max två sidor. (a) (2p) Redogör för de modellantaganden som måste gälla för en linjär regressionsmodell. (b) (2p) Granska resultatutskrifterna och diagrammen och kommentera sedan varje modell utifrån antagandena. (c) (2p) Förklara kortfattat skillnaderna och likheterna mellan Modell 2 och 3. 5. Man vill predicera sannolikheten för högt blodtryck hos vuxna män med ledning av vikt och om personen röker eller inte. Definiera följande variabler: { 0 omlågtblodtryck Y = 1 om högt blodtryck X = personensviktikg { 0 ompersoneninteröker Z = 1 om personen röker En logistisk regressionsmodell har skattats och följande resultat erhölls: LogOdds(Y =1 X,Z) = 1.889 0.054X+1.181Z (a) (2p) Beräkna den skattade sannolikheten för högt blodtryck, dels för en person som väger80kgochrökerdelsförenpersonsomväger65kgochinteröker. (b) (2p) Beräkna det skattade oddset för högt blodtryck, dels för en person som väger 80kgochinterökerdelsförenpersonsomväger65kgochrökersamtgeentolkning av resultatet i ord. (c) (2p) Beräkna den skattade relativa förändringen i oddset för högt blodtryck om manökariviktmed20kgochbörjarröka. (d) (2p) Visa att den logistiska regressionsmodellen med en förklaringsvariabel har en lämplig värdemängd, dvs det som resulterar från modellen uppfyller de krav vi brukar ställa på sannolikheter. 4

Bilaga till uppgift 3 Variabel Förklaring (samtliga variabler gäller för 1960) R antal anmälda brott per 1 miljon invånare Age antal män i åldersgruppen 14-24 per 00 invånare Ed genomsnittligt antal år i utbildning, personer i åldersgruppen 25-uppåt Ex0 polismyndigheternas kostnader (anslag) per capita U2 antal arbetslösa män per 00 i åldersgruppen 35-39 X antal familjer per 00 med inkomst lägre än halva medianinkomsten Källa: http://lib.stat.cmu.edu/ Regression Analysis: R versus Ex0; X; Ed; Age; U2 The regression equation is R = - 524 + 1,23 Ex0 + 0,635 X + 2,03 Ed + 1,02 Age + 0,914 U2 Predictor Coef SE Coef T P VIF Constant -524,37 95,12-5,51 0,000 Ex0 1,2331 0,1416 8,71 0,000 1,8 X 0,6349 0,1468 4,32 0,000 3,5 Ed 2,0308 0,4742 4,28 0,000 2,9 Age 1,0198 0,3532 2,89 0,006 2,0 U2 0,9136 0,4341 2, 0,041 1,4 S =? R-Sq =? % R-Sq(adj) =? % Analysis of Variance Source DF SS MS F P Regression???? 0,000 Error??? Total 46 68809 Source DF Seq SS Ex0 1 32533 X 1 7398 Ed 1 5870 Age 1 2394 U2 1 20 Unusual Observations Obs Ex0 R Fit SE Fit St Resid 11 121 167,40 4,44 6,74 62,96 3,12R 19 128 75,00 118,39 6,22-43,39-2,13R 29 166 4,30 149,64 11,02-45,34-2,49R R denotes an observation with a large standardized residual.

Tabell. Kritiska gränser för F-fördelningen, α = 0.05 Frihetsgrader täljaren nämnaren 1 2 3 4 5 6 : : : : : : : 40 4.08475 3.23173 2.83875 2.60597 2.44947 2.33585 41 4.07855 3.22568 2.83275 2.59997 2.44343 2.32977 42 4.07265 3.21994 2.82705 2.59426 2.43769 2.32399 43 4.06705 3.21448 2.82163 2.58884 2.43224 2.31850 44 4.06171 3.20928 2.81647 2.58367 2.42704 2.31326 45 4.05661 3.20432 2.81154 2.57874 2.42209 2.30827 46 4.05175 3.19958 2.80684 2.57404 2.41736 2.30351 47 4.047 3.19506 2.80236 2.56954 2.41284 2.29896 : : : : : : : Framtagen mha Minitab ver14

Bilaga till Uppgift 4 Modell 1) Regression Analysis: Y versus X The regression equation is Y = 24,1 + 1,54 X Predictor Coef SE Coef T P Constant 24,8 4,452 5,41 0,000 X 1,5436 0,4409 3,50 0,001 S = 6,89002 R-Sq = 22,2% R-Sq(adj) = 20,4% Analysis of Variance Source DF SS MS F P Regression 1 581,91 581,91 12,26 0,001 Error 43 2041,31 47,47 Total 44 2623,22 Unusual Observations Obs X Y Fit SE Fit St Resid 14 4,7 11,59 31,36 2,48-19,77-3,08R 18 14,1 31,85 45,83 2,14-13,99-2,14R 28 5,1 16,24 32,03 2,31-15,79-2,43R 38 14,0 31,58 45,72 2,11-14,14-2,15R R denotes an observation with a large standardized residual. Lack of fit test Possible curvature in variable X (P-Value = 0,000 ) Possible lack of fit at outer X-values (P-Value = 0,000) Overall lack of fit test is significant at P = 0,000 Plots for Y 99 Normal Probability Plot of the s s Versus the Fitted Values Percent 90 50 0-1 -20-0 20-20 30 35 40 Fitted Value 45 16 Histogram of the s s Versus the Order of the Data Frequency 12 8 4 0-0 -18-12 -6 0 6-20 1 5 15 20 25 30 Observation Order 35 40 45

Modell 2) Regression Analysis: Y versus X; X2 The regression equation is Y = - 63,5 + 20,7 X - 0,983 X2 Predictor Coef SE Coef T P VIF Constant -63,500 2,389-26,58 0,000 X 20,6593 0,5007 41,26 0,000 45,9 X2-0,98279 0,02546-38,60 0,000 45,9 S = 1,15426 R-Sq = 97,9% R-Sq(adj) = 97,8% Analysis of Variance Source DF SS MS F P Regression 2 2567,3 1283,6 963,46 0,000 Error 42 56,0 1,3 Total 44 2623,2 Source DF Seq SS X 1 581,9 X2 1 1985,4 Unusual Observations Obs X Y Fit SE Fit St Resid 4,2 42,682 44,952 0,219-2,270-2,00R 14 4,7 11,587 11,857 0,654-0,270-0,28 X 19 13,4 39,814 36,769 0,379 3,045 2,79R 28 5,1 16,241 16,615 0,556-0,375-0,37 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. No evidence of lack of fit (P >= 0,1). Plots for Y Normal Probability Plot of the s 99 3,0 s Versus the Fitted Values Percent 90 50 1,5 0,0-1,5 1-3,0-1,5 0,0 1,5 3,0-3,0 20 30 Fitted Value 40 50 12 Histogram of the s 3,0 s Versus the Order of the Data Frequency 9 6 3 1,5 0,0-1,5 0-2,4-1,2 0,0 1,2 2,4-3,0 1 5 15 20 25 30 Observation Order 35 40 45

Modell 3) Regression Analysis: Y versus Xc; Xc2 The regression equation is Y = 44,6 + 1,35 Xc - 0,983 Xc2 Predictor Coef SE Coef T P VIF Constant 44,6085 0,2207 202,15 0,000 Xc 1,34645 0,07404 18,19 0,000 1,0 Xc2-0,98279 0,02546-38,60 0,000 1,0 S = 1,15426 R-Sq = 97,9% R-Sq(adj) = 97,8% Analysis of Variance Source DF SS MS F P Regression 2 2567,3 1283,6 963,46 0,000 Error 42 56,0 1,3 Total 44 2623,2 Source DF Seq SS Xc 1 581,9 Xc2 1 1985,4 Unusual Observations Obs Xc Y Fit SE Fit St Resid 4 0,34 42,682 44,952 0,219-2,270-2,00R 14-5,13 11,587 11,857 0,654-0,270-0,28 X 19 3,59 39,814 36,769 0,379 3,045 2,79R 28-4,70 16,241 16,615 0,556-0,375-0,37 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. No evidence of lack of fit (P >= 0,1). Percent Normal Probability Plot of the s 99 90 50 Plots for Y s Versus the Fitted Values 3,0 1,5 0,0-1,5 1-3,0-1,5 0,0 1,5 3,0-3,0 20 30 Fitted Value 40 50 12 Histogram of the s 3,0 s Versus the Order of the Data Frequency 9 6 3 1,5 0,0-1,5 0-2,4-1,2 0,0 1,2 2,4-3,0 1 5 15 20 25 30 Observation Order 35 40 45

Fitted Line Plot Y = 24,11 + 1,544 X 60 50 Regression 95% CI 95% PI S 6,89002 R-Sq 22,2% R-Sq(adj) 20,4% 40 Y 30 20 5 6 7 8 9 X 11 12 13 14 50 40 Fitted Line Plot Y = - 63,50 + 20,66 X - 0,9828 X**2 Regression 95% CI 95% PI S 1,15426 R-Sq 97,9% R-Sq(adj) 97,8% Y 30 20 5 6 7 8 9 X 11 12 13 14 50 40 Fitted Line Plot Y = 44,61 + 1,346 Xc - 0,9828 Xc**2 Regression 95% CI 95% PI S 1,15426 R-Sq 97,9% R-Sq(adj) 97,8% Y 30 20-5,0-2,5 0,0 Xc 2,5 5,0

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson Lösningförslag skriftlig hemtentamen i Fortsättningskurs i statistik, moment 1, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys, 5 poäng Torsdagen den 30 september 2004. 1. Se kurslitteraturen. 2. Enkel linjär regression: (a) Sammanfattning av resultaten: Regression Analysis: Y versus X The regression equation is Y = 214 + 0,324 X Predictor Coef SE Coef T P Constant 213,72 79,42 2,69 0,025 X 0,3244 0,4332 0,75 0,473 S = 40,9968 R-Sq = 5,9% R-Sq(adj) = 0,0% Analysis of Variance Source DF SS MS F P Regression 1 942 942 0,56 0,473 Error 9 15127 1681 Total 16069 Följande beräkningar behövs: dvs i X Y X 2 Y 2 XY 1 201 324 40401 4976 65124...... 11 227 201 51529 40401 45627 Σ 1992 2997 369688 832615 545634 xi = 1992 x 2 i =369688 xi y i =545634 yi = 2997 y 2 i =832615

samt och SST = (y i ȳ) 2 = y 2 i ( y i ) 2 n =832615 29972 11 16068.7 x = 1992/11 181.091 x 2 s 2 x = i 1( x n i ) 2 = 369688 1 11 (1992)2 895.491 29.9248 2 n 1 11 1 MK-skattningar av regressionsparametrar: ˆβ 1 = n x i y i ( y i )( x i ) n x 2 i ( x i ) 2 ˆβ 0 = ȳ ˆβ 1 x= yi n ˆβ 1 Givet parameterskattningar får man: och = 11 545634 1992 2997 11 369688 1992 2 0.32435 xi n = 2997 11 0.32435 1992 11 213.72 i Ŷ =ˆβ 0 +ˆβ 1 X e=y Ŷ e 2 1 278.912 45.0879 2 032.92 2 275.020 30.9801 959.77 3 275.020 34.9801 1 223.61 4 267.560 22.5598 508.94 5 270.155 11.8454 140.31 6 260.748 35.7484 1 277.95 7 265.938 30.0620 903.72 8 257.505 17.5049 306.42 9 271.128 7.1276 50.80 287.670 16.3304 266.68 11 287.345 86.3453 7 455.50 Σ - 0 15126.6 SSE = (y i ŷ) 2 = e 2 i 15126.6 SSR = SST SSE=16068.7 15126.6=942.1 s 2 e=s 2 Y X= SSE n 2 = 15126.6 9 1680.7 40.9967 2 Standardfelen för parameterskattningarna: 1 = s sˆβ0 e n + x 2 1 =40.9967 (n 1)s 2 x 11 + (1992/11)2 895.491 79.4218 s e 40.9967 = = sˆβ1 s x n 1 29.9248 0.43323 2

(b) Hypotesprövning: H 0 :β 1 =0 mot H 1 :β 1 0 Testvariabel T = ˆβ 1 sˆβ1 t(9) underh 0 alternativt FörkastaH 0 om F = MSR MSE F(1,9) underh 0 T obs >t (9) 0.025 = 2.262 alternativt Man observerar resp F obs >F (1,9) 0.05 =5.12 T obs = 0.32435 0.43323 0.74868<2.262 F obs = 942 1681 0.56<5.12 VikaninteförkastaH 0 på5%-signifikansnivå,detverkarintefinnasettregressionssambandmellanx ochy. (c) Vi har från kurslitteraturen att samt vilket ger ˆβ 1 Sˆβ1 S y = ˆβ 1 = S y S x r och Sˆβ1 = SST n 1 S e S x n 1 och S y x =S e = = S yrs x n 1 = S y r n 1 = S x S e S e SST r n 1 n 2 = = SSE n 1 = r n 2 SSE SST = r n 2 1 SSR SST SSE n 2 SST n 2 n 1 SSE r n 1 SST SSE r n 2 = r n 2 1 R 2 = r n 2 1 r 2 vilket skulle visas. 3

(d) Korrelationskoefficienten r mellan X och Y : alternativt r = = n x i y i ( x i )( y i ) n x 2i ( x i ) 2 n y 2 i ( y i ) 2 11 545634 1992 2997 11 369688 1992 2 11 832615 2997 2 0.24213 S x S x 29.9248 r=ˆβ 1 =ˆβ S 1 =0.32435 0.24213 y SST/(n 1) 16068.7/ och ett 95% konfidensintervall för ρ: L z = 1 ( ) 1+r 2 ln z 1 α/2 = 1 ( ) 1+0.24213 1 r n 3 2 ln 1 0.24213 = 0.24704 0.69296= 0.44592 och analogt vilket ger U z =0.24704+0.69296=0.94000 1.96 8 dvs L ρ = e2l Z 1 e 2L Z +1 = e2 ( 0.44592) 1 e 2 ( 0.44592) +1 = 0.41854 U ρ = e2u Z 1 e 2U Z +1 = e2 0.94000 1 e 2 0.94000 +1 =0.73522 ( 0.41854; 0.73522) Observera att intervallet för ρ täcker 0 (noll) och att hypotesen H 0 : ρ = 0 inte skulle förkastas; detta test är helt ekvivalent med testen i(b) vilket visades i(c). (e) Korrelationskoefficienten r mellan X och Y utan observation nummer 11; vi behöver justera summorna i(a) enligt i=1 i=1 i=1 vilket ger x i = 1992 227=1765 y i = 2997 201=2796 i=1 i=1 x i y i = 545634 45627=500007 r = = n x i y i ( x i )( y i ) n x 2i ( x i ) 2 n y 2 i ( y i ) 2 x 2 i =369688 51529=318159 y 2 i =832615 40401=792214 500007 1765 2796 318159 1765 2 792214 2796 2 0.78199 4

och ett 95% konfidensintervall för ρ: L z = 1 ( ) 1+r 2 ln z 1 α/2 = 1 ( ) 1+0.78199 1 r n 3 2 ln 1 0.78199 = 1.05047 0.74081=0.30966 och analogt vilket ger U z =1.05047+0.74081=1.79128 1.96 7 dvs L ρ = e2l Z 1 e 2L Z +1 = e2 0.30966 1 e 2 0.30966 +1 0.30013 U ρ = e2u Z 1 e 2U Z +1 = e2 1.79128 1 e 2 1.79128 +1 0.94590 (0.30013; 0.94590) Observera att intervallet för ρ inte täcker 0(noll), dvs om man testade motsvarande hypotesh 0 :ρ=0skulledennaförkastas. Eftersomdettatestärheltekvivalent medtesteni(b)vilketvisadesi(c)skullevimaoförkastahypotesenh 0 :β 1 =0. (f) Ett diagram 340 320 Regr.linje utan obs.nr 11 300 280 Y 260 Regr.linje med obs.nr 11 240 220 Observation nr 11 200 140 160 180 X 200 220 240 Som man ser kommer obs.nr 11 få ett stort inflytande på skattningen av modellen; den kommer att dra ner linjen så att lutningen blir mindre samtidigt som den kommer att generera en stor residual vilket får betydelse för analysen(mse blir större). (Regressionslinjerna krävs inte för full poäng) (g) Standardiseraderesidualer,z i definieras z i = e i S e = y i ŷ i S e Som en enkel tumregel kan man(som Minitab) undersöka observationer med standardiserade residualer som är absolut större än ca 2(vilket motsvarar ungefär 5% 5

sannolikhet). I materialet finns tre sådana: observationer 8, och 11, speciellt nr 11harenväldigtstorresidual. Leveragemåttet,h i,definieras h i = 1 n + (x i x) 2 (n 1)s 2 x Omh i liggernäraettinnebärdettaattdeni:teobservationenhartvingatinmodellennästangenompunkten(x i,y i ).Enligttumregelnskamanseuppförobservationer där h i > 2(k+1) n ochviserattobservationnr. 11har = 2(1+1) 11 h 11 =0.4087>0.36364 0.36364 ochdärmedserutatthahaftettstortinflytandepåmodellen. 3. Multipel linjär regression: (a) Uppgifter som saknas: S = 21,3016 R-Sq = 72.96% R-Sq(adj) = 69,97% Analysis of Variance Source DF SS MS F P Regression 5 50205 041,0 22,13 0,000 Error 41 18604 453,756 Total 46 68809 i. frånseqssdelenavutskrifitenfårman SSR = SSR(Ex0)+SSR(X Ex0)+SSR(Ed Ex0,X) +SSR(Age Ex0,X,Ed)+SSR(U2 Ex0,X,Ed,Age) = 32533+7398+5870+2394+20=50205 ii. SSE=SST SSR=68809 50205=18604 iii. Fem prediktorer 5 frihetsgrader för SSR iv. n k 1=41frihetsgraderförSSE v. MSR= SSR = 50205 041.0 k 5 vi. MSE= SSE n k 1 = 18604 453.756 41 vii. F obs = 50205/5 18604/41 22.129 viii. R 2 =0 SSR SSE =0 (1 SST SST) 72.96% =0 ( ) ix. Radj 2 1 SSE/(n k 1) 69.67% SST/(n 1) x. S= 18604 MSE= 21.3016 41 6

(b) Overall F-test: Testvariabel är FörkastaH 0 om Man observerar F = MSR MSE = H 0 : β 1 =β 2 =β 3 =β 4 =β 5 =0 H 1 : minstenavβ j 0, j=1,...,5 SSR/k SSE/(n k 1) F(5,41) underh 0 F obs >F (5,41) 0.05 = 2.44343 F obs =22.129>2.44343 Nollhypotesenförkastas,minstenavβ j,j=1,...,5,ärsignifikantskiljtfrånnoll, regressionsmodellen som helhet håller. (c) Partiellt F-test: Testvariabel är H 0 : β 4 =0 Ex0, X ochedärmedimodellen H 1 : β 4 0 Ex0, X ochedärmedimodellen F = MSR(Age Ex0,X,Ed) MSE(Ex0,X,Ed,Age) SSR(Age Ex0,X,Ed) = (SSE(Ex0,X,Ed,Age,U2)+SSR(U2 Ex0,X,Ed,Age)) / (n 5) F(1,42) underh 0 FörkastaH 0 om Man observerar F obs = F obs >F (1,42) 0.05 = 4.07265 2394 (18604+20) /42 =4.87766>4.07265 Nollhypotesen förkastas, givet att Ex0, X och Ed är med i modellen så är β 4 signifikant skiljt från noll, tillskottet från Age är signifikant. (d) Multipelt partiellt F-test: H 0 : β 3 =β 4 =β 5 =0 Ex0ochX ärmedimodellen H 1 : minstenavβ j 0, j=3,4,5 Ex0ochX ärmedimodellen Testvariabel är F = MSR(Ed,Age,U2 Ex0,X) MSE(Ex0,X,Ed,Age,U2) (SSR(Ed Ex0,X)+(Age Ex0,X,Ed)+SSR(U2 Ex0,X,Ed,Age)) /3 = SSE(Ex0,X,Ed,Age,U2) / (n 6) F(3,41) underh 0 7

FörkastaH 0 om F obs >F (3,41) 0.05 = 2.83275 Man observerar F obs = (5870+2394+20) /3 18604/41 = 7.54737 > 2.83275 Nollhypotesenförkastas,givetattEx0ochXsåärminstenavβ 3,β 4,β 5 0,dvs det sammantagna tillskottet från Ed, Age och U2 är signifikant (e) Enkelt t-test: Testvariabel är H 0 : β 2 =0 Ex0, Ed, AgeochU2ärmedimodellen H 1 : β 2 0 Ex0, Ed, AgeochU2ärmedimodellen T = ˆβ 2 Sˆβ2 t(41) underh 0 FörkastaH 0 om Man observerar T obs >t (46) 0.975 = F (1,46) 0.95 = 4.08475=2.0211 T obs = 0.6349 0.1468 =4.3249>2.0211 Nollhypotesen förkastas, β 2 är signifikant skiljt från noll givet att alla de övriga prediktorerna är med i modellen. (f) Förklaringsgraden R 2 för var och en av de fem modellerna. R 2 definieras som kvotenssr/sst.(nedanärr 2 indexeradfrån1till5ochavseralltsådefem modellerna.) i. ii. iii. R 2 1 = SSR(Ex0) SST R 2 2= SSR(Ex0)+SSR(X Ex0) SST = 32533 68809 =0.47280 =R 2 1+ 7398 68809 =0.58032 R 2 3 = SSR(Ex0)+SSR(X Ex0)+SSR(Ed Ex0,X) SST = R 2 2 + 5870 68809 =0.66563 8

iv. v. R4 2 = SSR(Ex0,...,U2) SSR(U2 Ex0,X,Ed,Age) SST = 50205 20 =0.70042 68809 R 2 5 = SSR(Ex0,...,U2) SST = 50205 68809 =0.72963 (g) Det kausala sambandet mellan polismyndigheternas kostnader (Ex0) och antalet anmäldabrott(r)ärinteheltklarthär. Ärenhögbrottslighetorsakadavstörre anslag till polisen? Eller ökar anslagen till polismyndigheten när brottsligheten stiger? Nu var den beroende variablen definierad som antalet anmälda brott. Kan det finnas ett kausalt samband mellan allmänhetens benägenhet att faktiskt anmäla brott och polisens möjligheter att utreda det? 4. Jämförelser av modeller med och utan kvadratisk term: (a) Se kurslitteraturen. (b) Modell1somärenrenlinjärmodellserinteutattpassaallsbratilldatamaterialet. DettaframgårblaavettlågtR 2 (22.2%)ochävenavtestenislutetpåutskriften (Lack-of-fit-testen). Det finns starka tecken i residualerna på ett kvadratiskt samband mellan X och Y. Detta medför att residualerna inte heller ser ut att vara normalfördelade(probability-plotten och histogrammet). Det finns även svaga men inte oroande tecken på heteroskedasticitet, dvs ej lika varians. Modell 2 och 3 som bägge innehåller en kvadratisk term passar däremot mycket bratilldatamaterialet(r 2 =97.9%). ernaärhyfsatnormalfördelade,men de uppvisar däremot tydliga tecken på heteroskedasticitet med en ökande varians i Y förökandevärdenpåx. Det är omöjligt att utala sig om eventuella beroenden utan mer information om vad detärsommäts, hurdataharsamlatsinetc.. Detfinnsintehellernågratecken på att det sätt som observationerna är ordnade skulle tyda på några beroenden. (c) Modellerna2och3innehållerbådaenkvadratisktermmenimodell3harprediktorn först centrerats innan man har utökat med den kvadratiska termen. Detta medför att samtliga resultat i utskrifterna, så när som parameterskattningarna och variansinflationsfaktorerna (VIF), är identiska. Centreringen innebär helt enkelt attmanflyttary-axelntillsammanivåsom x,mengenomattgöradettaharman påintetsättpåverkatdetfunktionellasambandetmellanx ochy;styrkanisambandet är intakt. Det är relativt enkelt att visa hur parameterskattningarna för den ena kan användas för att härleda skattningarna för den andra, dvs ˆβ 0 =ˆγ 0 ˆγ 1 x+ˆγ 2 x 2 ˆβ 1 =ˆγ 1 2ˆγ 2 x ˆβ 2 =ˆγ 2 och ˆγ 0 =ˆβ 0 +ˆβ 1 x+ˆβ 2 x 2 ˆγ 1 =ˆβ 1 +2ˆβ 2 x ˆγ 2 =ˆβ 2 Notera att koefficienten för den kvadratiska termen är densamma i båda modellerna vilket kan bekräftas i utskrifterna. Genom att centrera först har dessutom VIF arna 9

kraftigtreduceratsvilketocksåärattvänta. MankanfrånVIFimodell2härleda korrelationenmellanx ochx 2 till r x,x 2=0989 vilket innebär multikollinearitet. Från modell 3 härleds istället korrelationen mellan X c = ( X X ) ochx 2 c =( X X )2 till r xc,x 2 c =0 Observera vidare att residualplottarna för modellerna 2 och 3 är identiska vilket de också ska vara. erna definieras ju som e i =y i ŷ i =y i ˆβ 0 ˆβ 1 x ˆβ 2 x 2 =y i ˆγ 0 ˆγ 1 (x x) ˆγ 2 (x x) 2 Skillnaden framgår i diagrammen Fitted Line Plot på sista sidan i respektive skalor på x-axlarna. 5. Logistisk regressionsmodell: (a) Respektive sannolikheter för högt blodtryck skattas till exp(1.889 0.054 80+1.181 1) P(Y =1 X=80,Z=1) = 1+exp(1.889 0.054 80+1.181 1) exp( 1.25) = 1+exp( 1.25) =0.286505 1.286505 = 0.22270 exp(1.889 0.054 65+1.181 0) P(Y =1 X=65,Z=0) = 1+exp(1.889 0.054 65+1.181 0) exp( 1.621) = 1+exp( 1.621) = 0.197701 1.197701 = 0.16507 (b) Oddset för högt blodtryck, för respektive person, skattas till P(Y =1 X=80,Z=0) Odds(Y =1 X=80,Z=0) = P(Y =0 X=80,Z=0) = exp(1.889 0.054 80+1.181 0) = exp( 2.431)=0.08795 P(Y =1 X=65,Z=1) Odds(Y =1 X=65,Z=1) = P(Y =0 X=65,Z=1) = exp(1.889 0.054 65+1.181 1) = exp( 0.44)=0.64404 Det är 0.088 respektive 0.644 ggr vanligare att drabbas av högt blodtryck än att inte drabbas för respektive person.

(c) Denrelativaförändringenioddsetförhögtblodtryckommanökariviktmed20 kg och börjar röka skattas till Odds(Y =1 X=x+20,Z=1) OR = Odds(Y =1 X=x,Z=0) = exp(1.889 0.054 (x+20)+1.181 1) exp(1.889 0.054 x+1.181 0) = exp(1.99.054x) exp(1.889.054x) =exp(0.1)=1.628 (d) För exponentialfunktionen gäller att och Därmed gäller att och Ommanharatt lim w exp(w)>0 w R lim exp(w)=0 och lim exp(w)= w w exp(w) 1+exp(w) 0< exp(w) 1+exp(w) <1 exp(w) =0 och lim w 1+exp(w) =1 w=β 0 +β 1 x 1 +...+β k x k ochkoefficienternaβ 0,...β k allaärändliga(absolutmindreän )insermanatt Pr(Y =1 X 1 =x 1,...X k =x k )= exp(w) 1+exp(w) kommer att gå mellan 0 och 1 för olika val av prediktorvärden. Modellen uppfyller således kraven för sannolikhetsfunktioner. 11