Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Relevanta dokument
Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Datorövning 1 Enkel linjär regressionsanalys

TVM-Matematik Adam Jonsson

Datorövning 5 Exponentiella modeller och elasticitetssamband

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F4

Laboration 2 multipel linjär regression

Datorövning 2 Multipel regressionsanalys, del 1

Skrivning i ekonometri torsdagen den 8 februari 2007

Metod och teori. Statistik för naturvetare Umeå universitet

LABORATION 3 - Regressionsanalys

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Regressions- och Tidsserieanalys - F7

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F3

LABORATION 3 - Regressionsanalys

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematisk statistik, Föreläsning 5

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

TAMS 28 DATORÖVNING 2

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Skrivning i ekonometri lördagen den 25 augusti 2007

Föreläsning G60 Statistiska metoder

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Skrivning i ekonometri lördagen den 15 januari 2005

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

InStat Exempel 4 Korrelation och Regression

tentaplugg.nu av studenter för studenter

Föreläsning 4. Kap 5,1-5,3

Obligatorisk uppgift, del 1

F7 Polynomregression och Dummyvariabler

Höftledsdysplasi hos dansk-svensk gårdshund

1 Förberedelseuppgifter

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Skrivning i ekonometri lördagen den 29 mars 2008

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Sänkningen av parasitnivåerna i blodet

Regressions- och Tidsserieanalys - F3

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Laboration 4 R-versionen

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

DATORÖVNING 2: STATISTISK INFERENS.

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

TENTAMEN I MATEMATISK STATISTIK

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

tentaplugg.nu av studenter för studenter

Regressionsanalys av lägenhetspriser i Spånga

Laboration 2: Styrkefunktion samt Regression

MVE051/MSG Föreläsning 14

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Statistik 1 för biologer, logopeder och psykologer

Richard Öhrvall, 1

Grundläggande matematisk statistik

Laboration med Minitab

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Datorövning 1 Statistik med Excel (Office 2010, svenska)

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

TAMS65 DATORÖVNING 2

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

oberoende av varandra så observationerna är

Multipel Regressionsmodellen

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Laboration 4: Lineär regression

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 12: Regression

Transkript:

STOCKHOLMS UNIVERSITET HT 2005 Statistiska institutionen 2005-10-14 MC Instruktioner till Inlämningsuppgift 1 och Datorövning 1 Kurs i Ekonometri, 5 poäng. Uppgiften ingår i examinationen för kursen och består av fem delar enligt instruktionerna nedan. Dessa skall lösas och redovisas skriftligt helst skrivna i ett ordbehandlingsprogram som Word. Ni skall arbeta två och två, i nödfall kan ni arbeta i grupper om tre men kolla med läraren först. Ni skall lämna in en kopia av redovisningen per grupp men kom ihåg att ta personliga kopior av ert arbete. Kom också ihåg att alla skall bidra! Får ni problem, kontakta läraren. Syftet med grupparbetet är att det ska underlätta ert lärande genom att ni får en diskussionspartner. Instruktionerna nedan avser statistikprogrammet Minitab version 14 men om ni vill använda något annat programpaket är detta naturligtvis tillåtet. Era skriftliga redovisningar inlämnas till momentansvarig lärare senast 28 oktober 2005 eller enligt överenskommelse. Resultatet av ert arbete kommer att meddelas i samband med tentamensåterlämningen. En del av frågorna nedan har vi ännu inte gått igenom på föreläsningarna. Försök ändå att resonera kring vad det är som avses. Var inte oroliga om ni inte förstår direkt, vi kommer att gå igenom allt på föreläsningar och övningarna. Om ni inte hinner genomföra hela arbetet under de schemalagda datorövningarna har ni möjlighet att på egen hand fortsätta vid något senare tillfälle. OBS! Det är inte meningen att ni ska redovisa ett stort uppsatsarbete, besvara bara frågorna så kortfattat som möjligt. Om ni har problem med formler i ordbehandlingsprogrammet kan ni alltid lämna lite utrymme mellan raderna för handskrivna kompletteringar. Återigen, kortfattade, läsliga och prydliga redovisningar efterlyses! OBS! Om ni fastnar på något eller inte förstår hur ni skall lösa en uppgift, fråga! Syftet med uppgiften är att ni skall lära er något om grundläggande regressionsanalys! SISTA INLÄMNINGSDATUM: tisdag 28 oktober 2005 1

- Inledning Starta Minitab14 och öppna projektfilen Data3.mpj via menyalternativet File>Open Project. Filen ligger under M:\FK\TEORI\. Spara sedan projektet som en egen fil under ett nytt och eget valt filnamn på valfri plats på H: alternativt på en egen diskett. Filen är det ni behöver för hela inlämningsuppgiften. Filen innehåller två datamaterial el. worksheets; - Anscombe omfattande 11 observationer i sex variabler och skall användas för Del 1 nedan. Kolumnerna är namngivna X, Y1, Y2, Y3, X4, och Y4. - Regression omfattande 50 simulerade observationer i sex variabler. Materialet skall användas för Del 2-7. Kolumnerna är namngivna, X1 X4 samt Y och Y2 Ni kan växla mellan worksheeten genom att helt enkelt klicka på valfri plats inom det fönster ni vill aktivera. Starta sedan Word (eller något annat ordbehandlingsprogram). Under M:\FK\TEORI\ finner ni dokumentfilen RedovisnOvn1Eko.doc som ni kan öppna och sedan spara under ett nytt namn på valfri plats på H: alternativt på en egen diskett eller USB-minne. Detta nya dokument kan ni använda som mall och fylla på med era svar och lösningar. Om ni vill kan ni sedan skicka era redovisningar via e-post till ansvarig lärare. - Del 1: Vikten av att titta på data Aktivera Anscombe materialet. Genomför sedan fyra regressionsanalyser enligt följande: kolumn C1, X, som ensam prediktorvariabel och, i tur och ordning, kolumner C2-C4, Y1-Y3, som responsvariabel. Sedan kolumn C5, X4, som ensam prediktorvariabel med kolumn C6, Y4, som responsvariabel. Regressionsanalyserna gör ni via menyalternativet Stat>Regression>Regression. Dialogfönstret ska se ut ungefär som nedan: För var och en av skattningarna ska ni få en utskrift med resultat. (a) Fyll i tabellen i ert redovisningsdokumentet med de uppgifter som efterfrågas där; enklast görs detta givetvis genom att kopiera och klistra. 2

(b) Med ledning enbart av Minitabutskrifterna och tabellen, vilken eller vilka av modellerna skulle ni välja som bästa modell? Är det några större skillnader? (c) Jämför också Minitabutskrifterna från respektive analys/modell, med avseende på Unusual Observations. Är det några skillnader och vad kan de i så fall bero på? (d) Plotta nu respektive par av variabler; detta gör ni enklast med Minitabkommandot plot c2*c1 plot c3*c1 osv Kopiera in plottarna in i ert dokument. Hur ser sambandet mellan beroende och oberoende variabel ut i respektive fall.. Vad drar ni för slutsatser? Försök förklara i ord vad som karaktäriserar de olika situationerna. Är en linjär modell lämplig att använda i de olika fallen? Om inte, varför? OBS! När ni kopierar in ett diagram till er Wordfil kan ni anpassa det storleksmässigt genom att högerklicka på det och välja Formatera bild. Ändra sedan storlek under fliken storlek; runt 50-75% av originlstorleken brukar bli bra, beroende på vad det är för bild. Datamaterialet är hämtat från Anscombe, Graphs in Statistical Analysis, American Statistician, (1973). - Del 2: Enkel linjär regression Härefter skall endast datamaterialet Regression användas. Aktivera detta material genom att klicka var som helst i det fönstret. (a) Bestäm vilken av variablerna X1 X4 som har det starkaste linjära sambandet med variabeln Y. Plotta sedan Y mot den valda variabeln. Ser sambandet linjärt ut? Kopiera resultatutskriften och diagrammet och klistra in i ert redovisningsdokument. Kommandon: corr c5 c1-c4 plot c5*c? (Obs! Byt ut? mot vad det nu är ni väljer) (b) Gör en regressionsanalys med Y som responsvariabel och den i (a) valda variabeln som prediktor via menyalternativet Stat>Regression>Regression. Klicka också Graphs-knappen och välj alternativen enligt bilden nedan. Skriv även in den i (a) valda variabeln vid Residuals versus the variables. Tryck OK, OK och kopiera sedan in resultatutskriften och diagrammet in i ert dokumentet. 3

(c) Tolka regressionskoefficienterna i ord! Är tolkningen av interceptet rimligt? Finns det några ovanliga observationer rapporterade? På vilket sätt är de ovanliga? Diskutera sinsemellan vad som kan menas med large standardized residual respektive large influence. Jämför förklaringsgraden R 2 med motsvarande korrelationskoefficient i (a). (d) Testa på 5% signifikansnivå nollhypotesen H 0 : β 1 = 0, dvs att regressionskoefficienten skiljer sig från noll. Detta gör ni för hand genom att läsa av relevanta delar av utskriften. Testresultatet kan ni enkelt avgöra genom en titt på utskriften och efter att ha tagit fram en lämplig t- fördelningskvantil. Kommando: invcdf 0,975; t 48. (e) Bilda ett 95% konfidensintervall för regressionskoefficienten β 1 samt tolka resultatet i ord. Även detta gör ni för hand genom att titta på utskriften. Vad är kopplingen till förra deluppgiften? (f) Studera nu de fyra diagrammen som genererades vid regressionsanalysen. Resonera kortfattat kring hur dessa kan vara till hjälp när ni skall försöka verifiera att de grundläggande antagandena som ligger till grund för regressionsmodellen är uppfyllda eller inte. Den del av diagrammet som heter Normal Probability Plot of the Residuals används för att bedöma om residualerna är normalfördelade eller inte; om de är det skall punkterna ligga ungefär utefter linjen i diagonalen. (g) Som avslutning på första delen kan ni, via menyalternativet Stat>Regression>Fitted Line Plot, även skapa ett diagram för att visa hur den skattade regressionslinjen ligger i datamaterialet. Klicka på Options-knappen och kryssa för alternativen för konfidens- respektive prediktionsband. Är resultatet det ni förväntar er? Försök att för er själva identifiera de observationer som rapporterades som ovanliga i resultatutskriften i (b) ovan. - Del 3: Multipel linjär regression med två prediktorer (a) Ni ska nu utöka modellen genom att ta med ytterligare en prediktor. Välj någon av de övriga variablerna och genomför en ny regressionsanalys nu med två prediktorer. Se till att ni väljer att plotta residualerna mot bägge förklaringsvariabler som ni har valt via Graphs-knappen, se figuren nedan. Notera att i figuren nedan är X4 och X3 angivna som ett exempel, ni ska ange de ni har valt. Kopiera sedan resultatutskriften och diagrammet och klistra in i ert dokument. 4

(b) Hur stor är ökningen i förklaringsgrad R 2 jämfört med den enkla regressionsmodellen i 1b)? Hur jämför sig ökningen i R 2 med de ursprungliga korrelationskoefficienterna som ni observerade i uppgift 1a)? (c) Studera nu diagrammen som genererades vid regressionsanalysen. Kan ni verifiera om modellantagandena är uppfyllda eller inte? (d) Testa på 5% signifikansnivå om båda regressionskoefficienterna (ej interceptet) är lika med noll mot att någon är skild från noll. Testresultatet kan ni enkelt avgöra genom en titt på utskriften och efter att ha tagit fram en lämplig F-fördelningskvantil. Kommando: invcdf 0,95; F 1 47. (e) Beräkna det förväntade värdet på Y givet att X1 = 4, X2 = 25, X3 = 25 och X4 = 400. Välj alltså ut de två värden som motsvarar de två prediktorer som ni har valt. Beräkna även ett 95% konfidensoch ett prediktionsintervall och tolka intervallen i ord. Ledning: Det finns ett enkelt sätt att beräkna det predicerade värdet och intervallen via Stat>Regression>Regression och Options-knappen, se figuren nedan. (f) Undersök nu vilka observerade värden på prediktorena som finns i datamaterialet. Vad drar ni för slutsatser? Kommando: desc c? c? (Obs! Byt ut? mot vad det nu är ni har valt) 5

- Del 4: Multipel linjär regression med tre prediktorer (a) Utöka nu modellen genom att stoppa in ytterligare en variabel och genomför en ny regressionsanalys. Den här gången ska ni dessutom ta fram variansinflationsfaktorer (VIF). Dessa får ni via Options-knappen och genom att markera boxen för dessa. Klistra in resultatutskriften in i Worddokumentet. (b) Verifiera att T-kvoten för den nya prediktorn överensstämmer med motsvarande F-kvot som kan anges i ANOVA-tablån och SS Seq kolumnen i utskriften. Vilka värden ska användas för att beräkna F-kvoten? Vad är noll- respektive mothypotes? Vad är slutsatsen? (c) Studera utskriften. Skulle ni vilja modifiera modellen på något sätt? Är det någon prediktor som ni skulle vilja testa att ta bort eller lägga till? Är det problem med multikollinearitet? - Del 5: Stegvis regression Ni har nu modellerat datamaterialet manuellt genom att titta på korrelationskoefficienter och lagt till nya prediktorer en i taget. Detta kan till viss del automatiseras med hjälp av Mintabs procedur för stegvis regression (eng. stepwise regression). Vad proceduren gör är att leta upp den prediktor som ger störst förklaringsgrad R 2 jämfört med en tom modell. Sedan denna är vald letar programmet upp den prediktor bland de övriga som ger störst ökning i förklaringsgrad R 2, givet att den först valda redan är med. Därefter den tredje givet de två första och så vidare. Kriteriet för att få vara med i modellen är att motsvarande partiella F-test ger ett signifikant resultat enligt sist-in-strategin. (a) Proceduren utförs via Stat>Regression>Stepwise. I dialogfönstret (se nästa sida) anges responsvariabel (Y) och samtliga prediktorkandidater (X1-X4). Här spelar inte ordningen någon roll eftersom Minitab i varje steg letar upp den som ger det bästa resultatet. När ni har startat proceduren får ni först ett delresultat utskrivet i sessionsfönstret. Svara med ett y vid prompten SUBC> för att fortsätta analysen. När det inte verkar hända så mycket mer, svara med ett n för stoppa exekveringen. Kopiera sedan resultatet i sessionfönstret till ert dokument. (b) Varje kolumn i utskriften motsvarar ett steg i proceduren (Step 1, 2 osv). Varj rad anger vilken variabel som antingen togs med eller slängdes bort. Vad har ni fått för slutlig modell? Var det väntat med tanke på era slutsatser i Del 1-3? 6