LABORATION 3 - Regressionsanalys

Relevanta dokument
LABORATION 3 - Regressionsanalys

TVM-Matematik Adam Jonsson

tentaplugg.nu av studenter för studenter

tentaplugg.nu av studenter för studenter

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Matematisk statistik, Föreläsning 5

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F1

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Regressions- och Tidsserieanalys - F4

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Laboration 4 R-versionen

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 1 Enkel linjär regressionsanalys

Statistik B Regressions- och tidsserieanalys Föreläsning 1

10.1 Enkel linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F1

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Multipel Regressionsmodellen

Regressionsanalys av lägenhetspriser i Spånga

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 4 Regressionsanalys

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen i Matematisk statistik Kurskod S0001M

Studiehandledning S0001M Matematisk statistik Läsperiod 2, HT 2017

Tentamen i Matematisk statistik Kurskod S0001M

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Studiehandledning S0001M Matematisk statistik Läsperiod 4, VT 2017

Datorövning 5 Exponentiella modeller och elasticitetssamband

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F3

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Statistik 1 för biologer, logopeder och psykologer

Föreläsning G60 Statistiska metoder

Obligatorisk uppgift, del 1

Laboration 2: Styrkefunktion samt Regression

Laboration 2 multipel linjär regression

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Att göra före det schemalagda labpasset.

Tentamen i Matematisk statistik Kurskod S0001M

Studiehandledning S0001M Matematisk statistik Läsperiod 2, Ht 2013

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Metod och teori. Statistik för naturvetare Umeå universitet

Kompletterande kursmaterial till kursen Matematisk statistik.

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Laboration 4: Hypotesprövning och styrkefunktion

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen i Matematisk statistik Kurskod S0001M

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

TAMS 28 DATORÖVNING 2

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 4: Lineär regression

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Laboration 2 Inferens S0005M VT18

Tentamen i Matematisk statistik Kurskod S0001M

F13 Regression och problemlösning

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressions- och Tidsserieanalys - F3

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Transkript:

Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet MINITAB. Förutom att ge träning i att lösa problem inom regressionsanalysen syftar laborationen till att ge träning i att tillämpa standardprogramvara i statistik. Litteratur: Vännman, Kompendium i regressionsanalys. Handledning för MINITAB. Lämna in fullständiga och läsliga lösningar på uppgifterna. Tolkningar och slutsatser ska tydligt motiveras. MINITAB-utskrifterna kan lämnas in som bilagor eller inklippta i texten om ni skriver i Word. Varje uppgift ska innehålla fullständiga modellantaganden. Ett tips är att på varje uppgift först skriva ner modellantagandet. Det blir då ofta enklare att tolka de kvantiteter som efterfrågas. Laborationsredogörelsen av Lab 3 granskas av en annan laborationsgrupp vid KGB-3. Laborationsredogörelsen för hela laborationen (del 1 och del 2) lämnas in via Canvas senast senast den 24 oktober. Tänk på att vid redovisningen göra en snygg, överskådlig och läslig redogörelse. definiera alla införda beteckningar i uppgifterna. ange fullständiga modellantaganden för varje regressionsanalys.

En översikt av Laboration 3 Det problem som Lab 3 behandlar kan beskrivas på följande sätt: En person som vi kan kalla Anna har efter en tids letande hittat en lägenhet i en stad. Lägenheten är en 2:a med balkong på 48 kvm på 3 tr och månadsavgiften är 1776 kr, och hon undrar nu vad den kommer att kosta. Hon vill ha ett intervall där priset hamnar med 95 % säkerhet. För att beräkna detta intervall måste man först ha en stokastisk modell. Man skulle så klart kunna tänka sig mer avancerade modeller, men som första approximation kan man prova en modell där Y =pris i genomsnitt beror linjärt på variabler som X 1 =yta i kvm eller X 2 =avgift i kr. Med andra ord, en linjär regressionsmodell. Vi vill endast ha med de variabler i modellen som verkligen har en effekt på priset. För om vi tar med onödiga variabler så kommer det att orsaka brus i modellen och det blir svårare att göra en bra prognos av priset. Inför första delen Den första delen av laboration 3 bygger på Lektion 17 och 18. Den första uppgiften (på denna första del) består i att jämföra två linjära regressionsmodeller för priset: en där ytan är förklarande variabel, och en där månagsavgiften är förklarande variabel. Tänket här är detsamma som på Lektion 17 och resten regressionsanalysdelen av kursen: Måtten residualspridning och förklaringsgrad används för att jämföra rimliga modeller. För att avgöra om en modell är rimlig görs en residualanalys, dvs residualerna studeras i residualplottar. 2 (6)

Första delen Enkel linjär regression I filen priserbostad.mtw i Canvas hittar du uppgifter om 31 stycken nyligen sålda lägenheter i staden. Du skall här studera hur Y =pris (i kkr) beror av variablerna yta (i kvm) och avgift (kr/månad). Kom ihåg att vid val av regressionsmodell så kan måtten förklaringsgrad och residualspridning användas för att välja mellan rimliga modeller. För att avgöra om en modell är rimlig, dvs hur väl modellen beskriver det vi studerar, så analyserar vi residualer. (a) Studera hur Y =pris beror av X = yta. Anser du att denna regressionsmodell är en tänkbar modell för att beskiva priset för en bostad i Storstad? Om inte, vad i modellen är fel? Tips: Vid residualanalys bör du ta med följande plotter: plot av residualerna i normalfördelningsdiagram (dvs normalfördelningsplot), samt plot av residualerna mot den förklarande variabeln. Om du vill kan du även ta med plot mot predikterat y-värde (FITS). För att kunna göra en bra normalfördelningsplot behöver man spara residualerna (välj storage och klicka i residuals eller standardized residuals) och sedan beställa en normalfördelningsplot som på Lab 2 (via menyn Graph). (b) Studera hur Y =pris beror av X = avgift. Anser du att denna regressionsmodell är en tänkbar modell för att beskiva priset för en bostad i Storstad? Om inte, vad i modellen är fel? (c) Ange fullständigt modellantagande för den av modellerna i (a) och (b) som du tycker är bäst för att beskriva priset för en bostad i Storstad. (Här ska du antingen välja modellen där ytan är förklarande variabel eller modellen där avgiften är förklarande variabel.) Motivera ditt val. (d) Utgå från modellen i (c). Kan man påstå att den förklarande variabeln påverkar priset? Besvara frågan med hjälp av ett lämpligt test på 5% signifikans-nivå. I redogörelsen ska hypoteser, testvariabel och beslutsregel framgå tydligt. (e) Utgå från modellen som du kom fram till i (c). Bestäm ett 95% konfidensintervall för effekten av den förklarande varabeln. Bestäm ett 95 % konfidensintervall för förväntat Y -värde (dvs pris) för lägenheter på 48 kvm (om du valt yta som förklarande variabel) eller som har en avgift på 1776 kr (om du valt avgift). Bestäm också ett 95 % prognosintervall för pris för en lägenhet på 48 kvm eller (om du valt avgift) som har en avgift på 1776 kr. Tolka vart och ett av de tre intervallen i ord. Kommentar: Konfidensintervall för förväntad Y -värde samt prognosintervall får du fram med hjälp av kommandot Stat/Regression /Regression/ Predict. 3 (6)

Inför andra delen Den andra delen av laboration 3 bygger på Lektion 17-19 och den första delen av laboration 3. Målet här är att försöka välja ut faktorer som påverkar en bostads pris så att man på ett så effektivt sätt som möjligt kan prediktera priset för bostaden i fråga. Tillvägagångssättet liknar det som användes på föregående lektioner: För att avgöra om en modell är rimlig görs en residualanalys, dvs residualerna studeras i residualplottar. (I fallet då vi endast hade en variabel kunda man ofta direkt se om ett linjärt samband förelåg mha en fitted line plot. Så är inte fallet då vi har många variabler.) En viktig skillnad är att då vi jämför modeller som har olika antal förklarande variabler (dvs X-variabler) så skall måttet justerad förklaringsgrad användas istället för förklaringsgrad. Detta eftersom förklaringsgraden ökar även om man lägger till helt irrelevanta (t.ex. helt slumpmässiga) variabler. Se sidan 23 i Regressionskompendiet. 4 (6)

Andra delen multipel linjär regression Den andra delen av Lab 3 är en fortsättning på uppgift 1 på den första delen, som handlade om prediktering av en bostads pris. Du ska här fortsatt använda datamaterialet i priserbostad.mtw. På del 1 kom du valda du en modell där antingen yta eller avgift var förklarande variabel. Du ska nedan studera hur priset påverkas av ytan då hänsyn tas till om lägenheten har balkong. Dvs du ska utgå från en modell där X 1 =yta. Uppgift 1 Betrakta återigen problemet med att beskriva hur en lägenhets pris beror på ytan (se Uppgift 1 (a) på den första delen). Du ska nu studera hur priset påverkas av ytan då hänsyn tas till om lägenheten har balkong. (a) Bilda först en dummyvariabel som tar hänsyn till om lägenheten har balkong i din Minitabfil. Gör sedan en multipel linjär regressionsanalys med både yta och dummyvariabeln som förklarande variabler. Dvs din modell ska ha två X-variabler: yta och balkong, där balkong är en variabel som har värdet 0 eller värdet 1. Du behöver själv definiera dummyvariabeln. Ange fullständigt modellantagande. Ange även den skattade regressionsmodellen, residualspridningen samt förklaringsgraden. Gör en residualanalys med följande residualplotter (se avsnitt 10 i Regressionskompendiet): 1. normalfördelnings-diagram, 2. plot av residualerna mot predikterade y-värden (fits) och 3. mot dom två förklarande variablerna. Verkar modellantagandet vara uppfyllt? Kan man påstå att priset för en lägehet påverkas av om lägenheten har balkong? Besvara frågan med hjälp av ett test på 5 % signifikansnivå. Anser du att modellen från del 1 har förbättrats genom att dummyvariabeln införts? Motivera ditt svar genom att jämföra med Uppgift 1 (a) på den första delen av Lab 3. (b) Utgå från modellen i (a). Vilken effekt på priset har ytan då hänsyn tas till om lägenheten har balkong? Vilken effekt på priset ger en balkong? Besvara de två frågorna genom att beräkna och i ord tolka två lämpliga 95 % konfidensintervall. (c) Du ska nu undersöka om effekten av balkong beror på lägenhetens storlek. För att göra det så ska produkten av yta och dummyvariabeln införas som ny förklarande variabel i modellen, dvs en samspelsterm ska läggas till modellen i (a). Se Avsnitt 13 i kompendiet, sidan 33-34. Ange fullständigt modellantagande för den utökade modellen. 5 (6)

Uppgift 2 Kan man påstå att effekten av balkong beror på lägenhetens storlek? Besvara frågan ovan genom att genomföra ett lämpligt test på 5 % signifikansnivå. Hypoteser, testvariabel, beslutsregel och slutsats skall tydligt framgå för testet. Tips: Sätt först X 2 = 0 och sedan X 2 = 1 i modellantagandet (där X 2 betecknar balkong). Då får du de två linjer som beskrivs på sidan 34 i kompendiet. Rita dessa två linjer på ett papper där du har yta på x-axeln och pris på y-axeln. Dessa ska du inte ha med i rapporten. Det vertikala avståndet mellan linjerna ger efftekten av balkong. Att den effekten inte beror på ytan är samma sak som att linjerna har samma lutningar, vilket är samma sak som att β 3 = 0. Du ska nu se om det går att hitta en bättre modell för bostadspriser genom att inkludera fler förklarande variabler. Den metod som du ska använda är s.k. backward elimination. Det går till så att man börjar med en modell med många variabler och sedan successivt tar bort variabler som inte har signfikant effekt på någon given signifikansnivå α. Se Avsnitt 14 i regressionskompendiet. Här ska du tillämpa metoden med α = 0.05. Börja med en modell som förutom tex variablerna yta, rum, avgift, balkong, våning även innehåller en eller flera samspelstermer. För att avgöra mellan vilka par av ett samspel kan förekomma så kan man fundera på om man tror att effekten av den ena varibeln beror på vilket värde man har på den andra variabeln. (a) Vilken modell skulle du välja för att beskriva lägenhetspriser i Storstad? Ange fullständigt modellantagande för den modell du kommer fram till. Kommentar: Valet av modell blir delvis bli subjektivt. Det viktiga är att du förklarar hur du gjort. (b) Anna har hittat en 2:a med balkong på 48 kvm på 3 tr och månadsavgiften 1776 kr. Hur mycket kommer den att kosta med 95 % säkerhet? Utgå från den modell du kom fram till i (a) och besvara frågan genom att ange och i ord tolka ett lämpligt intervall. 6 (6)