LABORATION 3 - Regressionsanalys

Relevanta dokument
LABORATION 3 - Regressionsanalys

TVM-Matematik Adam Jonsson

tentaplugg.nu av studenter för studenter

tentaplugg.nu av studenter för studenter

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Matematisk statistik, Föreläsning 5

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen i Matematisk statistik Kurskod S0001M

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressionsanalys av lägenhetspriser i Spånga

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Regressions- och Tidsserieanalys - F4

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 2: Styrkefunktion samt Regression

Tentamen i Matematisk statistik Kurskod S0001M

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Datorövning 5 Exponentiella modeller och elasticitetssamband

Läs noggrant informationen nedan innan du börjar skriva tentamen

Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F1

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

10.1 Enkel linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F7

Laboration 4 R-versionen

Regressions- och Tidsserieanalys - F1

Studiehandledning S0001M Matematisk statistik Läsperiod 2, Ht 2013

1 Förberedelseuppgifter

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F3

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Kompletterande kursmaterial till kursen Matematisk statistik.

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Att göra före det schemalagda labpasset.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 4 Regressionsanalys

Laboration 4: Lineär regression

Laboration 2 multipel linjär regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

F19, (Multipel linjär regression forts) och F20, Chi-två test.

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Facit till Extra övningsuppgifter

Datorövning 1 Enkel linjär regressionsanalys

Tentamen i Matematisk statistik Kurskod S0001M

Studiehandledning S0001M Matematisk statistik Läsperiod 4, VT 2017

Föreläsning G60 Statistiska metoder

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Studiehandledning S0001M Matematisk statistik Läsperiod 2, HT 2017

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Skrivning i ekonometri lördagen den 29 mars 2008

TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Laboration 4: Hypotesprövning och styrkefunktion

Tentamen i Matematisk statistik Kurskod S0001M

F13 Regression och problemlösning

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Sänkningen av parasitnivåerna i blodet

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 4. Kap 5,1-5,3

Transkript:

Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys med hjälp av statistik-programmet MINITAB. Förutom att ge träning i att lösa problem inom regressionsanalysen syftar laborationen till att ge träning i att tillämpa standardprogramvara i statistik. Litteratur: Vännman, Kompendium i regressionsanalys. Handledning för MINITAB. Lämna in fullständiga och läsliga lösningar på uppgifterna. Tolkningar och slutsatser ska tydligt motiveras. MINITAB-utskrifterna kan lämnas in som bilagor eller inklippta i texten om ni skriver i Word. Varje uppgift ska innehålla fullständiga modellantaganden. Ett tips är att på varje uppgift först skriva ner modellantagandet. Då blir det enklare att tolka de kvantiteter som efterfrågas. Laborationsredogörelsen för den första delen av Lab 3 granskas av en annan laborationsgrupp på det schemalagda passet för KGB-3. Laborationsredogörelsen för hela laborationen (del 1 och del 2) lämnas in i.pdf format senast torsdag 29 oktober. Tänk på att vid redovisningen göra en snygg, överskådlig och läslig redogörelse. om. definiera alla införda beteckningar i uppgifterna. ange fullständiga modellantaganden för varje regressionsanalys.

En översikt av Laboration 3 Det problem som Lab 3 behandlar kan beskrivas på följande sätt: Tänk dig att du efter en tids bostadsletande hittat en lägenhet till försäljning. Lägenheten är en 2:a med balkong på 51 kvm på 2 tr och månadsavgiften är 1976 kr, och du undrar nu vad den kommer att kosta. Du vill ha ett intervall där priset hamnar med 95 % säkerhet. För att göra detta måste du först ha en stokastisk modell. Man skulle så klart kunna tänka sig mer avancerade modeller, men som första approximation kan man prova en modell där Y =pris i genomsnitt beror linjärt på variabler som X 1 =yta i kvm eller X 2 =avgift i kr. Med andra ord, en linjär regressionsmodell. Vi vill endast ha med de variabler i modellen som verkligen har en effekt på priset. För om vi tar med onödiga variabler så kommer det att orsaka brus i modellen som ger oss sämre möjligheter att kunna göra en bra prognos av priset. Inför första delen Den första delen av laboration 3 bygger på Lektion 17 och 18. Den första uppgiften (på denna första del) består i att jämföra två linjära regressionsmodeller för priset: en där ytan är förklarande variabel, och en där avgiften är förklarande variabel. Tänket här är detsamma som på Lektion 17 och resten regressionsanalysdelen av kursen: Måtten residualspridning och förklaringsgrad används för att jämföra rimliga modeller. För att avgöra om en modell är rimlig görs en residualanalys, dvs residualerna studeras i residualplottar. Den andra uppgiften hör inte ihop med den första uppgiften och har inte heller någon koppling till den andra delen av laboration 3. Här ska du undersöka hur man med hjälp av transformationer kan använda regressionsanalys för att lösa ett problem där en linjär regressionsmodell vid första anblicken tycks olämplig. Tillvägagångssättet påminner om problemet på Lektion 18 där en modell för hur bensinförbrukning beror på hästkrafter studerades. 2 (7)

Första delen Enkel linjär regression Uppgift 1: Prediktering av en bostads pris I filen PriserSolnaSTOR.MTW i mappen för Lab 3 i Fronter hittar du uppgifter om 30 stycken nyligen sålda lägenheter i Solna. Du skall här studera hur Y =pris (i kkr) beror av variablerna yta (i kvm) och avgift (kr/månad). Kom ihåg: Vid val av regressionsmodell så kan måtten förklaringsgrad och residualspridning användas för att välja mellan rimliga modeller. Vi avgör om en modell är rimlig genom att studera residualer. (a) Studera hur Y =pris beror av X = yta. Anser du att denna regressionsmodell är en tänkbar modell för att beskiva priset för en bostad i Solna? Om inte, vad i modellen är fel? Tips: Vid residualanalys bör du ta med följande plotter: plot av residualerna i normalfördelningsdiagram (dvs normalfördelningsplot), plot av residualerna mot predikterat y-värde (FITS), samt plot av residualerna mot den förklarande variabeln. (b) Studera hur Y =pris beror av X = avgift. Anser du att denna regressionsmodell är en tänkbar modell för att beskiva priset för en bostad i Solna? Om inte, vad i modellen är fel? (c) Ange fullständigt modellantagande för den av modellerna i (a) och (b) som du tycker är bäst för att beskriva priset för en bostad i Solna. (Här ska du antingen välja modellen där ytan är förklarande variabel eller modellen där avgiften är förklarande variabel.) Motivera ditt val av modell. (d) Utgå från modellen i (c). Kan man påstå att den förklarande variabeln påverkar priset? Besvara frågan med hjälp av ett lämpligt test på 5% signifikans-nivå. I redogörelsen ska hypoteser, testvariabel och beslutsregel framgå tydligt. (e) Utgå från modellen som du kom fram till i (c). Bestäm ett 95 % konfidensintervall för effekten av den förklarande varabeln. Beräkna även ett 95 % konfidensintervall för förväntad Y -värde samt prognosintervall för pris för en lägenhet på 90 kvm som har en avgift på 3500 kr. Tolka vart och ett av de tre intervallen i ord. Kommentar: Konfidensintervall för förväntad Y -värde samt prognosintervall får du fram med hjälp av kommandot Stat/Regression /Regression/ Predict. (Det är endast ett prognosintervall och ett konfidensintervall för förväntat Y-värde som ska beräknas. Om du valde modellen där avgift förklarar pris så ska du använda X 0 = 3500, om du valde modellen där yta förklarar pris så ska du använda X 0 = 90.) 3 (7)

Uppgift 2: Prediktering av hållfasthet för asfaltsbeläggning I filen ASFALT.MTW i Fronter finns värden som beskriver hållfastheten hos asfaltbeläggning i ett laboratorie-försök. Man ville där undersöka hur olika egenskaper hos asfaltbeläggning påverkar beläggningens hållfasthet. Som mått på hållfastheten använde man Y =förändringen i spårdjup, mätt i inches per en miljon passerade däck. Försöket gjordes i USA, därav enheten inches. Den förklarande variabel vi ska studera här är X = viskositeten hos asfalten. Du ska försöka hitta en modell för att beskriva hur förändringen i spårdjup beror av viskositeten samt göra en prognos av hållfastheten då viskositeten är 200. (a) Genomför en enkel linjär regressionsanalys med Y =förändringen i spårdjup, och X = viskositeten hos asfalten. Är modellantagandet uppfyllt? (b) När man tittar på viskositetvärdena så ser man att de varierar från värden mindre än 1 upp till värden kring 500. Även värdena som anger förändringen i spårdjup varierar kraftigt. När kvoten mellan största och minsta värdet är så stor så brukar det vara värt att pröva och transformera sin variabel. En vanlig transformation som man kan pröva är logaritmen, dvs använda log-skala. Pröva att i använda logaritmen av de två variablerna. Du kan logaritmera bara viskositeten, bara förändringen i spårdjup, eller både viskositeten och förändringen i spårdjup. Ange modellantagande för en modell som du tycker verkar rimlig. (c) Antag att man ska göra en ny typ av asfalt där viskositeten är 200. Använd MINITAB för att ta fram ett intervall där förändringen i spårdjup hamnar med 95% säkerhet. Ange hur intervallet beräknats samt tolka intervallet i ord. Observera att det är den icke-logaritmerade viskositeten som ska vara 200. 4 (7)

Inför andra delen Den andra delen av laboration 3 bygger på Lektion 17-19 och den första delen av laboration 3. Målet här är att försöka välja ut faktorer som påverkar en bostads pris så att man på ett så effektivt sätt som möjligt kan prediktera priset för bostaden i fråga. Tillvägagångssättet liknar det som användes på föregående lektioner: För att avgöra om en modell är rimlig görs en residualanalys, dvs residualerna studeras i residualplottar. (I fallet då vi endast hade en variabel kunda man ofta direkt se om ett linjärt samband förelåg mha en fitted line plot. Så är inte fallet då vi har många variabler.) En viktig skillnad är att då vi jämför modeller med olika antal förklarande variabler så skall måttet justerad förklaringsgrad användas istället för förklaringsgrad. Detta eftersom förklaringsgraden ökar även om man lägger till helt irrelevanta (t.ex. helt slumpmässiga) variabler. Se sidan 23 i Regressionskompendiet. 5 (7)

Andra delen multipel linjär regression Den andra delen av Lab 3 är en fortsättning på uppgift 1 på den första delen, som handlade om prediktering av en bostads pris. Du ska här fortsatt använda datamaterialet i PriserSolnaSTOR.MTW. Uppgift 1 Betrakta återigen problemet med att beskriva hur en lägenhets pris beror på ytan (se Uppgift 1 på den första delen ovan). Du ska nu studera hur priset påverkas av ytan då hänsyn tas till om lägenheten har balkong. (a) Bilda först en dummyvariabel som tar hänsyn till om lägenheten har balkong i din Minitabfil. Gör sedan en multipel linjär regressionsanalys med både yta och dummyvariabeln som förklarande variabler. Ange fullständigt modellantagande. Ange även den skattade regressionsmodellen, residualspridningen samt förklaringsgraden. Gör en residualanalys med följande residualplotter: normalfördelningsdiagram, plot av residualerna mot predikterade y-värden (fits) och mot dom förklarande variablerna yta och dummy. (Se avsnitt 10 i Regressionskompendiet.) Verkar modellantagandet vara uppfyllt? Kan man påstå att priset för en lägehet påverkas av om lägenheten har balkong? Besvara frågan med hjälp av ett test på 5 % signifikansnivå. Anser du att modellen från del 1 har förbättrats genom att dummyvariabeln införts? Motivera ditt svar. (b) Utgå från modellen i (a). Vilken effekt på priset har ytan då hänsyn tas till om lägenheten har balkong? Vilken effekt på priset ger en balkong? Besvara frågorna genom att beräkna och i ord tolka två lämpliga 95 % konfidensintervall. (c) Du ska nu undersöka om effekten av balkong beror på lägenhetens storlek. För att göra det så ska produkten av yta och dummyvariabeln införas som ny förklarande variabel i modellen, dvs en samspelsterm ska läggas till modellen i (a). Ange fullständigt modellantagande samt den skattade regressionsmodellen för den utökade modellen. Kan man påstå att effekten av balkong beror på lägenhetens storlek? Besvara frågan ovan genom att genomföra ett lämpligt test på 5 % signifikansnivå. Hypoteser, testvariabel, beslutsregel och slutsats skall tydligt framgå för testet. (Observera att det endast är ett test som ska göras.) 6 (7)

Uppgift 2 Du ska nu se om det går att hitta en bättre modell genom att låta antal rum, avgift och våningsplan ingå som förklarande variabler. Den metod som du ska använda är s.k. backward elimination. Se Avsnitt 14 i regressionskompendiet. Här ska du tillämpa metoden med α = 0.1. Dvs du börjar med en modell där yta, rum, avgift, balkong, våning samt diverse samspelstermer ingår för att sedan succesivt ta bort variabler som inte har en effekt på 10 % signifikansnivå. (a) Vilken modell skulle du välja för att beskriva lägenhetspriser i Solna? Ange fullständigt modellantagande för den modell du kommer fram till. Anmärkning: Valet av modell blir här delvis subjektivt. Det viktiga är att du förklarar hur du tänkt. (b) Anna har hittat en 2:a med balkong på 51 kvm på 2 tr och månadsavgiften 1976 kr. Hur mycket kommer den att kosta? Utgå från den modell du kom fram till i (a) och besvara frågan genom att ange ett lämpligt intervall med 95 % konfidensgrad. 7 (7)