STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Relevanta dokument
DATORLABORATION: JÄMFÖRELSE AV FLERA STICKPROV.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER.

Laboration 3: Enkel linjär regression och korrelationsanalys

LABORATION 3 - Regressionsanalys

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematisk statistik, Föreläsning 5

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

TVM-Matematik Adam Jonsson

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Metod och teori. Statistik för naturvetare Umeå universitet

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

10.1 Enkel linjär regression

LABORATION 3 - Regressionsanalys

1 Förberedelseuppgifter

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4 Regressionsanalys

Laboration 2: Styrkefunktion samt Regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 4 R-versionen

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Regressions- och Tidsserieanalys - F4

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Grundläggande matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Föreläsning 12: Regression

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

tentaplugg.nu av studenter för studenter

Regressions- och Tidsserieanalys - F1

TENTAMEN I MATEMATISK STATISTIK

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

FACIT (korrekta svar i röd fetstil)

Examinationsuppgifter del 2

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Statistisk försöksplanering

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Regressions- och Tidsserieanalys - F1

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Laboration 4: Lineär regression

Föreläsning G60 Statistiska metoder

Föreläsning 12: Linjär regression

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

Multipel Regressionsmodellen

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

TAMS65 - Seminarium 4 Regressionsanalys

Laboration 2 multipel linjär regression

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning G60 Statistiska metoder

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

TAMS65 DATORÖVNING 2

Skrivning i ekonometri torsdagen den 8 februari 2007

Datorlaboration 2 Konfidensintervall & hypotesprövning

Regressionsanalys av lägenhetspriser i Spånga

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

MVE051/MSG Föreläsning 14

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Matematisk statistik för B, K, N, BME och Kemister

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

F13 Regression och problemlösning

1 Förberedelseuppgifter

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistisk försöksplanering

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Lycka till!

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Laboration 1: Introduktion till R och Deskriptiv statistik

Transkript:

MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på kursens hemsida finner du huspriser i Boston med omnejd. Data finns som text, tabseparerad eller kommaseparerad. Följande uppgifter finns tillgängliga om varje försålt hus: 1. Ort = sifferkod för orten där huset ligger. 2. Longitud. 3. Latitud. 4. Brott = brottslighet per capita. 5. Kvaveox = halt av kväveoxider (NO X ) i luften. 6. Rum = medelantal rum per bostad. 7. Fore1940 = andel hus byggda före 1940. 8. DistArb = sammanvägning av avstånd till fem stora arbetsplatser i Boston. 9. Skatt = fastighetsskatt per $10 000. 10. LararTat = antal elever per lärare. 11. LagStat = andelen invånare med låg status. 12. Pris = försäljningspris. Rekommenderat programpaket: R. Som i första laborationen skapar du först ett underbibliotek: $ mkdir tsa3 $ cd tsa3 Sedan hämtar du filen BostonTab.txt i Nerladdningsbara dokument. Starta R, och läs in filen som i Lab 1: > Boston <- read.table("bostontab.txt",header=true) > Ort<-Boston$Ort > Longitud<-Boston$Longitud > etc. för att se titta datasetet kan helt enkelt du skriva > Boston när du skrivit det första kommandot. Besvara uppgifterna 1 7 skriftligen och bifoga några grafer som visar vad du har gjort och som illustrerar ditt resonemang. Bifoga även den R-kod du använt i en separat fil via kurssidan eller med e-post. Laborationens syfte är att utreda hur försäljningspriset påverkas av de övriga variablerna (utom sifferkoden för ort). - 1 -

UPPGIFT 1. Undersök hur variablerna 2 11 en och en påverkar försäljningspriset. Gör först en grafisk undersökning: vilka av dem företer ett uppenbart icke-linjärt samband med responsen? I vilka fall kan man med hjälp av transformationer av data åstadkomma att modellantagandena för linjär regression är åtminstone approximativt uppfyllda? Gör dessa transformationer, och kontrollera att de fick önskad effekt! UPPGIFT 2. Vilka av variablerna 2 11 (eventuellt transformerade) har ett signifikant inflytande på försäljningspriset? (Vi betraktar precis som i Uppgift 1 variablerna en och en, inte alla tillsammans som nedan i Uppgift 3.) Välj signifikansnivå α= 0.05. Går inflytandet åt det håll man skulle kunna förvänta sig? Jämför förklaringsgraderna. Vilken variabel ger störst förklaringsgrad? Jämför med graferna i Uppgift 1: verkar det stämma med det intryck du får av graferna? UPPGIFT 3. R kan även göra en multipel regression. Gör detta med samma variabler som i Uppgift 2 men nu tar vi med dem alla tillsammans i en och samma modell (eventuellt transformerade). Vilka variabler blir nu signifikanta? Varför får man inte samma p- värden som i Uppgift 2? Jämför R 2 -värdet med de R 2 -värden du fick i Uppgift 2. UPPGIFT 4. Det kan finnas goda skäl att begränsa sig till ett mindre antal variabler, exempelvis sådana som har stort inflytande på försäljningspriset. Vi betraktar en modell som innehåller alla variabler utom Latitud, Brott och Fore1940. (Det finns metoder för att välja ut de variabler som man ska ta bort, men det går vi inte in på här.) Om du har transformerat några av variablerna, använd de transformerade variablerna istället för de ursprungliga. Jämför förklaringsgraden med Uppgift 3. Kan vi dra slutsatsen att de uteslutna variablerna saknar betydelse för försäljningspriset? Betrakta R-utskrifterna för den nu erhållna modellen och för modellen i Uppgift 3. Vad händer med lutningskoefficienternas medelfel (Std. Error i utskriften)? Vad säger detta om precisionen i skattningarna? UPPGIFT 5. a) Använd modellen i uppgift 4 för att prediktera priset för ett hus med värdena Longitud = 70 Kvaveox = 0.2 Rum = 7 DistArb = 5 Skatt = 350 LararTat = 20 LagStat = 5-2 -

b) Beräkna ett 95%-igt konfidensintervall och ett 95%-igt prediktionsintervall för priset. c) Gör om samma sak för datasetets första observation. Jämför med det observerade priset: faller det inom något av intervallen? UPPGIFT 6. Undersök i vad mån modellen i Uppgift 4 uppfyller modellförutsättningarna: undersök (grafiskt) normalitet och konstant varians. UPPGIFT 7. Är det troligt att någon av modellerna (Uppgift 3 och Uppgift 4) går att använda för att prediktera huspriser i någon annan del av USA? Varför/varför inte? R-TIPS. I. Funktioner. De flesta vanliga funktioner (cos, sin, exp, log, sqrt etc.) finns i R. För att exempelvis ta kvadratroten ur en variabel (eller ett tal) X, skriv > Y <- sqrt(x) För att kvadrera, skriv > Y <- X**2 II. Regression. Kommandot för såväl enkel som multipel regression är lm (samma som i Lab 2!). För enkel linjär regression, se instruktionerna till Statistisk analys GN, Laboration 3. För att göra en regression av en responsvariabel Y, på en förklarande variabel X, skriv exempelvis > Regr <- lm(y ~ X) Själva regressionen heter nu Regr, och vi kan få ut information ur den via summary, som i Lab 3, Statistisk analys. Vi kan också göra ett punktdiagram och sedan lägga in en regressionslinje i det: > plot(x,y) > abline(coef(regr)) En multipel regression av exempelvis Y på X1, X2 och X3 görs genom kommandot > Mregr <- lm(y ~ X1 + X2 + X3) - 3 -

Regressionsdiagnostik fås med samma kommandon som för enkel linjär regression se Lab 3, Statistisk analys igen. Man kan plotta residualer mot predikterade värden med kommandona > res <- Mregr$residuals > fi <- fitted.values(mregr) > plot(fi,res) Normalfördelningsplottar med inlagd linje får man genom kommandona > qqnorm(res) > qqline(res) III. Flera grafer i samma fönster. Den här laborationen ger upphov till ganska många grafer, så det kan vara praktiskt att samla flera av dem i samma utskrift. Om man exempelvis vill ha 6 (=2x3) grafer i en utskrift, så skriver man, innan man gör några grafer, kommandot > op=par(mfrow=c(2,3)) IV. Prediktion. Skattningar av koefficienterna i en regression fås genom kommandot > coef(mreg) och skattningarnas kovariansmatris V = Cov(β) genom > vcov(mregr) Observera att R listar de matriselement som svarar mot interceptet först. Följande kommando tar bort rubriker i vektorer och matriser; dessa nämligen kan vara i vägen (och generera felmeddelanden) när man sedan försöker utföra olika räkneoperationer > x <- as.numeric(x) Vidare kan man behöva justera dimensionen av vektorer och matriser för att kunna multiplicera dem med varandra. Detta görs med hjälp av kommandot dim se Laboration 1, R-tips. Transponerar matriser gör man med hjälp av kommandot t(), om det skulle behövas. Matrismultiplikation skrivs %*% se Laboration 1 igen. Standardavvikelsen i modellen kan komma att behövas. Den kan man få med hjälp av kommandot > anova(mreg) som levererar en ANOVA-tabell. Variansen återfinns på raden Residuals, kolumnen Mean Sq ; om du har givit ANOVA-tabellen ett namn, Anovatab säg, så kan du plocka fram den som Anovatab[m,n], för lämpligt valda värden på heltalen m och n. Pröva dig fram om det inte blir rätt på första försöket! - 4 -

Konfidens- och prediktionsintervall för observationer i det befintliga datasetet (men inte för en godtycklig ny observation) kan räknas ut automatiskt genom kommandona > predict(mregr,interval="confidence") > predict(mregr,interval="prediction") respektive. Detta kan du använda för att lösa Uppgift 5c), men du kan också lösa även den uppgiften för hand och sedan använda predict för att kontrollera att du har räknat rätt. V. Kvantiler. t-kvantiler t ν (α), där ν är frihetsgraderna och α är den ensidiga signifikansnivån ges av > qt(α,ν,lower.tail=false) - 5 -