TAMS65 - Seminarium 4 Regressionsanalys

Relevanta dokument
GRUNDLÄGGANDE REGRESSIONSANALYS Problemsamling

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65. Problemsamling. Martin Singull

Matematisk statistik för B, K, N, BME och Kemister

F13 Regression och problemlösning

Föreläsning 12: Linjär regression

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning 15: Faktorförsök

Enkel och multipel linjär regression

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

TAMS65 DATORÖVNING 2

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 13: Multipel Regression

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Föreläsning G60 Statistiska metoder

MVE051/MSG Föreläsning 14

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Finansiell statistik. Multipel regression. 4 maj 2011

Grundläggande matematisk statistik

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Härledning av Black-Littermans formel mha allmänna linjära modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Matematisk statistik för B, K, N, BME och Kemister

F11. Kvantitativa prognostekniker

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematisk statistik, Föreläsning 5

Laboration 4: Lineär regression

Avd. Matematisk statistik

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

TVM-Matematik Adam Jonsson

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Thomas Önskog 28/

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen i Matematisk statistik Kurskod S0001M

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

SF1901 Sannolikhetsteori och statistik I

Tentamen i Matematisk statistik Kurskod S0001M

tentaplugg.nu av studenter för studenter

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Bayesiansk statistik, 732g43, 7.5 hp

LABORATION 3 - Regressionsanalys

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen MVE301 Sannolikhet, statistik och risk

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Tidsserier. Data. Vi har tittat på två typer av data

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Föreläsning 12: Regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Lektionsanteckningar 11-12: Normalfördelningen

REGRESSIONSANALYS. Martin Singull

LABORATION 3 - Regressionsanalys

F7 Polynomregression och Dummyvariabler

Tentamen i Matematisk statistik Kurskod S0001M

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 12, FMSF45 Hypotesprövning

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

9. Konfidensintervall vid normalfördelning

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Laboration 2: Styrkefunktion samt Regression

Transkript:

TAMS65 - Seminarium 4 Regressionsanalys Martin Singull Matematisk statistik Matematiska institutionen

Problem 1 PS29 Vid ett test av bromsarna på en bil bromsades bilen upprepade gånger från en hastighet av cirka 100 km/h till stillastående på en torr asfaltväg. Vid varje försök mätte man dels hastigheten vid inbromsningens början (det var i praktiken svårt att hålla exakt hastigheten 100 km/h), dels bromssträckan. Resultat: Begynnelsehastighet 103.5 98.0 95.5 102.0 100.0 Bromssträcka 57.0 51.5 50.0 56.0 54.0 a) Låt Y j, j = 1, 2,..., 5 beteckna bromssträckan i respektive försök. Antag att Y 1, Y 2,..., Y 5 är oberoende och N(µ, σ), där µ betecknar den förväntade bromssträckan vid begynnelsehastigheten 100 km/h. (Vi betraktar sålunda all variation hos bromssträckan, även den som orsakas av varierande begynnelsehastighet, som ren slumpvariation.) Vi har alltså Y j = µ + ε j där ε j N(0, σ). Bestäm ett 95% konfidensintervall för µ. TAMS65 - Se4 1/14

Problem 1, forts. b) En del av variationen i bromssträckan beror troligen på att hastigheten inte varit exakt 100 km/h. Via en linjär modell bör man kunna ta hänsyn till hastigheten. I försök nummer j har vi haft hastigheten x j och vi har fått bromssträckan y j, som är observation av Y j = β 0 + β 1x j + ε j där ε j N(0, σ). En variansanalys gav: Variansanalys: Skattad regressionslinje: y = 38.4 + 0.923x i βi d( β i ) 0-38.423 6.169 1 0.92308 0.06179 (X X ) 1 = VARIANSANALYS Frihetsgrader Kvadratsumma REGR 1 34.338 RES 3 0.462 TOT 4 34.800 ( ) 247.347 2.47643. 2.47643 0.02481 Beräkna ett 95% konfidensintervall för den förväntade bromssträckan vid hastigheten 100, dvs för β 0 + 100β 1. c) Jämför resultaten i a) och b). Vilken analysmetod föredrar du? TAMS65 - Se4 2/14

Problem 2 PS32 I mitten av 1800-talet ville den skotske fysikern James D. Forbes uppskatta höjden över havet genom att mäta kokpunkten för vatten. Han visste att höjden över havet kunde bestämmas med hjälp av lufttrycket. I en serie experiment studerade han sambandet mellan lufttryck och kokpunkt. Intresset för problemet motiverades av svårigheten för resenärer att transportera 1800-talets ömtåliga barometrar. Forbes samlade data i Alperna och Skottland, och följande datamaterial publicerades 1857: TAMS65 - Se4 3/14

Case Boiling Pressure No. Point ( o F) (in. Hg) Log(Pressure) 100 Log(Pressure) 1 194.5 20.79 1.3179 131.79 2 194.3 20.79 1.3179 131.79 3 197.9 22.40 1.3502 135.02 4 198.4 22.67 1.3555 135.55 5 199.4 23.15 1.3646 136.46 6 199.9 23.35 1.3683 136.83 7 200.9 23.89 1.3782 137.82 8 201.1 23.99 1.3800 138.00 9 201.4 24.02 1.3806 138.06 10 201.3 24.01 1.3805 138.05 11 203.6 25.14 1.4004 140.04 12 204.6 26.57 1.4244 142.44 13 209.5 28.49 1.4547 145.47 14 208.6 27.76 1.4434 144.34 15 210.7 29.04 1.4630 146.30 16 211.9 29.88 1.4754 147.54 17 212.2 30.06 1.4780 147.80 TAMS65 - Se4 4/14

Problem 2, forts. Modell 1: Y j = β 0 + β 1 x j + ε j där ε N(0, σ), x j = temperaturen och y j = 100 log (tryck). Residualplotten för den här modellen avslöjar en avvikande observation, en sk outlier, nämligen nr 12. Vi vill undersöka om det är troligt att avvikelsen har uppstått av en ren slump. a) Datamaterialet har också analyserats enligt Modell 2: Y j = β 0 + β 1 x j + β 2 u j + ε j där u j = { 1 för j=12 0 annars. Undersök med hjälp av ett lämpligt test eller konfidensintervall om observation nr 12 kan anses vara avvikande. Nivå 0.05. TAMS65 - Se4 5/14

Problem 2, forts. Variansanalys 1 Skattad regressionslinje: y = 42.2 + 0.896x i βi d( β i ) 0-42.164 3.341 1 0.89562 0.01646 VARIANSANALYS Frihetsgrader Kvadratsumma REGR 1 425.76 RES 15 2.16 TOT 16 427.91 TAMS65 - Se4 6/14

Problem 2, forts. Variansanalys 2 Skattad regressionslinje: y = 41.3 + 0.891x + 1.45u i βi d( β i ) 0-41.335 1.003 1 0.891110 0.004944 2 1.4528 0.1174 VARIANSANALYS Frihetsgrader Kvadratsumma REGR 2 427.73 RES 14 0.18 TOT 16 427.91 TAMS65 - Se4 7/14

Problem 2, forts. b) I analys nr 3 har observation nr 12 strukits och återstående data har analyserats enligt modell 1. Konstruera utgående från denna analys ett 95% intervall med vars hjälp man kan undersöka om observation nr 12 kan anses vara avvikande. Vad blir din slutsats? Anm. Man kan visa att metoderna i a) och b) är ekvivalenta, se Weisberg (1985), sid 115. TAMS65 - Se4 8/14

Problem 2, forts. Variansanalys 3 Skattad regressionslinje: y = 41.3 + 0.891x i βi d( β i ) 0-41.335 1.003 1 0.891110 0.004944 VARIANSANALYS Frihetsgrader Kvadratsumma REGR 1 419.19 RES 14 0.18 TOT 15 419.37 (X X ) 1 = ( ) 78.0093 0.3843. 0.3843 0.001894 TAMS65 - Se4 9/14

Problem 3 PS24 Visa att residualvektorn e = Y Ŷ har kovariansmatrisen (I X (X X ) 1 X )σ 2. TAMS65 - Se4 10/14

Problem 4 PS37 Man har observerat en tidsserie y t, där t = 1, 2,..., 40. För att göra en lämplig modell för Y t gör man en analys enligt den preliminära modellen Y t = β 0 + β 1 t + ε t där ε t -variablerna är oberoende och N(0, σ). Residualerna plottades mot t. TAMS65 - Se4 11/14

Problem 4, forts. TAMS65 - Se4 12/14

Problem 4, forts. a) Efter att ha studerat residualplotten bestämmer man sig för att analysera datamaterialet enligt modellen Y t = β 0 + β 1 t + β 2 t 2 + ε t där ε t -variablerna är oberoende och N(0, σ t). Ange två skäl till att man väljer denna modell. b) Ange en formel med vars hjälp β 0, β 1, β 2 i modellen i a) kan skattas. Eventuella matriser mm, som ingår i formeln, skall definieras fullständigt. Ledning: Transformera datamaterialet på lämpligt sätt. TAMS65 - Se4 13/14

Problem 5 PS25 Betrakta den enkla linjära regressionsmodellen Y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n där ε 1, ε 2,..., ε n är oberoende och N(0, σ). Visa att minsta-kvadrat-metodens skattningar ˆβ 0 och ˆβ 1 är oberoende om och endast om n x j = 0. j=1 TAMS65 - Se4 14/14

http://courses.mai.liu.se/gu/tams65/