Föreläsning 12: Linjär regression

Relevanta dokument
Föreläsning 12: Regression

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 13: Multipel Regression

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 11: Mer om jämförelser och inferens

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

F13 Regression och problemlösning

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

MVE051/MSG Föreläsning 14

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Grundläggande matematisk statistik

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Enkel och multipel linjär regression

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 11, Matematisk statistik Π + E

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

Föreläsning 11, FMSF45 Konfidensintervall

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

9. Konfidensintervall vid normalfördelning

Formel- och tabellsamling i matematisk statistik

FÖRELÄSNING 7:

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen MVE302 Sannolikhet och statistik

Thomas Önskog 28/

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 15: Försöksplanering och repetition

oberoende av varandra så observationerna är

Matematisk statistik, Föreläsning 5

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 15: Faktorförsök

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Tenta i Statistisk analys, 15 december 2004

10.1 Enkel linjär regression

Repetitionsföreläsning

Föreläsning 8: Konfidensintervall

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 7: Punktskattningar

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TMS136. Föreläsning 10

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

FÖRELÄSNING 8:

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Tentamen för kursen. Linjära statistiska modeller. 22 februari

SF1901 Sannolikhetsteori och statistik I

AMatematiska institutionen avd matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Uppgift 1. f(x) = 2x om 0 x 1

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Regressions- och Tidsserieanalys - F1

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Tentamen för kursen. Linjära statistiska modeller. 17 februari

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lycka till!

Föreläsningsanteckningar till kapitel 8, del 2

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Tentamen MVE301 Sannolikhet, statistik och risk

Avd. Matematisk statistik

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Regressions- och Tidsserieanalys - F1

Tentamen MVE301 Sannolikhet, statistik och risk

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Matematisk statistik för D, I, Π och Fysiker

Laboration 4 R-versionen

Avd. Matematisk statistik

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Föreläsning 4: Konfidensintervall (forts.)

Tentamen MVE302 Sannolikhet och statistik

Transkript:

Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017

Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera termisk energi) beror av temperaturen. För var och en av fem temperaturer gör man två mätningar av värmepakaciteten med fäljande resultat: Temperatur (C) 30 40 50 60 70 värmeskapacitet 0.70 0.74 0.78 0.80 0.82 0.72 0.73 0.75 0.78 0.81

Modellbeskrivning Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i, x i ), i = 1,..., n: Y i = β 0 + β 1 x i + ε i (1) ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet Parametern β 0 kallas för intercept. Parameternβ 1 kallas för lutningskoefficient.

Modellbeskrivning Ett annat sätt att skriva upp modellen på är Y i N(β 0 + β 1 x i, σ 2 ), Vi har ett linjärt samband som bestämmer väntevärdet hos Y och en mätfelsvarians σ 2 som beskriver de enskilda observationernas variation kring väntevärdet β 0 + β 1 x. Givet ett stickprov (Y 1, x 1 ), (Y 2, x 2 ),..., (Y n, x n ) vill vi nu skatta linjen, alltså parametrarna β 0 och β 1, samt spridningen kring linjen, σ 2. När vi skattat parametrarna kan vi för ett givet värde på x skatta Y.

Minsta-kvadratmetoden Antag den lite mer generella modellen att väntevärdet för Y ges av en funktion f: E(Y i ) = f(θ 1,..., θ k, x i ) Parametrarna θ 1,..., θ k skattas enligt minsta-kvadratmetoden genom att minimera kvadratfelet för den datan vi har S(θ 1,..., θ k ) = n (y i f(θ 1,..., θ k, x i )) 2 med avseende på parametrarna θ 1,..., θ k. Lösningen brukar fås som lösningen till ekvationerna S θ i = 0, för i = 1,..., k Ekvationssystemet löses av θ1,..., θ k MK-skattningarna av θ 1,..., θ k. som kallas för

Sats 1 MK-skattningarna av β 0 och β 1 ges av β1 = S xy/s xx och β0 = ȳ β 1 x där S xx = S yy = S xy = n n (x i x) 2 = x 2 i n x 2 n (y i ȳ) 2 = n yi 2 nȳ 2 n (x i x)(y i ȳ) = n x i y i n xȳ Variansparametern σ 2 skattas som s 2 = Q 0 n 2 där Q 0 = n (y i β 0 β 1x i ) 2 = S yy β 1S xx = S yy S2 xy S xx

Skattningar för exemplet Vi skattar nu linjen i exemplet ovan. Vi har x = 50, ȳ = 0.763 och S xx = S yy = S xy = 10 10 10 och får därför skattningarna x 2 i 10 x 2 = 27000 10 50 2 = 2000 y 2 i 10ȳ 2 = 5.8367 10 0.763 2 = 0.01501 x i y i 10 xȳ = 386.8 10 50 0.763 = 5.3 β 1 = S xy /S xx = 5.3/2000 = 0.00265 β0 = ȳ β1 x = 0.6305 ( ) s 2 = 1 S yy S2 xy n 2 S xx = 0.00012, s = 0.00012 = 0.011

Den skattade regressionslinjen β 0 + β 1 x

Sats 2 Vi har att E(Ȳ ) = β 0 + β 1 x och V(Ȳ ) = σ2 n. Dessutom är E(β 1) = β 1 Vi ser alltså att β 1 V(β 1) = σ2 S xx = är väntevärdesriktig. σ 2 n (x i x) 2 Sats 3 Med µ Y (x 0) = β 0 + β 1 x 0 är E(µ Y (x 0 )) = β 0 + β 1 x 0 samt [ 1 V(µ Y (x 0 )) = σ 2 n + (x 0 x) 2 ] S xx Med x 0 = 0 ser vi β 0 är väntevärdesriktig.

Skattningarnas fördelningar Sats Om ε i är normalfördelade gäller att Ȳ, β 0, β 1 och β 0 + β 1 x 0 också är normalfördelade. Eftersom skattarna är summor av Y i så gäller enligt CGS satsen approximativt även om ε i avviker från normalfördelningen. Sats Om ε i är normalfördelade så gäller att (n 2)s 2 σ 2 χ 2 (n 2) vidare är s 2 oberoende av Ȳ, β 0, β 1 och β 0 + β 1 x 0.

Konfidensintervall och test Låt θ vara någon av β 0, β 1 eller β 0 + β 1 x 0. Vi vet att dessa skattningar är normalfördelade och vi har tagit fram variansen av skattningarna. Låt d(θ ) vara standardavvikelsen för skattningen, vi har då att T = θ θ d(θ ) t(n 2) vilken på vanligt sätt används för att göra test och bilda konfidensintervall, I θ = (θ ± t α/2 (n 2)d(θ ))

Konfidensintervall Konfidensintervall för β 0 : I β0 = β 0 ± t α/2 (n 2)s 1 n + x2 S xx Konfidensintervall för β 1 : ( ) I β1 = β1 s ± t α/2 (n 2) Sxx Konfidensintervall för µ Y (x 0 ) = β 0 + β 1 x 0 : I µy (x 0 ) = β 0 + β1x 1 0 ± t α/2 (n 2)s n + (x 0 x) 2 S xx

Prediktionsintervall Ibland vill man veta var en framtida observation kommer vara för ett visst värde på x, då används ett prediktionsintervall. Skillnaden mellan ett prediktionsintervall I Y (x0 ) och ett konfidensintervall I µy (x 0 ) är att I µy (x 0 ) talar om var väntevärdet troligen ligger, medan I Y (x0 ) talar om var en framtida observation troligen ligger. Eftersom observationerna har en viss spriding kring linjen så måste prediktionsintervallet vara bredare än konfidensintervallet, och man kan visa att Y (x 0 ) N (β 0 + β 1 x 0, σ 2 (1 + 1n + (x 0 x) 2 ) ). S xx Ett prediktionsintervall bildas nu som I Y (x0 ) = β 0 + β1x 0 ± t α/2 (n 2)s 1 + 1 n + (x 0 x) 2 S xx

Konfidensintervall och prediktionsintervall

Modellvalidering En mycket viktig komponent i en regressionsanalys är validering av modellen, vilket betyder att vi måste försäkra oss om att det är lämpligt att ansätta en enkel regressionsmodell. Det vanligaste sättet att göra detta på är att beräkna de så kallade residualerna e i = y i β 0 β 1x i Om modellen är korrekt bör dessa residualer vara ungefär normalfördelade med väntevärde noll. inte uppvisa någon speciell struktur som funktion av x. ha ungefär samma variation för alla olika värden på x, vi får till exempel inte ha att variansen verkar vara större för stora värden på x. Undersök visuellt genom att plotta residualerna som funktion av x och använda normalfördelningsdiagram. Modellvalidering