Föreläsning 13: Multipel Regression

Relevanta dokument
Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Föreläsning 12: Linjär regression

Föreläsning 12: Regression

Föreläsning 14: Försöksplanering

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 15: Faktorförsök

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 11: Mer om jämförelser och inferens

Enkel och multipel linjär regression

F11. Kvantitativa prognostekniker

MVE051/MSG Föreläsning 14

oberoende av varandra så observationerna är

Matematisk statistik, Föreläsning 5

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Bestämning av hastighetskonstant för reaktionen mellan väteperoxid och jodidjon

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning 15: Försöksplanering och repetition

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 8: Konfidensintervall

Finansiell statistik. Multipel regression. 4 maj 2011

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning 7: Punktskattningar

10.1 Enkel linjär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Grundläggande matematisk statistik

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Regressionsanalys av lägenhetspriser i Spånga

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Föreläsning 7: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

F13 Regression och problemlösning

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik för B, K, N, BME och Kemister

Lektionsanteckningar 11-12: Normalfördelningen

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

1 Förberedelseuppgifter

Föreläsning 7: Punktskattningar

TAMS65 - Seminarium 4 Regressionsanalys

Regressions- och Tidsserieanalys - F1

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Statistiska metoder för säkerhetsanalys

Matematisk statistik för B, K, N, BME och Kemister

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

1 Förberedelseuppgifter

Regressions- och Tidsserieanalys - F1

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Exempel på tentamensuppgifter

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Laboration 2: Styrkefunktion samt Regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Härledning av Black-Littermans formel mha allmänna linjära modellen

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Föreläsning G60 Statistiska metoder

Föreläsning 7. Statistikens grunder.

Repetitionsföreläsning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Laboration 4: Lineär regression

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik KTH. Formelsamling i matematisk statistik

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Metod och teori. Statistik för naturvetare Umeå universitet

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamen i Matematisk statistik Kurskod S0001M

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressionsanalys av bostäder i Ekerö kommun

Föreläsning 12, FMSF45 Hypotesprövning

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

FÖRELÄSNING 8:

3 Maximum Likelihoodestimering

Regressions- och Tidsserieanalys - F3

Medicinsk statistik II

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Multipel Regressionsmodellen

Några extra övningsuppgifter i Statistisk teori

Transkript:

Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017

Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i, x i ), i = 1,..., n: Y i = β 0 + β 1 x i + ε i (1) där ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet och β 0 och β 1 är parametrar som beskriver det linjära sambandet. Ett annat sätt att skriva upp modellen på är alltså att Y i N(β 0 + β 1 x i, σ 2 ), det vill säga att vi har ett linjärt samband som bestämmer väntevärdet hos Y och en viss mätfelsvarians σ 2 som beskriver de enskilda observationernas variation kring väntevärdet β 0 + β 1 x. Linjär regression

Ett exempel från fysikalisk kemi Hastigheten för en kemisk reaktion ökar ofta då temperaturen höjs. En grov tumregel är att hastigheten fördubblas för varje ökning av temperaturen med 10 K. Hastighetskonstantens temperaturberoende kan för en reaktion i de flesta fall modelleras med Arrhenius ekvation k = Ae Ea/(RT ) där E a är den så kallade (skenbara) aktiveringsenergin, R är den allmänna gaskonstanten och T är temperaturen. Aktiveringsenergin kan bestämmas experimentellt genom att man mäter k vid ett antal temperaturer och ansätter: log(k i ) = log(a) E a R 1 T i + ε i Med Y i = log(k i ) och x i = Ti 1 ser vi att detta är en regressionsmodell! Linjär regression Exempel

Mätningar från laborationer 2014 0 0.5 1 log(k) 1.5 2 2.5 3 3.26 3.28 3.3 3.32 3.34 3.36 3.38 3.4 3.42 3.44 3.46 1/T x 10 3 I kursen Fysikalisk kemi ingår en laboration om bestämning av hastighetskonstant för reaktionen mellan väteperoxid och jodidjon. Ovan ses datan från alla sju grupper från höstterminen 2014. Linjär regression Exempel

Resultat 0 0.5 1 log(k) 1.5 2 2.5 3 3.26 3.28 3.3 3.32 3.34 3.36 3.38 3.4 3.42 3.44 3.46 1/T x 10 3 Baserat på datan får vi β0 = log(a) = 25.6260 samt β1 = E a R = 8107. Alltså är A = 1.34 10 11 och Ea = 67kJ/mol. Linjär regression Exempel

Extrapolering En mycket viktig komponent i en regressionsanalys är validering av modellen, det är också viktigt att inse att vi inte kan vara säkra på att den linjära modellen stämmer för x utanför mätområdet. Linjär regression Modellvalidering

Modellbeskrivning Vi har gjort mätningar av en responsvariabel Y för fixerade värden på förklarande variabler x 1,..., x p, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i, x 1,i,..., x p,i ), i = 1,..., n: Y i = β 0 + β 1 x 1,i +... + β p x p,i + ε i (2) där ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet och β i är parametrar som beskriver beroendet. Vi kan formulera modellen på matrisform som där Y 1 Y =. Y n X = Y = Xβ + E 1 x 1,1 x p,1...... 1 x 1,n x p,n E = ε 1. ε n β = β 0. β p Multipel linjär regression

Parameterskattning Sats Givet att X T X är inverterbar fås minstakvadrat-skattningen av β som β = (X T X) 1 X T Y. Skattningarna är väntevärdesriktiga och vi har V (β i ) = σ 2 (diagonalelement nummer i+1 i (X T X) 1 ). Vidare är s 2 = Q 0 /(n p 1) där Q 0 = n (y i β0 β1x 1,i... βpx p,i ) 2 = Y T Y β T X T Y. i=1 Sats Med µ Y (x 0) = β 0 + β 1 x 0,1 + + β px 0,p är V(µ Y (x 0)) = σ 2 x 0 T (X T X) 1 x 0 Multipel linjär regression

Polynomregression 250 200 150 100 50 0 50 10 8 6 4 2 0 2 4 6 8 10 Multipel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x. Ansätt modellen Y i = β 0 + β 1 x i + β 2 x 2 i +... + β p x p i + ε i (3) Specialfall av multipel regerssion med x k = x k.

Förklaringsgrad och modellval För en given modell har vi Q 0 = Y T Y β T X T Y = S yy SSR Alltså kan den totala variationen i datan, S yy delas upp i en del som förklaras av linjen, SSR, och en del som är residualvariationen: S yy = Q 0 + SSR Andelen av variationen som förklaras av modellen brukar betecknas R 2 = SSR S yy. En viktig fråga är hur vi väljer vilka förklarande variabler som ska ingå i en multipel regressionsmodell. För att undersöka om x p bör tas med kan vi utföra hypotestest H 0 : β p = 0 H 1 : β p 0 genom att bilda teststorheten β p/d(β p) med kritiskt område C α = {T : T > t α/2 (n p 1)}. Multipel linjär regression

Stegvis regression (I) Låt (β 0, β i, β j ) beteckna modellen Y = β 0 + β i x i + β j x j + ε och låt Q 0 (β 0, β i, β j ) vara residualvariationen för modellen. Steg 1 Välj (β 0, β i1 ) där i 1 = arg min i Q 0 (β 0, β i ). Om β i1 är signifikant, gå till Steg 2a, annars välj (β 0 ) som modell och avsluta modellval. Steg 2a Välj (β 0, β i1, β i2 ) där i 2 = arg min i Q 0 (β 0, β i1, β i ). Om β i2 är signifikant, gå till Steg 2b, annars välj (β 0, β i1 ) som modell och avsluta modellval. Steg 2b Testa om β i1 är signifikant i (β 0, β i1, β i2 ). Behåll modellen om så är fallet, annars välj (β 0, β i2 ). Gå till steg 3a. Multipel linjär regression

Stegvis regression (II) Fortsätt iterera stegen i modellvalet: Steg m:a Aktuell modell är (β 0, β i1,..., β ik ). Välj (β 0, β i1,..., β ik, β ik+1 ) där i k+1 = arg min i Q 0 (β 0, β i1,..., β ik, β i ). Om β ik+1 är signifikant, gå till Steg m:a, annars välj (β 0, β i1,..., β ik ) som modell och avsluta modellval. Steg m:b Testa om någon parameter β j är icke-signifikant i (β 0, β i1,..., β ik, β ik+1 ). Om så är fallet, välj bort den med lägst värde på teststorheten, annars behåll alla parametrar. Gå till Steg (m + 1) : a. Multipel linjär regression