Matematisk statistik för B, K, N, BME och Kemister

Relevanta dokument
Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Linjär regression

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Föreläsning 13: Multipel Regression

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

oberoende av varandra så observationerna är

Matematisk statistik för D, I, Π och Fysiker

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Enkel och multipel linjär regression

F13 Regression och problemlösning

Matematisk statistik för B, K, N, BME och Kemister

MVE051/MSG Föreläsning 14

Föreläsning 12: Regression

Matematisk statistik för B, K, N, BME och Kemister

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

TAMS65 - Seminarium 4 Regressionsanalys

Matematisk statistik, Föreläsning 5

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

1 Förberedelseuppgifter

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 5: Regressionsanalys

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Föreläsning 11: Mer om jämförelser och inferens

1 Förberedelseuppgifter

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik KTH. Formelsamling i matematisk statistik

Finansiell statistik. Multipel regression. 4 maj 2011

Grundläggande matematisk statistik

10.1 Enkel linjär regression

Lycka till!

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen för kursen. Linjära statistiska modeller. 22 februari

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik

F11. Kvantitativa prognostekniker

AMatematiska institutionen avd matematisk statistik

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Tentamen MVE302 Sannolikhet och statistik

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 7: Punktskattningar

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Föreläsning 9: Linjär regression del II

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Examinationsuppgifter del 2

Matematisk statistik för B, K, N, BME och Kemister

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Laboration 2: Styrkefunktion samt Regression

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 7: Punktskattningar

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tenta i Statistisk analys, 15 december 2004

Kovarians och kriging

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

SAMBANDSANALYS REGRESSION OCH KORRELATION ORIENTERING OM TIDSSERIER CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik

Föreläsning 15: Försöksplanering och repetition

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning 11, Matematisk statistik Π + E

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

2.1 Mikromodul: stokastiska processer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Tentamen MVE301 Sannolikhet, statistik och risk

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Repetitionsföreläsning

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 12, FMSF45 Hypotesprövning

9. Konfidensintervall vid normalfördelning

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Mer om konfidensintervall + repetition

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Transkript:

Matematisk statistik för B, K, N, BME och Kemister Föreläsning 10 Johan Lindström 27 september 2017 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 1/26 Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 2/26 Modell Skattningar Intervall μ Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 3/26

Linjär regression Modell Skattningar Intervall μ Modell (Kap. 10.2) Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N ( 0, σ 2). Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 4/26 Modell Skattningar Intervall μ Parameterskattningarna (Kap. 10.4 10.5) Skattningarna av α, β β = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 α = ȳ β x och s 2 = (σ 2 ) är s 2 = Q 0 n 2 där Q 0 = Q 0 σ 2 χ2 (n 2) = S xy n i=1 N (β, σ2 ) ( )) 1n N (α, σ 2 + x2 (y i α β x i ) 2 = S yy S2 xy Skattningarna α och β är dock inte oberoende av varandra. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 5/26 Modell Skattningar Intervall μ Konfidens- & Prediktionsintervall (Kap. 10.6 10.7) Konfidensintervall för linjen, μ 0, vid x 0 : I μ0 = α + β x 0 ± t a/2 (n 2) s 1 n + (x 0 x) 2 Prediktionsintervall för en ny mätning, Y(x 0 ), vid x 0 : I Y(x0 ) = α + β x 0 ± t a/2 (n 2) s 1 + 1 n + (x 0 x) 2 Kalibreringsintervall (Kap. 10.8) Kalibreringsintervall för x 0 = y 0 α β givet en mätning y 0, I x0 = x 0 ± t a/2(n 2) s β 1 + 1 n + (x 0 x)2 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 6/26

Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 8/26 Linjärisering av exponentiella samband För att få ett linjärt samband y i = α + βx i + ε i kan vissa exponent- och potenssamband logaritmeras. z i = a e βx i ε i z i = a t β i ε i ln ln ln z i y i ln z i y i = ln a α +β x i + ln ε i ε i = ln a +β ln t i α x i + ln ε i ε i Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 9/26 Antal transistorer 10 9 10 8 10 7 10 6 10 5 10 4 10 3 8080 4004 8008 Antal transistorer hos Intelprocessorer 8086 Intel386 TM 286 Intel Itanium 2 Intel Itanium Intel Pentium 4 Intel Pentium III Intel Pentium II Intel Pentium Intel486 TM 10 2 1970 1980 1990 2000 2010 2020 Lanseringsår Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 10/26

Exempel: Moores lag Figuren på föregående slide är baserad på Moores Lag. 1965 framförde Gordon Moore (en av Intels grundare) tesen att antalet transistorer på ett chip fördubblas vartannat år (www.cs.utexas.edu/~fussell/courses/cs352h/papers/ moore.pdf). Genom att anpassa en exponential funktion till data fås följande ln z i = 691 + 0.35x i z i = 5.13 10 301 exp(0.35x i ) där z i är antalet transistorer och x i är lanseringsår. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 11/26 5 x 108 Skattat samband: y = 5.13 10 301 e 0.35 x 4.5 4 3.5 Antal transistorer 3 2.5 2 1.5 1 0.5 0 1970 1980 1990 2000 2010 2020 Lanseringsår Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 12/26 Samband vikt och hjärnstorlek 12 10 8 Elefant (Afr) Elefant (Ind) log(hjärnvikt) [g] 6 4 2 0 Mullvad Råtta Hamster Människa Giraff Chimpans Häst Åsna GorillaKo Rhesus apa Får Gris Jaguar Varg Potar apa Get Känguru Katt Kanin Ekorrbäver Marsvin Brachiosaurus ( ) Triceratops ( ) ( ) Diplodocus Mus 2 4 2 0 2 4 6 8 10 12 log(kroppsvikt) [kg] Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 13/26

Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 14/26 Multipel regression (Kap. 11.2) Modellen y i = β 0 + β 1 x 1i +... + β p x pi + ε i, kan skrivas på matrisform som Y = Xβ + E ( ε i N 0, σ 2) oberoende där Y och E är n 1-vektorer, β en (p + 1) 1-vektor och X en n (p + 1)-matris y 1 1 x 11 x p1 β 0 y 2 y =., X = 1 x 12 x p2......, β = β 1.,E = y n 1 x 1n x pn β p ε 1. ε n Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 15/26 Skattning av β och σ 2 (Kap. 11.3) MK-skattningar av β 0,..., β p (elementen i β) blir β = (X X) 1 X Y V (β ) = σ 2 (X X) 1 och skattning av σ 2 är s 2 = där residualkvadratsumman ges av Q 0 = Q 0 n (p + 1) n ( yi β0 β 1 x 1i... βpx ) 2 pi i=1 = Y Y β X Y Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 16/26

en.wikipedia.org/wiki/ordinary_least_squares#/media/file: OLS_geometric_interpretation.svg Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 17/26 Exempel: Antal frostdagar I West Virginia har man under ett antal år mätt antalet frostdagar på olika orter. Följande data har registrerats Y: Medelantalet frostdagar per år. x 1 : Ortens höjd över havet (ft). x 2 Ortens nordlig breddgrad ( ). Skatta parametrarna i modellen Y i = β 0 + β 1 x 1i + β 2 x 2i + ε i y Medelantal frostdagar 80 70 60 50 40 30 20 10 0 1000 2000 3000 4000 x1 Höjd över havet 80 70 60 50 40 30 20 10 37 38 39 40 41 x2 Nordlig latitud Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 18/26 Exempel: Antal frostdagar För data fås följande värden: 27.0 X Y = 1.89 10 5 Q 0 = 1.7798 10 3 1.07 10 3 1.59 10 2 1.64 10 3 4.06 (X X) 1 = 1.64 10 3 9.14 10 8 3.91 10 5 4.06 3.91 10 5 1.03 10 1 Bestäm: 1. Skattningar av β. 2. Konfidensintervall för β 1. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 19/26

Det anpassade regressionplanet mellan antalet frostdagar och h.ö.h. samt latitud. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 20/26 Konfidensintervall för β i (Kap. 11.5) Konfidensintervall för β i blir alltså Där d(β i ) är I βi = β i ± t a/2 (n p 1) d(β i ) d(β i ) = s element(ii) i (X X) 1 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 21/26 Skattning av punkt på planet (Kap. 11.4 11.5) Y-s väntevärde i en punkt [ x1 0 x2 0 xp] 0 ges nu av k μ Y (x0 ) = β0 + βi x0 i. i=1 V(μ Y (x 0)) = σ 2 x 0 ( X X) 1 x 0. Ett konfidensintervall för μ Y (x 0 ) blir ( 1 I μy (x 0 ) = μ Y (x0 ) ± t a/2 (n p 1) s x 0 X X) x 0 För prediktionsintervallet fås, som tidigare, genom att lägga till en etta under kvadratroten ( 1 I Y(x 0 ) = μ Y (x0 ) ± t a/2 (n p 1) s 1 + x 0 X X) x 0 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 22/26

Exempel: Antal frostdagar För data fås följande värden: 27.0 X Y = 1.89 10 5 Q 0 = 1.7798 10 3 1.07 10 3 1.5945 10 2 1.6445 10 3 4.0590 (X X) 1 = 1.6445 10 3 9.1434 10 8 3.9094 10 5 4.0590 3.9094 10 5 1.0346 10 1 Skatta medelantalet frostdagar och ett 95%-konfidensintervall då x 1 = 3 000 och x 2 = 39. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 23/26 Kolinjäritet (ex. två variabler) (Kap. 11.6) Man bör om möjligt välja sina (x 1i, x 2i )-värden så att de blir utspridda i (x 1, x 2 )-planet och inte klumpar ihop sig längs en linje. Detta ger en mer stabil grund åt regressionsplanet. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 24/26 Om y är ett polynom av x, dvs vi har Y i = β 0 + β 1 x i + β 2 x 2 i +... + β p x p i + ε i och funktionen är linjär i β p. Genom att samla polynomen av x i en matris 1 x 1 x1 2 x p 1 1 x 2 x2 2 x p 2 X =....... 1 x n xn 2 xn p kan parametrar skattas på samma sätt som tidigare. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 25/26

CO 2 halt CO 2 halt 360 350 340 330 320 Förstagradsmodell 310 0 10 20 30 Tid [år] Andragradsmodell 380 360 340 320 Residualer Residualer 4 2 0 2 Förstagradsmodell 4 0 10 20 30 1:n Andragradsmodell 1 0.5 0 0.5 300 0 10 20 30 Tid [år] 1 0 10 20 30 1:n Linjär y = α + βx, och kvadratisk, y = β 0 + β 1 x + β 2 x 2, anpassning av årlig CO 2 -halten vid Mauna Loa som funktion av året (sedan 1960). Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 26/26