Matematisk statistik för B, K, N, BME och Kemister Föreläsning 10 Johan Lindström 27 september 2017 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 1/26 Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 2/26 Modell Skattningar Intervall μ Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 3/26
Linjär regression Modell Skattningar Intervall μ Modell (Kap. 10.2) Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N ( 0, σ 2). Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 4/26 Modell Skattningar Intervall μ Parameterskattningarna (Kap. 10.4 10.5) Skattningarna av α, β β = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 α = ȳ β x och s 2 = (σ 2 ) är s 2 = Q 0 n 2 där Q 0 = Q 0 σ 2 χ2 (n 2) = S xy n i=1 N (β, σ2 ) ( )) 1n N (α, σ 2 + x2 (y i α β x i ) 2 = S yy S2 xy Skattningarna α och β är dock inte oberoende av varandra. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 5/26 Modell Skattningar Intervall μ Konfidens- & Prediktionsintervall (Kap. 10.6 10.7) Konfidensintervall för linjen, μ 0, vid x 0 : I μ0 = α + β x 0 ± t a/2 (n 2) s 1 n + (x 0 x) 2 Prediktionsintervall för en ny mätning, Y(x 0 ), vid x 0 : I Y(x0 ) = α + β x 0 ± t a/2 (n 2) s 1 + 1 n + (x 0 x) 2 Kalibreringsintervall (Kap. 10.8) Kalibreringsintervall för x 0 = y 0 α β givet en mätning y 0, I x0 = x 0 ± t a/2(n 2) s β 1 + 1 n + (x 0 x)2 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 6/26
Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 8/26 Linjärisering av exponentiella samband För att få ett linjärt samband y i = α + βx i + ε i kan vissa exponent- och potenssamband logaritmeras. z i = a e βx i ε i z i = a t β i ε i ln ln ln z i y i ln z i y i = ln a α +β x i + ln ε i ε i = ln a +β ln t i α x i + ln ε i ε i Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 9/26 Antal transistorer 10 9 10 8 10 7 10 6 10 5 10 4 10 3 8080 4004 8008 Antal transistorer hos Intelprocessorer 8086 Intel386 TM 286 Intel Itanium 2 Intel Itanium Intel Pentium 4 Intel Pentium III Intel Pentium II Intel Pentium Intel486 TM 10 2 1970 1980 1990 2000 2010 2020 Lanseringsår Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 10/26
Exempel: Moores lag Figuren på föregående slide är baserad på Moores Lag. 1965 framförde Gordon Moore (en av Intels grundare) tesen att antalet transistorer på ett chip fördubblas vartannat år (www.cs.utexas.edu/~fussell/courses/cs352h/papers/ moore.pdf). Genom att anpassa en exponential funktion till data fås följande ln z i = 691 + 0.35x i z i = 5.13 10 301 exp(0.35x i ) där z i är antalet transistorer och x i är lanseringsår. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 11/26 5 x 108 Skattat samband: y = 5.13 10 301 e 0.35 x 4.5 4 3.5 Antal transistorer 3 2.5 2 1.5 1 0.5 0 1970 1980 1990 2000 2010 2020 Lanseringsår Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 12/26 Samband vikt och hjärnstorlek 12 10 8 Elefant (Afr) Elefant (Ind) log(hjärnvikt) [g] 6 4 2 0 Mullvad Råtta Hamster Människa Giraff Chimpans Häst Åsna GorillaKo Rhesus apa Får Gris Jaguar Varg Potar apa Get Känguru Katt Kanin Ekorrbäver Marsvin Brachiosaurus ( ) Triceratops ( ) ( ) Diplodocus Mus 2 4 2 0 2 4 6 8 10 12 log(kroppsvikt) [kg] Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 13/26
Repetition Linjär regression Modell Parameterskattningar Intervall för linjen Exponentiella samband Multipel regression Skattningar Ex: Antal frostdagar Konfidensintervall Kolinjäritet Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 14/26 Multipel regression (Kap. 11.2) Modellen y i = β 0 + β 1 x 1i +... + β p x pi + ε i, kan skrivas på matrisform som Y = Xβ + E ( ε i N 0, σ 2) oberoende där Y och E är n 1-vektorer, β en (p + 1) 1-vektor och X en n (p + 1)-matris y 1 1 x 11 x p1 β 0 y 2 y =., X = 1 x 12 x p2......, β = β 1.,E = y n 1 x 1n x pn β p ε 1. ε n Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 15/26 Skattning av β och σ 2 (Kap. 11.3) MK-skattningar av β 0,..., β p (elementen i β) blir β = (X X) 1 X Y V (β ) = σ 2 (X X) 1 och skattning av σ 2 är s 2 = där residualkvadratsumman ges av Q 0 = Q 0 n (p + 1) n ( yi β0 β 1 x 1i... βpx ) 2 pi i=1 = Y Y β X Y Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 16/26
en.wikipedia.org/wiki/ordinary_least_squares#/media/file: OLS_geometric_interpretation.svg Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 17/26 Exempel: Antal frostdagar I West Virginia har man under ett antal år mätt antalet frostdagar på olika orter. Följande data har registrerats Y: Medelantalet frostdagar per år. x 1 : Ortens höjd över havet (ft). x 2 Ortens nordlig breddgrad ( ). Skatta parametrarna i modellen Y i = β 0 + β 1 x 1i + β 2 x 2i + ε i y Medelantal frostdagar 80 70 60 50 40 30 20 10 0 1000 2000 3000 4000 x1 Höjd över havet 80 70 60 50 40 30 20 10 37 38 39 40 41 x2 Nordlig latitud Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 18/26 Exempel: Antal frostdagar För data fås följande värden: 27.0 X Y = 1.89 10 5 Q 0 = 1.7798 10 3 1.07 10 3 1.59 10 2 1.64 10 3 4.06 (X X) 1 = 1.64 10 3 9.14 10 8 3.91 10 5 4.06 3.91 10 5 1.03 10 1 Bestäm: 1. Skattningar av β. 2. Konfidensintervall för β 1. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 19/26
Det anpassade regressionplanet mellan antalet frostdagar och h.ö.h. samt latitud. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 20/26 Konfidensintervall för β i (Kap. 11.5) Konfidensintervall för β i blir alltså Där d(β i ) är I βi = β i ± t a/2 (n p 1) d(β i ) d(β i ) = s element(ii) i (X X) 1 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 21/26 Skattning av punkt på planet (Kap. 11.4 11.5) Y-s väntevärde i en punkt [ x1 0 x2 0 xp] 0 ges nu av k μ Y (x0 ) = β0 + βi x0 i. i=1 V(μ Y (x 0)) = σ 2 x 0 ( X X) 1 x 0. Ett konfidensintervall för μ Y (x 0 ) blir ( 1 I μy (x 0 ) = μ Y (x0 ) ± t a/2 (n p 1) s x 0 X X) x 0 För prediktionsintervallet fås, som tidigare, genom att lägga till en etta under kvadratroten ( 1 I Y(x 0 ) = μ Y (x0 ) ± t a/2 (n p 1) s 1 + x 0 X X) x 0 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 22/26
Exempel: Antal frostdagar För data fås följande värden: 27.0 X Y = 1.89 10 5 Q 0 = 1.7798 10 3 1.07 10 3 1.5945 10 2 1.6445 10 3 4.0590 (X X) 1 = 1.6445 10 3 9.1434 10 8 3.9094 10 5 4.0590 3.9094 10 5 1.0346 10 1 Skatta medelantalet frostdagar och ett 95%-konfidensintervall då x 1 = 3 000 och x 2 = 39. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 23/26 Kolinjäritet (ex. två variabler) (Kap. 11.6) Man bör om möjligt välja sina (x 1i, x 2i )-värden så att de blir utspridda i (x 1, x 2 )-planet och inte klumpar ihop sig längs en linje. Detta ger en mer stabil grund åt regressionsplanet. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 24/26 Om y är ett polynom av x, dvs vi har Y i = β 0 + β 1 x i + β 2 x 2 i +... + β p x p i + ε i och funktionen är linjär i β p. Genom att samla polynomen av x i en matris 1 x 1 x1 2 x p 1 1 x 2 x2 2 x p 2 X =....... 1 x n xn 2 xn p kan parametrar skattas på samma sätt som tidigare. Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 25/26
CO 2 halt CO 2 halt 360 350 340 330 320 Förstagradsmodell 310 0 10 20 30 Tid [år] Andragradsmodell 380 360 340 320 Residualer Residualer 4 2 0 2 Förstagradsmodell 4 0 10 20 30 1:n Andragradsmodell 1 0.5 0 0.5 300 0 10 20 30 Tid [år] 1 0 10 20 30 1:n Linjär y = α + βx, och kvadratisk, y = β 0 + β 1 x + β 2 x 2, anpassning av årlig CO 2 -halten vid Mauna Loa som funktion av året (sedan 1960). Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 26/26