Jesper Rydén. Matematiska institutionen, Uppsala universitet jesper@math.uu.se. Tillämpad statistik för STS vt 2014



Relevanta dokument
Regression med kvalitativa variabler. Jesper Rydén

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Föreläsning 14: Försöksplanering

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Föreläsning 9: Hypotesprövning

Extrauppgifter. Uppgifter. 1. Den stokastiska variabeln Y t(10). Bestäm c så att P ( c < Y < c) = 0.95.

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Statistik 1 för biologer, logopeder och psykologer

10.1 Enkel linjär regression

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Regression

Finansiell statistik. Multipel regression. 4 maj 2011

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F1

Matematisk statistik för D, I, Π och Fysiker

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Statistik och epidemiologi T5

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Regressions- och Tidsserieanalys - F1

Föreläsning 12: Linjär regression

Uppgift

Tentamen i Matematisk statistik Kurskod S0001M

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Laboration 3: Enkel linjär regression och korrelationsanalys

F13 Regression och problemlösning

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Summor av slumpvariabler

Resultatet läggs in i ladok senast 13 juni 2014.

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Lösningar till SPSS-övning: Analytisk statistik

Statistiska metoder för säkerhetsanalys

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Grundläggande matematisk statistik

TAMS65 - Seminarium 4 Regressionsanalys

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Avd. Matematisk statistik

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Regressionsanalys av huspriser i Vaxholm

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik, Föreläsning 5

Enkel och multipel linjär regression

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Multipel Regressionsmodellen

Tentamen i Matematisk statistik Kurskod S0001M

parametriska test Mätning Ordinalskala: Nominalskala:

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

Multipel regression och Partiella korrelationer

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 01 June 2015, 8:00-12:00. English Version

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 23 maj 2013 kl. 9 14

1. Frekvensfunktionen nedan är given. (3p)

F19, (Multipel linjär regression forts) och F20, Chi-två test.

MVE051/MSG Föreläsning 14

1 Förberedelseuppgifter

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Linjär regressionsanalys. Wieland Wermke

Föreläsning 15, FMSF45 Multipel linjär regression

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F3

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Metod och teori. Statistik för naturvetare Umeå universitet

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Lunds tekniska högskola Matematikcentrum Matematisk statistik

oberoende av varandra så observationerna är

Examinationsuppgifter del 2

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Uppgift 1. Deskripitiv statistik. Lön

Matematisk statistik KTH. Formelsamling i matematisk statistik

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 11: Mer om jämförelser och inferens

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Regressions- och Tidsserieanalys - F4

7.5 Experiment with a single factor having more than two levels

Laboration 2: Styrkefunktion samt Regression

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Möbiustransformationer.

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Transkript:

Föreläsning 8. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik för STS vt 2014

Exempel: Pris och boyta Samband mellan två eller flera variabler? Spridningsdiagram kan indikera samband Matematisk/stokastisk modell?

Enkel linjär regression Observationer y 1,..., y n av variablerna Y 1,..., Y n, antas oberoende med gemensam varians σ 2. Väntevärdet µ i = E[Y i ] beror på givna storheter. Enkel linjär regression: µ i = α + β x i, i = 1,..., n Linjär syftar på uttryckets linjäritet i parametrarna (α, β). Även t.ex. µ i = α + β 1 x i + β 2 x 2 i + β 3 sin x i innebär (multipel) linjär regression.

Modell Låt x 1,..., x n vara givna (icke slumpmässiga) storheter. Antag vidare att Y 1,..., Y n är oberoende slumpvariabler med gemensam varians σ 2 och att µ i = α + βx i. Vi har då en enkel linjär regressionsmodell. Storheten x kallas regressor eller förklarande variabel eller oberoende variabel. Slumpvariabeln Y (eller dess observerade värde y) kallas för responsvariabel eller beroende variabel. Linjen för väntevärdet y = α + βx kallas för den teoretiska regressionslinjen, α benämnes intercept och β lutningskoefficient.

Enkel linjär regression Minstakvadratmetoden används för att finna punktskattningar. Sök de parametrar som minimerar Q = n (y i α βx i ) 2. i=1 Man finner punktskattningarna β = n i=1 y ix i n xȳ n i=1 x 2 i n x 2, α = ȳ β x, där ȳ = n 1 y i och x = n 1 x i. Skattad modell: med residualer y i = α + β x i e i = y i y i

Idé: Minimera kvadratsumma

Historisk kommentar: MK-metoden The method of least squares is the automobile of modern statistical analysis: despite its limitations, occasional accidents, and incidental pollution, it and its numerous variations, extensions, and related conveyances carry the bulk of statistical analyses, and are known and valued by nearly all. But there has been some dispute, historically, as who was the Henry Ford of statistics. SM Stigler (1981)

En vetenskaplig dispyt Adrien-Marie Legendre (1752-1833) Carl Friedrich Gauss (1777-1855) Publikation om metoden 1805. Publikation om metoden 1809.

J.D. Forbes experiment Estimate altitude above sea level from measurements of boiling point of water. Motivation: Difficulties in transportation of fragile barometers. 32 30 Barometric pressure (inches Hg) 28 26 24 22 20 195 200 205 210 Boiling point (F)

Residuals (Forbes data) 0.8 0.6 Residual value 0.4 0.2 0 0.2 0.4 0 2 4 6 8 10 12 14 16 Residual number

Residuals (Forbes data) 5 Normal probability plot 4 3 Quantile 2 1 0 1 2 0.4 0.2 0 0.2 0.4 0.6 0.8 Data

Varning: Orsak/verkan Beakta variablers inverkan! Datas karaktär: tvärsnittsdata (insamlat vid en given tidpunkt) eller longitudinella (insamlade över tid). Datainsamling? Experiment, enkäter; samhällsvetenskap/naturvetenskap.

Förklaringsgrad: Enkel linjär regression Förklaringsgrad: R 2 = 1 n i=1 e2 i n i=1 (y i ȳ) 2 Det gäller alltid 0 R 2 1. Ju närmare R 2 = 1, desto bättre anpassning För enkel linjär regression gäller R 2 = r 2 där r 2 är den kvadrerade skattade korrelationskoefficienten.

Enkel linjär regression: prediktion av väntevärde Givet x = x 0, prediktera värdet av beroende variabeln y genom att använda linjen: y 0 = α + β x 0 Man finner E[Y0 ] = α + βx 0 [ 1 V[Y0 ] = σ 2 n + (x 0 x) 2 ] n i=1 (x i x) 2

Enkel linjär regression: prediktionsintervall En framtida observation y 0 svarande till x 0 ; vi är intresserade av differensen y 0 y 0. E[Y 0 Y 0 ] = 0 V[Y 0 Y0 ] = V[Y 0 ] + V[Y0 ] [ = σ 2 1 + 1 n + (x 0 x) 2 ] n i=1 (x i x) 2

Forbes data 32 Barometric pressure (inches Hg) 30 28 26 24 22 20 18 190 195 200 205 210 215 Boiling point (F)

Regression med fel i bägge variablerna * EIV-modell (Error In Variables). Givet: observationspar (x 1, y 1 ),..., (x n, y n ). x i = ξ i + δ i y i = β 0 + β 1 ξ i + ɛ i där ξ i är okända värden och δ i samt ɛ i är oberoende fel med varianser σ 2 δ resp. σ2 ɛ. MK- och ML-skattningar kan härledas.

Multipel regression Beroende variabel (responsvariabel): y Oberoende variabler (förklarande variabler, regressorvariabler, carriers): x 1, x 2,..., x k Matematiskt samband: y = f (x 1, x 2,..., x k ) där f () är en funktion. Linjär modell Exempel, p = 2: y = β 0 + β 1 x 1 + β 2 x 2 + ɛ OBS! Linjäriteten avser parametrarna β i. Även y = β 0 + β 1 x 1 + β 2 x 2 + β 11 x 2 1 + β 22 x 2 2 + β 12 x 1 x 2 + ɛ är att betrakta som en linjär modell.

Responsytor, exempel 1 y = 35.5 + 10.5x 1 + 5.5x 2 + 0.5x 1 x 2

Responsytor, exempel 2 y = 35.5 + 10.5x 1 + 5.5x 2 + 8x 1 x 2

Multipel regression: matrisnotation Matrisnotation: där och y = y 1 y 2. y n y = Xβ + ɛ 1 x 11 x 12... x ik, X = 1 x 21 x 22... x 2k...... 1 x n1 x n2... x nk β = β 0 β 1. β k ɛ 1, ɛ = ɛ 2. ɛ n

Enkel linjär regression: matrisnotation Matrisnotation: där och y = β = y 1 y 2. y n y = Xβ + ɛ 1 x 1 1 x 2, X =.. 1 x n [ β0 β 1 ɛ 1 ] ɛ 2, ɛ =. ɛ n

MK-metoden för estimering av parametrar Miniminera L(β) = (y Xβ) T (y Xβ) vilket leder till normalekvationerna X T X β = X T y och MK-skattningen β = (X T X) 1 X T y Anmärkning. Vid numerisk behandling används ofta en QR-faktorisering av matrisen X.

Anpassade värden och hattmatris Anpassade värden ŷ ges av ŷ = X ˆβ = Hy där H = X(X T X) 1 X T ofta kallas hattmatrisen. Residualer: e = y ŷ

Mer om skattningar Egenskaper hos skattningen ˆβ Väntevärdesriktig skattning med Cov(ˆβ) = σ 2 (X T X) 1 Skattning av σ 2 Inför residualkvadratsumman Q 0 = SS E = e T e = n (y i ŷ i ) 2 i=1 En väntevärdesriktig skattning ges av ˆσ 2 = Q 0 n k 1 och vidare gäller 1 σ 2 Q 0 χ 2 (n k 1) (följer av räkneregler för linjärkomb. av stok. vektor)

Spjälkning av kvadratsummor Man kan visa att n (y i ȳ) 2 = i=1 n n (ŷ i ȳ) 2 + (y i ŷ i ) 2 i=1 i=1 Tolkning: Total variation = Förklarad variation + Oförklarad variation Vanlig engelsk beteckning: SS T = SS R + SS E Kompendium: Q TOT = Q REGR + Q RES

Förklaringsgrad Förklaringsgrad (coefficient of multiple determination): R 2 = SS R SS T = 1 SS E SS T Ju fler förklarande variabler, desto högre värde på R 2. Emellanåt används dessutom en besläktad storhet. Justerad förklaringsgrad (adjusted R 2 statistic): R 2 adj = 1 SS E /(n k 1) SS R /(n 1) = 1 ( ) n 1 (1 R 2 ) n k 1

Statistisk analys: Test av regression Antag att ɛ i N(0, σ 2 ). Hypoteser: Teststorhet: H 0 : β 1 = β 2 = = β k = 0 H 1 : F 0 = β j 0 för minst ett j SS R /k SS E /(n k 1) Förkasta H 0 om F 0 > F α (n k 1). SS E = y T y ˆβ T X T y SS R = ˆβ T X T y ( n i=1 y i) 2 n

Test av enskilda parametrar Hypoteser: H 0 : β j = 0 mot H 1 : β j 0 Beteckna i matrisen (X T X) 1 elementen med c ij. Då gäller β j N(β j, σ 2 c jj ). Teststorhet: t 0 = ˆβ j 0 ˆσ 2 c jj Förkasta H 0 om t 0 > t α/2 (n k 1).

Konfidensintervall Ett 100(1 α) % konfidensintervall för β j, j = 0, 1,..., k, ges av ( ) ˆβ j t α/2 (n k 1) ˆσ 2 c jj, ˆβ j + t α/2 (n k 1) ˆσ 2 c jj Konfidensintervall för väntevärde vid x 0 : ( ) x T ˆβ 0 ± t α/2 (n k 1) ˆσ 2 x T0 (XT X) 1 x 0 Prediktionsintervall vid vid x 0 : ( ) x T ˆβ 0 ± t α/2 (n p) 1 + ˆσ 2 x T0 (XT X) 1 x 0

Exempel med R: Miljögifter och fiskar Studier av DDT-halten hos fiskarter utefter en flod i Alabama. En kemisk industri finns belägen längs floden. Totalt gjordes mätningar på 144 fiskar. De fem första observationerna: River Mile Species Length Weight DDT 1 FCM 5 CCATFISH 42.50 732 10.00 2 FCM 5 CCATFISH 44.00 795 16.00 3 FCM 5 CCATFISH 41.50 547 23.00 4 FCM 5 CCATFISH 39.00 465 21.00 5 FCM 5 CCATFISH 50.50 1252 50.00

Exempel med R: Miljögifter och fiskar Antag att vi vill skatta parametrar i modellen y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + ɛ Responsvariabel: y =DDT Förklarande variabler: x 1 =Mile, x 2 =Length, x 3 =Weight Call: lm(formula = DDT Mile + Length + Weight, data = fishes) Estimate Std. Error t value Pr(> t ) (Intercept) -108.0677 62.7004-1.72 0.0870 Mile 0.0851 0.0822 1.03 0.3025 Length 3.7709 1.6189 2.33 0.0213 Weight -0.0494 0.0293-1.69 0.0935 Residual standard error: 97.48 on 140 degrees of freedom Multiple R-squared: 0.03887, Adjusted R-squared: 0.01827 F-statistic: 1.887 on 3 and 140 DF, p-value: 0.1345

Miljögifter och fiskar (a) Ange en skattning av standardavvikelsen σ för ɛ. Från R-utskriften finner vi direkt σ = 97.48. (b) Ger data tillräckligt belägg för att dra slutsatsen att DDT-halten ökar med ökande längd (signifikansnivå 0.05)? Hypotestest: H 0 : β 2 = 0 H 1 : β 2 > 0 Från R-utskriften finner vi värde på teststorheten för t-test: t = 2.33. Under antagande om normalfördelade residualer förkastas H 0 om t > t 0.05 (142). = 1.66, dvs. vi förkastar här H 0. Alternativt, studera motsvarande p-värde för aktuell variabel (ges i utskriften): p = 0.0213/2 = 0.01065. Slutsats: Förkasta H 0 på nivån 0.05.

Miljögifter och fiskar (c) Beräkna ett 95% konfidensintervall för β 3. Tolka intervallet. Ett intervall ges av I β3 = [β 3 ± t 0.025 (142)d[β 3] ] R-utskriften: β3. = 0.0494 och medelfelet d[β3 ] =. 0.0293. Tabell eller dator ger t 0.025 (142) =. 1.98. Intervallet ges av [ 0.11, 0.0085]. Tolkning: För varje grams ökning av fiskens vikt kan vi med 95% säkerhet slå fast att ökningen i DDT-halt ligger i intervallet [ 0.11, 0.0085], om övriga variabler i modellen, Mile och Length, hålls konstanta.

Miljögifter och fiskar (d) Testa regressionsmodellen på signifikansnivån 0.05. Hypotestest: H 0 : β 1 = β 2 = β 3 = 0 H 1 : Minst ett β i 0 Detta kan testas med ett F-test, värdet på teststorheten kan utläsas: F = 1.89. H 0 förkastas om F > F 0.05 (3, 140) = 2.67, dvs. i detta fall förkastas inte H 0. Motsvarande p-värde kan utläsas: p = 0.1345; förkasta inte H 0 på någon av de vanligast förekommande nivåerna. De förklarande variablerna förklarar inte tillräckligt bra responsvariabeln.