Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Relevanta dokument
FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 12: Linjär regression

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 7: Punktskattningar

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Föreläsning 7: Punktskattningar

Föreläsning 11: Mer om jämförelser och inferens

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 7: Punktskattningar

Formel- och tabellsamling i matematisk statistik

Föreläsning 12: Regression

F13 Regression och problemlösning

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 6, FMSF45 Linjärkombinationer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Formler och tabeller till kursen MSG830

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Höftledsdysplasi hos dansk-svensk gårdshund

MVE051/MSG Föreläsning 14

Tenta i Statistisk analys, 15 december 2004

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Regressions- och Tidsserieanalys - F1

Föreläsning 6, Matematisk statistik Π + E

Matematisk statistik för B, K, N, BME och Kemister

Grundläggande matematisk statistik

Multivariata metoder

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Föreläsningsanteckningar till kapitel 8, del 2

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 7: Stokastiska vektorer

Medicinsk statistik II

Tentamen MVE301 Sannolikhet, statistik och risk

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Metod och teori. Statistik för naturvetare Umeå universitet

Mer om konfidensintervall + repetition

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

S0005M, Föreläsning 2

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Kovarians och kriging

Föreläsning 5 och 6.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Föreläsning 15, FMSF45 Multipel linjär regression

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1901: Sannolikhetslära och statistik

Stokastiska vektorer

oberoende av varandra så observationerna är

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

F9 Konfidensintervall

Föreläsning 4: Konfidensintervall (forts.)

Tentamen MVE302 Sannolikhet och statistik

Gamla tentor (forts) ( x. x ) ) 2 x1

Avd. Matematisk statistik

Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00. English Version

Föreläsning 7. Statistikens grunder.

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 13: Multipel Regression

Stokastiska vektorer och multivariat normalfördelning

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

0 om x < 0, F X (x) = c x. 1 om x 2.

TENTAMEN MÅNDAGEN DEN 22 OKTOBER 2012 KL a) Bestäm P(ingen av händelserna inträffar). b) Bestäm P(exakt två av händelserna inträffar).

F9 SAMPLINGFÖRDELNINGAR (NCT

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

SF1901 Sannolikhetsteori och statistik I

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

FACIT: Tentamen L9MA30, LGMA30

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 11, Matematisk statistik Π + E

Grundläggande matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

Kurskod: TAMS11 Provkod: TENB 12 January 2015, 08:00-12:00. English Version

Lycka till!

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen i matematisk statistik

Transkript:

Föreläsning 11. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik för STS vt 2014

Old Faithful Old Faithful Eruption times 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 50 60 70 80 90 Waiting times

Dagens föreläsning Överblick: Korrelationskoefficient ρ Multivariat normalfördelning Inferens kring ρ Fishers z-transform Spearmans test

Korrelationskoefficient Korrelationskoefficient för slumpvariabler X och Y : ρ XY = C[X, Y ] V[X ] V[Y ] Pga Cauchy-Schwartz olikhet gäller 1 ρ 1. Ett uttryck för graden av linjärt beroende. Korrelationskoefficient för stickprov x 1,..., x n och y 1,..., y n : r = S xy Sxx S yy där S xx = (x i x) 2, S xy = (x i x)(y i ȳ), S yy = (y i ȳ) 2.

Typ av samband Betrakta följande observationer (x, y): (0, 0), (2, 16), (3, 81), (6, 1296). Skattad korrelationskoefficient: r = 0.84, förhållandevis högt värde. Det verkar dock här finnas ett tydligt funktionssamband mellan x och y (i själva verket: y = x 4 ). 1400 1200 1000 800 600 400 200 0 0 1 2 3 4 5 6

Population mean vector, covariance matrix Consider a random vector X = (X 1,..., X p ). Population mean vector: where E[X] = µ µ = µ 1 µ 2. µ p Covariance matrix: Σ = E(X µ)(x µ) σ 11 σ 12 σ 1p σ 12 σ 22 σ 2p =...... σ 1p σ 2p σ pp and µ j = E[X j ].

Population correlation matrix Population correlation coefficient ρ ik = σ ik σii σkk Population correlation matrix 1 ρ 12 ρ 1p ρ 12 1 ρ 2p ρ =...... ρ 1p ρ 2p 1

Standard deviation matrix Standard deviation matrix σ11 0 0 V 1/2 0 σ22 0 =...... 0 0 σpp Some relations: Σ = V 1/2 ρ V 1/2 ρ = (V 1/2 ) 1 Σ (V 1/2 ) 1

Standardized variables IMPORTANT FACT: The sample covariance matrix of the standardized variables is the correlation matrix of the original variables.

Multivariate Normal Distribution Mathematical tractability Multivariate central limit theorem Suitable for modelling of naturally occuring phenomena We write X N p (µ, Σ). Density: f (x) = 1 (2π) p/2 (det(σ)) 1/2 exp { (x µ) Σ 1 (x µ)/2 }, x R p

Illustration, Multivariate Normal Example: µ = [ 3 2 ] [, Σ = 1 1.5 1.5 4 ].

Properties Linear combinations of the components are normally distributed All subsets of X are normally distributed. Zero correlation is equivalent to statistical independence Conditional distributions are normally distributed

Geometrical Interpretation Contours of constant density for the p dimensional normal distribution are ellipsoids defined by x such that (x µ) Σ 1 (x µ) = c 2 These ellipsoids are centered at µ and have axes ±c λ i e i, where Σe i = λ i e i, i = 1,..., p

Ellipsoids and Probabilities The solid ellipsoid of x values satifying has probability 1 α. (x µ) Σ 1 (x µ) χ 2 p(α) 4 3 2 1 0 1 2 3 4 4 4 2 2 0 0 2 2 4 4

Korrelationskoefficient för ett stickprov Korrelationskoefficient: r = S xy Sxx S yy där S xx = (x i x) 2, S xy = (x i x)(y i ȳ), S yy = (y i ȳ) 2. Man kan visa att approximativt gäller Fördelning. Då ρ = 0 gäller att E[r] = ρ, V[r] = (1 ρ2 ) 2 r n 2 t(n 2) 1 r 2 n

Fördelning för ρ Density function, n=10 Density function, n=100 function(x) dpearson(x, N = 10, rho = 0) (x) 0.0 0.2 0.4 0.6 0.8 1.0 function(x) dpearson(x, N = 100, rho = 0) (x) 0 1 2 3 4 1.0 0.5 0.0 0.5 1.0 x 1.0 0.5 0.0 0.5 1.0 x Density function, n=10 Density function, n=1000 function(x) dpearson(x, N = 10, rho = 0.7) (x) 0.0 0.5 1.0 1.5 2.0 2.5 function(x) dpearson(x, N = 10, rho = 0.7) (x) 0.0 0.5 1.0 1.5 2.0 2.5 1.0 0.5 0.0 0.5 1.0 x 1.0 0.5 0.0 0.5 1.0 x

Fishers z-transform Betrakta Z = 1 ( ) 1 + r 2 ln. 1 r Det gäller approximativt att Z N(0, 1). Gauss approximationsformler 1 : E[Z] 1 ( ) 1 + ρ 2 ln, V[Z] 1 1 ρ n 3 Approximativa konfidensintervall kan konstrueras. 1 Presenteras i kursen Statistisk riskanalys 1MS027

Exempel Kronbladen hos svärdsliljan studeras. Tillgängligt: Observationer av längd (x) och bredd (y) hos 50 kronblad hos svärdslilja (Iris setosa canadensis). Antag att mätningarna kommer från en tvådimensionell normalfördelning. Bestäm ett 95% konfidensintervall för korrelationen ρ. [Tavlan]

Samband: Korrelationskoefficient och förklaringsgrad Betrakta korrelationkoefficienten r xy = c xy s x s y där och s 2 x = 1 n 1 c xy = 1 n 1 n i=1 n (x i x)(y i ȳ) i=1 (x i x) 2, s 2 y = 1 n 1 n (y i ȳ) 2 i=1 Man kan visa (Stokastik, Sats 9.1) att r 2 xy = R 2. [Tavlan]

Statistiska test Hypotesen ρ = 0 kan testas genom att utnyttja att r n 2 t(n 2) 1 r 2 I en modell för enkel linjär regression y = α + βx kan man testa hypotesen β = 0 genom att utnyttja att Släktskap finns. β s/ S xx t(n 2)

Typ av samband (igen) Betrakta följande observationer (x, y): (0, 0), (2, 16), (3, 81), (6, 1296). Skattad korrelationskoefficient: r = 0.84, förhållandevis högt värde. Det verkar dock här finnas ett tydligt funktionssamband mellan x och y (i själva verket: y = x 4 ). 1400 1200 1000 800 600 400 200 0 0 1 2 3 4 5 6

Spearmans rangkorrelationskoefficient Givet: n observationspar (x 1, y 1 ),..., (x n, y n ). Rangordna och tilldela i vardera följden ordningstalen 1 till n. Låt d j vara differensen mellan rangerna i det j:te talparet. Spearmans rangkorrelationskoefficient: där S = n j=1 d 2 j. Hypotes: r s = 1 6S n 3 n H 0 : X och Y är oberoende Test: Förkasta H 0 om r s a. Om n stort (n 10) gäller att u = n 1r s är en obs från N(0, 1) (osv.)

Exempel Man undersökte förändring i puls hos 10 personer som höll andan så länge de kunde. Försöket genomfördes vid normal rumstemperatur och personerna höll huvudet i vatten, dels med temperaturen 10 C, dels med temperaturen 30 C. Mätresultat anges för varje individ som minskning av antalet slag per minut. [Tavlan]

En omnibus-rutin för test av korrelationskoefficient med R Som alternativ kan väljas Pearson Spearman Kendall cor.test

Partiell korrelation NE: Den korrelation mellan två variabler som kvarstår efter det att den del i de bägge variablerna som kan predikteras (linjärt) från en tredje variabel har eliminerats. Betrakta slumpvariablerna X 1, X 2 och X 3 med korrelationskoefficienterna ρ 12, ρ 13 och ρ 23. Motsvarande stickprovskorrelationskoefficienter: r 12, r 13 och r 23. Partiell korrelationskoefficient (engelska: partial correlation coefficient): r 12 r 13 r 23 r 12 3 = (1 r13 2 )(1 r 23 2 ) (Källa: G.W. Snedecor, W.G. Cochran: Statistical Methods (6th ed) R-rutin: pcor.test

Test kan utföras; denna korrelation är inte signifikant (skild från noll). Det kan inte uteslutas att för flera åldrar är B och C okorrelerade. Exempel Slumpmässigt stickprov om 142 äldre kvinnor från Iowa (IA) och Nebraska (NE). Variabler: Från data: A: Ålder, B: Blodtryck, C: Kolesterolhalt r AB = 0.3332, r AC = 0.5029, r BC = 0.2495. Det anses känt att B och C ökar med ökande ålder. Kan B och C anses vara korrelerade pga. deras gemensamma förhållande till ålder? Vi beräknar r BC A = 0.2495 0.3332 0.5029 (1 0.3332 2 )(1 0.5029 2 ). = 0.1005.

Kursen är slut! Lycka till med statistiska analyser i fortsatta studier och arbetsliv! Välkommen att läsa ytterligare fortsättningskurser! :-)