Stokastiska vektorer och multivariat normalfördelning

Relevanta dokument
Föreläsning 7: Stokastiska vektorer

Stokastiska vektorer

Föreläsning 7: Punktskattningar

SF1901 Sannolikhetsteori och statistik I

Föreläsning 7: Punktskattningar

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Väntevärde och varians

SF1901: Sannolikhetslära och statistik

Föreläsning 3: Konfidensintervall

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Föreläsning 6, Matematisk statistik Π + E

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

2.1 Mikromodul: stokastiska processer

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Matematisk statistik för D, I, Π och Fysiker

Kap 2. Sannolikhetsteorins grunder

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Föreläsning 7: Punktskattningar

TAMS79: Föreläsning 6. Normalfördelning

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

Föreläsning 6, FMSF45 Linjärkombinationer

Enkel och multipel linjär regression

Sannolikhet och statistik XI

SF1901: Sannolikhetslära och statistik

Föreläsning 4: Konfidensintervall (forts.)

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Matematisk statistik för D, I, Π och Fysiker

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

Formler och tabeller till kursen MSG830

15 september, Föreläsning 5. Tillämpad linjär algebra

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

14 september, Föreläsning 5. Tillämpad linjär algebra

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Härledning av Black-Littermans formel mha allmänna linjära modellen

Matematisk statistik TMS063 Tentamen

9. Konfidensintervall vid normalfördelning

Tentamen MVE302 Sannolikhet och statistik

Sannolikheter och kombinatorik

TAMS79: Föreläsning 4 Flerdimensionella stokastiska variabler

Kurssammanfattning MVE055

SF1901: Sannolikhetslära och statistik

SF1911: Statistik för bioteknik

Summor av slumpvariabler

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Kapitel 5 Multivariata sannolikhetsfördelningar

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 5, Matematisk statistik Π + E

LINKÖPINGS UNIVERSITET EXAM TAMS 79 / TEN 1

Föreläsningsanteckningar Linjär Algebra II Lärarlyftet

Statistiska metoder för säkerhetsanalys

SF1901 Sannolikhetsteori och statistik I

Föreläsning 9: Linjär regression del II

8 Minsta kvadratmetoden

REGRESSIONSANALYS. Martin Singull

Tentamen i Matematisk Statistik, 7.5 hp

Övning 1 Sannolikhetsteorins grunder

TAMS79 / TAMS65 - vt TAMS79 / TAMS65 - vt Formel- och tabellsamling i matematisk statistik. TAMS79 / TAMS65 - vt 2013.

. b. x + 2 y 3 z = 1 3 x y + 2 z = a x 5 y + 8 z = 1 lösning?

4x az = 0 2ax + y = 0 ax + y + z = 0

SF1901: Sannolikhetslära och statistik

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen MVE301 Sannolikhet, statistik och risk

Norm och QR-faktorisering

Kovarians och kriging

Föreläsning 15: Försöksplanering och repetition

TAMS79: Föreläsning 10 Markovkedjor

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

FACIT: Tentamen L9MA30, LGMA30

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Dagens program. Linjära ekvationssystem och matriser

Föreläsning 8: Linjär regression del I

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

SF1901: SANNOLIKHETSTEORI OCH FLERDIMENSIONELLA STOKASTISKA STATISTIK VARIABLER. Tatjana Pavlenko. 8 september 2017

Föreläsning 5, FMSF45 Summor och väntevärden

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Tentamen MVE302 Sannolikhet och statistik

FINGERÖVNINGAR I SANNOLIKHETSTEORI MATEMATISK STATISTIK AK FÖR I. Oktober Matematikcentrum Matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Övningar. MATEMATISKA INSTITUTIONEN STOCKHOLMS UNIVERSITET Avd. Matematik. Linjär algebra 2. Senast korrigerad:

SF1901 Sannolikhetsteori och statistik I

Stokastiska signaler. Mediesignaler

Tentamen MVE301 Sannolikhet, statistik och risk

1 Linjära ekvationssystem. 2 Vektorer

LINJÄR ALGEBRA II LEKTION 3

Bengt Ringnér. October 30, 2006

Betingning och LOTS/LOTV

x f (x) dx 1/8. Kan likhet gälla i sistnämnda relation. (Torgny Lindvall.) f är en kontinuerlig funktion på 1 x sådan att lim a

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Bengt Ringnér. September 20, Detta är föreläsningsmanus på lantmätarprogrammet LTH vecka 5 HT07.

Föreläsning 11: Mer om jämförelser och inferens

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1

Vektorgeometri för gymnasister

Transkript:

Stokastiska vektorer och multivariat normalfördelning Johan Thim johanthim@liuse 3 november 08 Repetition Definition Låt X och Y vara stokastiska variabler med EX µ X, V X σx, EY µ Y samt V Y σy Kovariansen CX, Y definieras enligt CX, Y E X µ X Y µ Y och korrelationen mellan X och Y enligt ρx, Y CX, Y σ X σ Y Både kovarians och korrelation är ett mått på linjärt beroende mellan X och Y där korrelationen är normerad så det går att jämföra olika fall Vi listar lite kända egenskaper i Om CX, Y 0 kallas X och Y för okorrelerade ii CX, Y EXY EXEY iii Om X och Y är oberoende så är CX, Y 0 iv CX, X V X m n v C a 0 + a i X i, b 0 + b j Y j i m n a i b j CX i, Y j i vi ρx, Y med likhet om och endast om det finns ett linjärt samband mellan X och Y Observera att CX, Y 0 inte nödvändigtvis innebär oberoende Låt till exempel X vara rektangelfördelad enligt X Re, och definiera Y X Uppenbarligen beroende variabler, men CX, Y EXY EXEY EX 3 0 EY EX 3 så X och Y är okorrelerade ˆ x 3 dx 0,

Vektorer av stokastiska variabler Låt X X X X n T vara en vektor vars komponenter är stokastiska variabler Vi strävar efter att skriva vektorer som kolonnvektorer Det faller sig naturligt att definiera väntevärdet av X genom väntevärdesvektorn EX EX EX EX n T På samma sätt definierar vi väntevärdet av en matris av stokastiska variabler Variansen blir lite konstigare så vi introducerar kovariansmatrisen mellan två vektorer av samma dimension Låt Y Y, Y,, Y n T och definiera CX, Y enligt c c c n CX, Y CX, Y CX, Y n c c c n CX, Y CX, Y CX, Y CX, Y n c n c n c nn CX n, Y CX n, Y CX n, Y n där c ij är kovariansen mellan X i och Y j En stor anledning att blanda in vektorer och matriser är givetvis att få tillgång till maskineriet från linjär algebra Kovariansen mellan två vektorer X och Y kan då lite mer kompakt skrivas CX, Y EX EXY EY T EXY T EXEY T, där T innebär transponering En produkt A xy T brukar kallas för den yttre produkten och består av element a ij x i y j, i, j,,, n Detta är alltså inte skalärprodukten X T Y Låt A, B R n n vara matriser Då är AX en linjärkombination av X, X,, X n och BY en linjärkombination av Y, Y,, Y n Dessutom kan alla linjärkombinationer skrivas på detta sätt Vidare gäller nu tack varje linjäriteten att EAX AEX och CAX, BY EAXBY T EAXEBY T AEXY T B T AEXEY T B T ACX, Y B T Notationen covx, Y är också vanligt förekommande, och i fallet då Y X skriver vi ofta C X covx CX, X Exempel Låt X X X T vara en stokastisk variabel med EX T och C X 4 Hitta en prediktor X ax + b så att E X EX och V X X är minimal Lösning Vi ser direkt att så a + b Vidare gäller att så V X ax b V EaX + b aex + b a + b och EX, X ax + b a X X a X X a 4 Minimum sker uppenbarligen när a, vilket ger att b 4 b, a a C X a a + 4a + 4 a +

3 Skattningar för kovarians och korrelation Om vi har ett stickprov x k, y k, k,,, n, där X k, Y k är stokastiska variabler med samma fördelning, så skattar vi kovariansen C med och korrelationen med ρ ĉ s x s y n ĉ n n x k xy k y k n n k x k xy k y n k x k x / n n k y k y / Av tradition betecknar man ofta ρ r En naturlig fråga i detta skede är om vi kan säga något om fördelningen för den skatta korrelationen under något lämpligt antagande om det slumpmässiga stickprovet Vi återkommer i fallet med normalfördelning i nästa avsnitt 4 Multivariat normalfördelning Pain has a face Allow me to show it to you Pinhead Vi har stött på den flerdimensionella normalfördelningen tidigare, men vi kan formulera det hela lite mer kompakt på följande sätt Multivariat normalfördelning Definition Vi säger att Y har en multivariat normalfördelning om det finns en konstant vektor µ R n och en konstant matris A R n m så att Y µ + AX, där X är en vektor med stokastiska variabler, X X X X m T, och X i N0, är oberoende Är definitionen vettig? Ja, den reducerar åtminstone till det förväntade resultatet om n : Y µ + σ X där X N0, Vidare gäller så klart att EY µ + EAX µ och C Y AC X A T AA T eftersom C X är identitetsmatrisen variablerna är oberoende om har varians Låt X N, Exempel Bestäm väntevärde och varians för Y X + X 3

Lösning Vi skriver Y X X T AX Då blir och Är det klart att Y N0, 5? EY AEX T 0 C Y AC X A T T 5 Sats Om Y har väntevärdesvektorn µ och en kovariansmatris Σ som uppfyller att det Σ 0 så gäller att Y har multivariat normalfördelning om och endast om Y har den simultana täthetsfunktionen f Y y, y,, y n π n/ detσ exp y µt Σ y µ, y R n Bevis Eftersom kovariansmatrisen Σ alltid är positivt semidefinit varför? och vi antar att determinanten Σ : det Σ 0, så är Σ positivt semidefinit och då finns alltid en inverterbar matris A R n n sådan att Σ AA T Definiera Y AX + µ, där X X X X n T och X k N0, är oberoende Täthetsfunktionen för X ges då av f X x, x,, x n exp π n/ xt x, x R n Enligt transformationssatsen för flerdimensionella stokastiska variabler så kommer f Y y f X A y µ dx, x,, x n dy, y,, y n eftersom X A Y µ Vi ser att jacobianen ges av så f Y y dx, x,, x n dy, y,, y n A A, π n/ A exp π n/ AAT / exp π n/ AAT / exp A y µ T A y µ y µt A T A y µ y µt Σ y µ, där vi utnyttjat att A A / A T / AA T / Omvänt, om Y är normalfördelad så säger definitionen att det finns en matris A R n m och en vektor µ R n så att Y AX + µ för X X X X m T där X k N0, är oberoende Faktum är att m n är nödvändigt då Σ AA T antas vara inverterbar, eftersom n rankaa T min{ranka, ranka T } ty vid produkter av matriser vinner alltid den med lägst rank och ranka T ranka, så ranka n eftersom vi har n kolonner Argumentet ovan visar nu att täthetsfunktionen ges av uttrycket i satsen 4

Exempel Låt X, X N0, vara oberoende och definiera Y X X, X + X Bestäm täthetsfunktionen för Y Lösning Vi skriver Y Y X A X, där A Då blir och Således blir det C Y Alltså blir ty C Y µ Y E X A X 0 AC X A T A 0 9 och y y 9 C Y 9 A 0 0 A T AA T 5 5 f Y y, y 6π exp 5y 8 y y + y 5 y y 9 5y y y + y Sats Låt Z d + BY, där Y är multivariat normalfördelad Då är även Z multivariat normalfördelad Bevis Följer direkt från definitionen Sats För Y Nµ, Σ gäller att komponenterna i Y är oberoende om och endast om Σ är en diagonalmatris under förutsättning att A är inverterbar Bevis Kravet på att A ska vara inverterbar följer av att om så icke är fallet så är fördelningen degenererad eftersom Ax 0 har oändligt många lösningar Det är alltså självklart i detta läge att komponenterna i Y inte kan vara oberoende Så antag nu att det A 0 Den ena riktningen är mer eller mindre självklar eftersom om komponenterna i Y är oberoende kommer CY i, Y j 0 för i j och CY i, Y i σi, så C Y blir en diagonalmatris Antag nu att C Y är en diagonalmatris, säg σ 0 0 0 σ 0 0 0 σn 5

Eftersom C Y AA T kommer C Y att vara inverterbar, vilket innebär att samtliga σi 0 Inversen C Y är även den en diagonalmatrisen med diagonalelementen σ i Således blir den simultana täthetsfunktionen f Y y π n/ exp det C Y y µt Σ y µ exp n y j µ j σ π n j y j µ j σ σ σ n n exp y j µ j n f Yj y j σ j π σ j Eftersom den simultana täthetsfunktionen ges av produkten av täthetsfunktionerna för Y j följer det att variablerna är oberoende 6