Föreläsning 7: Stokastiska vektorer

Relevanta dokument
Stokastiska vektorer och multivariat normalfördelning

Stokastiska vektorer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Föreläsning 3: Konfidensintervall

Väntevärde och varians

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Enkel och multipel linjär regression

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Föreläsning 6, Matematisk statistik Π + E

TAMS79: Föreläsning 6. Normalfördelning

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

SF1901: Sannolikhetslära och statistik

Kap 2. Sannolikhetsteorins grunder

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 6, FMSF45 Linjärkombinationer

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

2.1 Mikromodul: stokastiska processer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

TAMS79: Föreläsning 4 Flerdimensionella stokastiska variabler

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 7: Punktskattningar

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

Sannolikheter och kombinatorik

Formler och tabeller till kursen MSG830

SF1901: Sannolikhetslära och statistik

Föreläsning 9: Linjär regression del II

Tentamen MVE302 Sannolikhet och statistik

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik TMS063 Tentamen

Kapitel 5 Multivariata sannolikhetsfördelningar

SF1901: Sannolikhetslära och statistik

Föreläsning 5, Matematisk statistik Π + E

Övning 1 Sannolikhetsteorins grunder

Föreläsning 8: Linjär regression del I

Sannolikhet och statistik XI

9. Konfidensintervall vid normalfördelning

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Härledning av Black-Littermans formel mha allmänna linjära modellen

Tentamen i Matematisk Statistik, 7.5 hp

Matematisk statistik för D, I, Π och Fysiker

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

SF1901: SANNOLIKHETSTEORI OCH FLERDIMENSIONELLA STOKASTISKA STATISTIK VARIABLER. Tatjana Pavlenko. 8 september 2017

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

REGRESSIONSANALYS. Martin Singull

Föreläsning 12: Linjär regression

Tentamen MVE301 Sannolikhet, statistik och risk

15 september, Föreläsning 5. Tillämpad linjär algebra

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 5, FMSF45 Summor och väntevärden

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Föresläsningsanteckningar Sanno II

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

SF1911: Statistik för bioteknik

Avd. Matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Uppgift 1. f(x) = 2x om 0 x 1

14 september, Föreläsning 5. Tillämpad linjär algebra

SF1901 Sannolikhetsteori och statistik I

Statistiska metoder för säkerhetsanalys

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 15: Försöksplanering och repetition

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

TAMS79 / TAMS65 - vt TAMS79 / TAMS65 - vt Formel- och tabellsamling i matematisk statistik. TAMS79 / TAMS65 - vt 2013.

Kurssammanfattning MVE055

LINKÖPINGS UNIVERSITET EXAM TAMS 79 / TEN 1

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Kovarians och kriging

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

FACIT: Tentamen L9MA30, LGMA30

FACIT: Tentamen L9MA30, LGMA30

Formel- och tabellsamling i matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

TAMS79: Föreläsning 10 Markovkedjor

Tentamen MVE302 Sannolikhet och statistik

8 Minsta kvadratmetoden

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 12: Regression

1 Linjära ekvationssystem. 2 Vektorer

Föreläsningsanteckningar Linjär Algebra II Lärarlyftet

Föreläsning 12: Repetition

SF1901: Sannolikhetslära och statistik

Betingning och LOTS/LOTV

Transkript:

Föreläsning 7: Stokastiska vektorer Johan Thim johanthim@liuse oktober 8 Repetition Definition Låt X och Y vara stokastiska variabler med EX = µ X, V X = σx, EY = µ Y samt V Y = σy Kovariansen CX, Y definieras enligt CX, Y = E X µ X Y µ Y och korrelationen mellan X och Y enligt ρx, Y = CX, Y σ Y Både kovarians och korrelation är ett mått på linjärt beroende mellan X och Y där korrelationen är normerad så det går att jämföra olika fall Vi listar lite kända egenskaper i Om CX, Y = kallas X och Y för okorrelerade ii CX, Y = EXY EXEY iii Om X och Y är oberoende så är CX, Y = iv CX, X = V X m n v C a + a i X i, b + b j Y j = i= m n a i b j CX i, Y j i= vi ρx, Y med likhet om och endast om det finns ett linjärt samband mellan X och Y Observera att CX, Y = inte nödvändigtvis innebär oberoende Låt till exempel X vara rektangelfördelad enligt X Re, och definiera Y = X Uppenbarligen beroende variabler, men CX, Y = EXY EXEY = EX 3 EY = EX 3 = så X och Y är okorrelerade ˆ x 3 dx =,

Vektorer av stokastiska variabler Låt X = X X X n T vara en vektor vars komponenter är stokastiska variabler Vi strävar efter att skriva vektorer som kolonnvektorer Det faller sig naturligt att definiera väntevärdet av X genom väntevärdesvektorn EX = EX EX EX n T På samma sätt definierar vi väntevärdet av en matris av stokastiska variabler Variansen blir lite konstigare så vi introducerar kovariansmatrisen mellan två vektorer av samma dimension Låt Y = Y, Y,, Y n T och definiera CX, Y enligt c c c n CX, Y CX, Y CX, Y n c c c n CX, Y = = CX, Y CX, Y CX, Y n c n c n c nn CX n, Y CX n, Y CX n, Y n där c ij är kovariansen mellan X i och Y j En stor anledning att blanda in vektorer och matriser är givetvis att få tillgång till maskineriet från linjär algebra Kovariansen mellan två vektorer X och Y kan då lite mer kompakt skrivas CX, Y = EX EXY EY T = EXY T EXEY T, där T innebär transponering En produkt A = xy T brukar kallas för den yttre produkten och består av element a ij = x i y j, i, j =,,, n Detta är alltså inte skalärprodukten X T Y Låt A, B R n n vara matriser Då är AX en linjärkombination av X, X,, X n och BY en linjärkombination av Y, Y,, Y n Dessutom kan alla linjärkombinationer skrivas på detta sätt Vidare gäller nu tack varje linjäriteten att EAX = AEX och CAX, BY = EAXBY T EAXEBY T = AEXY T B T AEXEY T B T = ACX, Y B T Notationen covx, Y är också vanligt förekommande, och i fallet då Y = X skriver vi ofta C X = covx = CX, X Exempel Låt X = X X T vara en stokastisk variabel med EX = T och C X = Hitta en prediktor X = ax + b så att E X = EX och V X X är minimal Lösning Vi ser direkt att så a + b = Vidare gäller att så V X ax b = V EaX + b = aex + b = a + b och EX =, X ax + b = a X X a X X = a Minimum sker uppenbarligen när a =, vilket ger att b = b, = a a C X a = a + a + = a +

3 Skattningar för kovarians och korrelation Om vi har ett stickprov x k, y k, k =,,, n, där X k, Y k är stokastiska variabler med samma fördelning, så skattar vi kovariansen C med och korrelationen med ρ = ĉ s x s y = n ĉ = n n x k xy k y k= n n k= x k xy k y n k= x k x / n n k= y k y / Av tradition betecknar man ofta ρ = r En naturlig fråga i detta skede är om vi kan säga något om fördelningen för den skatta korrelationen under något lämpligt antagande om det slumpmässiga stickprovet Vi återkommer i fallet med normalfördelning i nästa avsnitt 3 Vad innebär korrelationen grafiskt? ρ = ρ = 5 3 ρ = 9 3 ρ = 99 3 3 3 3

ρ = 7 ρ = 3 ρ = 9 3 3 ρ = 5 5 3 Multivariat normalfördelning Pain has a face Allow me to show it to you Pinhead Vi har stött på den flerdimensionella normalfördelningen tidigare, men vi kan formulera det hela lite mer kompakt på följande sätt Multivariat normalfördelning Definition Vi säger att Y har en multivariat normalfördelning om det finns en konstant vektor µ R n och en konstant matris A R n m så att Y = µ + AX, där X är en vektor med stokastiska variabler, X = X X X m T, och X i N, är oberoende Är definitionen vettig? Ja, den reducerar åtminstone till det förväntade resultatet om n = : Y = µ + σ X där X N, Vidare gäller så klart att EY = µ + AEX = µ

och C Y = AC X A T = AA T eftersom C X är identitetsmatrisen variablerna är oberoende om har varians Låt X N, Exempel Bestäm fördelningen för Y = X + X Lösning Vi skriver Y = X X T = AX Då blir EY = AEX = T = och C Y = AC X A T = T = 5 Sats Om Y har väntevärdesvektorn µ och en kovariansmatris C som uppfyller att det C så gäller att Y har multivariat normalfördelning om och endast om Y har den simultana täthetsfunktionen f Y y, y,, y n = π n/ detc exp y µt C y µ, y R n Bevis Eftersom kovariansmatrisen C alltid är positivt semidefinit varför? och vi antar att determinanten C := det C, så är C positivt semidefinit och då finns alltid en inverterbar matris A R n n sådan att C = AA T Definiera Y = AX + µ, där X = X X X n T och X k N, är oberoende Täthetsfunktionen för X ges då av f X x, x,, x n = exp π n/ xt x, x R n Enligt transformationssatsen för flerdimensionella stokastiska variabler så kommer f Y y = f X A y µ dx, x,, x n dy, y,, y n eftersom X = A Y µ Vi ser att jacobianen ges av dx, x,, x n dy, y,, y n = A = A, så f Y y = = = π n/ A exp π n/ AAT / exp π n/ AAT / exp A y µ T A y µ y µt A T A y µ y µt C y µ, 5

där vi utnyttjat att A = A / A T / = AA T / Omvänt, om Y är normalfördelad så säger definitionen att det finns en matris A R n m och en vektor µ R n så att Y = AX + µ för X = X X X m T där X k N, är oberoende Faktum är att m = n är nödvändigt då C = AA T antas vara inverterbar, eftersom n = rankaa T min{ranka, ranka T } ty vid produkter av matriser vinner alltid den med lägst rank och ranka T = ranka, så ranka = n eftersom vi har n kolonner Samma argument som ovan visar nu att täthetsfunktionen ges av uttrycket i satsen Exempel Låt X, X N, vara oberoende och definiera Y = X X, X + X Bestäm täthetsfunktionen för Y Lösning Vi skriver Y Y X = A X, där A = Då blir och Således blir det C Y Alltså blir ty C Y = 9 och y y 9 µ Y = E X A X = AC X A T = A C Y = 9 = A = A T = AA T = 5 5 f Y y, y = 6π exp 5y 8 y y + y 5 y y = 9 5y y y + y Sats Låt Z = d + BY, där Y är multivariat normalfördelad Då är även Z multivariat normalfördelad Bevis Följer direkt från definitionen Sats För Y Nµ, C gäller att komponenterna i Y är oberoende om och endast om C är en diagonalmatris under förutsättning att A är inverterbar 6

Bevis Kravet på att A ska vara inverterbar följer av att om så icke är fallet så är fördelningen degenererad eftersom Ax = har oändligt många lösningar Det är alltså självklart i detta läge att komponenterna i Y inte kan vara oberoende Så antag nu att det A Den ena riktningen är mer eller mindre självklar eftersom om komponenterna i Y är oberoende kommer CY i, Y j = för i j och CY i, Y i = σi, så C Y blir en diagonalmatris Antag nu att C Y är en diagonalmatris, säg σ σ σn Eftersom C Y = AA T kommer C Y att vara inverterbar, vilket innebär att samtliga σi Inversen C Y är även den en diagonalmatrisen med diagonalelementen σ i Således blir den simultana täthetsfunktionen f Y y = π n/ exp det C Y y µt C y µ = exp n y j µ j σ π n j y j µ j σ σ σ n n = exp y j µ j n = f Yj y j σ j π σ j Eftersom den simultana täthetsfunktionen ges av produkten av täthetsfunktionerna för Y j följer det att variablerna är oberoende Bivariat normalfördelning Specialfallet när n = förtjänar lite kommentarer eftersom den situationen frekvent dyker upp Låt X, Y vara normalfördelad med väntevärdesvektor och kovariansmatris enligt µ = µx µ Y och σx CX, Y CY, X σy σ = X ρ σ Y ρ σ Y σ Y Täthetsfunktionen ges enligt ovan av x fx, y = π σ exp µx ρ x µ X Y ρ ρ y µ Y y µy +, σ Y σ Y för x, y R Vi ser direkt att om ρ = blir det produkten av täthetsfunktionerna för två oberoende variabler, precis som satsen i föregående avsnitt påstod Men vad händer om variablerna inte är oberoende, dvs om ρ oberoende och okorrelerade är ekvivalent i normalfördelningsfallet? Låt oss beräkna den marginella tätheten f X x bara för kul fast vi har nytta av den snart För att underlätta notationen låter vi u = x µ X och v = y µ Y σ Y 7

Vi har nu x µx ρ x µ X y µ Y y µy + = u ρuv + v = v ρu + ρ u, σ Y σ Y så f X x = π σ exp ˆ Y ρ u exp v ρ ρu dy = exp ˆ u exp v πσx πσy ρ ρ ρu dv = exp u, πσx ty ˆ exp v πσy ρ ρ ρu dv = Hur ser bivariata normalfördelningar ut? Om = σ Y = och ρ = får vi följande figur: 5 5 3 3 och med = σ Y = och ρ = 9 erhåller vi 8

3 5 3 3 5 Test för ρ = Att direkt ge sig på uttrycket för ρ är komplicerat, så vi börjar lite annorlunda Låt X, Y vara bivariat normalfördelad Då har X, Y en simultan täthetsfunktion fx, y och den betingade på X = x täthetsfunktionen blir fx, y f Y X=x y x = f X x = exp v πσy ρ ρ ρu, vilket är tätheten för en normalfördelad variabel Y X = x med och EY X = x = µ Y ρ σ Y µ X + ρ σ Y x = β + β x V Y X = x = σ Y ρ Det betingade för givet X väntevärdet är alltså en rät linje y = β +β x Intressant! Åter igen något som är halvmagiskt för normalfördelningen det finns ingen fördelning ni kan misshandla lika mycket Den observante läsaren funderar nog även om detta har med regressionsanalysen att göra, vilket vi kommer till nästa föreläsning För nuvarande situation, notera specifikt att β = ρ σ Y Anledningen till denna manöver är att vi hellre betraktar tester för β än direkt för ρ Varför? Det har med ovanstående att göra linjär regression Tänk tillbaka till anda föreläsningen Där visade vi att MK-skattningen β av β ges av n β = x j xy j Y n x j x 9

och att β = Y β x Anledning till att blanda in detta är att vi på nästa föreläsning kommer att visa att σ β N β, n x j x Vi introducerar lite förenklande beteckningar Låt S x = n n x j x, S y = n n Y j Y samt S xy = n Notera nu att vi kan skriva R den stokastiska motsvarigheten till ρ som och därmed blir R = β = S xy S x S xy S x S y = R S y S x n x j xy j Y Vi introducerar det totala kvadratfelet, dvs summan av kvadraterna på skillnaden mellan mätvärden Y j och de skattade värdena β + β x j : SS E = n Y j β β x j Vi kommer även detta nästa föreläsning att visa att SS E är oberoende av β och att σ SS E χ n Vidare har denna storhet egenskapen att SS E = n S Y R vilket kan ses genom att expandera kvadraten i summan som definierar SS E : SS E = n S y β S xy + β S x = n Sy R S y S xy + R S y Sx = n S S y R x Det följer då Gossets sats att S x β β tn n E/n Sx Om nu ρ = vilket innebär att β = enligt ovan så gäller att identiteten β = SS n E/n SX rs Y /S X ns Y r n ns X = r n r medför att R n R tn Vi kan alltså använda denna storhet för att testa hypotesen H : ρ =

Exempel Astrid och Åsa grälar om två variabler är okorrelerade eller inte Vid 5 mätningar av två variabler X och Y erhöll de diagrammet till höger som spridningsplott Den empiriska korrelationen beräknades till ρ = 838 Astrid hävdar att det tyder på att ρ = medan Åsa anser att det absolut är signifikant om än lågt pga slumpen Om vi antar att X och Y är normalfördelade, testa hypotesen att H : ρ = mot H : ρ med signifikansnivån 5% 8 6 6 8 Lösning Med 5 mätningar av X, Y blir T = R n R t8 om H är sann Kritiskt område erhålls därmed som C = {t R : t > 6} ty P T 6 = 975 Med det uppmätta r = 838 blir t = 838 8 838 = 586 Eftersom t C så kan vi inte förkasta H Variablerna kan mycket väl vara okorrelerade men vi vet inte det! 5 Bonus: fördelningen för R Sats Om ρ = ges fördelningen för R av täthetsfunktionen f R r = Γ n Γ n r n /, < r < π Bevis Eftersom gs = s s är en strängt växande funktion för < s < så gäller att R n F R r = P R r = P r n R r r n = F T, r

där F T är fördelningsfunktionen för en tn -fördelad variabel Denna funktion är en integral av en kontinuerlig täthet, så vi kan derivera fram f R r = d r n r n n F T = f T dr r r r 3/ = Γ n n/ π Γ n + r r 3/ r = Γ n r n/ r 3/ = Γ n r n /, π Γ n vilket är täthetsfunktionen given i satsen π Γ n Vad händer om ρ? En fullt rimlig fråga, men fördelningen har inget trevligt utseende då inkluderar hypergeometriska funktioner