Föreläsning 7: Punktskattningar

Relevanta dokument
Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Stokastiska vektorer och multivariat normalfördelning

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Kap 2. Sannolikhetsteorins grunder

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 15: Försöksplanering och repetition

Matematisk statistik för D, I, Π och Fysiker

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Föreläsning 6, Matematisk statistik Π + E

Föreläsning 7: Stokastiska vektorer

Stokastiska vektorer

Föreläsning 8: Konfidensintervall

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: Sannolikhetslära och statistik

Lektionsanteckningar 11-12: Normalfördelningen

Formel- och tabellsamling i matematisk statistik

Kapitel 5 Multivariata sannolikhetsfördelningar

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

Föreläsning 5, Matematisk statistik Π + E

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Kurssammanfattning MVE055

F9 Konfidensintervall

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

Väntevärde och varians

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 12: Linjär regression

Matematisk statistik KTH. Formelsamling i matematisk statistik

FACIT: Tentamen L9MA30, LGMA30

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik för D, I, Π och Fysiker

Stokastiska signaler. Mediesignaler

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 11: Mer om jämförelser och inferens

SF1901: SANNOLIKHETSTEORI OCH FLERDIMENSIONELLA STOKASTISKA STATISTIK VARIABLER. Tatjana Pavlenko. 8 september 2017

Demonstration av laboration 2, SF1901

Mer om konfidensintervall + repetition

2.1 Mikromodul: stokastiska processer

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Föreläsning 12: Regression

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 6, FMSF45 Linjärkombinationer

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Några extra övningsuppgifter i Statistisk teori

Sannolikhet och statistik XI

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Samplingfördelningar 1

FÖRELÄSNING 7:

Grundläggande matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

Formler och tabeller till kursen MSG830

Föreläsning 4: Konfidensintervall (forts.)

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Övning 1 Sannolikhetsteorins grunder

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen i Matematisk Statistik, 7.5 hp

Thomas Önskog 28/

Repetitionsföreläsning

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

SF1901 Sannolikhetsteori och statistik I

Sannolikheter och kombinatorik

Matematisk statistik för D, I, Π och Fysiker

TENTAMEN MÅNDAGEN DEN 22 OKTOBER 2012 KL a) Bestäm P(ingen av händelserna inträffar). b) Bestäm P(exakt två av händelserna inträffar).

SF1901 Sannolikhetsteori och statistik I

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning G60 Statistiska metoder

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Övning 3 Vecka 4,

Föreläsning 12: Repetition

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Tentamen MVE302 Sannolikhet och statistik

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

F13 Regression och problemlösning

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Matematisk statistik TMS063 Tentamen

Föreläsning 5, FMSF45 Summor och väntevärden

FÖRELÄSNING 8:

Kovarians och kriging

Statistiska metoder för säkerhetsanalys

Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005

Föreläsning 5. Kapitel 6, sid Inferens om en population

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Kompendium om flerdimensionella fördelningar för kursen S0008M Sannolikhetslära och statistik

Transkript:

Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015

Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska värden till varje utfall i Ω. För diskreta variabler har vi sannolikhetsfunktionen p X,Y (i, j) = P(X = i, Y = j). Där p X,Y (i, j) 0 och i,j p X,Y (i, j) = 1. För kontinuerliga variabler har vi en täthetsfunktion f X,Y (x, y) som är sådan att 1 f X,Y (x, y) 0, 2 f X,Y (x, y)dxdy = 1, och 3 P(a X b och c Y d) = b a d c f X,Y (x, y)dxdy. Repetition

Marginalfördelningar Givet en diskret tvådimensionell slumpvariabel (X, Y ) definieras marginalfördelningarna för X och Y som p X (i) = p Y (j) = j= i= p X,Y (i, j) p X,Y (i, j) I det kontinuerliga fallet definieras marginalfördelningarna för X och Y på motsvarande sätt som f X (x) = f Y (y) = f X,Y (x, y)dy f X,Y (x, y)dx Repetition

Väntevärden Väntevärde Givet en tvådimensionell slumpvariabel (X, Y ) definieras väntevärdena för X och Y som E(X) = { i= j= ip X,Y (i, j), xf X,Y (x, y)dxdy, i det diskreta fallet i det kontinuerliga fallet och E(Y ) = { i= j= jp X,Y (i, j), yf X,Y (x, y)dxdy, i det diskreta fallet i det kontinuerliga fallet Repetition

Väntevärden Notera att vi också kan formulera väntevärdena med marginalfördelningarna för X och Y om vi har beräknat dem först. Till exempel för det diskreta fallet har vi E(X) = = i= j= i= ip X (i) Väntevärden av funktioner ip X,Y (i, j) = i= i j= Väntevärdet av en funktion H(X, Y ) definieras som p X,Y (i, j) E(H(X, Y )) = { i= j= H(i, j)p X,Y (i, j), H(x, y)f X,Y (x, y)dxdy, diskret kontinuerlig Repetition

Beroende Oberoende slumpvariabler Två slumpvariabler X och Y sägs vara oberoende om deras täthetsfunktion (eller sannolikhetsfunktion) kan skrivas som produkten av marginalfördelningarna. Det vill säga, för det diskreta fallet p X,Y (i, j) = p X (i)p Y (j) och för det kontinuerliga fallet f X,Y (x, y) = f X (x)f Y (y). Kovarians Kovariansen mellan X och Y definieras som C(X, Y ) = E[(X µ X )(Y µ Y )] där µ X = E(X) och µ Y = E(Y ). Repetition

Kovarians Enligt definitionen kan vi skriva kovariansen som C(X, Y ) = { i= j= (i µ X)(j µ Y )p X,Y (i, i), (x µ X)(y µ Y )f X,Y (x, y), diskret, kontinuerlig, Notera att vi har att C(X, X) = V(X). Sats Kovariansen kan beräknas som C(X, Y ) = E(XY ) E(X)E(Y ) Sats Om X och Y är oberoende så är C(X, Y ) = 0 och E(XY ) = E(X)E(Y ). Repetition

Korrelation och oberoende Korrelation Den så kallade korrelationskoefficienten definieras som ρ(x, Y ) = C(X, Y ) V(X)V(Y ). Repetition Detta mått beskriver linjär samvariation mellan X och Y. Vi har att 1 ρ 1. Vi säger att X och Y är okorrelerade om ρ(x, Y ) = 0. Vi har följande samband mellan beroende och korrelation: Om X och Y är oberoende så är de okorrelerade. Om X och Y är okorrelerade så behöver de inte vara oberoende. Dessa samband är naturliga eftersom två slumpvariabler är oberoende om det inte finns någon samvariation alls mellan dem, medan de är okorrelerade om det saknas linjär samvariation.

Korrelation och kausatilitet (I) Korrelation beskriver linjärt beroende mellan två variabler. 1 Korrelation säger inget om orsakssamband (kausalitet)! (men telefoner cancer kanske är troligare än cancer telefoner) Vi kan också ha att all samvariation kan förklaras av en tredje icke uppmätt variabel. 1 Serier från xkcd.com Repetition

Korrelation och kausatilitet (II) US spending on science, space, and technology correlates with Suicides by hanging, strangulation and suffocation 2 Correlation: 0.992082 2 Källa: http://www.tylervigen.com/view_correlation?id=1597 Repetition

Korrelation och kausatilitet (III) Repetition

Den tvådimensionella normalfördelningen En vanlig modell för en kontinuerlig tvådimensionell slumpvariabel är den tvådimensionella normalfördelningen. (X, Y ) sägs ha en tvådimensionell normalfördelning om den simultana täthetsfunktionen är 1 f X,Y (x, y) = 2πσ x σ y 1 ρ 2 ( [ (x ) 2 ( ) 2 ( ) ( ) ]) 1 µx y µy x µx y µy exp 2(1 ρ 2 + 2ρ ) σ x här är (µ x, µ y ) och (σ x, σ y ) väntevärdena och standardavvikelserna för X och Y, och ρ är korrelationskoefficienten. σ y σ x σ y Repetition Den tvådimensionella normalfördelningen

Ett exempel av fördelningen med ρ = 0.5. Repetition Den tvådimensionella normalfördelningen

ρ = 0 Repetition Den tvådimensionella normalfördelningen

ρ = 0.5 Repetition Den tvådimensionella normalfördelningen

ρ = 0.9 Repetition Den tvådimensionella normalfördelningen

Egenskaper Om (X, Y ) har en tvådimensionell normalfördelning är X N(µ x, σ 2 x) Y N(µ y, σ 2 y). Vidare kan den tvådimensionella normalfördelningen endast beskriva linjär samvariation: Om ρ = 0 så är X och Y oberoende. Ett alternativt sätt att skriva täthetsfunktionen är att införa en väntevärdesvektor µ en kovariansmatris Σ µ = ( µx µ y ), Σ = ( σ 2 x σ x σ y ρ σ x σ y ρ σ 2 y ), x = ( ) x. y Vi kan då skriva täthetsfunktionen som ( 1 f X,Y (x, y) = 2π Σ exp 1 ) 2 (x µ)t Σ 1 (x µ), Repetition Den tvådimensionella normalfördelningen

Statistikteori Statistikteori

Statistikteori Än så länge i kursen har vi utgått från att vi har en slumpvariabel X med en känd fördelning, till exempel att X är normalfördelad med väntevärde µ och varians σ 2. I praktiken har vi ofta en mängd av observationer vi vill analysera och göra en modell för. Vi kan ofta resonera oss fram till vilken typ av fördelning som bör användas för X, men vi vet typiskt inte vilka parametrar vi ska använda för fördelningen. Det är detta problem som studeras i statistikteorin: givet observationer x 1,..., x n, vad kan vi säga om parametrarna i fördelningen? Statistikteori

Statistikteori Det vi först behöver är en punktskattning av parametrarna, det vill säga ett troligt värde för parametrarna. Vi vill ofta också veta något om hur säker denna skattning är. För att karakterisera osäkerheten i vår skattning använder vi oss ofta av konfidensintervall. Det vill säga ett intervall som med hög sannolikhet ska täcka det sanna värdet på parametern. Slutligen kan vi vilja testa hypoteser kring parametrana, till exempel kan vi vilja veta om µ > 0 i normalfördelningen, vilket görs via hypotesprövning. I denna föreläsning ska vi titta på punktskattningar, och efter detta studerar vi konfidensintervall och hypotesprövning. Statistikteori

Populationer Vi kommer utgå från att vi har ett stickprov av observationer x 1,..., x n som vi vill använda för att få kunskap om en population. Begreppet population kan innebära lite olika saker, vi kan skilja på två typfall: Populationen kan vara en väl avgränsad mängd saker, till exempel alla röstberättigade i sverige, eller alla varor i ett lager. I den här situationen kan vi i teorin räkna upp alla ingående element i en lista. Populationen kan också vara något lite mer abstrakt. Till exempel kan vi ha en process av vilken vi kan göra upprepade mätningar. Till exempel att kasta en tärning eller göra ett kemiskt experiment. Populationen här kan tänkas som alla möjliga slumpmässiga försök av denna typ, vilket inte har något konkret avgränsning. Statistikteori Populationer

Representativa urval I båda fallen är det viktigt att vårt stickprov är representativt för populationen, vilket betyder att det är någorlunda typiskt för populationen. Om detta inte är fallet kan vi få systematiska fel i våra skattningar. I exemplet med röstberättigade kan vi till exempel inte välja alla röstberättigade i Stockholm och använda dessa som ett representativt stickprov för alla väljare i Sverige. I fallet med en avgränsad population är den enklaste formen av representativt urval att slumpmässigt välja n element från hela populationen. I fallet med slumpmässiga försök behöver vi endast upprepa försöket n gånger för att få ett representativt urval. Statistikteori Populationer

Stickprov Stickprov Ett stickprov av storlek n är n oberoende observationer av en slumpvariabel X. Vi kan alltså skriva stickprovet som observationer av n slumpvariabler X 1,..., X n där alla X i är oberoende och likafördelade. Denna definition täcker fallet med upprepade experiment ovan, och kan oftast ses som en bra approximation i fallet med ändlig population om n är litet i förhållande till storleken på populationen. Anledningen till att det oftast måste ses som en approximation i fallet med ändlig population beror på att populationens sammansättning ändras för varje element vi drar, och observationerna kan därför inte anses vara oberoende. Statistikteori Populationer