Föreläsning 7: Punktskattningar

Relevanta dokument
Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Föreläsning 8: Konfidensintervall

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Föreläsning 15: Försöksplanering och repetition

Kap 2. Sannolikhetsteorins grunder

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

F9 Konfidensintervall

Lektionsanteckningar 11-12: Normalfördelningen

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Föreläsning 11: Mer om jämförelser och inferens

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Kurssammanfattning MVE055

Matematisk statistik för D, I, Π och Fysiker

Stokastiska vektorer och multivariat normalfördelning

Formel- och tabellsamling i matematisk statistik

Kapitel 5 Multivariata sannolikhetsfördelningar

Mer om konfidensintervall + repetition

Väntevärde och varians

Föreläsning 6, Matematisk statistik Π + E

Föreläsning 12: Linjär regression

Stokastiska signaler. Mediesignaler

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

SF1901: Sannolikhetslära och statistik

Föreläsning 12: Regression

Några extra övningsuppgifter i Statistisk teori

F13 Regression och problemlösning

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 5, Matematisk statistik Π + E

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

TENTAMEN MÅNDAGEN DEN 22 OKTOBER 2012 KL a) Bestäm P(ingen av händelserna inträffar). b) Bestäm P(exakt två av händelserna inträffar).

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Stokastiska vektorer

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Samplingfördelningar 1

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

FACIT: Tentamen L9MA30, LGMA30

Föreläsning 12: Repetition

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Repetitionsföreläsning

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsning G60 Statistiska metoder

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Tentamen MVE302 Sannolikhet och statistik

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

FÖRELÄSNING 8:

Demonstration av laboration 2, SF1901

SF1901: SANNOLIKHETSTEORI OCH FLERDIMENSIONELLA STOKASTISKA STATISTIK VARIABLER. Tatjana Pavlenko. 8 september 2017

Välkommen till Matematik 3 för lärare!

Övning 1 Sannolikhetsteorins grunder

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

FÖRELÄSNING 7:

Kovarians och kriging

Sannolikhet och statistik XI

Föreläsning 7: Stokastiska vektorer

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Thomas Önskog 28/

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Matematisk statistik för D, I, Π och Fysiker

Tentamen i Matematisk Statistik, 7.5 hp

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Formler och tabeller till kursen MSG830

Statistiska metoder för säkerhetsanalys

Grundläggande matematisk statistik

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Föreläsning 4: Konfidensintervall (forts.)

Tentamen L9MA30, LGMA30

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Övning 3 Vecka 4,

Lärmål Sannolikhet, statistik och risk 2015

SF1901 Sannolikhetsteori och statistik I

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Föreläsning 5. Kapitel 6, sid Inferens om en population

Matematisk statistik för B, K, N, BME och Kemister

SF1901 Sannolikhetsteori och statistik I

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Grundläggande matematisk statistik

Transkript:

Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014

Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten. Genomförandet av projektet sker i grupper om tre till fem studenter. Ni kan fritt välja vad ni vill undersöka. Ni kan antingen undersöka data ni samlat in i någon annan kurs eller konstruera ett helt nytt försök. Efter att ni har planerat er undersökning, men innan insamling av data, kontakta David för att få godkännande om att gå vidare med projektet. Redovisningen sker skriftligt och projektet ska vara inlämnat senast tisdag den 3 juni. Ett godkänt projekt krävs för att bli godkänd på kursen men projektet påverkar inte graderingen 3,4 eller 5. Projekt David Bolin 2/16

Rapporten Inlämning av rapporten på papper, eller via mail i PDF eller PS-format (Inga MS Word-filer!). Rapporten ska innehålla en klar och tydlig formulering av frågeställningen planering och genomförande av försöket antaganden och beräkningar slutsatser redovisning av möjliga brister i undersökningen. I slutet av projektbeskrivningen finns en checklista för granskning av projekt, följ denna för att undvika vanliga misstag i projektskrivning! Projekt David Bolin 3/16

Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska värden till varje utfall i Ω. För diskreta variabler har vi sannolikhetsfunktionen p X,Y (i, j) = P(X = i, Y = j). För en sannolikhetsfunktion har vi att p X,Y (i, j) 0 och i,j p X,Y (i, j) = 1. För kontinuerliga variabler har vi en täthetsfunktion f X,Y (x, y) som är sådan att 1 f X,Y (x, y) 0, 2 f X,Y (x, y)dxdy = 1, och 3 P(a X b och c Y d) = b a d c f X,Y (x, y)dxdy. Repetition David Bolin 4/16

Marginalfördelningar Givet en diskret tvådimensionell slumpvariabel (X, Y ) definieras marginalfördelningarna för X och Y som p X (i) = p Y (j) = j= i= p X,Y (i, j) p X,Y (i, j) I det kontinuerliga fallet definieras marginalfördelningarna för X och Y på motsvarande sätt som f X (x) = f Y (y) = f X,Y (x, y)dy f X,Y (x, y)dx Repetition David Bolin 5/16

Väntevärden Väntevärde Givet en tvådimensionell slumpvariabel (X, Y ) definieras väntevärdena för X och Y som E(X) = { i= j= ip X,Y (i, j), xf X,Y (x, y)dxdy, i det diskreta fallet i det kontinuerliga fallet och E(Y ) = { i= j= jp X,Y (i, j), yf X,Y (x, y)dxdy, i det diskreta fallet i det kontinuerliga fallet Repetition David Bolin 6/16

Väntevärden Notera att vi också kan formulera väntevärdena med marginalfördelningarna för X och Y om vi har beräknat dem först. Till exempel för det diskreta fallet har vi E(X) = = i= j= i= ip X (i) Väntevärden av funktioner ip X,Y (i, j) = i= i j= Väntevärdet av en funktion H(X, Y ) definieras som p X,Y (i, j) E(H(X, Y )) = { i= j= H(i, j)p X,Y (i, j), H(x, y)f X,Y (x, y)dxdy, diskret kontinuerlig Repetition David Bolin 7/16

Beroende Oberoende slumpvariabler Två slumpvariabler X och Y sägs vara oberoende om deras täthetsfunktion (eller sannolikhetsfunktion) kan skrivas som produkten av marginalfördelningarna. Det vill säga, för det diskreta fallet p X,Y (i, j) = p X (i)p Y (j) och för det kontinuerliga fallet f X,Y (x, y) = f X (x)f Y (y). Kovarians Kovariansen mellan X och Y definieras som C(X, Y ) = E[(X µ X )(Y µ Y )] där µ X = E(X) och µ Y = E(Y ). Repetition David Bolin 8/16

Kovarians Enligt definitionen kan vi skriva kovariansen som C(X, Y ) = { i= j= (i µ X)(j µ Y )p X,Y (i, i), (x µ X)(y µ Y )f X,Y (x, y), diskret, kontinuerlig, Notera att vi har att C(X, X) = V(X). Sats Kovariansen kan beräknas som Sats C(X, Y ) = E(XY ) E(X)E(Y ) Om X och Y är oberoende så är C(X, Y ) = 0 och E(XY ) = E(X)E(Y ). Repetition David Bolin 9/16

Korrelation och oberoende Korrelation Den så kallade korrelationskoefficienten definieras som ρ(x, Y ) = C(X, Y ) V(X)V(Y ). Detta mått beskriver linjär samvariation mellan X och Y. Vi har att 1 ρ 1. Vi säger att X och Y är okorrelerade om ρ(x, Y ) = 0. Vi har följande samband mellan beroende och korrelation: Om X och Y är oberoende så är de okorrelerade. Om X och Y är okorrelerade så behöver de inte vara oberoende. Dessa samband är naturliga eftersom två slumpvariabler är oberoende om det inte finns någon samvariation alls mellan dem, medan de är okorrelerade om det saknas linjär samvariation. Repetition David Bolin 10/16

Beskrivning av tvådimensionell data Antag nu att vi har mätningar (x i, y i ) av en process som kan beskrivas med någon tvådimensionell slumpvariabel (X, Y ). Ett spridningsdiagram är ett tvådimensionellt punktdiagram där varje mätning (x i, y i ) ritas ut som en punkt i xy-planet. För att ge numeriska mått på detta kan vi beräkna stickprovskovariansen, som definieras som c xy = 1 n 1 n (x i x)(y i ȳ) i=1 eller stickprovskorrelationen som definieras som n i=1 r xy = (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) 2 Stickprovskorrelationen ett mått på linjärt beroende. Repetition David Bolin 11/16

Statistikteori Än så länge i kursen har vi utgått från att vi har en slumpvariabel X med en känd fördelning, till exempel att X är normalfördelad med väntevärde µ och varians σ 2. I praktiken har vi ofta en mängd av observationer vi vill analysera och göra en modell för. Vi kan ofta resonera oss fram till vilken typ av fördelning som bör användas för X, men vi vet typiskt inte vilka parametrar vi ska använda för fördelningen. Det är detta problem som studeras i statistikteorin: givet observationer x 1,..., x n, vad kan vi säga om parametrarna i fördelningen? Statistikteori David Bolin 12/16

Statistikteori Det vi först behöver är en punktskattning av parametrarna, det vill säga ett troligt värde för parametrarna. Vi vill ofta också veta något om hur säker denna skattning är. För att karakterisera osäkerheten i vår skattning använder vi oss ofta av konfidensintervall. Det vill säga ett intervall som med hög sannolikhet ska täcka det sanna värdet på parametern. Slutligen kan vi vilja testa hypoteser kring parametrana, till exempel kan vi vilja veta om µ > 0 i normalfördelningen, vilket görs via hypotesprövning. I denna föreläsning ska vi titta på punktskattningar, och efter detta studerar vi konfidensintervall och hypotesprövning. Statistikteori David Bolin 13/16

Populationer Vi kommer utgå från att vi har ett stickprov av observationer x 1,..., x n som vi vill använda för att få kunskap om en population. Begreppet population kan innebära lite olika saker, vi kan skilja på två typfall: Populationen kan vara en väl avgränsad mängd saker, till exempel alla röstberättigade i sverige, eller alla varor i ett lager. I den här situationen kan vi i teorin räkna upp alla ingående element i en lista. Populationen kan också vara något lite mer abstrakt. Till exempel kan vi ha en process av vilken vi kan göra upprepade mätningar. Till exempel att kasta en tärning eller göra ett kemiskt experiment. Populationen här kan tänkas som alla möjliga slumpmässiga försök av denna typ, vilket inte har något konkret avgränsning. Statistikteori Populationer David Bolin 14/16

Representativa urval I båda fallen är det viktigt att vårt stickprov är representativt för populationen, vilket betyder att det är någorlunda typiskt för populationen. Om detta inte är fallet kan vi få systematiska fel i våra skattningar. I exemplet med röstberättigade kan vi till exempel inte välja alla röstberättigade i Stockholm och använda dessa som ett representativt stickprov för alla väljare i Sverige. I fallet med en avgränsad population är den enklaste formen av representativt urval att slumpmässigt välja n element från hela populationen. I fallet med slumpmässiga försök behöver vi endast upprepa försöket n gånger för att få ett representativt urval. Statistikteori Populationer David Bolin 15/16

Stickprov Stickprov Ett stickprov av storlek n är n oberoende observationer av en slumpvariabel X. Vi kan alltså skriva stickprovet som observationer av n slumpvariabler X 1,..., X n där alla X i är oberoende och likafördelade. Denna definition täcker fallet med upprepade experiment ovan, och kan oftast ses som en bra approximation i fallet med ändlig population om n är litet i förhållande till storleken på populationen. Anledningen till att det oftast måste ses som en approximation i fallet med ändlig population beror på att populationens sammansättning ändras för varje element vi drar, och observationerna kan därför inte anses vara oberoende. Statistikteori Populationer David Bolin 16/16