Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Relevanta dokument
Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Statistiska metoder för säkerhetsanalys

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Föreläsning 7: Punktskattningar

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Föreläsning 7: Punktskattningar

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Föreläsning 7: Punktskattningar

SF1901: Sannolikhetslära och statistik

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

SF1901: Sannolikhetslära och statistik

Några extra övningsuppgifter i Statistisk teori

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Formler och tabeller till kursen MSG830

Stokastiska signaler. Mediesignaler

Stokastiska vektorer och multivariat normalfördelning

F7 forts. Kap 6. Statistikens grunder, 15p dagtid. Stokastiska variabler. Stokastiska variabler. Lite repetition + lite utveckling av HT 2012.

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Lektionsanteckningar 11-12: Normalfördelningen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

TENTAMEN I STATISTIKENS GRUNDER 1

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Föreläsning 12: Repetition

Föreläsning G60 Statistiska metoder

Kapitel 5 Multivariata sannolikhetsfördelningar

Statistik 1 för biologer, logopeder och psykologer

Stokastiska vektorer

MVE051/MSG Föreläsning 14

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Kap 2. Sannolikhetsteorins grunder

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

Föreläsning 5, FMSF45 Summor och väntevärden

Repetitionsföreläsning

Föreläsning 7: Stokastiska vektorer

Kurssammanfattning MVE055

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Väntevärde och varians

TMS136. Föreläsning 4

Tentamen i Matematisk Statistik, 7.5 hp

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

F9 SAMPLINGFÖRDELNINGAR (NCT

SF1901: Sannolikhetslära och statistik

S0005M, Föreläsning 2

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

Tentamen MVE302 Sannolikhet och statistik

Sannolikhet och statistik XI

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 5, Matematisk statistik Π + E

4 Diskret stokastisk variabel

Föreläsning 6, Matematisk statistik Π + E

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Summor av slumpvariabler

Sannolikheter och kombinatorik

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

Övning 1 Sannolikhetsteorins grunder

Matematisk statistik för D, I, Π och Fysiker

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

2.1 Mikromodul: stokastiska processer

Föreläsning 6, Repetition Sannolikhetslära

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Grundläggande matematisk statistik

SF1901: Sannolikhetslära och statistik

Bengt Ringnér. October 30, 2006

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Kap 3: Diskreta fördelningar

F13 Regression och problemlösning

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE301 Sannolikhet, statistik och risk

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

MVE051/MSG Föreläsning 7

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Bengt Ringnér. September 20, Detta är föreläsningsmanus på lantmätarprogrammet LTH vecka 5 HT07.

Simulering av elmarknader. EG2205 Föreläsning 11, vårterminen 2016 Mikael Amelin

Föreläsning 2, Matematisk statistik för M

TMS136. Föreläsning 5

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsning 12: Regression

F9 Konfidensintervall

LINKÖPINGS UNIVERSITET EXAM TAMS 79 / TEN 1

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Lärmål Sannolikhet, statistik och risk 2015

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

TMS136. Föreläsning 5

Föreläsning 6, FMSF45 Linjärkombinationer

Transkript:

Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28

Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår de mest grundläggande reglerna och begreppen ifrån tidigare kurser i statistik, t.ex: Stokastiska Variabler Simultana Sannolikheter Väntevärde och varians Kovarians och korrelation Stokastiskt Oberoende 2 / 28

Stokastiska variabler Ett stokastisk variabel, X, är en variabel som antas variera slumpmässigt mellan olika värden eller utfall. Vid en specifik mätning inträffar varje utfall med en viss sannolikhet. Stok. variabler benämnas med stora bokstäver: X, Y, Z, osv. utfallen eller värdena benämns med små bokstäver: x, y, z, osv. n st. upprepade mätningar på X presenteras som x 1, x 2,..., x n Under kursens gång kommer sannolikheten för ett utfall x av X skrivas P(x) eller P(X = x) 3 / 28

Stokastiska variabler Definition av sannolikheter: Utfallsrummet definieras som alla möjliga utfall av X. Betecknas S = {x 1, x 2,..., x n } Sannolikheten för varje utfall finns i intervallet [0,1], dvs 0 P(x) 1 Sannolikheten för alla utfall i utfallsrummet summerar till 1. Dvs, P(S) = 1 Enligt den klassiska sannolikhetsläran tolkar vi en relativ frekvens som sannolikheter (då n ). 4 / 28

Sannolikhetsfördelningar Sannolikheter för utfall på X beskrivs med sannolikhetsfördelningar. Viktigt att tänka på är bland annat: Om X är en kontinuerlig eller diskret stokastisk variabel. Detta avgör till stor del vilka sannolikhetsfördelningar som är lämpliga för att modellera sannolikheter för X. Vilken fördelning som kan tillämpas. Dvs, Egenskaper för sannolikhetsfördelningen. Om vi vill använda/undersöka täthetsfunktionen eller fördelningsfunktionen för X. 5 / 28

Täthetsfunktioner Täthetsfunktionen är en funktion över sannolikheten för att observera specifika värde på X. Betecknas P(X = x) för diskreta variabler och f (x) för kontinuerliga variabler. Har egenskaperna: f (x) 0. f (x) dx = 1. Vi kan beräkna sannolikheten att X befinner sig i ett intervall: P(a x b) = b a f (x) dx. Detta gäller även för diskreta variabler om vi byter ut mot. 6 / 28

Fördelningsfunktioner Fördelningsfunktionen är den kumulativa fördelningen för X. Betecknas F (x) eller P(X x) för diskreta variabler och F (x) för kontinuerliga variabler. Har egenskaperna: 0 F (x) 1. Om x 0 < x 1 gäller att F (x 0 ) < F (x 1 ). F (x 0 ) = x 0 x m f (x) dx (där x m är det minsta värdet på X ). Detta gäller även för diskreta variabler men då summerar vi istället för att integrera över utfall på X. 7 / 28

Sannolikhetsfördelningar En repetition på normalfördelningen finns som ett separat dokument på kurshemsidan. Denna fördelning är den som används mest på kursen, men vi kommer även att använda dessa fördelningar: t-fördelningen (enkel och multipel regression, korrelation) F-fördelningen (multipel regression) d-fördelningen (Durbin-Watson testet för autokorrelation) binomialfördelningen (slumpvandring) Dessa (och även normalfördelningen) finns beskrivna i NCT. 8 / 28

Simultant fördelade diskreta stokastiska variabler Ofta vill vi samtidigt studera flera olika stokastiska variabler, vilkas värde bestäms i ett och samma slumpförsök. Ofta är vi intresserade av hur variablerna eventuellt samvarierar. 2 exempel med diskreta variabler: Välj slumpmässigt en man från en population av män och registrera X = mannens vikt och Y = mannens längd. Gör två kast med en tärning och registrera X = antal prickar i kast 1 och Y = antal prickar i kast 2. 9 / 28

Simultant fördelade stokastiska variabler Generaliseringen blir att vi har n simultant fördelade stokastiska variabler X 1, X 2,..., X n. T.ex. 10 kast med en tärning där X 1 = antal prickar i kast 1, X 2 = antal prickar i kast 2,..., X 10 = antal prickar i kast 10. Den simultana sannolikhetsfördelningen ger sannolikheter för att få olika kombinationer av värden på X och Y : P(x, y) = P(X = x, Y = y) = P(X = x Y = y) 10 / 28

Marginella och betingade sannolikheter Marginella och betingade sannolikheter för en stokastisk variabel X kan relateras till simultana sannolikheter för X och Y på följande sätt P(x) = P(X = x) = P(x, y) alla y Den betingade sannolikheten fås ifrån definitionen för betingade sannolikheter för händelser och kan skrivas som P(x y) = P(X = x Y = y) = P(x, y) P(y) Analogt definieras den marginella sannolikheten för Y och den betingade sannolikheten för Y X. 11 / 28

Stokastiska variabler - ett exempel En familj väljs slumpmässigt från en population av familjer. X = antalet pojkar; Y = antalet flickor. Antag att den simultana sannolikhetsfördelningen är: x 0 1 2 P(y) 0 0,40 0,16 0,04 0,60 y 1 0,17 0,08 0,02 0,27 2 0,05 0,07 0,01 0,13 P(x) 0,62 0,31 0,07 1,00 Vad är sannolikheten att familjen har en pojke och en flicka? Vad är sannolikheten att familjen inte har några barn givet att vi vet att den inte har några flickor? 12 / 28

Oberoende stokastiska variabler Två stokastiska variabler, X och Y, sägs vara oberoende om och endast om P(x, y) = P(x)P(y) för alla par av värden på x och y. Kom ihåg definitionen av oberoende mellan två händelser: P(A B) = P(A)P(B). Generellt gäller att X 1, X 2,..., X n är oberoende stokastiska variabler om och endast om P(x 1, x 2,..., x n ) = P(x 1 )P(x 2 ) P(x n ) för alla värden på x 1, x 2,..., x n. (Är X och Y oberoende i exemplet på s.12?) 13 / 28

Väntevärden och varains för stokastiska variabler Väntevärdet för en stokastisk variabel skrivs E(X ) = µ X = xp(x) alla x E(X) kan tolkas analogt med medelvärdet för ett datamaterial. Variansen för en stokastisk variabel skrivs V (X ) = σx 2 = (x µ X ) 2 P(x) alla x och är ett sätt att beskriva hur X varierar kring sitt väntevärde. 14 / 28

Räkneregler för väntevärden När man räknar på väntevärden för stokastiska variabler finns speciella räkneregler att förhålla sig till: E(a) = a, där a är en konstant E(X + Y ) = E(X ) + E(Y ) E(X Y ) = E(X ) E(Y ) E(aX ) = ae(x ) n n E( X i ) = E(X i ) = E(X 1 ) + E(X 2 ) +... + E(X n ) i=1 i=1 E(XY ) = E(X )E(Y ) om X och Y är oberoende 15 / 28

Räkneregler för varianser Generellt gäller att V (a) = 0, (där a är en konstant) V (X + Y ) = V (X ) + V (Y ) + 2Cov(X, Y ) V (X Y ) = V (X ) + V (Y ) 2Cov(X, Y ) V (ax ) = a 2 V (X ) V (a + bx ) = b 2 V (X ) V (ax + by ) = a 2 V (X ) + b 2 V (X ) + 2abCov(X, Y ) V (ax by ) = a 2 V (X ) + b 2 V (X ) 2abCov(X, Y ) 16 / 28

Räkneregler för varianser Om X 1, X 2,..., X n är oberoende medför detta att alla parvisa kovarianser är 0 så att: V (X 1 + X 2 ) = V (X 1 ) + V (X 2 ) V (X 1 X 2 ) = V (X 1 ) + V (X 2 ) n n V ( X i ) = V (X i ) = V (X 1 ) + V (X 2 ) +... + V (X n ) i=1 i=1 17 / 28

Kovarians och korrelation Kovariansen för de stokastiska variablerna X och Y mäter dessas linjära samvariation och skrivs som: Cov(X, Y ) = σ XY = E[(X µ X )(Y µ Y )] = (x µ X )(y µ Y )P(x, y) Beräkningsformel: alla x alla y Cov(X, Y ) = E(XY ) µ X µ Y = xyp(x, y) µ X µ Y alla x alla y 18 / 28

Kovarians och korrelation Kovariansen för X och Y kan vara svårtolkad eftersom den alltid förändras med storleken på X och Y trots att dessas samvariation är svag. Genom att standardisera kovariansen så fås korrelationen: Corr(X, Y ) = ρ XY = Cov(X, Y ) V (X ) V (Y ) = σ XY σ X σ Y 1 ρ XY 1 ρ XY = 1 perfekt negativt linjärt samband mellan X, Y. ρ XY = 1 perfekt positivt linjärt samband mellan X, Y. ρ XY = 0 inget linjärt samband mellan X, Y. Om X och Y är oberoende, så är ρ XY = 0. Om ρ XY = 0 så innebär detta inte per automatik att X och Y är oberoende! 19 / 28

Kovarians och korrelation Ett exempel på ett observerat samband mellan X och Y : spridningsdiagram y 100 200 300 400 500 600 0 5 10 15 x Korrelationen i detta fall är nära -1. 20 / 28

Kovarians och korrelation Däremot kan ickelinjära samband finnas. Om y = x 2 ser sambandet ut på följande sätt: Både kovariansen och korrelationen är 0 i detta fall! 21 / 28

Kovarians och korrelation Både Cov(X,Y) och Corr(X,Y) mäter linjär samvariation mellan X och Y men korrelationen är mer lämpat som jämförelsemått. Cov(X,Y) och Corr(X,Y) har alltid samma tecken. Cov(X,Y) och Corr(X,Y) är symmetriska: ρ XY = ρ YX och σ XY = σ YX. 22 / 28

Räkneregler för Kovarianser Cov(X, X ) = E[(X µ X )(X µ X )] = E[(X µ X ) 2 ] = V (X ) Cov(aX, by ) = abcov(x, Y ) Cov(X + a, Y + b) = Cov(X, Y ) Cov(a, X ) = 0 Cov(X + Y, Z + W ) = Cov(X, Z) + Cov(X, W ) + Cov(Y, Z) + Cov(Y, W ) 23 / 28

Fortsättning på ex. på s.12 Vi har följande simultana sannolikhetsfördelning för X och Y : x 0 1 2 P(y) 0 0,40 0,16 0,04 0,60 y 1 0,17 0,08 0,02 0,27 2 0,05 0,07 0,01 0,13 P(x) 0,62 0,31 0,07 1,00 Vad är väntevärdet för X resp Y? Vad är variansen för X? 24 / 28

Stokastisk vs. observerade variabler Det är viktigt att hålla reda på om vi ska utföra beräkningar på stokastiska variabler eller observerade variabler eftersom det finns två separata uppsättningar tillhörande formler. Teori Observation stokastiska variabler observerade värden på stok. variabler sannolikheter relativa frekvenser parametrar, t.ex. µ, σ skattningar av parametrar, t.ex. x, s 2 25 / 28

summeringsregler Några viktiga summeringsregler: n a = na i=1 n i=1 x 2 i = x 2 1 + x 2 2 +... + x 2 n n (x i y i ) = (x 1 y 1 ) + (x 2 y 2 ) +... + (x n y n ) i=1 n ax i = a i=1 n i=1 n (x i + y i ) = i=1 x i n x i + i=1 i=1 i=1 i=1 n i=1 n n n ( x i ) 2 = ( x i )( x i ) y i 26 / 28

Formler för observerade variabler Vi har gjort ett slumpmässigt urval med n observationer ifrån en population med N obs. Stickprovet innefattar värden på två variabler, x i och y i. Vi kan då beräkna: Medelvärde: x = Varians: s 2 x = Kovarians: s xy = Korrelation: r xy = n i=1 x i n n i=1 (x i x) 2 n 1 n i=1 (x i x)(y i ȳ) n 1 n i=1 (x i x)(y i ȳ) ( n i=1 (x i x) 2 )( n i=1 (y i ȳ) 2 ) = sxy s x s y Man kan likheten med formlerna för stokastiska variabler. Ibland skrivs parameterskattningarna med en hatt på parametern: ˆµ X = x, ˆσ X = s x, ˆσ XY = s xy ˆρ XY = r xy 27 / 28

Nästa föreläsning På nästa föreläsning kommer fortsätta att analysera linjära samband mellan två variabler: Korrelation. Hur kan vi analysera, tolka och utföra hypotestest på korrelationer? Regression. Hur ser modellen ut och hur skattar vi dess parametrar? 28 / 28