Föreläsning 17, Matematisk statistik Π + E

Relevanta dokument
Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 5, Matematisk statistik Π + E

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik för B, K, N, BME och Kemister

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 6, Matematisk statistik Π + E

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12, FMSF45 Hypotesprövning

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 11, Matematisk statistik Π + E

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 11, FMSF45 Konfidensintervall

Föreläsning 8, Matematisk statistik Π + E

Matematisk statistik KTH. Formelsamling i matematisk statistik

Kap 2. Sannolikhetsteorins grunder

Föreläsning 5, FMSF45 Summor och väntevärden

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 6, FMSF45 Linjärkombinationer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Kurssammanfattning MVE055

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Formel- och tabellsamling i matematisk statistik

Föreläsning 12: Regression

Föreläsning 12: Linjär regression

Föreläsning 15: Försöksplanering och repetition

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 7: Punktskattningar

Repetitionsföreläsning

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 7: Punktskattningar

Föreläsning 2, FMSF45 Slumpvariabel

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

Thomas Önskog 28/

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK 9HP, FMS012 [UPPDATERAD ] Sannolikhetsteorins grunder

SF1901: Sannolikhetslära och statistik

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Matematisk statistik 9 hp Föreläsning 4: Flerdim

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

SF1901: Sannolikhetslära och statistik

Avd. Matematisk statistik

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

Föreläsning 7: Punktskattningar

Matematisk statistik 9 hp Föreläsning 8: Binomial- och Poissonfördelning, Poissonprocess

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Övning 1 Sannolikhetsteorins grunder

Tentamen i Matematisk Statistik, 7.5 hp

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Avd. Matematisk statistik

MATEMATISK STATISTIK AK FÖR F, E, D, I, C, Π; FMS 012 FÖRELÄSNINGSANTECKNINGAR I

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

Tentamen MVE302 Sannolikhet och statistik

9. Konfidensintervall vid normalfördelning

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Föreläsning 5: Hypotesprövningar

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Väntevärde; Väntevärde för funktioner av s.v:er; Varians; Tjebysjovs olikhet. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

SF1901 Sannolikhetsteori och statistik I

Föreläsning 3, Matematisk statistik Π + E

Avd. Matematisk statistik

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

FORMELSAMLING HT-15 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 12: Repetition

Föreläsning 11: Mer om jämförelser och inferens

Väntevärde och varians

Transkript:

Sannolikhetsteori Statistik Föreläsning 17, Matematisk statistik Π + E Sören Vang Andersen 26 febuar 2015 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 1/63

Stokastisk variabel En stokastisk variabel eller slumpvariabel är ett tal vars värde styrs av slumpen (en funktion Ω R). Bet X, Y,.... Kan vara diskret eller kontinuerlig En stokastisk variabel beskrivs av: Sannolikhetsfunktion För en diskret s.v. X p X (k) = P(X = k) Täthetsfunktion För en kontinuerlig s.v X har vi f X (x). P(X A) = f X (x) dx Fördelningsfunktion Summa av p X (k) eller integral av f X (x). A F X (x) = P(X x) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 2/63

Diskret fördelning Binomialfördelning Ett slumpmässigt försök som lyckas med slh. p upprepas n oberoende ggr, X = Antal ggr försöket lyckas. Poissonfördelning Räknar antal händelser. ffg-fördelning Ett slumpmässigt försök som lyckas med slh. p; X=Antal försök tills första lyckade för första gången. Geometrisk fördelning Oberoende försök; Y=Antal försök innan först lycakde, dvs Y = X 1. Kontinuerlig fördelning Rektangel- eller likformig fördelning Lika fördelade händelser i intervall. Exponentialfördelning Ofta överlevnadstid, eller tid till första händelse. Normalfördelning Summor av många oberoende, vanligt antagande om för mätfel. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 3/63

Tvådim. stokastisk variabel (X, Y) Simultan fördelningsfunktion: F X,Y (x, y) = P(X x, Y y) Simultan sannolikhetsfunktion: p X,Y (j, k) = P(X = j, Y = k) Simultan täthetsfunktion: f X,Y (x, y) = Några egenskaper: P[(X, Y) A] = (j,k) A P[(X, Y) A] = p X (j) = k A p X,Y (j, k) p X,Y (j, k) f X,Y (x, y) dxdy 2 x y F X,Y(x, y) Marginell slh.funkt. för X f Y (y) = f X,Y (x, y) dx Marginell täthet för Y Sören Vang Andersen - sva@maths.lth.se FMS012 F17 4/63

Oberoende stokastiska variabler Oberoende Händelserna A och B är oberoende P(A B) = P(A)P(B) X och Y är oberoende stokastiska variabler F X,Y (x, y) = F X (x)f Y (y) för alla (x, y) p X,Y (j, k) = p X (j)p Y (k) f X,Y (x, y) = f X (x)f Y (y) alla (j, k) alla (x, y) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 5/63

Betingade fördelningar För händelser P(A B) = P(A B) P(B) För sannolikhetsfunktioner För täthetsfunktioner p X Y (j k) = p X,Y(j, k) p Y (k) f X Y (x y) = f X,Y(x, y) f Y (y) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 6/63

Exempel Betingade fördelningar Sören Vang Andersen - sva@maths.lth.se FMS012 F17 7/63

Satsen om total sannolikhet För händelser P(A) = i P(A H i )P(H i ) För sannolikhetsfunktioner p X (j) = k p X Y (j k)p Y (k) För täthetsfunktioner f X (x) = f X Y (x y)f Y (y)dy Sören Vang Andersen - sva@maths.lth.se FMS012 F17 8/63

Bayes sats För händelser För sannolikhetsfunktioner För täthetsfunktioner P(H k A) = P(A H k)p(h k ) i P(A H i)p(h i ) p Y X (l j) = f Y X (y x) = p X Y(j l)p Y (l) k p X Y(j k)p Y (k) f X Y (x y)f Y (y) f X Y(x z)f Y (z)dz Sören Vang Andersen - sva@maths.lth.se FMS012 F17 9/63

Summa av två oberoende, Z = X + Y Diskret: p Z (k) = i+j=k p X (i) p Y (j) = k p X (i)p Y (k i) i=0 Kontinuerlig: F Z (z) = f X (x) f Y (y) dxdy = f Z (z) = x+y z f X (x)f Y (z x) dx f X (x)f Y (z x) dx Sören Vang Andersen - sva@maths.lth.se FMS012 F17 10/63

Summor av tärningskast Summa av tärningar 0.2 p X (k) 0.1 0 1 2 3 4 5 6 Antal tärningar 7 8 0 10 20 k 30 40 50 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 11/63

Störst av två oberoende Z = max(x, Y) F Z (z) =P(Z z) = P(max(X, Y) z) = P(X z Y z) =F X (z)f Y (z) Störst av fler oberoende Z = max(x 1,..., X n ) F Z (z) = F X1 (z)... F Xn (z) Minst av två oberoende Z = min(x, Y) F Z (z) =P(Z z) = P(min(X, Y) z) = 1 P(min(X, Y) > z) =1 P(X > z Y > z) = 1 [1 F X (z)][1 F Y (z)] Minst av fler oberoende Z = min(x 1,..., X n ) F Z (z) = 1 [1 F X1 (z)]... [1 F Xn (z)] Sören Vang Andersen - sva@maths.lth.se FMS012 F17 12/63

Väntevärde, E(X), μ, μ X, m,... Väntevärdet anger tyngdpunkten för fördelningen och kan tolkas som det värde man får i medeltal i långa loppet. { E(X) = xf X(x) dx Kont. k kp X(k) Diskr. Väntevärde av Y = g(x) { E(Y) = g(x)f X(x) dx Kont. k g(k)p X(k) Diskr. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 13/63

Väntevärden 6 Succesiva medelvärden för 6 tärningar 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 10 0 10 1 10 2 10 3 10 4 Antal tärningskast Sören Vang Andersen - sva@maths.lth.se FMS012 F17 14/63

Stora talens lag Om X 1, X 2,..., X n är oberoende och likafördelade med E(X i ) = μ så gäller för alla ε > 0. P( X n μ > ε) 0, n Det vill säga medelvärdet konvergerar i sannolikhet mot väntevärdet då n växer mot oändligheten! Sören Vang Andersen - sva@maths.lth.se FMS012 F17 15/63

Betingat väntevärdet & total sannolikhet Det betingade väntevärdet för X givet att Y = y blir E(X Y = y) = Observera att xf X Y (x y) dx E(X Y = y) är en funktion av y E(X Y) är samma funktion av Y Satsen om total sannolikhet för väntevärde E(E(X Y)) = E(X), dvs E(X Y = y)f Y (y) dy E(X) = E(X Y = y) py (k) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 16/63

Varians, V(X), σ 2, σ 2 X Variansen anger hur utspridd X är kring sitt väntevärde. [ ] } 2 V(X) = E{ X E(X) = E(X 2 ) E(X) 2 Variansen är alltid positiv. Standardavvikelse, D(X), σ, σ X D(X) = V(X) Standardavvikelsen har samma dimension som X och E(X). Sören Vang Andersen - sva@maths.lth.se FMS012 F17 17/63

Beroendemått Kovarians, C(X, Y) C(X, Y) = E{[X E(X)][Y E(Y)]} = E(XY) E(X)E(Y) Kovariansen anger hur mycket linjärt beroende som finns mellan X och Y. Ur definitionen fås C(X, X) = V(X) X och Y oberoende = C(X, Y) = 0 Obs. C(X, Y) = 0 X och Y oberoende Korrellationskoefficient, ρ, ρ X,Y 1 ρ X,Y 1 ρ X,Y = C(X, Y) D(X)D(Y) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 18/63

Korrellation Sören Vang Andersen - sva@maths.lth.se FMS012 F17 19/63

Räkneregler E(aX + b) = ae(x) + b V(aX + b) = a 2 V(X) D(aX + b) = a D(X) ( n ) n E a i X i = a i E(X i ) V i=1 ( n ) a i X i = i=1 i=1 n a 2 i V(X i ) + 2 a i a j C(X i, X j ) i=1 i<j }{{} =0 om oberoende ( C j a jx j, ) k b ky k = j k a jb k C(X j, Y k ) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 20/63

Gauss approximationsformler i en variabel Y = g(x). Taylorutveckla funktionen g kring μ = E(X) E(Y) g(e(x)) V(Y) g [E(X)] 2 V(X) g(x) g(μ) + (X μ)g (μ) = För en funktion av n variabler fås på samma sätt Y = g(x 1,..., X n ) E(Y) g(e(x 1 ),..., E(X n )) n V(Y) c 2 i V(X i ) + 2 c i c j C(X i, X j ) i=1 i<j där c i = g x i (E(X 1 ),..., E(X n )) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 21/63

Standardiserad normalfördelning X N (0, 1), E(X) = 0, V(X) = 1, x α λ α f X (x) = 1 e x2 /2 φ(x), x R 2π F X (x) = x φ(t) dt Φ(x), x R Φ(x) räknas ut numeriskt eller tabell (1). 0.4 Täthetsfunktion för N(0,1) Fördelningsfunktion för N(0,1) 1 φ(x) 0.2 Φ(x) 0.5 0 4 2 0 2 4 0 4 2 0 2 4 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 22/63

N(μ, σ) Sats 6.1 Om X N(μ, σ), E(X) = μ, V(X) = σ 2 så är X μ σ N(0, 1) Om X i N(μ i, σ i ) och Y = n Y N a i μ i, n i=1 i=1 n a i X i gäller i=1 a 2 i σ2 i om alla X i är oberoende av varandra Sören Vang Andersen - sva@maths.lth.se FMS012 F17 23/63

Täthetsfunktioner för några normalfördelningar 0.5 µ = 4 0.15 σ = 2 σ = 1 f X (x) f X (x) µ = 0 µ = 10 σ = 2 0 2 0 2 4 6 8 10 x 0 20 0 20 40 x Sören Vang Andersen - sva@maths.lth.se FMS012 F17 24/63

Centrala gränsvärdessatsen CGS Låt X 1, X 2,..., X n vara oberoende stokastiska variabler med samma fördelning och E(X i ) = μ, V(X i ) = σ 2 (ändliga). Då gäller att: ( n i=1 P X ) i μn σ a Φ(a) då n för alla a n 1. Om Y = n X i gäller Y N (nμ, σ n) i=1 2. Om X n = 1 n n i=1 ) X i gäller X n σ N (μ, n Sören Vang Andersen - sva@maths.lth.se FMS012 F17 25/63

Histogram för n(x n μ) (X i Exp(1)) n=1 n=3 0.5 0 2 0 2 4 6 8 n=5 0.4 0.2 0.4 0.2 0 0.4 0.2 2 0 2 4 6 n=20 0 0.4 2 0 2 4 n=50 0 0.4 2 0 2 4 6 n=1000 0.2 0.2 0 2 0 2 4 0 2 0 2 4 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 26/63

Binomialfördelning Beteckning: X Bin(n, p) Förekomst: En händelse A med P(A) = p upprepas n oberoende gånger. X = Antalet gånger A inträffar. Egenskaper: ( ) n p X (k) = p k q n k, k = 0, 1,..., n, q = 1 p k E(X) = np, V(X) = npq F X (x) finns i tabell 6 för några värden på n och p. Om X Bin(n 1, p) och Y Bin(n 2, p), ober. så är X + Y Bin(n 1 + n 2, p) Om npq 10 är X ungefär normalfördelad. Om n 10 och p 0.1 är X ungefär Poissonfördelad, X Po(E(X)). Sören Vang Andersen - sva@maths.lth.se FMS012 F17 27/63

Poissonfördelning Beteckning: X Po(μ) Egenskaper: p X (k) = e μ μk k = 0, 1,... k! E(X) = μ, V(X) = μ F X (x) finns i tabell 5 för några värden på μ. Om X Po(μ 1 ) och Y Po(μ 2 ), ober. så är X + Y Po(μ 1 + μ 2 ) Om μ 15 är X ungefär normalfördelad. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 28/63

Stokastisk process En stokastisk process {X(t), t T} är en följd av stokastiska variabler, en slumpmässig funktion av t. För ett fixt t är X(t) en stokastisk variabel. Beroende på vilka värden X(t) och t kan anta har vi följande fyra kombinationer Tid Process Diskret Kontinuerlig Diskret Kontinuerlig Sören Vang Andersen - sva@maths.lth.se FMS012 F17 29/63

Poissonprocess En poissonprocess med intensiteten λ är en diskret s.p. med kontinuerlig tid {X(t), t 0} med följande egenskaper Antalet händelser i icke överlappande intervall är oberoende, dvs oberoende ökningar. X(t) Po(λ t) X(t) X(s) Po(λ(t s)), ökningar. 0 < s < t, dvs stationära Tiden Y mellan ökningarna är Y Exp(λ). Sören Vang Andersen - sva@maths.lth.se FMS012 F17 30/63

Markovkedjor En markovkedja, {X n, n = 0, 1, 2,...}, är en diskret stokastisk process med diskret tid. De värden processen antar kallas tillstånd och betecknas E i eller bara i. En markovkedja uppfyller Markovvillkoret P (X n+1 = i n+1 X n = i n, X n 1 = i n 1,..., X 0 = i 0 ) = =P (X n+1 = i n+1 X n = i n ) dvs sannolikheten att nästa värde skall vara i n+1 beror bara på nuvarande värde. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 31/63

Övergångssannolikheter Sannolikheterna p ij = P (X n+1 = j X n = i) kallas övergångssannolikheter och är slh att gå från tillstånd i till j i ett steg. Man brukar samla dem i en övergångsmatris p 11 p 12 P = p 21 p 22..... där t.ex p 21 är slh att gå från tillstånd 2 till 1. Eftersom processen alltid måste gå till något tillstånd är radsummorna i P alltid 1. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 32/63

Övergångssannolikheter av högre ordning Övergångssannolikheterna av ordning m p (m) ij = P(X n+m = j X n = i) är slh att gå från i till j i m steg. Motsvarande övergångsmatris av ordning m bet. P (m) och räknas ut som P (m) = P m. Sambandet P (m+n) = P m P n kallas Chapman-Kolmogorovs sats. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 33/63

Absoluta sannolikheter Sannolikheterna att kedjan är i tillstånd i vid tiden n p (n) i = P(X n = i) kan samlas i en sannolikhetsvektor (obs radvektor) p (n) = (p (n) 1, p(n) 2,...) Detta är alltså sannolikhetsfunktionen för X n. Speciellt kallas p (0) för initialfördelning eller startvektor. Satsen om total sannolikhet och Chapman-Kolmogorovs sats ger p (1) = p (0) P p (2) = p (1) P = p (0) P (2) p (n) = p (0) P (n) = p (n 1) P Sören Vang Andersen - sva@maths.lth.se FMS012 F17 34/63

Beständiga och obeständiga tillstånd Låt (Återvända ) till tillstånd i f ii (n) = P för första gången efter n steg Då blir sannolikheten att någon gång återvända till tillstånd i f ii = f ii (j) j=1 Om f ii = 1 sägs tillstånd i vara beständigt. f ii < 1 sägs tillstånd i vara obeständigt. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 35/63

Kommunicerande tillstånd Om p (r) ij > 0 för något r = 1, 2,... sägs tillstånd i kommunicera med tillstånd j. Om dessutom tillstånd j kommunicerar med i så kommunicerar tillstånden tvåsidigt. Om två tillstånd kommunicerar tvåsidigt är antingen båda tillstånden beständiga eller båda obeständiga. Om alla tillstånd kommunicerar tvåsidigt med varandra kallas Markovkedjan irreducibel, annars kallas den reducibel. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 36/63

Stationär fördelning Låt π = (π 1, π 2,...) vara en sannolikhetsvektor. Om p (0) = π = p (n) = π, n = 1, 2,... kallas π en stationär fördelning. Samtliga stationära fördelningar till en markovkedja med övergångsmatris P fås som lösningarna till ekvationssystemet π = πp tillsammans med bivillkoret π i = 1 och att 0 < π i < 1. Observera att ekvationssystemet är omvänt mot att hitta egenvektorer till egenvärde 1. Transponering ger standardfallet. P T π T = π T Sören Vang Andersen - sva@maths.lth.se FMS012 F17 37/63

Asymptotisk fördelning Om p (n) π för varje val av startvektor p (0) är π en asymptotisk fördelning. Om det existerar en asymptotisk fördelning så är den densamma som den enda stationära fördelningen. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 38/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Statistikteori, grundläggande begrepp Stickprov Ett stickprov, x 1, x 2,..., x n, är observationer av s.v. X 1,..., X n från någon fördelning X i F(θ) där θ är en okänd parameter. Skattning En skattning av θ, θ (x 1,..., x n ) är en observation av den s.v. θ (X 1,..., X n ). Båda betecknas oftast bara med θ. Bra egenskaper för en skattning är Väntevärdesriktig: E(θ ) = θ, inget systematiskt fel. Effektiv: liten varians (osäkerhet) V(θ ). Konsistent: P( θ n θ > ε) 0, n, dvs Bli bättre när vi får fler observationer, Sören Vang Andersen - sva@maths.lth.se FMS012 F17 39/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression En skattning θ är ett tal, en s.v. och en funktion θ Tal x 1 x 2 θ (x 1,..., x n) S.V. X 1 X 2 θ (X) X i F(θ) θ Funktion Sören Vang Andersen - sva@maths.lth.se FMS012 F17 40/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Minsta kvadrat-metoden, MK Om E(X i ) = μ i (θ) så fås MK-skattningen av θ genom att minimera förlustfunktionen m.a.p. θ. Q(θ) = n ( x i μ i (θ) i=1 ) 2 Maximum likelihood-metoden, ML ML-skattningen av θ fås genom att maximera likelihood-funktionen L(θ; x 1,..., x n ) m.a.p. θ. L(θ) = p X (x 1 )... p X (x n ) L(θ) = f X (x 1 )... f X (x n ) (diskr.) (kont.) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 41/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Medelfel Om standardavvikelsen, D(θ ), för en skattning innehåller okända parametrar kan man inte räkna ut ett nummeriskt värde på den. Om vi stoppar in skattningar på de okända parametrarna fås medelfelet d(θ ). Ex. p = X, där X Bin(n, p) n V(p ) = V( X n ) = 1 n 2 V(X) = 1 pq npq = n2 n p d(p ) = q n Ex. (V(X) = npq) μ = X, där X N (μ, σ), σ okänd V(μ ) = σ2 n, d(μ ) = s, där s = 1 n n 1 n (x i x) 2 i=1 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 42/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Konfidensintervall Ett konfidensintervall för en parameter θ täcker rätt värde på θ med sannolikheten 1 α. 1 α kallas konfidensgrad. Vanliga värden är 0.95, 0.99 och 0.999. Normalfördelad skattning, θ N (θ, D(θ )) D(θ ) känd: I θ = θ ± λ α/2 D(θ ) D(θ ) okänd: I θ = θ ± t α/2 (f)d(θ ) Normalapproximation, θ N (θ, D(θ )) D(θ ) känd: I θ = θ ± λ α/2 D(θ ) D(θ ) okänd: I θ = θ ± λ α/2 d(θ ) (alltid λ-kvantil) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 43/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Ensidiga konfidensintervall Konfidensintervall kan även vara uppåt- eller nedåt begränsade. De konstrueras allmänt genom att 1. Ta ena gränsen i ett tvåsidigt konfidensintervall 2. Byt ut α/2 α för att få rätt konfidensgrad 3. Låt den andra gränsen bli så stor/liten som möjligt Ex. Om det tvåsidiga intervallet ges av x ± λ α/2 σ n fås följande ensidiga konfidensintervall Nedåt begränsat intervall: ( x λ α σ n, ) Uppåt begränsat intervall: (, x + λ α σ n ) Ensidiga konfidensintervall är framförallt användbara vid ensidiga hypotestest. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 44/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Samanvägd variansskattning Om vi har x 1,..., x nx obs. av X i N (μ x, σ) y 1,..., y ny obs. av Y i N (μ y, σ) kan den gemensamma variansen σ 2 skattas med s 2 p = (n x 1)s 2 x + (n y 1)s 2 y n x 1 + n y 1 = Q f, ( Q σ 2 χ2 (f)) Ett konfidensintervall för μ x μ y blir t.ex. I μx μ y = x ȳ ± t α/2 (f) s p 1 n x + 1 n y eftersom μ x μ y = X Ȳ N(μ x μ y, σ 1 n x + 1 n y ) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 45/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Stickprov i par Vid många mätsituationer är det vanligt att man mäter före och efter en behandling på n inbördes olika föremål. Modell: Före: X i N (μ i, σ 1 ) Efter: Y i N (μ i + Δ, σ 2 ) Vi vill nu skatta effekten av behandlingen (Δ). Bilda Z i = Y i X i N (Δ, σ). Skatta Δ med z gör konfidensintervall som vanligt för ett stickprov, dvs I Δ = z ± t α/2 (n 1)s/ n, där s 2 = 1 n 1 n (z i z) 2. i=1 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 46/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Transformation av konfidensintervall Har man ett konfidensintervall för en parameter θ I θ = [a 1, a 2 ] kan detta transformeras till ett intervall för g(θ) genom I g(θ) = [g(a 1 ), g(a 2 )] om g är monoton (strängt växande eller strängt avtagande) i det område där θ är definierad. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 47/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Hypotesprövning H 0 förkastas om observationerna, θ, avviker för mycket från nollhypotesen θ 0. Testa nollhypotesen H 0 : θ = θ 0 mot mothypotesen (tex) H 1 : θ θ 0 på nivån α; felrisken α ges av α = P(H 0 förkastas trots att den är sann) De vanligaste mothypoteserna är H 1 : θ θ 0 H 0 förkastas om θ avviker för långt från θ 0 både uppåt och nedåt. H 1 : θ < θ 0 H 0 förkastas om θ är tillräckligt mycket < θ 0. H 1 : θ > θ 0 H 0 förkastas om θ är tillräckligt mycket > θ 0. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 48/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Olika metoder för att utföra hypotestest 1. Direktmetoden eller P-värde Antag att H0 är sann Räkna ut P-värdet p = P(Få det vi fått eller värre) Om p < α förkastas H 0 2. Konfidensmetoden. Gör ett konfidensintervall med konfidensgraden 1 α och förkasta H 0 på nivån α om intervallet ej täcker θ 0. Intervallen skall, beroende på H 1, vara Test H 1 : θ < θ 0 H 1 : θ θ 0 H 1 : θ > θ 0 Intervall: uppåt begr tvåsidigt nedåt begr 3. Testkvantitet T(X) och kritiskt område C Förkasta H 0 om testskvantiteten hamnar i det kritiska området. C och T skall väljas så att α = P(T(X) C) = P( Förkasta H 0 om H 0 är sann ) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 49/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Testkvantiter Antag att vi vill testa H 0 : θ = θ 0. Model Skattning T(X) D(θ )/d(θ ) kvantil X i N (μ, σ) σ känd μ = X μ μ 0 λ X Bin(n, p) X i Po(μ) Notera: σ okänd p = X n μ = X D(μ ) μ μ 0 d(μ ) p p 0 D 0(p ) μ μ 0 D 0(μ ) σ n s n p 0(1 p 0) n μ0 n 1. Skattningarnas standardavvikelse/medelfel räknas under H 0. 2. Bin och Po fallet kräver normalapproximation. 3. α-kvantil om ensidigt, α/2-kvantil om tvåsidigt. t(f) λ λ Sören Vang Andersen - sva@maths.lth.se FMS012 F17 50/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Styrkefunktion & Felrisker Styrkefunktion Användas för att avgöra hur bra testet skiljer H 0 från H 1. h(θ) = P( Förkasta H 0 om θ är rätt värde ) Typ 1 fel: Typ 2 fel: α = P(H 0 förkastas om H 0 sann) β = P(H 0 förkastas ej om H 0 ej sann) Vi ser att α = h(θ 0 ). Om rätt värde på θ är θ 1 fås β = 1 h(θ 1 ). Naturens okända sanning H 0 sann H 1 sann Vårt H 0 förk. ej β Beslut H 0 förkastas α Sören Vang Andersen - sva@maths.lth.se FMS012 F17 51/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Styrkefunktion för testet av promillehalt (H 0 : μ = 0.2) h(µ) = P(Förkasta H 0 ) 1 0.8 0.6 0.4 0.2 n = 3, σ = 0.04 0 0.1 0.2 0.3 0.4 faktisk alkoholhalt µ 1 0.8 0.6 0.4 0.2 n fördubblad resp. σ halverad 0 0.1 0.2 0.3 0.4 faktisk alkoholhalt µ Den okända sanningen Nykter Olovligt påverkad Mätresultat μ = x SäkerhetsmarginalKritiskt område Slutsats från test Frikänns Döms μ 0 0.2 0.27 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 52/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (0, σ). Parameterskattningarna Skattningarna av α, β och (σ 2 ) är α = ȳ β x β = (σ 2 ) = s 2 = Q 0 n 2 Q 0 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 = S xy S xx, (y i α β x i ) 2 = S yy S2 xy S xx Sören Vang Andersen - sva@maths.lth.se FMS012 F17 53/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Räkna ut kvadratsummorna För att räkna ut kvadratsummorna S xx, S yy och S xy kan man ha användning av sambanden S xx = S yy = S xy = n ( n (x i x) 2 = i=1 i=1 n ( n (y i ȳ) 2 = i=1 i=1 x 2 i y 2 i ) n x 2 ) nȳ 2 n ( n ) (x i x)(y i ȳ) = x i y i n xȳ i=1 i=1 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 54/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Skattningarnas fördelning: α 1 N α, σ n + x2 S xx ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Konfidens-, prediktions- och kalibreringsintervall: I β = β s ± t a/2 (n 2) I α = α ± t a/2 (n 2)s Sxx I μ0 = α + β 1 x 0 ± t a/2 (n 2)s n + (x 0 x) 2. S xx I Y(x0 ) = α + β x 0 ± t a/2 (n 2)s 1 + 1 n + (x 0 x) 2 S xx I x0 = x 0 ± t a/2 (n 2) s β 1 + 1 n + (y 0 ȳ) 2 (β ) 2. S xx 1 n + x2 S xx Sören Vang Andersen - sva@maths.lth.se FMS012 F17 55/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Konfidens- och prediktionsintervall 0.5 Konfidensintervall för µ(x) och prediktionsintervall 0.4 0.3 Absorption 0.2 0.1 0 0.1 0.2 50 0 50 100 150 200 250 Kopparkoncentration Sören Vang Andersen - sva@maths.lth.se FMS012 F17 56/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Kalibreringsintervall 0.5 Kalibreringsintervall då y 0 = 0.2 0.4 0.3 Absorption 0.2 0.1 0 0.1 0.2 50 0 50 100 150 200 250 Kopparkoncentration Sören Vang Andersen - sva@maths.lth.se FMS012 F17 57/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Modellvalidering I modellen antar vi att variationen kring linjen är ε i N (0, σ), oberoende av varandra Eftersom skattningarnas fördelning och konfidensintervall etc. baseras på normal-antagandet är det viktigt att undersöka om antagandet är rimligt. Vi kan studera residualerna, dvs avvikelserna mellan observerade y-värden och den skattade linjen. e i = y i α β x i, i = 1,..., n Dessa är observationer av ε i, och residualerna bör alltså: se ut att komma från en och samma normalfördelning vara oberoende av varandra vara oberoende av alla x i. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 58/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Residualplottar 10 Residualer 10 Residualer mot x 5 5 e 0 e 0 5 5 10 0 10 20 30 1:n Probability 0.99 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 0.01 10 0 10 20 30 x Normal Probability Plot 5 0 5 Data Sören Vang Andersen - sva@maths.lth.se FMS012 F17 59/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Multipel regression Modellen y i = β 0 + β 1 x i1 +... + β k x ik + ε i, i = 1,..., n, ε i N (0, σ) kan skrivas på matrisform som y = Xβ + ε där y och ε är n 1-vektorer, β en 1 (k + 1)-vektor och X en n (k + 1)-matris y 1 1 x 11 x 1k β 0 y 2 y =., X = 1 x 21 x 2k......, β = β 1.,ε = y n 1 x n1 x nk β k ε 1. ε n Sören Vang Andersen - sva@maths.lth.se FMS012 F17 60/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Skattning av parametrarna Skattning av β ML- och MK-skattningar av β 0,..., β k (elementen i β) blir β = (X T X) 1 X T y βi N (β i, D(βi )). D(βi )2 ges av diagonalelementen i kovariansmatrisen V(β0 ) C(β 0, β 1 ) C(β 0, β k ) V(β ) = σ 2 (X T X) 1 C(β1 =, β 0 ) V(β 1 ) C(β 1, β k )....... C(βk, β 0 ) C(β k, β 1 ) V(β k ) En väntevärdesriktig skattning av σ 2 ges av (korrigerad ML) s 2 = Q 0 n (k + 1) där Q 0 = (y Xβ ) T (y Xβ ) Sören Vang Andersen - sva@maths.lth.se FMS012 F17 61/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Konfidensintervall och hypotestest för β i Konfidensintervall för β i blir alltså I βi = βi ± t a/2 (f) d(βi ) = [(X = βi ± t a/2 (n (k + 1)) s T X) 1] i+1,i+1 Ett konfidensintervall för μ (x 0 ) blir således I μ (x 0 ) = x 0 β ± t a/2 (n (k + 1))s x 0 (X T X) 1 x T 0 För prediktionsintervallet får man, som tidigare, lägga till en etta under kvadratroten I Y(x0 ) = x 0 β ± t a/2 (n (k + 1))s 1 + x 0 (X T X) 1 x T 0 Sören Vang Andersen - sva@maths.lth.se FMS012 F17 62/63

Sannolikhetsteori Statistik Skattningar Intervall Tester Regression Modellvalidering Precis som för enkel regression bör man undersöka residualerna e = y Xβ, och förvisssa sig om att de verkar vara oberoende och N (0, σ)-fördelade. Plotta residualerna 1. Som de kommer, dvs mot 1, 2,..., n. Ev. ett histogram 2. Mot var och en av x i -dataserierna 3. I en normalfördelningsplot För var och en av β 1,..., β k (obs i regel ej β 0 ) bör man kunna förkasta H 0 i testet H 0 : β i = 0 H 1 : β i 0 eftersom β i anger hur mycket y beror av variabeln x i. Sören Vang Andersen - sva@maths.lth.se FMS012 F17 63/63