TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära Martin Singull Matematisk statistik Matematiska institutionen
TAMS65 - Mål Kursens övergripande mål är att ge grundläggande kunskaper i statistiska metoder, d.v.s. att utgående från observerade data dra slutsatser om fenomen som påverkas av slumpen. Efter fullgjord kurs förväntas den studerande kunna: Utnyttja en lämplig slumpmodell för att beskriva och analysera observerade data och dra slutsatser om intressanta parametrar. Härleda punktskattningar av parametrar och analysera deras egenskaper. Förstå principerna för att dra slutsatser via konfidensintervall och hypotesprövning. Konstruera konfidensintervall och genomföra hypotesprövning för observerade data, redovisa slutsatserna samt bedöma säkerheten. Analysera samband mellan variabler med hjälp av enkel eller multipel linjär regression och bedöma den använda modellens relevans. Tillämpa slumpmodeller och statistiska metoder i samband med frågeställningar inom ekonomi, teknik och naturvetenskap och kritiskt granska resultaten. TAMS65 - Fö1 1/44
Innehåll Fö1 Matematisk statistik Beskrivande statistik Statistisk teori Repetition av sannolikhetslära Observation vs stokastisk variabel Punktskattning inledning Momentmetoden TAMS65 - Fö1 2/44
Inledning - Matematisk Statistik I dagens tillämpningar skapas det ofta stora datamängder. Det är därför viktigt att kritiskt kunna granska informationen, kunna bearbeta och presentera datan, kunna beskriva variation, kunna formulera slumpmodeller som passar med datan. Då man observerar mätdata ser man ofta variationer i mätvärdena även om man i princip har mätt samma sak. Sannolikhetsmodeller kan man beskriva variationerna Statistiska metoder används för att dra slutsatser som till exempel variationernas storlek. TAMS65 - Fö1 3/44
Matematisk Statistik Beskrivande statistik - presentera och sammanfatta data på ett överskådligt sätt. Sannolikhetslära - konstruera modeller som beskriver hur vanliga olika händelser är och som förklarar variationen i mätdata. (TAMS79) Statistisk inferensteori - (inferens = slutledning) dra slutsatser, med någon viss säkerhet, utgående från mätvärden om intressanta parametrar. (TAMS65) TAMS65 - Fö1 4/44
Beskrivande statistik Histogram Beskrivande statistik handlar om att åskådliggöra och sammanfatta data. Antag att vi har n observerade värden x 1,..., x n (av en kontinuerlig stokastisk variabel). Dela in tallinjen i små intervall (klasser) som täcker in hela datamaterialet. För varje delintervall räknar man antalet värden i intervallet: f i. Man beräknar sedan den relativa frekvenen: p i = f i /n. Om man sedan låter histogrampelarens höjd vara p i /h så får histogrammet arean 1 och är direkt jämförbart med en täthetsfunktion. TAMS65 - Fö1 5/44
Exempel - Normal Låt oss simulera 200 observationer från en N(0, 1)-fördelning med hjälp av MATLAB. n=200; x = normrnd(0,1,n,1); hist(x,20) figure; histfit(x,20) Vilket ger följande histogram. TAMS65 - Fö1 6/44
Exempel - Normal TAMS65 - Fö1 7/44
Exempel - Normal TAMS65 - Fö1 8/44
Exempel - Exponential Simulera 200 observationer från en exponentialfördelning med väntevärde 5 d.v.s. Exp(5). n=200; y = exprnd(5,n,1); hist(y,20) [f g] = ecdf(y); figure; ecdfhist(f,g,20) hold on xx = 0:.1:max(y); yy = exp(-xx/5)/5; plot(xx,yy, r-, LineWidth,2) hold off TAMS65 - Fö1 9/44
Exempel - Exponential TAMS65 - Fö1 10/44
Exempel - Exponential TAMS65 - Fö1 11/44
Lägesmått Antag att vi har n observerade mätvärden x 1,..., x n. Det finns olika lägesmått för en datamängd. Det vanligaste är det aritmetiska medelvärdet, x = 1 n n x i. i=1 Ett annat lägesmått är medianen, { x(n+1)/2, om n är udda, x = 1 2 (x (n)/2 + x (n)/2+1 ), om n är jämn, där x (1) x (n) är datamängden ordnad i storleksordning. Ett tredje lägesmått är typvärdet (eng. mode) som är det vanligaste värdet i datamatrialet. TAMS65 - Fö1 12/44
Spridningsmått Som spridningsmått används ofta stickprovsvariansen s 2 = 1 n 1 n (x i x) 2, i=1 eller stickprovsstandardavvikelsen s = 1 n (x i x) n 1 2. Om våra observerade värden x i är någorlunda lika så blir x i x alla små och vi får en liten spridning. Att vi delar med n 1 istället för n kommer vi diskutera senare då vi tar upp egenskaper hos dessa skattningar. i=1 TAMS65 - Fö1 13/44
Exempel - Beskrivande Statistik Låt s i, i = 1,..., 254 vara slutkursen för Ericsson B från 2011-01-10 till 2012-01-09. Vidare låt x i = ln s i+1 s i. Vi vill nu analysera detta med hjälp av MATLAB. kurs = [76.00 76.50 77.25... 68.65 68.00 67.55] ; x = log(kurs(2:end)./kurs(1:end-1)); TAMS65 - Fö1 14/44
Exempel - Beskrivande Statistik TAMS65 - Fö1 15/44
Exempel - Beskrivande Statistik TAMS65 - Fö1 16/44
Exempel - Beskrivande Statistik Datamaterialet kan åskådliggöras med MATLAB på olika sätt, så att man får bättre överblick. [muhat, s] = normfit(x) figure;boxplot(x) figure;histfit(x,50) figure;normplot(x) muhat = s = -4.6587e-04 0.0226 TAMS65 - Fö1 17/44
Exempel - Box-plot Största och minsta värdet, medianen, undre och övre kvartilen. + är outlier, alltså värden som verkar avvika från de övriga. TAMS65 - Fö1 18/44
Exempel - Histogram Histogrammet visar ungefärlig form för täthetsfunktionen. TAMS65 - Fö1 19/44
Exempel - Normalfördelningsplot I normalfördelningsplotten ska punkterna ligga ungefär på en rät linje om mätvärdena är observationer av normalfördelade stokastiska variabler. S-form pga. att fördelningen är lite för spetsig. TAMS65 - Fö1 20/44
Exempel, forts. Både histogrammet och normalfördelningsplotten antyder i det här fallet att det är rimligt att anta normalfördelning. Man brukar säga av avkastningen för en aktie är log-normalfördelad, det vill säga att logaritmen av avkastningen är X i = ln S i+1 S i N(µ, σ), för några parametrar µ och σ (eller σ 2 ). I kursboken används notationen X N(µ, σ) i andra böcker kan man se X N(µ, σ 2 ). TAMS65 - Fö1 21/44
Exempel, forts. För att uppskatta µ och σ (på dagsbasis) kan vi använda Man kan också visa att ˆµ = x = 4.6587 10 04 och ˆσ = s = 0.0226 (s kallas för volatiliteten). ln S T N ( ln S 0 + µt, σ ) T och att ( ) E(S T ) = S 0 e µ+ 1 2 σ2t, var(s T ) = S0 2 e 2(µ+ 1 2 σ2 )T e σ2t 1, vilka vi kan uppskatta då vi har uppskattningar på µ och σ. Volatiliteten på årsbasis ges av σ 252 vilken skattas med s 252 = 0.359 = 35.9%. TAMS65 - Fö1 22/44
Exempel, forts. Vi kan också bilda något som vi kallar konfidensintervall för µ och σ. [muhat, s, mu_ci, sigma_ci] = normfit(u) mu_ci = -0.0033 0.0023 sigma_ci = 0.0208 0.0248 Alltså, vi har I 0.95 µ = ( 0.0033, 0.0023) och I 0.95 σ = (0.0208, 0.0248). Ett konfidensintervall I 1 α θ är ett intervall som med sannolikheten 1 α täcker över den verkliga parametern θ. TAMS65 - Fö1 23/44
Statistisk Inferens - Huvudproblem För att beskriva variationerna används stokastiska variabler (s.v.) som bygger upp slumpmodeller. Ex. Ett mätresultat kan vara U N(µ, σ) eller T Exp(λ). Ex. Vid en undersökning blir antalet som säger att de är positiva till att ha valutan Euro, en s.v. Y som är approximativt binomialfördelad, det vill säga Y Bin(n, p). I båda våra exempel ovan innehåller slumpmodellerna parametrar µ, σ, λ och p. TAMS65 - Fö1 24/44
Statistisk Inferens Statistisk teori handlar om att med observerade mätvärden göra punktskattningar, d.v.s. ta fram approximativa värden på parametrarna i slumpmodellen, konstruera konfidensintervall som beskriver vilka parametervärden som är tänkbara med hänsyn till de observerade värdena (dess variationer), pröva hypoteser angående parametrarna i slumpmodellen, t.ex. eller om vi vill testa H 0 : µ = 0 mot H 1 : µ > 0 H 0 : p = 0.5 mot H 1 : p > 0.5. TAMS65 - Fö1 25/44
Repetition av sannolikhetsläran Det är viktigt att kunna beräkna väntevärde och varians. Sats. Om Y = g(x ), så gäller att k g(k)p X (k) E(Y ) = g(x)f X (x)dx diskret s.v. kont. s.v. Sats. Variansen för den s.v. X är definierad som var(x ) = E((X µ) 2 ), där µ = E(X ) och kan beräknas enligt var(x ) = E(X 2 ) (E(X )) 2. TAMS65 - Fö1 26/44
Exempel Den s.v. X har täthetsfunktion { 2x för 0 x 1 f (x) = 0 annars. Beräkna var(x ) och E(e X ). Vi har att E(X 2 ) = [ 1 0 x 2 2xdx = 2 x4 4 E(X ) = [ 1 0 x 2xdx = 2 x3 3 ] 1 ] 1 0 = 1 2 och 0 = 2 3, vilket ger var(x ) = E(X 2 ) (E(X )) 2 = 1 2 4 9 = 1 18. Vidare gäller att E(e X ) = 1 0 ex 2xdx = [ 2e x x 2 e x dx ] 1 0 =... = 2 TAMS65 - Fö1 27/44
Sats. Om X 1,..., X n är s.v. och c 1,..., c n är konstanter, så gäller att ( n ) n E c i X i = c i E (X i ) i=1 i=1 och om X 1,..., X n är oberoende, så gäller också att ( n ) n var c i X i = ci 2 var (X i ) i=1 Satsen ovan är mycket viktig och vi kommer använda den många gånger framöver! i=1 TAMS65 - Fö1 28/44
Normalfördelning En s.v. X N(µ, σ) om f X (x) = 1 σ 2π Denna täthetsfunktion ger besvärliga integraler. (x µ) 2 e 2σ 2. Speciellt om Z N(0, 1) så har vi fördelningsfunktionen P(Z z) = som finns i tabell för z 0. z 1 2π e t2 /2 dt = Φ(z) Sats. Om X N(µ, σ) så gäller att Y = X µ σ N(0, 1). TAMS65 - Fö1 29/44
Exempel Låt den s.v. vara X N(5, 0.8). Beräkna P(3.5 < X < 6) och c så att P(X > c) = 0.9. P(3.5 <X < 6) = P ( 3.5 5 0.8 ) X 5 6 5 } 0.8 {{} 0.8 =Y N(0,1) = P( 1.875 Y 1.25) = Φ(1.25) Φ( 1.875) = Φ(1.25) (1 Φ(1.875)) = Φ(1.25) + Φ(1.875) 1 0.9693 + 0.9699 = 0.8944 1 = 0.864 2 0.9 = P(X > c) = P ( Y > c 5 0.8 ) c 5 0.8 = 1.28 c = 3.975 TAMS65 - Fö1 30/44
Sats. Om X 1,..., X n är oberoende X i N(µ i, σ i ) samt d, c 1,..., c n är konstanter, så gäller att n n d + c i X i N d + c i µ i, n i=1 i=1 i=1 c 2 i σ2 i En linjär kombination av ober. normalvariabler är normalfördelad och parametrarna är väntevärdet och standardavvikelsen Sats. Om X 1,..., X n är oberoende och X i N(µ, σ) så gäller att X = 1 n ( ) σ X i N µ, n n i=1 TAMS65 - Fö1 31/44
Bevis Den s.v. X är normalfördelad, eftersom den är en linjärkombination av oberoende normalvariabler, använd sats ovan. Vi beräknar parametrarna E ( X ) = E ( 1 n ) n X i = 1 n i=1 n E (X i ) = 1 }{{} n n µ = µ =µ i=1 var( X ) = var ( 1 n ) n X i = /ober./ = i=1 = 1 n 2 nσ2 = σ2 n ( ) 1 2 n n i=1 var(x i ) }{{} =σ 2 TAMS65 - Fö1 32/44
Exempel Observation vs Stokastisk variabel Gör ett kast med en tärning. Före kastet: resultatet är en s.v. X som antar värdena 1,..., 6 med slh. 1/6. Efter kastet: tex. x = 5, vilket är en observation av X. Gör tio kast med en tärning. Före kasten: resultaten är oberoende s.v. X 1, X 2,..., X 10, med samma fördelning som X. Efter kasten: vi fick x1 = 2, x 2 = 5,..., x 10 = 6 som är observationer av X 1,..., X 10. Man säger att x 1,..., x 10 är ett slumpmässigt stickprov. TAMS65 - Fö1 33/44
Språkbruk Observationer: x 1,..., x n Stokastiska variabler: X 1,..., X n Population: Samtliga möjliga observationer. Stickprov (sample): Delmängd av en population. Slumpmässigt stickprov (random sample): Oberoende likafördelade s.v. X 1,..., X n. Stickprovsfunktion (statistic): g(x 1,..., X n ). Stickprovsmedelvärde (sample mean): X = 1 n n i=1 X i, även x = 1 n n i=1 x i brukar kallas stickprovsmedelvärde. TAMS65 - Fö1 34/44
Språkbruk, forts. Stickprovsvarians (sample variance): S 2 = 1 n 1 n i=1 (X i X ) 2 med observerat värde s 2 = 1 n n 1 i=1 (x i x) 2 Stickprovsstandardavvikelse S resp. s = n i=1 (x i x) 2 1 n 1 Medelvärdet x = 1 n n i=1 x i ligger centralt bland mätvärdena 1 medan stickprovsstandardavvikelsen s = n n 1 i=1 (x i x) 2 är ett mått på hur utspritt datamaterialet är kring x. TAMS65 - Fö1 35/44
Exempel Punktskattning, inledning Vi har gjort fem bestämningar av tyngdaccelerationen θ i Linköping. Vi har då fått observationerna x 1 = 9.82, x 2 = 9.81, x 3 = 9.79, x 4 = 9.81, x 5 = 9.80 Vi söker ett approximativt värde på θ, d.v.s. vi vill (upp-)skatta θ. Förslag: ˆθ = x = 1 5 5 1 x i = 9.806 (= θ (x) i boken) Är detta ett matematiskt statistiskt problem? Ja, ty att förklara variationerna i mätvärdena använder vi en slumpmodell. TAMS65 - Fö1 36/44
Låt x i vara observationer av en s.v. X i = θ + ε i, där ε i är ett slumpmässigt mätfel, ε i N(0, σ) och ε 1, ε 2,..., ε 5 är oberoende. Det följer då att X i N(θ, σ). Vad händer om vi gör om försöket? Troligen ett nytt värde på ˆθ. Det fixa värdet ˆθ = x är en observation av den s.v. ( ) σ Θ = X N θ,. 5 Genom att studera Θ (θ (X) i boken) får vi ) en uppfattning om hur tillförlitligt vårt ˆθ-värde är. Notera att E ( Θ = θ. TAMS65 - Fö1 37/44
Språkbruk Det finns tre sorters olika θ: θ = det verkliga värdet på tyngdacc (fixt tal) ˆθ = approximativt värde på θ beräknat med hjälp av våra observerade värden x 1,..., x 5 (fixt tal) Θ = stokastisk variabel som beskriver hur ˆθ kan variera för olika mätserier. TAMS65 - Fö1 38/44
Punktskattning Låt x 1,..., x n vara observationer av oberoende s.v. X 1,..., X n, vars sannolikhetsfunktion p(k; θ) eller täthetsfunktion f (x; θ) innehåller en okänd parameter θ. Vi söker ett approximativt värde på θ, dvs. en punktskattning baserad på x 1,..., x n. Definition. En punktskattning är en funktion av de observerade mät- värdena, det vill säga ˆθ = g(x 1,..., x n ). I boken har vi notationen ˆθ = θ (x). TAMS65 - Fö1 39/44
Stickprovsvariabeln Det fixa värdet ˆθ (eng. estimate) är observation av stickprovsvariabeln (eng. estimator) Θ = g(x 1,..., X n ). I boken har vi notationen Θ = θ (X). Ibland kallar vi även Θ för skattningsvariabel eller (punkt-) skattning. Fördelningen för Θ beskriver vilka värden vi kan få på ˆθ för olika observationsserier. TAMS65 - Fö1 40/44
Momentmetoden Ofta kan man hitta lämpliga punktskattningar genom att utnyttja att man alltid kan skatta E(X i ) med hjälp av det aritmetiska medelvärdet x = 1 n x i. n En vidareutveckling av denna idé är momentmetoden, se nedan. Andra intressanta metoder är minsta-kvadrat-metoden (MK-metoden) maximum-likelihood-metoden (ML-metoden). 1 Se mer nästa föreläsning. TAMS65 - Fö1 41/44
Momentmetoden Låt x 1,..., x n vara observationer av oberoende s.v. X 1,..., X n med täthetsfunktion eller sannolikhetsfunktion som beror av θ. θ endimensionell: Om E(X i ) = µ(θ) så ges ˆθ av ekvationen µ(ˆθ) = x θ tvådimensionell: Då är θ = (θ 1, θ 2 ) och E(X i ) = µ 1 (θ 1, θ 2 ), E(Xi 2 ) = µ 2 (θ 1, θ 2 ). Vidare ges ˆθ 1 och ˆθ 2 av ekvationssystemet µ 1 (ˆθ 1, ˆθ 2 ) = x µ 2 (ˆθ 1, ˆθ 2 ) = 1 n n i=1 x 2 i Anm. Namnet momentmetoden beror på att µ k = E(X k ) kallas moment av ordningen k. Väntevärdet E(X ) är alltså första ordningens moment, E(X 2 ) är andra ordningens moment etc. TAMS65 - Fö1 42/44
Exempel - Normal Låt x 1,..., x n vara observationer av oberoende s.v. X 1,..., X n, där X i N (µ, σ). Skatta µ och σ 2 med momentmetoden. E(X ) = µ mm ger ˆµ = x E(X 2 ) = var(x i ) + (E(X i )) 2 = σ 2 + µ 2 mm ger ˆσ 2 + ˆµ 2 = 1 n xi 2 n ˆσ 2 = 1 n i=1 n i=1 x 2 i x 2 =... = 1 n n (x i x) 2. i=1 TAMS65 - Fö1 43/44
Exempel - Binomial Antag att x 1,..., x m vara observationer av oberoende s.v. X 1,..., X m, där X i Bin(n, p). Observera att vi har m observationer från Bin(n, p). Skatta p med momentmetoden. Vi har att Momentmetoden ger E(X i ) = np = µ(p) där x = 1 m m i=1 x i. µ(ˆp) = n ˆp = x ˆp = x n TAMS65 - Fö1 44/44
http://courses.mai.liu.se/gu/tams65/