Föreläsningsanteckningar i Matematisk Statistik. Jan Grandell

Transkript

1 Föreläsningsanteckningar i Matematisk Statistik Jan Grandell

2 2

3 Förord Dessa anteckningar gjordes för mitt privata bruk av föreläsningsmanuskript och har aldrig varit tänkta att användas som kursmaterial. Jag kan därför inte ta något ansvar för eventuella fel och eventuella konsekvenser av dessa på tentan. Jan Grandell i

4 ii Kapitel 0. Förord

5 Några beteckningar i Matematisk Statistik Grundläggande sannolikhetsteori ω utfall av ett slumpförsök Ω utfallsrummet tomma mängden, omöjliga händelsen A, A k, B,... händelser snitt; A B = A och B inträffar union; A B = A och/eller B inträffar, minst en av A eller B inträffar A komplementet till A, A inträffar ej P (A) sannolikheten för A P (B A) sannolikheten för B betingat av att A inträffat Stokastiska variabler X, X k, Y,... stokastiska variabler x, x k, y,... utfall av stokastiska variabler F X (x) = P (X x) fördelningsfunktion f X (x) täthetsfunktion (för en kontinuerlig s.v.) p X (x) = P (X = k) sannolikhetsfunktion (för en diskret s.v.) µ = µ X = E(X) väntevärde, förväntat värde σ 2 = σx 2 = V (X) varians σ = σ X = D(X) standardavvikelse C(X, Y ) kovariansen mellan X och Y ρ = ρ(x, Y ) korrelationskoefficienten mellan X och Y Statistik x 1, x 2,..., x n utfall av X 1, X 2,..., X n θ parameter θ obs = θ (x 1,..., x n ) punktskattning θ = θ (X 1,..., X n ) stickprovsvariabel x stickprovsmedelvärde s 2 stickprovsvarians I θ konfidensintervall för θ λ α, t α (f), χ 2 α(f) α-kvantiler för normal-, t- resp. χ 2 -fördelningarna H 0 nollhypotes H 1 alternativ hypotes, mothypotes iii

6 iv Kapitel 0. Några beteckningar i Matematisk Statistik

7 Innehåll Förord Några beteckningar i Matematisk Statistik i iii Föreläsning Inledning Grundläggande sannolikhetsteori Föreläsning Betingad sannolikhet Oberoende händelser Stokastiska variabler Föreläsning Stokastiska variabler Flerdimensionella stokastiska variabler Föreläsning Funktioner av stokastiska variabler Väntevärden Föreläsning Kovarians och korrelationskoefficient Mer om väntevärden Föreläsning Normalfördelningen Centrala gränsvärdessatsen Föreläsning Binomialfördelningen och dess släktingar Approximationer Föreläsning Punktskattning Föreläsning Intervallskattning v

8 vi Innehåll Föreläsning Hypotesprövning χ 2 -test Föreläsning Regressionsanalys

9 Föreläsning Inledning Vi ska först ge några exempel på situationer där matematisk statistik kommer in på ett naturligt och viktigt sätt Sannolikhetsteori: Sannolikhetsteori handlar om att göra modeller för verkligheten. Exempel (S) Man vill dimensionera trafikljussystemet på en genomfartsled med angränsande tvärgator i en stad. Hur långa grön-röd faser ska man ha för att minimera risken för allt för besvärande köbildning i rusningstrafik? Biltrafik är underkastad slumpmässiga fluktuationer. Vi måste formulera någon slags slumpmodell. Hur skall den se ut? Exempel (D) Man vill dimensionera ett datasystem på ett företag. Hur ska man göra detta, under en given kostnadsram, för att minimera risken för allt för besvärande köbildning i rusningstrafik? Datatrafik är underkastad slumpmässiga fluktuationer. Vi måste formulera någon slags slumpmodell. Hur skall den se ut? Statistik: Många tänker nog på tabeller när de hör ordet statistik. Vi menar dock med statistik läran om hur man från observationer eller analyser under osäkerhet drar slutsatser och beskriver dessa slutsatser på ett korrekt sätt. Exempel Låt oss säga att vi vill mäta halten av ett ämne i en kemisk förening. Hur skall vi göra detta? Det är en kemisk fråga som inte jag tänker gå in på. Hur vi ska analysera resultaten är däremot en statistisk fråga! Vi kan t.ex. ha 2000 enheter som vi är intresserade av. Detta är vår population, och det är bara dom enheterna som intresserar oss. Det är alldeles för mycket arbete att analysera alla enheterna! Det naturliga är att göra ett urval av dessa, eller som man brukar säga ta ett stickprov. Med ett stickprov menar vi i regel en uppsättning analysdata. Hur ska vi välja stickprovet, och hur kan man 1

10 2 Föreläsning 1 från resultatet av analysen av stickprovet dra slutsatser om populationen? En lite annan situation är om vi vill undersöka en produktionsmetod. Vi har då ingen naturlig population, eller om man så vill, så kan vi tala om en oändlig population. Vårt stickprov ersätts då av att vi väljer några enheter, och analyserar dessa. Man kan tänka sig att vi låter framställa ett visst antal, och ur dessa gör ett urval. Skillnaden med fallet ovan är att vi nu inte vill uttala oss om det tillverkade antalet populationen utan om alla enheter. Ett naturligare synsätt att se på saken är att vi uppfattar de enskilda analyserna som resultatet av ett slumpförsök. 1.2 Grundläggande sannolikhetsteori Händelser Vi betraktar nu ett slumpförsök. Definition 1.1 Varje möjligt resultat ω av ett slumpförsök kallas ett utfall, eller en elementarhändelse. Definition 1.2 Mängden av alla utfall, eller resultat, kallar vi utfallsrummet och betecknar det med Ω. Definition 1.3 En händelse A är en mängd av utfall, dvs en delmängd av Ω, A Ω. Låt oss nu anta att vi är intresserade av två händelser A och B definierade på samma försök. Här är några exempel på vad som kan inträffa, och hur vi matematiskt kan uttrycka detta: A inträffar, A A och B inträffar eller A snitt B inträffar, A B A eller B inträffar eller A union B inträffar, A B Obs! A B betyder att minst en av A eller B inträffar, så A B kan mycket väl inträffa. I matematik betyder eller och/eller! A inträffar inte, A. Om A och B utesluter varandra, dvs. omöjligt kan inträffa samtidigt, så säger vi att A och B är disjunkta eller oförenliga, dvs. A B = där är tomma mängden eller den omöjliga händelsen.

11 1.2. Grundläggande sannolikhetsteori 3 Har vi många händelser kan vi, precis som med summa- och produkt-tecken, använda ett förkortat skrivsätt: n A i = A 1 A 2... A n 1 och n A i = A 1 A 2... A n 1 Låt oss säga att vi kastar en tärning, och är intresserade av händelsen {vi får en sexa}. Alla håller nog med om att, om det är en just tärning, att den sannolikheten är 1. Symboliskt kan vi skriva 6 A = {vi får en sexa} och P (A) = 1 6. Är det överhuvudtaget meningsfullt att tala om sannolikheter, och om så är fallet, hur skall man tolka dessa? Vi skall tolka detta som att om man kastar tärningen många gånger, så blir den relativa frekvensen 6or ungefär 1. Allmänt sett, om vi har ett försök och 6 en händelse A och gör försöket n gånger, så gäller f n (A) = antalet gånger A inträffar n P (A) då n växer. Vad är nu en sannolikhet? Kolmogorovs axiomsystem (1933): Ett sannolikhetsmått P är en funktion av händelser, sådan att: (a) 0 P (A) 1; (b) P (Ω) = 1; (c) om A 1, A 2,... är disjunkta händelser, så gäller ( ) P A i = 1 P (A i ). 1 (a) och (b) kan ses som en kalibrering så att P stämmer med intuitionen (det blir lättare då) och (c) (som är det viktiga axiomet) betyder att P är ett mått. Sats 1.1 P (A ) = 1 P (A).

12 4 Föreläsning 1 Bevis. Vi ska ge ett mycket formellt bevis, för att illustrera axiomsystemet: Eftersom A och A disjunkta och A A = Ω, så fås P (A) + P (A ) = P (Ω) = 1 P (A ) = 1 P (A). Sats 1.2 P (A B) = P (A) + P (B) P (A B). Bevis. Satsen följer med hjälp av Venn-diagram, och observationen att P (A) + P (B) mäter A B två gånger. Den klassiska sannolikhetsdefinitionen Antag att Ω består av m (möjliga) elementarhändelser ω 1,..., ω m, var och en med samma sannolikhet att inträffa, dvs P (ω k ) = 1 m k = 1,..., m. Betrakta en händelse A, A Ω. Antag att A innehåller g (gynnsamma) elementarhändelser. Då gäller P (A) = g m. Problemt med den klassiska sannolikhetsdefinitionen, i mera komplicerade situationer, är att hitta en uppdelning av Ω i lika sannolika elementarhändelser och att beräkna m och g. I många de flesta situationer är det inte alls möjligt att göra detta. För att beräkna m och g behöver vi några kombinatoriska grundbegrepp: n st. föremål kan permuteras eller ordnas på olika sätt. Det finns n! = n (n 1) ( ) n = k n! k!(n k)! olika sätt att plocka ut k st. av dessa om vi ej tar hänsyn till i vilken ordning de plockas ut. Det finns n k olika sätt att plocka ut k st. av dessa om varje föremål som har plockats ut stoppas tillbaka och om vi tar hänsyn till i vilken ordning de plockas ut.

13 1.2. Grundläggande sannolikhetsteori 5 Två urnmodeller Dragning utan återläggning I en urna finns kulor av två slag: v vita och s svarta. Drag n kulor ur urnan slumpmässigt och så att en kula som dragits inte stoppas tillbaka. dvs dragning utan återläggning. Sätt A = Man får k vita kulor i urvalet. Välj Ω: Alla uppsättningar om n kulor utan hänsyn till ordning. Då fås: och således ( ) v + s m = n P (A) = och g = ( v s ) k)( n k ). ( v+s n ( )( v s ) k n k Dragning med återläggning Samma modell som i fallet med dragning utan återläggning, men kulorna stoppas tillbaka igen efter det att man observerat dess färg, och urnan skakas om för nästa dragning. Välj Ω: Alla uppsättningar om n kulor med hänsyn till ordning: m = (v + s) n. Antag att vi valt ut k vita och n k svarta kulor. Dessa kan placeras på ( ) n k platser: v v v v Antal sätt att välja ut k vita = v k. Antal sätt att välja ut n k svarta = s n k. Detta ger g = ( n k) v k s n k och således får vi P (A) = ( n k ) v k s n k (v + s) n = ( ) ( ) k ( ) n k n v s. k v + s v + s

14 6 Föreläsning 1

15 Föreläsning Betingad sannolikhet Vi påminner om relativa frekvensers stabilitet: Om vi har ett försök och en händelse A och gör försöket n gånger, så gäller f n (A) = antalet gånger A inträffar antalet försök P (A) då n växer. Låt A och B vara två händelser, dvs A, B Ω. Vad är P (B A), dvs sannolikheten för B då vi vet att A har inträffat? Det borde gälla att = P (B A) antalet gånger A B inträffar antalet gånger A inträffar antalet gånger A B inträffar antalet försök Detta leder oss till följande definition. P (A B). P (A) antalet försök antalet gånger A inträffar Definition 2.1 Låt A och B vara två händelser. Antag att P (A) > 0. Sannolikheten för B betingat av A betecknas med P (B A) och definieras som P (B A) = P (A B). P (A) Exempel (Kast med röd och vit tärning) A = summan av ögonen är högst 4. B k = vita tärningen visar k ögon. P (B k A) = 0 om k 4. 7

16 8 Föreläsning 2 Möjliga utfall, m, är 36: (v, r), v, r = 1,... 6, dvs (1, 1), (1, 2),... (6, 6). Gynnsamma utfall för A, är 6: (1,1), (1,2), (1,3), (2,1), (2,2), (3,1). Gynnsamma utfall för A B k, är 4 k: (v, r), v = k, r = 1,... 4 k, dvs (k, 1), (k, 2),... (k, 4 k) om k < 4. Klassiska sannolikhetsdefinitionen ger Detta ger, för k < 4, P (A) = 6 36 och P (B k A) = 4 k 6 P (A B k ) = 4 k = 1 k = = 6 = 1 k = k = 3. 6 Ofta är det lättare att ange värden till betingade sannolikheter än till obetingade, och vi utnyttar definitionen baklänges. Exempel En ohederlig person har två tärningar, en äkta och en falsk som alltid ger 6 ögon. Han väljer slumpmässigt den ena. Vad är sannolikheten för 5 resp. 6 ögon. Låt oss betrakta fallet med sex ögon. Intiuitivt bör gälla att sannolikheten är Mera systematiskt gäller följande sats = = Sats 2.1 (Lagen om total sannolikhet) Om H 1,..., H n är disjunkta händelser, har positiv sannolikhet och uppfyller hela Ω, så gäller för varje händelse A Ω att P (A) = n P (H i )P (A H i ). i=1 Bevis. Vi har P (A) = P (A Ω) = P (A (H 1... H n )) = P ((A H 1 )... (A H n )) = n P (A H i ) = i=1 n P (H i )P (A H i ). i=1 Vi ska nu ge en viktig sats om vändning av händelserna i betingade sannolikheter.

17 2.2. Oberoende händelser 9 Sats 2.2 (Bayes sats) Under samma villkor som i lagen om total sannolikhet gäller P (H i )P (A H i ) P (H i A) = n j=1 P (H j)p (A H j ). Bevis. P (H i A) = P (H i A) P (A) = P (H i A) P (H i ) P (H i) P (A) = P (A H i) P (H i) P (A). Lagen om total sannolikhet tillämpad på P (A) ger resultatet. Låt oss gå tillbaka till exemplet om falskspelaren. Sätt A = 6 ögon. H 1 = äkta tärningen. H 2 = falska tärningen. Då gäller P (A) = P (H 1 )P (A H 1 ) + P (H 2 )P (A H 2 ) = = 7 12, som i exemplet. Bayes sats ger vidare och P (H 1 A) = P (H 1 A) P (A) P (H 2 A) = P (H 2 A) P (A) = P (A H 1 ) P (H 1) P (A) = = P (A H 2 ) P (H 2) P (A) = vilket kanske inte är lika lätt att inse rent intiuitivt = = Oberoende händelser Intiuitivt är två händelser A och B oberoende om inträffandet av A inte ger någon information om huruvida B inträffar eller ej. I formler betyder detta Allmänt gäller ju P (B A) = P (B). P (B A) = P (A B), om P (A) > 0. P (A) Multiplikation med P (A) leder oss till följande definition: Definition 2.2 Två händelser A och B är oberoende om P (A B) = P (A)P (B).

18 10 Föreläsning 2 Definitionen ovan kräver inget villkor om positiva sannolikheter. Det är inte självklart hur oberoende skall definieras för flera händelser. Definition 2.3 Tre händelser A, B och C är oberoende om P (A B) = P (A)P (B) P (A C) = P (A)P (C) P (B C) = P (B)P (C) P (A B C) = P (A)P (B)P (C). Endast P (A B C) = P (A)P (B)P (C) räcker inte, vilket inses om vi sätter A = B och C =. Inte heller räcker parvis oberoende, vilket ses av följande exempel: Kast med röd och vit tärning: A = vita tärningen visar jämnt antal ögon. B = röda tärningen visar jämnt antal ögon. C = jämn ögonsumma. A och B är oberoende av försöksskäl. Vidare gäller P (A C) = P (A B) = P (A)P (B) = 1 4 och P (A)P (C) = 1 4. Således är A och C oberoende. Pss. följer att B och C är oberoende. Eftersom A B C vore det inte rimligt att anse att A, B och C är oberoende. Allmänt: Oavsett vilka händelser vi plockar ut så skall sannolikheten för snittet vara produkten av sannolikheterna. Man kan visa att om A 1,..., A n är oberoende, så är även A 1,..., A n oberoende. Detta kan verka helt självklart, med är inte helt lätt att visa. Vi nöjer oss med fallet n = 2. Vi har P (A B ) = P ((A B) ) = 1 P (A B) = 1 P (A) P (B) + P (A)P (B) = 1 P (A) P (B)(1 P (A)) = (1 P (A))(1 P (B)) = P (A )P (B ). Sats 2.3 Låt händelserna A 1,..., A n vara oberoende. Sätt B = n 1 A i, dvs. minst en av händelserna A 1,..., A n inträffar. Då gäller P (B) = 1 (1 P (A 1 ))(1 P (A 2 ))... (1 P (A n )).

19 2.3. Stokastiska variabler 11 Bevis. ( n ) P (B) = 1 P (B ) = 1 P = 1 1 A i n P (A i ) = 1 1 n (1 P (A i )) Stokastiska variabler I nästan alla situationer som vi betraktar, kommer resultaten av slumpförsöken att vara tal, kontinerliga mätvärden eller antal. Det är praktiskt att anpassa beteckningarna till detta. Definition 2.4 En stokastisk variabel s.v. (eller en slumpvariabel) X är en funktion från Ω till reella linjen. Lite löst kommer vi att uppfatta X som en beteckning för resultatet av ett slumpförsök. För ett tärningskast kan X anta ett av värdena 1, 2, 3, 4, 5 eller 6. Låt X vara en stokastisk variabel. Det mest allmänna sättet att beskriva X, dvs. hur X varierar, är att ange dess fördelningsfunktion. Definition 2.5 Fördelningsfunktionen F X (x) till en s.v. X definieras av F X (x) = P (X x). En fördelningsfunktion F X (x) har följande egenskaper: 1) F X (x) är icke-avtagande; 2) F X (x) 1 då x ; 3) F X (x) 0 då x ; 4) F X (x) är högerkontinuerlig.

21 Föreläsning Stokastiska variabler Det är lämpligt att skilja på fallen då vår stokastiska variabel representerar kontinuerliga mätvärden eller antal. Diskret stokastisk variabel Vi ska nu betrakta fallet med antal. Definition 3.1 En s.v. X säges vara diskret om den kan anta ett ändligt eller uppräkneligt oändligt antal olika värden. Det viktiga är att de möjliga värdena ligger i en ändlig eller högst uppräknelig mängd. Oftast tar en diskret s.v. icke-negativa heltalsvärden räknar ett antal. Vi kommer att förutsätta detta, om vi inte explicit säger något annat. Definition 3.2 För en diskret s.v. definieras sannolikhetsfunktionen p X (k) av p X (k) = P (X = k). Om X beskriver ett tärningskast gäller således { 1 för k = 1, 2, 3, 4, 5, 6 6 p X (k) = 0 för övriga värden på k. Gör vi nu slumpförsöket att på måfå dra en av 6 lappar med talen 1, 2, 3, 4, 5 eller 6, så får vi samma s.v. som i tärningskasten. Relationen mellan sannolikhetsfunktionen och fördelningsfunktionen för en diskret stokastisk variabel fås av sambanden F X (x) = j [x] p X (j), där [x] betyder heltalsdelen av x, och p X (k) = F X (k) F X (k 1) 13 ( = FX (k ) F X(k 1 2 )).

22 14 Föreläsning 3 Det följer av detta att Binomialfördelningen p X (k) 0 och p X (k) = 1. 0 Låt oss betrakta fallet dragning med återläggning, och låt X vara antalet vita kulor i urvalet om n kulor. Sätt p = v, dvs. p är sannolikheten för en v+s vit kula. Då fås ( ) n p X (k) = p k (1 p) n k, för k = 0, 1,..., n. k Nu är det inte alls nödvändigt att p är ett rationellt tal, utan vi kan allmännt betrakta ett försök där en händelse A med p = P (A) kan inträffa, och låta X vara antaltet gånger som A inträffar i n oberoende upprepningar av detta försök. Definition 3.3 En diskret s.v. X säges vara binomialfördelad med parametrarna n och p, Bin(n, p)-fördelad, om ( ) n p X (k) = p k (1 p) n k, för k = 0, 1,..., n. k Poissonfördelningen Ofta när det är rimligt att anta att en s.v. X är Bin(n, p)-fördelad, så är det även rimligt att anta att p är liten och att n är stor. Låt oss anta att p = µ/n, där n är stor men µ är lagom. Då gäller p X (k) = = µk ( n k ) p k (1 p) n k = n(n 1)... (n k + 1) k! ( 1 µ ) n n(n 1)... (n k + 1) ( 1 µ ) k k! }{{ n }} n{{ k }}{{ n } e µ 1 1 ( µ k ( 1 n) µ ) n k n µk k! e µ. Definition 3.4 En diskret s.v. X säges vara Poissonfördelad med parameter µ, Po(µ)-fördelad, om Kontinuerlig stokastisk variabel p X (k) = µk k! e µ, för k = 0, 1, Här kan vi tyvärr inte ge definitionen i termer av den stokastiska variabeln själv. Det räcker inte att säga att X kan ta ett överuppräneligt antal värden. Vi får därför ge definitionen i termer av fördelningsfunktionen, som ju är den allmännaste beskrivningen av en s.v.

23 3.1. Stokastiska variabler 15 Definition 3.5 En s.v. X säges vara kontinuerlig om dess fördelningsfunktion har framställningen F X (x) = x f X (t) dt för någon funktion f X (x). Funktionen f X (x) kallas täthetsfunktionen för X. Omvänt gäller att f X (x) = F X (x). Täthetsfunktionen och sannolikhetsfunktionen kommer ofta att uppträda parallellt. Täthetsfunktionen kan inte direkt tolkas som en sannolikhet, men vi har, för små värden på h, P (x < X x + h) = F X (x + h) F X (x) = Ett par begrepp: x+h x f X (t) dt h f X (x). Definition 3.6 Lösningen till ekvationen 1 F X (x) = α kallas α-kvantilen till X och betecknas med x α. Rita figur! x 0.5 kallas för medianen och är således det värde som överskrides med samma sannolikhet som det underskrides. Likformig fördelning U(a, b) f X (x) = { 1 b a för a x b, 0 annars. 0 för x a, x a F X (x) = för a x b, b a 1 för x b. Rita figur!

24 16 Föreläsning 3 Exponentialfördelningen Exp(λ) { λ e λx för x 0, f X (x) = 0 för x < 0. { 1 e λx för x 0, F X (x) = 0 för x < 0. Denna fördelning är viktig i väntetidsproblem. För att inse detta så tar vi ett enkelt exempel: Antag att n personer går förbi en affär per tidsenhet. Låt var och en av dessa gå in i affären oberoende av varandra och med sannolikheten p. Låt X vara tiden tills första kunden kommer. X > x betyder att ingen kund kommit efter x tidsenheter. P (X > x) = (1 p) nx ty nx personer har gått förbi. Låt oss anta precis som då vi härledde Poissonfördelningen, att p = µ/n, där n är stor men µ är lagom. Då gäller P (X > x) = (1 p) nx = (1 µ n )nx e µx. Detta ger att F X (x) = 1 P (X > x) 1 e µx, dvs X är approximativt Exp(µ). Observera att väntevärdet (ännu ej definierat, men det kommer) är 1/µ! Normalfördelningen. f X (x) = 1 σ 2π där µ godtycklig konstant och σ > 0. e (x µ)2 /2σ2 Denna fördelning är mycket viktig, och vi skall återkomma till den. Man kan inte analytiskt ge fördelningsfunktionen, vilket kan tyckas lite taskigt. 3.2 Flerdimensionella stokastiska variabler Ofta mäter vi i samma slumpförsök flera storheter, och då beskrivs resultatet av en n-dimensionell stokastisk variabel (X 1, X 2,..., X n ). Exempel Slumpförsöket är att vi väljer en person slumpmässigt här i rummet, och sätter X = personens vikt; Y = personens längd. Vi nöjer oss med att ge detaljer i det två-dimensionella fallet. Låt (X,Y) vara en två-dimensionell s.v.

25 3.2. Flerdimensionella stokastiska variabler 17 F X,Y (x, y) = P (X x, Y y) kallas (den simultana) fördelningsfunktionen för (X, Y ). F X (x) = P (X x) = P (X x, Y ) = F X,Y (x, ) kallas den marginella fördelningsfunktionen för X. F Y (y) = F X,Y (, y) kallas den marginella fördelningsfunktionen för Y. Definition 3.7 X och Y är oberoende stokastiska variabler om F X,Y (x, y) = F X (x)f Y (y) Vi kommer ihåg att för händelser så var det inte helt lätt att generlisera till godtyckligt antal. För s.v. är det dock skenbart enklare. Definition 3.8 (X 1, X 2,..., X n ) är oberoende stokastiska variabler om F X1,...,X n (x 1,..., x n ) = P (X 1 x 1,..., X n x n ) = F X1 (x 1 ) F Xn (x n ). Kommentera! Omvänt gäller att om X 1, X 2,..., X n är oberoende s.v. så fås den simultana fördelningen enl. definitionen ovan.

27 Föreläsning Funktioner av stokastiska variabler Största och minsta värdets fördelning Låt X 1, X 2,..., X n vara oberoende s.v. med resp. fördelningsfunktioner F X1 (x 1 ),..., F Xn (x n ). Sätt Y = max(x 1, X 2,..., X n ) Z = min(x 1, X 2,..., X n ). Vi har F Y (y) = P (Y y) = P (alla X i y) = F X1 (y) F Xn (y) och F Z (z) = P (min(x 1, X 2,..., X n ) z) = 1 P (min(x 1, X 2,..., X n ) > z) = 1 P (alla X i > z) = 1 P (X 1 > z) P (X n > z) = 1 (1 F X1 (z)) (1 F Xn (z)). Summans fördelning Låt X och Y vara två oberoende kontinuerliga stokastiska variabler med tätheter f X (x) och f Y (y). Sätt Z = X + Y. Då gäller F Z (z) = P (X + Y z) = P ((X, Y ) {(x, y); x + y z}) = (fixera x och integrera över y) = x+y z f X (x)f Y (y) dx dy ( z x ) f X (x) f Y (y) dy dx 19

28 20 Föreläsning 4 = f X (x)f Y (z x) dx. Z är också en kontinuerlig stokastisk variabel. Derivation map. z ger f Z (z) = F Z(z) = Denna operation kallas faltning. f X (x)f Y (z x) dx. 4.2 Väntevärden Vi ska nu införa begreppet väntevärde för en s.v. Detta är den teoretiska motsvarigveten till begreppet medelvärde för en talföljd. Antag att vi har en lång talföljd x 1,..., x n, där talen är ganska små heltal. Medelvärdet definierades av x = 1 n n x k. k=1 Det kan vara bekvämt att göra omskrivningen x = i f i, i=0 där f i = antalet {k; x k = i}. n När vi diskuterade tolkningen av begreppet sannolikhet, så sa vi att antalet gånger A inträffar n P (A) då n växer. För diskreta s.v. gäller då att f k p X (k) då k. Vi leds av detta till följande definition: Definition 4.1 Väntevärdet µ för en s.v. X är { k=0 µ = E(X) = kp X(k) i diskreta fallet, xf X(x) dx i kontinuerliga fallet. Vi skall alltid anta att k p X (k) < k=0 och x f X (x) dx <.

29 4.2. Väntevärden 21 Väntevärdet ger samma information och samma brist på information för den s.v. som melelvärdet ger för en talföljd. Låt oss tänka på tärningskast igen. Hur mycket skulle ni vara villiga att betala för följande spel: Jag kastar en tärning, och ni får lika många kronor som det blir ögon? Vi har vilket ger p X (k) = E(X) = { 1 6 för k = 1, 2, 3, 4, 5, 6 0 för övriga värden på k, kp X (k) = k=0 6 k 1 6 = 3.5. k=1 Poissonfördelningen E(X) = k=0 = µ Exponentialfördelningen = 1 λ p X (k) = µk k! e µ, för k = 1, k µk k! e µ = k=1 k=1 µ k 1 (k 1)! e µ = µ f X (x) = k µk k! e µ = i=0 k=1 µ i i! e µ = µ. { λ e λx för x 0, 0 för x < 0. µ k (k 1)! e µ y = λx E(X) = xf X (x) dx = xλ e λx dx = x = y/λ 0 dx = dy/λ ye y dy = 1 [ ] ye y 0 λ + 1 e y dy = 0 1 [ ] 0 e y λ 0 λ = 1 0 λ. Antag att vi känner förd. för X, och vill beräkna E(Y ) där Y = g(x). Följande, skenbart oskyldiga, sats är ordentligt svår att bevisa i det kontinuerliga fallet Sats 4.1 Väntevärdet för g(x) är { k=0 E(g(X)) = g(k)p X(k) i diskreta fallet, g(x)f X(x) dx i kontinuerliga fallet.

30 22 Föreläsning 4 Bevis. Blom m.fl. visar satsen i det diskreta fallet, så vi betraktar det kontinuerliga fallet. Vi begränsar oss dock till fallet då g är strikt växande. Denna begränsning förenklar beviset högst avsevärt. Låt g 1 (x) vara inversen till g. Då gäller vilket ger F Y (y) = P (Y y) = P (g(x) y) = P (X g 1 (y)) = F X (g 1 (y)) f Y (y) = df X(g 1 (y)) dy = df X(g 1 (y)) dg 1 (y) dy = f X (g 1 (y)) dg 1 (y). dy Av detta fås E(Y ) = yf X (g 1 (y)) dg 1 (y) dy dy x = g 1 (y) = dx = dg 1 (y) dy = g(x)f dy X (x) dx. y = g(x) Från denna sats följer bl.a. följande: E(h(X) + g(x)) = E(h(X)) + E(g(X)) med det viktiga specialfallet E(aX + b) = ae(x) + b. Spridningsmått Väntevärdet säger ingen om hur X varierar. Diskutera och dess egenskaper! X µ och (X µ) 2 Vi leds nu till följande definition. Definition 4.2 Variansen σ 2 för en s.v. X är σ 2 = V (X) = E[(X µ) 2 ]. Följande räkneregel är mycket användbar: Sats 4.2 V (X) = E(X 2 ) [E(X)] 2 = E(X 2 ) µ 2.

31 4.2. Väntevärden 23 Bevis. V (X) = E[(X µ) 2 ] = E[X 2 + µ 2 2µX] = E[X 2 ] + µ 2 2µE[X] = E(X 2 ) µ 2. I exemplet med tärningsspel har vi µ = 3.5 = 21. Vidare har vi 6 E(X 2 ) = k 2 p X (k) = k= 6 k = 91 6 = k=1 Enligt räkneregeln fås V (X) = 91 ( ) = = Sats 4.3 V (ax + b) = a 2 V (X). Bevis. V (ax + b) = E[(aX + b E(aX + b)) 2 ] = E[(aX + b aµ b) 2 ] = E[(aX aµ) 2 ] = a 2 E[(X µ) 2 ] = a 2 V (X). Definition 4.3 Standardavvikelsen σ för en s.v. X är σ = D(X) = V (X). Sats 4.4 D(aX + b) = a D(X). Allmänt gäller: D rätt sort. V lättare att räkna med. Exponentialfördelningen. E(X 2 ) = 0 x 2 λe λx dx = 1 y 2 e y dy = part. int. = 2 λ 2 λ 2 V (X) = 2 λ 2 1 λ 2 = 1 λ 2 D(X) = 1 λ. 0

32 24 Föreläsning 4 Poissonfördelningen E(X(X 1)) = = k=2 k=0 µ k (k 2)! e µ = µ 2 k(k 1) µk k! e µ = k=2 k=2 µ k 2 (k 2)! e µ = µ 2 k(k 1) µk k! e µ i=0 µ i i! e µ = µ 2. Detta ger µ 2 = E(X(X 1)) = E(X 2 ) µ, eller E(X 2 ) = µ 2 + µ, vilket ger V (X) = E(X 2 ) µ 2 = µ 2 + µ µ 2 = µ.

33 Föreläsning Kovarians och korrelationskoefficient Låt (X, Y ) vara en tvådimensionell s.v. där vi är intresserade av sambandet mellan Xs och Y s variation. Det kan vara natuligt att betrakta variablerna X µ X och Y µ Y. Vi skiljer på fallen då X och Y samvarierar resp. motverkar varandra, dvs. då ett stort/litet värde på X gör ett stort/litet värde på Y troligt resp. ett stort/litet värde på X gör ett litet/stort värde på Y troligt. Betraktar vi nu variabeln (X µ X )(Y µ Y ), så innebär detta att den i första fallet, eftersom + + = + och = +, att den har en tendens att vara positiv. På motsvarande sätt, eftersom + = och + =, har den i andra fallet en tendens att vara negativ. Det som vi, lite slarvigt, har kallat tendens, kan vi ersätta med väntevärde. Vi leds då till följande definition. Definition 5.1 Kovariansen mellan X och Y är där µ X = E(X) och µ Y = E(Y ). C(X, Y ) = E[(X µ X )(Y µ Y )], Kovariansen kan sägas ha fel sort. Det verkar rimligt att ett mått på ett så abstrakt begrepp som samvariation skall vara sortfritt. Det vanligaste måttet är korrelationskoefficienten. Definition 5.2 Korrelationskoefficienten mellan X och Y är ρ = ρ(x, Y ) = C(X, Y ) D(X)D(Y ). 25

34 26 Föreläsning 5 Man kan visa att ρ 1, där ρ = ±1 betyder att det finns ett perfekt linjärt samband, dvs. Y = ax + b. Sats 5.1 Om X och Y är oberoende så är de okorrelerade, dvs. ρ(x, Y ) = 0. Omvändningen gäller ej, dvs. okorrelerade variabler kan vara beroende. Exempel Låt (X, Y ) vara en tvådimensionell diskret variabel med följande sannolikhetsfunktion: { 1 om (i, j) = (0, 1), (0, 1), (1, 0), eller ( 1, 0). 4 p X,Y (i, j) = 0 annars. Rita! Uppenbarligen är dessa variabler beroende. Av symmetrin följer att µ X = µ Y = 0. Variabeln XY tar alltid värdet 0. Således fås C(X, Y ) = E(XY ) = 0. Om (X, Y ) är tvådimensionellt normalfördelad, så innebär dock ρ = 0 att X och Y är oberoende. Varning Korrelationskoefficienten är svårtolkad! 5.2 Mer om väntevärden Sats 5.2 Låt (X, Y ) vara en tvådimensionell s.v. Då gäller (1) E(aX + by ) = ae(x) + be(y ); (2) V (ax + by ) = a 2 V (X) + b 2 V (Y ) + 2abC(X, Y ). Bevis. (1) följer av av räknereglerna för integraler resp. summor. (2) fås av följande V (ax + by ) = E[(aX + by aµ X bµ Y ) 2 ] = E[(aX aµ X + by bµ Y ) 2 ] = E[a 2 (X µ X ) 2 + b 2 (Y µ Y ) 2 + 2ab(X µ X )(Y µ Y )] = a 2 V (X) + b 2 V (Y ) + 2abC(X, Y ).

35 5.2. Mer om väntevärden 27 Följdsats 5.1 Låt X och Y vara två oberoende (okorrelerade räcker) s.v. Då gäller E(X + Y ) = E(X) + E(Y ) V (X + Y ) = V (X) + V (Y ) E(X Y ) = E(X) E(Y ) V (X Y ) = V (X) + V (Y ). Detta går att utvidga till godtyckligt många variabler: Sats 5.3 Låt X 1,..., X n vara oberoende (okorrelerade räcker) s.v. och sätt Y = c 1 X c n X n. Då gäller och E(Y ) = c 1 E(X 1 ) c n E(X n ) V (Y ) = c 2 1V (X 1 ) c 2 nv (X n ) Arimetiskt medelvärde Sats 5.4 Låt X 1, X 2,..., X n vara oberoende och likafördelade s.v. med väntevärde µ och standardavvikelse σ. Då gäller att E(X) = µ, V (X) = σ2 n och D(X) = σ n. Uttrycket X 1, X 2,..., X n är likafördelade betyder att de stokastiska variablernas fördelningar, dvs. att de stokastiska variablernas statistiska egenskaper, är identiska. Utfallen av variablerna varierar dock. Sats 5.5 (Tjebysjovs olikhet) För varje ε > 0 gäller P ( X µ > ε) V (X) ε 2. (Ersätter vi ε med kσ fås formuleringen i Blom m.fl.) Bevis. Detta är den enda riktigt djupa satsen i kursen som vi kan bevisa. Njut av elegansen i beviset! Bokens bevis via Markovs olikhet är egentligen ännu elegantare! Vi nöjer oss med det kontinuerliga fallet. Vi har V (X) = (x µ) 2 f X (x) dx x µ >ε (x µ) 2 f X (x) dx

36 28 Föreläsning 5 ε 2 x µ >ε f X (x) dx = ε 2 P ( X µ > ε). Sats 5.6 Stora talen lag För varje ε > 0 gäller P ( X µ > ε) 0 då n. Bevis. Enl. Tjebysjovs olikhet gäller då n. P ( X µ > ε) V (X) ε 2 = σ2 nε 2 Diskutera relationen till relativa frekvensers stabilitet.

37 Föreläsning Normalfördelningen Diskutera mätfel. Ofta beror mätfelen på att att oberoende fel av samma storleksordning adderar sig. Erfarenheten visar att mätfel fördelar sig enl. figur. Rita! Vi ska återkomma till detta i slutet av föreläsningen. Standardiserad normalfördelning Definition 6.1 En s.v. Z säges vara standardiserad normalfördelad om den är N(0, 1)-fördelad, dvs. om den har täthetsfunktionen ϕ(z) = 1 2π e z2 /2. Dess fördelningsfunktion betecknas med Φ(z), dvs. Φ(z) = z 1 2π e x2 /2 dx. Ett problem är att fördelningsfunktionen inte kan ges på en analytisk form. Det är dock lätt att numeriskt beräkna fördelningsfunktionen och i praktiken använder man tabeller över Φ(x). Vi observerar att ϕ( z) = ϕ(z). Φ(z) är tabulerad endast för x 0. Vi har dock z z Φ( z) = ϕ(x) dx = [y = x] = ϕ( y) dy = z ϕ(y) dy = 1 Φ(z). Om Z är N(0, 1)-fördelad, så kan man visa att E(Z) = 0 V (Z) = 1. (ty ϕ( z) = ϕ(z)) 29

38 30 Föreläsning 6 När vi kommer till statistikdelen behöver vi ofta lösa ekvationer av följande slag: Bestäm z så att vi för givet α har P (Z z) = 1 α; P (Z > z) = 1 α; P ( z < Z z) = 1 α. För att lösa sådana ekvationer inför vi α-kvantilen λ α definierad av P (Z > λ α ) = α eller α = 1 Φ(λ α ). Det är då bra att observera att 1 α = 1 Φ(λ 1 α ) vilket ger α = Φ(λ 1 α ) α = 1 Φ( λ 1 α ), λ 1 α = λ α. Allmän normalfördelning Definition 6.2 En s.v. X säges vara N(µ, σ)-fördelad, där µ reell och σ > 0, om Z = X µ är N(0, 1)-fördelad. σ Sats 6.1 Låt X vara N(µ, σ)-fördelad. Då gäller f X (x) = 1 ( ) x µ σ ϕ = 1 σ σ /2σ2 e (x µ)2 2π och ( ) x µ F X (x) = Φ. σ Bevis. Vi har Derivation ger f X (x) = 1 σ ϕ( x µ σ ( X µ F X (x) = P (X x) = P x µ ) σ σ ( = P Z x µ ) ( ) x µ = Φ. σ σ ).

39 6.1. Normalfördelningen 31 Sats 6.2 Om X är N(µ, σ)-fördelad så gäller E(X) = µ och V (X) = σ 2. Bevis. Vi ska nu se hur listig vår definition är! X = σz + µ E(X) = σe(z) + µ = 0 + µ = µ V (X) = σ 2 V (Z) + 0 = σ 2. Sats 6.3 Låt X vara N(µ, σ)-fördelad och sätt Y = ax + b. Då gäller det att Y är N(aµ + b, a σ)-fördelad. Bevis. Från definitionen följer att X = µ + σz där Z är N(0, 1)-fördelad. Detta ger Y = ax + b = a(µ + σz) + b = aµ + b + aσz Y (aµ + b) = Z. aσ Om a > 0 följer satsen. Om a < 0 utnyttjar vi att Z och Z har samma fördelning. Sats 6.4 Om X är N(µ X, σ X )-fördelad, Y är N(µ Y, σ Y )-fördelad och X och Y är oberoende så gäller att ( ) X + Y är N µ X + µ Y, σx 2 + σ2 Y -fördelad och ( ) X Y är N µ X µ Y, σx 2 + σ2 Y -fördelad. Denna sats tycks inte kunna bevisas på annat sätt än genom faltning. Sats 6.5 Låt X 1,..., X n vara oberoende och N(µ 1, σ 1 ),..., N(µ n, σ n ). Då gäller att n n c k X k är N c k µ k, n -fördelad. k=1 k=1 k=1 c 2 k σ2 k Allmän regel: Linjärkombinationer av oberoende normalfördelade stokastiska variabler är normalfördelade med rätt väntevärde och rätt standardavvikelse. Följdsats 6.1 Låt X 1, X 2,..., X n vara oberoende och N(µ, σ)-fördelade s.v. Då gäller att ( ) σ X är N µ, -fördelad. n

40 32 Föreläsning Centrala gränsvärdessatsen Vi har sett några exempel på att normalfördelningen har trevliga statistiska egenskaper. Detta skulle vi inte ha så stor glädje av, om normalfördelningen inte dessutom var vanligt förekommande. Centrala gränsvärdessatsen CGS, som är den huvudsakliga motiveringen för normalfördelningen, kan utan vidare sägas vara ett av sannolikhetsteorins och statistikens allra viktigaste resultat. Sats 6.6 (CGS) Låt X 1, X 2,... vara oberoende och lika fördelade s.v. med väntevärde µ och standardavvikelse σ. Då gäller att ( n i=1 P X ) i nµ σ x Φ(x) då n. n Ofta uttrycker man slutsatsen i CGS som att n i=1 X i nµ σ är approximativt N(0, 1)-fördelad n eller att n X i är approximativt N ( nµ, σ n ) -fördelad. i=1 En, för statistiken mycket vanlig användning av CGS är följande: Följdsats 6.2 Låt X 1, X 2,... vara oberoende och lika fördelade s.v. med väntevärde µ och standardavvikelse σ. Då gäller att ( ) ( ) b µ a µ P (a < X b) Φ σ/ Φ n σ/ n om n är tillräckligt stort. Det är tyvärr inte möjligt att ge några generella och enkla tumregler om hur stort n måste vara för att normalapproximationen ska vara användbar. Detta beror på hur normalliknande de enskilda variablerna X k är. Om X k na är normalfördelade så gäller ju CGS för alla n. En tumregel är att om X k na är någorlunda symmetriskt fördelade så räcker ganska små n, säg något tiotal. Om X k na är påtagligt skevt fördelade så behöver n var något eller i värsta fall några hundratal. Det är svårt att formulera strikt, men det räcker i CGS att X k na är någorlunda oberoende och någorlunda lika fördelade. Med någorlunda lika fördelade menas framförallt att det inte finns vissa X k som är mycket dominerande. Detta innebär att mätfel i välgjorda försök kan anses vara approximativt normalfördelade. I mindre välgjorda försök kan det däremot mycket väl finnas någon dominerande felkälla som inte alls behöver vara approximativt normalfördelad.

41 Föreläsning Binomialfördelningen och dess släktingar Vi påminner om urnmodellerna. Vi hade en urna med kulor av två slag: v vita och s svarta. Vi drog n kulor ur urnan slumpmässigt. Sätt A = Man får k vita kulor i urvalet. Dragning utan återläggning: Dragning med återläggning: P (A) = ( v s ) k)( n k ). ( v+s n P (A) = ( ) ( ) k ( ) n k n v s. k v + s v + s Hypergeometrisk fördelning Antag att vi har N enheter, där proportionen p, dvs Np stycken, har egenskapen A. Drag ett slumpmässigt urval om n stycken enheter. Sätt X = antalet enheter i urvalet med egenskapen A. I termer av urnmodellen för dragning utan återläggning gäller Np = v och N(1 p) = s om A = vit kula. Således fås p X (k) = P (X = k) = ( Np k )( N(1 p) n k ) ( N n), för 0 k Np och 0 n k N(1 p). Man säger att X är Hyp(N, n, p)-fördelad. Man kan visa att E(X) = np och V (X) = N n np(1 p). N 1 33

42 34 Föreläsning 7 Vi skall återkomma något till detta. Binomialfördelningen Antag att vi gör ett försök där en händelse A, med sannolikheten p = P (A), kan inträffa. Vi upprepar försöken n gånger, där försöken är oberoende. Sätt X = antalet gånger som A inträffar i de n försöken. Vi säger då att X är binomialfördelad med parametrarna n och p, eller kortare att X är Bin(n, p)-fördelad. Vi har där q = 1 p. p X (k) = ( ) n p k q n k, för k = 0,..., n, k Låt U 1,..., U n vara s.v. definierade av { 0 om A inträffar i försök nummer i, U i = 1 om A inträffar i försök nummer i. Lite eftertanke ger att U 1,..., U n är oberoende och att X = U U n. Då och E(U i ) = 0 (1 p) + 1 p = p V (U 1 ) = E(Ui 2 ) E(U i ) 2 = E(U i ) E(U i ) 2 = p p 2 = p(1 p) så följer E(X) = ne(u i ) = np och V (X) = nv (U i ) = npq. Diskutera motsv. för den hypergeometriska fördelningen. Poissonfördelningen Definition 7.1 En diskret s.v. X säges vara Poissonfördelad med parameter µ, Po(µ)-fördelad, om p X (k) = µk k! e µ, för k = 0, Vi påminner om att om X är Po(µ)-fördelad, så gäller E(X) = µ och V (X) = µ. Poissonfördelningen är den viktigaste diskreta fördelningen, och har t.ex. följande trevliga egenskap.

43 7.2. Approximationer 35 Sats 7.1 Om X och Y vara oberoende Po(µ X )- resp. Po(µ Y )-fördelade s.v. Då gäller att X + Y är Po(µ X + µ Y )-fördelad. Bevis. P (X + Y = k) = k P (X = i)p (Y = k i) = i=0 k i=0 µ i X i! e µ X µ(k i) Y (k i)! e µ Y = e (µ X+µ Y ) k i=0 µ i X µ(k i) Y i!(k i)! = e (µ X+µ Y ) (µ X + µ Y ) k k ( ) ( ) i ( ) (k i) k µx µy. k! i µ i=0 X + µ Y µ X + µ Y }{{} = 1, jmf. Bin-förd. 7.2 Approximationer Hyp(N, n, p) Om n/n är någolunda liten, så verkar det troligt att det inte spelar så stor roll om vi drar med återläggning eller ej. Vi har ( Np k )( N(1 p) n k ) ( N n) = Np! N(1 p)! k!(np k)! (n k)![n(1 p) (n k)]! n!(n n)! N! n! Np!(N(1 p)!(n n)! = k!(n k)! (Np k)![n(1 p) (n k)]!n! ( ) n! (Np) k (N(1 p)) n k n = p k q n k. k!(n k)! N n k Sats 7.2 Om X är Hyp(N, n, p)-fördelad med n/n 0.1 så är X approximativt Bin(n, p)-fördelad. Bin(n, p) Av Xs representation som en summa följer att CGS kan tillämpas. Sats 7.3 Om X är Bin(n, p)-fördelad med npq 10 så är X approximativt N(np, npq)-fördelad.

44 36 Föreläsning 7 Detta innebär att } P (X k) P (X < k) ( ) k np Φ. npq Med halvkorrektion menas att vi använder följande approximation: ( k P (X k) Φ np ), npq ( k 1 2 P (X < k) Φ np ). npq Trots att halvkorrektionen påtagligt kan höja noggrannheten, tar vi rätt lätt på den. Av detta följer att Hyp(N, n, p) N(np, npq) om n/n 0.1 och npq 10. Det räcker dock att kräva N n np(1 p) 10. N 1 Vi införde ju Poissonfördelningen som en approximation av binomialfördelningen. Detta kan vi formalisera till följande sats. Sats 7.4 Om X är Bin(n, p)-fördelad med p 0.1 så är X approximativt Po(np)-fördelad. I vår approximation antog vi även att n var stor. Detta är inte nödvändigt, men vårt enkla resonemang fungerar inte utan denna extra förutsättning. Man kan visa att om X är Bin(n, p) och Y är Po(np) så gäller att P (X = k) P (Y = k) np 2. Po(µ) Om bägga villkoren p 0.1 och npq 10 är uppfyllda kan vi välja om vi vill Poissonapproximera eller normalapproximera. Detta är ingen motsägelse, som följande sats visar. Sats 7.5 Om X är Po(µ)-fördelad med µ 15 så är X approximativt N(µ, µ)-fördelad.

45 7.2. Approximationer 37 Sammanfattning Hyp(N, n, p) N n N 1 np(1 p) 10 {}}{ N(np, npq) n/n 0.1 {}}{ Bin(n, p) npq 10 {}}{ p 0.1 {}}{ Po( np N(np, npq) }{{} =µ µ 15 {}}{ ) N(µ, µ)

47 Föreläsning Punktskattning Exempel På en laboration vill man bestämma den fysikaliska konstanten µ. Vi gör upprepade mätningar av µ och erhåller följande mätvärden: x 1, x 2,..., x n Problem Hur skall vi skatta µ så bra som möjligt. Modell Vi uppfattar mätvärdena som utfall av n st. oberoende och lika fördelade s.v. X 1, X 2,..., X n med E(X i ) = µ och V (X i ) = σ 2. En punktskatting µ obs av µ är en funktion av mätvärdena: µ (x 1,..., x n ). När vill vill analysera en skatting ersätter vi observationerna med de underliggande stokastiska variablerna. Vi säger då att µ = µ (X 1,..., X n ) är en stickprovsvariabel. Stickprovsvariabeln är själv en stokastisk variabel, vars fördelning beror av fördelningen för X 1, X 2,..., X n och därmed av µ. Om vi inte använder någon statistisk teori så väljer vi antagligen µ obs = x = 1 n xi. För motsvarande stickprovsvariabel X gäller att E(X) = µ och V (X) = σ 2 /n. Allmänt Vi har en uppsättning data som ses som utfall av s.v. x 1, x 2,..., x n X 1, X 2,..., X n. Dessa variabler antages vara oberoende och likafördelade och deras gemensamma fördelning beror av en okänd parameter θ, t.ex. N(θ, σ), Po(θ), N(θ 1, θ 2 ), osv. En punktskatting θ obs av θ är en funktion θ (x 1,..., x n ) och motsvarande stickprovsvariabel θ är θ (X 1,..., X n ) 39

48 40 Föreläsning 8 Vad menas med en bra skattning? Definition 8.1 1) En punktskattning θobs av θ är väntevärdesriktig om E(θ (X 1,..., X n )) = θ. 2) En punktskattning θobs av θ är konsistent om P ( θ (X 1,..., X n ) θ > ε) 0 då n. 3) Om θobs och θ obs är väntevärdesriktiga skattningar av θ så säger man att θobs är effektivare än θ obs om V (θ (X 1,..., X n )) < V (θ (X 1,..., X n )). Skattning av väntevärdet µ Sats 8.1 Stickprovsmedelvärdet x = 1 n n i=1 x i som skattning av väntevärdet µ är 1) Väntevärdesriktig; 2) Konsistent; 3) Ej nödvändigtvis effektiv, dvs. den effektivaste möjliga skattningen. Bevis. 1) E(X) = µ. 2) V (X) = σ 2 /n och stora talens lag gäller. 3) Motexempel: Låt X i vara U(0, 2µ), dvs, f X (x) = Då gäller E(X) = µ och V (X) = µ2 3n. { 1 2µ om x (0, 2µ), 0 annars. (Om Y är U(a, b) så gäller V (Y ) = (b a) 2 /12. Betrakta Då gäller µ = n + 1 2n E(µ ) = µ och V (µ ) = max X i. 1 i n µ 2 n(n + 2) µ2 3n.

49 8.1. Punktskattning 41 För att visa detta sätter vi Y = max 1 i n X i. Då fås 0 om x 0, x F Y (x) = n om x (0, 2µ), (2µ) n 1 om x 0, eller Detta ger Detta ger och V (Y ) = f Y (x) = E(Y ) = E(Y 2 ) = ( n n + 2 { nx n 1 (2µ) n om x (0, 2µ), 0 annars. 2µ 0 2µ nx n+1 0 n2 (n + 1) 2 nx n (2µ) dx = n n n + 1 2µ (2µ) dx = n n n + 2 (2µ)2 ) (2µ) 2 n = (n + 2)(n + 1) 2 (2µ)2. E(µ ) = n + 1 2n n n + 1 2µ = µ ( ) 2 n + 1 V (µ ) = V (Y ) = 2n 1 4n(n + 2) (2µ)2 = µ 2 n(n + 2). Skattning av σ 2 Sats 8.2 Stickprovsvariansen s 2 = 1 n 1 n i=1 (x i x) 2 som skattning av σ 2 är 1) Väntevärdesriktig; 2) Konsistent; 3) Ej nödvändigtvis effektiv. 1) används ofta som motivering för att man dividerar med n 1, men det är en dålig motivering, eftersom man oftast vill skatta σ. s som skattning av σ är dock ej väntevärdesriktig. Maximum-likelihood-metoden Vi ska nu studera en systematisk metod att hitta skattningar. Idén är att skatta θ så att utfallet blir så troligt som möjligt. Antag att X i har täthetsfunktionen f(x, θ), θ okänd.

50 42 Föreläsning 8 Definition 8.2 kallas L-funktionen. L(θ) = f(x 1, θ) f(x n, θ) (För diskreta fallet hänvisas till boken.) Definition 8.3 Det värde θobs ML-skattningen av θ. för vilket L(θ) antar sitt största värde kallas För stora stickprov är denna skattning i allmänhet mycket bra. Exempel X i är N(θ, σ), dvs. Vi observerar x 1,..., x n. Då fås d log L(θ) dθ f(x, θ) = 1 σ 1 2π e L(θ) = 2( x θ σ ) P n σ n e 2 1( x i θ σ ) 2 (2π) n/2 log L(θ) = log(σ n (2π) n/2 ) 1 2σ 2 d log L(θ) dθ = 1 2σ 2 = 0 ger n 1 x i = nθ, dvs. θ obs = x. I detta fall är θ obs effektiv! Minsta-kvadrat-metoden n (x i θ) 2 1 n 2(x i θ). Om vi inte känner fördelningen helt kan inte ML-metoden användas. Ibland ger den även svåra matematiska problem. Man kan då gå tillväga på följande sätt: Låt x 1,..., x n vara ett stickprov från en fördelning med E(X) = µ(θ) där µ(θ) är en känd funktion av en okänd parameter θ. Sätt Q(θ) = n i=1 (x i µ(θ)) 2 och minimera Q(θ) map. θ. Lösningen θ obs till detta problem kallas MK-skattningen av θ. 1

51 Föreläsning Intervallskattning Exempel Vi återgår till vår fysikaliska konstant µ, dvs. vi uppfattar mätvärdena som utfall av n st. oberoende och lika fördelade s.v. X 1, X 2,..., X n med E(X i ) = µ och V (X i ) = σ 2. Oftast är vi inte nöjda med att ange X, utan vi vill ha en uppfattning om precisionen i skattningen. Visserligen vet vi att E(X) = µ och D(X) = σ n, men vi vill ha en mera informativ och lättbegriplig beskrivning av precisionen av vårt uttalande. Vi leds då till begreppet konfidensintervall. Definition 9.1 Låt x 1, x 2,..., x n vara utfall av X 1, X 2,..., X n vars fördelning beror av en okänd parameter θ. Intervallet I θ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )) kallas ett konfidensintervall för θ med konfidensgrad 1 α om P (a 1 (X 1,..., X n ) < θ < a 2 (X 1,..., X n )) = 1 α. Ett stickprov, konfidensintervall för µ Normalfördelning a) σ känt Vi antar nu att våra mätningar kommer från en normalfördelning, dvs. att X 1, X 2,..., X n är oberoende och N(µ, σ)-fördelade. Detta innebär att X µ σ/ n är N(0, 1)-fördelad. 43

52 44 Föreläsning 9 Således gäller att ( P λ α/2 < X µ ) σ/ n < λ α/2 = 1 α. Rita figur och påminn om att λ α/2! Detta ger ( P λ α/2 < X µ ) σ/ n < λ α/2 = 1 α. P ( λ α/2 σ/ n < X µ < λ α/2 σ/ n ) = 1 α P ( λ α/2 σ/ n < µ X < λ α/2 σ/ n ) = 1 α P ( X λ α/2 σ/ n < µ < X + λ α/2 σ/ n ) = 1 α. Jmf. vi definitionen av konfidensintervall så inser vi att I µ = x ± λ α/2 σ/ n har konfidensgrad 1 α. En vanlig konfidensgrad är 95%. Då är λ = b) σ okänt Vi utgår nu från där S 2 = 1 n 1 X µ S/ n, n (X i X) 2. i=1 Man kan beräkna fördelningen för denna variabel. Man säger att X µ S/ n är t-fördelad med n 1 frihetsgrader, eller att den är t(n 1)-fördelad. t-fördelningen finns tabulerad. Fördelning är symmetrisk, och för stora värden på n, lik N(0, 1)-fördelningen. Vi återkommer till t-fördelningen. På samma sätt som i a) fås nu att I µ = x ± t α/2 (n 1)s/ n är ett konfidensintervall för µ med konfidensgrad 1 α.

53 9.1. Intervallskattning 45 I fallet med n = 10 gäller t (9) = 2.26, vilket kan jämföras med λ = Ett stickprov, konfidensintervall för σ Vi ska börja med ett par sannolikhetsteoretiska resultat. Definition 9.2 Om Z 1,..., Z n är oberoende och N(0, 1)-fördelade, så är χ 2 (n)-fördelad. n Zi 2 i=1 Sats 9.1 Om X 1, X 2,..., X n är oberoende och N(µ, σ)-fördelade så är 1 σ 2 n (X i X) 2 = i=1 (n 1)S2 σ 2 χ 2 (n 1)-fördelad. Detta är den riktiga motiveringen till att man i s 2 dividerar med n 1. Vi är nu i en lite besvärligare situation än för µ, eftersom χ 2 -fördelningen inte är symmetrisk. I normal- respektive t-fallet utnyttjade vi att symmetrin medförde att λ 1 α = λ α resp. t 1 α (n 1) = t α (n 1). Låt nu χ 2 α(n 1) vara α-kvantilen i χ 2 (n 1)-fördelningen. Då gäller P (χ 21 α/2(n 1) < P P ( χ 2 1 α/2 (n 1) ( χ 2 α/2 n 1 ) (n 1)S2 < χ 2 σ α/2(n 1) = 1 α 2 ) σ < χ2 α/2 (n 1) = 1 α 2 n 1 < S2 ) n 1 σ2 < (n 1) S < n 1 = 1 α 2 (n 1) χ 2 1 α/2 ( ) (n 1)S 2 P χ 2 α/2 (n 1) < (n 1)S2 σ2 < = 1 α (n 1) χ 2 1 α/2

54 46 Föreläsning 9 P ( (n 1)S 2 < σ < (n 1) χ 2 α/2 ) (n 1)S 2 = 1 α. (n 1) χ 2 1 α/2 Detta ger att resp. ( ) I σ 2 = (n 1)s 2 (n 1)s 2 χ 2 α/2 (n 1), χ 2 1 α/2 (n 1) ( ) I σ = (n 1)s 2 (n 1)s 2 (n 1), (n 1) χ 2 α/2 χ 2 1 α/2 är konfidensintervall för σ 2 resp. σ med konfidensgrad 1 α. t-fördelningen Vi återgår nu lite till t-fördelningen. Definition 9.3 Om X är N(0, 1)-fördelad, Y är χ 2 (f)-fördelad, och X och Y är oberoende, så är X Y/f t(f)-fördelad. Sats 9.2 Om X 1, X 2,..., X n är oberoende och N(µ, σ)-fördelade så är X och S 2 oberoende. Denna sats karakteriserar normalfördelningen! Den är således inte sann för någon annan fördelning. Av detta följer nu att är t(n 1)-fördelad. X µ S/ n = X µ / σ/ S 2 n σ 2 Två stickprov, konfidensintervall för skillnad mellan väntevärden. Normalfördelning Modell: X 1, X 2,..., X n1 är N(µ 1, σ 1 ) (stickprov 1) Y 1, Y 2,..., Y n2 är N(µ 2, σ 2 ) (stickprov 2) där alla Xen och Y na är oberoende. a) σ 1 och σ 2 kända Vi vill nu skaffa oss ett konfidensintervall för µ 1 µ 2. En naturlig skattning av µ 1 µ 2 är X Y. Eftersom den är en linjärkombination av oberoende

55 9.1. Intervallskattning 47 normalfördelade variabler, så gäller att (X Y ) (µ 1 µ 2 ) är N(0, 1)-fördelad. Av detta leds vi till σ 2 1 n 1 + σ2 2 n 2 I µ1 µ 2 = x y ± λ α/2 σ 2 1 n 1 + σ2 2 n 2. Om σ 1 = σ 2 = σ reduceras detta till att är N(0, 1)-fördelad och b) σ 1 = σ 2 = σ okänd (X Y ) (µ 1 µ 2 ) σ 1 n n 2 1 I µ1 µ 2 = x y ± λ α/2 σ + 1. n 1 n 2 Vi betraktar nu fallet då σ 1 = σ 2 = σ, men där σ är okänd. Detta skattas med s där s 2 är den sammanvägda stickprovsvariansen. Man kan visa att man skall välja s 2 = (n 1 1)s (n 2 1)s 2 2 n 1 + n 2 2 och att är t(n 1 + n 2 2)-fördelad. (X Y ) (µ 1 µ 2 ) S 1 n n 2 Vi får 1 I µ1 µ 2 = x y ± t α/2 (n 1 + n 2 2)s + 1. n 1 n 2 Stickprov i par Exempel På ett bryggeri gör man varje dag analyser av alkoholhalten i öl. Dessa analyser utförs av två kemister A och B. Man vill undersöka om det finns någon systematisk skillnad mellan As och Bs mätningar. Varje dag, under n dagar låter man A och B, oberoende av varandra, analysera samma prov.

56 48 Föreläsning 9 Vi leds då till följande modell: X 1, X 2,..., X n är N(µ i, σ A ) (As analyser) Y 1, Y 2,..., Y n är N(µ i +, σ B ) (Bs analyser) där alla Xen och Y na är oberoende. Vi menar här att X i är N(µ i, σ A )-fördelad och att Y i är N(µ i +, σ B )-fördelad. Knepet är nu att bilda som är N(, σ)-fördelad, med σ Z i = Y i X i ( ) = σa 2 + σ2 A. Vi har nu återfört problemet till fallet med ett stickprov, och kan ge konfidensintervall eller genomföra test för på samma sätt som vi gjorde för µ, dvs. I = z ± λ α/2 σ/ n om σ känd och om σ okänd, där I = z ± t α/2 (n 1)s/ n s 2 = 1 n 1 n (z i z) 2. i=1 Approximativa konfidensintervall Ett stickprov, konfidensintervall för µ Modell: X 1, X 2,..., X n antages vara oberoende och likafördelade s.v. med E(X i ) = µ och V (X i ) = σ 2. Om n är någolunda stort, så gäller enligt CGS att X µ σ/ n är approximativt N(0, 1)-fördelad, och helt analogt med normalfördelningsfallet får vi att I µ = x ± λ α/2 σ obs/ n vara en bra skatt- har approximativ konfidensgrad 1 α. Här förutsättes σobs ning av σ, vanligen s. För fallet med två stickprov, där nu σ 1 = σ 2 ej behöver antas, hänvisar vi till Blom m.fl

Visa mer