Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Relevanta dokument
Bengt Ringnér. September 20, Detta är föreläsningsmanus på lantmätarprogrammet LTH vecka 5 HT07.

Bengt Ringnér. October 30, 2006

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Väntevärde; Väntevärde för funktioner av s.v:er; Varians; Tjebysjovs olikhet. Jan Grandell & Timo Koski

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Lektionsanteckningar 11-12: Normalfördelningen

Väntevärde och varians

TMS136. Föreläsning 4

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Föreläsning 6, Matematisk statistik Π + E

F9 SAMPLINGFÖRDELNINGAR (NCT

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

SF1901: Sannolikhetslära och statistik

Övning 1 Sannolikhetsteorins grunder

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

SF1901: Sannolikhetslära och statistik

SF1911: Statistik för bioteknik

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

4 Diskret stokastisk variabel

Föreläsning 5, FMSF45 Summor och väntevärden

Föreläsning 5, Matematisk statistik Π + E

Jörgen Säve-Söderbergh

0 om x < 0, F X (x) = c x. 1 om x 2.

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Mer om slumpvariabler

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

TAMS79: Föreläsning 6. Normalfördelning

SF1901: Sannolikhetslära och statistik

Kovarians och kriging

SF1901 Sannolikhetsteori och statistik I

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Föreläsning 6, FMSF45 Linjärkombinationer

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Grundläggande matematisk statistik

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Stokastiska signaler. Mediesignaler

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Summor av slumpvariabler

SF1901: Sannolikhetslära och statistik

Kap 3: Diskreta fördelningar

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

MVE051/MSG Föreläsning 7

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Föreläsning 7: Punktskattningar

, s a. , s b. personer från Alingsås och n b

4.1 Grundläggande sannolikhetslära

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

F7 forts. Kap 6. Statistikens grunder, 15p dagtid. Stokastiska variabler. Stokastiska variabler. Lite repetition + lite utveckling av HT 2012.

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 4. Kapitel 5, sid Stickprovsteori

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Föreläsning 7: Punktskattningar

Kap 2. Sannolikhetsteorins grunder

Grundläggande matematisk statistik

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Föreläsning 7: Punktskattningar

Föreläsning 8 för TNIU23 Integraler och statistik

Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik för D, I, Π och Fysiker

Introduktion till statistik för statsvetare

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

SF1901: Sannolikhetslära och statistik

1.1 Diskret (Sannolikhets-)fördelning

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

Summor av slumpvariabler

F3 Introduktion Stickprov

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Statistik 1 för biologer, logopeder och psykologer

Stokastiska processer med diskret tid

Föreläsning 12: Repetition

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 3. Sannolikhetsfördelningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

4.2.1 Binomialfördelning

Föreläsning 11: Mer om jämförelser och inferens

Transkript:

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06 Bengt Ringnér September 20, 2006 Inledning Detta är preliminärt undervisningsmaterial. Synpunkter är välkomna. 2 Väntevärde standardavvikelse 2. Ändlig population Populationen består av objekt som vart ett är försett med ett eller flera tal; talen som hör till objekt nr k betecknas med x k, y k, z k, etc. Exempel är individer i Sverige med inkomst, ålder, hyra, eller företag i EU med omsättning, antal anställda, aktiekapital, eller, för enkelhets skull, en urna med lappar på vilka olika tal står skrivna. u definieras populationsmedelvärdet, t ex medelinkomsten, som µ = x k. I andra delen av kursen skall vi införa stickprovsmedelvärdet som man får genom att dra n objekt slumpmässigt ur populationen beräkna deras medelvärde, vilket kan betecknas med m eller x. Man använder m som skattning av µ. Vidare definieras populationsstandardavvikelsen som σ = (x k µ) 2. Populationsvariansen definieras som σ 2. Den är alltså medelvärdet av talen (x µ) 2,...,(x µ) 2. Motsvarigheterna i stickprovsfallet betecknas med

s resp. s 2, men här dividerar man med n istället för med n av tekniska skäl. Medelvärde standardavvikelse är exempel på läges- resp. spridningsmått. Ett annat lägesmått är µ, medianen, medianinkomsten är sådan att halva befolkningen har lägre inkomst än så den andra halvan högre. Denna är ofta mer realistisk än medelinkomsten eftersom den inte kan dras upp av ett fåtal mycket rika. Alternativa spridningsmått är x k µ, x k µ eller medianen av x µ,..., x µ. Anledningen till att medelvärde standardavvikelse är så vanligt förekommande är att man har enkla räkneregler för dem. Om x anger temperaturen i grader Celsius y samma temperatur i grader Fahrenheit gäller y k = (9/5)x k +2. Samma relation gäller rimligtvis för medeltemperaturen, vilket stämmer med definitionen enligt µ Y = µ (9/5)X+2 = y k = ( 9 5 x k+2) = 9 5 x k +2 = 9 5 µ X+2. Spridningen i Fahrenheitvärdena bör rimligtvis vara 9/5 gånger så stor som Celsiusvärdenas spridning, vilket också stämmer enligt σ 2 Y = σ2 (9/5)X+2 = (y k µ Y ) 2 = ( 9 5 x k + 2 ( 9 5 µ X + 2)) 2 = = ( 9 5 )2 (x k µ X ) 2 = ( 9 5 )2 σx 2. Om istället y k = x k + z k kan man addera medelvärdena eftersom µ Y = µ X+Z = y k = (x k +z k ) = x k + z k = µ X +µ Z. För standardavvikelse varians blir det mer komplicerat; σ 2 Y = σ2 X+Z = (y k µ Y ) 2 = ((x k µ X ) + (z k µ Z )) 2 = 2

= (x k µ X ) 2 + (z k µ Z ) 2 +2 (x k µ X )(z k µ Z ). }{{}}{{} σx 2 σz 2 är vi övergår till stokastiska variabler kommer det att visa sig att om X Z är oberoende kommer den sista termen att försvinna varianserna adderas. Man kan förklara detta som att x-värden som är större än µ X hänger ihop både med z-värden som är större än µ Z z-värden som är mindre än µ Z. I första fallet är (x k µ X )(z k µ Z ) positiv, i andra fallet negativ. Om x z varierar oberoende av varandra kommer positiva negativa termer att ta ut varandra resultatet blir noll. Observera att även om variablerna är oberoende kan man inte addera standardavvikelser. Här gäller istället σ X+Z = σx 2 + σ2 Z. För att anknyta till stokastiska variabler tänker vi oss att man drar ett objekt slumpmässigt ur populationen så att varje objekt har sannolikheten / att dras. Det x-värde man då råkar få är en stokastisk variabel som betecknas med X. I fallet att alla x-värdena är heltal från 0 uppåt det finns f 0 nollor, f ettor, f 2 tvåor, etc. gäller µ X = x k = (0 f 0 + f + 2 f 2 +...) = = 0 P(X = 0) + P(X = ) + 2 P(X = 2) +... = jp(x = j). I nästa avsnitt skall vi ta högerledet som definition av väntevärdet av X skriva det E(X). 2.2 Stokastiska variabler Väntevärdet av en stokastisk variabel är, åtminstone i de sammanhang som denna kurs är avsedd för, tänkt som medelvärdet av dess utfall i det långa loppet, sannolikheten för en händelse är tänkt som andelen gånger den inträffar i det långa loppet. Detta gör att en stokastisk variabel också kan ses som en oändlig population; om x,x 2,... betecknar resultaten vid oberoende upprepningar av X gäller nämligen µ x j j= j=0

med bättre bättre approximation ju större är. I fallet att X är diskret f 0 är antalet nollor, f antalet ettor, osv, gäller f 0 P(X = 0), f P(X = ), osv. Samma räkningar som vid ändlig population ger nu x j j= kp(x = k). k=0 Om man tar med termen för k = 0 eller inte spelar ingen roll, eftersom 0 P(X = k) = 0. Med hjälp av komplicerad matematik kan man visa att vänsterledet konvergerar mot högerledet med sannolikheten ett då går mot oändligheten. I fallet att X är kontinuerlig kan man visa x j j= med sannolikhet ett då. Minnesregel: xf X (x)dx Byt P(X = k) mot f X (x)dx mot. u definierar man väntevärdet enligt Definition { E(X) = k=0 kp(x = k) om X diskret xf X(x)dx om X kontinuerlig. Enligt de tidigare resonemangen har vi räknereglerna För variansen, som definieras enligt E(aX + b) = ae(x) + b E(X + Z) = E(X) + E(Z). Definition 2 V(X) = E((X µ X ) 2 ), 4

gäller på motsvarande sätt (x j µ) 2 j= { k=0 (k µ)2 P(X = k) om X diskret (x µ)2 f X (x)dx om X kontinuerlig. för termerna som vi vill bli av med i utvecklingen av variansen av X +Z gäller (x j µ X )(z j µ Z ) j= { k,l=0 (k µ X)(l µ Z )P(X = k,z = l) om X diskret (x µ X)(z µ Z )f X,Z (x,z)dxdz om X kontinuerlig. Om X Z är oberoende gäller P(X = k,z = l) = P(X = k)p(z = l) resp. f X,Z (x,z) = f X (x)f Z (z), man kan skriva dubbelsumman resp. dubbelintegralen som en produkt av två enkelsummor resp. enkelintegraler som alla är noll. Resultatet är räknereglerna, om X Z är oberoende, V(aX + b) = a 2 V(X) V(X + Z) = V(X) + V(Z) E(XZ) = E(X)E(Z). Vi har också det praktiska sambandet som är en motsvarighet till 2. Exempel V(X) = E(X 2 ) (E(X)) 2, (x k x) 2 = x 2 k ( x k ) 2. Om X är poissonfördelad med parameter µ är alltså P(X = k) = e µµk k!, k = 0,,2,.... E(X) = k=0 ke µµk k! = ke µµk k! = 5

= e µ µ k (k )! = j=0 µ e µµj j! j=0 }{{} = µ. e µµj+ j! Detta stämmer med vad som förutskickades i samband med trafikräkningen i avsnitt... Med samma teknik kommer man fram till att E(X(X )) = µ 2, vilket ger E(X 2 ) = µ 2 + µ. Alltså V(X) = E(X 2 ) (E(X)) 2 = µ 2 + µ µ 2 = µ D(X) = µ. Vad man har för praktisk nytta av detta kommer i samband med normalapproximationen i avsnitt 5. Om X är exponentialfördelad med täthetsfunktion är E(X) = 0 f X (x) = µ e x/µ, x > 0, x µ e x/µ dx = [ e x/µ x] 0 0 = e x/µ dx = µ, vilket stämmer med resonemanget kring medeltiden mellan punkteringar i avsnitt.2.2. För att räkna ut variansen får man partialintegrera två gånger. Resultatet blir V(X) = µ 2 D(X) = µ. Även detta har man nytta vid normalapproximation. 2.4 Tillämpning på upprepade mätningar Om man gör tre oberoende mätningar av samma sak kallar resultaten för X, Z resp. U med väntevärde µ standardavvikelse σ, gäller E( X + Z + U E(X + Z + U) E(X) + E(Z) + E(U) ) = = = µ + µ + µ = µ 6

V( X + Z + U V(X + Z + U) V(X) + V(Z) + V(U) ) = 2 = 2 = σ2 + σ 2 + σ 2 2 = σ2, dvs. D( X + Z + U ) = σ. Om man har n oberoende mätningar med samma µ σ, får man på motsvarande sätt E( X) = E( n V( X) = V( n X k ) = n E( X k ) = n X k ) = n 2 V( X k ) = n 2 E(X k ) = n V(X k ) = n 2 µ = µ σ 2 = σ2 n, dvs. D( X) = σ n. Detta har man nytta av vid normalfördelning, det kommer också att tas upp i samband med normalapproximation. Den praktiska tolkningen är: Standardavvikelsen talar om hur stort det slumpmässiga felet är, att det blir mindre ju fler observationer man har. Väntevärdet talar om hur man ligger i genomsnitt; om man har ett positivt systematiskt fel, så är µ större än det verkliga värdet, tvärtom om det systematiska felet är negativt. Det systematiska felet är oförändrat även om man bildar medelvärde av flera observationer. Har slutligen X,X 2,...,X n väntevärde µ standardavvikelse σ, medan Y,Y 2,...,Y n2 har väntevärde µ 2 standardavvikelse σ 2, alla stokastiska variabler är oberoende, gäller E( X Ȳ ) = µ µ 2 D( X Ȳ ) = σ 2 n + σ2 2 n 2. 7

I specialfallet σ = σ 2 = σ gäller D( X Ȳ ) = σ n + n 2. Om X- Y -mätningarna har samma systematiska fel tar de ut varandra. Genom att låta Y vara mätningar av någon storhet som man redan känner, kan man använda fomlerna för att eliminera det systematiska felet, men det går vi inte in på än. 2.5 Väntevärde standardavvikelse för funktion av stokastiska variabler 2.5. Exakta resultat Om Y = g(x) kan man i för sig först räkna ut sannolikhets- resp. täthetsfunktion för Y enligt avsnitt.6.2 sedan sätta in i definition, men det är enklare att använda följande sats Theorem { E(g(X)) = k=0 g(k)p(x = k) om X diskret g(x)f X(x)dx om X kontinuerlig. 2.5.2 Gauß approximation Här är också Y = g(x), men nu är g ungefär lineär, dvs. g(x) ax + b, i området där X varierar. Detta ger E(g(X)) E(aX + b) = ae(x) + b g(e(x)) V(g(X)) V(aX + b) = a 2 V(X) ( g (E(X))) 2 V(X), dvs. D(g(X)) g (E(X)) D(X). Den sista formeln kan förklaras med att derivatan talar ju om hur mycket en liten förändring i X motsvarar för Y. Den slumpmässiga variationen ändras då lika mycket. Om Y = g(x, Z) med X Z oberoende gäller på motsvarande sätt E(g(X,Z)) g(e(x), E(Z)) 8

D(g(X,Z)) g x (E(X), E(Z)) 2 (D(X)) 2 + g z (E(X), E(Z)) 2 (D(Z)) 2, där g x g z betyder partiella derivatan när man betraktar den andra variabeln som konstant. 2.6 Härledningar Formlerna E(aX + b) = ae(x) + b E(X + Z) = E(X) + E(Z), som motiverades i avsnitt 2.2 kan bevisas matematiskt, men det hoppar vi över i denna kurs. 2.7 Sammanfattning I fullständig sammanfattning skulle innebära att jag skrev upp praktiskt taget alla formler en gång till, så jag nöjer mig med några påpekanden. Variansen är bara till för att kunna räkna ut standardavvikelsen. För oberoende variabler adderar sig varianser. är man bryter ut en multiplikativ konstant ur en varians, kvadreras den. V(X Z) = V(X) + V(Z) om X Z är oberoende. Observera att det blir plus i högerledet, eftersom minustecknet kvadreras. Standardavvikelse mäter det slumpmässiga felet, väntevärde minus sant värde det systematiska felet. 9