Punktskattning 1 Ett exempel

Relevanta dokument
SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Lektionsanteckningar 11-12: Normalfördelningen

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

MVE051/MSG Föreläsning 7

Föreläsning 8: Konfidensintervall

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TMS136. Föreläsning 10

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Thomas Önskog 28/

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

f(x) = 2 x2, 1 < x < 2.

Matematisk statistik för D, I, Π och Fysiker

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Härledning av Black-Littermans formel mha allmänna linjära modellen

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

0 om x < 0, F X (x) = c x. 1 om x 2.

Matematisk statistik KTH. Formelsamling i matematisk statistik

9. Konfidensintervall vid normalfördelning

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

FÖRELÄSNING 7:

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 11: Mer om jämförelser och inferens

SF1901 Sannolikhetsteori och statistik I

FÖRELÄSNING 8:

Avd. Matematisk statistik

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Kapitel 9 Egenskaper hos punktskattare

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 12: Repetition

Föreläsning 5: Hypotesprövningar

Uppgift 1. f(x) = 2x om 0 x 1

Avd. Matematisk statistik

F9 Konfidensintervall

Grundläggande matematisk statistik

Om statistisk hypotesprövning

Samplingfördelningar 1

Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Grundläggande matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

TMS136. Föreläsning 7

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Föreläsning 7: Punktskattningar

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 7: Punktskattningar

Föreläsning 7. Statistikens grunder.

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Repetitionsföreläsning

SF1901: Övningshäfte

Föreläsning 7: Punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

4 Diskret stokastisk variabel

SF1901: Sannolikhetslära och statistik

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Några extra övningsuppgifter i Statistisk teori

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Föreläsningsanteckningar till kapitel 8, del 2

Lärmål Sannolikhet, statistik och risk 2015

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

SF1901: Sannolikhetslära och statistik

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

TMS136. Föreläsning 4

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Kap 2. Sannolikhetsteorins grunder

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Avd. Matematisk statistik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

SF1901 Sannolikhetsteori och statistik I

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

e x/1000 för x 0 0 annars

Stokastiska processer med diskret tid

4.1 Grundläggande sannolikhetslära

Avd. Matematisk statistik

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Transkript:

Matematisk statistik för STS vt 004 004-05 - 04 Bengt Rosén Punktskattning Ett exempel Vid utveckling av nannoelektronik vill man väga en mycket liten "pryl", med vikt någonstans mellan 00 och 50 mg. "Prylen" i förstoring Man har dock inte perfekt utrustning för att väga så lätta saker, vågen väger med slumpfel. Man gör 5 oberoende bestämningar av prylens vikt med fölande resultat ; x = 7.4, x = 4.3, x 3 = 3., x 4 = 5.6, x 5 = 36.. En första fråga : Vad väger prylen (på ett ungefär)? En nästa fråga : Med vilken noggrannhet är vikten bestämd? I det här avsnittet håller vi oss till den första frågan, den andra behandlas i nästa avsnitt. Nedan ges några förslag om hur vikten skulle kunna skattas. Alla påstås dock inte vara bra. Förslag A : Det de flesta (väl?) gör i praktiken är att beräkna medelvärdet ; x = (7.4 + 4.3 + 3. + 5.6 +36. )/ 5 = 3.7, och använda det som skattning av prylens vikt. Förslag B : En annan mölighet vore att skatta med mätningarnas medianvärde ; Median (7.4, 4.3, 3., 5.6,36.) = 3.. Förslag C : Man kanske skall skatta med största mätvärdet, som är 4.3, eller med minsta mätvärdet, som är 5.? Ytterligare förslag : Det kanske är smart att skatta med 5 geometriska medelvärdet 6.6 3.6 30.9 6.3 3. = 3.6. För att kunna ta ställning till vilket förslag som skall anse vara bäst, är ett första steg att formulera en statistisk modell för observationerna. Vi antar att man på saklogiska grunder bedömer att en realistisk beskrivning av situationen ges av fölande statistiska modell. Stickprovet x = (x, x, x 3, x 4, x 5 ) = (7.4, 4.3, 3., 5.6,36.) är utfallet av oberoende s.v. X = (X, X, X 3, X 4, X 5 ), som alla är N(θ, 8) - fördelade. Parametern θ står för "prylens vikt", vars sanna (men okända) värde θ s ligger någonstans i intervallet (00, 50). Med tidigare införd terminologi innebär modellen att de möliga fördelningarna / populationerna är { N(θ, 8) : 00 θ 50}. Parametern är θ och parameterrummet A = [ 00, 50 ].

Några grundbegrepp Stickprovsvariabel, statistika Den situation vi intresserar oss för lyder i allmän formulering så här. Man är intresserad av någon aspekt på en population / fördelning F, t.ex. dess väntevärde, standardavvikelse eller median. Man känner dock inte fördelningen, utan flera möliga fördelningar föreligger, av vilka en är den "sanna". Den information man har, utgörs av mätvärden som är ett slumpmässigt stickprov från F. Frågan är hur man bäst använder observationerna för att skatta värdet på aspekten av intresse? Formellt beskrivs situationen så här : x = (x, x,..., x n ) är utfallet av ett slumpmässigt stickprov X = (X, X,.., X n ) från en fördelning / population F. Till F hör ett parametervärde θ [ibland mer fullständigt betecknat θ(f)]. Flera fördelningar F är möliga, och en av dem är den sanna, med sant parametervärde θ s. Problemet är att skatta θ s, (mer fullständigt att punktskatta θ s ) utifrån observationerna x, x,..., x n. Vi börar med begreppet stickprovsvariabel (Blom sidan 56). Med en stickprovsvariabel (en synonym är statistika, på engelska statistic) menas en stokastisk variabel som är en funktion ϕ(x) = ϕ(x, X,.., X n ) av värdena X, X,.., X n i ett stickprov. När stickprovet realiseras med x = (x, x,..., x n ) realiseras stickprovsvariabeln med värdet ϕ(x) = ϕ(x, x,.., x n ). Det som bestämmer en stickprovsvariabel är formen på funktionen ϕ. Om man känner fördelningen F och utseendet på ϕ kan man, åtminstone i princip, beräkna fördelningen för stickprovsvariabeln ϕ(x, X,.., X n ). Det är dock ofta krångligt att ta fram ett explicit uttryck för den fördelningen. Estimator, skattning Intresset gäller, som sagt, att skatta värdet på parametern θ i den (okända) fördelningen F. Den information man har om F, och därmed om θ, är observerade värden x, x,..., x n på ett slumpmässigt stickprov X = (X, X,.., X n ) från F. DEFINITION : En (punkt)skattning av θ, betecknad θ*, är en stickprovsvariabel θ*(x) = ϕ(x) = ϕ(x, X,..., X n ). Kallas också en estimator för θ. När stickprovet realiserar sig med x = (x, x,..., x n ) realiserar sig skattningen med θ*(x) = ϕ(x) = ϕ(x, x,..., x n ). Kommentar : Blom använder genomgående asterix - beteckningen * för skattningar. En annan beteckning, som t.o.m. är vanligare i litteraturen, är θˆ, dvs. parametern försedd med "tak" / "hatt". Kommentar : Som vi kommer att se är det ofta viktigt att kunna göra åtskillnad mellan θ*(x), som är en s.v., och utfallet θ*(x), som är ett eller flera tal beroende på θ : s dimension. Då ger termen "estimator" bättre mölighet till åtskillnad än "punktskattning". θ*(x) kallas estimatorn för θ, och θ*(x) för estimatet av θ. Blom använder inte de termerna, men vi tillåter oss att göra det. Man skulle kunna göra den aktuella distinktionen med termerna punktskattaren θ*(x) och punktskattningen θ*(x), men "punktskattare" är ett så konstigt ord att man helst undviker det. Det gör Blom också, genom att använda termen punktskattning för bägge begreppen. Det har dock olägenheten att det ibland blir oklart vad som avses, en stokastisk variabel eller ett talvärde.

I princip kvalificerar vilken som helst stickprovsvariabel som punktskattning / estimator för en parameter θ. En stickprovsvariabel "tagen i högen" leder dock normalt till en rätt dum skattning av en parameter θ. Man kallar inte en stickprovsvariabel för punktskattning / estimator med mindre än att den ger en någorlunda förnuftig "gissning" av parameterns värde. Ett problem i första omgången är att specificera vad som skall anses vara en bra respektive en mindre bra skattning. 3 Principer för bra punktskattningar Det främsta kravet på en bra estimator anges i () nedan, och det betraktas som "kategoriskt". Termerna "väntevärdesriktig" och "skevhet" är visserligen odefinierade än så länge, men definitioner kommer strax. En skattning skall helst vara väntevärdesriktig, men åtminstone ha försumbar skevhet. () Nedanstående definition är Bloms (på sid 57), även om formuleringen skiler sig något. DEFINITION : En stickprovsvariabel θ*(x) = ϕ(x) = ϕ(x,x,, X n ) sägs ge väntevärdesriktig (ibland förkortat till vänteriktig) skattning av parametern θ(f) om nedanstående relation () är uppfylld. ( I () står E F för väntevärde givet att stickprovet kommer från fördelningen F.) E F [ϕ(x)] = θ(f) gäller för alla F i familen av möliga populationer. () Kommentar 3 : En suggestiv formulering av innebörden av () är : En väntevärdesriktig estimator skattar i genomsnitt rätt. En annan formulering : Oavsett vilken av de möliga fördelningarna F som är den sanna, är estimatorns förväntade värde det sanna parametervärdet. Nedan införs några till väntevärdesriktig närbesläktade begrepp. DEFINITION: Stickprovsvariabeln ϕ(x) skattar parametern θ med skevhet (synonymt bias eller systematiskt fel) b(θ), som definieras ; b(θ) = E F [ϕ(x)] - θ, θ A (= parameterrummet). (3) Kommentar 4 : Att en estimator är väntevärdesriktig kan också uttryckas som att den är oskev (dvs. har skevhet = 0). Det svengelska ordet för saken är att estimatorn är unbiased. En estimator sägs ha försumbal skevhet om dess skevhet är liten i förhållande till dess slumposäkerhet. (Vi går inte in på att göra begreppet precisare än så.) I flertalet skattningssituationer finns faktiskt flera olika väntevärdesriktiga estimatorer, eller åtminstone flera estimatorer med försumbar skevhet. (I det inledande exemplet är såväl stickprovets medelvärde som dess median vätevärdesriktiga skattningar, det geometriska medelvärdet är en skattning med försumbar skevhet, medan största och minsta värdena ger skeva skattningar.) Då gäller att väla en så bra estimator som möligt bland de "legitima" estimatorerna. Det vanliga kriteriet i den valsituationen är fölande : Bland punktskattningar / estimatorer med försumbar skevhet föredras den som har minst varians, eller ekvivalent har minst standardavvikelse. (4) Att kriteriet (4) är rimligt och naturligt är (väl?) uppenbart i åtminstone situationen i fölande exempel. θ *(X), θ *(X) och θ 3 *(X) är tre (olika) väntevärdesriktiga estimatorer för parametern θ. De tre estimatorerna antas vara normalfördelade för alla θ A, men ha fördelningar med olika standardavvikelser, σ, σ resp. σ 3. Vi antar att σ < σ < σ 3. Eftersom estimatorerna 3

är vänteriktiga har de samma väntevärde (= det sanna värdet på θ). Situationen illustreras i nedanstående figur. Det är (väl?) uppenbart att utfallet av estimatorn θ *(X), dvs. estimatet θ *(x), har större sannolikhet att hamna nära parametervärdet θ (= estimatorns väntevärde) än θ *(x), som i sin tur har större chans att hamna nära θ än θ 3 *(x). Ju närmare ett estimat kommer det parametervärde man vill skatta, desto bättre är det naturligtvis. Även om premissen om att estimatorerna är normalfördelade definitivt inte gäller alltid, så gäller i stort sett alltid att en fördelnings varians / standardavvikelse informerar om hur mycket ett utfall av den stokastiska variabeln kan förväntas avvika från sitt väntevärde. Ju större varians, desto troligare är en stor avvikelse. Mot den bakgrunden anammas kriteriet (4), "u mindre varians, desto bättre estimator". () och (4) ger huvudprinciperna för bra skattningar /estimatorer. De sammanförs nedan. Huvudprinciper för bra skattningar En skattning skall helst vara vänteriktig, men åtminstone ha försumbar skevhet. Bland skattningar med försumbar skevhet föredras den som har minst varians. Kommentar 5 : Man kan visa att när populationen är normalfördelad är stickprovsmedelvärdet den väntevärdesriktiga estimator av populationens väntevärde som har minst varians. Det resultatet medför att det bästa estimator - förslaget i det inledande exemplet är stickprovsmedelvärdet. Konsistens Många estimatorer är vid små stickprov litet skeva (= e exakt vänteriktiga) och rätt osäkra (= har stor varians), men blir allt mindre skeva och allt mindre osäkra u större stickprovsstorleken är, för att bli "perfekta" när stickprovsstorleken växer mot oändligheten. Estimatorn sägs då ge konsistent estimation. Nedan ges en precis definition (Blom sidan 58). Låt θ (n) * vara en estimator (av θ) baserad på n observationer, n =,, 3,. Estimatorn ger konsistent estimation av θ om för vare ε > 0 gäller ; P( θ (n) * - θ > ε) 0, när n. (6) I Bloms Avsnitt 0.3 rättfärdigas fölande utsagor. De ger åtminstone något sätt att skatta en populations väntevärde och standardavvikelse. Ibland finns dock bättre sätt. Stickprovets medelvärde ger väntevärdesriktig och konsistent estimation av populationens väntevärde. (7) Stickprovets varians ger väntevärdesriktig och konsistent estimation av populationens varians. (8) Stickprovets standardavvikelse ger konsistent estimation av populationens standardavvkelse. (9) 4

Det finns dock andra parametrar än väntevärde och standardavvikelse som man vill kunna skatta. Än så länge har vi egentligen bara angett kriterier för att värdera om en föreslagen estimator skall anses vara bra eller e. Man skulle vila ha metoder för att kunna "räkna sig fram" till den bästa estimatorn (om nu en sådan finns). De finns en ymnig flora av metoder för att räkna sig fram till (förhoppningsvis) bra estimatorer. I det fölande behandlas de två viktigaste, maximum - likelihood - metoden och minsta - kvadrat - metoden. 4 Skattningsmetoder 4. Maximum - likelihood - metoden Som vanligt står x = (x, x,..., x n ) för utfallet av ett slumpmässigt stickprov X = (X, X,.., X n ) från en fördelning / population F. Här antas att formen på fördelningen F är känd sånär som på värdet för en parameter θ. Det är ust det värdet man vill skatta. I första omgången antas fördelningen för X - variablerna vara diskret. En sådan fördelning specificeras av sin sannolikhetsfunktion p X (x) = P(X = x), som är definierad för de x - värden som X kan anta. Man känner dock inte p X (x) fullständigt, utan bara sånär som på värdet av en parameter θ. De möliga fördelningarna för X beskrivs av en famil { p X (x ; θ), θ A}. Ett exempel ges nedan. Exempel : X - variablerna förutsätts vara Poisson - fördelade med parameter θ. (Anm. Vanligen heter parametern i en Poisson - fördelning m, men här får den alltså heta θ.) Då gäller fölade. De värden som X kan anta är 0,,, 3,..., och sannolikhetsfunktionen för X är ; p X (x ; θ) = e - θ θ x / x!, x = 0,,, 3,..., 0 θ. (0) Vi lämnar exemplet där, men återkommer till det. Som ett första steg på vägen att förhoppningsvis finna en bra estimator ställer man frågan : Hur stor är sannolikheten att få ust det stickprov x = (x, x,..., x n ) man fick? Förutsättningen att stickprovsvärdena X, X,.., X n är oberoende s.v. ger ; P(X = x, X = x,..., X n = x n ) = p X (x ; θ) p X (x ; θ)... p X (x n ; θ). () Högerledet i () är en funktion av θ och x. Den kallas för (Blom sidan 6) stickprovets likelihood - funktion, och betecknas ; L(θ ; x) = p X (x ; θ ) p X (x ; θ )... p X (x n ; θ ), θ A. () Likelihood - funktionen är framför allt intressant som funktion av θ, och skrivs ofta bara L(θ). Den anger hur sannolikheten att få det erhållna stickprovet x beror av värdet på parametern θ. När man vill skatta θ låter det (väl?) allmänt vettigt att använda fölande princip. Maximum - likelihood - skattning (Blom sidan 6) Av de möliga värdena på parametern θ tror man mest på det θ - värde som ger störst sannolikhet att få det stickprov man faktiskt fick. Mer tekniskt formulerat innebär detta fölande. Man skattar det okända parametervärdet med det θ - värde som maximerar likelihood - funktionen L(θ ; x). Skattningen ifråga kallas maximum - likelihood - skatningen av θ, förkortat ML - skattningen. Exempel : Låt förutsättningarna vara enligt Exempel, och antag att 5 observationer gorts, med resultaten x =, x = 3, x 3 = 0, x 4 =, x 5 =. Då ger () och (0) ; L(θ ; x) = e - θ θ / e - θ θ 3 / 6 e - θ θ 0 / e - θ θ / e - θ θ / = e - 5 θ θ 7 /, 0 θ <. ML - skattningen av θ erhålls som det θ - värde som maximerar e - 5 θ θ 7 /, vilket är θ = θ* = 7 / 5. 5

Oftast ser man bättre vad som försiggår om man härleder ML - estimatorn för ett allmänt stickprov först (istället för ML - estimatorn för det speciella stickprovet, här x =, x = 3, x 3 = 0, x 4 =, x 5 = ). Under förutsättningen att stickprovet kommer från en Poisson - fördelning gäller ; L( θ; x) = e n θ θ ( x + x +... + x n ) c( x ) där c(x) = / (x! x! x n! ). När man söker det θ - värde som maximerar en likelihood - funtion L(θ ; x) är det ofta förenklande att använda fölande förhållande : Eftersom ln y ( ln = naturliga logaritmfunktionen) växer strängt med y, har L(θ ; x) och ln L(θ ; x) maximum för samma θ - värde. Istället för att söka maximum för L(θ ; x) söker man maximum för ln L(θ ; x). Här är ; ln L x ( θ ; x) = θ + (x + x +... + x ) ln θ ln c( ). Genom att t.ex. betrakta första och andra derivatan (med avseende på θ) för ln L(θ ; x) kommer man utan större svårighet till att ln L(θ ; x), och därmed också L(θ ; x), har maximum för θ* = (x + x + x 3 + x 4 + x 5 ) / 5 = x, som är ML - skattningen på allmän form. [Anm. Att "logaritmeringstricket" ofta leder till förenkling hänger ihop med att när observationerna är oberoende är likelihood - funktionen en produkt.] Hittills har stickprovsvariablerna X antagits ha diskret fördelning. Nu antas istället att de har fördelning med täthetsfunktion, och att täthetsfunktionens form är känd sånär som på värdet för en parameter θ. Familen av möliga fördelningar ges då av {f(x ; θ), θ A}, där f(x ; θ) står för en sannolikhetstäthet som är känd pånär värdet på parametern θ. En täthetsfunktion är u i många avseenden en kontinuerlig analog till en diskret fördelnings sannolikhetsfunktion. För fördelningar med täthet definieras likelihood - principen med likelihood - funktion enligt nedan (Blom sidan 6) ; L(θ ; x) = f(x ; θ ) f(x ; θ )... f(x n ; θ ), θ A. (3) Kommentar 6 : Notera att det inte påståtts att ML - metoden alltid leder till "världens bästa skattning". Ofta gör den det, men inte alltid. Det kan t.ex. inträffa att en ML - estimator inte ens är väntevärdesriktig trots att det finns vänteriktiga estimatorer. Hur som helst, ML - estimatorn är alltid ett "intressant skattningsförslag", som är värt att studera vidare. 4. Minsta - kvadrat - metoden 4.. MK- skattning i grundversion Som tidigare står x = (x, x,..., x n ) för utfallet av ett stickprov X = (X, X,.., X n ) från en fördelning / population F. Till fördeningen är associerad en (en - eller flerdimensionell) parameter θ vars värde är okänt, och det är det värdet man vill skatta. Den skattningsmetod vi skall titta på nu, minsta - kvadrat - metoden, kan varieras på ett antal sätt. Vi börar med den enklaste varianten. Då förutsätts att X, X,.., X n är stokastiska variabler med samma fördelning F, vilken beror av parametern θ. Vidare förutsätts att för var och en av de möliga fördelningarna kan fördelningens väntevärde beräknas. Det beror av parametervärdet θ. Fölande beteckning används ; m(θ) = väntevärdet i den fördelning som har parametervärde θ, θ A. (4) Fölande kvadratsumma spelar en central roll i det fortsatta resonemanget ; n i = Q( θ; x ) = (x m( θ)), θ A. (5) i För att ge innebörd åt Q(θ ; x) används fölande resonemang. Allmänt gäller att om man vill gissa vilket värde en s.v. med känd fördelning kommer att anta när den realiseras, så är (väl?) variabelns väntevärde en av de bättre gissningar man kan komma på. Filosofin för minsta - kvadrat -metoden fås genom att vända på steken i det resonemanget. 6

Minsta - kvadrat - skattning (Blom sidan 65) Av de möliga värdena på parametern θ tror man mest på det θ - värde som gör att de erhållna observationerna x, x,..., x n ligger så nära populationens väntevärde m(θ) som möligt. Som mått på hur bra observationerna ansluter till m(θ) används kvadrat-summan i (5), betraktad som funktion av θ. Ju mindre Q(θ ; x) är, desto bättre passar populationen med parametervärde θ ihop med observationerna. Allra bäst passar de ihop för det θ som minimerar Q(θ ; x). Det θ - värdet kallas minsta - kvadrat - skattningen av θ, kortare MK - skattningen av θ. Exempel 3 : Problemet i Exempel kan också behandlas med minsta - kvadrat - metoden. Väntevärdet för en Po(θ) - fördelad s.v. är, som bekant, m(θ) = θ, vilket ger att kvadratsumman i (5) blir ; Q(θ ; x) = (x - θ) + (x - θ) + (x 3 - θ) + (x 4 - θ) + (x 5 - θ). Det lämnas som övning att visa att Q(θ ; x) antar sitt minimum för θ* = (x + x + x 3 + x 4 + x 5 ) / 5 = x, som alltså är MK - skattningen. I denna situation leder alltså MK - och ML - metoderna till samma skattningar. Detta inträffar ibland när båda metoderna kan användas, men inte alltid. Som nämndes ovan finns diverse variationer av MK - förfarandet, och vi skall se på ett par av dem. Först släpper vi antagandet att variablerna i stickprovet har samma fördelning. 4.. MK - skattning vid olika fördelningar för stickprovsvariablerna X, X,.., X n och x = (x, x,..., x n ) står nu för det som kallas ett stickprov enligt utvidgad definition. Observationerna förutsätts inte komma från samma fördelning F, men deras fördelningar beror av samma parameter θ. De betecknas F (x ; θ), F (x ; θ),..., F n (x ; θ). Vidare antas att F (x ; θ), F (x ; θ),..., F n (x ; θ) är så pass väl kända att man kan beräkna deras väntevärden som funktioner av θ, vilka betecknas m (θ), m (θ),..., m n (θ). Som mått på hur väl observationer och möliga fördelningar passar ihop används nu kvadratsumman ; n Q( θ; x ) = (x m ( θ)), θ A. (6) = MK - skattningen av θ är det θ - värde som minimerar Q(θ ; x) enligt (6). (Blom sidan 65.) 4..3 Vägd MK - skattning Som bakgrund ser vi på ett exempel som är nyttigt att begrunda i fler sammanhang än det här aktuella. Exempel 4 : Samma (okända) storhet θ mäts med två olika förfaranden. Mätvärdena X och X betraktas som s.v. Det antas att mätningarna utförs oberoende av varandra och att båda mätförfarandena är väntevärdesriktiga, dvs. att E θ (X ) = E θ (X ) = θ. Förfarandena kan dock ha olika mätprecisioner, vilka specificeras med standardavvikelserna för X och X, σ resp. σ. För enkelhets skull antas att σ och σ båda är kända. Det låter väl plausibelt att man kan få en skattning av θ som är säkrare än var och en av X och X om man väger ihop X och X på lämpligt sätt. Det som faller först i tankarna är (kanske?) att skatta med medelvärdet (X + X ) /. Är det ett bra förslag? För att få svar på frågan ser vi på estimatorn som fås med en allmän linär hopvägning, θ*(α) = α X + (- α) X, där α är ett än så länge godtyckligt reellt tal. Då gäller (vilket lämnas till läsarens kontroll) ; E [ θ*(α)] = θ, V [ θ*(α)] = α σ + ( α) σ, θ A. (7) Från (7) ses att θ*(α) ger väntevärdesriktig skattning av θ hur än α väls, men att estimatorns precision ( = varians) beror av α. Vilket värde på α ger då bäst skattningsprecision? Det lämnas som övning att kontrollera att V [ θ*(α)] minimeras för 7

α = σ σ + σ, som leder till att bästa hopvägningsestimator är σ σ / σ / σ θ* * = X + X = X + X. (8) σ + σ σ + σ / σ + / σ / σ + / σ (8) innebär att för att få en så bra skattning som möligt skall mätvärdena ges vikter som är proportionella mot deras inversa varianser, / σ resp. / σ och som summerar till. Sensmoral: När skattningar vägs ihop skall större vikt ges åt säkra skattningar än åt osäkra. (9) En (kanske något) extrem konkretisering av (8) och (9) är fölande. Man vill mäta en okänd sträcka θ, säg om cirka 800 meter. En mätning X fås med hälp av ett 50 - meters - måttband och en mätning X med ett laserinstrument. Båda mätningarna antas vara väntevärdesriktiga, men lasern mäter mycket noggrannare än måttbandet. Här är väl uppenbart att (X + X ) / är en dum skattning. Hopvägningen (8) leder till något annat, som ligger mycket nära det man troligen skulle göra i praktiken, nämligen strunta i resultatet från måttbandsmätningen. Efter det exemplet är vi mogna för definitionen av vägd MK (Blom sid 65). Vägd minsta - kvadrat - skattning Här specificeras utöver de tidigare storheterna också en uppsättning positiva vikter λ = (λ, λ,..., λ n ). Parametern θ skattas sedan med det θ - värde som minimerar kvadratsumman ; n Q( θ; ; x) = (x m ( θ)) λ. (0) = Den naturliga frågan är nu : Hur väler man λ - vikterna i (0)? Något enkelt generellt svar finns (dessvärre) inte, men man låter (8) och (9) vara vägledande. Vanligen vill man komma så nära som möligt till situationen att λ är proportionellt mot / σ = /V(X ). Hur nära man kan komma beror på vilken information man har om V(X ),..., V(X n ). 8