Lunds tekniska högskola Matematikcentrum Matematisk statistik Matematisk statistik AK för ekosystemteknik, FMSF75 OH-bilder 2018-09-19 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN): VAD ÄR FÖRVÄNTAT VÄRDE? Kvicksilverhalten hos gäddor med ungefär samma storlek varierar från gädda till gädda. De uppmätta halterna kan ses som observationer av N(µ, σ). För 10 gäddor fångade i en sjö erhöll man halterna (enhet: mg/kg): 0.8 1.6 0.9 0.8 1.2 0.4 0.7 1.0 1.2 1.1 Vad kan man säga om förväntad kvicksilverhalt hos gädda i denna sjö? Hur kan man uppskatta (skatta) µ och σ i modellen? Intressant är att få så mycket information som möjligt om µ. Kan man göra mer än en skattning? FRÅGESTÄLLNINGAR (FORTS): ÄR GRÄNSVÄRDET, g, ÖVERSKRIDET? EXEMPEL: Det hygeniska gränsvärdet för asbest är g ber/ml. Mätningar av asbest på en byggarbetsplats med asbestsanering anses vara normalfördelade med väntevärde µ. Två typer av gränsvärden är tänkbara: gränsvärde för µ, d.v.s. gränsvärdet är överskridet om µ >g gränsvärde för kvantil, t.e.x. gränsvärdet är överskridet om 2%-kvantilen > g
FRÅGESTÄLLNINGAR (FORTS): HAR EN STATISTISKT SÄKERSTÄLLD (SIGNIFIKANT) FÖR- ÄNDRING SKETT? EXEMPEL: Antalet jordskalv per år i ett område anses Poissonfördelat med väntevärde λ. Den seismologiska aktiviteten har under en längre tid varit konstant med ett λ som anses vara 1.6. Under perioden 1990-1999 uppmäts emellertid 25 jordskalv i området. Tyder detta på att området blivit seismologiskt oroligt så att λ ökat? FRÅGESTÄLLNINGAR (FORTS): FINNS DET EN SIGNIFIKANT SKILLNAD MELLAN ME- TODER? EXEMPEL: Avloppsvattnet från en industri innehåller små men mätbara mängder av koppar. Mätningar av Cu-halten (µg/l) i avloppsvattnet gjordes före och efter att en ny reningsteknik införts. Mätningar före åtgärden: 2.84 3.14 3.38 0.09 2.14 4.18 0.07 0.52 3.62 4.56 Mätningar efter åtgärden: 3.97 3.22 1.41 1.60 4.11 0.63 4.95 4.42 0.95 INOM DEN STATISTISKA FELMARGINALEN? EXEMPEL: Ett parti ck 25% av rösterna vid senaste valet. Vid första opinionsundersökningen efter valet tillfrågades 1000 personer och 275 sa att de nu skulle rösta på partiet. Har partiet ökat antalet sympatisörer eller är resultatet inom den statistiska felmarginalen?
Vad är skillnaden mellan SANNOLIKHETSTEORI och STATISTIKTEORI? Tidigare SANNOLIKHETSTEORI: EX: X=Hg-halten (mg/kg) hos en slumpmässigt vald gädda N(1, 0.3). Vad är sannolikheten att Hg-halt överstiger 1.5 mg/kg, d.v.s. P (X > 1.5) sökes. EX: P (översvämning ett år)=0.05 (20-årsod). Vad är sannolikheten att vi får minst en översvämning på 30 år? Om X=antal översvämningar på de 30 åren, ska vi beräkna P (X 1). FÖRDELNINGARNA ÄR HELT KÄNDA (Vi känner värdet på alla parametrar) Nu STATISTIKTEORI (STATISTISK INFERENS): EX: X=Hg-halten (mg/kg) hos en slumpmässigt vald gädda N(µ, σ). Vi mäter på n gäddor och får x 1,..., x n. Kan vi nu säga något om µ och σ? EX: P (översvämning ett år)=p (okänt). Under 100 år har det varit 8 översvämningsår. Vad kan vi nu säga om p? FÖRDELNINGARNA INNEHÅLLER OKÄNDA PA- RAMETRAR Vi använder data (mätningar) för att dra slutsatser om parametrarna.
VI ARBETAR MED DESSA METODER I STATISTIK- TEORIN: SKATTNINGAR: Hur ska vi skatta µ och σ i gäddexemplet? Hur nära ligger våra skattningar de sanna (okända) värdena på µ och σ? KONFIDENSINTERVALL: Hur skaa ett intervall I µ = (a, b) sådant att vi med en viss säkerhet (t.ex. 95%) kan säga att det täcker över µ - förväntad kvicksilverhalt hos en gädda? HYPOTESTEST: Gäller det att förväntad asbesthalt på arbetsplatsen, µ, överskrider gränsvärdet g? Ställ upp hypoteser: H 0 : µ g H 1 : µ > g Undersök med ett test om H 0 kan förkastas till förmån för H 1. Både kondensintervall och hypotestest baseras på skattningar och sannolikhetsteoretiska beräkningar kring skattningar.
SKATTNINGAR Exempel: X= Hg-halt hos gädda; X N(µ, σ) Vi har mätningar x 1,..., x 10 µ obs σobs betecknar en skattning (tal) av µ betecknar en skattning (tal) av σ Vi väljer: µ obs = x = 1 10 10 i=1 x i σobs = s = 1 10 i=1 (x i x) 2 10 1 I det aktuella stickprovet visade sig x = 0.97 och s = 0.33. Hade vi tagit ett nytt stickprov om 10 andra gäddor hade x (och s) förmodligen fått andra värden. Hur mycket kan x variera? Enligt tidigare: X N(µ, σ n ) = N(µ, σ 10 )
SAMMA SAK I FIGURER: Fördelningen för en kvicksilvermätning, N(µ, σ) µ Ett antal personer gör skattningar av µ baserade på vardera 10 mätningar: stickprov µ obs = x 1 0.8 1.6 0.9 0.8 1.2 0.4 0.7 1.0 1.2 1.1 0.97 2 0.9 1.2 0.8 1.7 1.0 1.0 1.3 1.0 1.0 0.7 1.07 3 0.9 1.2 1.2 1.2 1.4 1.2 1.4 0.6 1.0 1.0 1.11 4 0.5 1.1 0.7 1.4 0.8 1.2 1.1 0.7 0.3 1.0 0.87 5 0.7 1.2 1.2 1.5 1.2 0.8 1.1 0.7 1.0 1.0 1.03............... Fördelningen för skattningarna, d.v.s. medelvärdet av σ 10 Hg-mätningar, N(µ, 10 ) µ
NÅGRA INTRESSANTA FRÅGOR: Hur mycket kommer skattningen som mest att avvika från det sanna värdet µ? Hur kan vi förbättra skattningen? MAN VILL ATT SKATTNINGAR SKA vara unbiased (väntevärdesriktiga) - d.v.s. ska i genomsnitt verkligen skatta rätt värde. EX: Det förväntade värdet för µ = X är µ, d.v.s E(µ ) = µ. BRA! ha en så liten spridning som möjligt - d.v.s. skattningens standardavvikelse ska vara låg. EX: D(µ ) = D(X) = σ n. Ju större n desto mindre standardavvikelse (desto eektivare är skattningen).
NU VILL VI FÖRDJUPA ANALYSEN GENOM ATT GÖRA KONFIDENSINTERVALL: Gäddor igen: Kvicksilverhalten hos gäddor med ungefär samma storlek varierar från gädda till gädda. De uppmätta halterna kan ses som observationer av N(µ, σ). För 10 gäddor fångade i en sjö erhöll man halterna (enhet: mg/kg): 0.8 1.6 0.9 0.8 1.2 0.4 0.7 1.0 1.2 1.1 (a) Gör ett 95 % intervall för µ, förväntad Hg-halt hos en gädda. Antag att σ = 0.5. (b) Gör ett 99 % intervall för µ, förväntad Hg-halt hos en gädda. Antag att σ = 0.5. (c) Gör ett 99.9 % intervall för µ, förväntad Hg-halt hos en gädda. Antag att σ = 0.5. (d) Är det troligt att µ = 0.6 mg/kg? (e) Är det troligt att µ = 0.7 mg/kg? (f) Är det troligt att µ = 0.8 mg/kg? (g) Antag att σ inte är känd. Hur gör vi intervallen då?