Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 2/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 3/28

(Kap. 13) H förkastas om observationerna, θ, avviker för mycket från nollhypotesen θ. Testa nollhypotesen H : θ = θ mot mothypotesen (tex) H 1 : θ θ på nivån α; felrisken α ges av α = P(H förkastas trots att den är sann) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 4/28 Olika metoder för att utföra hypotestest (Kap. 13.3 & 13.5) 1. Direktmetoden eller P-värde (Kap. 13.3) Antag att H är sann Räkna ut P-värdet p = P(Få det vi fått eller värre) Om p < α förkastas H 2. Konfidensmetoden (Kap. 13.5) Gör ett konfidensintervall med konfidensgraden 1 α och förkasta H på nivån α om intervallet ej täcker θ. Intervallen skall, beroende på H 1, vara Test H 1 : θ < θ H 1 : θ θ H 1 : θ > θ Intervall: uppåt begr tvåsidigt nedåt begr 3. Testkvantitet T(X) och kritiskt område C (Kap. 13.3) Förkasta H om testskvantiteten hamnar i det kritiska området. C och T skall väljas så att α = P(T(X) C) = P( Förkasta H om H är sann ) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 5/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 6/28

Statistikteori översikt Punktskattning Hur gör man en bra gissning av en okänd storhet? Hur vet man att den är bra? Intervallskattning Hitta istället ett intervall som täcker den okända storheten med en given (stor) sannolikhet. Hypotestest Om gissningen blev.13, kan rätt värde på den okända storheten ändå vara.1? Styrkefunktion Hur många mätningar måste vi göra för att upptäcka en skillnad mellan.13 och.1? Regression Hur vet vi om två (eller fler) variabler påverkar varandra? Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 7/28 Enkel linjär regression Det verkar finnas ett linjärt samband mellan x och y. 2 Orenhet i färg 18 16 Orenhet y [%] 14 12 ( x i, y i ) 1 8 2 25 3 35 4 45 Omröringshastighet x [rpm] Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 8/28 Linjär regression (Kap. 14.2) Modell (Kap. 14.2) Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (, σ). α och β är okända tal, x i är kända tal. Vi får då Y i N (α + βx i, σ) = N (μ i, σ) Y s väntevärde ligger på en rät linje, μ(x) = α + βx, där β är linjens lutning och α dess skärning med y-axeln. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 9/28

Skattning av parametrarna α och β (Kap. 14.3) Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ 2 ) som maximerar n L(α, β, σ 2 1 ) = (y i (α+βx i )) 2 2πσ 2 e 2σ 2 = = ( ) 1 n/2 2πσ 2 e 1 n 2σ 2 (y i (α+βx i )) 2 Parameterskattningarna (Kap. 14.3) ML- och MK-skattningarna av α och β är β = n (x i x)(y i ȳ) n (x i x) 2 = S xy, α = ȳ β x Skattningarna α och β är dock inte oberoende av varandra. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Skattning av σ 2 (Kap. 14.2) För σ 2, dvs variansen för ε i och Y i, blir skattningen (σ 2 ) = s 2 = Q där n 2 n Q = (y i α β x i ) 2 = S yy S2 xy Skattningen är korrigerad med 2 för att bli väntevärdesriktig. Q kallas residualkvadratsumma, eftersom den är kvadratsumman av residualerna, som är avstånden från y i -värdet till den skattade linjen, e i = y i α β x i. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 11/28 14 12 1 Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi 8 6 4 2 1 2 3 4 5 6 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 12/28

Räkna ut kvadratsummorna För att räkna ut kvadratsummorna, S yy och S xy kan man ha användning av sambanden = S yy = S xy = n ( n (x i x) 2 = n ( n (y i ȳ) 2 = x 2 i y 2 i ) n x 2 ) nȳ 2 n ( n ) (x i x)(y i ȳ) = x i y i n xȳ Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 13/28 Exempel, x-cu-konc. y-absorption Vi har följande 1 par av mätvärden i: 1 2 3 4 5 6 7 8 9 1 x i : 5 5 1 1 15 15 2 2 y i :.5.3.92.84.185.185.329.32.372.336 För att skatta parametrarna i regressionsmodellen behövs n = 1, x 2 i = 15, xi = 1, y 2 i =.5347 yi = 1.877, xi y i = 282.5 = n xi 2 n x 2 = 15 1 1 2 = 5 ( ) 1.877 2 S yy =.5347 1 =.1824 1 S xy = 282.6 1 1 1.877 = 94.35 1 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 14/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 15/28

Eftersom α = Ȳ β x β = S n xy = (x i x)(y i Ȳ) S n xx (x i x) 2 båda är linjära funktioner av Y i (men inte av talen x i ), som är normalfördelade, måste även α och β vara normalfördelad. Fördelningarna blir α 1 N α, σ n + x2 ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 16/28 (forts) Men man kan visa att β och Ȳ är oberoende av varandra. Kovariansen mellan α och β blir C(α, β ) = C(Ȳ β x, β ) = C(Ȳ, β ) xc(β, β ) = = xv(β ) = x σ2. Vi ser att kovariansen är negativ då x > och positiv då x <. För Q gäller dessutom Q σ 2 χ2 (n 2) (2 är fortfarande antalet skattade parametrar i Q ) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 17/28 Intervallskattningar Skattningarna av α och β är båda på formen θ N (θ, D(θ )) Så vi får direkt t.ex konfidensintervall med konfidensgrad 1 a (a eftersom α är upptagen) I β = β ± t a/2 (f)d(β ) = β s ± t a/2 (n 2) Sxx I α = α ± t a/2 (f)d(α ) = α 1 ± t a/2 (n 2)s n + x2 (där n 2 kommer från σ = s = Q /(n 2)) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 18/28

Konfidensintervall för μ (eller för linjen) För ett givet x-värde, x = x, kan vi skatta Y-s väntevärde med μ = α + β x dvs en punkt på den skattade linjen. μ N 1 μ, σ n + (x x) 2. Vi får således direkt ett konfidensintervall för μ som I μ = μ ± t a/2(f)d(μ ) = μ ± t 1 a/2(n 2)s n + (x x) 2. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 19/28 Intervallet ovan gäller väntevärdet för Y då x = x. Om man vill uttala sig om en framtida observation av Y för x = x blir ovanstående intervall i regel för smalt. Vi kan få ett prediktionsintervall för en framtida observation för ett givet x et blir Y = α + β x + ε I Y(x ) = α + β x ± t a/2 (n 2)s 1 + 1 n + (x x) 2 Observera att det bara är ettan i kvadratroten som skiljer mellan prediktionsintervallet och konfidensintervall I μ. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 2/28 Konfidens- och prediktionsintervall.5 Konfidensintervall för µ(x) och prediktionsintervall.4.3 Absorption.2.1.1.2 5 5 1 15 2 25 Kopparkoncentration Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 21/28

Gauss approximationsformler i en variabel (Kap. 11.1) Y = g(x). Taylorutveckla funktionen g kring μ = E(X) g(x) g(μ) + (X μ)g (μ) = E(Y) g(e(x)) V(Y) g [E(X)] 2 V(X) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 22/28 Om man observerat ett värde y av y, vad blir då x? Man kan lösa ut x ur y = α + β x och får x = y α β Denna skattning är inte normalfördelad, men vi kan t.ex. använda Gauss approximationsformler för att få fram ett approximativt värde på D(x ). et blir I x = x ± t a/2(n 2) s β 1 + 1 n + (y ȳ) 2 (β ) 2. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 23/28.5 då y =.2.4.3 Absorption.2.1.1.2 5 5 1 15 2 25 Kopparkoncentration Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 24/28

Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 25/28 I modellen antar vi att variationen kring linjen är ε i N (, σ), oberoende av varandra Eftersom skattningarnas fördelning och konfidensintervall etc. baseras på normal-antagandet är det viktigt att undersöka om antagandet är rimligt. Vi kan studera residualerna, dvs avvikelserna mellan observerade y-värden och den skattade linjen. e i = y i α β x i, i = 1,..., n Dessa är observationer av ε i, och residualerna bör alltså: se ut att komma från en och samma normalfördelning vara oberoende av varandra vara oberoende av alla x i. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 26/28 1 Residualer 1 Residualer mot x 5 5 e e 5 5 1 1 2 3 1:n Probability.99.98.95.9.75.5.25.1.5.2.1 1 1 2 3 x Normal Probability Plot 5 5 Data Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 27/28

Mindre bra residualplottar 1 Residualer, kvadratisk trend Residualer mot x, variansen ökar med x 3 e 5 e 2 1 1 5 1 2 3 1:n 2 1 2 3 x I en modellvalidering bör man även testa H : β = mot H 1 : β Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 28/28