Matematisk statistik för D, I, Π och Fysiker

Relevanta dokument
Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12, FMSF45 Hypotesprövning

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik för B, K, N, BME och Kemister

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Matematisk statistik för D, I, Π och Fysiker

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 12: Regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 17, Matematisk statistik Π + E

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

F13 Regression och problemlösning

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 6, Matematisk statistik Π + E

Enkel och multipel linjär regression

Grundläggande matematisk statistik

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

TMS136. Föreläsning 10

MVE051/MSG Föreläsning 14

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Föreläsning 11, Matematisk statistik Π + E

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Föreläsning 11, FMSF45 Konfidensintervall

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

SF1901 Sannolikhetsteori och statistik I

Tenta i Statistisk analys, 15 december 2004

Tentamen MVE302 Sannolikhet och statistik

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

9. Konfidensintervall vid normalfördelning

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning 6, FMSF45 Linjärkombinationer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 13: Multipel Regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Lycka till!

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Formel- och tabellsamling i matematisk statistik

Avd. Matematisk statistik

Thomas Önskog 28/

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 7: Punktskattningar

Repetitionsföreläsning

Matematisk statistik, Föreläsning 5

Matematisk statistik för B, K, N, BME och Kemister

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F1

Avd. Matematisk statistik

Föreläsning 8, Matematisk statistik Π + E

Föreläsning 7: Punktskattningar

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

AMatematiska institutionen avd matematisk statistik

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik

TAMS65 - Föreläsning 6 Hypotesprövning

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Föreläsning G60 Statistiska metoder

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Regressions- och Tidsserieanalys - F1

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

TAMS65 - Föreläsning 6 Hypotesprövning

Avd. Matematisk statistik

MATEMATISK STATISTIK AK FÖR F, E, D, I, C, Π; FMS 012 FÖRELÄSNINGSANTECKNINGAR I

10. Konfidensintervall vid två oberoende stickprov

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

oberoende av varandra så observationerna är

Mer om konfidensintervall + repetition

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Föreläsning 15: Försöksplanering och repetition

Kovarians och kriging

Repetition. Plus lite av det om faktorförsök som inte hanns med förra gången

Transkript:

Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 2/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 3/28

(Kap. 13) H förkastas om observationerna, θ, avviker för mycket från nollhypotesen θ. Testa nollhypotesen H : θ = θ mot mothypotesen (tex) H 1 : θ θ på nivån α; felrisken α ges av α = P(H förkastas trots att den är sann) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 4/28 Olika metoder för att utföra hypotestest (Kap. 13.3 & 13.5) 1. Direktmetoden eller P-värde (Kap. 13.3) Antag att H är sann Räkna ut P-värdet p = P(Få det vi fått eller värre) Om p < α förkastas H 2. Konfidensmetoden (Kap. 13.5) Gör ett konfidensintervall med konfidensgraden 1 α och förkasta H på nivån α om intervallet ej täcker θ. Intervallen skall, beroende på H 1, vara Test H 1 : θ < θ H 1 : θ θ H 1 : θ > θ Intervall: uppåt begr tvåsidigt nedåt begr 3. Testkvantitet T(X) och kritiskt område C (Kap. 13.3) Förkasta H om testskvantiteten hamnar i det kritiska området. C och T skall väljas så att α = P(T(X) C) = P( Förkasta H om H är sann ) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 5/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 6/28

Statistikteori översikt Punktskattning Hur gör man en bra gissning av en okänd storhet? Hur vet man att den är bra? Intervallskattning Hitta istället ett intervall som täcker den okända storheten med en given (stor) sannolikhet. Hypotestest Om gissningen blev.13, kan rätt värde på den okända storheten ändå vara.1? Styrkefunktion Hur många mätningar måste vi göra för att upptäcka en skillnad mellan.13 och.1? Regression Hur vet vi om två (eller fler) variabler påverkar varandra? Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 7/28 Enkel linjär regression Det verkar finnas ett linjärt samband mellan x och y. 2 Orenhet i färg 18 16 Orenhet y [%] 14 12 ( x i, y i ) 1 8 2 25 3 35 4 45 Omröringshastighet x [rpm] Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 8/28 Linjär regression (Kap. 14.2) Modell (Kap. 14.2) Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (, σ). α och β är okända tal, x i är kända tal. Vi får då Y i N (α + βx i, σ) = N (μ i, σ) Y s väntevärde ligger på en rät linje, μ(x) = α + βx, där β är linjens lutning och α dess skärning med y-axeln. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 9/28

Skattning av parametrarna α och β (Kap. 14.3) Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ 2 ) som maximerar n L(α, β, σ 2 1 ) = (y i (α+βx i )) 2 2πσ 2 e 2σ 2 = = ( ) 1 n/2 2πσ 2 e 1 n 2σ 2 (y i (α+βx i )) 2 Parameterskattningarna (Kap. 14.3) ML- och MK-skattningarna av α och β är β = n (x i x)(y i ȳ) n (x i x) 2 = S xy, α = ȳ β x Skattningarna α och β är dock inte oberoende av varandra. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Skattning av σ 2 (Kap. 14.2) För σ 2, dvs variansen för ε i och Y i, blir skattningen (σ 2 ) = s 2 = Q där n 2 n Q = (y i α β x i ) 2 = S yy S2 xy Skattningen är korrigerad med 2 för att bli väntevärdesriktig. Q kallas residualkvadratsumma, eftersom den är kvadratsumman av residualerna, som är avstånden från y i -värdet till den skattade linjen, e i = y i α β x i. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 11/28 14 12 1 Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi 8 6 4 2 1 2 3 4 5 6 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 12/28

Räkna ut kvadratsummorna För att räkna ut kvadratsummorna, S yy och S xy kan man ha användning av sambanden = S yy = S xy = n ( n (x i x) 2 = n ( n (y i ȳ) 2 = x 2 i y 2 i ) n x 2 ) nȳ 2 n ( n ) (x i x)(y i ȳ) = x i y i n xȳ Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 13/28 Exempel, x-cu-konc. y-absorption Vi har följande 1 par av mätvärden i: 1 2 3 4 5 6 7 8 9 1 x i : 5 5 1 1 15 15 2 2 y i :.5.3.92.84.185.185.329.32.372.336 För att skatta parametrarna i regressionsmodellen behövs n = 1, x 2 i = 15, xi = 1, y 2 i =.5347 yi = 1.877, xi y i = 282.5 = n xi 2 n x 2 = 15 1 1 2 = 5 ( ) 1.877 2 S yy =.5347 1 =.1824 1 S xy = 282.6 1 1 1.877 = 94.35 1 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 14/28 Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 15/28

Eftersom α = Ȳ β x β = S n xy = (x i x)(y i Ȳ) S n xx (x i x) 2 båda är linjära funktioner av Y i (men inte av talen x i ), som är normalfördelade, måste även α och β vara normalfördelad. Fördelningarna blir α 1 N α, σ n + x2 ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 16/28 (forts) Men man kan visa att β och Ȳ är oberoende av varandra. Kovariansen mellan α och β blir C(α, β ) = C(Ȳ β x, β ) = C(Ȳ, β ) xc(β, β ) = = xv(β ) = x σ2. Vi ser att kovariansen är negativ då x > och positiv då x <. För Q gäller dessutom Q σ 2 χ2 (n 2) (2 är fortfarande antalet skattade parametrar i Q ) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 17/28 Intervallskattningar Skattningarna av α och β är båda på formen θ N (θ, D(θ )) Så vi får direkt t.ex konfidensintervall med konfidensgrad 1 a (a eftersom α är upptagen) I β = β ± t a/2 (f)d(β ) = β s ± t a/2 (n 2) Sxx I α = α ± t a/2 (f)d(α ) = α 1 ± t a/2 (n 2)s n + x2 (där n 2 kommer från σ = s = Q /(n 2)) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 18/28

Konfidensintervall för μ (eller för linjen) För ett givet x-värde, x = x, kan vi skatta Y-s väntevärde med μ = α + β x dvs en punkt på den skattade linjen. μ N 1 μ, σ n + (x x) 2. Vi får således direkt ett konfidensintervall för μ som I μ = μ ± t a/2(f)d(μ ) = μ ± t 1 a/2(n 2)s n + (x x) 2. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 19/28 Intervallet ovan gäller väntevärdet för Y då x = x. Om man vill uttala sig om en framtida observation av Y för x = x blir ovanstående intervall i regel för smalt. Vi kan få ett prediktionsintervall för en framtida observation för ett givet x et blir Y = α + β x + ε I Y(x ) = α + β x ± t a/2 (n 2)s 1 + 1 n + (x x) 2 Observera att det bara är ettan i kvadratroten som skiljer mellan prediktionsintervallet och konfidensintervall I μ. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 2/28 Konfidens- och prediktionsintervall.5 Konfidensintervall för µ(x) och prediktionsintervall.4.3 Absorption.2.1.1.2 5 5 1 15 2 25 Kopparkoncentration Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 21/28

Gauss approximationsformler i en variabel (Kap. 11.1) Y = g(x). Taylorutveckla funktionen g kring μ = E(X) g(x) g(μ) + (X μ)g (μ) = E(Y) g(e(x)) V(Y) g [E(X)] 2 V(X) Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 22/28 Om man observerat ett värde y av y, vad blir då x? Man kan lösa ut x ur y = α + β x och får x = y α β Denna skattning är inte normalfördelad, men vi kan t.ex. använda Gauss approximationsformler för att få fram ett approximativt värde på D(x ). et blir I x = x ± t a/2(n 2) s β 1 + 1 n + (y ȳ) 2 (β ) 2. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 23/28.5 då y =.2.4.3 Absorption.2.1.1.2 5 5 1 15 2 25 Kopparkoncentration Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 24/28

Repetition Linjär regression Modell Parameterskattningar Räkneregler Exempel Konfidensintervall Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 25/28 I modellen antar vi att variationen kring linjen är ε i N (, σ), oberoende av varandra Eftersom skattningarnas fördelning och konfidensintervall etc. baseras på normal-antagandet är det viktigt att undersöka om antagandet är rimligt. Vi kan studera residualerna, dvs avvikelserna mellan observerade y-värden och den skattade linjen. e i = y i α β x i, i = 1,..., n Dessa är observationer av ε i, och residualerna bör alltså: se ut att komma från en och samma normalfördelning vara oberoende av varandra vara oberoende av alla x i. Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 26/28 1 Residualer 1 Residualer mot x 5 5 e e 5 5 1 1 2 3 1:n Probability.99.98.95.9.75.5.25.1.5.2.1 1 1 2 3 x Normal Probability Plot 5 5 Data Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 27/28

Mindre bra residualplottar 1 Residualer, kvadratisk trend Residualer mot x, variansen ökar med x 3 e 5 e 2 1 1 5 1 2 3 1:n 2 1 2 3 x I en modellvalidering bör man även testa H : β = mot H 1 : β Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 28/28