F13 Regression och problemlösning

Relevanta dokument
F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning 12: Linjär regression

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

F9 Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

Mer om konfidensintervall + repetition

Föreläsning 12: Regression

Matematisk statistik för B, K, N, BME och Kemister

MVE051/MSG Föreläsning 14

Diskussionsproblem för Statistik för ingenjörer

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

F10 Problemlösning och mer om konfidensintervall

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Regressions- och Tidsserieanalys - F1

Enkel och multipel linjär regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

10.1 Enkel linjär regression

Examinationsuppgifter del 2

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Matematisk statistik KTH. Formelsamling i matematisk statistik

Regressions- och Tidsserieanalys - F1

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Grundläggande matematisk statistik

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 7. Statistikens grunder.

Föreläsning 7: Punktskattningar

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Matematisk statistik TMS064/TMS063 Tentamen

Statistisk försöksplanering

Tenta i Statistisk analys, 15 december 2004

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

10. Konfidensintervall vid två oberoende stickprov

Föreläsning 7: Punktskattningar

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 11: Mer om jämförelser och inferens

Formler och tabeller till kursen MSG830

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Thomas Önskog 28/

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Laboration 4 R-versionen

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

oberoende av varandra så observationerna är

Tentamen MVE302 Sannolikhet och statistik

Bayesiansk statistik, 732g43, 7.5 hp

TAMS65 - Seminarium 4 Regressionsanalys

Repetitionsföreläsning

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för B, K, N, BME och Kemister

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Formel- och tabellsamling i matematisk statistik

Föreläsning 4: Konfidensintervall (forts.)

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

TMS136. Föreläsning 10

Föreläsning 12, FMSF45 Hypotesprövning

Lycka till!

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Matematisk statistik för B, K, N, BME och Kemister

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Mer om slumpvariabler

TMS136. Föreläsning 13

Tentamen i Matematisk statistik Kurskod S0001M

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Lektionsanteckningar 11-12: Normalfördelningen

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

FACIT: Tentamen L9MA30, LGMA30

Tentamen MVE302 Sannolikhet och statistik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Metod och teori. Statistik för naturvetare Umeå universitet

Avd. Matematisk statistik

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

FÖRELÄSNING 7:

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Transkript:

1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013

2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell är y = kx + m + ɛ där ɛ är en slumpavvikelse från linjen y = kx + m. Vi antar att ɛ N(0, σ 2 ). Låt n S xx = (x i x) 2, S yy = i=1 Vi fick skattningarna n (y i ȳ) 2, S xy = i=1 n (x i x)(y i ȳ). i=1 och ˆk = S xy S xx och ˆm = ȳ ˆk x. ˆσ 2 = s 2 = 1 ( S yy S 2 ) xy. n 2 S xx

Prediktion och prediktionsintervall Givet skattningarna ˆm och ˆk så får vi ett predikterat värde på y 0 givet x 0 : y (pred) 0 = ˆm + ˆkx 0. Dock finns en viss osäkerhet i prediktionen eftersom vi inte har de sanna värdena på parametrarna utan bara skattningar. Vi kan ta hänsyn till osäkerheten i skattningarna och skapa ett konfidensintervall för E[Y 0 ]: I E[Y0 ] = ( ˆm + ˆkx 0 ± t α/2 (n 2)s 1/n + (x 0 x) 2 /S xx ). Men... Precis som för andra y-värden så kommer y 0 troligen att avvika lite från linjen på grund av slumpavvikelser. Man kan därför slutligen beräkna ett prediktionsintervall, som är ett konfidensintervall för värdet på y 0 där både skattningarnas osäkerhet och osäkerheten orsakad av slumpavvikelsen för y 0 har inkluderats: I y0 = ( ˆm + ˆkx 0 ± t α/2 (n 2)s 1 + 1/n + (x 0 x) 2 /S xx ). 3/18

4/18 Prediktion och prediktionsintervall Prediktion: y (pred) 0 = ˆm + ˆkx 0, skattning av vilket y-värde som x 0 borde ge. Konfidensintervall för E[Y 0 ]: när man tar hänsyn till osäkerheten i skattningarna ˆm och ˆk. Ett intervall med troliga värden på kurvan. Prediktionsintervall: när man också tar hänsyn till att y 0 kommer att avvika lite från linjen på grund av slumpvariation. Ett intervall med troliga värden på y 0.

Prediktion: vindhastigheter På en plats vill man ta reda på den genomsnittliga vindhastigheten vid 60 m höjd. Detta är svårt att mäta direkt, men man kan mäta vid 10-30 m höjd. Vindhastighet som funktion av höjd (logskala) ln(vindhastighet) 2.10 2.15 2.20 2.25 2.30 2.4 2.6 2.8 3.0 3.2 3.4 ln(höjd) 5/18

6/18 Prediktion: vindhastigheter Vindhastighet som funktion av höjd Vindhastighet (m/s) 8 9 10 11 Anpassad kurva Extrapolerad kurva Konfidensintervall för kurva Prediktionsintervall 10 20 30 40 50 60 Höjd (m)

7/18 Extrapolering Även om den linjära modellen ger en bra beskrivning av ett samband i det område som undersökts så behöver det inte vara så att sambandet är linjärt även utanför detta område. VARNING! Det kan vara farligt att använda modellen utanför det område där den anpassats! Se exempel på tavlan!

8/18 Modellantaganden Modellen som vi använde för att ta fram skattningarna bygger på ett antal antaganden: Det finns ett linjärt samband mellan x och y. Mätfelen/slumpavvikelserna ɛ i är normalfördelade och har alla samma varians σ 2. Hur kan vi undersöka dessa antaganden?

9/18 Residualstudier Låt e i = y i ( ˆm + ˆkx i ) Residualerna e i beskriver datamaterialets spridning kring den anpassade linjen. Se tavlan! Genom att plotta residualerna och exempelvis rita deras histogram så kan antagandet om oberoende mätfel och att ɛ i N(0, σ 2 ) undersökas. Mönster i residualplotten tyder på beroende mätfel eller att modellen är felaktig. Skillnader i residualernas spridning för olika x i tyder på att variansen σ 2 inte är konstant utan beror på x i. Histogram som inte liknar normalfördelningens täthetsfunktion tyder på att mätfelen inte är normalfördelade.

10/18 Residualstudier: tryck i bensintank Residualplot Histogram för residualer Residual 5 0 5 Frekvens 0 2 4 6 8 3 4 5 6 7 Tryck 10 5 0 5 Residual

11/18 Residualstudier: processorbelastning Residualplot Histogram för residualer Residual 250 200 150 100 50 0 50 Frekvens 0 2 4 6 8 10 0.2 0.4 0.6 0.8 1.0 Belastning 300 200 100 0 100 Residual

12/18 Residualstudier: processorbelastning Anpassning av en rät linje till ursprungliga (icke-logaritmerade) processordata: Test av processors livslängd Livslängd (h) 0 200 400 600 800 0.2 0.4 0.6 0.8 1.0 Belastning, andel av max

13/18 Residualstudier: processorbelastning Residualplot Histogram för residualer Residual 100 0 100 200 300 400 Frekvens 0 2 4 6 8 10 0.2 0.4 0.6 0.8 1.0 Belastning 200 100 0 100 200 300 400 Residual

14/18 A-delen från tentan 2011-03-17 (h) För observationerna (x 1, y 1 ),..., (x 15, y 15 ) har man anpassat modellen y = α + βx + ɛ, där ɛ N(0, σ 2 ). Statistisk programvara gav punktskattningarna ˆα = 1.9, ˆβ = 0.5, ˆσ 2 = 0.55. Ange utifrån den anpassade modellen det förväntade värdet på y, givet att x = 5.0. (1p)

B-delen från tentan 2011-03-17 5. Ett isoleringsmaterials kompressionsvärden undersöktes under olika betingelser på tryck och temperatur. Under ett försök så hölls temperaturen konstant vid 50 C medan man gjorde 10 mätningar av kompressionen y då trycket x hölls vid olika värden mellan 1 och 5 bar. Följande beräknades: 10 i=1 10 i=1 (x i x)(y i ȳ) = 10.26, x i = 30, 10 i=1 10 i=1 Man antog följande regressionsmodell: y i = 23.6, (x i x) 2 = 16.30, y i = α + βx i + ɛ i, 10 i=1 (y i ȳ) 2 = 8.15. där ɛ i är oberoende mätfel med fördelning N(0, σ 2 ). (a) Skatta α, β och σ 2. (3p) (b) Skatta den förväntade kompressionen vid temperaturen 50 C och trycket 4.5 bar, samt ange ett 95% prediktionsintervall för kompressionen under dessa förhållanden. (3p) 15/18

Konfidensintervall Om problemet går ut på att räkna ut ett konfidensintervall så behöver man veta två saker: Vad man vill ha ett konfidensintervall för (t.ex. µ). Vilken information man har fått (t.ex. x och σ 2 ). Bortsett från intervallen vid regression så finns det fyra huvudproblem: KI för väntevärdet: µ. KI för skillnaden i väntevärden: µ X µ Y. KI för en andel: p. KI för skillnaden i andelar: p 1 p 2. Dessa kan i sin tur delas upp i olika fall. De fall som brukar kunna dyka upp på tentan presenteras på nästa sida. 16/18

Konfidensintervall 1. KI för µ, σ känd: x ± λ α/2 σ n 2. KI för µ, σ okänd: x ± t (n 1) α/2 s n 3. KI för µ, X ej normalfördelad: om n är tillräckligt stort så kan s intervallet x ± λ α/2 n användas som approximation. 4. KI för µ X µ Y, σ okänd: (nx +ny 2) x ȳ ± t α/2 s p 1/nx + 1/n y 5. KI för µ X µ Y, stickprov i par: ta differenserna z i = x i y i och använd z 1,..., z n i intervallen 1-2! 1 6. KI för p: ˆp ± λ α/2 n ˆp(1 ˆp) om ˆp(1 ˆp)n 10. 7. KI för p 1 p 2 : ˆp 1 ˆp 2 ± λ α/2 1 n 1 ˆp 1 (1 ˆp 1 ) + 1 n 2 ˆp 2 (1 ˆp 2 ) 17/18

18/18 B-delen från tentan 2012-03-14 3. I en studie jämfördes smältpunkten för två legeringar som används som lod vid lödning genom att man smälte 20 stycken prov av vardera legering och mätte temperaturerna. För den första legeringen fick man x 1 = 215 och s 1 = 2.2 och för den andra legeringen fick man x 2 = 218 och s 2 = 2.8. De uppmätta smältpunkterna kan ses vara normalfördelade. Kan man utifrån detta säga att den andra legeringen har en högre smältpunkt än den första? abrakadabra (6p)