F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Relevanta dokument
F13 Regression och problemlösning

Föreläsning 12: Linjär regression

Föreläsning 12: Regression

Mer om konfidensintervall + repetition

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för D, I, Π och Fysiker

MVE051/MSG Föreläsning 14

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

10.1 Enkel linjär regression

F9 Konfidensintervall

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning G60 Statistiska metoder

Matematisk statistik för B, K, N, BME och Kemister

Statistik B Regressions- och tidsserieanalys Föreläsning 1

oberoende av varandra så observationerna är

Avd. Matematisk statistik

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Matematisk statistik, Föreläsning 5

Statistik 1 för biologer, logopeder och psykologer

Grundläggande matematisk statistik

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Regressions- och Tidsserieanalys - F1

Introduktion till statistik för ingenjörer

Kovarians och kriging

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Regressions- och Tidsserieanalys - F1

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

1 Förberedelseuppgifter

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 7: Punktskattningar

Föreläsning G60 Statistiska metoder

Laboration 4 R-versionen

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 7: Punktskattningar

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Föreläsning 7: Punktskattningar

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 13: Multipel Regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Diskussionsproblem för Statistik för ingenjörer

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Medicinsk statistik II

Enkel och multipel linjär regression

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Matematisk statistik för B, K, N, BME och Kemister

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Finansiell statistik. Multipel regression. 4 maj 2011

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Examinationsuppgifter del 2

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Föreläsning 15, FMSF45 Multipel linjär regression

Uppgift 1. f(x) = 2x om 0 x 1

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

TAMS65 - Seminarium 4 Regressionsanalys

Tenta i Statistisk analys, 15 december 2004

Datorövning 1 Enkel linjär regressionsanalys

Statistiska samband: regression och korrelation

Laboration 2: Styrkefunktion samt Regression

Lektionsanteckningar 11-12: Normalfördelningen

Matematisk statistik för B, K, N, BME och Kemister

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Tentamen MVE301 Sannolikhet, statistik och risk

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Tentamen MVE302 Sannolikhet och statistik

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

Laboration 4 Regressionsanalys

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

F10 Problemlösning och mer om konfidensintervall

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Tentamen MVE301 Sannolikhet, statistik och risk

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

Matematisk statistik KTH. Formelsamling i matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Övningstentamen 2 Uppgift 1: Uppgift 2: Uppgift 3: Uppgift 4: Uppgift 5: Uppgift 6: i ord

Transkript:

1/24 F12 Regression Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 28/2 2013

2/24 Dagens föreläsning Linjära regressionsmodeller Stokastisk modell Linjeanpassning och skattningar Konfidensintervall Prediktion och extrapolering

3/24 Repetition från F1: Beroendemått Ofta mäter man två olika egenskaper för varje enhet (som i borrexemplet, där man mätte borrad längd och nötning). Man har då två variabler x och y som finns registrerade parvis: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Beroendemått beskriver samvariationen mellan de två variablerna. Korrelationskoefficienten: n i=1 r = (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) 2 är en enhetslös storhet sådan att 1 r 1. Om r = 1 så ligger observationerna på en rät linje med positiv lutning och om r = 1 på en rät linje med negativ lutning. Om r ligger nära 0 så tyder det på att det inte finns något linjärt samband mellan variablerna.

Beroendemått Jämförelse av borrar Nötning (mikrometer) 1000 2000 3000 4000 5000 6000 Standard Test 40 60 80 100 120 140 Borrmeter För standardmaterialet får vi r = 0.95 och för testmaterialet får vi r = 0.11. 4/24

5/24 Beroendemått Om r ligger nära -1 eller 1 så tyder det på att det finns ett starkt linjärt samband mellan variablerna. Men: samband är inte detsamma som orsakssamband! Exempel: vid en undersök av barns läs- och skrivförmåga upptäckte man att barn med stora fötter stavar bättre. Exempel: glassförsäljning per månad och antal drunkningsolyckor per månad har hög korrelation. Exempel: för perioden 1945-1957 så är korrelationen mellan antalet häckande storkar i Köpenhamn och antalet barn som föddes i staden hög.

Exempel: tryck i bensintank När man tankar en bil med bensin så avdunstar kolväten. En biltillverkare undersökte mängden kolväten som avdunstade vid olika tryck i bensintanken: Avdunstning av kolväten från bensintank Avdunstning (g) 20 30 40 50 3 4 5 6 7 Tryck (skålpund/kvadrattum) 6/24

7/24 Linjära regressionsmodeller En regressionsmodell är en matematisk modell som beskriver ett samband mellan en responsvariabel y och förklarande variabler x 1,..., x k : y = f (x 1,..., x k ). Om f är en linjär funktion så har vi en linjär regressionsmodell: y = m + k 1 x 1 + k 2 x 2 +... + k k x k. Vi ska här studera enkla linjär regressionsmodeller, där det bara finns en förklarande variabel x: y = kx + m + ɛ där ɛ är en slumpavvikelse från den linjära trenden.

8/24 Varför linjära funktioner? En datortillverkare undersökte livslängden hos en experimentell processor vid olika belastningar. Test av processors livslängd Livslängd (h) 0 1 2 3 4 0.2 0.4 0.6 0.8 1.0 Belastning, andel av max

9/24 Varför linjära funktioner? Datortillverkaren fann att ett samband av typen y = ae bx rådde. Test av processors livslängd ln(livslängd) 5 4 3 2 1 0 1 0.2 0.4 0.6 0.8 1.0 Belastning, andel av max

10/24 Användningsområden y = kx + m Skattningar av m och k ger en linje som kan använda för att uppskatta värden på y för nya värden på x. Sådana uppskattningar kallas prediktioner. Linjära regressionsmodeller och prediktioner används exempelvis för Att undersöka samband mellan variabler Prognosmakande Kalibrering Reliabilitetsanalys Processoptimering

Stokastisk modell Vi har n observationer av talparen (x i, y i ) och vill undersöka om det finns ett beroende av typen y = kx + m. Antag att värdena x 1,..., x n är fixa och bestämda på förhand medan y 1,..., y n varierar slumpmässigt. För att göra sambandet stokastiskt så antar vi följande modell: Y i = kx i + m + ɛ i där ɛ i N(0, σ 2 ) och olika ɛ i är oberoende. Alternativt kan detta skriva som att Y i N(kx i + m, σ 2 ). Variationen mellan olika y i antas alltså dels bero på deterministiska faktorer (olika x i -värden) och dels på slumpmässiga faktorer (ɛ i : mätfel, slumpavvikelser...). 11/24

12/24 Metod för linjeanpassning Metoden som används för att anpassa den räta linjen till det givna datamaterialet kallas minsta kvadratmetoden. Målet är att minimera följande uttryck med avseende på m och k: Se tavlan! n (y i (kx i + m)) 2 i=1 Uttrycket kan minimeras genom att man deriverar det med avseende på m respektive k och undersöker för vilka värden på parametrarna som uttrycket är 0.

13/24 Metod för linjeanpassning Låt S xx = n (x i x) 2, S yy = i=1 n (y i ȳ) 2, S xy = i=1 n (x i x)(y i ȳ). i=1 Derivering av uttrycket på föregående sida ger skattningarna ˆk = S xy S xx och ˆm = ȳ ˆk x. Vidare kan variansen σ 2 skattas som s 2 = 1 ( S yy S 2 ) xy. n 2 S xx

Exempel: tryck i bensintank 3 4 5 6 7 20 30 40 50 Avdunstning av kolväten från bensintank Tryck (skålpund/kvadrattum) Avdunstning (g) 14/24

15/24 Exempel: processorbelastning För processorbelastningsdata fann man ˆm = 1.0 och ˆk = 4.7. Test av processors livslängd ln(livslängd) 5 4 3 2 1 0 1 0.2 0.4 0.6 0.8 1.0 Belastning, andel av max

16/24 Hur starkt är sambandet? Vi har tidigare beräknat korrelationskoefficienten n i=1 r = (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) = S xy 2 Sxx S yy som beskriver i vilken utsträckning det finns ett linjärt samband mellan variablerna x och y. Inom regressionsanalys brukar förklaringsgraden R 2 = r 2 användas som ett mått på hur väl modellen y = kx + m beskriver observerade data. Det gäller att 0 R 2 1, där höga värden på R 2 tyder på att anpassningen är bra och R 2 = 1 betyder att alla värden ligger precis på linjen. Att R 2 är nära 0 tyder antingen på att k = 0 (d.v.s. det finns inget samband) eller att sambandet inte är linjärt. Se tavlan!

Varnande exempel: koldioxid och Vård Av (sjukt) Barn Sedan 1974 har mängden koldioxid i atmosfären ökat. Det har även andelen VAB-dagar som tas ut av män. Koldioxid i atmosfären och pappors VAB dagar (1974 2009) Andel VAB dagar som tas ut av män (%) 0 5 10 15 20 R^2 = 0.953 330 340 350 360 370 380 Mängd CO2 Får den ökade mängden koldioxid män att ta ut fler VAB-dagar...? 17/24

Konfidensintervall för k Under antagandet att ɛ i N(0, σ 2 ) så kan man visa att och ˆm N (m, σ2 n i=1 x i 2 ) ns xx ˆk N (k, σ2 ). S xx Ur det senare uttrycket kan man härleda ett konfidensintervall för k. ( ) Då σ 2 skattas med s 2 = 1 n 2 S yy S2 xy S xx fås konfidensintervallet som har konfidensgrad 1 α. Se exempel på tavlan! I k = (ˆk ± t α/2 (n 2) s/ S xx ) Hur ska konfidensintervallet tolkas? 18/24

Prediktion och prediktionsintervall Givet skattningarna ˆm och ˆk så får vi ett predikterat värde på y 0 givet x 0 : y (pred) 0 = ˆm + ˆkx 0. Dock finns en viss osäkerhet i prediktionen eftersom vi inte har de sanna värdena på parametrarna utan bara skattningar. Vi kan ta hänsyn till osäkerheten i skattningarna och skapa ett konfidensintervall för E[Y 0 ]: I E[Y0 ] = ( ˆm + ˆkx 0 ± t α/2 (n 2)s 1/n + (x 0 x) 2 /S xx ). Men... Precis som för andra y-värden så kommer y 0 troligen att avvika lite från linjen på grund av slumpavvikelser. Man kan därför slutligen beräkna ett prediktionsintervall, som är ett konfidensintervall för värdet på y 0 där både skattningarnas osäkerhet och osäkerheten orsakad av slumpavvikelsen för y 0 har inkluderats: I y0 = ( ˆm + ˆkx 0 ± t α/2 (n 2)s 1 + 1/n + (x 0 x) 2 /S xx ). 19/24

20/24 Prediktion och prediktionsintervall Prediktion: y (pred) 0 = ˆm + ˆkx 0, skattning av vilket y-värde som x 0 borde ge. Konfidensintervall för E[Y 0 ]: när man tar hänsyn till osäkerheten i skattningarna ˆm och ˆk. Ett intervall med troliga värden på kurvan. Prediktionsintervall: när man också tar hänsyn till att y 0 kommer att avvika lite från linjen på grund av slumpvariation. Ett intervall med troliga värden på y 0.

Prediktion: vindhastigheter På en plats vill man ta reda på den genomsnittliga vindhastigheten vid 60 m höjd. Detta är svårt att mäta direkt, men man kan mäta vid 10-30 m höjd. Vindhastighet som funktion av höjd (logskala) ln(vindhastighet) 2.10 2.15 2.20 2.25 2.30 2.4 2.6 2.8 3.0 3.2 3.4 ln(höjd) 21/24

22/24 Prediktion: vindhastigheter Vindhastighet som funktion av höjd Vindhastighet (m/s) 8 9 10 11 Anpassad kurva Extrapolerad kurva Konfidensintervall för kurva Prediktionsintervall 10 20 30 40 50 60 Höjd (m)

23/24 Extrapolering Även om den linjära modellen ger en bra beskrivning av ett samband i det område som undersökts så behöver det inte vara så att sambandet är linjärt även utanför detta område. VARNING! Det kan vara farligt att använda modellen utanför det område där den anpassats! Se exempel på tavlan!

24/24 Sammanfattning Linjära regressionsmodeller Stokastisk modell Linjeanpassning och skattningar Konfidensintervall Prediktion och extrapolering