oberoende av varandra så observationerna är

Relevanta dokument
FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Föreläsning 12: Linjär regression

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Matematisk statistik för B, K, N, BME och Kemister

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

F13 Regression och problemlösning

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Laboration 2: Styrkefunktion samt Regression

Grundläggande matematisk statistik

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

10.1 Enkel linjär regression

Föreläsning 13: Multipel Regression

Instruktioner till arbetet med miniprojekt II

TAMS65 - Seminarium 4 Regressionsanalys

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematisk statistik, Föreläsning 5

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Föreläsning 12: Regression

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Regressions- och Tidsserieanalys - F1

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Tentamen för kursen. Linjära statistiska modeller. 13 januari

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

1 Förberedelseuppgifter

Föreläsning 7: Punktskattningar

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 7: Punktskattningar

Laboration 4 R-versionen

Regressions- och Tidsserieanalys - F1

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Enkel och multipel linjär regression

Laboration 5: Regressionsanalys

Medicinsk statistik II

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 7: Punktskattningar

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 15: Faktorförsök

Finansiell statistik. Multipel regression. 4 maj 2011

Tentamen för kursen. Linjära statistiska modeller. 22 februari

MVE051/MSG Föreläsning 14

Mer om konfidensintervall + repetition

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Föreläsning G60 Statistiska metoder

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Föreläsning 12, FMSF45 Hypotesprövning

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Metod och teori. Statistik för naturvetare Umeå universitet

Laboration 4: Lineär regression

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Laboration 4 Regressionsanalys

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Lycka till!

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik

Formel- och tabellsamling i matematisk statistik

AMatematiska institutionen avd matematisk statistik

Tentamentsskrivning: Matematisk statistik TMA Tentamentsskrivning i Matematisk statistik TMA321, 4.5 hp.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

F9 Konfidensintervall

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

STATISTISK ANALYS AV KOMPLEXA DATA

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

1 Förberedelseuppgifter

Föreläsning G60 Statistiska metoder

tentaplugg.nu av studenter för studenter

Lektionsanteckningar 11-12: Normalfördelningen

Matematisk statistik för B, K, N, BME och Kemister

Höftledsdysplasi hos dansk-svensk gårdshund

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Kovarians och kriging

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 1, 1-5-7 REGRESSION (repetition) Vi har mätningarna ( 1, 1 ),..., ( n, n ) och ansätter modellen Y i = α + β i + ε i, där ε i N(, σ) oberoende av varandra så observationerna är 1 Y i N(α + β i, σ) = N(µ i, σ) 1 1 Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi 6 1 3 5 6

EXEMPEL: 16 bussbolag angav =biljettprisökning (%) och = minskningen i resandeantal (%). 16 Linear Regression 1 1 1 resandeminskning 6 5 1 15 5 3 35 avgiftsokning Från analsen kan vi t.e. dra följande slutsatser: Från residualanals: den linjära modellen passar bra. Skattad modell är = α + β =.6 +.3. För varje procentandels ökning av biljettpriset förlorar vi.3% av kunderna. I α = (., 1.33), d.v.s. α kan vara (Rimligt!) I β = (.7,.36), d.v.s. β är signikant skilt från, m.a.o. avgiftsökningen påverkar resandefrekvens. Vad är förväntad kundförlust om vi höjer med 1%? Ett KONFIDENSINTERVALL FÖR LINJENS LÄGE fås genom I µ = (α + β ± t a/ (n )s 1 n + ( ) (i ). ) För =1% blir ett 95% intervall (3.1,.)% I bussbolag B tänker man höja biljettpriset med 1%. Ett intervall där kundförlusten för detta bolag med 95% säkerhet kommer att nnas fås med ett PREDIK- TIONSINTERVALL FÖR EN ENSTAKA OBSERVA- TION genom I Y ( ) = (α + β ± t p/ (n )s 1 + 1 n + ( ) (i ). ) För =1% blir ett 95% prediktionsintervall (1., 5.5)%

FÖRKLARINGSGRAD R Talar om hur mcket av variationen hos vi förklarat med modellen R = variation förklarad av modellen = total variation ni=1 ((α +β i ) ȳ) ni=1 ( i ȳ) R 1 Förklaringsgraden är en av de faktorer man tittar på när man ska välja mellan modeller. Använd den med viss försiktighet! Man kan ha en hög förklaringsgrad utan att modellen passar speciellt bra. Linear Regression 15 1 5 5 5 5 1 15 Residuals Normplot of Residuals 1 5.999.997.9.99.95.9.75.5.5 5.1.5.1..3.1 1 5 1 15 1 5 5 1 Här är R =.93 men vi har en tdlig struktur i residualerna! Andra faktorer som man tittar på i ett modellval är residualer, skattning av σ, kondensintervall för parametrarna.

EXEMPEL: Man noterade det genomsnittliga antalet frostdagar vid väderstationer i West Virginia. Hur beror antalet frostdagar på höjd över havet och på latituden? Antal frostdagar () Höjd (feet) ( 1 ) Latitud ( ) 73 375 39.7 9 156 3.63......... 1 673 37.67 Anpassa modellen i = β + β 1 1i + β i + ɛ i, där ɛ i antas oberoende och N(,σ). Matrisformulering och regress i Matlab ger skattad modell: = 399.66 +. 1 + 1. Parameter Skattning Intervall β -399.66 β 1. (.15,.) β 1. (3.5, 17.3) 1 6 1 39 3 37 Gör en residualanals för att närmare studera om modellen passar! 1 3

EXEMPEL: I en grupp om 3 kvinnor med förhöjd kolesterolhalt ck 16 använda medicin A (väl beprövad) och de övriga 16 den na medicin B. Det är allmänt bekant att ålder påverkar en medicins eekt så man måste ta hänsn till kvinnornas ålder då man bedömer hur stor skillnaden är mellan medicinerna. 3 Medicin A - *, Medicin B - o Kolesterolförändring 1-1 - 3 5 6 7 Ålder (a) Ansätt en multipel linjär regressionsmodell som både tar hänsn till ålder och eventuell skillnad mellan medicinernas eekt. (b) Hur stor är skillnaderna mellan medicinernas eekt? Modell: i = β + β 1 1i + β i + ε i i = 1,..., 3 där 1 är ålder, ε i N(, σ) och = { om medicin A används, 1 om medicin B används. Det innebär att för medicin A är regressionssambandet = β + β 1 1 medan för medicin B är regressionssambandet = (β + β ) + β 1 1. SE HANDLEDNING TILL UPPGIFT 6.3 FÖR MATLABKOM- MANDON!

EXEMPEL: I ett kemiskt sstem för att rena kol från föroreningar mäter man hur mängden uppslammade fasta partiklar påverkas av processens ph-värde. Man väljer mellan att använda två olika polmerer, polmer A och polmer B. Ju större mängd fasta partiklar som uppslammas, desto eektivare är sstemet. 5 Polmer A - *, Polmer B - o Mängd partiklar 35 3 5 15 6.5 7 7.5.5 9 9.5 ph Ansätt en multipel linjär regressionsmodell som både tar hänsn till skillnader i lutning och intercept: i = β + β 1 1i + β i + β 3 3i + ɛ i i = 1,..., 1, där slumpfelen ε i är oberoende och ε i N(, σ). Variabeln är ph-värdet och 1 = samt { 1 om polmer A används, om polmer B används. 3 = { 1 om polmer A används, om polmer B används. Det innebär att för polmer A är regressionssambandet nu = (β + β 1 ) + (β + β 3 ) medan för polmer B är regressionssambandet = β + β. Parametern β 3 talar alltså om hur stor är skillnaden är mellan de två lutningarna. SE HANDLEDNING TILL UPPGIFT 6.33 FÖR MATLABKOM- MANDON!

KORRELATIONSKOEFFICIENT, ρ, och KOVARIANS, C(X,Y): beskriver samband mellan två slumpvariabler, X och Y C(X, Y ) = c = 1 n 1 n i=1 ( i )( i ȳ) ρ = r = c s s = 1 r 1 ni=1 ( i )( i ȳ) ni=1 ( i ) ni=1 ( i ȳ) positiv samvariation mellan och r > negativ samvariation mellan och r < ingen samvariation mellan och r.5 r=.6 16 r=.76 15.5 15 7.5 1.5 7 1 13.5 6.5 1. 1.9.1..3 13 1.6 1.7 1. 1.9 1 r=.3 7 r=1 9.5 6 9 5.5 3 7.5 7 5.5 6 6.5 7 7.5 1 5.5 6 6.5 7 7.5 Matematiskt gäller att r =R men tolkningen av de två skiljer sig: Då R beräknas tänker vi oss att -värdena är a och vi använder den för att jämföra modeller Då r beräknas är -värden och -värden utbtbara och r är ett mått på (det linjära) sambandet mellan och.

STATISTISKT SAMBAND MEDFÖR INTE ORSAKS- SAMBAND! PLOTTA alltid data då korrelationskoecienten r beräknas!.3 r=. 6 r=.6.5..15.1.5.5 1 3 5 5 3 1 3 5 6 7 r=.59 7 6 5 3 3 5