Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 1, 1-5-7 REGRESSION (repetition) Vi har mätningarna ( 1, 1 ),..., ( n, n ) och ansätter modellen Y i = α + β i + ε i, där ε i N(, σ) oberoende av varandra så observationerna är 1 Y i N(α + β i, σ) = N(µ i, σ) 1 1 Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi 6 1 3 5 6
EXEMPEL: 16 bussbolag angav =biljettprisökning (%) och = minskningen i resandeantal (%). 16 Linear Regression 1 1 1 resandeminskning 6 5 1 15 5 3 35 avgiftsokning Från analsen kan vi t.e. dra följande slutsatser: Från residualanals: den linjära modellen passar bra. Skattad modell är = α + β =.6 +.3. För varje procentandels ökning av biljettpriset förlorar vi.3% av kunderna. I α = (., 1.33), d.v.s. α kan vara (Rimligt!) I β = (.7,.36), d.v.s. β är signikant skilt från, m.a.o. avgiftsökningen påverkar resandefrekvens. Vad är förväntad kundförlust om vi höjer med 1%? Ett KONFIDENSINTERVALL FÖR LINJENS LÄGE fås genom I µ = (α + β ± t a/ (n )s 1 n + ( ) (i ). ) För =1% blir ett 95% intervall (3.1,.)% I bussbolag B tänker man höja biljettpriset med 1%. Ett intervall där kundförlusten för detta bolag med 95% säkerhet kommer att nnas fås med ett PREDIK- TIONSINTERVALL FÖR EN ENSTAKA OBSERVA- TION genom I Y ( ) = (α + β ± t p/ (n )s 1 + 1 n + ( ) (i ). ) För =1% blir ett 95% prediktionsintervall (1., 5.5)%
FÖRKLARINGSGRAD R Talar om hur mcket av variationen hos vi förklarat med modellen R = variation förklarad av modellen = total variation ni=1 ((α +β i ) ȳ) ni=1 ( i ȳ) R 1 Förklaringsgraden är en av de faktorer man tittar på när man ska välja mellan modeller. Använd den med viss försiktighet! Man kan ha en hög förklaringsgrad utan att modellen passar speciellt bra. Linear Regression 15 1 5 5 5 5 1 15 Residuals Normplot of Residuals 1 5.999.997.9.99.95.9.75.5.5 5.1.5.1..3.1 1 5 1 15 1 5 5 1 Här är R =.93 men vi har en tdlig struktur i residualerna! Andra faktorer som man tittar på i ett modellval är residualer, skattning av σ, kondensintervall för parametrarna.
EXEMPEL: Man noterade det genomsnittliga antalet frostdagar vid väderstationer i West Virginia. Hur beror antalet frostdagar på höjd över havet och på latituden? Antal frostdagar () Höjd (feet) ( 1 ) Latitud ( ) 73 375 39.7 9 156 3.63......... 1 673 37.67 Anpassa modellen i = β + β 1 1i + β i + ɛ i, där ɛ i antas oberoende och N(,σ). Matrisformulering och regress i Matlab ger skattad modell: = 399.66 +. 1 + 1. Parameter Skattning Intervall β -399.66 β 1. (.15,.) β 1. (3.5, 17.3) 1 6 1 39 3 37 Gör en residualanals för att närmare studera om modellen passar! 1 3
EXEMPEL: I en grupp om 3 kvinnor med förhöjd kolesterolhalt ck 16 använda medicin A (väl beprövad) och de övriga 16 den na medicin B. Det är allmänt bekant att ålder påverkar en medicins eekt så man måste ta hänsn till kvinnornas ålder då man bedömer hur stor skillnaden är mellan medicinerna. 3 Medicin A - *, Medicin B - o Kolesterolförändring 1-1 - 3 5 6 7 Ålder (a) Ansätt en multipel linjär regressionsmodell som både tar hänsn till ålder och eventuell skillnad mellan medicinernas eekt. (b) Hur stor är skillnaderna mellan medicinernas eekt? Modell: i = β + β 1 1i + β i + ε i i = 1,..., 3 där 1 är ålder, ε i N(, σ) och = { om medicin A används, 1 om medicin B används. Det innebär att för medicin A är regressionssambandet = β + β 1 1 medan för medicin B är regressionssambandet = (β + β ) + β 1 1. SE HANDLEDNING TILL UPPGIFT 6.3 FÖR MATLABKOM- MANDON!
EXEMPEL: I ett kemiskt sstem för att rena kol från föroreningar mäter man hur mängden uppslammade fasta partiklar påverkas av processens ph-värde. Man väljer mellan att använda två olika polmerer, polmer A och polmer B. Ju större mängd fasta partiklar som uppslammas, desto eektivare är sstemet. 5 Polmer A - *, Polmer B - o Mängd partiklar 35 3 5 15 6.5 7 7.5.5 9 9.5 ph Ansätt en multipel linjär regressionsmodell som både tar hänsn till skillnader i lutning och intercept: i = β + β 1 1i + β i + β 3 3i + ɛ i i = 1,..., 1, där slumpfelen ε i är oberoende och ε i N(, σ). Variabeln är ph-värdet och 1 = samt { 1 om polmer A används, om polmer B används. 3 = { 1 om polmer A används, om polmer B används. Det innebär att för polmer A är regressionssambandet nu = (β + β 1 ) + (β + β 3 ) medan för polmer B är regressionssambandet = β + β. Parametern β 3 talar alltså om hur stor är skillnaden är mellan de två lutningarna. SE HANDLEDNING TILL UPPGIFT 6.33 FÖR MATLABKOM- MANDON!
KORRELATIONSKOEFFICIENT, ρ, och KOVARIANS, C(X,Y): beskriver samband mellan två slumpvariabler, X och Y C(X, Y ) = c = 1 n 1 n i=1 ( i )( i ȳ) ρ = r = c s s = 1 r 1 ni=1 ( i )( i ȳ) ni=1 ( i ) ni=1 ( i ȳ) positiv samvariation mellan och r > negativ samvariation mellan och r < ingen samvariation mellan och r.5 r=.6 16 r=.76 15.5 15 7.5 1.5 7 1 13.5 6.5 1. 1.9.1..3 13 1.6 1.7 1. 1.9 1 r=.3 7 r=1 9.5 6 9 5.5 3 7.5 7 5.5 6 6.5 7 7.5 1 5.5 6 6.5 7 7.5 Matematiskt gäller att r =R men tolkningen av de två skiljer sig: Då R beräknas tänker vi oss att -värdena är a och vi använder den för att jämföra modeller Då r beräknas är -värden och -värden utbtbara och r är ett mått på (det linjära) sambandet mellan och.
STATISTISKT SAMBAND MEDFÖR INTE ORSAKS- SAMBAND! PLOTTA alltid data då korrelationskoecienten r beräknas!.3 r=. 6 r=.6.5..15.1.5.5 1 3 5 5 3 1 3 5 6 7 r=.59 7 6 5 3 3 5