Hast Något om enkel lnjär regressonsanalys 1. Inlednng V har tdgare pratat om hur man anpassar en rät lnje tll observerade talpar med hjälp av den s.k. mnsta kvadratmetoden. V har också berört hur man kan tolka regressonslnjen och hur den kan användas för t.ex. predkton. V skall nu något vdga abstraktonsnvån och ansätta en modell för våra observatoner, vlket ger möjlghet att t.ex. ange osäkerheten lnjens lutnng. Innan v går n på modelldskussonen, skall v dock kort repetera hur anpassnngen gck tll och resultatet av den. V hänger upp dskussonen krng ett enkelt exempel. Ex. På en 5-gata har man under ett dygn lagt ut en s.k. trafkanalysator, som bl.a. regstrerar passerande fordon och deras hastgheter. Data har sammanställts på tmnvå och v har tllgång tll 4 observatoner på flödet (x) och medelhastgheten (y). Det är rmlgt att tro att det fnns ett beroende mellan hastgheten och flödet, så att man vd högre flöden har lägre medelhastgheter. Att denna förmodan stämmer någorlunda ser v nedanstående fgur. 6 5 4 1 Flode 3 I fguren har v också lagt n en rät lnje som någorlunda väl bör spegla den nedåtgående tendensen medelhastghet för ökande flöden.. Anpassad regressonslnje V gör här en kortfattad repetton av den metodk som används för att htta den lnje som anpassar sg "bäst" tll observerade data. V utgår från att v har en responsvarabel y som skall förklaras med en varabel x. För att beskrva sambandet använder v en lnjär funkton y a b x. Tll grund för analysen förutsätter v att v har tllgång tll n st. observerade talpar x, y. Exemplet med flöden och hastgheter föregående avsntt kan tjäna som en god llustraton. Det är naturlgt att betrakta medelhastgheten som responsvarabel, eftersom hastgheterna rmlgen måste anpassas tll trafkstuatonen och nte mnst tll trafkflödet. Som v ser fguren fnns ett negatvt samband som mycket väl skulle kunna beskrvas med en rät lnje, och v har därför behov av någon metodk som på ett bra sätt anpassar en funkton tll observerade data. Mnsta kvadratmetoden är nog den metod som oftast brukar användas. 1
Tankegången bakom MK-metoden kan v precsera genom att ttta på exemplet med hastghetsdata. Förutom punkterna fnns en lnje nlagd fguren och den anpassar sg bra tll datamateralet om avstånden mellan punkterna och lnjen någon menng är små. Enklast är att studera de lodräta avstånden (dvs avstånden y-led), som fnns llustrerade fguren. Man vll som sagt ha alla dessa avstånd korta någon menng, och MK-metoden nnebär att man mnmerar summan av de kvadrerade avstånden. Om man genomför mnmerngen erhålls följande värden på lnjens konstanter sxy x x y y x y n x y b s x x x n x x a y b x Det mnmala värdet på summan av de kvadrerade avstånden är ju ett mått på observatonernas varaton krng regressonslnjen, och v har defnerat ( y a b x ) resdualvaransen som se n Ex. V fortsätter att llustrera med hastghetsexemplet, och vsar då en Mntabkörnng på de 4 observatonerna: Regresson Analyss The regresson equaton s Hast = 6, -,653 Flode Predctor Coef StDev T P Constant 6, 1,6 47,81, Flode -,6588,7175-9,1, S = 3,43 R-Sq = 79,% R-Sq(adj) = 78,1% Analyss of Varance Source DF SS MS F P Regresson 1 766,76 766,76 8,8, Resdual Error 3,74 9,6 Total 3 97,5 Det är mycket utskrften som v skall studera senare, men v ser att regressonslnjen har a 6. och b. 653. Det kan vara ntressant att försöka tolka koeffcenterna. Lutnngens värde nnebär att om flödet ökar med 1 fordon så kan man vänta sg en mnsknng av hastgheten med 6.5 km/tm. Interceptet är emellertd vansklgare att tolka. Den rent matematska tolknngen är, att det är den hastghet man kan förvänta sg vd flödet. Samtdgt har v nte observerat lägre flöden än 19 fordon och det är på sådana data anpassnngen har gjorts. Man bör därför undvka att försöka lägga någon djupare tolknng av nterceptets värde.
3. Modell vd enkel lnjär regresson I föregående avsntt studerade v sambandet mellan en beroende varabel y och en förklarngsvarabel x genom att beräkna en regressonslnje. V kan med hjälp av denna lnje beskrva sambandet på ett enkelt sätt, men för att fördjupa analysen måste v formulera en modell. V vll gärna kunna svara på frågor av typen: Hur bra är det lnjära sambandet? Är lnjens lutnng sgnfkant? Vlka värden på y är trolga vd ett gvet värde på x? Syftet med regresson är ju att studera hur en responsvarabel påverkas av en förklarngsvarabel. Detta nnebär att det är en modell för responsvarabeln som skall konstrueras, medan förklarngsvarabeln har de värden den har datamateralet, dvs de skall betraktas som fxa, numerska storheter. Ofta är förklarngsvarabeln en slumpvarabel (som t.ex. flödet hastghetsexemplet), men detta är nte ntressant att modellera, utan man fxerar bara de värden man har råkat få och studerar sambandet med responsvarabeln. I andra, expermentella stuatoner kan man styra förklarngsvarabelns värden (självklart är de då fxa), och man får då utmärkta möjlgheter att studera hur responsvarabeln påverkas. V skall alltså bygga en enkel modell för responsvarabeln, som nnehåller den lnjära strukturen mot förklarngsvarabeln. Kan v dessutom anta att responsvarabeln är normalfördelad, så bör det fnnas goda möjlgheter att dra statstskt korrekta slutsatser om modellen. V antar att de n observatonerna x, y är oberoende och att y är en observaton på slumpvarabeln Y, som antas vara normalfördelad med väntevärde x och med varans. Här betraktas x som en fx kvanttet, som dock är olka för olka observatoner, och därför har normalfördelnngen ett cke konstant väntevärde. Däremot antar v att varansen normalfördelnngen är densamma för varje observaton. Ltet mera kortfattat kan modellen skrvas Y x, där olka är oberoende och normalfördelade med väntevärde och standardavvkelse. Slumpvarablerna brukar kallas för resdualer, och är alltså responsvarabelns avvkelse från väntevärdet. Man kan också säga att resdualerna är observatonernas avvkelse från den teoretska regressonslnjen. 4. Skattnngar, konfdensntervall och test för regressonskoeffcenter De värden på a och b som v fck med hjälp av MK-metoden, kan nu ses som skattnngar av motsvarande parametrar och den teoretska regressonslnjen. Skattnngarna är lnjära uttryck y-värdena och kan därför relatvt lätt hanteras teoretskt. Man kan vsa att skattnngarna är normalfördelade och det är relatvt lätt att ta fram skattnngarnas varanser. T.ex. kan man vsa att b har förväntade värdet och 1 varansen c 1, där konstanten är c1. x x 3
Från detta resultat kan v konstruera ett konfdensntervall för : b z c 1 Vanlgen är ju nte känd utan måste ersättas med en lämplg skattnng. Den naturlga skattnngen är nu resdualsprdnngen s e. Approxmatvt duger ovanstående konfdensntervall om n är hygglgt stort, men för mndre stckprovsstorlekar bör z- värdet ersättas med ett t-värde och då med n - frhetsgrader. En vanlg hypotes att testa är, att det nte fnns någon regresson, dvs att =. Den b naturlga testvarabeln är då t, som under nollhypotesen är t-fördelad med se c 1 n - frhetsgrader (eller approxmatvt normalfördelad). Hypotesen förkastas om det observerade t-värdet är alltför stort eller ltet med hänsyn tll den önskade sgnfkansnvån. Självfallet kan v också testa eller blda konfdensntervall för nterceptet med motsvarande metodk som ovan. Vanlgen är man dock mndre ntresserad av att analysera nterceptet en regressonslnje. Ex. V går vdare hastghetsexemplet genom att studera Mntabutskrften ovan. Regressonskoeffcenten, dvs koeffcenten för flödet, har skattats tll b. 6588, och standardavvkelsen för skattnngen tll s c. e 1 7175. Detta ger b t 9.1, vlket förstås är sgnfkant på alla ntressanta nvåer, som ju se c1 också framgår av att p-värdet är.. Något konfdensntervall skrvs nte ut, utan det får man beräkna själv. I tabell fnner v t =.7 för sgnfkansnvån 5% och där frhetsgraderna är. Ett 95% konfdensntervall för blr då.6588.7.7175.653.149 Intervallet nnehåller nte värdet, varför v på 5% nvå kan hävda att koeffcenten är negatv, dvs vd ökat flöde mnskar medelhastgheten. Ltet mera explct mnskar hastgheten med mellan 5. och 8. km/tm, då flödet ökar med 1 fordon. 5. Något om predkton Httlls har v främst ntresserat oss för metodker att mäta, sgnfkansbedöma och tolka samband mellan en responsvarabel och en förklarngsvarabel. Detta kan vara huvudsyftet med en regressonsanalys, men ofta vll man också använda modellen för att göra prognoser. Det man kanske först tänker på då man hör ordet prognos, är att man vll förutsäga en responsvarabels värde framtden. Detta kan göras med regressonsmetodk om tden ngår som förklarngsvarabel. Men även andra sammanhang är det ntressant med prognoser. Som llustraton kan v åter ta hastghetsexemplet. Som exempel antar v att tmflödet fordon är av särsklt ntresse för en trafkplanerare och att hon då vll ha en rmlg 4
hastghetsnvå. Med hjälp av regressonsmodellen kan hon då göra en prognos och också bedöma dess osäkerhet. I detta fall är det uppenbart att man är ntresserad av att predktera den förväntade hastghetsnvån vd flödet, dvs man vll göra vad som kan kallas en genomsnttspredkton. Som ndvd trafken är man nog mera ntresserad av hastghetsnvån vd just det tllfälle man befnner sg på vägen. Om flödet då är vll man ha en prognos av hastgheten (som förstås blr densamma som ovan), men detta fall är osäkerheten prognosen rmlgen mycket större, eftersom prognosen avser ett värde vd ett ensklt tllfälle (predkton av enskld observaton). V vll alltså för värdet x på förklarngsvarabeln förutsäga värdet på responsvarabeln. Den rmlga prognosen är förstås x, men eftersom parametrarna allmänhet måste skattas, blr prognosen ˆ a b x. Det är som ovan möjlgt att ta fram osäkerheten för detta uttryck, dvs osäkerheten för den skattade regressonslnjen x x. V går nte n på detaljer utan konstaterar bara att ett konfdensntervall för (dvs för genomsnttsprognosen) blr av typen a b x t s e c där v här nte specfcerar konstanten c, utan hänvsar tll annan ltteratur (och datorn räknar ju ut hela osäkerheten för oss). Om v vll ge osäkerheten för prognosen hos ett ensklt y-värde, dvs ett predktonsntervall för en ndvd, så måste v ta hänsyn tll att ndvden har sn egen standardavvkelse. Predktonsntervallet blr därför a b x t se 1 c och alltså väsentlgt bredare än konfdensntervallet ovan. Om man har många observatoner blr man ju allt säkrare på lnjen, dvs c närmar sg. I ett sådant läge har man ändå ett brett predktonsntervall, nämlgen a b x t s e Detta är den väsentlga osäkerheten hos en predkton, och känner man nte lnjens osäkerhet kan man approxmera predktonsntervallet på detta sätt (med en vss underskattnng av bredden). Ex. V betraktar åter hastghetsexemplet, men tar nu också fram en prognos av medelhastgheten då flödet är fordon per tmme: Regresson Analyss The regresson equaton s Hast = 6, -,653 Flode Predctor Coef StDev T P Constant 6, 1,6 47,81, Flode -,6588,7175-9,1, S = 3,43 R-Sq = 79,% R-Sq(adj) = 78,1% Analyss of Varance 5
Source DF SS MS F P Regresson 1 766,76 766,76 8,8, Resdual Error 3,74 9,6 Total 3 97,5 Predcted Values Ft StDev Ft 99,% CI 99,% PI 47,16,78 ( 45,167; 49,158) ( 38,356; 55,969) V känner gen det mesta från den tdgare utskrften, men här har v utnyttjat "optonen" att också få den önskade prognosen. Hastgheten vd flödet skattas tll 47. och standardavvkelsen för denna skattnng är s c. 71. Utfrån detta är konfdens- och predktonsntervallen konstruerade med detta fall 99% säkerhet. Lägg märke tll den stora skllnaden ntervallens längder. Det är alltså högst väsentlgt att ha klart för sg, om man vll göra en genomsntts- eller ndvdprognos, eftersom man första fallet tror på hastgheter ntervallet 45 tll 49 km/tm., medan det andra fallet handlar om hastgheter mellan 38 och 56 km/tm. 6. Övnngsuppgfter 6.1 I en trafksäkerhetsstude noterade man för 4 städer USA dels procentuella andelen körkortsnnehavare under 1 år (x) och dels antalet dödsolyckor per 1 körkortsnnehavare och år (y). Följande data regstrerades: Data Dsplay Row korkort olyckor 1 8,885 8,368 3 8,645 4 8,19 5 8,8 6 8 1,67 7 9 1,8 8 9 1,433 9 9,338 1 9,835 11 9,96 1 1,39 13 1 1,14 14 1,493 15 1 1,96 16 11,91 17 11 1,849 18 11 1,94 19 1,78 1 1,65 1 1 1,45 1,46 3 1 1,913 4 13,96 5 13 1,14 6 13,634 7 14,855 8 14,35 9 14,89 3 14 1,443 31 14 1,643 3 15,63 33 15 3,4 34 15,814 35 16,81 36 16 3,63 6
37 16,943 38 17,67 39 17 4,1 4 17 3,56 41 18 3,83 4 18 3,614 V utgår från den vanlga modellen vd enkel lnjär regresson och erhåller följande utskrft från Mntab: Regresson Analyss The regresson equaton s olyckor = - 1,6 +,87 korkort Predctor Coef StDev T P Constant -1,5974,3717-4,3, korkort,875,939 9,77, S =,5894 R-Sq = 7,5% R-Sq(adj) = 69,7% Analyss of Varance Source DF SS MS F P Regresson 1 33,134 33,134 95,4, Resdual Error 4 13,893,347 Total 41 47,8 a) Förefaller andelen körkortsnnehavare under 1 år att vara av betydelse för antalet dödsolyckor? Besvara frågan med hjälp av ett lämplgt 99.9% konfdensntervall eller test på nvån.1%. b) I en "pensonärsstad" fnns 5% körkortsnnehavare under 1 år. Kan man använda modellen ovan för att predktera antalet dödsolyckor denna stad? 6. För 48 utvecklngsländer vll man studera sambandet mellan den procentuella tllväxten tllverknngsndustrn (y) och procentuella tllväxten exporten. För analysen fnns följande data tllgänglga Row tllv export 1 1,3 -,7 1, -6, 3,4-3,6 4 4,9 13,6 5 9,8 7,3 6 -,1,6 7, -9,5 8 5,8 4,4 9 5, 9, 1-1,1-6,3 11, 1, 1 1,1-7, 13-1, -5,5 14 4,1 8,7 15-5, -, 16,1 5,6 17 7,7, 18 9,3 6, 19-1,7-1,7 5,8 -, 7
1 3,9 -,5 5,6 6,4 3 6,9 11,6 4-4,6-9,8 5 -,6-6,6 6 1,1 3,8 7-1,6 -,5 8,9 5,4 9,5 1,6 3, 4,7 31 8, 19,9 3 6,5 -,6 33, 8,4 34 7,8 1,4 35,5 4,9 36 -, 7,9 37 6,1-19, 38 4,6-3,5 39-3,4-7,9 4 -,6, 41 8, 3,8 4 4,1 1,3 43 1,6 11,7 44 4,1 -,9 45,6 -,1 46, -3,1 47, 6,9 48 -,6 3,4 En regresson görs Mntab där man försöker förklara tllväxten tllverknngsndustrn med tllväxten exporten, och man erhåller då följande (reducerade) utskrft: The regresson equaton s tllv =,7 +,43 export Predctor Coef StDev T P Constant,731,566 3,94, export,484,6319 3,84, S = 3,57 R-Sq = 4,3% R-Sq(adj) =,7% a) Beräkna ett 99% konfdensntervall för regressonskoeffcenten och tolka ntervallets värde b) Vlken är regressonens förklarngsgrad och är den sgnfkant? c) Predktera tllverknngsndustrns tllväxt ett land som har exporttllväxten 1 procent och beräkna ett predktonsntervall som lgger någorlunda nära 99% säkerhet. Svar: 1. a) p-värdet för regressonskoeffcenten mndre än.1, varför den är sgnfkant skld från. b) Nej, gör nte prognoser långt utanför det datamateral som använts.. a) t-värdet för 46 frhetsgrader är.69, och ntervallet är då.43. 17. När exporten för ett land är 1 procent enhet högre, så bör tllväxten tllverknngsndustrn öka med mellan.7 och.41 procentenheter. b) Förklarngsgraden är (bara) 4.3%, men ändå sgnfkant (eftersom regressonen är sgnfkant enlgt ovan. c) Prognosen är.7.431. 5 med predktonsntervallet (approxmatvt).5.693.57.5 9. 5, dvs det kan vara såväl en postv som negatv tllväxt. 8