ENKEL LINJÄR REGRESSION

Relevanta dokument
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

Flode. I figuren har vi också lagt in en rät linje som någorlunda väl bör spegla den nedåtgående tendensen i medelhastighet för ökande flöden.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F13. Förra gången (F12) Konfidensintervall och hypotesprövning Chi-tvåtest. Stratifierat urval

a) B är oberoende av A. (1p) b) P (A B) = 1 2. (1p) c) P (A B) = 1 och P (A B) = 1 6. (1p) Lösningar: = P (A) P (A B) = 1

F15 ENKEL LINJÄR REGRESSION (NCT )

Tentamen i Dataanalys och statistik för I den 5 jan 2016

Centrala Gränsvärdessatsen:

Test av anpassning, homogenitet och oberoende med χ 2 - metod

Vinst (k) Sannolikhet ( )

Slumpvariabler (Stokastiska variabler)

När vi räknade ut regressionsekvationen sa vi att denna beskriver förhållandet mellan flera variabler. Man försöker hitta det bästa möjliga sättet

FORMELSAMLING HT-15 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02. Sannolikhetsteori. Beskrivning av data

Variansanalys ANOVA. Idé. Experiment med flera populationer. Beteckningar. Beteckningar. ANOVA - ANalysis

Del A Begrepp och grundläggande förståelse.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Mätfelsbehandling. Lars Engström

Beräkna standardavvikelser för efterfrågevariationer

Experimentella metoder 2014, Räkneövning 5

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

FK2002,FK2004. Föreläsning 5

10.1 Enkel linjär regression

Multipel Regressionsmodellen

FÖRDJUPNINGS-PM. Nr Kommunalt finansierad sysselsättning och arbetade timmar i privat sektor. Av Jenny von Greiff

FÖRDJUPNINGS-PM. Nr Kommunalt finansierad sysselsättning och arbetade timmar i privat sektor. Av Jenny von Greiff

Föreläsning G70 Statistik A

Dödlighetsundersökningar på KPA:s

Modellering av antal resor och destinationsval

Primär- och sekundärdata. Undersökningsmetodik. Olika slag av undersökningar. Beskrivande forts. Beskrivande forts

Regressions- och Tidsserieanalys - F7

Tentamen i MATEMATISK STATISTIK Datum: 8 Juni 07

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

1. Anpassningstest. Chi-Square test. Multinomial experiment. Multinomial experiment. Vad gör g r ett anpassningstest?

Matrismodellen vs Two-part regressionsmodeller -effekter på Region Skånes resursfördelning-

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Metod och teori. Statistik för naturvetare Umeå universitet

Stokastisk reservsättning med Tweedie-modeller och bootstrap-simulering

Stelkroppsdynamik i tre dimensioner Ulf Torkelsson. 1 Tröghetsmoment, rörelsemängdsmoment och kinetisk energi

Regressions- och Tidsserieanalys - F4

F11. Kvantitativa prognostekniker

Mätfelsbehandling. Medelvärde och standardavvikelse

Komplettering av felfortplantningsformeln

Fördelning av kvarlåtenskap vid arvsskifte

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

Komplettering: 9 poäng på tentamen ger rätt till komplettering (betyg Fx).

Arbetslivsinriktad rehabilitering för sjukskrivna arbetslösa funkar det?

Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet Stockholm Sverige

Beräkna standardavvikelser för efterfrågevariationer

Innehåll: har missbrukat jämfört med om man inte har. missbrukat. Risk 1 Odds Risk. Odds 1 Risk. Odds

Utbildningsavkastning i Sverige

Skrivning i ekonometri torsdagen den 8 februari 2007

Introduktionsersättning eller socialbidraghar ersättningsregim betydelse för integrationen av flyktingar? 1

Examinationsuppgifter del 2

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Stresstest för försäkrings- och driftskostnadsrisker inom skadeförsäkring

TENTAMEN I MATEMATISK STATISTIK

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Sammanfattning. Härledning av LM - kurvan. Efterfrågan, Z. Produktion, Y. M s. M d inkomst = Y >Y. M d inkomst = Y

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Förklaring:

Stresstest för försäkrings- och driftskostnadsrisker inom skadeförsäkring

2B1115 Ingenjörsmetodik för IT och ME, HT 2004 Omtentamen Måndagen den 23:e aug, 2005, kl. 9:00-14:00

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Förstärkare Ingångsresistans Utgångsresistans Spänningsförstärkare, v v Transadmittansförstärkare, i v Transimpedansförstärkare, v i

Regressions- och Tidsserieanalys - F3

saknar reella lösningar. Om vi försöker formellt lösa ekvationen x 1 skriver vi x 1

Undersökning av vissa försäkringsantaganden i efterlevandepension för anställda i kommuner och landstinget och dess påverkan på prissättningen

Effekter av kön, ålder och region på sjukpenningen i Sverige

Utbildningsdepartementet Stockholm 1 (6) Dnr 2013:5253

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Exempel 1 på multipelregression

KVALITETSDEKLARATION

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Ringanalys VTI notat VTI notat Analys av bindemedel

Att identifiera systemviktiga banker i Sverige vad kan kvantitativa indikatorer visa oss?

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Lösningsförslag till tentamen i 732G71 Statistik B,

Billigaste väg: Matematisk modell i vektor/matrisform. Billigaste väg: Matematisk modell i vektor/matrisform

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

6.2 Transitionselement

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Gymnasial yrkesutbildning 2015

Tentamen i Tillämpad matematisk statistik för MI3 och EPI2 den 15 december 2010

Beställningsintervall i periodbeställningssystem

Partikeldynamik. Fjädervåg. Balansvåg. Dynamik är läran om rörelsers orsak.

7.5 Experiment with a single factor having more than two levels

Skrivning i ekonometri lördagen den 29 mars 2008

Föreläsning G60 Statistiska metoder

Klarar hedgefonder att skapa positiv avkastning oavsett börsutveckling? En empirisk studie av ett urval svenska hedgefonder

Tentamen (TEN2) Maskininlärning (ML) 5hp 21IS1C Systemarkitekturutbildningen. Tentamenskod: Inga hjälpmedel är tillåtna

2 Jämvikt. snitt. R f. R n. Yttre krafter. Inre krafter. F =mg. F =mg

Transkript:

Fnansell statstk, vt 0 ENKEL LINJÄR REGRESSION Ordlsta tll NCT Scatter plot Dependent/ndependent Least squares Sum of squares Resdual Ft Predct Random error Analyss of varance Sprdnngsdagram Beroende/oberoende Beroende/förklarande Respons/predktor Mnsta kvadrat Kvadratsumma Resdual Anpassa, anpassnng Predcera Slumpfel Varansanalys

Beskrvande mått på samvaraton mellan två observerade kvanttatva varabler Data av följande typ: Obs. nr. y y y M M M n n y n Kan åskådlggöras sprdnngsdagram: Sprdnngsdagram 60 50 y 40 30 0 0 7 8 9 0 3 4 5 6 Korrelaton:

3 n n n y y y y y r r ) ( ) ( ) )( ( y y s s s där s y är stckprovets kovarans: n y y y n s ) )( ( Korrelatonskoeffcenten r är ett mått på graden av lnjär samvaraton hos data. - r Vad betyder r, r > 0, r 0, r < 0, r -? Se sd. 9 kursboken. Varablerna behandlas symmetrskt: r XY r YX. Regresson:

y beroende varabel ( response varable ) förklarande varabel ( predctor ) Hur mycket av varatonen hos y-värdena kan förklaras av? Fnns det någon lnjär samvaraton? Beräkna en rät lnje, y b 0 + b, som beskrver det lnjära sambandet. Hur bra är anpassnngen? OBS Med regressonsanalys studerar v hur y på ett ganska ytlgt sätt förklaras av. Inga slutsatser om orsakssamband, kausaltet. OBS I regressonsanalys studerar v samband ur perspektvet: y. V talar om en beroende och en förklarande varabel. I korrelatonsanalys däremot studerar v samvaraton mellan två jämbördga varabler, utan att se den ena som beroende och den andra som förklarande: y och r XY r YX. Anpassnng av rät lnje tll stckprovsdata 4

5 Anpassa en rät lnje, y b 0 + b, tll stckprovsdata med mnsta-kvadratmetoden. Summan av alla kvadrerade lodräta avstånd tll lnjen skall mnmeras. Matematsk lösnng: Beräkna b 0 och b som n n y y b ) ( ) )( ( n n y y ) ( ) )( ( y y y s s r s s b y b 0 Hur tolkas b 0 och b?

E.: Total oljeförbruknng ett stckprov av hus under 0 månader. Hur förklaras oljeförbruknngen av yttertemperaturen? medeltemperatur under månaden ( C) y oljeförbruknng under månaden (lter) Månad y y jun 5, 55 340,5 8,0 jul 4,4 75 080,0 07,36 aug 5, 35 05,0 3,04 sep 0, 5 95,0 04,04 okt 8,3 75 8,5 68,89 nov 3,8 385 463,0 4,44 dec 0,5 470 35,0 0,5 jan -,4 55-735,0,96 feb -4, 65-56,5 6,8 mar, 450 540,0,44 Summa 63, 330 8990,5 874,4 700 Oljeförbruknng och yttertemperatur Oljeförbruknng 600 500 400 300 00 00 0-5 0 5 0 Yttertemperatur 5 6

Mnsta-kvadratmetoden ger: b 63, 330 8990,5 0 63, 874,4 0 5,3 b 330 0 63, ( 5,3) 0 0 49 Den anpassade regressonslnjens ekvaton blr y 49 5,3 y 700 600 500 400 300 00 00 0 Sprdnngsdagram med regr.-lnje y 49-5,3-5 0 5 0 5 7

Resdualer, kvadratsummor, ANOVA-tablå För varje gvet defneras det anpassade, predcerade y-värdet som yˆ b 0 + b Det är det y-värde som lgger på den anpassade lnjen. Det anpassade värdet, yˆ, är oftast det observerade värdet, y. Skllnaden e y - yˆ mellan observerat och anpassat y-värde kallas för resdual. E.: Forts. på föreg.eempel. y ey- 5, 55 09,97 45,03 4,4 75 7,68 5,68 5, 35 07,44 7,56 0, 5 33,94-8,94 8,3 75 8,0-7,0 3,8 385 395,86-0,86 0,5 470 479,35-9,35 -,4 55 57,4 -,4-4, 65 595,73 9,7, 450 46,64 -,64 8

Den totala varatonen hos y-varabeln (krng stt medelvärde) kan delas upp två komponenter: n ( y y) 443 SST n ( yˆ y) 443 SSR + n e { SSE där SST totala kvadratsumman mått på total varaton hos y-värdena y-värdenas varaton krng y SSR regressonskvadratsumman mått på förklarad varaton den del av y-värdenas varaton som förklaras av den anpassade lnjen SSE resdualkvadratsumman (E error) mått på oförklarad varaton mått på y-värdenas varaton krng lnjen den del av y-värdenas varaton som nte förklaras av den anpassade lnjen 9

För att mäta hur pass bra den anpassade lnjen är på att beskrva gvna data används determnatonskoeffcenten, R, som defneras: R SSR SST SSE SST är ett mått på förklarngsgraden : det anger hur stor del av y-varatonen som förklaras av den anpassade lnjen. (Anges bland procent.) R Av defntonen följer att 0 R. R betyder perfekt lnjär samvaraton. Om alla y -värdena från början lgger precs på en rät lnje, så blr alla e 0. Alla e 0 SSE 0 R. R 0 betyder fullständg avsaknad av lnjär samvaraton. Om det nte fnns någon som helst lnjär samvaraton mellan och y, så blr b 0. b 0 Alla yˆ y SSR 0 R 0. Vd enkel lnjär regresson gäller att R r. 0

Vd regressonsanalys redovsas ofta en s.k. ANOVA-tablå (ANOVA Analyss of Varance): Varatonsorsak Kvadratsumma (SS) Frhetsgrader (df) Medelkvadratsumma (MS) Regresson SSR MSR SSR/ Resdual SSE n- MSE SSE/(n-) Totalt SST n- MSE s e resdualvaransen. E.: Med data från oljeförbruknngseemplet ger Mntab följande (här något stympade) ANOVAtablå. Analyss of Varance Source DF SS MS Regresson 30866 30866 Resdual Error 8 6894 86 Total 9 309760 R SSR SST 30 866 309 760 0,978 97,8%

Enkel lnjär regressonsmodell Httlls: Beskrvnng av gven datamängd (, y ) (,,, n) genom anpassnng av en rät lnje. Nu: Statstsk nferens. Våra data tänks ha genererats enlgt en regressonsmodell (en tänkt slumpmekansm, som producerar data med vssa egenskaper). På grundval av våra observerade data vll v försöka dra slutsatser om den modell som har genererat data. V tänker oss att varje observerat y-värde är en observaton på en stokastsk varabel Y, sådan att: Y β 0 +β + ε där ε är en slumpmässg felterm. V tänker oss med andra ord att: Y en lnjär funkton av (β 0 +β ) + ett slumpfel (ε)

Våra observerade y-värden y, y,, y n ses alltså som observerade värden på stokastska varabler Y, Y,, Y n sådana att Y β 0 + β + ε (,,, n) I standardmodellen för enkel lnjär regresson görs följande modellantaganden:. Värdena på,,, n betraktas som fa.. För varje gvet (,,, n) gäller att Y β 0 + β + ε 3. ε, ε,, ε n är oberoende normalfördelade stokastska varabler med väntevärde 0 och med samma standardavvkelse σ ε. Dvs. ε, ε,, ε n är oberoende och N(0; σ ). Vad nnebär dessa modellantaganden? ε 3

Skattnng av β 0 och β V vll skatta de okända parametrarna β 0 och β regressonsmodellen. (I praktken är det ofta β som är den mest ntressanta parametern.) Gör så här: För gvna data, anpassa en rät lnje y b 0 + b med mnsta-kvadratmetoden, på det sätt som nyss beskrvts. De b 0 och b som v då får är våra punktskattnngar av modellparametrarna β 0 respektve β. Alltså: ˆ b β 0 0 och β ˆ b Det går att vsa (under förutsättnng att modellantagandena gäller) att: E(b 0 ) β 0 och E(b ) β De båda skattnngarna, b 0 och b, är alltså väntevärdesrktga skattnngar av β 0 resp. β. 4

Det går också att vsa (under förutsättnng att modellantagandena gäller) att: Var( b ) σ σ ε ε ( X ) ( n ) s X (Hur Var(b 0 ) ser ut, står nte kursboken.) Ttta på uttrycket för Var(b ). Hur bör man välja sna -värden om man vll skatta β med så stor precson som möjlgt? Några nvändnngar? Den sanna slumpfelsvaransen σ ε är praktken oftast okänd. Om v utfrån gvna data vll blda oss en uppfattnng om storleken på Var(b ), så ersätter v σ med den observerade resdualvaransen e ε s ( MSE), som är en väntevärdesrktg skattnng av slumpfelsvaransen: E( s e ) σ ε Som skattnng av Var(b ) används då: s b e s ( ) ( n s e ) s 5

Mntab-utskrft För oljeförbruknngseemplet ger Mntab följande utskrft (som kommenteras på föreläsnngen): ) ) 3) 4) The regresson equaton s y 49-5,3 Predctor Coef SE Coef T P Constant 49,6,60 39,03 0,000-5,56,347-8,75 0,000 S 9,3554 R-Sq 97,8% R-Sq(adj) 97,5% Analyss of Varance Source DF SS MS F P Regresson 30866 30866 35,46 0,000 Resdual Error 8 6894 86 Total 9 309760 5) Unusual Observatons Obs y Ft SE Ft Resdual St Resd 4,4 75,00 7,93 4,3-5,93 -,06R R denotes an observaton wth a large standardzed resdual. 6

Statstsk nferens rörande β V vet redan att b är en väntevärdesrktg skattnng av modellparametern β. V vet också att skattnngen b har en varans, som skattas med s b. Under förutsättnng att modellantagandena gäller, kan ett konfdensntervall för β bldas såsom: b ± t s b där värdet på t bestäms från tabell över t-fördelnngen med n- frhetsgrader, så att v får önskad konfdensnvå. Vd mer än 30 frhetsgrader appromeras t-fördelnngen med N(0; ). Konfdensntervallet blr då b ± z s b V kan även göra hypotesprövnng rörande β. Säg att v vll testa nollhypotesen H 0 : β β mot något av alternatven H : β β *, H : β < β *, eller H : β > * * β (där β är ett gvet numerskt värde). * 7

Om frågan är: Fnns det överhuvudtaget något lnjärt samband?, så testar v H 0 : β 0 (vlket nnebär att det nte fnns något lnjärt samband) mot H : β 0. Som testvarabel används: t b β s b * Om H 0 är sann, så är testvarabeln är t-fördelad med n- frhetsgrader. Vd H 0 : β 0 blr testvarabeln: b t. s b Förkastelsegränser hämtas från tabell över t-fördelnngen med n- fg. Beror på val av sgnfkansnvå och på hur mothypotesen ser ut (enkelsdg eller dubbelsdg). Ett alternatvt sätt att testa den specella nollhypotesen H 0 : β 0 mot den dubbelsdga mothypotesen H : β 0 är att använda F-test med testvarabeln 8

MSR F MSE MSR s e (Vd enkel lnjär regresson är MSR SSR.) Testvarabeln är F-fördelad med fg täljaren och n- fg nämnaren, om H 0 är sann. H 0 förkastas om (och endast om) v får högt värde på testvarabeln F. Förkastelsegräns hämtas från Tabell 9 över F-fördelnngen med (; n-) fg. Vd test av H 0 : β 0 mot H : β 0 är t-testet och F-testet lkvärdga. De leder alltd tll eakt samma slutsats. I själva verket hänger de båda testvarablerna ( detta specella fall) hop på så sätt att F t. (Eempel: Se Mntab-eemplet längre fram) Predkton av y för ett nytt -värde Data: y y 9

M M n y n V antar att data genererats enlgt standardmodellen för enkel lnjär regresson. Modellen säger bl.a. att för gvet är E(y ) β 0 + β Problemet är nu att försöka predcera vlket y- värde v kommer att få, när n+, där n+ är ett nytt, tänkt, -värde som nte ngår våra tdgare data. Som predkton av det kommande y-värdet för n+ använder v: y b 0 +b n+ ˆn+ (Vad är det för skllnad mellan skattnng och predkton?) Ett predktonsntervall kan beräknas: 0

( b0 + b n+ ) ± t 443 n ( n+ se [ + + n yˆ n+ ( ) ) där värdet på konstanten t hämtas från tabell över t-fördelnngen med n- fg, så att v får önskad täcknngsgrad hos predktonen, och där ] n n Täcknngsgrad sannolkheten att ntervallet skall nnehålla det kommande (ännu cke nträffade) värdet på y, när v låter n+. På vlket sätt beror konfdensntervallets längd av hur v väljer n+? Skattnng av förväntat y-värde för ett nytt -värde

Ett problem som lknar predktonsproblemet är följande: Vlket är det förväntade y-värdet för ett vsst, nytt, -värde n+, som nte ngår våra data? Dvs. v vll skatta väntevärdet E(y n+ ) β 0 + β n+. OBS Intresset är nu nte rktat nte mot det ensklda y-värde som v kommer att få (men ännu nte har fått) fall v låter n+, utan stället mot det genomsnttlga y-värdet för n+. Som skattnng av β 0 +β n+ använder v b 0 +b n+ (Är skattnngen väntevärdesrktg?) V kan blda konfdensntervall för β 0 +β n+ :

( 0 ) ( b0 + b n + ) ± t se [ + ] n ( ) där värdet på konstanten t hämtas från tabell över t-fördelnngen med n- fg, så att v får önskad konfdensnvå. På vlket sätt beror konfdensntervallets längd av hur v väljer 0? Hur förhåller sg konfdensntervallet tll predktonsntervallet? Mntab-eempel V har följande data ( nkomst, y sparande): y 8 8 44 5 3 30 38 3 36 30 6 5 4 8 5 45 3 30 6 Regressonskörnng ger: 3

Regresson Analyss: y versus The regresson equaton s y - 0,9 +,43 Predctor Coef SE Coef T P Constant -0,86 7,7 -,7 0,07,469 0,304 6,9 0,000 S 7,354 R-Sq 8,7% R-Sq(adj) 80,6% Analyss of Varance Source DF SS MS F P Regresson 950,6 950,6 38,34 0,000 Resdual Error 8 407,0 50,9 Total 9 357,6 Sprdnngsdagram med regressonslnje: 4

Sprdnngsdagram med regressonslnje y - 0,86 +,47 50 S 7,354 R-Sq 8,7% R-Sq(adj) 80,6% 40 y 30 0 0 0 0 5 30 35 40 45 50 55 På föreläsnngen vsas: a) Test av H 0 : β 0 mot H : β 0 (dels med t- test, dels med F-test). b) Test av H 0 : β 0 mot H : β > 0 (med t-test). c) Beräknng av 95% konfdensntervall för β. Studum av resdualerna: 5

y e 8 8 4,8 3,778 44 5 4,96 0,0784 3 30 3,379 6,68 38 3 33,360 -,360 36 30 30,5064-0,5064 6 5 6,374 8,766 4 8 3,3836-5,3836 5 45 5,9099-6,9099 3 0,598-7,598 30 6,9450-5,9450 Plotta resdualerna mot : 0 Resdualer mot nkomst 5 Resdual 0-5 -0 0 5 30 35 Inkomst 40 45 50 55 Kommentar? Säg att v vll veta vad som händer när 40. Dels vll v skatta det förväntade y-värdet β 0 + 6

β 40, dels vll v predcera det ndvduella y- värde v kommer att få, om v låter 40. V vll ha konfdensntervall med konfdensnvå 95%, och predktonsntervall med täcknngsgrad 95%. Båda erhålls med Mntab: Predcted Values for New Observatons New Obs Ft SE Ft 95% CI 95% PI 36,,9 (9,50; 4,93) (8,45; 53,98) Values of Predctors for New Observatons New Obs 40,0 Med Mntab kan v rta ut gränserna för både konfdensntervall och predktonsntervall för alla 7

värden på. Med 95% konfdensnvå och 95% täcknngsgrad får v: 80 60 40 Konfdens- och predktonsntervall, 95% y - 0,86 +,47 Regresson 95% CI 95% PI S 7,354 R-Sq 8,7% R-Sq(adj) 80,6% y 0 0 0 5 30 35 40 45 50 55 Stämmer kurvornas utseende med vad som sagts tdgare? 8

Modell för multpel lnjär regresson Modellantaganden: ) -värdena är fa. ) Varje y (,, n) är en lnjär funkton av,, K plus ett slumpfel ε : y β + β + β + K + β + 4 0 4444 4 4444 K 3K { lnjär funkton slumpfel 3) Slumpfelen ε, ε,, ε n är oberoende normalfördelade stokastska varabler med väntevärde 0 och med samma standardavvkelse σ ε : ε, ε,, ε n är oberoende och N(0; σ ). Modellen säger att om t.e. varabeln ökar med en enhet (och övrga förklarande varabler är oförändrade) så förväntas y öka med β enheter. Men verklgheten blr det nte eakt så, på grund av slumpfelet. (Slumpfelet kan kanske ses som en sammanfattnng av alla övrga saker, som påverkar y, men som nte fnns med modellen.) ε ε 9

Punktskattnng av modellparametrar Koeffcenterna b 0, b, b,, b K (beräknade från observerade data) är väntevärdesrktga skattnngar av motsvarande modellparametrar β 0, β, β,, β K, fall modellen stämmer. Vdare är den observerade resdualvaransen MSE SSE/(n-K-)] en väntevärdesrktg skattnng av modellens slumpfelsvarans σ. ε s e [ Konfdensntervall för en enstaka modellparameter Konfdensntervall för var och en av β 0, β,, β K beräknas såsom b b ± t s 0 b 0 ± t s etc. b där s s etc. är skattade standardavvkelser för b, 0 b b 0, b etc. Dessa beräknas nte för hand, utan erhålls Mntabutskrften ( SE Coef ). 30

Konstanten t hämtar v från tabell över t-fördelnngen med n-k- fg, så att v får önskad konfdensnvå. (Om fg > 30, använd z stället för t.) Hypotesprövnng rörande en enstaka modellparameter V kan t.e. fråga oss om varabeln bdrar tll att (lnjärt) förklara varatonen hos y, gvet att alla övrga förklarande varabler, 3,, K redan fnns med modellen. Nollhypotesen är då att nte förklarar något av y-varatonen, dvs. v testar H 0 : β 0 H : β 0 Som testvarabel används b t ( T Mntab-utskrften) s b 3

vlken är t-fördelad med n-k- fg, när H 0 är sann. På analogt sätt kan man för varje annan enskld -varabel testa om just den varabeln bdrar tll att förklara varatonen hos y (gvet att alla övrga förklarande varabler redan fnns med modellen). V kan alltså testa nollhypoteserna H 0 :β 0, H 0 :β 3 0 etc. V kan också testa H 0 : β j β * j * j H : β j β [eller H : β j > (eller <) * β j ] * (där β j står för ett gvet numerskt värde) med testvarabeln t b j s β b j * j 3

som är t-fördelad med n-k- fg, när H 0 är sann. (OBS I detta senare fall, när β 0, beräknas testvarabelns värde nte av Mntab.) Eempel på konfdensntervall och hypotesprövnng Samma försäljnngsdata som tdgare. Mntab ger: Regresson Analyss: y versus ; The regresson equaton s y 0,430 + 0,546 + 0,50 Predctor Coef SE Coef T P Constant 0,430 0,3897,0 0,30 0,5464 0,65 3,36 0,00 0,50 0,85,75 0,040 S 0,4983 R-Sq 97,% R-Sq(adj) 96,% * j a) Beräkna ett 99% konfdensntervall för β modellen y β 0 + β + β + ε. b) Pröva på 5% sgnfkansnvå om parametern β är lka med 0 eller ej modellen ovan. 33

Hypotesprövnng rörande β, β,, β K tllsammans En fråga av ntresse är om,,, K tllsammans kan (lnjärt) förklara något av varatonen hos y (eller om man lka gärna kunde strunta allhop). Det är kanske den frågan man ställer sg allra först vd regressonsanalys. Nollhypo-tesen är då att,,, K tllsammans nte förklarar någontng alls: H 0 : β β β K 0 H : Ej alla lka med noll (dvs. mnst en är 0) Som testvarabel används MSR F ( F ANOVA-tablån) MSE vlken är F-fördelad med K fg täljaren och n-k- fg nämnaren, när H 0 är sann. H 0 förkas-tas om (och endast om) v får ett högt observerat värde på F. E.: Samma försäljnngsdata som tdgare. The regresson equaton s 34

y 0,430 + 0,546 + 0,50 Predctor Coef SE Coef T P Constant 0,430 0,3897,0 0,30 0,5464 0,65 3,36 0,00 0,50 0,85,75 0,040 S0,4983 R-Sq97,% R- Sq(adj)96,% Analyss of Varance Source DF SS MS F P Regresson 43,79,860 88,0 0,000 Resd. Error 5,4 0,48 Total 7 44,960 Pröva om och tllsammans kan förklara varatonen hos y. Hypoteser: H 0 : β β 0 H : Ej båda lka med noll. 35

Sgn.-nvå: % Testvarabel: F MSE/MSR ( fg täljaren; 5 fg nämnaren) Beslutsregel: H 0 förkastas om F obs > 3,7 Resultat: F obs 88,0 > 3,7 Slutsats: H 0 förkastas på % sgn.-nvå. Starkt stöd för att och tllsammans förklarar en del av varatonen hos y. Alternatvt: Se på p-värdet. Eftersom p-värdet här är < 0,0, så förkastar v H 0 på % sgn.-nvå. Dummyvarabler Bland de förklarande varablerna regressonsanalys kan v också ha kategorska (kvaltatva) varabler. Dessa kodas med nollor och ettor, varvd v får s.k. dummyvarabler (0/-varab-ler), 36

som sedan används som vanlga -varabler beräknngarna. E.: Varabeln kön, som antar värdena man och kvnna, kan kodas om tll en dummyvar-abel som antar värdet 0 för man och för kvnna. Hur gör man med en kategorsk varabel som antar fler än två värden? T.e. de fyra värdena hyresrätt, bostadsrätt, egen vlla och annan bostadsform? Det tar v nte upp på den här kursen. (Men vanlgt är att man låter en kategorsk varabel med c kategorer ge upphov tll c- dummyvarabler.) E.: Data över oljeförbruknng under en månad to vllor. (Olka månad för olka vllor.) y oljeförbrukn. under månaden (lter) medeltemp. under månaden ( C) bostadsyta (m ) 3 tlläggssoler. eller ej (dummyvar.) Vlla y Isolerng 3 70 7,8 70 Nej 0 00 6,6 0 Ja 3 85, 50 Nej 0 4 300 7, 90 Ja 37

5 30,8 0 Ja 6 650 0, 50 Ja 7 55 -,9 40 Ja 8 640-3, 55 Nej 0 9 550-0,7 80 Nej 0 0 75 4,4 30 Ja Regresson Analyss: y versus ; ; 3 The regresson equaton s y 46-7,9 +,8-67,7 3 Predctor Coef SE Coef T P Constant 46, 37,94 6,49 0,00-7,875,67-3,89 0,000,88 0,98 8,7 0,000 3-67,68 7,43-3,88 0,008 S6,59 R-Sq99,0% R-Sq(adj)98,5% Tolknng av värdena på b, b och b 3 : b -7,9: När medeltemperaturen ökar en grad, så mnskar oljeförbruknngen med ungefär 8 lter per månad, vd oförändrad bostadsyta och oförändrad solerngstyp. b,8: När bostadytan ökar med en m, så ökar oljeförbruknngen med ungefär,8 lter per månad, vd oförändrad medeltemperatur och oförändrad solerngstyp. 38

b 3-67,7: Tlläggssolerng ger en mnskad oljeförbruknng med ungefär 68 lter per månad, vd oförändrad medeltemperatur och oförändrad bostadsyta. När 3 0, så blr det predcerade y-värdet: y ˆ b + b + 0 b När 3, så blr det predcerade y-värdet: yˆ ( b0 + b3 ) + b 443 OBS Korrelatonsanalys + b Data: (, y ), (, y ),, ( n, y n ) Antag: Stckprov från en bvarat normalfördelnng med okänd korrelaton, ρ, mellan och y. Då kan v testa fall populatonskorrelatonen är skld från noll. H 0 : ρ 0 H : ρ 0 (eller H : ρ > 0, eller H : ρ < 0) 39

Testvarabel: t r n r som är t-fördelad med n- frhetsgrader, fall H 0 är sann. E.: I ett stckprov på 30 personer har man mätt två olka varabler och fått korrelatonskoeffcenten r 0,34. Testa på 5% sgnfkansnvå fall korrelatonen mellan varablerna populatonen, ρ, kan tänkas vara större än noll. Förutsättnng: Populatonen har en bvarat normalfördelnng. Hypoteser: H 0 : ρ 0 H : ρ > 0 Sgn.-nvå: 5% Testvarabel: t r n r Frhetsgrader: n 30 8 40

Beslutsregel: H 0 förkastas om t obs >,70 Resultat: t obs 0,34 8 0,34,93 >,70 Slutsats: H 0 förkastas på 5% sgnfkansnvå. Sgnfkant pos. korrelaton. 4