Ekel ljär regresso Ekel ljär regresso Kap Ekel ljär regressosmodell: = β + β + ε Sstematsk del Stokastsk (slumpmässg) del där är beroede varabel, de varabel som v vll förklara eller predktera De kallas äve resposvarabel är oberoede varabel, äve kallad förklargsvarabel ε är felterm (störgsterm), de stokastska dele modelle, dvs de eda källa tll slumpmässghet β är ljes tercept, dvs där lje skär -ael β är ljes lutg Iledade eempel (scatterplot) E scatterplot som vsar par av observatoer Scatterplot of Advertsg Epedtures () ad Sales () reklamkostade på -ael ad försäljg på - ael Notera: Större (mdre) försäljgsffror verkar vara assoserade med större (mdre) reklamkostader Advertsg Puktera verkar vara fördelade rut e lje med postv lutg Puktera är lgger te eakt på lje Scatterplotte vsar ett mer eller mdre stark tedes och te ett eakt ljärt sambad Lje represeterar de geomsttlga relatoe mella försäljg och reklamkostader Sales 8 6 5 β = Itercept Ekel ljär regresso (forts) ε { } } β = Lutg E[]=β + β De ekla ljära regressosmodelle asätter ett eakt ljärt sambad mella vätevärdet (eller geomsttlga värdet) på, de beroede varabel, och, de obereode varabel: E[ ]=β + β Det faktska observerade värdet på skljer sg frå vätevärdet med ett slumpmässgt fel: = E[ ] + ε = β + β + ε 5 Fler eempel Ekel ljär regresso (forts ) Tolkg av modelle: De sstematska dele av modelle, β + β, är det betgade vätevärdet av, gvet, E[ ] Detta är ekvatoe för lje β är det förvätade värdet på då är oll E: Om reklamkostade är oll är de geomsttlga försäljge 5 eheter β är hur mcket geomstt ökar (mskar) då -varabel ökar med e ehet E: Om reklamkostade är ökar med e ehet (t e kr) så ökar försäljge geomstt med eheter 6
le (atagade) Msta-kvadratmetode (forts) Relatoe mella och är ljär Värdea på varabel atas fa (ej stokastska); det eda slumpmässga värdea på kommer frå felterme ε ε ~ N(,σ) och oberoede Se äve fgur 6 s 5 Aderso Atagade E[]=β + β Normalfördelade feltermer, cetrerade på regressoslje och med lka stor varas 7 ˆ observato ˆ = b + b de skattade regressoslje Resdual e = ˆ { ˆ predkterat värde på för Skattg av modelle Skattg av modelle (de ljära relatoe) ebär att skatta värdet på terceptet och lutge på regressoslje De skattade regressosekvatoe: = b + b + e där b är ett estmat (skattg) av terceptet, β b är ett estmat av lutge, β e är observerade feltermer så kallade resdualer, dvs skllade mella de skattade regressoslje ŷ = b + b och de puktera ŷ kallas -hatt 8 Låt oss jämföra två ljer: 5 (,) Msta-kvadratmetode (forts) (,) (,5) (,) Summa av kvadrerade resdualer = ( - ) + ( - ) + (5 - ) + ( - ) = 689 Summa av kvadrerade resdualer = ( -5) + ( - 5) + (5-5) + ( - 5) = 99 Ju mdre kvadratsumma är desto bättre apassar lje tll data Msta-kvadratmetode (Method of Least Squares) MK-estmatorera Msta-kvadratmetode är e specell metod för att skatta Parametrara modelle Med msta-kvadrat metode väljs de skattade parametrara så att summa av resdualera kvadrat mmeras Data Resdualer b = b b = ( )( ) = ( ) ( )( ) ( ) Summa av kvadratera av resdualera mmeras 9
Eempel: Markadsadel 8 8 6 6-5 6 7 8 9-5 6 7 8 9 6 Eempel: Markadsadel (SPSS-utskrft) Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Korrelato Korrelatoe mella, &, är ett mått på ljärt sambad Populatoes korrelato ρ, är mella - & Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 a Predctors: (Costat), Squares df Mea Square F Sg Regresso 8, 8, 9,55, a Resdual,899,99 Total 9, a Predctors: (Costat), ρ = perfekt ljärt sambad som är egatvt -< ρ < egatvt sambad ρ = get ljärt sambad < ρ < postvt sambad ρ = perfekt ljärt sambad som är postvt b Depedet Varable: Coeffcets a b och b Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg (Costat) -,57,97 -,8,9,87,6,96,8, Notera: Om ρ <, β < Om ρ =, β = Om ρ >, β > a Depedet Varable: 7 Eempel: Markadsadel (Mtab-utskrft) Korrelato (forts) r = - r = r = Utskrft frå Mtab The regresso equato s = -,6 +,87 b och b Predctor Coef SE Coef T P Costat -,566,97 -,5,9 r = - 8 r = r = 8,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% 5 8
Korrelato (forts) Eempel: Markadadel (SPSS-utskrft) r = där s = ( )( ) s s ( ), s = ( ) Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 a Predctors: (Costat), S Squares df Mea Square F Sg Regresso 8, 8, 9,55, a Resdual,899,99 Total 9, a Predctors: (Costat), b Depedet Varable: SSE MSE Coeffcets a 9 Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg (Costat) -,57,97 -,8,9,87,6,96,8, a Depedet Varable: Total varas och varase för felterme Hur bra är modelle? Förklargsgrade (coeffcet of determato), R, är ett mått som beskrver strka på regressossambadet, ett mått på hur väl regressoslje passar data Vad du ser är du tttar på de totala varatoe för, är varase för Vad du ser är du tttar lägs med regressoslje, är feltermsvarase (error varace) dvs σ $ { Ueplaed Devato Devato Eplaed Devato {}Total ( ) = ( ˆ) + Total = Ueplaed Devato Devato (Error) ( ) =( ˆ) +( ˆ ) SST = SSE + SSR R = SSR = SSE SST SST ( ˆ ) Eplaed Devato (Regresso) Procet av totala varatoe som förklaras av regressoe Adel som förklaras av regressoe σ är oftast okäd och måste skattas frå vårt stckprov σ skattas med S = MSE = SSE/(-) = = ( ˆ ) /(-) Frhetsgrader, Df (degrees of freedom) SSE = Squares of Error MSE = Mea Square of Error Totala varatoe för Oförklarad varato
Förklargsgrad, R Stadard errors (stadardavvkelsera för estmatorera) Dessa aväds för kostrukto av kofdestervall och hpotestest för parametera β och β r = r =5 r =9 Oftast är det te så tressat att pröva hpoteser etc för terceptet uta bara för lutgsparameter V behöver alltså bara käa tll att SST SSE SST SSE SSR S S E SST SSR s b = MSE ( ) 5 8 Eempel: Markadsadel (SPSS-utskrft) Eempel: Markadsadel (SPSS-utskrft) Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 Predctors: (Costat), a R =9,% Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 Predctors: (Costat), a Regresso Resdual Total Squares df Mea Square F Sg 8, 8, 9,55, a,899,99 9, Regresso Resdual Total Squares df Mea Square F Sg 8, 8, 9,55, a,899,99 9, a Predctors: (Costat), a Predctors: (Costat), b Depedet Varable: b Depedet Varable: Coeffcets a Coeffcets a (Costat) Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg -,57,97 -,8,9,87,6,96,8, (Costat) Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg -,57,97 -,8,9,87,6,96,8, s b a Depedet Varable: 6 a Depedet Varable: 9 Eempel: Markdsadel ( Mtab-utskrft) Eempel: Markadsadel (Mtab-utskrft) Utskrft frå Mtab The regresso equato s = -,6 +,87 Predctor Coef SE Coef T P Costat -,566,97 -,5,9,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% Utskrft frå Mtab The regresso equato s = -,6 +,87 s b Predctor Coef SE Coef T P Costat -,566,97 -,5,9,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% R =9,% 7 5
Kofdestervall för lutgsparameter β Ett (-α)%-gt kofdestervall för β : b ± t( a /, ) sb Estmato och predkto Kap 6--7 Markadele: t-test av H :β = (SPSS) Predkto Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 a Predctors: (Costat), Squares df Mea Square F Sg Regresso 8, 8, 9,55, a Resdual,899,99 Total 9, a Predctors: (Costat), b Depedet Varable: Coeffcets a Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg (Costat) -,57,97 -,8,9,87,6,96,8, a Depedet Varable: T obs och p-värdet Puktestmato (puktpredkto) Ett puktestmat av för ett vsst gvet värde på, säg p, som fås av att sätta värdet på, dvs p, de skattade regressosekvatoe Puktestmatet beteckas boke p 5 Eempel: Markadsadel ( Mtab-utskrft) Utskrft frå Mtab The regresso equato s = -,6 +,87 Predctor Coef SE Coef T P Costat -,566,97 -,5,9,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% T obs och p-värdet Predktostervall och kofdestervall Predktostervall För ett observato på gvet ett vsst värde på, säg p Beteckas boke p Osäkerhete skattge av regressolje Varatoe rut regressoslje 6 6
Kofdestervall för E( p ) Kofdestervall För vätevärdet för gvet ett vsst värde på, säg p, dvs för E( p ) Beteckas boke E( p ) Osäkerhete (varatoe) skattge av regressolje Ett (-α)%-gt kofdestervall för E( p ): ˆ ± t p ( α/, ) s ( p ) + ( ) = där ˆ + p = b b p 7 Kofdestervall för E( p ) Predktostervall för p Övre gräs för lutge Regressoslje Nedre gräs för lutge Övre gräs för terceptet Regressoslje Nedre gräs för terceptet Regresso lje Kofdesbad för E[ p ] Regressoslje Predktosbad för p ) Osäkerhet om lutge ) Osäkerhet om terceptet ) Varato rut lje + osäkerhet om lje, dvs ) och ) Predktostervall för 8 Kofdestervall för E( p ) (forts) Predktostervall för : Kofdetervall för E( p ) Kofdestervall för E( p ) Regressoslje Ett (-α)%-gt predktostervall för : ( p ) ˆ ± + + p t( α/, ) s ( ) = där ˆ = b + b p p 9 7
Eempel: Markadsadel lkotroll Utskrft frå Mtab Resduals Resduals Predcted Values for New Observatos Kofdestervall New Obs Ft SE Ft 95,% CI 95,% PI 6,75,98 (5,6; 6,9) (,988; 8,56) Predkto Values of Predctors for New Observatos Predktostervall New Obs 5, p Homoscedastct: Resdualera verkar helt slumpmässga Atagadea verkar uppfllda Resduals or $ Tme Resdualera uppvsar e ljär tred med tde or $ Heteroscedastct: Resdualvarase ädras är ädras Resduals or $ Ett kurvgt möster resdualera som beror på ett uderlggade cke-ljärt sambad 6 Normalfördelgsatagadet lkotroll (Resdualaals) Kap 8 & Hstogram över resdualera Lkar det e ormalfördelg? eller Normal Probablt Plot (se ästkommade blder för eempel) Lgger puktera på lje? 7 lkotroll Kotrollera att modellatagade är uppfllda geom att ttta på resdualplottar Atagade att kolla: Ljärt sambad Feltermera, ε, är oberoede och ormalfördelade med vätevärde och kostat varas, σ Normal Probablt Plot Normal Problt Plot: Alla pukter bör lgga på lje för att feltermera ska vara ormalfördelade 5 Tjockare svasar ä ormalfördelge 8 8
Eempel: Markadsadel Resduals Versus the Ftted Values (respose s ) Resduals Versus (respose s ) Resdual Resdual - - 7 5 5 5 55 65 75 85 Ftted Value Normal Probablt Plot of the Resduals (respose s ) Hstogram of the Resduals (respose s ) Normal Score Frequec - - Smalare svasar ä ormalfördelge 9 - Resdual -, -,5,,5, Resdual,5, 5 Utelggare och fltelserka varabler Skattad regressoslje uta utelggare Skattad regressoslje med utelggare * Utelggare Iget sambad blad dessa pukter Pukt med ett stor värde på * Skattad regressoslje med alla observatoer kluderade Mer postvt skev ä ormalfördelge 5 Utelggare Ifltelserka observatoer 5 Mer egatvt skev ä ormalfördelge 5 9