F7 Polnomregression och Dummvariabler Antag att man börjar med enkel linjär regression. Kap Polnomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polnom av k:te ordningen Y =β +β +β +...+β k k +ε där(som tidigare) ε iid N (,σ ) ε tillsammans med övriga antaganden(vilka är dessa?). Ett antagande måste dock ändras. Vilket? Tpisk indikation på att man gjort fel ska man se i mönstret som uppstår i residualplotten: Residual,,,, -, -, Modellen uttrckt i termer av betingat väntevärde -, µ Y =β +β +β +...+β k k Alltså anpassa istället en kvadratisk modell till data! MK-skattningen går till precis som förut, vi minimerar nu Q= ( i β +β i +β ) i Vi vill alltså minimera summan av de kvadrerade avståndentilllinjensomnuärenkvadratisklinje. 6 Residualer: e = - ^ ^ ^ ^ = - b - b - b Resultatet blir som vanligt en ANOVA-tablå: Analsis of Variance Y =, -,7 +,9 Predictor Coef StDev T P Constant,,69 6,9, -,78,6 -,78,,9,6 7,76, S =,7 R-Sq = 9,7% R-Sq(adj) = 9,9% Betrakta somenetraprediktorvariabelprecissom vanligt i multipel linjär regression. IMinitab:sägattY liggericoch ic. Analsis of Variance Source DF SS MS F Regression 9,7 9,6, Residual Error,,6 Total,678 Analsis of Variance Source DF Seq SS 9,8 9,7 Kommando: MTB> LET C=C** Anger sedan C och C som prediktorer i dialogrutan.
Y Y Inferensen går till precis som förut:. MSR/MSE F(,n ), overalltestför modellen som helhet. SSR() / MSE() F(,n ), test för enbart (först in, enkel linjär modell) LackofFittest Beskrivspåsid9-9. Oftaisambandmedjustpolnomregression. I Minitab: i Regressionsfönstret, klicka på Options-knappen ochunder LackofFitTests väljantingen PureError omniharreplikatdvsfleraobservationerpervärde eller Data subsetting om ni inte har det... SSR( ) MSE(, F(,n ), partielltf-testför ) givet SSR(, Z)/ MSE(Z,, F(,n ), multipeltpartielltf-testför och ) givetnågotz. E) Anpassning till en linjär modell verkar inte vara rätt här: Fitted Line Plot Y =,6 +,7 S,79 R-Sq 6,9% R-Sq(adj),%. och motsvarande ekvivalenta t-test...(sist-in-test) Resultatet i Minitab: Possible curvature in variable (P-Value=,) Possible lack of fit at outer -values(p-value=,) OveralllackoffittestissignificantatP=, Anpassning till en kvadratisk modell verkar bättre Fitted Line Plot Y = -,7 +, -, ** S,68 R-Sq 96,9% R-Sq(adj) 96,7% E)Antagattfemvärdenpåobserverasenligtnedan. Insättning av en kvadratisk term i modellen ger........ 6. 9. Corr (, ) =.989 VIF =.989 =.7 9 8 7 6 IMinitab: Noevidenceoflackoffit(P>=,). Vadmanskatänkapåärattdetkanbliproblemmed multikollinearitet! Hurskamanlösadetta? Boken ger en lång beskrivning av sk ortogonala polnom som kan användas för att skapa na prediktorer med en mängd trevliga egenskaper men det är alldeles förmcketfördenhärkursen!
Enklare metod som fungerar alldeles utmärkt med kvadratiska samband är centrering runt medelvärdet, dvs skapa följande na prediktorer, =( ) och =( ) Effekten av denna enkla transformering kan illustreras med eempelt ovan:..... =( )..... =( )..... Corr(, )= VIF = = N plott *,,8,6 Använd och iskattningenavmodellenochvi får Ŷ =ˆβ +ˆβ ( ) +ˆβ ( ) vilket kan skrivas om enligt Ŷ = (ˆβ ˆβ +ˆβ ) + }} =ˆβ + ˆβ }} =ˆβ (ˆβ ˆβ ) }} =ˆβ dvs de skattningar man skulle få utan att centrera! Dettaärettenkeltsättattbliavmedett självförvållat problem! Svårare däremot att bli av med multikollinearitetsproblem vid polnomregression av högre ordning, särskilt med udda potenser (, ), se sid 99.,,, -, -,, *,, Kap Dummvariabler E)D=kön Hittills har vi haft kontinuerliga prediktorer. Ofta har man kategoriska prediktorer (nominal- el ordinalskala). Modellen skrivs D i = man kvinna E) D=manellerkvinna(nominal) D = geografisk indikator(nominal) D = Saab, Audi, Volvo, Toota,... (nominal) D = lågt, medium, högt(ordinal) För att hantera detta används dummvariabler! Andra namn: indikatorvariabler, kategoriska eller kvalitativa variabler En dummvariabel antar tpiskt värdena eller och konstrueras så att man kan identifiera vilken kategori detärfråganom. Y i =β +β D i +ε vilket är ekvivalent med β +ε man Y i = β +β +ε kvinna Tolkningen av koefficienterna: β :väntevärdetiy förmän β :förväntadskillnadiy mellankvinnorochmän
Om man har en kategorisk prediktor med k olika kategorier behövs(k ) st dummvariabler. Det fungerar inte att utöka med tterligare en nivå för dummvariablen, te Stockholm D i = Göteborg Malmö Enökningi fråntillblirmeningslös! Vivetväl inte om skillnaden mellan Stockholm och Malmö är två gånger skillnaden mellan Stockholm och Göteborg? Ej ekvidistans! Kanske inte ens en ökning! Inför tterligare en dummvariabel: ejgöteborg D i = D Göteborg i = ejmalmö Malmö ger tre möjligheter (, ) Stockholm (D i,d i )= (, ) Göteborg (,) Malmö Vi kan identifiera vilken kategori det är frågan om. Modellen ger Y =β +β D +β D +ε β +ε Stockholm Y = β +β +ε Göteborg β +β +ε Malmö Tolkning av koefficienter: β :väntevärdetiy förstockholm β :förväntadskillnadiy mellangöteborgochstockholm β :förväntadskillnadiy mellanmalmöochstockholm β β :förväntadskillnadiy mellangöteborgoch Malmö Man kan givetvis utöka modellen och ta med vanliga kontinuerliga prediktorer, dvs våra vanliga prediktorer. vilket ger två möjligheter: Y =β +β D+β +ε Vadsomärintressantärfrågoravtpen: Är det samma lutning på regressionslinjen i de olika grupperna? Är det samma intercept? D = = Y =β +β +ε D = = Y =(β +β )+β +ε.7.7 dvs två olika regressionsmodeller där intercepten är olika för de två kategorierna........7...7 En utökad variant som ofta studeras är följande: Y =β +β +β D+β (D)+ε.7.7... vilket ger två möjligheter: D = = Y =β +β +ε D = = Y =(β +β )+(β +β )+ε...7....7 dvs två olika regressionsmodeller där intercepten och lutning är olika för de två kategorierna.
MetodI(sid7avsnitt-8) Två separata modellskattningar för olika grupper(sid avsnitt -7): Y A = β A +β A +ε Y B = β B +β B +ε dvs gör två regressionsanalser, en för varje grupp och jämför resultaten mellan grupperna/modellerna. Kräver en del tterligare beräkningar, te poolade variansskattningar (se sid ) eftersom ett av antagandena är att slumptermsvariansen är lika mellan grupperna. Krångligare kan man tcka men ibland har man inte tillgång till rådata, endast färdiga resultat som publicerats. E)EnundersökningiSpanienfinnsredovisadienartikel och man upprepar undersökningen i Sverige. Finns det skillnader? Vilka? Metod II En modellskattning med allt-i-ett (sid 7 avsnitt - 8): Y =β +β D+β +β D+ε där Z är en dummvariabel som anger grupptillhörighet. Detta ger A : Y =β +β +ε B : Y =(β +β )+(β +β )+ε För att avgöra vilken av de fra situationerna som gäller körmanpåmeddenvanligainferensen,dvstesta resp H :β = mot H :β H :β = mot H :β Detta alternativ verkar enklare och vettigare än alternativ I, peta in allt och gör en stor allt-i-ett anals. Mensomsagt... Boken redogör för varje tänkbart test som kan göras förrespektivemetodiochii. test för lika intercept testförlikalutning test för att regressionslinjerna sammanfaller Detserutsommcketattlärain... Testen är precis som förut, inget principiellt ntt jämfört med multipel linjär regression! Rekommendation: Läs igenom avsnitt - - - utan att uppehålla er för länge, skippa avsnitt - --.