F Regressionsanalys, diagnostik och modellval Kap Modelldiagnostik, forts Residualanalys Vanliga residaler: e i =y i ŷ i =y i ˆβ +ˆβ i Residualanalys: Residualerna skattar ju slumptermerna varpå modellantagandena vilar. Hur kan vi verifiera att antagandena är uppfyllda? Outlieranalys: Etrema observationer som antingen uppvisar etremt stora residualer eller har ett starkt inflytande på skattningarna, eller både och. Kollinearitet: Hur samvarierar prediktorvariablerna? Är detta ett problem? Standardiserade residualer: Studentiserade residualer: r i = Jackknife residualer: z i = e i S e e i z = i S e hi hi r ( i) = e i S ( i) hi Sakkunskap: Vad är det jag analyserar? Hur har data samlats in? Vad är troliga värden? Observera! Olika namn på samma saker: Kleinbaum et al residuals standardized studentized jackknife Minitab residuals (finns ej, får man skapa själv) standardized studentized eller deleted t residuals Plottas ofta mot de anpassade värdena ŷ i men även mot varje prediktorvariabel för sig. e e Indikationer på om modellantagandena håller eller inte får vi framförallt genom att studera plottar över residualerna. Uppfyller villkoren? e X Mönster ska inte finnas! Kvadratiskt term verkar här! e X X tid Ej lika varians för alla X! Tidsberoende! (Minitab: Residuals v. Order)
Histogram över residualerna: Den empiriska fördelningsfunktionen med en normalfördelning. Är avvikelsen stor? Empirical CDF of Residuals Normal Mean,8 StDev,8 N 8 Normalfördelat? Normalfördelat? Percent 6 Plottar och histogram kan vara svåra att bedöma, medför ett subjektivt element. - - - e Alternativ är kvantitativa mått och test. Probability plot. Är avvikelsen stor? Korvar den sig runt linjen? Probability Plot of Residuals Normal Percent 99 9 9 8 7 6 Mean,8 StDev,8 N AD,76 P-Value, - - - e Normalfördelningstest Tre tillgängliga i Mintab. - Anderson-Darling - baserat på den empiriska fördelningsfunktionen. -Smirnov-Kolmogorov-baseratpåχ -test. - Ryan-Joiner(Shapiro-Wilks)- baserat på korellationer. TestenharsomnollhypotesH attobservationernaär normalfördelade. FörkastaH vidlågap-värden. Notera dock att de kan vara väldigt känsliga för outliers, särskilt vid små stickprov. Test för tidsberoende Runs-test, ett icke-parametriskt test, inga modelantaganden görs(se Hogg&Tanis sid 8-87) Låte i betecknaresidualernaidenordningdeärarrangerade efter(e tid). BetecknamedAome i >ochuome i <ochskriv ned sekvensen av alla A och u. Räkna sedan antalet runs dvsgrupperavarespu: uuuu A uu AAAAA runs här. Ser inte slumpmässigt ut! Fler negativa residualer(u) i början av serien. AuAuAuAuAuAu runshär. Serdetmerslumpmässigtut? För att det ska fungera i Minitab (som använder en normalapproimering) rekommenderas ett minimum av avvarderaaochb.mintab-kommando: RUNSC.
Autokorrelation, studera sambandet mellan närliggande residualer i termer av korrelation. Kan testas med Durbin-Watson test(finns i Minitab, Regression > Options) Test för lika varians(homoskedasticitet) Finns några (se sid 7). Förutsätter (ibland) flera observationer per observerat -värde. y C C e e e e. e. e n e n e n e n iminitab: LAGCC CORRCC Enkelt alternativ: studera rangkorrelationen mellan e i och i dvs Spearmans rangkorrelationstest från grundkursen. Omdennaärstörreänettkritisktvärde(frånentabell) förkastas nollhypotesen att rangkorrelationen är, vilket motsvarar idén att storleken på en residual inte beror på. Detta kommer att användas i större omfattning på momentet Tidsserieanalys. Eempel) Vi får följande: Residuals vs X Residuals vs X 6 Residual - Residual 8 6 - - 6 7 8 9 6 7 8 9 och plottar vi sedan rangerna för residualerna mot rangerna förx fårvi Rank e Rank e vs Rank X Outlieranalys Outlier = etrem observation som ligger långt utanför det område där de flesta övriga observationerna befinner sig. Rank X Residualer, e - Rangkorrelationen blir i detta fall.6; detta är större än det kritiska värdet.77 (α = %,n=8); alltså finns det samband mellan storleken på e i och storlekenpå i,dvsdetärintehomoskedastiskt. - - Anpassade värden, y-hat Stor residual? Stort inflytande? Outlier; antingen i prediktorrummet eller som stor residualellerbådeoch. Närärdettillräckligtlångtbortresp för stort, när ska man reagera? Man vill mäta leverage och inflytande(influence) Tremått(iKleinbaumetal.) -Leveragemått h i -Cooksavståndsmått d i -Jackkniferesidualer r ( i)
Leveragemåtteth i är ett avståndsmått i prediktorrummet, mäter hur långt bort den i:te prediktorpunkten befinner sig från centrum, dvs avståndet mellan ( i, i,..., ik ) och (,,..., k ) jämförmedfigurovan. Typisktberäknash i mhadator, kräver matrisalgebra. Vid enkel linjär regression(med en prediktor) kan det visas att h i = n + ( i ) (n )s Egenskaper allmänt med k prediktorer: n h i (ommanharettinterceptimodellen) k+ hi =k+ h= n Omh i liggernäraettinnebärdettaattdeni:teobservationen har tvingat in modellen nästan genom punkten ( i,y i ). Approimativt ska ett histogram över h i na påminnaomenχ -fördelning. Tumregel: se upp för observationer där Cook savståndd i h i > (k+) n är ett inflytandemått. Hur mycket påverkas skattningen av regressionskoefficienterna om den i:te observationen tas med/tas bort? Om prediktorerna har medelvärde =, samma varians ochärokorreleradegällerattd i ärproportionellmot k j= (ˆβj ˆβ j( i) ) därˆβ j ärskattningenmedallaobservationerochˆβ j( i) är skattningen med den i:te borttagen. Allmänt gäller att e d i = i h i (k+)s e ( h i) = r i h i (k+)( h i ) > dvsd i ärpositivtmenejbegränsatuppåt. d i kanalltså vara stor pga att observationen är etrem i prediktorrummet eller för att den får en stor studentiserad redsidual. Approimativt är d i F(k,n k ) Tumregel (möjligen otillförlitlig): se upp för observationerdärd i >.(sesid). Tabell A- i Kleinbaum et al ger kritiska värden för den största av samtliga observerade d i, dvs mad i, förnobservationerochkprediktorer(egentligend i antalet frihetsgrader). Om man observerar mad i som är större än tabellvärdet = reagera! Jackkniferesidualer e i : resdual,avståndmellanobserveratochpredicerat s ( i) : jackknife-skattningavσ ε h i : leverage,måttpåavståndetmellandeni:teprediktorpunkten och centrum Jackknife-residualen sammanför dessa tre mått: r ( i) = e i s ( i) hi Testaomr ( i) ärsignifikantskiltfrånnoll,t-fördelat medn p frihetsgrader. Obs!Vikantestanstyckenh i,d i ochr ( i),mendetta kräver justering av signifikansnivån, se sidorna 9- och s.k. Bonferroni-korrektion.
Residualanalys och olika inflytande mått är indikatorer på besvärliga/konstiga observationer. I Minitab: Som en övning kan ni, via Storage-knappen väljaattsparadeolikamåttengenomattklickairesp bo. Vi kommer alltid att observera en största residual, leverage och Cook s mått osv. Attblintförlitasigpåkvantitativamåttärinteatt rekommendera. Vi kan alltid indentifiera outliers och eventuellt ta bort dessa från analysen, men med största försiktighet! Vadmanskafrågasigärvarförengivenobservation är etrem. Föreligger det mätfel? Datainsamlingsproblem? Är de observerade värdena omöjliga, otroliga eller bara lagom etrema? Sedankanniundersökadessagenomteattskapahistogram, DESC-kommandot, osv. Ienkellinjärregressionkannisenågotintressantomni plotttarh i motprediktorvariabelnx.vadberormönstret på? Manmåstevetanågotombakgrundenochförutsättningarna för analysen! Multikollinearitet SambandmellanprediktorernaX,X,...,X k Ett eempel med två prediktorer, Y i =β +β X i +β X i +ε i Det kan visas att skattningarna kan skrivas som ( ) ˆβ j =c j r, j=, därc j ärenkonstantsomberorpådataochr är korrelationenmellanx ochx. Antag att i = i. Då är r = och om vi skattar regressionsmodellen får vi ( ) ˆβ j =c j =? Koefficienternaˆβ,ˆβ ochˆβ kanejbestämmasentydigt! Dessutomärvariansskattningarnaför ˆβ j proportionella mot inflationsfaktorn / ( r ) och osäkerheten i skattningarna ökar! Det uppstår problem om en prediktor kan skrivas som en linjärkombination av de övriga, te X =γ +γ X +...+γ k X k Att kvantifiera och bedöma kollinearitet rör endast prediktorerna, ej responsvariabeln Y. Antag att man har k stycken prediktorer i modellen. Skatta alla k modeller som kan formuleras med den j:te prediktorn som responsvariabel och de övriga k som prediktorer: : X =α +α X +...+α k X k : X =α +α X +α X...+α k X k. k : X k =α k +α k X +...+α k(k ) X k För varje sådan modell får vi ett R -värde,betecknat Rj avseendeprediktorj. VadmäterR j? Variation Inflation Factor (VIF) VIF j = R, j=,,...,k j
Om R j så gäller att VIF j. Alternativt definieras toleransen VIF j = R j Tumregel: seuppomvif j >. I Minitab: via Options-knappen, klicka för boen Variance inflation factors och studera sedan utskriften. (LäsävendiskussionenomVIF,dvsförinterceptet, sid -, men skippa fortsättningen sid -.) Problem med multikollinearitet kan ofta uppstå i samband med Polynomregression(kap) och modeller med Samspelstermer(kap ). Eempel med polynomregression på sidorna 9-. Modellen µ Y X =β +β X+β X kangeproblemomx ochx ärstarktlinjärtkorrelerade i data. Centrera istället enligt ovan och skatta modellen µ Y X = β +β W +β W ( X X = β +β ) +β ( ) X X Eempel med samspelstermer, se datorövning -. Skippa sidorna 6- dock ej avsnitt -9. En metod som kan reducera multikollinearitet är att centrera observationerna runt respektive medelvärde, dvsförvarjeprediktor(j =,...,k)ochobservation (i=,...,n)beräknas W ij =X ij X j som får ersätta de ursprungliga observerade värdena. Kap6AttVäljaBästaModell. Definiera en maimal modell allatänkbaraprediktorer: X,X,... potenseravprediktorer: X,X,... ev. transformationer: lnx, /X,... samspelstermer: X X,X X,... kontrollvariabler och deras ev potenser, transformationer, samspelstermer... Problem med överanpassning (overfitting), dvs att ta medsådantominteingåriden sanna modellenmedför inte bias. Däremot ev. problem med multikollinearitet. Även möjliga problem med antalet frihetsgrader(df = n q ). Omdf =såblirr =ävenomdeti populationenärsåattr =. Tumregel i boken: minst observationer per prediktor (även potenser, samspelstermer etc). Även tolkningsproblem med alltför stora modeller(kom ihåg Occam s razor).. Definiera kriterium för val av modell Modellvalskriterium som kan beräknas för varje modell vianalyserar/skattardvsettindeattjämföramodeller med varandra. Fyrabehandlasiboken: R p,f p,mse p ochc p Utgå ifrån en jämförelse mellan två modeller, en full (maimal) och en mindre(reducerad): β +β X +..+β p X p +β }{{} p+ X p+ +..+β k X k reducerad modell, p pred }{{} maimal modell, k st prediktorer
R k jämförtmedr p,andelförklaradvariation tenderarattöverskattasantr flerprediktorer högrer R k alltidstörreänr p alternativ: R adj F p dvs F-kvoten från multipelt partiellt F-test (ekv. (6.)) F p = [SSE(reducerad) SSE(full)]/(k p) SSE(full)/(n k ) MSE p dvsskattningen ˆσ Y X =ˆσ ε =SSE(reducerad) n p Vi vill ha en modell med liten slumptermsvarians. Hur ska man jämföra modeller? Mallow sc p definieras(ekv. (6.6)) C p = SSE(reducerad) MSE(full) (n (p+)) OmMSE(reducerad) MSE(full)såblir C p p+ OmC p >p+såfinnsdetförmodligenutrymme förflerprediktorer,omc p <p+harniförmodligen överanpassat modellen. Kriterier baserade på informationsteori, te Akaike Information Criterium AIC=nlogMSE+p Schwartz Bayesian Criterium SBC=BIC=nlogMSE+plogn straffar för stora modeller och belönar stora minskningar i osäkerhet(residualvarianser) närmanjämförvärdenärdetbättremeddet mindre. Definiera en strategi för val av variabler Jämför alla möjliga modeller Många prediktorer ännu fler modeller E) p prediktorer ger(med bara huvudeffekter) ( p) ( p) ( p) ( p) + + +...+ = p p olika modeller att skatta och analysera! Byggauppfråntommodell. Skatta tom modell. Givet modellen, vilken enskild prediktor bör läggas till? Kriterium: F-test.. Läggtilldenna. Skattautökadmodell,gåtill. Reducera en full modell. Skatta full modell. Vilkenprediktorkantasbortutanattdetförsvinner en stor andel förklarad variation? Kriterium: F-test.. Tabortdenna. Skatta reducerad modell, gå till. Stegvis regression(minitab: Stepwise) variant av de två oföregående, välj själva om ni vill börja uppifrån eller nerifrån i varje steg analyseras om en prediktor man tidigare slängde bort borde tas med igen alternativtensomtidigaretogsmednubörslängas bort iminitabangeskriterierförattlägga tillresp ta bort
Minitab dialogfönster för kriterier (Methods-knappen) med stegvis regression:. Validering, bedömning av modellens tillförlitlighet Om modellen lyckas predicera nya observationer bra så är det en tillförlitlig(reliable) modell. Hur ska man bedöma detta innan man får nya observationer? Split-sample metoden: Delauppmaterialetitvå(ellerflera)grupper. Genomför analysen Identifiera modellen och skatta den genom att använda en grupp Närmanvälharbestämtsigförenmodellskaenmer fullständig analys genomföras (residualanalys, outlieranalys enligt tidigare) Predicera nya Y-värden, dvs Y, med prediktorvärdena från den andra gruppen. BeräknaprediktionsfeletdvsY Ŷ ochdessvarians Kom ihåg, arbetsgången är ofta en iterativ process:. Postulera en modell inkl antaganden Parameterskattning, använd data Verifiering av modellen test, diagnostik Modellen accepterad använd modellen Ny eller modifierad modell Modellen håller inte, förkastas
y y F Regressionsanalys forts och Logistisk regression Antag att man börjar med enkel linjär regression. Kap Polynomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polynom av k:te ordningen Y =β +β X+β X +...+β k X k +ε där(som tidigare) ε iid N (,σ ) ε tillsammans med övriga antaganden(vilka är dessa?). Ett antagande måste dock ändras. Vilket? Typisk indikation på att man gjort fel ska man se i mönstret som uppstår i residualplotten: Residual,,,, -, -, Modellen uttryckt i termer av betingat väntevärde -, µ Y X =β +β X+β X +...+β k X k Alltså anpassa istället en kvadratisk modell till data! MK-skattningen går till precis som förut, vi minimerar nu Q= ( yi β +β i +β ) i Vi vill alltså minimera summan av de kvadrerade avståndentilllinjensomnuärenkvadratisklinje. 6 Residualer: e = y - ^ ^ ^ ^ y = y - b - b - b Resultatet blir som vanligt en ANOVA-tablå: Analysis of Variance Y =, -,7 X +,9 X Predictor Coef StDev T P Constant,,69 6,9, X -,78,6 -,78, X,9,6 7,76, S =,7 R-Sq = 9,7% R-Sq(adj) = 9,9% Betrakta somenetraprediktorvariabelprecissom vanligt i multipel linjär regression. IMinitab:sägattY liggericochx ic. Analysis of Variance Source DF SS MS F Regression 9,7 9,6, Residual Error,,6 Total,678 Analysis of Variance Source DF Seq SS X 9,8 X 9,7 Kommando: MTB> LET C=C** Anger sedan C och C som prediktorer i dialogrutan.
Y Y Inferensen går till precis som förut:. MSR/MSE F(,n ), overalltestför modellen som helhet. SSR(X) / MSE(X) F(,n ), test för enbart X (först in, enkel linjär modell) LackofFittest Beskrivspåsid9-9. Oftaisambandmedjustpolynomregression. I Minitab: i Regressionsfönstret, klicka på Options-knappen ochunder LackofFitTests väljantingen PureError omniharreplikatdvsfleraobservationerperxvärde eller Data subsetting om ni inte har det... SSR(X X) MSE(X,X F(,n ), partielltf-testför ) X givetx SSR(X,X Z)/ MSE(Z,X,X F(,n ), multipeltpartielltf-testförx ochx ) givetnågotz. E) Anpassning till en linjär modell verkar inte vara rätt här: Fitted Line Plot Y =,6 +,7 X S,79 R-Sq 6,9% R-Sq(adj),% X. och motsvarande ekvivalenta t-test...(sist-in-test) Resultatet i Minitab: Possible curvature in variable X(P-Value=,) Possible lack of fit at outer X-values(P-Value=,) OveralllackoffittestissignificantatP=, Anpassning till en kvadratisk modell verkar bättre Fitted Line Plot Y = -,7 +, X -, X** S,68 R-Sq 96,9% R-Sq(adj) 96,7% E)AntagattfemvärdenpåXobserverasenligtnedan. Insättning av en kvadratisk term i modellen ger X..... X... 6. 9. Corr ( X,X ) =.989 VIF =.989 =.7 X 9 8 7 6 IMinitab: Noevidenceoflackoffit(P>=,). X Vadmanskatänkapåärattdetkanbliproblemmed multikollinearitet! Hurskamanlösadetta? X Boken ger en lång beskrivning av sk ortogonala polynom som kan användas för att skapa nya prediktorer med en mängd trevliga egenskaper men det är alldeles förmycketfördenhärkursen!
Enklare metod som fungerar alldeles utmärkt med kvadratiska samband är centrering runt medelvärdet, dvs skapa följande nya prediktorer, X =( X X ) och X =( X X ) Effekten av denna enkla transformering kan illustreras med eempelt ovan: X..... X =( X X )..... X =( X X )..... Corr(X,X )= VIF = = Ny plott X*,,8,6 AnvändX ochx iskattningenavmodellenochvi får Ŷ =ˆβ +ˆβ ( X X ) +ˆβ ( X X ) vilket kan skrivas om enligt Ŷ = (ˆβ ˆβ X+ˆβ X ) + }{{} =ˆβ + ˆβ }{{} X =ˆβ (ˆβ ˆβ X ) X }{{} =ˆβ dvs de skattningar man skulle få utan att centrera! Dettaärettenkeltsättattbliavmedett självförvållat problem! Svårare däremot att bli av med multikollinearitetsproblem vid polynomregression av högre ordning, särskilt med udda potenser (X,X ), se sid 99.,,, -, -,, X*,, Kap Dummyvariabler E)X=kön Hittills har vi haft kontinuerliga prediktorer X. Ofta har man kategoriska prediktorer (nominal- el ordinalskala). Alt. : Modellen skrivs X= { man kvinna E) X=manellerkvinna X=sockerpillerelMedicinAelMedicinB X = kallt, ljummet, varmt X=Saab,Audi,Volvo,Toyota,... För att hantera detta används dummyvariabler! Annat namn: indikatorvariabler. Y =β +β X+ε vilket är ekvivalent med { β +ε man Y = β +β +ε kvinna Tolkningen är β ärväntevärdetiy förmän β ärförväntadeskillnadenmellankvinnor och män En dummyvariabel antar typiskt värdena eller och konstrueras så att man kan identifiera vilken kategori detärfråganom.
Alt. : Modellen skrivs X= { man kvinna Y =β +β X+ε vilket är ekvivalent med { β β Y = +ε man β +β +ε kvinna Tolkningen är β ärhalvaförväntadeskillnadeniy mellan kvinnor och män β ärväntevärdetiy förbådatillsammansförutsattattmänochkvinnoräreaktlikamånga Om man har en kategorisk prediktor X med k olika kategorier behövs(k ) st dummyvariabler. Det fungerar inte att utöka med ytterligare en nivå för dummyvariablen, te socker X= medicina medicinb En ökning i X från till blir meningslös! Vi vet välinteomskillnadenmellansockerochmed.bärtvå gånger skillnaden mellan socker och med.a? Ej ekvidistans! Kanske inte ens en ökning! Inför ytterligare en dummyvariabel: X = { ejmedicina medicina X = { ejmedicinb medicinb Tre möjligheter (, ) socker (X,X )= (,) medicina (,) medicinb Vi kan identifiera vilken behandling det är frågan om. Modellen Y =β +β X +β X +ε ger β +ε socker Y = β +β +ε medicina β +β +ε medicinb Tolkning av koefficienter: β :väntevärdetiy efterbehandlingmedsocker β :förväntadskillnadiy mellanmedicinaochsocker β :förväntadskillnadiy mellanmedicinbochsocker Bakgrunden ovan är ett kontrollerat eperiment där manfårettavtremöjligapreparat. Om man kan kombinera preparat, dvs om både medicin A och B kan ges samtidigt, kan det finnas anledning till att ta med samspelseffekter: Y =β +β X +β X +β (X X )+ε ger β +ε socker β Y = +β +ε medicina β +β +ε medicinb β +β +β +β +ε medicina&b
AntagattviharenprediktorXmedtvånivåer,X=A ellerb.viskattarmodellen,dvsparametrarnaβ och β. Inferens: H :β = mot H :β Testvariabeln är som tidigare T = ˆβ Sˆβ t(n p ) Detta test är ekvivalent med testet att tjämföra väntevärden i två populationer H :µ A =µ A mot H :µ A µ B med antagande om lika varians. Två pop.modell Regr.modell Y A N ( µ A,σ ) Y A =β +ε Y B N ( µ B,σ ) Y B =β +β +ε där ε N (,σ ).Ekvivalensenäruppenbargenom attinseatt Man kan givetvis utöka modellen och ta med vanliga kontinuerliga prediktorer. Vadsomärintressantärfrågoravtypen: Är det samma lutning på regressionslinjen i de olika grupperna? Är det samma intercept? y y.7...7.......7.7 Kom ihåg att använda en multiplikativ samspelsterm! y y.7...7.......7.7 µ A =β resp µ B =β +β MetodI(sid7avsnitt-8) Två separata modellskattningar för olika grupper(sid avsnitt -7): Y A = β A +β A X+ε Y B = β B +β B X+ε dvs gör två regressionsanalyser, en för varje grupp och jämför resultaten mellan grupperna/modellerna. Kräver en del ytterligare beräkningar, te poolade variansskattningar (se sid ) eftersom ett av antagandena är att slumptermsvariansen är lika mellan grupperna. Krångligare kan man tycka men ibland har man inte tillgång till rådata, endast färdiga resultat som publicerats. E)EnundersökningiSpanienfinnsredovisadienartikel och man upprepar undersökningen i Sverige. Finns det skillnader? Vilka? Metod II En modellskattning med allt-i-ett (sid 7 avsnitt - 8): Y =β +β X+β Z+β XZ+ε där Z är en dummyvariabel som anger grupptillhörighet. Detta ger A : Y =β +β X+ε B : Y =(β +β )+(β +β )X+ε För att avgöra vilken av de fyra situationerna som gäller körmanpåmeddenvanligainferensen,dvstesta resp H :β = mot H :β H :β = mot H :β Detta alternativ verkar enklare och vettigare än alternativ I, peta in allt och gör en stor allt-i-ett analys. Mensomsagt...
Boken redogör för varje tänkbart test som kan göras förrespektivemetodiochii. test för lika intercept testförlikalutning test för att regressionslinjerna sammanfaller Kap + KD s häfte, Logistisk regression Eempel på icke-linjär regressionsmodell. ()BörjamedenkellinjärregressiondärY ärenkontinuerlig variabel. Obetingat Y Distr ( µ Y, σ Y ) : E(Y)=µ Y, Var(Y)=σ Y Detserutsommycketattlärain... Testen är precis som förut, inget principiellt nytt jämfört med multipel linjär regression! Rekommendation: Läs igenom avsnitt - - - utan att uppehålla er för länge, skippa avsnitt - --. där Distr står för någon fördelning med ändligt väntevärde och ändlig positiv varians. Betingat(modell): Y X N ( β +β X, σ ε : E(Y X)=β +β X : Var(Y X)=σ ε<σ Y Det betingade väntevärdet bestäms av X och dessutom kan vi förklara/predicera Y mycket bättre. ) () Tänk om Y ej är kontinuerlig utan en dikotom variabel,dvskanantavärdenael. Allmänt är det betingade väntevärden för Y givet X som modelleras. Obetingat Y Bernoulli(p Y ) : E(Y)=p Y : Var(Y)=p Y ( p Y ) därp Y ärsannolikhetenförattobserveray =. Kanmanförklaraattmanivissalägentycksobservera etta oftare än nolla? Dvs att sannolikheten för lyckat utfall kanske kan förklaras med någon prediktor? Hur ska modellen i så fall formuleras? Medenkellinjärregressioni()ovanharman f() = β +β = µ Y X= ochdetinsesatt < µ Y X <. Problemi()tyväntevärdetärjuensannolikhet såvibehöverenfunktionf()=µ Y X =p Y X sådan att < p Y X < En linjär funktion uppfyller inte detta krav! Däremotkanjuiprincipvårprediktortillåtasanta vilka värden som helst. Önskemål: hitta enfunktion f() med obegränsad definitionsmängd < < men begränsad värdemängd < f() <
Ett av de vanligaste valen är den logistiska funktionen som definieras f() = ep(α+β) +ep(α+β) = p Y X IKleinbaumetalskrivsdettasom(sid67) f() = men uttrycken är identiska. Omβ>sågälleratt +ep( α β) f() f() ochomβ<sågällerdetomvända. Enintressantpunktsommankanseirapporteringär detvärdepåx närsannolikhetenföry =ärprecis.. Denna punkt kallas LD vilket står för lethal dosage % och inträffar alltid när Forts() Betingat Y X Bernoulli ( p Y X ) : E(Y) = p Y X : Var(Y) = p Y X ( py X ) dvsdetbetingadeväntevärdetföry givetx tolkas/ definieras som en sannolikhet p Y X = P(Y = X=) Denandramöjligahändelsen,Y =,harenbetingad sannolikhet P(Y = X =) = P(Y = X=) = ep(α+β) +ep(α+β) = +ep(α+β) = α/β Odds, Logodds och Oddskvoter Linjär anpassning till binär repsonsvariabel Y,,9,8,7,6,,,,,, X Oddset för en händelse definieras som kvoten mellan sannolikheten för händelsen och sannolikheten för komplementet: Odds(A)= P(A) P(A ) = P(A) P(A) Med logistisk regression får man det betingade oddset förhändelseny =givetx Y-Data,,9,8,7,6,, Logistisk regressionsmodell ep(α+β) P(Y = X) Odds(Y = X) = P(Y = X) = +ep(α+β) +ep(α+β) = ep(α+β),,,, X-Data Oddset för händelsen Y = givet X blir på samma sätt P(Y = X) Odds(Y = X) = P(Y = X) = ep(α+β) = (ep(α+β)) = ep( α β)
Logoddset för en händelse är helt enkelt den naturliga logaritm av oddset: LogOdds(Y = X) = ln(odds(y = X)) = ln(ep(α+β)) = α+β Nu kan vi tolka regressionskoefficienter: αärlogoddset föry =dåx = omändrasmedenhetsåförändraslogoddset föry =medβ KomihågattresponsvariabelnY nuärnågotannatän vad vi har haft tidigare. I () betraktas Y som en observerbar företeelse som kan mätas och sedan jämföras med den skattade Ŷ direkt. I princip skulle vi kunna observera y i =Ŷ e i = Debetingadeväntevärdenaˆµ Y X= liggeriutfallsrummetföry. I () och den logistiska modellen är Y förvisso också observerbar menkan bara anta värdena eller. De skattadeŷ skanukanskehellrebetecknasmedˆp Y X= och tolkas som betingade sannolikheter (för Y = ). Vi kommer aldrig att observera något fall där Y = ˆp Y= X= tybetingadesannolikheternaˆp Y X= antartypisktvärdensomliggermellanoch. En residual måste sålunda tolkas annorlunda: y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvssannolikhetenföry =givetx=. y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvsminussannolikhetenföry =givetx=. Ytterligare en tolkning av regressionskoefficienten β Oddskvoter beskrivs kanske enklast med ett eempel från boken(sid 69 66). Anta en logistisk modell med tre prediktorer Man får X = röker/rökerej X = ålder X = vit/svart LogOdds=α+β +β +β och vill sedan jämföra rökare/icke-rökare bland -åriga svarta. Oddsvkot = OR Odds(Y = år,svart,rökare) = Odds(Y = år,svart,icke-rökare) = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β )
AlltsåomviökarX medenhet(alltannatkonstant) så är den relativa förändringen i oddset, för händelsen Y =,likamedep(β ). Oddskvoter används typiskt för jämförelser mellan olika grupper med avseende på risker för te sjukdomar. E)Hurmycketstörreärriskenfören-årigvitrökare jämfört med en -årig svart icke-rökare? OR = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β +β β ) Odds kanvarasvåraatttolka ibörjan. Menvetman sannolikheten för en händelse så vet man också oddset: Odds(A)= P(A) P(A) Och vet man oddset så vet man också sannolikheten P(A)= Odds(A) +Odds(A) Odds här är inte samma sak som odds i spel som definieras av hur mycket pengar man kommer att få om man satsar rätt. Eller ( A ) SpelOdds(A) = Odds(A) +=P P(A) + därp(a)ärandelenipengarsomharsatsatspåatt A vinner, vilket kan tolkas som en sorts sannolikhet. Inget sagt ännu om skattning av en logistisk regressionsmodell. Typiskt maimeras en likelihoodfunktion, se te eq. (.)sid67ocheq. (.7)sid676. Detta kräver numeriska metoder dvs inget vi frivilligt gör för hand! Använd ett färdigt datorprogram!..