F21 Regressionsanalys, diagnostik och modellval

Relevanta dokument
F7 Polynomregression och Dummyvariabler

Skrivning i ekonometri torsdagen den 8 februari 2007

F23 forts Logistisk regression + Envägs-ANOVA

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Metod och teori. Statistik för naturvetare Umeå universitet

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F1

Skrivning i ekonometri lördagen den 29 mars 2008

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F3

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Skrivning i ekonometri lördagen den 15 januari 2005

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Tentamen i matematisk statistik

Statistik B Regressions- och tidsserieanalys Föreläsning 1

7.5 Experiment with a single factor having more than two levels

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Följande resultat erhålls (enhet: 1000psi):

Regressions- och Tidsserieanalys - F3

Examinationsuppgifter del 2

Multipel Regressionsmodellen

TENTAMEN I MATEMATISK STATISTIK

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Skrivning i ekonometri lördagen den 25 augusti 2007

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning 4. Kap 5,1-5,3

Laboration 2 multipel linjär regression

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Regressions- och Tidsserieanalys - F3

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 12: Regression

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Föreläsning 12: Linjär regression

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

F13 Regression och problemlösning

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

7.5 Experiment with a single factor having more than two levels

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Matematisk statistik, Föreläsning 5

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Tentamen i matematisk statistik

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Statistik för teknologer, 5 poäng Skrivtid:

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Grundläggande matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i matematisk statistik

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

TENTAMEN I STATISTIK B,

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Regressionsanalys av lägenhetspriser i Spånga

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

LABORATION 3 - Regressionsanalys

Tentamen Tillämpad statistik A5 (15hp)

Matematisk statistik för D, I, Π och Fysiker

MVE051/MSG Föreläsning 14

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Formler och tabeller till kursen MSG830

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i matematisk statistik

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Matematisk statistik för B, K, N, BME och Kemister

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Bayesiansk statistik, 732g43, 7.5 hp

Exempel 1 på multipelregression

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Enkel och multipel linjär regression

Statistik 1 för biologer, logopeder och psykologer

Tentamen i Matematisk statistik Kurskod S0001M

Räkneövning 3 Variansanalys

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Transkript:

F Regressionsanalys, diagnostik och modellval Kap Modelldiagnostik, forts Residualanalys Vanliga residaler: e i =y i ŷ i =y i ˆβ +ˆβ i Residualanalys: Residualerna skattar ju slumptermerna varpå modellantagandena vilar. Hur kan vi verifiera att antagandena är uppfyllda? Outlieranalys: Etrema observationer som antingen uppvisar etremt stora residualer eller har ett starkt inflytande på skattningarna, eller både och. Kollinearitet: Hur samvarierar prediktorvariablerna? Är detta ett problem? Standardiserade residualer: Studentiserade residualer: r i = Jackknife residualer: z i = e i S e e i z = i S e hi hi r ( i) = e i S ( i) hi Sakkunskap: Vad är det jag analyserar? Hur har data samlats in? Vad är troliga värden? Observera! Olika namn på samma saker: Kleinbaum et al residuals standardized studentized jackknife Minitab residuals (finns ej, får man skapa själv) standardized studentized eller deleted t residuals Plottas ofta mot de anpassade värdena ŷ i men även mot varje prediktorvariabel för sig. e e Indikationer på om modellantagandena håller eller inte får vi framförallt genom att studera plottar över residualerna. Uppfyller villkoren? e X Mönster ska inte finnas! Kvadratiskt term verkar här! e X X tid Ej lika varians för alla X! Tidsberoende! (Minitab: Residuals v. Order)

Histogram över residualerna: Den empiriska fördelningsfunktionen med en normalfördelning. Är avvikelsen stor? Empirical CDF of Residuals Normal Mean,8 StDev,8 N 8 Normalfördelat? Normalfördelat? Percent 6 Plottar och histogram kan vara svåra att bedöma, medför ett subjektivt element. - - - e Alternativ är kvantitativa mått och test. Probability plot. Är avvikelsen stor? Korvar den sig runt linjen? Probability Plot of Residuals Normal Percent 99 9 9 8 7 6 Mean,8 StDev,8 N AD,76 P-Value, - - - e Normalfördelningstest Tre tillgängliga i Mintab. - Anderson-Darling - baserat på den empiriska fördelningsfunktionen. -Smirnov-Kolmogorov-baseratpåχ -test. - Ryan-Joiner(Shapiro-Wilks)- baserat på korellationer. TestenharsomnollhypotesH attobservationernaär normalfördelade. FörkastaH vidlågap-värden. Notera dock att de kan vara väldigt känsliga för outliers, särskilt vid små stickprov. Test för tidsberoende Runs-test, ett icke-parametriskt test, inga modelantaganden görs(se Hogg&Tanis sid 8-87) Låte i betecknaresidualernaidenordningdeärarrangerade efter(e tid). BetecknamedAome i >ochuome i <ochskriv ned sekvensen av alla A och u. Räkna sedan antalet runs dvsgrupperavarespu: uuuu A uu AAAAA runs här. Ser inte slumpmässigt ut! Fler negativa residualer(u) i början av serien. AuAuAuAuAuAu runshär. Serdetmerslumpmässigtut? För att det ska fungera i Minitab (som använder en normalapproimering) rekommenderas ett minimum av avvarderaaochb.mintab-kommando: RUNSC.

Autokorrelation, studera sambandet mellan närliggande residualer i termer av korrelation. Kan testas med Durbin-Watson test(finns i Minitab, Regression > Options) Test för lika varians(homoskedasticitet) Finns några (se sid 7). Förutsätter (ibland) flera observationer per observerat -värde. y C C e e e e. e. e n e n e n e n iminitab: LAGCC CORRCC Enkelt alternativ: studera rangkorrelationen mellan e i och i dvs Spearmans rangkorrelationstest från grundkursen. Omdennaärstörreänettkritisktvärde(frånentabell) förkastas nollhypotesen att rangkorrelationen är, vilket motsvarar idén att storleken på en residual inte beror på. Detta kommer att användas i större omfattning på momentet Tidsserieanalys. Eempel) Vi får följande: Residuals vs X Residuals vs X 6 Residual - Residual 8 6 - - 6 7 8 9 6 7 8 9 och plottar vi sedan rangerna för residualerna mot rangerna förx fårvi Rank e Rank e vs Rank X Outlieranalys Outlier = etrem observation som ligger långt utanför det område där de flesta övriga observationerna befinner sig. Rank X Residualer, e - Rangkorrelationen blir i detta fall.6; detta är större än det kritiska värdet.77 (α = %,n=8); alltså finns det samband mellan storleken på e i och storlekenpå i,dvsdetärintehomoskedastiskt. - - Anpassade värden, y-hat Stor residual? Stort inflytande? Outlier; antingen i prediktorrummet eller som stor residualellerbådeoch. Närärdettillräckligtlångtbortresp för stort, när ska man reagera? Man vill mäta leverage och inflytande(influence) Tremått(iKleinbaumetal.) -Leveragemått h i -Cooksavståndsmått d i -Jackkniferesidualer r ( i)

Leveragemåtteth i är ett avståndsmått i prediktorrummet, mäter hur långt bort den i:te prediktorpunkten befinner sig från centrum, dvs avståndet mellan ( i, i,..., ik ) och (,,..., k ) jämförmedfigurovan. Typisktberäknash i mhadator, kräver matrisalgebra. Vid enkel linjär regression(med en prediktor) kan det visas att h i = n + ( i ) (n )s Egenskaper allmänt med k prediktorer: n h i (ommanharettinterceptimodellen) k+ hi =k+ h= n Omh i liggernäraettinnebärdettaattdeni:teobservationen har tvingat in modellen nästan genom punkten ( i,y i ). Approimativt ska ett histogram över h i na påminnaomenχ -fördelning. Tumregel: se upp för observationer där Cook savståndd i h i > (k+) n är ett inflytandemått. Hur mycket påverkas skattningen av regressionskoefficienterna om den i:te observationen tas med/tas bort? Om prediktorerna har medelvärde =, samma varians ochärokorreleradegällerattd i ärproportionellmot k j= (ˆβj ˆβ j( i) ) därˆβ j ärskattningenmedallaobservationerochˆβ j( i) är skattningen med den i:te borttagen. Allmänt gäller att e d i = i h i (k+)s e ( h i) = r i h i (k+)( h i ) > dvsd i ärpositivtmenejbegränsatuppåt. d i kanalltså vara stor pga att observationen är etrem i prediktorrummet eller för att den får en stor studentiserad redsidual. Approimativt är d i F(k,n k ) Tumregel (möjligen otillförlitlig): se upp för observationerdärd i >.(sesid). Tabell A- i Kleinbaum et al ger kritiska värden för den största av samtliga observerade d i, dvs mad i, förnobservationerochkprediktorer(egentligend i antalet frihetsgrader). Om man observerar mad i som är större än tabellvärdet = reagera! Jackkniferesidualer e i : resdual,avståndmellanobserveratochpredicerat s ( i) : jackknife-skattningavσ ε h i : leverage,måttpåavståndetmellandeni:teprediktorpunkten och centrum Jackknife-residualen sammanför dessa tre mått: r ( i) = e i s ( i) hi Testaomr ( i) ärsignifikantskiltfrånnoll,t-fördelat medn p frihetsgrader. Obs!Vikantestanstyckenh i,d i ochr ( i),mendetta kräver justering av signifikansnivån, se sidorna 9- och s.k. Bonferroni-korrektion.

Residualanalys och olika inflytande mått är indikatorer på besvärliga/konstiga observationer. I Minitab: Som en övning kan ni, via Storage-knappen väljaattsparadeolikamåttengenomattklickairesp bo. Vi kommer alltid att observera en största residual, leverage och Cook s mått osv. Attblintförlitasigpåkvantitativamåttärinteatt rekommendera. Vi kan alltid indentifiera outliers och eventuellt ta bort dessa från analysen, men med största försiktighet! Vadmanskafrågasigärvarförengivenobservation är etrem. Föreligger det mätfel? Datainsamlingsproblem? Är de observerade värdena omöjliga, otroliga eller bara lagom etrema? Sedankanniundersökadessagenomteattskapahistogram, DESC-kommandot, osv. Ienkellinjärregressionkannisenågotintressantomni plotttarh i motprediktorvariabelnx.vadberormönstret på? Manmåstevetanågotombakgrundenochförutsättningarna för analysen! Multikollinearitet SambandmellanprediktorernaX,X,...,X k Ett eempel med två prediktorer, Y i =β +β X i +β X i +ε i Det kan visas att skattningarna kan skrivas som ( ) ˆβ j =c j r, j=, därc j ärenkonstantsomberorpådataochr är korrelationenmellanx ochx. Antag att i = i. Då är r = och om vi skattar regressionsmodellen får vi ( ) ˆβ j =c j =? Koefficienternaˆβ,ˆβ ochˆβ kanejbestämmasentydigt! Dessutomärvariansskattningarnaför ˆβ j proportionella mot inflationsfaktorn / ( r ) och osäkerheten i skattningarna ökar! Det uppstår problem om en prediktor kan skrivas som en linjärkombination av de övriga, te X =γ +γ X +...+γ k X k Att kvantifiera och bedöma kollinearitet rör endast prediktorerna, ej responsvariabeln Y. Antag att man har k stycken prediktorer i modellen. Skatta alla k modeller som kan formuleras med den j:te prediktorn som responsvariabel och de övriga k som prediktorer: : X =α +α X +...+α k X k : X =α +α X +α X...+α k X k. k : X k =α k +α k X +...+α k(k ) X k För varje sådan modell får vi ett R -värde,betecknat Rj avseendeprediktorj. VadmäterR j? Variation Inflation Factor (VIF) VIF j = R, j=,,...,k j

Om R j så gäller att VIF j. Alternativt definieras toleransen VIF j = R j Tumregel: seuppomvif j >. I Minitab: via Options-knappen, klicka för boen Variance inflation factors och studera sedan utskriften. (LäsävendiskussionenomVIF,dvsförinterceptet, sid -, men skippa fortsättningen sid -.) Problem med multikollinearitet kan ofta uppstå i samband med Polynomregression(kap) och modeller med Samspelstermer(kap ). Eempel med polynomregression på sidorna 9-. Modellen µ Y X =β +β X+β X kangeproblemomx ochx ärstarktlinjärtkorrelerade i data. Centrera istället enligt ovan och skatta modellen µ Y X = β +β W +β W ( X X = β +β ) +β ( ) X X Eempel med samspelstermer, se datorövning -. Skippa sidorna 6- dock ej avsnitt -9. En metod som kan reducera multikollinearitet är att centrera observationerna runt respektive medelvärde, dvsförvarjeprediktor(j =,...,k)ochobservation (i=,...,n)beräknas W ij =X ij X j som får ersätta de ursprungliga observerade värdena. Kap6AttVäljaBästaModell. Definiera en maimal modell allatänkbaraprediktorer: X,X,... potenseravprediktorer: X,X,... ev. transformationer: lnx, /X,... samspelstermer: X X,X X,... kontrollvariabler och deras ev potenser, transformationer, samspelstermer... Problem med överanpassning (overfitting), dvs att ta medsådantominteingåriden sanna modellenmedför inte bias. Däremot ev. problem med multikollinearitet. Även möjliga problem med antalet frihetsgrader(df = n q ). Omdf =såblirr =ävenomdeti populationenärsåattr =. Tumregel i boken: minst observationer per prediktor (även potenser, samspelstermer etc). Även tolkningsproblem med alltför stora modeller(kom ihåg Occam s razor).. Definiera kriterium för val av modell Modellvalskriterium som kan beräknas för varje modell vianalyserar/skattardvsettindeattjämföramodeller med varandra. Fyrabehandlasiboken: R p,f p,mse p ochc p Utgå ifrån en jämförelse mellan två modeller, en full (maimal) och en mindre(reducerad): β +β X +..+β p X p +β }{{} p+ X p+ +..+β k X k reducerad modell, p pred }{{} maimal modell, k st prediktorer

R k jämförtmedr p,andelförklaradvariation tenderarattöverskattasantr flerprediktorer högrer R k alltidstörreänr p alternativ: R adj F p dvs F-kvoten från multipelt partiellt F-test (ekv. (6.)) F p = [SSE(reducerad) SSE(full)]/(k p) SSE(full)/(n k ) MSE p dvsskattningen ˆσ Y X =ˆσ ε =SSE(reducerad) n p Vi vill ha en modell med liten slumptermsvarians. Hur ska man jämföra modeller? Mallow sc p definieras(ekv. (6.6)) C p = SSE(reducerad) MSE(full) (n (p+)) OmMSE(reducerad) MSE(full)såblir C p p+ OmC p >p+såfinnsdetförmodligenutrymme förflerprediktorer,omc p <p+harniförmodligen överanpassat modellen. Kriterier baserade på informationsteori, te Akaike Information Criterium AIC=nlogMSE+p Schwartz Bayesian Criterium SBC=BIC=nlogMSE+plogn straffar för stora modeller och belönar stora minskningar i osäkerhet(residualvarianser) närmanjämförvärdenärdetbättremeddet mindre. Definiera en strategi för val av variabler Jämför alla möjliga modeller Många prediktorer ännu fler modeller E) p prediktorer ger(med bara huvudeffekter) ( p) ( p) ( p) ( p) + + +...+ = p p olika modeller att skatta och analysera! Byggauppfråntommodell. Skatta tom modell. Givet modellen, vilken enskild prediktor bör läggas till? Kriterium: F-test.. Läggtilldenna. Skattautökadmodell,gåtill. Reducera en full modell. Skatta full modell. Vilkenprediktorkantasbortutanattdetförsvinner en stor andel förklarad variation? Kriterium: F-test.. Tabortdenna. Skatta reducerad modell, gå till. Stegvis regression(minitab: Stepwise) variant av de två oföregående, välj själva om ni vill börja uppifrån eller nerifrån i varje steg analyseras om en prediktor man tidigare slängde bort borde tas med igen alternativtensomtidigaretogsmednubörslängas bort iminitabangeskriterierförattlägga tillresp ta bort

Minitab dialogfönster för kriterier (Methods-knappen) med stegvis regression:. Validering, bedömning av modellens tillförlitlighet Om modellen lyckas predicera nya observationer bra så är det en tillförlitlig(reliable) modell. Hur ska man bedöma detta innan man får nya observationer? Split-sample metoden: Delauppmaterialetitvå(ellerflera)grupper. Genomför analysen Identifiera modellen och skatta den genom att använda en grupp Närmanvälharbestämtsigförenmodellskaenmer fullständig analys genomföras (residualanalys, outlieranalys enligt tidigare) Predicera nya Y-värden, dvs Y, med prediktorvärdena från den andra gruppen. BeräknaprediktionsfeletdvsY Ŷ ochdessvarians Kom ihåg, arbetsgången är ofta en iterativ process:. Postulera en modell inkl antaganden Parameterskattning, använd data Verifiering av modellen test, diagnostik Modellen accepterad använd modellen Ny eller modifierad modell Modellen håller inte, förkastas

y y F Regressionsanalys forts och Logistisk regression Antag att man börjar med enkel linjär regression. Kap Polynomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polynom av k:te ordningen Y =β +β X+β X +...+β k X k +ε där(som tidigare) ε iid N (,σ ) ε tillsammans med övriga antaganden(vilka är dessa?). Ett antagande måste dock ändras. Vilket? Typisk indikation på att man gjort fel ska man se i mönstret som uppstår i residualplotten: Residual,,,, -, -, Modellen uttryckt i termer av betingat väntevärde -, µ Y X =β +β X+β X +...+β k X k Alltså anpassa istället en kvadratisk modell till data! MK-skattningen går till precis som förut, vi minimerar nu Q= ( yi β +β i +β ) i Vi vill alltså minimera summan av de kvadrerade avståndentilllinjensomnuärenkvadratisklinje. 6 Residualer: e = y - ^ ^ ^ ^ y = y - b - b - b Resultatet blir som vanligt en ANOVA-tablå: Analysis of Variance Y =, -,7 X +,9 X Predictor Coef StDev T P Constant,,69 6,9, X -,78,6 -,78, X,9,6 7,76, S =,7 R-Sq = 9,7% R-Sq(adj) = 9,9% Betrakta somenetraprediktorvariabelprecissom vanligt i multipel linjär regression. IMinitab:sägattY liggericochx ic. Analysis of Variance Source DF SS MS F Regression 9,7 9,6, Residual Error,,6 Total,678 Analysis of Variance Source DF Seq SS X 9,8 X 9,7 Kommando: MTB> LET C=C** Anger sedan C och C som prediktorer i dialogrutan.

Y Y Inferensen går till precis som förut:. MSR/MSE F(,n ), overalltestför modellen som helhet. SSR(X) / MSE(X) F(,n ), test för enbart X (först in, enkel linjär modell) LackofFittest Beskrivspåsid9-9. Oftaisambandmedjustpolynomregression. I Minitab: i Regressionsfönstret, klicka på Options-knappen ochunder LackofFitTests väljantingen PureError omniharreplikatdvsfleraobservationerperxvärde eller Data subsetting om ni inte har det... SSR(X X) MSE(X,X F(,n ), partielltf-testför ) X givetx SSR(X,X Z)/ MSE(Z,X,X F(,n ), multipeltpartielltf-testförx ochx ) givetnågotz. E) Anpassning till en linjär modell verkar inte vara rätt här: Fitted Line Plot Y =,6 +,7 X S,79 R-Sq 6,9% R-Sq(adj),% X. och motsvarande ekvivalenta t-test...(sist-in-test) Resultatet i Minitab: Possible curvature in variable X(P-Value=,) Possible lack of fit at outer X-values(P-Value=,) OveralllackoffittestissignificantatP=, Anpassning till en kvadratisk modell verkar bättre Fitted Line Plot Y = -,7 +, X -, X** S,68 R-Sq 96,9% R-Sq(adj) 96,7% E)AntagattfemvärdenpåXobserverasenligtnedan. Insättning av en kvadratisk term i modellen ger X..... X... 6. 9. Corr ( X,X ) =.989 VIF =.989 =.7 X 9 8 7 6 IMinitab: Noevidenceoflackoffit(P>=,). X Vadmanskatänkapåärattdetkanbliproblemmed multikollinearitet! Hurskamanlösadetta? X Boken ger en lång beskrivning av sk ortogonala polynom som kan användas för att skapa nya prediktorer med en mängd trevliga egenskaper men det är alldeles förmycketfördenhärkursen!

Enklare metod som fungerar alldeles utmärkt med kvadratiska samband är centrering runt medelvärdet, dvs skapa följande nya prediktorer, X =( X X ) och X =( X X ) Effekten av denna enkla transformering kan illustreras med eempelt ovan: X..... X =( X X )..... X =( X X )..... Corr(X,X )= VIF = = Ny plott X*,,8,6 AnvändX ochx iskattningenavmodellenochvi får Ŷ =ˆβ +ˆβ ( X X ) +ˆβ ( X X ) vilket kan skrivas om enligt Ŷ = (ˆβ ˆβ X+ˆβ X ) + }{{} =ˆβ + ˆβ }{{} X =ˆβ (ˆβ ˆβ X ) X }{{} =ˆβ dvs de skattningar man skulle få utan att centrera! Dettaärettenkeltsättattbliavmedett självförvållat problem! Svårare däremot att bli av med multikollinearitetsproblem vid polynomregression av högre ordning, särskilt med udda potenser (X,X ), se sid 99.,,, -, -,, X*,, Kap Dummyvariabler E)X=kön Hittills har vi haft kontinuerliga prediktorer X. Ofta har man kategoriska prediktorer (nominal- el ordinalskala). Alt. : Modellen skrivs X= { man kvinna E) X=manellerkvinna X=sockerpillerelMedicinAelMedicinB X = kallt, ljummet, varmt X=Saab,Audi,Volvo,Toyota,... För att hantera detta används dummyvariabler! Annat namn: indikatorvariabler. Y =β +β X+ε vilket är ekvivalent med { β +ε man Y = β +β +ε kvinna Tolkningen är β ärväntevärdetiy förmän β ärförväntadeskillnadenmellankvinnor och män En dummyvariabel antar typiskt värdena eller och konstrueras så att man kan identifiera vilken kategori detärfråganom.

Alt. : Modellen skrivs X= { man kvinna Y =β +β X+ε vilket är ekvivalent med { β β Y = +ε man β +β +ε kvinna Tolkningen är β ärhalvaförväntadeskillnadeniy mellan kvinnor och män β ärväntevärdetiy förbådatillsammansförutsattattmänochkvinnoräreaktlikamånga Om man har en kategorisk prediktor X med k olika kategorier behövs(k ) st dummyvariabler. Det fungerar inte att utöka med ytterligare en nivå för dummyvariablen, te socker X= medicina medicinb En ökning i X från till blir meningslös! Vi vet välinteomskillnadenmellansockerochmed.bärtvå gånger skillnaden mellan socker och med.a? Ej ekvidistans! Kanske inte ens en ökning! Inför ytterligare en dummyvariabel: X = { ejmedicina medicina X = { ejmedicinb medicinb Tre möjligheter (, ) socker (X,X )= (,) medicina (,) medicinb Vi kan identifiera vilken behandling det är frågan om. Modellen Y =β +β X +β X +ε ger β +ε socker Y = β +β +ε medicina β +β +ε medicinb Tolkning av koefficienter: β :väntevärdetiy efterbehandlingmedsocker β :förväntadskillnadiy mellanmedicinaochsocker β :förväntadskillnadiy mellanmedicinbochsocker Bakgrunden ovan är ett kontrollerat eperiment där manfårettavtremöjligapreparat. Om man kan kombinera preparat, dvs om både medicin A och B kan ges samtidigt, kan det finnas anledning till att ta med samspelseffekter: Y =β +β X +β X +β (X X )+ε ger β +ε socker β Y = +β +ε medicina β +β +ε medicinb β +β +β +β +ε medicina&b

AntagattviharenprediktorXmedtvånivåer,X=A ellerb.viskattarmodellen,dvsparametrarnaβ och β. Inferens: H :β = mot H :β Testvariabeln är som tidigare T = ˆβ Sˆβ t(n p ) Detta test är ekvivalent med testet att tjämföra väntevärden i två populationer H :µ A =µ A mot H :µ A µ B med antagande om lika varians. Två pop.modell Regr.modell Y A N ( µ A,σ ) Y A =β +ε Y B N ( µ B,σ ) Y B =β +β +ε där ε N (,σ ).Ekvivalensenäruppenbargenom attinseatt Man kan givetvis utöka modellen och ta med vanliga kontinuerliga prediktorer. Vadsomärintressantärfrågoravtypen: Är det samma lutning på regressionslinjen i de olika grupperna? Är det samma intercept? y y.7...7.......7.7 Kom ihåg att använda en multiplikativ samspelsterm! y y.7...7.......7.7 µ A =β resp µ B =β +β MetodI(sid7avsnitt-8) Två separata modellskattningar för olika grupper(sid avsnitt -7): Y A = β A +β A X+ε Y B = β B +β B X+ε dvs gör två regressionsanalyser, en för varje grupp och jämför resultaten mellan grupperna/modellerna. Kräver en del ytterligare beräkningar, te poolade variansskattningar (se sid ) eftersom ett av antagandena är att slumptermsvariansen är lika mellan grupperna. Krångligare kan man tycka men ibland har man inte tillgång till rådata, endast färdiga resultat som publicerats. E)EnundersökningiSpanienfinnsredovisadienartikel och man upprepar undersökningen i Sverige. Finns det skillnader? Vilka? Metod II En modellskattning med allt-i-ett (sid 7 avsnitt - 8): Y =β +β X+β Z+β XZ+ε där Z är en dummyvariabel som anger grupptillhörighet. Detta ger A : Y =β +β X+ε B : Y =(β +β )+(β +β )X+ε För att avgöra vilken av de fyra situationerna som gäller körmanpåmeddenvanligainferensen,dvstesta resp H :β = mot H :β H :β = mot H :β Detta alternativ verkar enklare och vettigare än alternativ I, peta in allt och gör en stor allt-i-ett analys. Mensomsagt...

Boken redogör för varje tänkbart test som kan göras förrespektivemetodiochii. test för lika intercept testförlikalutning test för att regressionslinjerna sammanfaller Kap + KD s häfte, Logistisk regression Eempel på icke-linjär regressionsmodell. ()BörjamedenkellinjärregressiondärY ärenkontinuerlig variabel. Obetingat Y Distr ( µ Y, σ Y ) : E(Y)=µ Y, Var(Y)=σ Y Detserutsommycketattlärain... Testen är precis som förut, inget principiellt nytt jämfört med multipel linjär regression! Rekommendation: Läs igenom avsnitt - - - utan att uppehålla er för länge, skippa avsnitt - --. där Distr står för någon fördelning med ändligt väntevärde och ändlig positiv varians. Betingat(modell): Y X N ( β +β X, σ ε : E(Y X)=β +β X : Var(Y X)=σ ε<σ Y Det betingade väntevärdet bestäms av X och dessutom kan vi förklara/predicera Y mycket bättre. ) () Tänk om Y ej är kontinuerlig utan en dikotom variabel,dvskanantavärdenael. Allmänt är det betingade väntevärden för Y givet X som modelleras. Obetingat Y Bernoulli(p Y ) : E(Y)=p Y : Var(Y)=p Y ( p Y ) därp Y ärsannolikhetenförattobserveray =. Kanmanförklaraattmanivissalägentycksobservera etta oftare än nolla? Dvs att sannolikheten för lyckat utfall kanske kan förklaras med någon prediktor? Hur ska modellen i så fall formuleras? Medenkellinjärregressioni()ovanharman f() = β +β = µ Y X= ochdetinsesatt < µ Y X <. Problemi()tyväntevärdetärjuensannolikhet såvibehöverenfunktionf()=µ Y X =p Y X sådan att < p Y X < En linjär funktion uppfyller inte detta krav! Däremotkanjuiprincipvårprediktortillåtasanta vilka värden som helst. Önskemål: hitta enfunktion f() med obegränsad definitionsmängd < < men begränsad värdemängd < f() <

Ett av de vanligaste valen är den logistiska funktionen som definieras f() = ep(α+β) +ep(α+β) = p Y X IKleinbaumetalskrivsdettasom(sid67) f() = men uttrycken är identiska. Omβ>sågälleratt +ep( α β) f() f() ochomβ<sågällerdetomvända. Enintressantpunktsommankanseirapporteringär detvärdepåx närsannolikhetenföry =ärprecis.. Denna punkt kallas LD vilket står för lethal dosage % och inträffar alltid när Forts() Betingat Y X Bernoulli ( p Y X ) : E(Y) = p Y X : Var(Y) = p Y X ( py X ) dvsdetbetingadeväntevärdetföry givetx tolkas/ definieras som en sannolikhet p Y X = P(Y = X=) Denandramöjligahändelsen,Y =,harenbetingad sannolikhet P(Y = X =) = P(Y = X=) = ep(α+β) +ep(α+β) = +ep(α+β) = α/β Odds, Logodds och Oddskvoter Linjär anpassning till binär repsonsvariabel Y,,9,8,7,6,,,,,, X Oddset för en händelse definieras som kvoten mellan sannolikheten för händelsen och sannolikheten för komplementet: Odds(A)= P(A) P(A ) = P(A) P(A) Med logistisk regression får man det betingade oddset förhändelseny =givetx Y-Data,,9,8,7,6,, Logistisk regressionsmodell ep(α+β) P(Y = X) Odds(Y = X) = P(Y = X) = +ep(α+β) +ep(α+β) = ep(α+β),,,, X-Data Oddset för händelsen Y = givet X blir på samma sätt P(Y = X) Odds(Y = X) = P(Y = X) = ep(α+β) = (ep(α+β)) = ep( α β)

Logoddset för en händelse är helt enkelt den naturliga logaritm av oddset: LogOdds(Y = X) = ln(odds(y = X)) = ln(ep(α+β)) = α+β Nu kan vi tolka regressionskoefficienter: αärlogoddset föry =dåx = omändrasmedenhetsåförändraslogoddset föry =medβ KomihågattresponsvariabelnY nuärnågotannatän vad vi har haft tidigare. I () betraktas Y som en observerbar företeelse som kan mätas och sedan jämföras med den skattade Ŷ direkt. I princip skulle vi kunna observera y i =Ŷ e i = Debetingadeväntevärdenaˆµ Y X= liggeriutfallsrummetföry. I () och den logistiska modellen är Y förvisso också observerbar menkan bara anta värdena eller. De skattadeŷ skanukanskehellrebetecknasmedˆp Y X= och tolkas som betingade sannolikheter (för Y = ). Vi kommer aldrig att observera något fall där Y = ˆp Y= X= tybetingadesannolikheternaˆp Y X= antartypisktvärdensomliggermellanoch. En residual måste sålunda tolkas annorlunda: y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvssannolikhetenföry =givetx=. y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvsminussannolikhetenföry =givetx=. Ytterligare en tolkning av regressionskoefficienten β Oddskvoter beskrivs kanske enklast med ett eempel från boken(sid 69 66). Anta en logistisk modell med tre prediktorer Man får X = röker/rökerej X = ålder X = vit/svart LogOdds=α+β +β +β och vill sedan jämföra rökare/icke-rökare bland -åriga svarta. Oddsvkot = OR Odds(Y = år,svart,rökare) = Odds(Y = år,svart,icke-rökare) = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β )

AlltsåomviökarX medenhet(alltannatkonstant) så är den relativa förändringen i oddset, för händelsen Y =,likamedep(β ). Oddskvoter används typiskt för jämförelser mellan olika grupper med avseende på risker för te sjukdomar. E)Hurmycketstörreärriskenfören-årigvitrökare jämfört med en -årig svart icke-rökare? OR = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β +β β ) Odds kanvarasvåraatttolka ibörjan. Menvetman sannolikheten för en händelse så vet man också oddset: Odds(A)= P(A) P(A) Och vet man oddset så vet man också sannolikheten P(A)= Odds(A) +Odds(A) Odds här är inte samma sak som odds i spel som definieras av hur mycket pengar man kommer att få om man satsar rätt. Eller ( A ) SpelOdds(A) = Odds(A) +=P P(A) + därp(a)ärandelenipengarsomharsatsatspåatt A vinner, vilket kan tolkas som en sorts sannolikhet. Inget sagt ännu om skattning av en logistisk regressionsmodell. Typiskt maimeras en likelihoodfunktion, se te eq. (.)sid67ocheq. (.7)sid676. Detta kräver numeriska metoder dvs inget vi frivilligt gör för hand! Använd ett färdigt datorprogram!..