F7 Polynomregression och Dummyvariabler

Relevanta dokument
Regressions- och Tidsserieanalys - F7

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F1

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F1

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Skrivning i ekonometri lördagen den 29 mars 2008

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F4

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Metod och teori. Statistik för naturvetare Umeå universitet

Exempel 1 på multipelregression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

F21 Regressionsanalys, diagnostik och modellval

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Skrivning i ekonometri lördagen den 15 januari 2005

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Multipel Regressionsmodellen

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen i matematisk statistik

Skrivning i ekonometri lördagen den 25 augusti 2007

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Föreläsning 4. Kap 5,1-5,3

TENTAMEN I MATEMATISK STATISTIK

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Räkneövning 3 Variansanalys

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

F23 forts Logistisk regression + Envägs-ANOVA

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

tentaplugg.nu av studenter för studenter

TENTAMEN I STATISTIK B,

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Laboration 2 multipel linjär regression

Tentamen i matematisk statistik

Tentamen Tillämpad statistik A5 (15hp)

Grundläggande matematisk statistik

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Examinationsuppgifter del 2

TAMS 28 DATORÖVNING 2

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Kvadratisk regression, forts.

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Tentamen i matematisk statistik

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

F11. Kvantitativa prognostekniker

Tentamen i matematisk statistik

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Följande resultat erhålls (enhet: 1000psi):

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Tentamen i matematisk statistik

Regressions- och Tidsserieanalys - F5

Exempel 1 på multipelregression

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

7.5 Experiment with a single factor having more than two levels

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

TAMS65 - Seminarium 4 Regressionsanalys

Föreläsning G60 Statistiska metoder

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning 12: Linjär regression

oberoende av varandra så observationerna är

7.5 Experiment with a single factor having more than two levels

Uppgift a b c d e f (vet ej) Poäng

Matematisk statistik för B, K, N, BME och Kemister

Statistik för teknologer, 5 poäng Skrivtid:

Tentamen i Matematisk statistik Kurskod S0001M

Läs noggrant informationen nedan innan du börjar skriva tentamen

8.1 General factorial experiments

MVE051/MSG Föreläsning 14

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

F7 Polnomregression och Dummvariabler Antag att man börjar med enkel linjär regression. Kap Polnomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polnom av k:te ordningen Y =β +β +β +...+β k k +ε där(som tidigare) ε iid N (,σ ) ε tillsammans med övriga antaganden(vilka är dessa?). Ett antagande måste dock ändras. Vilket? Tpisk indikation på att man gjort fel ska man se i mönstret som uppstår i residualplotten: Residual,,,, -, -, Modellen uttrckt i termer av betingat väntevärde -, µ Y =β +β +β +...+β k k Alltså anpassa istället en kvadratisk modell till data! MK-skattningen går till precis som förut, vi minimerar nu Q= ( i β +β i +β ) i Vi vill alltså minimera summan av de kvadrerade avståndentilllinjensomnuärenkvadratisklinje. 6 Residualer: e = - ^ ^ ^ ^ = - b - b - b Resultatet blir som vanligt en ANOVA-tablå: Analsis of Variance Y =, -,7 +,9 Predictor Coef StDev T P Constant,,69 6,9, -,78,6 -,78,,9,6 7,76, S =,7 R-Sq = 9,7% R-Sq(adj) = 9,9% Betrakta somenetraprediktorvariabelprecissom vanligt i multipel linjär regression. IMinitab:sägattY liggericoch ic. Analsis of Variance Source DF SS MS F Regression 9,7 9,6, Residual Error,,6 Total,678 Analsis of Variance Source DF Seq SS 9,8 9,7 Kommando: MTB> LET C=C** Anger sedan C och C som prediktorer i dialogrutan.

Y Y Inferensen går till precis som förut:. MSR/MSE F(,n ), overalltestför modellen som helhet. SSR() / MSE() F(,n ), test för enbart (först in, enkel linjär modell) LackofFittest Beskrivspåsid9-9. Oftaisambandmedjustpolnomregression. I Minitab: i Regressionsfönstret, klicka på Options-knappen ochunder LackofFitTests väljantingen PureError omniharreplikatdvsfleraobservationerpervärde eller Data subsetting om ni inte har det... SSR( ) MSE(, F(,n ), partielltf-testför ) givet SSR(, Z)/ MSE(Z,, F(,n ), multipeltpartielltf-testför och ) givetnågotz. E) Anpassning till en linjär modell verkar inte vara rätt här: Fitted Line Plot Y =,6 +,7 S,79 R-Sq 6,9% R-Sq(adj),%. och motsvarande ekvivalenta t-test...(sist-in-test) Resultatet i Minitab: Possible curvature in variable (P-Value=,) Possible lack of fit at outer -values(p-value=,) OveralllackoffittestissignificantatP=, Anpassning till en kvadratisk modell verkar bättre Fitted Line Plot Y = -,7 +, -, ** S,68 R-Sq 96,9% R-Sq(adj) 96,7% E)Antagattfemvärdenpåobserverasenligtnedan. Insättning av en kvadratisk term i modellen ger........ 6. 9. Corr (, ) =.989 VIF =.989 =.7 9 8 7 6 IMinitab: Noevidenceoflackoffit(P>=,). Vadmanskatänkapåärattdetkanbliproblemmed multikollinearitet! Hurskamanlösadetta? Boken ger en lång beskrivning av sk ortogonala polnom som kan användas för att skapa na prediktorer med en mängd trevliga egenskaper men det är alldeles förmcketfördenhärkursen!

Enklare metod som fungerar alldeles utmärkt med kvadratiska samband är centrering runt medelvärdet, dvs skapa följande na prediktorer, =( ) och =( ) Effekten av denna enkla transformering kan illustreras med eempelt ovan:..... =( )..... =( )..... Corr(, )= VIF = = N plott *,,8,6 Använd och iskattningenavmodellenochvi får Ŷ =ˆβ +ˆβ ( ) +ˆβ ( ) vilket kan skrivas om enligt Ŷ = (ˆβ ˆβ +ˆβ ) + }} =ˆβ + ˆβ }} =ˆβ (ˆβ ˆβ ) }} =ˆβ dvs de skattningar man skulle få utan att centrera! Dettaärettenkeltsättattbliavmedett självförvållat problem! Svårare däremot att bli av med multikollinearitetsproblem vid polnomregression av högre ordning, särskilt med udda potenser (, ), se sid 99.,,, -, -,, *,, Kap Dummvariabler E)D=kön Hittills har vi haft kontinuerliga prediktorer. Ofta har man kategoriska prediktorer (nominal- el ordinalskala). Modellen skrivs D i = man kvinna E) D=manellerkvinna(nominal) D = geografisk indikator(nominal) D = Saab, Audi, Volvo, Toota,... (nominal) D = lågt, medium, högt(ordinal) För att hantera detta används dummvariabler! Andra namn: indikatorvariabler, kategoriska eller kvalitativa variabler En dummvariabel antar tpiskt värdena eller och konstrueras så att man kan identifiera vilken kategori detärfråganom. Y i =β +β D i +ε vilket är ekvivalent med β +ε man Y i = β +β +ε kvinna Tolkningen av koefficienterna: β :väntevärdetiy förmän β :förväntadskillnadiy mellankvinnorochmän

Om man har en kategorisk prediktor med k olika kategorier behövs(k ) st dummvariabler. Det fungerar inte att utöka med tterligare en nivå för dummvariablen, te Stockholm D i = Göteborg Malmö Enökningi fråntillblirmeningslös! Vivetväl inte om skillnaden mellan Stockholm och Malmö är två gånger skillnaden mellan Stockholm och Göteborg? Ej ekvidistans! Kanske inte ens en ökning! Inför tterligare en dummvariabel: ejgöteborg D i = D Göteborg i = ejmalmö Malmö ger tre möjligheter (, ) Stockholm (D i,d i )= (, ) Göteborg (,) Malmö Vi kan identifiera vilken kategori det är frågan om. Modellen ger Y =β +β D +β D +ε β +ε Stockholm Y = β +β +ε Göteborg β +β +ε Malmö Tolkning av koefficienter: β :väntevärdetiy förstockholm β :förväntadskillnadiy mellangöteborgochstockholm β :förväntadskillnadiy mellanmalmöochstockholm β β :förväntadskillnadiy mellangöteborgoch Malmö Man kan givetvis utöka modellen och ta med vanliga kontinuerliga prediktorer, dvs våra vanliga prediktorer. vilket ger två möjligheter: Y =β +β D+β +ε Vadsomärintressantärfrågoravtpen: Är det samma lutning på regressionslinjen i de olika grupperna? Är det samma intercept? D = = Y =β +β +ε D = = Y =(β +β )+β +ε.7.7 dvs två olika regressionsmodeller där intercepten är olika för de två kategorierna........7...7 En utökad variant som ofta studeras är följande: Y =β +β +β D+β (D)+ε.7.7... vilket ger två möjligheter: D = = Y =β +β +ε D = = Y =(β +β )+(β +β )+ε...7....7 dvs två olika regressionsmodeller där intercepten och lutning är olika för de två kategorierna.

MetodI(sid7avsnitt-8) Två separata modellskattningar för olika grupper(sid avsnitt -7): Y A = β A +β A +ε Y B = β B +β B +ε dvs gör två regressionsanalser, en för varje grupp och jämför resultaten mellan grupperna/modellerna. Kräver en del tterligare beräkningar, te poolade variansskattningar (se sid ) eftersom ett av antagandena är att slumptermsvariansen är lika mellan grupperna. Krångligare kan man tcka men ibland har man inte tillgång till rådata, endast färdiga resultat som publicerats. E)EnundersökningiSpanienfinnsredovisadienartikel och man upprepar undersökningen i Sverige. Finns det skillnader? Vilka? Metod II En modellskattning med allt-i-ett (sid 7 avsnitt - 8): Y =β +β D+β +β D+ε där Z är en dummvariabel som anger grupptillhörighet. Detta ger A : Y =β +β +ε B : Y =(β +β )+(β +β )+ε För att avgöra vilken av de fra situationerna som gäller körmanpåmeddenvanligainferensen,dvstesta resp H :β = mot H :β H :β = mot H :β Detta alternativ verkar enklare och vettigare än alternativ I, peta in allt och gör en stor allt-i-ett anals. Mensomsagt... Boken redogör för varje tänkbart test som kan göras förrespektivemetodiochii. test för lika intercept testförlikalutning test för att regressionslinjerna sammanfaller Detserutsommcketattlärain... Testen är precis som förut, inget principiellt ntt jämfört med multipel linjär regression! Rekommendation: Läs igenom avsnitt - - - utan att uppehålla er för länge, skippa avsnitt - --.