1 SAMBANDS- MODELLER, 15HP Lärare: Ann-Charlotte Hallberg Tommy Schyman
2 Kursplan Kursplanen är det styrande dokumentet i en kurs. Planen är fastställd av fakulteten och måste följas. Kursplanen visas på sidorna 3-6
3 Mål Kursens mål är att den studerande skall tillägna sig insikter och färdigheter i att analysera samband mellan variabler, som krävs för kvalificerad yrkesverksamhet som statistiker. Efter avslutad kurs skall den studerande - kunna använda kunskap om de vanligaste metoderna för analys av linjära samband, - visa en god förståelse av principerna att välja, skatta och validera linjära statistiska modeller, - ha förmåga att använda lämpliga linjära modeller för att studera samband mellan variabler i ett datamaterial, - kunna använda statistisk programvara för att genomföra analyserna, - på ett insiktsfullt sätt kunna bedöma kvaliteten i givna datamängder och de generaliseringsmöjligheter som finns utifrån identifierade samband i data.
4 Kursinnehåll Under kursen studeras: - simultan inferens för flera stickprov, - modeller för envägs och flervägs variansanalys med såväl fixa som slumpmässiga effekter, - analys av kontraster och parvisa jämförelser, - introducerande försöksplanering med blockförsök, - icke-parametriska analysmetoder, - kovarians och korrelation, - enkel och multipel linjär regressionsanalys, polynomregression, enkla modeller för tidsserieregression, regressionsmodeller för obalanserade försöksplaner och kovariansanalys, logistisk regression och Poissonregression med modellvalsmetoder, - algebraisk beskrivning, - skalor och kategoriska förklaringsvariabler, - multikolinjaritetsproblem och modellvalsmetoder, - analys av avvikande observationer, - multiplikativa modeller, hierarkiska modeller, - likelihoodfunktioner och dess användande.
Undervisning/Arbetsformer Undervisningen består av föreläsningar, datorövningar, räkneövningar. Undervisningsspråk: Svenska. Examination Kursen examineras genom skriftlig tentamen samt inlämningsuppgifter som skall redovisas skriftligt. Studerande som underkänts två gånger på kursen eller del av kursen har rätt att begära en annan examinator vid förnyat examinationstillfälle. Den som godkänts i prov får ej delta i förnyat prov för högre betyg. Förkunskap För tillträde till kursen krävs att den studerande har genomgått kurserna Grunder i statistisk metodik, Statistisk analys av samhällsdata samt Linjär algebra inom Kandidatprogrammet i statistik och dataanalys, eller motsvarande. Dessutom krävs att minst en av de två förstnämnda kurserna ovan ska vara godkända. 5
6 Betyg På kursen ges betyget Väl godkänd, Godkänd eller Underkänd Kursbevis Kursbevis utfärdas av filosofiska fakultetsstyrelsen, efter begäran av den studerande. Begäran om bevis ska göras på särskild blankett som finns att hämta på Centrala studerandeexpeditionerna eller via http://www.student.liu.se/examen?l=sv. Blanketten lämnas till Examen Övrigt Planering och genomförande av kurs skall utgå från kursplanens formuleringar. Den kursvärdering som skall ingå i varje kurs skall därför behandla frågan om hur kursen överensstämmer med kursplanen. 6Kursen bedrivs på ett sådant sätt att både mäns och kvinnors erfarenhet och kunskaper synliggörs och utvecklas.
7 Litteratur Bok: Kutner, M.H., Nachtsheim, C.J., Neter, J. and Li, W. Applied Linear Statistical Models with Student Data CD, 5th Edition, ISBN 0073108742. Kap 1-10 är regressionsanalys Kap 14 är generaliserade linjära modeller Kap 15-25 är variansanalys Extra material
8 Kursens upplägg Kursen består av ca 20 st föreläsningar, där nytt material presenteras. 15 st lärarledda lektioner. Här står vi lärare vid tavlan och visar exempel på hur uppgifter kan lösas, och ni ges tillfälle att fråga och diskutera. Även lösningar på datorlaborationer ges. 16 st datorlaborationer. Datorövningar är viktiga i statistikkurser: när man skall analysera riktiga data blir beräkningsarbetet oftast alltför stort att genomföra med papper, penna och miniräknare. Du bör därför vänja dig vid att använda en dator med standardprogram för grafik och statistiska beräkningar. Vi kommer i huvudsak att använda programmen Minitab och SAS.
9 Kursutvärdering HT2012 11 studenter av 18 svarade och det går att utläsa att ca 3 var missnöjda. Fler övningsuppgifter med lösningar Fler tentor, duggor Mer undervisning Kurslitteratur fick betyg 3-5
10 LISAM Ny undervisningsplattform. LISAM istället för Its Learning. Kurshemsidan kommer inte att uppdateras under kursens gång. All info ges via LISAM.
11 FÖRELÄSNING 1 Enkel linjär regression. Kapitel 1
12 Kapitel 1, Enkel linjär regression Linjära statistiska modeller används bland annat inom Affärslivet Ekonomi Ingenjörsvetenskap Kommuner och Landsting Statliga utredningar Osv Exempel: En databas innehåller pris på fastigheter sålda i Linköping år 2012. Ålder på fastighet, storlek, och andra variabler Givet dessa variabler för ett nytt hus Bestäm ett ungefärligt marknadspris Bestäm rimliga prisgränser
13 Analys av samband Analys av data No Area (x 1 ) Age (x 2 ) Price (Y) 1 320 14 2,530,000 2 210 1 1,800,000 Observationer (records, cases) i rader Variabler i kolumner Förklarande variabler (Explanatory variables) (predictors) x 1,,x p-1 Responsvariabel Y, vi antar att Y=f(x 1,,x p-1 ) dvs Y är en funktion av x 1,,x p-1 I denna föreläsning så har vi endast en förklarande variabel, p-1=1
14 Relation mellan Y och x Observerade (riktiga, faktiska) data kan sällan skrivas som Y=β*x, Lön = β*ålder Ålder Lön 21 17 32 30 40 27 56 35 61 44 55 38 39 36 33 25
15 Observationerna ser ut att ligga på en linje Linjär regressionsanalys. Hitta en linjär funktion så nära observationerna som möjligt.
16 Regressions-modell För varje x, så finns en sannolikhetsfördelning för Y givet värdet x på den förklarande variabeln. P(Y=y x) of Y. Målet är att hitta en regressions-funktion E[Y x]
17 Bygg en regressions-modell: Responsvariabeln är given Välj förklarande variabler (varians reduktion) Funktions-form av E[Y x], (linjär, krökt, osv) Fördelning för Y Datorprogram MINITAB SAS SPSS Matlab Excel R
18 Enkel linjär regression Räta linjens ekvation: Y i 0 1X i i i=1,2,,n. n är antalet observationer Y i är i:te responsvariabelns värde β 0 β 1 modell-parametrar, regressions-parametrar (intercept, lutning (slope)) x i är i:te värdet på den förklarande variabeln i är iid, n st oberoende slumpvariabler, normalfördelade med väntevärde noll och konstant varians σ 2 (iid betyder Independent Identically Distributed)
19 Enkel linjär regressionsmodell Det gäller E Y i x i = β 0 + β 1 x i Var Y i x i = Var Y i = Var ε i = σ 2 Alla Y i och Y j är okorrelerade Betydelsen av regressionsparametrar β 0 responsvärde då x=0 β 1 förändring i EY då x ökar med 1.
20 Skattning av regressionsparametrar Givet datamängden: x Y,...,, 1, 1 x n Y n Minsta kvadratmetoden (Method of least squares): Observerad respons Y i Modell för respons 0 1 x i Avvikelse Y i 0 1x i Välj de värden på Q n Y i 0 1 x i i1 0 och 1 2 så att Q minimeras.
Hur hittar jag minimum av Q? Skattningar av β 0 och β 1 21 Skattning av regressionsparametrar 0 0 1 0 Q Q b x Y b x X Y Y x X b n i i n i i i 1 0 1 2 1 1
22 Exempel Övning (Löne-data, MINITAB): 1. Skapa ett spridningsdiagram (Scatterplot) med och utan regressiosnlinje 2. Utför regression genom Regression 3. Utför regression genom Fitted line plot.. 4. Beräkna regressionskoefficienterna för hand.
23 Skattning av regressionsparametrar Skattningarna b 0 och b 1 är väntevärdesriktiga och har minsta varians bland alla väntevärdesriktiga skattningar. Väntevärdesriktig (Unbiased) bias=eb 0 -β 0 =0 Eb 0 =β 0 Analogt för b 1, Eb 1 =β 1
24 Väntevärde för linjen (förväntad respons) E 0 1 [ Y x] x Skattning av väntevärdet för linjen = anpassat värde (fitted value) ˆ b b X Y 0 1 Residualer e i Y i Yˆ i
Plot av residualer (MINITAB) 25
26 Egenskaper hos residualer n 1. e 0 Q i (eftersom 0 ) i1 n 2. är minsta möjliga i1 n 2 e i 3. Y i Yˆ (pga 1 ovan) i1 n n i1 i 4. x 0, ˆ 0 (kan visas) i1 i e i n 0 i i i1 5. Regressionslinjen går alltid genom punkten x,y
27 Skattning av variansen σ 2 = Var ε = Var[Y] Skattning av variansen vid INGEN modell s 2 1 n 1 n Y i Y i1 2 Vid regression så beräknas s 2 genom att använda residualerna, modellberoende (Titta på residual-plotten) SSE n 2 Yi Yˆ i i1 n i1 e 2 i s 2 MSE SSE n 2
28 Varför dividera med n-2? Då fås väntevärdesriktighet, E(MSE)=σ 2 Viktigt: Generellt, väntevärdesriktig s 2 MSE SSE n p p = antalet modellparametrar (beta-parametrar) Exempel: Beräkna residualer, SSE, MSE, Hitta dem i MINITAB utskrift
29 Enkel linjär regression med MINITAB Minitab Graph Scatterplot Stat Regression Stat->Fitted Line Plot
30 Hur väljs data? 1. Observerade data 2. Experiment 3. Fullständigt randomiserat försök Exempel: Som ex tar vi 10 personer. Y=blodtryck 1. Personerna väljs helt slumpmässigt och Y och x observeras samtidigt, x=ålder 2. Tre åldrar bestäms i förväg. För varje ålder dras 3 till 4 personer slumpmässigt. 3. Tre mediciner bestäms. 3 till 4 personer tilldelas slumpmässigt en medicin.
31 Person nr Y=blodtryck X=ålder 1 X=ålder 2 1 75 30 30 A 2 84 45 30 A 3 65 20 30 A 4 87 55 45 B 5 91 54 45 B 6 55 35 45 B 7 61 44 60 C 8 72 60 60 C 9 68 61 60 C 10 80 72 60 C X=typ av medicin 3
32 Läs Kursboken, Kap 1, fram till sidan 27.