SAMBANDS- MODELLER, 15HP. Lärare: Ann-Charlotte Hallberg Tommy Schyman

Relevanta dokument
Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Multipel Regressionsmodellen

Matematisk statistik, Föreläsning 5

Föreläsning 12: Regression

Föreläsning 12: Linjär regression

ÄMAD04, Matematik 4, 30 högskolepoäng Mathematics 4, 30 credits Grundnivå / First Cycle

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Kurshandledning. Bruksspel 2. 7,5 hp HT Kurskod: 918G28 & 918G30 Kursansvarig: Anna Englund Bohm

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Grundläggande matematisk statistik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

MVE051/MSG Föreläsning 14

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

PC2309, Kurs 9: Metod 1 i psykologi, 15,0 högskolepoäng Research Method 1 in Psychology, 15.0 higher education credits

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Sannolikhetslära och statistik, grundkurs

STAA30, Statistik: Grundkurs, 30 högskolepoäng Statistics: Basic Course, 30 credits Grundnivå / First Cycle

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

10.1 Enkel linjär regression

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

F11. Kvantitativa prognostekniker

STOCKHOLMS UNIVERSITET HT 2010 Statistiska institutionen Linda Wänström (moment 1 och 2) Jörgen Säve-Söderbergh (moment 3 och 4)

Statistisk försöksplanering

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

AVDELNINGEN FÖR HANDELSHÖGSKOLANS EKONOMPROGRAM

Matematisk statistik för B, K, N, BME och Kemister

Statistik och testmetodik

a) 917A04, Utomhuspedagogisk fördjupningskurs med didaktisk inriktning, 15 hp. b) 917A05, Forskningsteori och undersökningsmetoder, 7,5 hp.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Matematisk statistik för D, I, Π och Fysiker

Tentamen för kursen. Linjära statistiska modeller. 13 januari

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Metod och teori. Statistik för naturvetare Umeå universitet

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 7: Punktskattningar

Examinationsuppgifter del 2

Tentamen i Matematisk statistik Kurskod S0001M

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

KANDIDATPROGRAMMET I STATISTIK OCH DATAANALYS (Statistics and Data Analysis) 180 Högskolepoäng

Matematik: Beräkningsmatematik (91-97,5 hp)

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Kursbeskrivning för Statistisk teori med tillämpningar, Moment 1, 7,5 hp

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Statistisk försöksplanering

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Kursplan för Sociologisk Analys VT 09, 7,5 högskolepoäng. (Syllabus for Quantitative Sociological Methods, 7.5 ECTS)

Studiehandledning S0001M Matematisk statistik Läsperiod 2, HT 2017

STOCKHOLMS UNIVERSITET HT 2011 Statistiska institutionen Bertil Wegmann

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

Regressions- och Tidsserieanalys - F4

Kurshandledning. Bruksspel. 7,5 hp VT Kurskod: 918G27 & 918G29 Kursansvarig: Anna Englund Bohm

TENTAMEN I STATISTIK B,

Kursen ingår i civilekonomprogrammet samt kandidatprogrammet i företagsekonomi.

Kurshandledning. Bruksspel. 7,5 hp VT Kurskod: 918G09 Kursansvarig: Anna Englund Bohm

Regressions- och Tidsserieanalys - F7

STOCKHOLMS UNIVERSITET HT 2012 Statistiska institutionen Göran Rundqvist

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Kurshandledning. Bruksspel. 7,5 hp VT Kurskod: 918G07 Kursansvarig: Anna Englund Bohm

Höftledsdysplasi hos dansk-svensk gårdshund

Kurshandledning. Bruksspel. 7,5 hp HT Kurskod: 918G07 Kursansvarig: Anna Englund Bohm

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Utbildningsplan. för KANDIDATPROGRAMMET. STATISTIK OCH DATAANALYS (Statistics and Data Analysis)

NEKP34, Nationalekonomi: Ekonometrisk teori, 7,5 högskolepoäng Economics: Econometric Theory, 7.5 credits Avancerad nivå / Second Cycle

732G01/732G40 Grundläggande statistik (7.5hp)

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Studiehandledning S0001M Matematisk statistik Läsperiod 2, Ht 2013

Studiehandledning S0001M Matematisk statistik Läsperiod 4, VT 2017

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

LABORATION 3 - Regressionsanalys

Stockholms Universitet Statistiska Institutionen VT Kursbeskrivning. Statistisk Teori I, grundnivå, 15 högskolepoäng

Föreläsning G60 Statistiska metoder

F13 Regression och problemlösning

Datorövning 1 Enkel linjär regressionsanalys

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Linjär regressionsanalys. Wieland Wermke

Tentamen i Matematisk statistik Kurskod S0001M

Finansiell statistik. Multipel regression. 4 maj 2011

PSYKOLOGISKA INSTITUTIONEN

VT 15 Uppdaterad

Transkript:

1 SAMBANDS- MODELLER, 15HP Lärare: Ann-Charlotte Hallberg Tommy Schyman

2 Kursplan Kursplanen är det styrande dokumentet i en kurs. Planen är fastställd av fakulteten och måste följas. Kursplanen visas på sidorna 3-6

3 Mål Kursens mål är att den studerande skall tillägna sig insikter och färdigheter i att analysera samband mellan variabler, som krävs för kvalificerad yrkesverksamhet som statistiker. Efter avslutad kurs skall den studerande - kunna använda kunskap om de vanligaste metoderna för analys av linjära samband, - visa en god förståelse av principerna att välja, skatta och validera linjära statistiska modeller, - ha förmåga att använda lämpliga linjära modeller för att studera samband mellan variabler i ett datamaterial, - kunna använda statistisk programvara för att genomföra analyserna, - på ett insiktsfullt sätt kunna bedöma kvaliteten i givna datamängder och de generaliseringsmöjligheter som finns utifrån identifierade samband i data.

4 Kursinnehåll Under kursen studeras: - simultan inferens för flera stickprov, - modeller för envägs och flervägs variansanalys med såväl fixa som slumpmässiga effekter, - analys av kontraster och parvisa jämförelser, - introducerande försöksplanering med blockförsök, - icke-parametriska analysmetoder, - kovarians och korrelation, - enkel och multipel linjär regressionsanalys, polynomregression, enkla modeller för tidsserieregression, regressionsmodeller för obalanserade försöksplaner och kovariansanalys, logistisk regression och Poissonregression med modellvalsmetoder, - algebraisk beskrivning, - skalor och kategoriska förklaringsvariabler, - multikolinjaritetsproblem och modellvalsmetoder, - analys av avvikande observationer, - multiplikativa modeller, hierarkiska modeller, - likelihoodfunktioner och dess användande.

Undervisning/Arbetsformer Undervisningen består av föreläsningar, datorövningar, räkneövningar. Undervisningsspråk: Svenska. Examination Kursen examineras genom skriftlig tentamen samt inlämningsuppgifter som skall redovisas skriftligt. Studerande som underkänts två gånger på kursen eller del av kursen har rätt att begära en annan examinator vid förnyat examinationstillfälle. Den som godkänts i prov får ej delta i förnyat prov för högre betyg. Förkunskap För tillträde till kursen krävs att den studerande har genomgått kurserna Grunder i statistisk metodik, Statistisk analys av samhällsdata samt Linjär algebra inom Kandidatprogrammet i statistik och dataanalys, eller motsvarande. Dessutom krävs att minst en av de två förstnämnda kurserna ovan ska vara godkända. 5

6 Betyg På kursen ges betyget Väl godkänd, Godkänd eller Underkänd Kursbevis Kursbevis utfärdas av filosofiska fakultetsstyrelsen, efter begäran av den studerande. Begäran om bevis ska göras på särskild blankett som finns att hämta på Centrala studerandeexpeditionerna eller via http://www.student.liu.se/examen?l=sv. Blanketten lämnas till Examen Övrigt Planering och genomförande av kurs skall utgå från kursplanens formuleringar. Den kursvärdering som skall ingå i varje kurs skall därför behandla frågan om hur kursen överensstämmer med kursplanen. 6Kursen bedrivs på ett sådant sätt att både mäns och kvinnors erfarenhet och kunskaper synliggörs och utvecklas.

7 Litteratur Bok: Kutner, M.H., Nachtsheim, C.J., Neter, J. and Li, W. Applied Linear Statistical Models with Student Data CD, 5th Edition, ISBN 0073108742. Kap 1-10 är regressionsanalys Kap 14 är generaliserade linjära modeller Kap 15-25 är variansanalys Extra material

8 Kursens upplägg Kursen består av ca 20 st föreläsningar, där nytt material presenteras. 15 st lärarledda lektioner. Här står vi lärare vid tavlan och visar exempel på hur uppgifter kan lösas, och ni ges tillfälle att fråga och diskutera. Även lösningar på datorlaborationer ges. 16 st datorlaborationer. Datorövningar är viktiga i statistikkurser: när man skall analysera riktiga data blir beräkningsarbetet oftast alltför stort att genomföra med papper, penna och miniräknare. Du bör därför vänja dig vid att använda en dator med standardprogram för grafik och statistiska beräkningar. Vi kommer i huvudsak att använda programmen Minitab och SAS.

9 Kursutvärdering HT2012 11 studenter av 18 svarade och det går att utläsa att ca 3 var missnöjda. Fler övningsuppgifter med lösningar Fler tentor, duggor Mer undervisning Kurslitteratur fick betyg 3-5

10 LISAM Ny undervisningsplattform. LISAM istället för Its Learning. Kurshemsidan kommer inte att uppdateras under kursens gång. All info ges via LISAM.

11 FÖRELÄSNING 1 Enkel linjär regression. Kapitel 1

12 Kapitel 1, Enkel linjär regression Linjära statistiska modeller används bland annat inom Affärslivet Ekonomi Ingenjörsvetenskap Kommuner och Landsting Statliga utredningar Osv Exempel: En databas innehåller pris på fastigheter sålda i Linköping år 2012. Ålder på fastighet, storlek, och andra variabler Givet dessa variabler för ett nytt hus Bestäm ett ungefärligt marknadspris Bestäm rimliga prisgränser

13 Analys av samband Analys av data No Area (x 1 ) Age (x 2 ) Price (Y) 1 320 14 2,530,000 2 210 1 1,800,000 Observationer (records, cases) i rader Variabler i kolumner Förklarande variabler (Explanatory variables) (predictors) x 1,,x p-1 Responsvariabel Y, vi antar att Y=f(x 1,,x p-1 ) dvs Y är en funktion av x 1,,x p-1 I denna föreläsning så har vi endast en förklarande variabel, p-1=1

14 Relation mellan Y och x Observerade (riktiga, faktiska) data kan sällan skrivas som Y=β*x, Lön = β*ålder Ålder Lön 21 17 32 30 40 27 56 35 61 44 55 38 39 36 33 25

15 Observationerna ser ut att ligga på en linje Linjär regressionsanalys. Hitta en linjär funktion så nära observationerna som möjligt.

16 Regressions-modell För varje x, så finns en sannolikhetsfördelning för Y givet värdet x på den förklarande variabeln. P(Y=y x) of Y. Målet är att hitta en regressions-funktion E[Y x]

17 Bygg en regressions-modell: Responsvariabeln är given Välj förklarande variabler (varians reduktion) Funktions-form av E[Y x], (linjär, krökt, osv) Fördelning för Y Datorprogram MINITAB SAS SPSS Matlab Excel R

18 Enkel linjär regression Räta linjens ekvation: Y i 0 1X i i i=1,2,,n. n är antalet observationer Y i är i:te responsvariabelns värde β 0 β 1 modell-parametrar, regressions-parametrar (intercept, lutning (slope)) x i är i:te värdet på den förklarande variabeln i är iid, n st oberoende slumpvariabler, normalfördelade med väntevärde noll och konstant varians σ 2 (iid betyder Independent Identically Distributed)

19 Enkel linjär regressionsmodell Det gäller E Y i x i = β 0 + β 1 x i Var Y i x i = Var Y i = Var ε i = σ 2 Alla Y i och Y j är okorrelerade Betydelsen av regressionsparametrar β 0 responsvärde då x=0 β 1 förändring i EY då x ökar med 1.

20 Skattning av regressionsparametrar Givet datamängden: x Y,...,, 1, 1 x n Y n Minsta kvadratmetoden (Method of least squares): Observerad respons Y i Modell för respons 0 1 x i Avvikelse Y i 0 1x i Välj de värden på Q n Y i 0 1 x i i1 0 och 1 2 så att Q minimeras.

Hur hittar jag minimum av Q? Skattningar av β 0 och β 1 21 Skattning av regressionsparametrar 0 0 1 0 Q Q b x Y b x X Y Y x X b n i i n i i i 1 0 1 2 1 1

22 Exempel Övning (Löne-data, MINITAB): 1. Skapa ett spridningsdiagram (Scatterplot) med och utan regressiosnlinje 2. Utför regression genom Regression 3. Utför regression genom Fitted line plot.. 4. Beräkna regressionskoefficienterna för hand.

23 Skattning av regressionsparametrar Skattningarna b 0 och b 1 är väntevärdesriktiga och har minsta varians bland alla väntevärdesriktiga skattningar. Väntevärdesriktig (Unbiased) bias=eb 0 -β 0 =0 Eb 0 =β 0 Analogt för b 1, Eb 1 =β 1

24 Väntevärde för linjen (förväntad respons) E 0 1 [ Y x] x Skattning av väntevärdet för linjen = anpassat värde (fitted value) ˆ b b X Y 0 1 Residualer e i Y i Yˆ i

Plot av residualer (MINITAB) 25

26 Egenskaper hos residualer n 1. e 0 Q i (eftersom 0 ) i1 n 2. är minsta möjliga i1 n 2 e i 3. Y i Yˆ (pga 1 ovan) i1 n n i1 i 4. x 0, ˆ 0 (kan visas) i1 i e i n 0 i i i1 5. Regressionslinjen går alltid genom punkten x,y

27 Skattning av variansen σ 2 = Var ε = Var[Y] Skattning av variansen vid INGEN modell s 2 1 n 1 n Y i Y i1 2 Vid regression så beräknas s 2 genom att använda residualerna, modellberoende (Titta på residual-plotten) SSE n 2 Yi Yˆ i i1 n i1 e 2 i s 2 MSE SSE n 2

28 Varför dividera med n-2? Då fås väntevärdesriktighet, E(MSE)=σ 2 Viktigt: Generellt, väntevärdesriktig s 2 MSE SSE n p p = antalet modellparametrar (beta-parametrar) Exempel: Beräkna residualer, SSE, MSE, Hitta dem i MINITAB utskrift

29 Enkel linjär regression med MINITAB Minitab Graph Scatterplot Stat Regression Stat->Fitted Line Plot

30 Hur väljs data? 1. Observerade data 2. Experiment 3. Fullständigt randomiserat försök Exempel: Som ex tar vi 10 personer. Y=blodtryck 1. Personerna väljs helt slumpmässigt och Y och x observeras samtidigt, x=ålder 2. Tre åldrar bestäms i förväg. För varje ålder dras 3 till 4 personer slumpmässigt. 3. Tre mediciner bestäms. 3 till 4 personer tilldelas slumpmässigt en medicin.

31 Person nr Y=blodtryck X=ålder 1 X=ålder 2 1 75 30 30 A 2 84 45 30 A 3 65 20 30 A 4 87 55 45 B 5 91 54 45 B 6 55 35 45 B 7 61 44 60 C 8 72 60 60 C 9 68 61 60 C 10 80 72 60 C X=typ av medicin 3

32 Läs Kursboken, Kap 1, fram till sidan 27.