Föreläsning G60 Statistiska metoder

Relevanta dokument
Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Sänkningen av parasitnivåerna i blodet

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Höftledsdysplasi hos dansk-svensk gårdshund

Statistiska samband: regression och korrelation

InStat Exempel 4 Korrelation och Regression

Statistik 1 för biologer, logopeder och psykologer

Linjär regressionsanalys. Wieland Wermke

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 12: Regression

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Uppgift 1. Deskripitiv statistik. Lön

Laboration 4 R-versionen

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F1

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Regressions- och Tidsserieanalys - F1

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

OBS! Vi har nya rutiner.

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Laboration 4 Regressionsanalys

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

10.1 Enkel linjär regression

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

TAMS65 - Seminarium 4 Regressionsanalys

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Föreläsning 12: Linjär regression

Laboration 2: Styrkefunktion samt Regression

Grundläggande matematisk statistik

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

oberoende av varandra så observationerna är

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Statistisk undersökningsmetodik (Pol. kand.)

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Matematisk statistik, Föreläsning 5

Läs noggrant informationen nedan innan du börjar skriva tentamen

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Matematisk statistik för D, I, Π och Fysiker

Föreläsning G60 Statistiska metoder

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Statistik och epidemiologi T5

ÖVNINGSUPPGIFTER KAPITEL 4

Multipel regression och Partiella korrelationer

LABORATION 3 - Regressionsanalys

Föreläsning G60 Statistiska metoder

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

Föreläsning G60 Statistiska metoder

F13 Regression och problemlösning

Läs noggrant informationen nedan innan du börjar skriva tentamen

Gamla tentor (forts) ( x. x ) ) 2 x1

F19, (Multipel linjär regression forts) och F20, Chi-två test.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Matematisk statistik för B, K, N, BME och Kemister

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Medicinsk statistik II

TVM-Matematik Adam Jonsson

1 Förberedelseuppgifter

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

Finansiell statistik

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Valresultat Riksdagen 2018

Korrelation och autokorrelation

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Repetition av matematik inför kurs i statistik 1-10 p.

Några problemlösnings och modelleringsuppgifter med räta linjer

Föreläsning G60 Statistiska metoder

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

LABORATION 3 - Regressionsanalys

Transkript:

Föreläsning 3 Statistiska metoder 1

Dagens föreläsning o Samband mellan två kvantitativa variabler Matematiska samband Statistiska samband o Korrelation Svaga och starka samband När beräkna korrelation? o Regression Skattning av regressionslinje Prediktioner 2

Samband mellan två kvantitativa variabler Väldigt ofta i vår vardag så stöter vi på samband i olika praktiska problem. Dessa samband kan delas upp i matematiska och statistiska samband. Matematiska samband: o Man kan exakt bestämma sambandet mellan två variabler. o T.ex. vad kostar det att köpa in ett visst antal datorer? Statistiska samband: o Samband som är ungefärliga och inte helt exakta. o T.ex. hur länge kommer de inköpta datorerna att hålla? 3

Statistiska samband I denna kurs kommer vi att fokusera på statistiska samband. Dessa samband kan vara: o Positiva eller negativa o Starka eller svaga o Ömsesidiga eller ensidiga Ömsesidigt samband: X och Y kan förklara varandra Ensidigt samband: X förklarar Y (X är den förklarande variabeln, Y den beroende variabeln) 4

Statistiska samband Exempel Tio slumpmässigt utvalda högskolestuderande med praktikarbete sommaren 2010 beskrivs med avseende på: o X: antal studieår vid högskola o Y: månadslön under sommaren i tusentals kronor Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 5

Statistiska samband Exempel Ett spridningsdiagram bör undersökas utifrån dessa fyra frågor: o Linjärt samband? o Positivt eller negativt samband? o Starkt samband? o Uteliggande observationer? 6

Korrelationskoefficienten Hur starkt är ett samband? Med hjälp av korrelationskoefficienten kan man ta reda på om ett linjärt samband är starkt eller svagt och om det är positivt eller negativt. r = x 2 xy x 2 n x y n y 2 y 2 n Denna korrelationskoefficient antar värden mellan -1 och 1. -1 0 1 Starkt negativt samband Inget samband Starkt positivt samband 7

Korrelationskoefficienten Exempel Vi återgår till exemplet med studieår och månadslön under sommaren. Utred med hjälp av korrelationskoefficienten om det är ett starkt samband och om det är positivt eller negativt. Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 8

Regression Korrelationskoefficienten anger enbart sambandets styrka och lutning. Om man vill ta reda på hur sambandet ser ut, dvs uttrycka det med hjälp av en formel, ska regression användas. Idén med regression är att anpassa en linje som har ett så kort avstånd som möjligt till de olika punkterna. 9

Regression Denna (regressions)linje uttrycks med ekvationen: y = a + b x (jämför y = kx + m) a och b skattas så att de summan av de kvadrerade avstånden till linjen : y (a + b x) 2 blir så liten som möjligt (minsta-kvadratmetoden). o a anger vart regressionslinjen skär y-axeln o b (regressionskoefficienten) anger hur mycket Y förändras när X ökar med en enhet 10

Regression b bestäms med följande uttryck: b = x x y y x x 2 = xy x 2 x y n x 2 n Och a bestäms därefter med hjälp av: a = y b x 11

Regression Exempel Åter igen så kikar vi på exemplet med studieår och sommarlön. Bestäm a och b i regressionsekvationen. Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 12

Regression Prediktioner Med hjälp av regression kan man uppskatta vilka värden den beroende variabeln (Y) antar för olika värden på den förklarande variabeln (X). Detta kallas för att göra prediktioner. När prediktioner görs bör man hålla sig inom det variationsområde som studerats, dvs att man enbart gör prediktioner inom det intervall för X som observerats. Prediktioner görs med hjälp av regressionslinjen: y = a + b x 13

Regression Spridning kring regressionslinjen För att få en uppfattning om hur stor spridningen kring regressionslinjen är kan de observerade värdena på Y jämföras med de uppskattade värdena på Y (y). Skillnaden mellan y och y kallas för residual: e = y y För att få ett mått på spridningen kring regressionslinjen beräknas residualspridningen: s e = y y 2 n 2 = e 2 n 2 14

Regression Determinationskoefficienten Med hjälp av korrelationskoefficienten (r) får vi reda på om det är ett starkt/svagt linjärt samband, och om det är ett positivt/negativt samband. Genom att ta korrelationskoefficienten i kvadrat (r 2 ) får vi ett tal som kallas determinationskoefficienten. Detta tal beskriver hur stor andel av variationen i den beroende variabeln Y som kan förklaras av den förklarande variabeln X. 15

Regression Exempel Beräkna prediktioner, residualspridningen och determinationskoefficienten för datamaterialet med antal studieår och månadslön under sommaren. Ekvationen är: y = 9,3 + 1,7 x. Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 16

Tack för idag! Nästa tillfälle: Laboration 1, onsdag 27/2 13-15, sal PC1-2 17