Föreläsning 3 Statistiska metoder 1
Dagens föreläsning o Samband mellan två kvantitativa variabler Matematiska samband Statistiska samband o Korrelation Svaga och starka samband När beräkna korrelation? o Regression Skattning av regressionslinje Prediktioner 2
Samband mellan två kvantitativa variabler Väldigt ofta i vår vardag så stöter vi på samband i olika praktiska problem. Dessa samband kan delas upp i matematiska och statistiska samband. Matematiska samband: o Man kan exakt bestämma sambandet mellan två variabler. o T.ex. vad kostar det att köpa in ett visst antal datorer? Statistiska samband: o Samband som är ungefärliga och inte helt exakta. o T.ex. hur länge kommer de inköpta datorerna att hålla? 3
Statistiska samband I denna kurs kommer vi att fokusera på statistiska samband. Dessa samband kan vara: o Positiva eller negativa o Starka eller svaga o Ömsesidiga eller ensidiga Ömsesidigt samband: X och Y kan förklara varandra Ensidigt samband: X förklarar Y (X är den förklarande variabeln, Y den beroende variabeln) 4
Statistiska samband Exempel Tio slumpmässigt utvalda högskolestuderande med praktikarbete sommaren 2010 beskrivs med avseende på: o X: antal studieår vid högskola o Y: månadslön under sommaren i tusentals kronor Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 5
Statistiska samband Exempel Ett spridningsdiagram bör undersökas utifrån dessa fyra frågor: o Linjärt samband? o Positivt eller negativt samband? o Starkt samband? o Uteliggande observationer? 6
Korrelationskoefficienten Hur starkt är ett samband? Med hjälp av korrelationskoefficienten kan man ta reda på om ett linjärt samband är starkt eller svagt och om det är positivt eller negativt. r = x 2 xy x 2 n x y n y 2 y 2 n Denna korrelationskoefficient antar värden mellan -1 och 1. -1 0 1 Starkt negativt samband Inget samband Starkt positivt samband 7
Korrelationskoefficienten Exempel Vi återgår till exemplet med studieår och månadslön under sommaren. Utred med hjälp av korrelationskoefficienten om det är ett starkt samband och om det är positivt eller negativt. Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 8
Regression Korrelationskoefficienten anger enbart sambandets styrka och lutning. Om man vill ta reda på hur sambandet ser ut, dvs uttrycka det med hjälp av en formel, ska regression användas. Idén med regression är att anpassa en linje som har ett så kort avstånd som möjligt till de olika punkterna. 9
Regression Denna (regressions)linje uttrycks med ekvationen: y = a + b x (jämför y = kx + m) a och b skattas så att de summan av de kvadrerade avstånden till linjen : y (a + b x) 2 blir så liten som möjligt (minsta-kvadratmetoden). o a anger vart regressionslinjen skär y-axeln o b (regressionskoefficienten) anger hur mycket Y förändras när X ökar med en enhet 10
Regression b bestäms med följande uttryck: b = x x y y x x 2 = xy x 2 x y n x 2 n Och a bestäms därefter med hjälp av: a = y b x 11
Regression Exempel Åter igen så kikar vi på exemplet med studieår och sommarlön. Bestäm a och b i regressionsekvationen. Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 12
Regression Prediktioner Med hjälp av regression kan man uppskatta vilka värden den beroende variabeln (Y) antar för olika värden på den förklarande variabeln (X). Detta kallas för att göra prediktioner. När prediktioner görs bör man hålla sig inom det variationsområde som studerats, dvs att man enbart gör prediktioner inom det intervall för X som observerats. Prediktioner görs med hjälp av regressionslinjen: y = a + b x 13
Regression Spridning kring regressionslinjen För att få en uppfattning om hur stor spridningen kring regressionslinjen är kan de observerade värdena på Y jämföras med de uppskattade värdena på Y (y). Skillnaden mellan y och y kallas för residual: e = y y För att få ett mått på spridningen kring regressionslinjen beräknas residualspridningen: s e = y y 2 n 2 = e 2 n 2 14
Regression Determinationskoefficienten Med hjälp av korrelationskoefficienten (r) får vi reda på om det är ett starkt/svagt linjärt samband, och om det är ett positivt/negativt samband. Genom att ta korrelationskoefficienten i kvadrat (r 2 ) får vi ett tal som kallas determinationskoefficienten. Detta tal beskriver hur stor andel av variationen i den beroende variabeln Y som kan förklaras av den förklarande variabeln X. 15
Regression Exempel Beräkna prediktioner, residualspridningen och determinationskoefficienten för datamaterialet med antal studieår och månadslön under sommaren. Ekvationen är: y = 9,3 + 1,7 x. Person Studieår (X) Sommarlön (Y) 1 1 11 2 2 12 3 2 13 4 3 13 5 3 15 6 3 16 7 4 14 8 4 15 9 4 16 10 4 19 16
Tack för idag! Nästa tillfälle: Laboration 1, onsdag 27/2 13-15, sal PC1-2 17