Föreläsning G60 Statistiska metoder

Föreläsning 9 Statistiska metoder 1

Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel från första föreläsningen Kursens mål Repetitionsquiz 2

Regression Regressionsmodell Redan på föreläsning 3 diskuterade vi regression, men där skrapade vi bara lite grand på ytan av denna metodik. Tanken med regression är att förklara en beroende variabel Y med hjälp av en förklarande variabel X. I fallet enkel linjär regression brukar man uttrycka detta samband med hjälp av denna regressionsmodell: Y i = α + βx i + ε i Och detta är då de sanna värdena i populationen. 3

Regression Regressionsmodell α och β i modellen på föregående sida är alltså den sanna konstanten och den sanna lutningen. Men, allt som oftast används stickprov och då kan inte dessa sanna värden beräknas. Då beräknar man skattningar på dessa värden och den skattade ekvationen uttrycks enligt följande: y i = a + bx i Dessa skattningar beräknas med hjälp av minsta-kvadrat-metoden som diskuterades på föreläsning 3. 4

Regression Signifikant lutning? a och b är punktskattningar på den sanna konstanten respektive lutningen, och dessa skattningar varierar från stickprov till stickprov. Därför är det av intresse att undersöka dessa skattningar djupare med hjälp av konfidensintervall samt hypotesprövning. Framför allt är det lutningen (b) som undersöks. Det man undersöker är om den sanna lutningen (β) är signifikant skild från 0. Om β är signifikant skild från 0 säger man att lutningen är signifikant och att det finns ett statistiskt säkerställt samband mellan variablerna X och Y. 5

Regression Signifikant lutning? Hypotesprövning för lutningen görs enligt samma metodik som för medelvärde och andelar. Hypoteserna formuleras enligt: H 0 : β = 0 H 1 : β 0 Därefter beräknas en testvariabel: t = s e b 1 x i x 2 När denna testvariabel jämförs med kritiskt värde (tabellvärde) används n 2 frihetsgrader. Ett intervall för lutningen ges av: b ± t s e 1 x i x 2 6

Regression Exempel Antag att en person verksam inom NHL (National Hockey League) vill undersöka om det finns ett samband mellan ett lags lönekostnad och antal inspelade poäng. För att utreda detta sammanställs lagens totala lönekostnader i miljontals dollar och deras inspelade poäng för säsongen 2011/2012. Lag Lönekostnad Poäng Philadelphia Flyers 71,0725 103 Buffalo Sabres 69,83 89 Chicago Blackhawks 69,49 101 Colorado Avalanche 40,62 88 New York Islanders 29,5735 79 7

Regression Exempel 8

Regression Exempel 9

Regression Exempel Vi använder oss av Minitab för att skatta regressionslinjen. Regression Analysis: Poäng versus Lönekostnad The regression equation is Poäng = 61,7 + 0,534 Lönekostnad Predictor Coef SE Coef T P Constant 61,74 11,66 5,29 0,000 Lönekostnad 0,5341 0,2029 2,63 0,014 S = 10,6857 R-Sq = 19,8% R-Sq(adj) = 17,0% Testa om lutningen är signifikant skild från noll, och beräkna även ett 95 % konfidensintervall för lutningen. 10

Regression Prognoser Ett vanligt användningsområde för regression är att göra prognoser. Detta innebär att man predikterar värden på den beroende variabeln Y för givna värden på den förklarande variabeln X. Åter igen så finns det en sann prognos för den beroende variabeln: μ = α + β x 0 Men, vi använder oss av den skattade prognosen: μ = a + b x 0 11

Regression Prognoser, intervall Det går även att beräkna intervall för prognoserna, och det är två olika intervall som kan beräknas: Konfidensintervall Intervall för ett medelvärde på alla enheter som har värdet x = x 0 a + b x 0 ± t s e c Prediktionsintervall Intervall för en enskild enhet som har värdet x = x 0 a + b x 0 ± t s e 1 + c Vi kan räkna ut ett approximativt (ungefärligt) intervall med: a + b x 0 ± t s e 12

Regression Exempel En manager i NHL funderar på att lägga 60 miljoner US-dollar på spelarlöner kommande säsong. Hur stor förväntas poängskörden bli för denna managers lag? Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 93,79 2,07 (89,55; 98,02) (71,49; 116,08) Values of Predictors for New Observations New Obs Lönekostnad 1 60,0 13

Exempel från första föreläsningen 14

Kursens mål och innehåll 15

Quiz! Repetitionsfrågor 16

Quiz-regler Totalt finns 9 frågor, varje fråga har två svarsalternativ. Rätt svar ger 1 poäng. Finns kuggfrågor, där båda svaren är rätt. Vid en sådan fråga hålls båda lapparna upp, och då ges 3 poäng. Hålls båda lapparna upp på en icke-kuggfråga ges 0 poäng. Ni rättar varandra (två och två). Nej Ja 17

Lägesmått Ett lägesmått kommer att beskrivas, och ni ska välja det lägesmått ni anser är rätt. Beskrivning: För att bestämma detta lägesmått ska observationerna sorteras i storleksordning, och värdet i mitten blir då detta lägesmått. Vilket är lägesmåttet? Median Medelvärde Rätt! 18

Diagram En personlig tränare vill undersöka skillnaden i träningsvana mellan yngre personer (30 år eller yngre) och äldre personer (äldre än 30). För att visualisera skillnaden mellan åldersgrupperna vill tränaren skapa ett grupperat stapeldiagram. Vilket av diagrammen på nästkommande sida är mest lämpligt? 19

Diagram Rätt! 20

Index Nedan visas en vikt för sammansatta prisindex. Vilket viktsystem/vikttyp är det? v j,0 v j,0 = Försäljningsvärde för vara j under basåret Totalt försäljningsvärde under basåret Paasche Laspeyre 21 Rätt!

Regression Determinationskoefficienten är ett mått som används för att säga hur bra en regression är. En regressionsmodell har determinationskoefficienten 67 %. Hur ska detta tolkas? Den förklarande variabeln kan förklara 67 % av variansen i den beroende variabeln Den beroende variabeln varierar 67 % Rätt! 22

Sannolikhet Givet att det bara finns ett rätt svar på varje fråga under detta quiz, hur kan man räkna ut sannolikheten att man får alla rätt genom att enbart gissa? 0,5 9 9! 9! 0! 0,59 0,5 0 Rätt! 23 Rätt!

Konfidensgrad När konfidensintervall skapas brukar man ange dess konfidensgrad. Men vad händer med ett konfidensintervall om konfidensgraden ökas? Konfidensintervallet blir smalare Konfidensintervallet blir bredare 24 Rätt!

Hypotesprövning En vd på ett företag vill undersöka om företagets medellön (i fasta priser) har ökat under en 10-årsperiod. Population 1 är lönerna för 10 år sedan, population 2 är lönerna idag. Vilken mothypotes bör väljas? H 1 : μ 1 μ 2 < 0 H 1 : μ 2 μ 1 > 0 Rätt! 25 Rätt!

Chi-två-test I ett chi-två-test beräknar man de förväntade frekvenserna. Men vilken av hypoteserna bygger de förväntade frekvenserna på? Nollhypotesen Mothypotesen Rätt! 26

Regression VD:n som undersökte sitt företags löner vill nu prediktera medellönen för de som varit anställda i 10 år på företaget med ett tillhörande intervall. Vilket intervall ska observeras? Prediktionsintervall Konfidensintervall 27 Rätt!

Tack för idag! Nästa tillfälle: Räknestuga 3, fredag 15/3 10-12, A38 28