Föreläsning G60 Statistiska metoder

Relevanta dokument
Statistik B Regressions- och tidsserieanalys Föreläsning 1

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F3

Examinationsuppgifter del 2

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

10.1 Enkel linjär regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Metod och teori. Statistik för naturvetare Umeå universitet

Exempel 1 på multipelregression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

TENTAMEN I STATISTIK B,

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

Föreläsning G60 Statistiska metoder

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 12: Regression

Matematisk statistik för D, I, Π och Fysiker

Tentamen i Matematisk statistik Kurskod S0001M

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning G60 Statistiska metoder

Exempel 1 på multipelregression

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Regressions- och Tidsserieanalys - F3

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Föreläsning G60 Statistiska metoder

Hur man tolkar statistiska resultat

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i matematisk statistik

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Räkneövning 3 Variansanalys

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F5

Föreläsning 12: Linjär regression

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Matematisk statistik, Föreläsning 5

Matematisk statistik för B, K, N, BME och Kemister

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

tentaplugg.nu av studenter för studenter

Höftledsdysplasi hos dansk-svensk gårdshund

Statistik och epidemiologi T5

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Medicinsk statistik II

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Grundläggande matematisk statistik

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Skrivning i ekonometri torsdagen den 8 februari 2007

Föreläsning 5. Kapitel 6, sid Inferens om en population

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

tentaplugg.nu av studenter för studenter

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Multipel Regressionsmodellen

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

F19, (Multipel linjär regression forts) och F20, Chi-två test.

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Obligatorisk uppgift, del 1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Regressions- och Tidsserieanalys - F3

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen Tillämpad statistik A5 (15hp)

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 12, FMSF45 Hypotesprövning

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen Tillämpad statistik A5 (15hp)

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsningsanteckningar till kapitel 9, del 2

Statistik 1 för biologer, logopeder och psykologer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

MVE051/MSG Föreläsning 14

F13 Regression och problemlösning

Tentamen i matematisk statistik

Transkript:

Föreläsning 9 Statistiska metoder 1

Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel från första föreläsningen Kursens mål Repetitionsquiz 2

Regression Regressionsmodell Redan på föreläsning 3 diskuterade vi regression, men där skrapade vi bara lite grand på ytan av denna metodik. Tanken med regression är att förklara en beroende variabel Y med hjälp av en förklarande variabel X. I fallet enkel linjär regression brukar man uttrycka detta samband med hjälp av denna regressionsmodell: Y i = α + βx i + ε i Och detta är då de sanna värdena i populationen. 3

Regression Regressionsmodell α och β i modellen på föregående sida är alltså den sanna konstanten och den sanna lutningen. Men, allt som oftast används stickprov och då kan inte dessa sanna värden beräknas. Då beräknar man skattningar på dessa värden och den skattade ekvationen uttrycks enligt följande: y i = a + bx i Dessa skattningar beräknas med hjälp av minsta-kvadrat-metoden som diskuterades på föreläsning 3. 4

Regression Signifikant lutning? a och b är punktskattningar på den sanna konstanten respektive lutningen, och dessa skattningar varierar från stickprov till stickprov. Därför är det av intresse att undersöka dessa skattningar djupare med hjälp av konfidensintervall samt hypotesprövning. Framför allt är det lutningen (b) som undersöks. Det man undersöker är om den sanna lutningen (β) är signifikant skild från 0. Om β är signifikant skild från 0 säger man att lutningen är signifikant och att det finns ett statistiskt säkerställt samband mellan variablerna X och Y. 5

Regression Signifikant lutning? Hypotesprövning för lutningen görs enligt samma metodik som för medelvärde och andelar. Hypoteserna formuleras enligt: H 0 : β = 0 H 1 : β 0 Därefter beräknas en testvariabel: t = s e b 1 x i x 2 När denna testvariabel jämförs med kritiskt värde (tabellvärde) används n 2 frihetsgrader. Ett intervall för lutningen ges av: b ± t s e 1 x i x 2 6

Regression Exempel Antag att en person verksam inom NHL (National Hockey League) vill undersöka om det finns ett samband mellan ett lags lönekostnad och antal inspelade poäng. För att utreda detta sammanställs lagens totala lönekostnader i miljontals dollar och deras inspelade poäng för säsongen 2011/2012. Lag Lönekostnad Poäng Philadelphia Flyers 71,0725 103 Buffalo Sabres 69,83 89 Chicago Blackhawks 69,49 101 Colorado Avalanche 40,62 88 New York Islanders 29,5735 79 7

Regression Exempel 8

Regression Exempel 9

Regression Exempel Vi använder oss av Minitab för att skatta regressionslinjen. Regression Analysis: Poäng versus Lönekostnad The regression equation is Poäng = 61,7 + 0,534 Lönekostnad Predictor Coef SE Coef T P Constant 61,74 11,66 5,29 0,000 Lönekostnad 0,5341 0,2029 2,63 0,014 S = 10,6857 R-Sq = 19,8% R-Sq(adj) = 17,0% Testa om lutningen är signifikant skild från noll, och beräkna även ett 95 % konfidensintervall för lutningen. 10

Regression Prognoser Ett vanligt användningsområde för regression är att göra prognoser. Detta innebär att man predikterar värden på den beroende variabeln Y för givna värden på den förklarande variabeln X. Åter igen så finns det en sann prognos för den beroende variabeln: μ = α + β x 0 Men, vi använder oss av den skattade prognosen: μ = a + b x 0 11

Regression Prognoser, intervall Det går även att beräkna intervall för prognoserna, och det är två olika intervall som kan beräknas: Konfidensintervall Intervall för ett medelvärde på alla enheter som har värdet x = x 0 a + b x 0 ± t s e c Prediktionsintervall Intervall för en enskild enhet som har värdet x = x 0 a + b x 0 ± t s e 1 + c Vi kan räkna ut ett approximativt (ungefärligt) intervall med: a + b x 0 ± t s e 12

Regression Exempel En manager i NHL funderar på att lägga 60 miljoner US-dollar på spelarlöner kommande säsong. Hur stor förväntas poängskörden bli för denna managers lag? Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 93,79 2,07 (89,55; 98,02) (71,49; 116,08) Values of Predictors for New Observations New Obs Lönekostnad 1 60,0 13

Exempel från första föreläsningen 14

Kursens mål och innehåll 15

Quiz! Repetitionsfrågor 16

Quiz-regler Totalt finns 9 frågor, varje fråga har två svarsalternativ. Rätt svar ger 1 poäng. Finns kuggfrågor, där båda svaren är rätt. Vid en sådan fråga hålls båda lapparna upp, och då ges 3 poäng. Hålls båda lapparna upp på en icke-kuggfråga ges 0 poäng. Ni rättar varandra (två och två). Nej Ja 17

Lägesmått Ett lägesmått kommer att beskrivas, och ni ska välja det lägesmått ni anser är rätt. Beskrivning: För att bestämma detta lägesmått ska observationerna sorteras i storleksordning, och värdet i mitten blir då detta lägesmått. Vilket är lägesmåttet? Median Medelvärde Rätt! 18

Diagram En personlig tränare vill undersöka skillnaden i träningsvana mellan yngre personer (30 år eller yngre) och äldre personer (äldre än 30). För att visualisera skillnaden mellan åldersgrupperna vill tränaren skapa ett grupperat stapeldiagram. Vilket av diagrammen på nästkommande sida är mest lämpligt? 19

Diagram Rätt! 20

Index Nedan visas en vikt för sammansatta prisindex. Vilket viktsystem/vikttyp är det? v j,0 v j,0 = Försäljningsvärde för vara j under basåret Totalt försäljningsvärde under basåret Paasche Laspeyre 21 Rätt!

Regression Determinationskoefficienten är ett mått som används för att säga hur bra en regression är. En regressionsmodell har determinationskoefficienten 67 %. Hur ska detta tolkas? Den förklarande variabeln kan förklara 67 % av variansen i den beroende variabeln Den beroende variabeln varierar 67 % Rätt! 22

Sannolikhet Givet att det bara finns ett rätt svar på varje fråga under detta quiz, hur kan man räkna ut sannolikheten att man får alla rätt genom att enbart gissa? 0,5 9 9! 9! 0! 0,59 0,5 0 Rätt! 23 Rätt!

Konfidensgrad När konfidensintervall skapas brukar man ange dess konfidensgrad. Men vad händer med ett konfidensintervall om konfidensgraden ökas? Konfidensintervallet blir smalare Konfidensintervallet blir bredare 24 Rätt!

Hypotesprövning En vd på ett företag vill undersöka om företagets medellön (i fasta priser) har ökat under en 10-årsperiod. Population 1 är lönerna för 10 år sedan, population 2 är lönerna idag. Vilken mothypotes bör väljas? H 1 : μ 1 μ 2 < 0 H 1 : μ 2 μ 1 > 0 Rätt! 25 Rätt!

Chi-två-test I ett chi-två-test beräknar man de förväntade frekvenserna. Men vilken av hypoteserna bygger de förväntade frekvenserna på? Nollhypotesen Mothypotesen Rätt! 26

Regression VD:n som undersökte sitt företags löner vill nu prediktera medellönen för de som varit anställda i 10 år på företaget med ett tillhörande intervall. Vilket intervall ska observeras? Prediktionsintervall Konfidensintervall 27 Rätt!

Tack för idag! Nästa tillfälle: Räknestuga 3, fredag 15/3 10-12, A38 28