Enkel linjär regression



Relevanta dokument
Lösningsförslag till tentamen i 732G71 Statistik B,

F15 ENKEL LINJÄR REGRESSION (NCT )

Föreläsningsanteckningar till Linjär Regression

REGRESSIONSANALYS S0001M

Centrala gränsvärdessatsen

Sensorer, effektorer och fysik. Analys av mätdata

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Sensorer och elektronik. Analys av mätdata

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Något om beskrivande statistik

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Vinst (k) Sannolikhet ( )

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

SAMMANFATTNING AV KURS 602 STATISTIK (Newbold kapitel [7], 8, 9, 10, 13, 14)

Lycka till och trevlig sommar!

MA2018 Tillämpad Matematik III-Statistik, 7.5hp,

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

= α. β = α = ( ) D (β )= = 0 + β. = α 0 + β. E (β )=β. V (β )= σ2. β N β, = σ2

TENTAMEN I MATEMATISK STATISTIK. Statistik för lärare, 5 poäng

ENKEL LINJÄR REGRESSION

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?

Kompletterande kurslitteratur om serier

En kvalitetskontroll - Snustillverkaren Fiedler & Lundgren kvalitetstestas Av: Andreas Timglas

Föreläsning 14: Försöksplanering

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

Parametriska metoder. Icke-parametriska metoder. parametriska test. Icke-parametriska test. Location Shift. Vilket test ersätts med vilket?

Armin Halilovic: EXTRA ÖVNINGAR. ) De Moivres formel ==================================================== 2 = 1

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Statistik 1 för biologer, logopeder och psykologer

Orderkvantiteter vid begränsningar av antal order per år

FÖRSÖKSPLANERING. och utvärdering av försöksresultat med den matematiska statistikens metoder. av Jarl Ahlbeck

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

En utvärdering av två olika sätt att skatta fördelningen till stickprovsmedelvärden från olikfördelade data - normalapproximation kontra resampling

Exempel 1 på multipelregression

Enkel slumpvandring. Sven Erick Alm. 9 april 2002 (modifierad 8 mars 2006) 2 Apan och stupet Passagesannolikheter Passagetider...

Sammanfattning formler och begrepp, första delen av två

4.2.3 Normalfördelningen

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Konsoliderad version av. Styrelsens för ackreditering och teknisk kontroll föreskrifter (STAFS 1993:18) om EEG-märkning av färdigförpackade varor

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Flexibel konkursriskestimering med logistisk spline-regression

Flode. I figuren har vi också lagt in en rät linje som någorlunda väl bör spegla den nedåtgående tendensen i medelhastighet för ökande flöden.

Föreläsning 9: Hypotesprövning

i de fall de existerar. Om gränsvärdet ifråga inte skulle existera, ange i så fall detta med motivering.

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

SF1625 Envariabelanalys

Primär- och sekundärdata. Undersökningsmetodik. Olika slag av undersökningar. Beskrivande forts. Beskrivande forts

Statistisk undersökningsmetodik (Pol. kand.)

SOS HT Punktskattningar. Skattning från stickprovet. 2. Intuitiva skattningar. 3. Skattning som slumpvariabel. slump.

b) Om du nu hade oturen att du köpt en trasig dator, vad är sannolikheten att den skulle ha tillverkats i Litauen?

F13. Förra gången (F12) Konfidensintervall och hypotesprövning Chi-tvåtest. Stratifierat urval

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Korrelationens betydelse vid GUM-analyser

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

Kontingenstabell (Korstabell) 2. Oberoende-test. Stickprov beror av slumpen. Vad vi förvf. är r oberoende: kriterier är r oberoende: kriterier

Möbiustransformationer.

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

1. Frekvensfunktionen nedan är given. (3p)

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Variansberäkningar KPI

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Sammanfattning. Härledning av LM - kurvan. Efterfrågan, Z. Produktion, Y. M s. M d inkomst = Y >Y. M d inkomst = Y

Regressions- och Tidsserieanalys - F1

(a) om vi kan välja helt fritt? (b) om vi vill ha minst en fisk av varje art? (c) om vi vill ha precis 3 olika arter?

x 2 + px = ( x + p 2 x 2 2x = ( x + 2

Tentamentsskrivning: Tillämpad Statistik 1MS026 1

Regressions- och Tidsserieanalys - F1

Lösningsförslag

Funktionsteori Datorlaboration 1

Övningshäfte Algebra, ekvationssystem och geometri

Leica Lino. Noggranna, självavvägande punkt- och linjelasers

Artificiell intelligens Probabilistisk logik

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Tentamen i Flervariabelanalys F/TM, MVE035

( ) ( ) Kap Kolligativa egenskaper + fasjämvikter för 2-komponentsystem 5B.2/5.5 Kolligativa egenskaper R T

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Tentamen i matematisk statistik

Skrivning i ekonometri lördagen den 25 augusti 2007

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

- Syns den globala uppvärmningen i den svenska snöstatistiken?

Leif Abrahamsson. Uppsala Universitet

3. Värmeutvidgning (s )

D 45. Orderkvantiteter i kanbansystem. 1 Kanbansystem med två kort. Handbok i materialstyrning - Del D Bestämning av orderkvantiteter

FACITSKISSER version (från och med sidan 5)

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Tentamen i Matematisk statistik Kurskod S0001M

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

BibliotekMitt.se. Riktlinjer för Boktips, Artiklar, Arrangemang, Utställningar Arrangemang mm

Virkade tofflor. Storlek & By: Pratamedrut. pratamedrut.se/blog/virkade tofflor 1

SANNOLIKHET. Sannolikhet är: Hur stor chans (eller risk) att något inträffar.

vara en funktion av n variabler som har kontinuerliga derivator av andra ordningen i en öppen omgivning D av punkten ) A =.

Formler och tabeller i statistik

Multipel regression och Partiella korrelationer

Uppdrag: Huset. Fundera på: Vilka delar i ditt hus samverkar för att elen ska fungera?

Transkript:

Ekel ljär regresso Ekel ljär regresso Kap Ekel ljär regressosmodell: = β + β + ε Sstematsk del Stokastsk (slumpmässg) del där är beroede varabel, de varabel som v vll förklara eller predktera De kallas äve resposvarabel är oberoede varabel, äve kallad förklargsvarabel ε är felterm (störgsterm), de stokastska dele modelle, dvs de eda källa tll slumpmässghet β är ljes tercept, dvs där lje skär -ael β är ljes lutg Iledade eempel (scatterplot) E scatterplot som vsar par av observatoer Scatterplot of Advertsg Epedtures () ad Sales () reklamkostade på -ael ad försäljg på - ael Notera: Större (mdre) försäljgsffror verkar vara assoserade med större (mdre) reklamkostader Advertsg Puktera verkar vara fördelade rut e lje med postv lutg Puktera är lgger te eakt på lje Scatterplotte vsar ett mer eller mdre stark tedes och te ett eakt ljärt sambad Lje represeterar de geomsttlga relatoe mella försäljg och reklamkostader Sales 8 6 5 β = Itercept Ekel ljär regresso (forts) ε { } } β = Lutg E[]=β + β De ekla ljära regressosmodelle asätter ett eakt ljärt sambad mella vätevärdet (eller geomsttlga värdet) på, de beroede varabel, och, de obereode varabel: E[ ]=β + β Det faktska observerade värdet på skljer sg frå vätevärdet med ett slumpmässgt fel: = E[ ] + ε = β + β + ε 5 Fler eempel Ekel ljär regresso (forts ) Tolkg av modelle: De sstematska dele av modelle, β + β, är det betgade vätevärdet av, gvet, E[ ] Detta är ekvatoe för lje β är det förvätade värdet på då är oll E: Om reklamkostade är oll är de geomsttlga försäljge 5 eheter β är hur mcket geomstt ökar (mskar) då -varabel ökar med e ehet E: Om reklamkostade är ökar med e ehet (t e kr) så ökar försäljge geomstt med eheter 6

le (atagade) Msta-kvadratmetode (forts) Relatoe mella och är ljär Värdea på varabel atas fa (ej stokastska); det eda slumpmässga värdea på kommer frå felterme ε ε ~ N(,σ) och oberoede Se äve fgur 6 s 5 Aderso Atagade E[]=β + β Normalfördelade feltermer, cetrerade på regressoslje och med lka stor varas 7 ˆ observato ˆ = b + b de skattade regressoslje Resdual e = ˆ { ˆ predkterat värde på för Skattg av modelle Skattg av modelle (de ljära relatoe) ebär att skatta värdet på terceptet och lutge på regressoslje De skattade regressosekvatoe: = b + b + e där b är ett estmat (skattg) av terceptet, β b är ett estmat av lutge, β e är observerade feltermer så kallade resdualer, dvs skllade mella de skattade regressoslje ŷ = b + b och de puktera ŷ kallas -hatt 8 Låt oss jämföra två ljer: 5 (,) Msta-kvadratmetode (forts) (,) (,5) (,) Summa av kvadrerade resdualer = ( - ) + ( - ) + (5 - ) + ( - ) = 689 Summa av kvadrerade resdualer = ( -5) + ( - 5) + (5-5) + ( - 5) = 99 Ju mdre kvadratsumma är desto bättre apassar lje tll data Msta-kvadratmetode (Method of Least Squares) MK-estmatorera Msta-kvadratmetode är e specell metod för att skatta Parametrara modelle Med msta-kvadrat metode väljs de skattade parametrara så att summa av resdualera kvadrat mmeras Data Resdualer b = b b = ( )( ) = ( ) ( )( ) ( ) Summa av kvadratera av resdualera mmeras 9

Eempel: Markadsadel 8 8 6 6-5 6 7 8 9-5 6 7 8 9 6 Eempel: Markadsadel (SPSS-utskrft) Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Korrelato Korrelatoe mella, &, är ett mått på ljärt sambad Populatoes korrelato ρ, är mella - & Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 a Predctors: (Costat), Squares df Mea Square F Sg Regresso 8, 8, 9,55, a Resdual,899,99 Total 9, a Predctors: (Costat), ρ = perfekt ljärt sambad som är egatvt -< ρ < egatvt sambad ρ = get ljärt sambad < ρ < postvt sambad ρ = perfekt ljärt sambad som är postvt b Depedet Varable: Coeffcets a b och b Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg (Costat) -,57,97 -,8,9,87,6,96,8, Notera: Om ρ <, β < Om ρ =, β = Om ρ >, β > a Depedet Varable: 7 Eempel: Markadsadel (Mtab-utskrft) Korrelato (forts) r = - r = r = Utskrft frå Mtab The regresso equato s = -,6 +,87 b och b Predctor Coef SE Coef T P Costat -,566,97 -,5,9 r = - 8 r = r = 8,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% 5 8

Korrelato (forts) Eempel: Markadadel (SPSS-utskrft) r = där s = ( )( ) s s ( ), s = ( ) Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 a Predctors: (Costat), S Squares df Mea Square F Sg Regresso 8, 8, 9,55, a Resdual,899,99 Total 9, a Predctors: (Costat), b Depedet Varable: SSE MSE Coeffcets a 9 Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg (Costat) -,57,97 -,8,9,87,6,96,8, a Depedet Varable: Total varas och varase för felterme Hur bra är modelle? Förklargsgrade (coeffcet of determato), R, är ett mått som beskrver strka på regressossambadet, ett mått på hur väl regressoslje passar data Vad du ser är du tttar på de totala varatoe för, är varase för Vad du ser är du tttar lägs med regressoslje, är feltermsvarase (error varace) dvs σ $ { Ueplaed Devato Devato Eplaed Devato {}Total ( ) = ( ˆ) + Total = Ueplaed Devato Devato (Error) ( ) =( ˆ) +( ˆ ) SST = SSE + SSR R = SSR = SSE SST SST ( ˆ ) Eplaed Devato (Regresso) Procet av totala varatoe som förklaras av regressoe Adel som förklaras av regressoe σ är oftast okäd och måste skattas frå vårt stckprov σ skattas med S = MSE = SSE/(-) = = ( ˆ ) /(-) Frhetsgrader, Df (degrees of freedom) SSE = Squares of Error MSE = Mea Square of Error Totala varatoe för Oförklarad varato

Förklargsgrad, R Stadard errors (stadardavvkelsera för estmatorera) Dessa aväds för kostrukto av kofdestervall och hpotestest för parametera β och β r = r =5 r =9 Oftast är det te så tressat att pröva hpoteser etc för terceptet uta bara för lutgsparameter V behöver alltså bara käa tll att SST SSE SST SSE SSR S S E SST SSR s b = MSE ( ) 5 8 Eempel: Markadsadel (SPSS-utskrft) Eempel: Markadsadel (SPSS-utskrft) Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 Predctors: (Costat), a R =9,% Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 Predctors: (Costat), a Regresso Resdual Total Squares df Mea Square F Sg 8, 8, 9,55, a,899,99 9, Regresso Resdual Total Squares df Mea Square F Sg 8, 8, 9,55, a,899,99 9, a Predctors: (Costat), a Predctors: (Costat), b Depedet Varable: b Depedet Varable: Coeffcets a Coeffcets a (Costat) Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg -,57,97 -,8,9,87,6,96,8, (Costat) Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg -,57,97 -,8,9,87,6,96,8, s b a Depedet Varable: 6 a Depedet Varable: 9 Eempel: Markdsadel ( Mtab-utskrft) Eempel: Markadsadel (Mtab-utskrft) Utskrft frå Mtab The regresso equato s = -,6 +,87 Predctor Coef SE Coef T P Costat -,566,97 -,5,9,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% Utskrft frå Mtab The regresso equato s = -,6 +,87 s b Predctor Coef SE Coef T P Costat -,566,97 -,5,9,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% R =9,% 7 5

Kofdestervall för lutgsparameter β Ett (-α)%-gt kofdestervall för β : b ± t( a /, ) sb Estmato och predkto Kap 6--7 Markadele: t-test av H :β = (SPSS) Predkto Varables Etered/Removed b Varables Varables Etered Removed Method a, Eter a All requested varables etered b Depedet Varable: Summar Adjusted Std Error of R R Square R Square the Estmate,96a,9,95,995 a Predctors: (Costat), Squares df Mea Square F Sg Regresso 8, 8, 9,55, a Resdual,899,99 Total 9, a Predctors: (Costat), b Depedet Varable: Coeffcets a Ustadardzed Stadardzed Coeffcets Coeffcets B Std Error Beta t Sg (Costat) -,57,97 -,8,9,87,6,96,8, a Depedet Varable: T obs och p-värdet Puktestmato (puktpredkto) Ett puktestmat av för ett vsst gvet värde på, säg p, som fås av att sätta värdet på, dvs p, de skattade regressosekvatoe Puktestmatet beteckas boke p 5 Eempel: Markadsadel ( Mtab-utskrft) Utskrft frå Mtab The regresso equato s = -,6 +,87 Predctor Coef SE Coef T P Costat -,566,97 -,5,9,866,6,8, S =,995 R-Sq = 9,% R-Sq(adj) = 9,5% T obs och p-värdet Predktostervall och kofdestervall Predktostervall För ett observato på gvet ett vsst värde på, säg p Beteckas boke p Osäkerhete skattge av regressolje Varatoe rut regressoslje 6 6

Kofdestervall för E( p ) Kofdestervall För vätevärdet för gvet ett vsst värde på, säg p, dvs för E( p ) Beteckas boke E( p ) Osäkerhete (varatoe) skattge av regressolje Ett (-α)%-gt kofdestervall för E( p ): ˆ ± t p ( α/, ) s ( p ) + ( ) = där ˆ + p = b b p 7 Kofdestervall för E( p ) Predktostervall för p Övre gräs för lutge Regressoslje Nedre gräs för lutge Övre gräs för terceptet Regressoslje Nedre gräs för terceptet Regresso lje Kofdesbad för E[ p ] Regressoslje Predktosbad för p ) Osäkerhet om lutge ) Osäkerhet om terceptet ) Varato rut lje + osäkerhet om lje, dvs ) och ) Predktostervall för 8 Kofdestervall för E( p ) (forts) Predktostervall för : Kofdetervall för E( p ) Kofdestervall för E( p ) Regressoslje Ett (-α)%-gt predktostervall för : ( p ) ˆ ± + + p t( α/, ) s ( ) = där ˆ = b + b p p 9 7

Eempel: Markadsadel lkotroll Utskrft frå Mtab Resduals Resduals Predcted Values for New Observatos Kofdestervall New Obs Ft SE Ft 95,% CI 95,% PI 6,75,98 (5,6; 6,9) (,988; 8,56) Predkto Values of Predctors for New Observatos Predktostervall New Obs 5, p Homoscedastct: Resdualera verkar helt slumpmässga Atagadea verkar uppfllda Resduals or $ Tme Resdualera uppvsar e ljär tred med tde or $ Heteroscedastct: Resdualvarase ädras är ädras Resduals or $ Ett kurvgt möster resdualera som beror på ett uderlggade cke-ljärt sambad 6 Normalfördelgsatagadet lkotroll (Resdualaals) Kap 8 & Hstogram över resdualera Lkar det e ormalfördelg? eller Normal Probablt Plot (se ästkommade blder för eempel) Lgger puktera på lje? 7 lkotroll Kotrollera att modellatagade är uppfllda geom att ttta på resdualplottar Atagade att kolla: Ljärt sambad Feltermera, ε, är oberoede och ormalfördelade med vätevärde och kostat varas, σ Normal Probablt Plot Normal Problt Plot: Alla pukter bör lgga på lje för att feltermera ska vara ormalfördelade 5 Tjockare svasar ä ormalfördelge 8 8

Eempel: Markadsadel Resduals Versus the Ftted Values (respose s ) Resduals Versus (respose s ) Resdual Resdual - - 7 5 5 5 55 65 75 85 Ftted Value Normal Probablt Plot of the Resduals (respose s ) Hstogram of the Resduals (respose s ) Normal Score Frequec - - Smalare svasar ä ormalfördelge 9 - Resdual -, -,5,,5, Resdual,5, 5 Utelggare och fltelserka varabler Skattad regressoslje uta utelggare Skattad regressoslje med utelggare * Utelggare Iget sambad blad dessa pukter Pukt med ett stor värde på * Skattad regressoslje med alla observatoer kluderade Mer postvt skev ä ormalfördelge 5 Utelggare Ifltelserka observatoer 5 Mer egatvt skev ä ormalfördelge 5 9