Stat. teor gk, ht 006, JW F5 ENKEL LINJÄR REGRESSION (NCT.-.4) Ordlta tll NCT Scatter plot Depedet/depedet Leat quare Sum of quare Redual Ft Predct Radom error Aal of varace Sprdgdagram Beroede/oberoede Beroede/förklarade Repo/predktor Mta kvadrat Kvadratumma Redual Apaa, apag Predcera Slumpfel Varaaal
Bekrvade mått på amvarato mella två oberverade kvattatva varabler (Lä avtt.5 och 3.4 3-5 NCT, om du te tdgare tött på begreppe regreo och korrelato.) Data av följade tp: Ob. r. M M M Ka åkådlggöra prdgdagram: Sprdgdagram 60 50 40 30 0 0 7 8 9 0 3 4 5 6
3 Korrelato: r r ) ( ) ( ) )( ( där är tckprovet kovara: ) )( ( Korrelatokoeffcete r är ett mått på grade av ljär amvarato ho data. - r Vad betder r, r > 0, r 0, r < 0, r -? Se d. 66-68 kurboke. Varablera behadla mmetrkt: r XY r YX.
Regreo: beroede varabel ( repoe varable ) förklarade varabel ( predctor ) Hur mcket av varatoe ho -värdea ka förklara av? F det ågo ljär amvarato? Beräka e rät lje, b 0 + b, om bekrver det ljära ambadet. Hur bra är apage? OBS Med regreoaal tuderar v hur på ett gaka tlgt ätt förklara av. Iga lutater om orakambad, kaualtet. OBS I regreoaal tuderar v ambad ur perpektvet:. V talar om e beroede och e förklarade varabel. I korrelatoaal däremot tuderar v amvarato mella två jämbördga varabler, uta att e de ea om beroede och de adra om förklarade: och r XY r YX. 4
Apag av rät lje tll tckprovdata Apaa e rät lje, b 0 + b, tll tckprovdata med mta-kvadratmetode. Summa av alla kvadrerade lodräta avtåd tll lje kall mmera. Matematk lög: Beräka b 0 och b om b ( ( )( ) ) ( )( ( ) ) r b0 b Hur tolka b 0 och b? 5
E.: Total oljeförbrukg ett tckprov av hu uder 0 måader. Hur förklara oljeförbrukge av ttertemperature? medeltemperatur uder måade ( C) oljeförbrukg uder måade (lter) Måad ju 5, 55 340,5 8,0 jul 4,4 75 080,0 07,36 aug 5, 35 05,0 3,04 ep 0, 5 95,0 04,04 okt 8,3 75 8,5 68,89 ov 3,8 385 463,0 4,44 dec 0,5 470 35,0 0,5 ja -,4 55-735,0,96 feb -4, 65-56,5 6,8 mar, 450 540,0,44 Summa 63, 330 8990,5 874,4 700 Oljeförbrukg och ttertemperatur Oljeförbrukg 600 500 400 300 00 00 0-5 0 5 0 Yttertemperatur 5 6
Mta-kvadratmetode ger: b 63, 330 8990,5 0 63, 874,4 0 5,3 b 330 0 63, ( 5,3) 0 0 49 De apaade regreolje ekvato blr 49 5,3 700 600 500 400 300 00 00 0 Sprdgdagram med regr.-lje 49-5,3-5 0 5 0 5 7
Redualer, kvadratummor, ANOVA-tablå För varje gvet defera det apaade, predcerade -värdet om ˆ b 0 + b Det är det -värde om lgger på de apaade lje. Det apaade värdet, ˆ, är oftat det oberverade värdet,. Skllade e - ˆ mella oberverat och apaat -värde kalla för redual. E.: Fort. på föreg.eempel. e- 5, 55 09,97 45,03 4,4 75 7,68 5,68 5, 35 07,44 7,56 0, 5 33,94-8,94 8,3 75 8,0-7,0 3,8 385 395,86-0,86 0,5 470 479,35-9,35 -,4 55 57,4 -,4-4, 65 595,73 9,7, 450 46,64 -,64 8
De totala varatoe ho -varabel (krg tt medelvärde) ka dela upp två kompoeter: ( ) 443 SST ( ˆ ) 443 SSR + e { SSE där SST totala kvadratumma mått på total varato ho -värdea -värdea varato krg SSR regreokvadratumma mått på förklarad varato de del av -värdea varato om förklara av de apaade lje SSE redualkvadratumma (E error) mått på oförklarad varato mått på -värdea varato krg lje de del av -värdea varato om te förklara av de apaade lje 9
För att mäta hur pa bra de apaade lje är på att bekrva gva data aväd determatokoeffcete, R, om defera: R SSR SST SSE SST är ett mått på förklarggrade : det ager hur tor del av -varatoe om förklara av de apaade lje. (Age blad procet.) R Av deftoe följer att 0 R. R betder perfekt ljär amvarato. Om alla -värdea frå börja lgger prec på e rät lje, å blr alla e 0. Alla e 0 SSE 0 R. R 0 betder fulltädg avakad av ljär amvarato. Om det te f ågo om helt ljär amvarato mella och, å blr b 0. b 0 Alla ˆ SSR 0 R 0. Vd ekel ljär regreo gäller att R r. 0
Vd regreoaal redova ofta e.k. ANOVA-tablå (ANOVA Aal of Varace): Varatoorak Kvadratumma (SS) Frhetgrader (df) Medelkvadratumma (MS) Regreo SSR MSR SSR/ Redual SSE - MSE SSE/(-) Totalt SST - MSE e redualvarae. E.: Med data frå oljeförbrukgeemplet ger Mtab följade (här ågot tmpade) ANOVAtablå. Aal of Varace Source DF SS MS Regreo 30866 30866 Redual Error 8 6894 86 Total 9 309760 R SSR SST 30 866 309 760 0,978 97,8%
Ekel ljär regreomodell Httll: Bekrvg av gve datamägd (, ) (,,, ) geom apag av e rät lje. Nu: Stattk fere. Våra data täk ha geererat elgt e regreomodell (e täkt lumpmekam, om producerar data med va egekaper). På grudval av våra oberverade data vll v föröka dra lutater om de modell om har geererat data. V täker o att varje oberverat -värde är e obervato på e tokatk varabel Y, åda att: Y β 0 +β + ε där ε är e lumpmäg felterm. V täker o med adra ord att: Y e ljär fukto av (β 0 +β ) + ett lumpfel (ε)
Våra oberverade -värde,,, e alltå om oberverade värde på tokatka varabler Y, Y,, Y ådaa att Y β 0 + β + ε (,,, ) I tadardmodelle för ekel ljär regreo gör följade modellatagade:. Värdea på,,, betrakta om fa.. För varje gvet (,,, ) gäller att Y β 0 + β + ε 3. ε, ε,, ε är oberoede ormalfördelade tokatka varabler med vätevärde 0 och med amma tadardavvkele σ ε. Dv. ε, ε,, ε är oberoede och N(0; σ ). Vad ebär dea modellatagade? ε 3
Skattg av β 0 och β V vll katta de okäda parametrara β 0 och β regreomodelle. (I praktke är det ofta β om är de met treata parameter.) Gör å här: För gva data, apaa e rät lje b 0 + b med mta-kvadratmetode, på det ätt om bekrvt. De b 0 och b om v då får är våra puktkattgar av modellparametrara β 0 repektve β. Alltå: ˆ b β 0 0 och β ˆ b Det går att va (uder förutättg att modellatagadea gäller) att: E(b 0 ) β 0 och E(b ) β De båda kattgara, b 0 och b, är alltå vätevärderktga kattgar av β 0 rep. β. 4
Det går ockå att va (uder förutättg att modellatagadea gäller) att: Var( b ) σ σ ε ε ( X ) ( ) X (Hur Var(b 0 ) er ut, tår te kurboke.) Ttta på uttrcket för Var(b ). Hur bör ma välja a -värde om ma vll katta β med å tor preco om möjlgt? Några vädgar? De aa lumpfelvarae σ ε är praktke oftat okäd. Om v utfrå gva data vll blda o e uppfattg om torleke på Var(b ), å erätter v σ med de oberverade redualvarae e ε ( MSE), om är e vätevärderktg kattg av lumpfelvarae: E( e ) σ ε Som kattg av Var(b ) aväd då: b e ( ) ( e ) 5
Mtab-utkrft För oljeförbrukgeemplet ger Mtab följade utkrft (om kommetera på föreläge): ) ) 3) 4) The regreo equato 49-5,3 Predctor Coef SE Coef T P Cotat 49,6,60 39,03 0,000-5,56,347-8,75 0,000 S 9,3554 R-Sq 97,8% R-Sq(adj) 97,5% Aal of Varace Source DF SS MS F P Regreo 30866 30866 35,46 0,000 Redual Error 8 6894 86 Total 9 309760 5) Uuual Obervato Ob Ft SE Ft Redual St Red 4,4 75,00 7,93 4,3-5,93 -,06R R deote a obervato wth a large tadardzed redual. 6