-9-6 Regreionanaly - om en mak åt en hungrande Kimmo Sorjonen Sektionen för Pykologi Karolinka Intitutet. Enkel reg.analy.. Data.. Reg.linjen.. Beta (β).. Signifikan.. Reg. om Var..6. Korr. & Förklarad var..7. SPSS.8. Rekom.. Multipel reg.analy.. Data.. Formel.. Kollinearitet.. Reg. om Var... SPSS.6. Förklarad varian.7. Semipartiell & Partiell.8. Selektionmetoder.9. Jämföra modeller.. Kurvlinjärt.. Interaktion.. Dummy-variabler. Logitik reg... Data.. Fina med Ln Odd.. SPSS.. Eempel.. Multipel, SPSS.. Enkel analy Data Värdet på en beroende variabel (kontinuerlig) predicera utifrån värdet på en oberoende variabel. Peron Pingviner (X) Livglädje (Y).............. 7... Enkel analy Regreionlinjen dje Livgläd 8 7 6 S e ( y yˆ) Pingviner.. Enkel analy Regreionlinjen, Ekvation y = a + b a =interceptet b =linjen lutning (= ökning i y när ökar med ett).. Enkel analy Regreionlinjen, Värdet på b y b Följande formel ger en lutning på linjen om minimerar reidualerna. b r y y Värdet på b påverka av mätenheten. Längd (cm) Vikt (kg), b =,9; Längd (m) Vikt (kg), b =? y
-9-6.. Enkel analy Regreionlinjen, Värdet på a.. Enkel analy Regreionlinjen, Eempelberäkning y = a + b Alltå: a = y - b Efterom linjen alltid går genom punkten M ; M y Så får vi att: a y b M =, M y =, =,8 y =, r y =,89, b,89,,8 a,,,, yˆ,,.. Enkel analy Standardierad b = β Om man tandardierar - och y-variabeln och beräknar linjen å beteckna linjen lutning β (beta). β = hur många tandardavvikeler värdet på y- variabeln ökar för en tandardavvikele ökning på -variabeln Värdet på β påverka inte av mätenhet. Därför indikerar den (till killnad från b) prediktiv förmåga. S Vad blir interceptet? b S y.. Enkel analy Signifikanprövning av b Reg.linjen ger ällan perfekta prediktioner. Den genomnittliga avvikelen mellan oberverade och predicerade värden är ett mått på hur pa bra (dåliga) prediktionerna är. Detta (ungefär) får man fram genom att beräkna tandard error of etimate. S Y X ( Y Yˆ) N SS df reidual Standard error of etimate kan i in tur använda Y X för att beräkna ett medelfel för b koefficienten (= b): X N Kan värdet på b anta vara kilt från i populationen? Detta kan teta (t-tet) genom att ätta det oberverade värdet på b i relation till den förväntade pridningen ( b = medelfel för koefficienten) : b t b.. Enkel analy Signifikanprövning av b I vårt eempel: SS reidual =, S =,8 S YX b X SSreidual df,, Y X,,8 N,8.. Enkel analy Regreioneffekten b r y y Y y i y i y j y j t b b,,,8. t krit.( df ),8 j i X
-9-6.. Enkel analy Regreion- om variananaly ädje Livglä 8 7 6 Total varian Regreionvarian Reidualvarian Pingviner Total varian: SS Y ( Y Y ) Regreionvarian = Varian om återtår när oberverade värden erätt med predicerade värden. ˆ SS Y ˆ ( Y Y ) Reidualvarian = Varian om går förlorad när oberverade värden erätt med predicerade värden. SS e ( Y Yˆ) SS Y SS Yˆ SS e.. Regreionom variananaly Yˆ ( Y Y ),, X ( Y Yˆ) ( Yˆ Y ) Peron Ob.X Ob.Y Var.Y Pred.Y Re.Y Reg,,,76,8, 6,76,,,6,,8,69,,,96,,96,,,,6,7,9,69, 7 7,,96 6 6,, 676 6,76 Σ, 7,, 7,, 6,9 Reg.var. Reg.df 6,9 / F,79 Re.var Re.df, /. Fkrit. ( df,), Reg.df = Antalet prediktorer (p) Re.df = N-p-.6. Enkel analy Korrelation & Förklarad varian Variabler Korr. SS(tot) SS(reg) För. var. F F,7 687,6,96, F F9,79, 6,9, F9 F6 -,9,8,79, F6 F8,77,6,79, F8 F8, 767,,69, F8 F7,76 86,676 8,87,8 r = förklarad varian.7. Enkel analy SPSS-utkrift Korrelation mellan oberverade och predicerade y-värden. R i kvadrat = Hur tor andel av varianen i y om kan förklara av varianen i. Samma ak kan få fram genom att beräkna SS(reg) / SS(tot) (6,9 /, =,797).8. Regreionanaly Krav & Rekommendationer Krav: Variablerna kall vara på mint ordinal-nivå (egentligen intervall). Även dikotoma variabler funkar om prediktorer (men inte om BV). Krav: Man kall ha data från mint två peroner fler än vad man har prediktorer. Krav: Oberverade värden kall vara oberoende av varandra. Antagande: I populationen är: ) Varianen i Y-variabeln amma för alla nivåer av X; ) Y-värdena normalfördelade för alla nivåer av X. Rekommendation: N + 8 prediktorer; N + prediktorer. Rekommendation: Outlier (kanke peciellt multivariata ådana) kan ha tor effekt på koefficienterna. Sådana borde detektera (t.e. Mahalanobi ditan) och kanke tryka... Multipel Data Värdet på en beroende variabel (kontinuerlig) predicera utifrån värdet på flera oberoende variabler. Peron Pingviner Barn Livglädje................... 7.
-9-6.. Multipel Formel Yˆ b b X b X... b p X p b = intercept b,b ov = koefficienter för variablerna X,X ov Värdena ta fram å att umman av de kvadrerade reidualerna minimera. S e ( y yˆ).. Multipel Kollinearitet Om en OV kan förklara utifrån andra OV å äg den ha kollinearitet. Denna OV bidrar inte mycket till förklaringen av BV och de närvaro kan innebära problem för modellen (man rikerar t.e. att dra lutaten att en OV inte har effekt på BV, trot att den har det). I SPSS kan man teta för kollinearitet genom att beräkna Tolerance och Variance Inflation Factor (VIF) Tolerance = Ett () minu förklarad varian (R ) när värdena i en OV predicera utifrån värdena i de andra OV. Bra om det är högt (tumregel: >,; Ma ) Variance Inflation Factor (VIF) = / Tolerance. Bra om det är lågt, min... Regreionom variananaly Ŷ,9,6 Ping,8 Barn ( Y Y ) ( Y Yˆ) ( Yˆ Y ).. Multipel SPSS-utkrift Peron Pingvin er Barn Livglä dje Var.y Pred.y Re.y Reg,,,,76,, 8,,,,,6,,,7,,, 96,96 9,9,,,,,,6,7,,9,, 7,,96 6,9,6 7,79 Σ, 7, 7,, 7,,67 7, R i kvadrat juterat för antalet prediktorer och N n (=förväntad genomnittlig R för tickprov med den Adj(R ) ( R ) aktuella torleken dragna ur amma population). Formel: n p Predicerar den aktuella modellen ignifikant mer än noll procent av varianen i BV? Kan någon av koefficienterna anta vara kild från noll i populationen? Reg.var. Reg.df 7,/ F,77 Re.var Re.df,67 /. Fkrit. ( df,) 9, Reg.df = Antalet prediktorer (p) Re.df = N-p-.. Beräkning av individuella koefficienter Peron Pingvin er Barn Livgläd je Prediktor=Barn Re(Pin g) Bˆ,9-,Ping Re(Liv g) Lˆ -,,Ping Prediktor=Ping Re(Bar n) Re(Liv g),,, -,6,,6,,,, -,8 -, -,9,9,,, -,8 -, -, -,,,,,8,, -,7,, 7,,6, -,, Σ, 7, 7,,,,, Re(L),9Re(P) Re(L) -,8Re(B).8. Multipel Selektionmetoder Enter: Alla valda OV ta med i modellen. Alla OV behandla om om de kulle vara it i hierarkin. Hierarkik: OV ta med i en vi (betämd) ordning. Effekten av en OV beräkna medan OV på högre nivå kontrollera. Forward: Programmet väljer ut OV om förklarar met varian, adderar edan näta OV o..v. OV ta med i modellen till den förklarade varianen inte längre ökar ignifikant. Backward: Alla OV ta med i modellen och edan eliminera (ucceivt) de OV om inte bidrar ignifikant till förklarad varian. Stepwie: Kombination av forward och backward.
-9-6.8. Multipel Hierarkik, SPSS I SPSS kan man göra en hierarkik analy och be programmet räkna fram R Square Change..8. Multipel SPSS, Stepwie Ta Barn med i modellen å ökar den förklarade varianen från 79,7% till 8,7%, men den här ökningen är inte ignifikant, F(, ) =., p =.68... Multipel Kurvlinjärt, Formel Yˆ b b X b X.. Multipel Kurvlinjärt, Data Pingviner Barn Livglädje Barn** Zbarn ZBarn**,,,, -,7,8,,,, -,7,8,,,, -,7,8,,,, -,7,8,,,,,,,, 6,,,,,, 6,,,,,, 7,,,,,,,,,7,8,,,,,7,8,,,,,7,8,,,,,7,8.. Multipel Kurvlinjärt, SPSS.. Multipel Kurvlinjärt, Korrelationer
-9-6.. Multipel Kurvlinjärt, SPSS OBS: Har man med en eponentiell term om prediktor bör alla termer av lägre grad ockå vara med. Livglädje = 6, +, Zbarn,6 Zbarn Livglädjen är om tört vid Zbarn =, vilket motvarar Barn =, Vad anger interceptet?.. Multipel Interaktion = Effekten av en OV på BV är beroende av nivån på en annan OV. Om man tetar för interaktion å utgår man oftat ifrån att effekten av en OV på BV är en linjär funktion av nivån på en (eller flera) annan OV, alltå: b = c + d b = effekten av på BV c = effekten av på BV när är noll d = förändring i effekten av på BV när ökar med ett teg Och grundformeln för (med två OV): y = b + b + b Om vi erätter b med uttrycket ovan får vi: y = b + (c + d ) + b Efter lite algebra: y = b + c + b + d Interaktionen kan alltå teta genom att ta med produkten av de två variablerna om en prediktor i analyen... Multipel Interaktion Pingviner Barn Livglädje P*B Zping Zbarn Zp*Zb,,,, -,6 -,7,76,,,, -,6 -,7,76,,,,, -,7 -,6,, 7 7,,, -,7 7 -,,,,, -,6,,,,,, -,,,,,,, -,,,,,,,,,,,, 6,, -,,7 -,6,, 6,, -,6,7 -,76,,,,,7,7,,,, 8,,,7,.. Multipel Interaktion, SPSS OBS: Har man med en interaktionterm i analyen å kall p- värdet för huvudeffekterna tolka med tor föriktighet.. Multipel Interaktion, Korrelation.. Multipel Interaktion, SPSS Glädje =,7 +, * ZPing +, * ZBarn,9 * ZPing * ZBarn Effekt av ZPing:,,9 * ZBarn (ZBarn <,7: Potiv effekt, annar negativ) Effekt av ZBarn:,,9 * ZPing (ZPing <,: Poitiv effekt, annar negativ) När antalet pingviner ökar med en SD å minkar effekten av antalet barn på livglädje med,9. När antalet barn ökar med en SD å minkar effekten av antalet pingviner på livglädje med,9. 6
-9-6.. Multipel Kategorivariabler (Dummy-variabler) Studerar Pingviner Barn Livglädje Statitik Sociologi Sociologi,,,,, Sociologi,,,,, Pykologi,,,,, Statitik,, 7,,, Pykologi,,,,, Pykologi,,,,, Pykologi,,,,, Statitik,,,,, Statitik,, 6,,, Statitik,, 6,,, Sociologi,,,,, Sociologi,,,,,.. Multipel Kategorivariabler, SPSS Om man läer tatitik å förvänta livglädjen vara, poäng högre jämfört med om man läer pykologi (kontrollerat för effekten av pingviner och barn). Om man läer ociologi å förvänta livglädjen vara, poäng lägre jämfört med om man läer pykologi (kontrollerat för effekten av pingviner och barn)... Logitik Data Använd när man kall predicera värden på en dikotom variabel. Använder ig av den naturliga logaritmen av oddkvoter (efterom dea tenderar att vara linjära även med en dikotom beroende variabel). Undviker problem med orimliga predicerade värden... Logitik Rik & Odd Rik = Antal med utfall dividerat med totalt antal (kan variera mellan och ) Odd = Antal med utfall dividerat med antal utan utfall (kan variera mellan och ) ) Kvinnor Män Rik(kvinna) Odd(kvinna) 8 8 /(+8)=, /8=, /(+)=, /= 8/(8+)=,8 8/=.. Logitik Det fina med Ln Odd Odd(man).. Logitik SPSS Vikt Ln(Odd(man)) - - - - - Vikt Alltå: Ln Odd (man) =, Vikt 7, 7
-9-6.. Logitik Eempelberäkning Ln Odd (man) =, Vikt 7, Vikt = 7 Ln Odd (man) = -, Odd (man) = e -, =,989 P (man) =,989 / ( +,989) = 9,7% Vikt = 8 Ln Odd (man) =,9 Odd (man) = e,9 =,77 P (man) =,77 / ( +,77) = 7,%.6 Logitik Multipel, SPSS. Enkel reg.analy.. Data.. Reg.linjen.. Beta (β).. Signifikan.. Reg. om Var..6. Korr. & Förklarad var..7. SPSS.8. Rekom.. Multipel reg.analy.. Data.. Formel.. Kollinearitet.. Reg. om Var... SPSS.6. Förklarad varian.7. Semipartiell & Partiell.8. Selektionmetoder.9. Jämföra modeller.. Kurvlinjärt.. Interaktion.. Dummy-variabler. Logitik reg... Data.. Fina med Ln Odd.. SPSS.. Eempel.. Multipel, SPSS 8