Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera: 4 Större (mindre) försäljningsiffror verkar vara assosierade med större 3 4 5 (mindre) reklamkostnader Advertising Punkterna verkar vara fördelade runt en linje med positiv lutning Punkterna är ligger inte eakt på linjen Scatterplotten visar ett mer eller mindre stark tendens och inte ett eakt linjärt samband Linjen representerar den genomsnittliga relationen mellan försäljning och reklamkostnader Sales 8 6 Korrelation Korrelation (forts) Korrelationen mellan, &, är ett mått på linjärt samband ρ=- ρ= ρ= Populationens korrelation ρ, är mellan - & ρ = perfekt linjärt samband som är negativt -< ρ < negativt samband ρ = inget linjärt samband < ρ < positivt samband ρ = perfekt linjärt samband som är positivt ρ=-8 ρ= ρ=8 Enkel linjär regression Enkel linjär regression (forts) Enkel linjär regressionsmodell: = α + β + ε Regression Plot Sstematisk del Stokastisk (slumpmässig) del där är beroende variabel, den variabel som vi vill förklara eller prediktera Den kallas även responsvariabel är oberoende variabel, även kallad förklaringsvariabel ε är störningsterm (felterm), den stokastiska delen i modellen, dvs den enda källan till slumpmässighet i α är linjens intercept, dvs där linjen skär -aeln β är linjens lutning i β = Intercept Error: ε { i i } β } E[]=β + β
Enkel linjär regression (forts) Antaganden Tolkning av modellen: Den sstematiska delen av modellen, α + β, är det betingade väntevärdet av, givet, E[ ] Detta är ekvationen för själva linjen α är det förväntade värdet på då är noll E: Om reklamkostnaden är noll är den genomsnittliga försäljningen 5 enheter β är hur mcket i genomsnitt ökar (minskar) då -variabeln ökar med en enhet E: Om reklamkostnaden är ökar med en enhet (t e kr) så ökar den försäljningen i genomsnitt med enheter Relationen mellan och är linjär Värdena på variabeln antas fia (inte stokastiska); det enda slumpmässiga i värdena på kommer från feltermen ε ε~ N(,σ ) och oberoende Antaganden E[]=α + β Normalfördelande feltermer, centrerade på regressionslinjen och med lika stor varians Eempel = marknadsandel, = produktkvalité Utskrift från SPSS Forts eempel Coefficients a 7 Model (Constant) a Dependent Variable: Standardi zed Unstandardized Coefficie Coefficients nts B Std Error Beta t Sig -3,57,97-3,48,9,87,6,96,38, 5 35 45 55 65 75 85 a och b Total varians och variansen för feltermen Förklaringsgrad, R R = R =5 R =9 Vad du ser när du tittar på den totala variationen för, är variansen för Vad du ser när du tittar längs med regressionslinjen, är feltermsvariansen dvs σ SSE SSE SSR S S E SSR
Uteliggare och infltelserika variabler regressionslinje utan uteliggare Uteliggare regressions -linje med uteliggaren * Uteliggare Inget samband bland dessa punkter Punkt med ett stor värde på * regressionslinje med alla observationer inkluderade Infltelserika observationer Homoscedasticit: Residualerna verkar helt slumpmässiga Antagandena verkar uppfllda Residualerna uppvisar en linjär trend med tiden Modellkontroll or $ Time or $ Heteroscedasticit: Residualvariansen ändras när ändras or $ Ett kurvigt mönster i residualerna som beror på ett underliggande icke-linjärt samband Multipel linjär regression Multipel regressionsmodell Ofta beror den variabel vi är intresserad av (variabeln) på fler än en annan variabel Det kan finnas flera oberoende variabler (-variabler) som innehåller information om variabeln som vi försöker prediktera eller förstå (förklara) E: Bilförsäljningen (i kr) beror inte bara på reklamkostnader, utan även på t e bensinpriset Regressionsmodellen för en beroende variabel,, med k st oberoende variabler,,,, k är: = β + β + β + + β k k +ε där β är -interceptet för responstan och varje β i, i =,,,k är lutningen β β β = β + β + β + ε När flera oberoende variabler finns med i regressionsekvationen kallas modellen för en multipel regressionsmodell Med två -variabler är responstan ett plan (se figur) Tolkning β är det förväntade värdet på då alla -variabler är noll E: Bilförsäljningen då reklamkostnaderna är noll och bensinpriset är noll (En helt orimlig situation i och för sig ) β är hur mcket i genomsnitt ökar (minskar) då -variabeln ökar med en enhet medan övriga -variabler är oförändrade E: Hur mcket bilförsäljningen i genomsnitt ökar då reklamkostnaden ökar med en enhet (t e kr) om bensinpriset är oförändrat β k är hur mcket i genomsnitt ökar (minskar) då k -variabeln ökar med en enhet medan övriga -variabler är oförändrade E: Hur mcket bilförsäljningen i genomsnitt minskar då bensinpriset ökar med en enhet (t e öre) om reklamkostnaden är oförändrat Kvalitativa -variabler En indikator (dumm) variabel för egenskapen A : Eempel h = bruttoinkomst för en film = produktionskostnad = kostnad för promotion 3 = dummvariabel för om filmen baseras på en redan publicerad bok β + β + β + β + ε = 33 om egenskap A = annars Film Prodkast Promotion Bok 8 4 35 6 3 3 5 55 6 4 33 5 75 5 6 6 96 8 7 5 5 5 8 45 8 5 9 5 84 3 34 66 48 7 8 5 3 4 35 4 4 5 69 5 58 78 9 6 63 7 3 5 8 37 75 5 9 45 64 8 7 3
Kvalitativa -variabler (forts) Eempel (Film baserad på bok) Linje för = b 3 8 8 7 7 b +b b Linje för = earning 5 4 3 earning 5 4 3 6 6 7 prodkost 5 promotion 5 En regression med en En regression med två kvantivativ variabel ( ) and kvantitativa variabler ( och ) en kvalitativ variabel ( ): och en kvalitativ variabel ( 3 ): ˆ = b + b + b ˆ = b + b + b + b33 Eempel (Löner) Kvalitativa -variabler (forts) = β + β + βε + β33 + ε = lön = utbildning = erfarenhet 3 = kön ˆ = 8547 + 949 + 58 3563 b +b 3 b +b Linje då = och 3 = Linje då = och 3 = Linje då = och 3 = En kvalitativ variabel med r st kategorier (nivåer) representeras med (r-) st dummvariabler b 3 om kvinna = om man I genomsnitt är kvinnornas lön $356 lägre än männens lön En regression med en kvantitativ variabel ( ), t e kostnad, och två kvalitativa variabler ( och 3 ): $ = b + b + b + b 3 3 Kategori 3 Äventr Drama Romantik Antag att vi har två variabler mätta på nominal- eller ordinalskala (alt klassindelade) och att vi vill titta på samband mellan dessa Använd en korstabell Använd gärna relativa frekvenser (Lättare att se om grupperna är olika stora) Låt gärna förklaringsvariabeln redovisas kolumnvis och responsvariabeln radvis Korstabeller Åsikt om reklam-tv 7 83 3 8 9 5 75 5 Åsikt om reklam-tv (rel frekvens, %) 39 6 54 46 Grafiskt alternativ: Stapeldiagram (ett diagram för varje värde på förklaringsvariabeln eller grupperade stapeldiagram) 45 55 Simpson s parado Effekten av en tredje ( lurking ) variabel kan förändra t o m vända på ett samband Eempel: Om vi tittar på en given åldersgrupp finns inget samband alls mellan kön och åsikt om TV-reklam Äldres åsikt om reklam-tv (%) 6 4 6 4 6 4 ngres åsikt om reklam-tv (%) 3 7 3 7 3 7 4
Chitvå-test av oberoende Motsvarar det observerade sambandet i stickprovet ett samband i populationen eller beror sambandet på tur/otur i stickprovsdragningen? Vi kan formellt ställa upp en nollhpotes om att det råder oberoende mellan variablerna (dvs inget samband) och mothpotesen att det råder beroende Vi räknar ut ett mått där vi jämför observerade frekvenser i en korstabell med frekvenser, som vi kan förvänta oss under oberoende Om nollhpotesen är sann är detta mått chitvåfördelat (under vissa förutsättningar) Utifrån chitvå-fördelningen kan vi avgöra om nollhpotesen är osannolik och förkasta den alternativt behålla den tillsvidare 5