Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Relevanta dokument
732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Multipel Regressionsmodellen

10.1 Enkel linjär regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Sänkningen av parasitnivåerna i blodet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Finansiell statistik. Multipel regression. 4 maj 2011

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F3

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F3

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Metod och teori. Statistik för naturvetare Umeå universitet

Linjär regressionsanalys. Wieland Wermke

Föreläsning 12: Linjär regression

Föreläsning G60 Statistiska metoder

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning G60 Statistiska metoder

MVE051/MSG Föreläsning 14

Föreläsning 12: Regression

Uppgift 1. Deskripitiv statistik. Lön

F11. Kvantitativa prognostekniker

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

F7 Polynomregression och Dummyvariabler

Grundläggande matematisk statistik

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

oberoende av varandra så observationerna är

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Matematisk statistik för D, I, Π och Fysiker

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Läs noggrant informationen nedan innan du börjar skriva tentamen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

InStat Exempel 4 Korrelation och Regression

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

F13 Regression och problemlösning

Föreläsning 13: Multipel Regression

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

SAMBANDS- MODELLER, 15HP. Lärare: Ann-Charlotte Hallberg Tommy Schyman

STATISTISK ANALYS AV KOMPLEXA DATA

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Lösningar till SPSS-övning: Analytisk statistik

Regressionsanalys av lägenhetspriser i Spånga

Statistik 1 för biologer, logopeder och psykologer

Läs noggrant informationen nedan innan du börjar skriva tentamen

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Matematisk statistik, Föreläsning 5

import totalt, mkr index 85,23 100,00 107,36 103,76

Bayesiansk statistik, 732g43, 7.5 hp

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Föreläsning 4. Kap 5,1-5,3

Lektionsanteckningar 11-12: Normalfördelningen

Medicinsk statistik II

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Finansiell statistik

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

ANOVA Faktoriell (tvåvägs)

Matematisk statistik för B, K, N, BME och Kemister

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Läs noggrant informationen nedan innan du börjar skriva tentamen

Examinationsuppgifter del 2

Multipel regression och Partiella korrelationer

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Enkel och multipel linjär regression

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Laboration 4 R-versionen

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Laboration 2: Styrkefunktion samt Regression

Transkript:

Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera: 4 Större (mindre) försäljningsiffror verkar vara assosierade med större 3 4 5 (mindre) reklamkostnader Advertising Punkterna verkar vara fördelade runt en linje med positiv lutning Punkterna är ligger inte eakt på linjen Scatterplotten visar ett mer eller mindre stark tendens och inte ett eakt linjärt samband Linjen representerar den genomsnittliga relationen mellan försäljning och reklamkostnader Sales 8 6 Korrelation Korrelation (forts) Korrelationen mellan, &, är ett mått på linjärt samband ρ=- ρ= ρ= Populationens korrelation ρ, är mellan - & ρ = perfekt linjärt samband som är negativt -< ρ < negativt samband ρ = inget linjärt samband < ρ < positivt samband ρ = perfekt linjärt samband som är positivt ρ=-8 ρ= ρ=8 Enkel linjär regression Enkel linjär regression (forts) Enkel linjär regressionsmodell: = α + β + ε Regression Plot Sstematisk del Stokastisk (slumpmässig) del där är beroende variabel, den variabel som vi vill förklara eller prediktera Den kallas även responsvariabel är oberoende variabel, även kallad förklaringsvariabel ε är störningsterm (felterm), den stokastiska delen i modellen, dvs den enda källan till slumpmässighet i α är linjens intercept, dvs där linjen skär -aeln β är linjens lutning i β = Intercept Error: ε { i i } β } E[]=β + β

Enkel linjär regression (forts) Antaganden Tolkning av modellen: Den sstematiska delen av modellen, α + β, är det betingade väntevärdet av, givet, E[ ] Detta är ekvationen för själva linjen α är det förväntade värdet på då är noll E: Om reklamkostnaden är noll är den genomsnittliga försäljningen 5 enheter β är hur mcket i genomsnitt ökar (minskar) då -variabeln ökar med en enhet E: Om reklamkostnaden är ökar med en enhet (t e kr) så ökar den försäljningen i genomsnitt med enheter Relationen mellan och är linjär Värdena på variabeln antas fia (inte stokastiska); det enda slumpmässiga i värdena på kommer från feltermen ε ε~ N(,σ ) och oberoende Antaganden E[]=α + β Normalfördelande feltermer, centrerade på regressionslinjen och med lika stor varians Eempel = marknadsandel, = produktkvalité Utskrift från SPSS Forts eempel Coefficients a 7 Model (Constant) a Dependent Variable: Standardi zed Unstandardized Coefficie Coefficients nts B Std Error Beta t Sig -3,57,97-3,48,9,87,6,96,38, 5 35 45 55 65 75 85 a och b Total varians och variansen för feltermen Förklaringsgrad, R R = R =5 R =9 Vad du ser när du tittar på den totala variationen för, är variansen för Vad du ser när du tittar längs med regressionslinjen, är feltermsvariansen dvs σ SSE SSE SSR S S E SSR

Uteliggare och infltelserika variabler regressionslinje utan uteliggare Uteliggare regressions -linje med uteliggaren * Uteliggare Inget samband bland dessa punkter Punkt med ett stor värde på * regressionslinje med alla observationer inkluderade Infltelserika observationer Homoscedasticit: Residualerna verkar helt slumpmässiga Antagandena verkar uppfllda Residualerna uppvisar en linjär trend med tiden Modellkontroll or $ Time or $ Heteroscedasticit: Residualvariansen ändras när ändras or $ Ett kurvigt mönster i residualerna som beror på ett underliggande icke-linjärt samband Multipel linjär regression Multipel regressionsmodell Ofta beror den variabel vi är intresserad av (variabeln) på fler än en annan variabel Det kan finnas flera oberoende variabler (-variabler) som innehåller information om variabeln som vi försöker prediktera eller förstå (förklara) E: Bilförsäljningen (i kr) beror inte bara på reklamkostnader, utan även på t e bensinpriset Regressionsmodellen för en beroende variabel,, med k st oberoende variabler,,,, k är: = β + β + β + + β k k +ε där β är -interceptet för responstan och varje β i, i =,,,k är lutningen β β β = β + β + β + ε När flera oberoende variabler finns med i regressionsekvationen kallas modellen för en multipel regressionsmodell Med två -variabler är responstan ett plan (se figur) Tolkning β är det förväntade värdet på då alla -variabler är noll E: Bilförsäljningen då reklamkostnaderna är noll och bensinpriset är noll (En helt orimlig situation i och för sig ) β är hur mcket i genomsnitt ökar (minskar) då -variabeln ökar med en enhet medan övriga -variabler är oförändrade E: Hur mcket bilförsäljningen i genomsnitt ökar då reklamkostnaden ökar med en enhet (t e kr) om bensinpriset är oförändrat β k är hur mcket i genomsnitt ökar (minskar) då k -variabeln ökar med en enhet medan övriga -variabler är oförändrade E: Hur mcket bilförsäljningen i genomsnitt minskar då bensinpriset ökar med en enhet (t e öre) om reklamkostnaden är oförändrat Kvalitativa -variabler En indikator (dumm) variabel för egenskapen A : Eempel h = bruttoinkomst för en film = produktionskostnad = kostnad för promotion 3 = dummvariabel för om filmen baseras på en redan publicerad bok β + β + β + β + ε = 33 om egenskap A = annars Film Prodkast Promotion Bok 8 4 35 6 3 3 5 55 6 4 33 5 75 5 6 6 96 8 7 5 5 5 8 45 8 5 9 5 84 3 34 66 48 7 8 5 3 4 35 4 4 5 69 5 58 78 9 6 63 7 3 5 8 37 75 5 9 45 64 8 7 3

Kvalitativa -variabler (forts) Eempel (Film baserad på bok) Linje för = b 3 8 8 7 7 b +b b Linje för = earning 5 4 3 earning 5 4 3 6 6 7 prodkost 5 promotion 5 En regression med en En regression med två kvantivativ variabel ( ) and kvantitativa variabler ( och ) en kvalitativ variabel ( ): och en kvalitativ variabel ( 3 ): ˆ = b + b + b ˆ = b + b + b + b33 Eempel (Löner) Kvalitativa -variabler (forts) = β + β + βε + β33 + ε = lön = utbildning = erfarenhet 3 = kön ˆ = 8547 + 949 + 58 3563 b +b 3 b +b Linje då = och 3 = Linje då = och 3 = Linje då = och 3 = En kvalitativ variabel med r st kategorier (nivåer) representeras med (r-) st dummvariabler b 3 om kvinna = om man I genomsnitt är kvinnornas lön $356 lägre än männens lön En regression med en kvantitativ variabel ( ), t e kostnad, och två kvalitativa variabler ( och 3 ): $ = b + b + b + b 3 3 Kategori 3 Äventr Drama Romantik Antag att vi har två variabler mätta på nominal- eller ordinalskala (alt klassindelade) och att vi vill titta på samband mellan dessa Använd en korstabell Använd gärna relativa frekvenser (Lättare att se om grupperna är olika stora) Låt gärna förklaringsvariabeln redovisas kolumnvis och responsvariabeln radvis Korstabeller Åsikt om reklam-tv 7 83 3 8 9 5 75 5 Åsikt om reklam-tv (rel frekvens, %) 39 6 54 46 Grafiskt alternativ: Stapeldiagram (ett diagram för varje värde på förklaringsvariabeln eller grupperade stapeldiagram) 45 55 Simpson s parado Effekten av en tredje ( lurking ) variabel kan förändra t o m vända på ett samband Eempel: Om vi tittar på en given åldersgrupp finns inget samband alls mellan kön och åsikt om TV-reklam Äldres åsikt om reklam-tv (%) 6 4 6 4 6 4 ngres åsikt om reklam-tv (%) 3 7 3 7 3 7 4

Chitvå-test av oberoende Motsvarar det observerade sambandet i stickprovet ett samband i populationen eller beror sambandet på tur/otur i stickprovsdragningen? Vi kan formellt ställa upp en nollhpotes om att det råder oberoende mellan variablerna (dvs inget samband) och mothpotesen att det råder beroende Vi räknar ut ett mått där vi jämför observerade frekvenser i en korstabell med frekvenser, som vi kan förvänta oss under oberoende Om nollhpotesen är sann är detta mått chitvåfördelat (under vissa förutsättningar) Utifrån chitvå-fördelningen kan vi avgöra om nollhpotesen är osannolik och förkasta den alternativt behålla den tillsvidare 5