Analys av anbud med logistisk regressionsanalys

Storlek: px
Starta visningen från sidan:

Download "Analys av anbud med logistisk regressionsanalys"

Transkript

1 Analys av anbud med logistisk regressionsanalys Erik Castillo CMIEL SA106X Examenarbete inom matematik, grundnivå Institutionen för Matematik, inriktning Matematisk Statistik Kungliga Tekniska Högskolan Handledare: Gunnar Englund May 21, 2013

2 Sammanfattning Anbud är en stor och väsentlig del inom tekniska konsultföretag eftersom det ger arbete till företaget och förhoppningsvis vinst, förutsatt att allt går som planerat. Chansen att vinna ett anbud beror på många faktorer, allt från timpris till affärsområde. Trots dess stora vikt och betydelse finns det lite till ingen forskning gjord för att se vad som påverkar chansen att vinna ett anbud. Ett av företagen som handskas med anbud är Sweco systems AB, ett teknik konsultföretag, som ansåg ideen att analysera utfallen för att se vilka faktorer som kan anses signifikanta och därifrån skapa en matematisk modell baserat på de som betydelsefull. Den typ av regressionsanalys som användes vid det här arbetet var logistisk regressionanalys vilket går bra ihop vid beräkning av sannolikhet att vinna ett anbud.

3 Acknowledgements Jag skulle vilja tacka Ann-Charlotte Andersson, regionschef SWECO systems AB, och Hans Tunbrå, gruppchef SWECO systems AB, för att ha bidragit med sina erfarenheter och tillbringat tid för att hjälpa mig med att inrätta projektet. Vill även tacka Malin Larsson, projektkoordinator SWECO systems AB, för att ha hjälpt mig med data.. Stockholm, December 2013 Erik Castillo iii

4 Innehåll 1 Inledning Bakgrund Syfte & frågeställning Introduction 1 2 Teori Regressionsanalys [1] Multipel regressionsanalys [1] Gauss-Markov theoremet & Ordinary least squares, OLS [1] Skattning av β [1] Tester [1] T-test [1] F-testet [1] Gemensama hypoteser [1] ANOVA: analysis of variance [1] Problem [1] Multikollinearitet: perfekt & operfekt Perfekt multikollinearitet [1] Operfekt multikollinearitet [1] Heteroskedasticitet Autokorrelation, serial korrelation [1] Endogenitet [1] Tester för problem [1] Langrage multiplier: Breusch-Pagan test [1] Langrage multiplier: Glejser test [1] Langrage multiplier: Park test [1] White s test Autokorrelation test: Durbin-Watson test [1] Multikolliniearitet: korrelationsmatris, tolerans och variance inflation [1] Logistisk regression [2] iv

5 2.5.1 Bakgrund Skattning av parametrar [2] Pseudo R 2 och 2 log likelihood [2] Hosmer och Lemeshow test och Wald s test [2] Receiver operating characteristic, ROC curve [2] Analys av anbud Kovariater Timpris i genomsnitt Affärsområde Disciplin EL & disciplin VVS Fyllda roller Anbuds typ Referens objekt & referens person Kompetensgrad Interaktioner Genomförande av analys Modeller Resultat Signifikanser Model: 1,2 och Model: Model: Model: Psuedo R 2 och Deviance, 2 log likelihood Modell 1,2 och Modell Modell Modell Signifikanser med användning av standardiserade residualer och Cook s värden Modell 1,2 och Modell Modell Modell Psuedo R 2 och Deviance, 2 log likelihood med standardiserade residualer och Cook s värden Modell 1,2 och Modell Modell Modell De slutliga modellerna utan standardiserade residualer och Cook s värden v

6 4.7.6 De slutliga modellerna med standardiserade residualer och Cook s värden ROC kurvorna Diskussion, felkällor & slutsats Om arbetet Appendix Hosmer och Lemeshow test Hosmer och Lemeshow test för analysen med standardiserade residualer och Cook s värden Modellernas logit grafer utan standardizerade residualer och Cook s värden Modellernas logit grafer med standardiserade residualer och Cook s värden Modellernas logit residualer med och utan standardiserade residualer och Cook s värden Bibliography 62 vi

7 Kapitel 1 Inledning 1.1 Bakgrund Ett anbud är en offert där arbete erbjuds för ett pris och vars beslutsfattare är beställaren, där beställarens beslut grundas på olika faktorer. Faktorerna kan vara allt från pris, kompetensgrad till företagets rykte inom vissa discipliner. Tyvärr finns det nästintill ingen vetenskap om hur och varför man får eller inte får ett anbud. Konsten att vinna ett anbud är därför inget självklart då inga studier har utförts för att analysera vad som påverkar utfallen, att få ett anbud eller inte få ett anbud. Det var denna okunskap om vilka faktorerna som påverkar eller inte påverkar utfallen som utlöste ideen till denna studie. Datan, observationerna, är baserade dels på företagets anbudsarkiv och dels på intervjuer med ansvariga för anbud gällande gamla anbud samt mindre anbud som saknar detaljerade uppgifter. 1.2 Syfte & frågeställning Syftet med denna studie, rapport, är att analysera faktorerna som tros påverka utfallet, att få anbud, och att skapa en matematisk modell som beräknar sannolikheten att att få med sig ett anbud samt att hjälpa och motivera företaget att upprätta en databas för framtida analyser av anbud, m.h.a. logistisk regressionsanalys. 1

8 Kapitel 2 Teori 2.1 Regressionsanalys [1] regressionsanalys bygger på att m.h.a. datahistorik skapa en matematisk modell som sedan kan användas för att förutse önskat objekt. Det här objektet kan vara allt från lön till sannolikheten att vinna något, betingat att det går att beskriva ordinalt. I det här kapitlet förklaras grundteorin och hur det kopplas till logistisk regression, vilket är grundläggande för att förstå avhandlingen Multipel regressionsanalys [1] Multipel regression är en matematisk model som förutspår ett utfall, Y, beroende på utvalda prognosvariabler, även kända som kovariater. Det finns givetvis en mängd andra regressionsmodeller som t.ex. den logistiska regressionsmodellen som använda i denna avhandling men för att förstå den måste multipel regressionsanalys förklaras först för att sedan koppla denna till den logistiska regressions modellen. Den multipla regressions modellen kan enklast beskrivas m.h.a. matematik: Y 1 = X 0,1 β 0 + X 1,1 β 1 + X 2,1 β X k β k + ε 1 Y 2 = X 0,2 β 0 + X 1,2 β 1 + X 2,2 β X k,i β k,i + ε 2. Y i = X 0,i β 0 + X 1,i β 1 + X 2,i β X k,i β k + ε i Y i är utfallet och även en stokastisk variabel. X variablerna är prognosvariablerna, kovariaterna, dock är den inte en stokastisk variabel då den bestäms utav användaren och inte utav 2

9 slumpen. X 0 antas även vara 1 β variablerna är koefficienterna som visar hur stor inverkan dess korresponderade kovariat har på utfallet. ε representerar felet Den matematiska modellen kan även skrivas på en mer kompakt form. Börjar med att organisera om ekvationsraderna m.h.a. linjär algebra: Y = Y 1 Y 2., β = β 1 β 2., ε = ε 1 ε 2. 1 X 2,1 X k,1 1 X, X i,k = 2,2 X k, Y i β k ε i 1 X 2,i X k,i Ekvationerna kan sedan sammanfattas i matrisform: Y = X β + ε (2.1) Det som fattas är att skatta parametrarna β, det görs via OLS metoden Gauss-Markov theoremet & Ordinary least squares, OLS [1] OLS metoden bygger på Gauss-Markov theoremet vilket säger följande antaganden. E[ε i ] = 0 (2.2) V (Y ) = V (X ˆβ) + V (ε) = V (ε i ) = σ 2 < (2.3) Cor r(ε i, ε j ) = 0, i j (2.4) Det förväntade felet skall vara lika med 0. Felets varians skall vara konstant och felen skall även vara okorrelerade, dvs. vara oberoende av varandra. Antagandena kan sammanfattas bäst via förkortningen idd vilket står för "independent identical distributions", dvs att felen skall vara oberoende, okorrelerade, och vara av samma distribution, dvs. att de skall ha samma väntevärde och samma standardavvikelse. Vilket i sin tur ger att felets distribution: ε N(0, σ 2 ) (2.5) 3

10 Figur 2.1: Felen är oberoende och har identisk distribution [1] Theoremet säger även att den bästa linjära opartiska skattningaren av β koefficienterna ges av OLS, man säger då att koefficienterna är BLUE dvs. best linear unbaised estimator. 4

11 Vad som just menas med BLUE är att skattarna har låg varians, till skillnad från andra opartiska skattare. Skattarna måste även vara opartiska, bryts detta innebär det att andra bättre skattare än de som ges av OLS existerar. Det OLS antyder är att de β som minimerar det kvadrerade felet till regressionens modellen är de bästa skattningarna som kan göras, betingat att Gauss- Markov theoremets antaganden upphålls Skattning av β [1] Kovariaternas respektive koefficienter, β, beräknas på följande sätt: min ˆβ k n i=1 ε 2 i = min ˆβ k ε t ε (2.6) ε = Y X ˆβ (2.7) d ε t d ˆβ ε = 0 k (2.8) (2.9) ˆβ är den skattade vektorn ˆβ och ε det samma som vektor ε, detta för att göra det enklare. 5

12 1.7 insatt i 1.6 ger: ε t ε = (Y X ˆβ k ) t (Y X ˆβ k ) (2.10) Derivera för att ta fram de ˆβ som minimerar felets kvadrat. (2.11) d d ˆβ (Y X ˆβ) t (Y X ˆβ) = 0 (2.12) k d d ˆβ Y t Y Y t X ˆβ X t β t Y + X t ˆβ t X ˆβ = 0 (2.13) k Y t X X t Y + 2X t X ˆβ = 0 (2.14) 2X t Y + 2X t X ˆβ = 0 (2.15) X t X ˆβ = X t Y ˆβ = (X t X) 1 X t Y (2.16) Ett av antagandena som görs i Gauss-Markov theoremet är att den uppskattade vektorn ˆβ är opartisk, unbaised. Väntevärdet avslöjar detta: E[ ˆβ] = E[(X t X) 1 X t Y ] (2.17) E[ ˆβ] = E[(X t X) 1 X t (Xβ + ε)] (2.18) E[ ˆβ] = E[(X t X) 1 X t Xβ] + E[(X t X) 1 ε] (2.19) Antag, för att uppfylla Gauss-Markov theoremet, att felets väntevärde är lika med 0. E[ ˆβ] = E[(X t X) 1 X t Xβ] (2.20) E[ ˆβ] = β (2.21) ˆβ visar sig vara opartisk. Dess varians visar sig då vara, med antagandet (1.3) i hand: V ( ˆβ) = V ((X t X) 1 X t Y ) (2.22) V [ ˆβ] = V ((X t X) 1 X t (Xβ + ε)) (2.23) V [ ˆβ] = V (X t X) 1 X t Xβ) + V ((X t X) 1 X t ε)) (2.24) 6

13 Variansen av icke stokastiska variabler är alltid lika med 0. Med (1.3) : V [ ˆβ] = V ((X t X) 1 X t ε) (2.25) Med ˆβ kan Y:s fördelning tas fram. V [ ˆβ] = (X t X) 1 X t V (ε) (2.26) V [ ˆβ] = (X t X) 1 X t Iσ 2 (2.27) Med (1.2): E[Y ] = E[Xβ] + E[ε] (2.28) Dess varians: E[ε] = 0 (2.29) E[Y ] = E[Xβ] (2.30) V [Y ] = V [Xβ] + V [ε] (2.31) Återigen är variansen för icke stokastiska variabler lika med 0. Fördelningen för Y blir följande: V [Xβ] = 0 (2.32) V [Y ] = V [ε] (2.33) Y N(X, σ 2 ) (2.34) 7

14 2.2 Tester [1] Tester är gjorda får att se signifikansen hos kovariaterna. 2 tester kommer att beskrivas vilka blir t-test och F-testet T-test [1] Det här testet beräknas genom att det förväntade värdet subtraheras med noll hypotesen och delas med det skattade standardavvikelsen. Ett exempel må fungera som en bra illustration. Ponera följande regressionsmodell: Y = β 0 + X 1 β 1 + X 2 β 2 + X 3 β 3 + ε (2.35) Antag nu att X 1 och X 2 s signifikans ifrågasätts. Hypoteserna kan då se ut som följande: T-testen kan då beräknas: H 0 : β 1 = 0, β 2 = 0 (2.36) H 1 : β 1 0, β 2 0 (2.37) t x1 = t x2 = ˆβ 1 β 1 S ˆβ1 (2.38) ˆβ 2 β 2 S ˆβ2 (2.39) Där β 1 och β 2 är noll hypoteserna. Efter att ha beräknat t-värdena för respektive hypotes jämförs de beräknade värdena med det kritiska värdet och därifrån tas beslut om en eller båda kovariaterna är signifikanta för regressions modellen. I det här exemplet blir testet ett tvåsidigt test p.g.a. (1.36). t α/2 (n 4) < t x1 < t α/2 (n 4) (2.40) t α/2 (n 4) < t x1 < t α/2 (n 4) (2.41) Om t-värdet befinner sig innanför gränserna behålls (1.35) annars ses kovariaten som insignifikant och modellen reduceras. 8

15 2.2.2 F-testet [1] F-testet liksom t-testet är ett test på signifikansen hos kovariaten, kovariaterna. Men till skillnad från t-testet är F-testet mer mångsidigt, då det kan utföra ett test som testar ett eller fler hypoteser samtidigt. Antag följande hypoteser och regressionsmodell. H 0 : β 1 = 0, β 2 = 0 (2.42) H 1 : β 1 0, β 2 0 (2.43) Y = β 0 + X 1 β 1 + X 2 β 2 + X 3 β 3 + ε (2.44) Vad F-testet gör till skillnad från t-testet är att det gör ett test mellan regressionsmodellen betingat H 0 och regressionsmodellen betingat H 1. Beroende på värdet görs valet att förkasta noll hypotesen eller se skillnaden som signifikant och där av behålla noll hypotesen. F-värdet tas fram på följande sätt: F = RSS R RSS UR k 1 RSS UR k 1 (2.45) Givetvis finns det fler sätt att beräkna F-värdet. Ett annat vanligt sätt att beräkna F-värdet är: F = RSS R k 1 SS Residual n k (2.46) Där RSS R står för regressions summan av kvadraterna för den begränsade modellen och RSS UR för regressions summan av kvadraterna för den obegränsade modellen. Antalet restriktioner tas fram genom att ta antalet koefficienter β och subtrahera med 1 samt subtrahera med antalet hypoteser. Givetvis kan även F-värdet tas fram för enskilda hypoteser som t.ex. β 2 = 0, man kan t.ex. använda relationen mellan t-värdet och F-värdet: t 2 = F (2.47) Skillnaden när man testar dessa två är att t-testet har en t-distribution där F-testet istället har en χ 2 fördelning. 9

16 (a) χ 2 distribution (b) t distribution Figur 2.2: Distributionerna för F-testet och t-testet [1] Gemensama hypoteser [1] Denna typ av hypoteser är något svårare och är inte lika intuitiva som de enskilda hypoteserna. De gemensama hypoteserna kan se ut som följande: H 0 : β 1 + β = 0 (2.48) Givetvis kan man ej bara följa den generella metoden för att testa hypotesen. Vad som görs istället är att hypotesen substitueras in i modellen och därefter manipuleras regressions modellen och testet kan utföras. Ett exempel får illustrera problemet och lösningen. Antag att samma innan nämda hypotesen används (1.47) och regressions modellen som används är densamma som i exemplet för t- och F-testet (1.44). H 0 : β 1 + β = 0 (2.49) H 1 : β 1 + β (2.50) Y = β 0 + X 1 β 1 + X 2 β 2 + X 3 β 3 + ε (2.51) Det första steget blir att formulera om noll hypotesen och substituera in i regressionsmodellen. H 0 : β 1 = β 2 2 (2.52) Y = β 0 + X 1 ( β 2 2) + X 2 β 2 + X 3 β 3 + ε (2.53) Y = β 0 X 1 β 2 2X 1 + X 2 β 2 + X 3 β 3 + ε (2.54) 10

17 För sedan alla termer utan β koefficienter till vänsterled och behåll termer med β koefficienter i högerledet. Skapa därefter en ny beroende variabel Ỹ. Ỹ = Y + 2X 1 (2.55) Ỹ = β 0 X 1 β 2 + X 2 β 2 + X 3 β 3 + ε (2.56) (1.55) blir nu den begränsade modellen och (1.50) den obegränsade modellen. Där efter beroende på F-värdet tas beslutet om noll hypotesen förkastas eller ej ANOVA: analysis of variance [1] Anova är ett kraftfullt verktyg då det kan användas för att testa hypoteser, m.h.a F-testet, och för att testa hypoteser som ifrågasätter en kovariables marginal variabler, t.ex. vid test av olika tvättmedel m.m. Anova Source SS df MSS F Regression SSR k SSR/k MSS(Regression)/MSS(Residual) Residual RSS n-k-1 RSS/(n-k-1) Total SST n-1 Tabellen ovan visar hur en Anova tabell ser ut samt hur den fylls ut med respektive beräkningar. Vid F-test för Anova tabeller används (1.46) då det är enklare att beräkna när kvadratsummorna är kända. Som nämnt innan är Anova av stor nytta då det kan användas för att testa marginal variablerna hos en kovariabel, t.ex. tvättmedel. Vad som menas med marginalvariabler är variabler som ligger under en huvudvariabel. Om man använder tvättmedel som exempel kan man anta att det finns 3 olika tvättmedels typer, kalla de för A,B och C. Dessa 3 variabler hamnar därför under huvudvariabeln tvättmedel. Hur testas marginalvariabler? Det beror helt och hållet på antalet kovariabler med marginal variabler. Har man endast en då kallas det för en one-way- Anova har man två kallas des för two-way-anova osv. 11

18 Figur 2.3: Kovariabel och dess marginalvariabler [1] Antag att man vill testa hypotesen att det spelar ingen roll vilket tvättmedel som används. H 0 : µ A = µ B = µ C (2.57) H 1 : µ A µ B µ C (2.58) Regressionsmodellen som skapas då är, m.h.a. dummy variables: Y = α + Z B β B + Z C β C + e (2.59) Där tvättmedel A används som riktmärke. Kör sedan regressionen och ta ett beslut beroende på F-värdet. 2.3 Problem [1] Gauss-Markov theoremets antaganden antar att omständigheterna är optimala för att utföra OLS och därigenom skatta koefficienterna för att en matematisk modell skall kunna skapas samt användas. Dock är den befintliga världen inte alltid den mest optimala, eller linjära för den delen, och de antaganden som tas i Gauss-markov theoremet kan därför inte alltid upphållas. Det som tas upp i detta avsnitt blir vilka problemen är, vad deras natur är, vilka tester som kan utföras och vilka lösningarna som existerar för respektive problem. 12

19 2.3.1 Multikollinearitet: perfekt & operfekt Multikollinearitet innebär att en eller fler kovariater beror av varandra och kan beskriva varandra via linjär kombinationer. Det finns dock två typer av multikollinearitet; perfekt och operfekt multikollinearitet. Nedan beskrivs de båda typerna med respektive exempel som förhoppningsvis illustrerar problemens natur Perfekt multikollinearitet [1] Perfekt multikollinearitet innebär att en eller fler kovariater är linjärkombinationer av varandra, låt oss ta ett exempel. Ponera att följande model används: Y = β 0 + X 1 β 1 + X 2 β 2 + X 3 β 3 + ε (2.60) Anta även att X 1 och X 2 är linjärkombinationer av varandra. X 1 = 3X 2 (2.61) (1.36) säger då att X 1 och X 2 är perfekt korrelerade med varandra, om X 2 är 2 ger då att X 1 blir 6. Detta gör att OLS skattningen misslyckas med att skatta kovariaternas effekter, i exemplet innebär det kovariaterna X 1 och X 2 koefficienter β 1 och β 2. Varför misslyckas OLS? Det är för att när OLS gör sin skattning av koefficienterna β väljer den ut en kovariat och kollar på dess inverkan på utfallet Y samtidigt som den håller resterande kovariater statiska, detta är intuitionen som fås av matematiken bakom beräkning av koefficienterna. Detta kan dock inte göras om perfekt multikollinearitet existerar mellan två eller fler kovariater. I exemplet ovan innebär det att när OLS rã r på X 1 för att kolla dess effekt på Y kommer X 2 att röra sig perfekt med X Operfekt multikollinearitet [1] Operfekt multikollinearitet innebär att en eller fler kovariater är linjärkombinationer av varandra men till en viss grad. Låt oss återanvända exemplet som användes i fallet perfekt multikollinearitet. Återigen antas följande model: Y = β 0 + X 1 β 1 + X 2 β 2 + X 3 β 3 + ε (2.62) Dock är X 1 och X 2 inte perfekt korrelerade: 13

20 X 1 = 3X 2 + ε (2.63) Det (1.38) säger är att X 1 är fortfarande korrelerade men endast till en viss grad, vilket innebär att kovariaterna inte rör sig perfekt med varandra i alla observationer. Ett exempel är om 100 observationer finns tillgängliga och kovariaterna X 1 och X 2 är korrelerade till 90 procent betyder det alltså att under 10 fall var dessa kovariater inte perfekt korrelerade. Intuitivt sett innebär det att 10 koefficienterna skattas m.h.a. 10 observationer. Det innebär i sin tur, med centrala gränsvärdessatsen som grund, att skattningarna inte blir önskevärda, hög varians. Hur man löser och testar för de två typerna av multikollinearitet tas upp i ett senare avsnitt Heteroskedasticitet Figur 2.4: Felen har olika varians samt olika distribution [1] Heteroskedasticitet är motsatsen till homoskedasticitet, när felets varians är konstant (1.3). Det som sker när felens varians ej är konstant är att felens distribution inte blir identiska, varianserna skiljer sig för varje observation, antagandet idd upphålls därför inte. Fallen där heteroskedasticitet kan uppstå är t.ex. om data samlas på high scores i ett spel över tid. Det som får heteroskedasticitet att uppstå är att ju mer individen, individerna, får à va desto bättre borde individen bli och där av borde high score värdena variera mindre. 14

21 Grafiskt sätt blir det att distributionen varierar mindre över tid. I boken Basic econometrics, skriven av Damodar N. Gujarati, tas exemplet på antalet skrivfel över tid där kovariaten är tid som spenderas på att öva skrift. Figur 2.5: Skrivfel över tid [1] Grafen visar hur felen varierar mindre desto mer som övas över tid Autokorrelation, serial korrelation [1] Autokorrelation, eller serial korrelation, innebär att felet hos en observation påverkas av felet i observationen innan, vilket strider mot (1.4). Matematiskt kan det beskrivas på följande sätt: Y = β 0 + X 1 β 1 + X 2 β 2 + ε t (2.64) Om felen nu är autokorrelerade fås följande: ε t = ρε t 1 + u t (2.65) Vad ekvationen innebär är att om ρ inte är 0, dvs är autokorrelerad, ger det att felet ε t värde fås till ρ procent av felet, u t 1 i det föregående fallet, t-1. Autokorrelation kan ibland vara kopplat med endogenitet och kan leda till att inte bara OLS blir ineffektiv utan att även skattarna β blir partiska vilket säger att andra bättre skattningar än OLS s existerar. En matematisk beskrivning funkar som illustration. (1.40) i (1.39) Y = β 0 + X 1 β 1 + X 2 β 2 + ρε t 1 + u t (2.66) Väntevärdet av ˆβ, använder (1.19), blir följande: 15

22 E[ ˆβ] = E[(X t X) 1 X t Xβ] + E[(X t X) 1 ε] (2.67) E[ ˆβ] = E[β] + E[(X t X) 1 ε] (2.68) Om en eller fler kovariater är korrelerade med felet ε kommer väntevärdet ej bli noll för den andra termen till höger om lika med tecknet, vilket kommer leda till att ˆβ blir partisk, baised.om istället ingen kovariat är korrelerad med felet ε blir ˆβ opartisk Endogenitet [1] När en kovariat är okorrelerad med felet ε kallas den för exogen men när kovariaten eller kovariaterna är korrelerad med felet sägs det eller de vara endogena. Detta leder till att de kovariater som är korrelerade med felet blir partiska och leder till dåliga skattningar av kovariaternas respektive β. 16

23 2.4 Tester för problem [1] Det finns tester för att finna problem med regressionsmodellen dock kan inte alla problem testas för som t.ex. endogenitet. De problem vars tester förklaras i detta avsnitt blir för heteroskedasticitet, autokorrelation och multikolliniearitet. Detta avsnitt kommer att bestå av fyra tester för heteroskedasticitet, varav de tre första är parametriska, en för autokorrelation och avslutas med ett test för multikolliniearitet Langrage multiplier: Breusch-Pagan test [1] I Breusch-Pagan testet använder man en regressionsmodell för att avgöra om variansen är konstant eller ej, om det är homo- eller heteroskedastiskt. Där hypotesen och dess restriktioner är: σ i 2 = α 1 + α 2 Z 2,i... α p Z p,i (2.69) Breusch-Pagan testet utförs på följande sätt: H 0 : α 2 = α 3 =... = α i (2.70) p 1 rest riktioner (2.71) 1. Skatta parametrarna ˆβ 0... beta ˆ k för att få β OLS ˆ. 2. Beräkna residualerna û i. 3. kvadrera residualerna û i ˆ u i Skatta parametrarna α i, därifrån tas R 2 fram. 5. Beräkna sedan Langrange multiplier statistiken: NR 2 6. Jämför sedan Langrange multiplier statistiken med χ 2 (p 1), ta beslut där efter Langrage multiplier: Glejser test [1] Glejser testet liksom Breusch-pagan testet använder sig av en regressionsmodell för att testa hypotesen, homoskedasticitet. Regressions modellen i Glejser testet är följande: σ i = α 1 + α 2 Z 2,i... α p Z p,i (2.72) 17

24 Hypotes: H 0 : α 2 = α 3 =... = α i (2.73) p 1 rest riktioner (2.74) Testet utförs på följande sätt: 1. Skatta parametrarna ˆβ 0... beta ˆ k för att få β OLS ˆ. 2. Beräkna residualerna û i. 3. Skatta parametrarna α i. 4. Beräkna sedan Langrange multiplier statistiken: NR 2 5. Jämför sedan Langrange multiplier statistiken med χ 2 (p 1), ta beslut där efter Langrage multiplier: Park test [1] Park testet skiljer något mer ifrån de två förstnämnda testerna då testet är adapterat för olinjära modeller, när man t.ex. skall testa heteroskedasticitet hos en linjär sannolikhets modell. Proceduren och hypotsen är dock i stort sätt de samma. Regressions modellen: Hypotes: Testets utförande: lnσ i 2 = α 1 + α 2 Z 2,i... α p Z p,i (2.75) H 0 : α 2 = α 3 =... = α i (2.76) p 1 rest riktioner (2.77) 1. Skatta parametrarna ˆβ 0... beta ˆ k för att få β OLS ˆ. 2. Beräkna residualerna û i. 3. kvadrera residualerna û i ˆ u i 2 och ta sedan dess ln. 4. Skatta parametrarna α i. 5. Beräkna sedan Langrange multiplier statistiken: NR 2 6. Jämför sedan Langrange multiplier statistiken med χ 2 (p 1), ta beslut där efter. 18

25 2.4.4 White s test White s test till skillnad från de tre ovannämnda är att den inte är parametrisk, Breusch-Pagan, Glejser och Park testen används när regressions modellens typ av heteroskedasticitet är av specifik form. Om specifikationerna av heteroskedasticiteten inte är känd då använda White s test helst då den inte har behov av att veta vad heteroskedasticitetens specifikation är. Regressionsmodellen som används för att skatta σ 2 är lik (1.69) dock tar den även med kvadraterna och kombinationerna av de olika Z. Just för White s test kan det vara bra med ett exempel som illustrerar proceduren. Antag följande regressionsmodell: Y i = ˆβ 1 + ˆβ 2 X 2,i + ˆβ 3 X 3,i + û i (2.78) Ta sedan fram residualerna û i. σ skattas då m.h.a. residualerna û i. Kvadreras residualerna kan följande regressionsmodell för variansen, σ i 2, användas: σ i 2 = α 1 + α 2 Z 2,i + α 3 Z 3,i + α 4 Z 2,i 2 + α 5 Z 3,i 2 (2.79) +α 6 Z 2,i Z 3,i ˆβ i används som Z i i regressionsmodellen för σ i 2,(1.79) : σ i 2 = β 1 + β 2 Z 2,i + β 3 Z 3,i + β 4 Z 2,i 2 + β 5 Z 3,i 2 (2.80) +β 6 Z 2,i Z 3,i En regression körs sedan m.h.a (1.80) där R 2 tas fram vilket sedan används för att testa hypotesen: Test statistiken: H 0 : α 1 = α 2 = α 3 = α 4 = α 5 = α 6 = 0 (2.81) H 1 : α 1 = α 2 = α 3 = α 4 = α 5 = α 6 0 (2.82) NR 2 > χ 2 (P 1) (2.83) Där P-1 är antalet oberoende variabler i regressions modellen för σ i 2. Beslut tas efter jämförelsen (1.82). 19

26 2.4.5 Autokorrelation test: Durbin-Watson test [1] d = n t=2 (û t û t 1 ) 2 t=n t=1 û2 t (2.84) Durbin watson d statistiken är ett väldigt berömt test av autokorrelation, dock kan testet endast tillämpas på autorergressiva modeller av första ordningen dvs: u t = ρu t 1 + ε t (2.85) Figur 2.6: Durbin watson statistiken [1] Beslutet om hypotesen fã rkastas eller inte tas efter vad d värdet hamnar i fã r område, se figur Multikolliniearitet: korrelationsmatris, tolerans och variance inflation [1] För multikolliniearitet funkar korrelationsmatrisen ypperligt. Vad matrisen visar är korrelationen mellan kovariaterna. önskas ett bättre och mer specifikt värde på korrelationen mellan kovariaterna är tolerans och VIF. Toleransen och VIF beräknas på följande sätt : 20

27 2 tolerance = 1 R j 1 V I F = tolerance (2.86) (2.87) Där R j 2 är godness of fit för regressionen. Tumregeln för att tolka VIF och toleransen är att ju närmare toleransen är 1 desto mindre kollinearitet existerar och desto närmare VIF är 10 desto större kollinearitet existerar. 2.5 Logistisk regression [2] Vid beräkning av sannolikhet för en viss händelse skall värdemängden vara begränsad till värden inom intervallet 0 till 1. Tyvärr uppfylls inte det här kravet när man utför en OLS regression då y:s värdemängd hamnar utanför det nämnda intervallet, [0, 1]. På grund av utfallens natur, utfallen antar endast två värden, varierar felen olika mycket vilket leder till heteroskedasticitet. Detta är dock inte ett problem i logistisk regression då heteroskedasticitet är en del av dess natur. Multikolliniearitet är ett större problem då regressionen är väldigt känslig för korrelationer mellan kovariater Bakgrund Logistisk regression bygger på oddsen att en händelse sker och jämföra det med att händelsen ej sker t.ex. att få en 3:a vid ett tärningskast, oddsen skulle då bli följande: odds(3) = 1 5 (2.88) 1 : 5 (2.89) Detta kan även tas fram genom att ta sannolikheten att få en 3:a delat på sannolikheten att ej få en 3:a : 21

28 Odds kan därför skrivas: odds(3) = P(3) 1 P(3) odds(3) = odds(3) = 1 5 odds(x) = P(X ) 1 P(X ) och med hjälp av den naturliga logaritmen fås följande: (2.90) (2.91) (2.92) (2.93) Log(odds) = ln P(X ) 1 P(X ) (2.94) Detta ger logit-linken, Y= Logit(p)= log(odds) där Y är ekvivalent med den generella regressions modellen. Y = β 0 + n X i β i + ε (2.95) i=1 Log(odds) = β 0 + ln P(X ) 1 P(X ) = β 0 + Härifrån kan P(händelse) lösas ut: n X i β i + ε (2.96) i=1 n X i β i + ε (2.97) i=1 P(X ) 1 P(X ) = n eβ 0+ i=1 X iβ i +ε P(X ) = e β 0+ n i=1 X iβ +ε i + P(X )e β 0 n n P(X ) = eβ 0+ i=1 X iβ i +ε Sannolikheten kan nu bestämmas. 1 e β 0+ n i=1 X iβ i +ε i=1 X iβ i +ε (2.98) (2.99) (2.100) 22

29 2.6 Skattning av parametrar [2] Parametrarna β tas fram m.h.a maximum likelihood metoden och kan inte för β i riktigt beräknas för hand, det krävs nämligen numeriska metoder för att kunna beräkna dessa parametrar. n P(x i ) y i [1 P(x i )] 1 y i (2.101) i=1 2.7 Pseudo R 2 och 2 log likelihood [2] Till skillnad från vanlig multipel regressionsanalys kan inte R 2 användas till att bedöma modellens goodness of fit p.g.a. den logistiska regressionens natur, den är nämligen heteroskedastisk. Dock rapporteras två psuedo R 2 vid namnen Cox & snell r square och nagelkerke r square. Dessa två psuedo R 2 skall inte ses som klara indikatorer på modellens fit utan skall ses som approximativa mätare av modellens goodness of fit. 2 log likelihood, vilket är samma sak som modellens deviance,fungerar ungefär som multipel regressionen residual summorna i kvadrat vilket ger en bättre indikation på modellens fit. 2.8 Hosmer och Lemeshow test och Wald s test [2] Hosmer och Lemeshow test är ansedda som ett ypperligt bra test för hypotesen; modellen är signifikant. Dock skall det nämnas att Hosmer och Lemeshow test rekommenderas endast när det finns en eller flera kontinuerliga prognos variabler annars kan testet vara missvisande. Wald s test används för att testa signifikansen hos kovariaterna. 2.9 Receiver operating characteristic, ROC curve [2] Reciever operating characteristic kurvan kommer från signalteorin som beräknar sannolikheten att upptäcka den sanna signalen, sensitivitet, och den falska signalen, 1-specificity. Vilket har blivit en standard vid evalueringen av en modells förmåga att urskilja observationer som upplever det önskade utfallet i jämförelse med de observationer som inte gör det. Tumregeln för vilken area under ROC kurvan som beskriver bra urskiljning lyder som följande: 0.5 indikerar ingen urskiljning 23

30 indikerar dålig urskiljning indikerar acceptabel urkiljning indikerar utmärkt urskiljning 0.9 och över indikerar enastående urskiljning 24

31 Kapitel 3 Analys av anbud 3.1 Kovariater Kovariaterna valdes efter vad som ansågs ha någon inverkan på utfallen, att få ett anbud. Nedan listas och sedan förklaras kovariaterna. Kovariaterna som utsågs var följande: Timpris i genomsnitt Affärsområde Disciplin El Disciplin VVS Fyllda roller Anbuds typ Referens Objekt Refers Person Kompetensgrad Interaktion EL*VVS Referens objekt*referens person Anbuds typ*timpris i genomsnitt kompetensgrad*timpris i genomsnitt 25

32 3.1.1 Timpris i genomsnitt Genomsnitts priset tas fram genom att ta genomsnittet av alla erbjudna timpriser Affärsområde Denna kovariat täcker de olika affärsområden som företaget skickar anbud på. Kategorierna är: Infrastruktur skolor Kontor Industri Sjukhus Bostäder Läkemedelsindustri övrigt Där infrastruktur och sjukhus står för de stora projekten,som t.ex. Citybanan, Slussen och Nya karolinska Solna, och har därför de mest omfattande anbuden. Kategorin special byggnader innefattar bl.a. arenor, operahus, biografer, köpcentra m.m Disciplin EL & disciplin VVS De två disciplinerna företaget täcker där anbud kan skickas på enbart VVS, EL eller båda två. P.g.a. båda disciplinerna kan ingå i samma anbud kan de troligtvis vara korrelerade Fyllda roller Antalet roller som beställaren krävt. Rollerna som finns tillgängliga för beställaren, med sina respektive graderingar: Specialist & Expert

33 Figur 3.1: Affärsområde och dess kategorier Uppdragsledare & Besiktningsman - 5 Handläggare, Tekniskansvarig & Biträdande besiktningsman - 4 Cad ansvarig - 3 Konstruktör -2 Kvalite och miljö Anbuds typ Beskriver vilket typ av anbud som skickas. Anbudstyper: Ramavtal - 0 Projekt Referens objekt & referens person Referens objekt syftar på vilka projekt som företaget har arbetat med de senaste tre åren och graderas efter om de anses bra eller dåliga, efter vad marknaden tycker. Referens person syftar på befattningshavarnas CV:en över vilka projekt de arbetat med, liksom för fallet för referens objekt graderas referensen efter vad marknaden tycker. 27

34 3.1.7 Kompetensgrad Kompetensgrad representerar genomsnitts graden som krävdes till anbudet. Genomsnittet beräknades efter antalet roller som krävdes, där rollerna graderades efter hur stor vikt de har i ett arbete (2.1.4) Interaktioner Anledingen till de utvalda interaktions variablerna är för att de anses vara de mest intutiva samt att de kan vara av intresse. EL och VVS anses inuitiva de kan ingå i samma anbud och det samma gäller för referens variablerna, referens objekt och referens person. Interaktionerna mellan referenserna, referens objekt & referens person, är av intresse för att det kan visa hur beställarna väger referenserna. Anbuds typ och timpriset kan ses signifikanta tillsammans då projekt, speciellt de stora, normalt sätt kräver högre timpris. Sist är interaktionen mellan kompetensgrad och timpris, denna interaktion är troligtvis den som känns mest intuitiv då normalt sätt högre kompetens kräver högre timpris. Figur 3.2: Figuren illustrerar anbuden och dess kovariater 28

35 3.2 Genomförande av analys Datan som extraherats gavs utav företaget Sweco Systems dock var inte alla observationer som gavs fullständiga vilket gav förlorade fall, de fall med stora brister utelämnades därför. De observationer med relativt små informations brister fylldes ut m.h.a. anbudsansvarigas erfarenhet. Programmet som användes vid analysen var IBM SPSS Statistics 20, International Business Machines Corporation Statistical Package for the Social Sciences Statistics 20. Modelleringen utfördes från två olika utgångspunkter, den första var genom att stegvis eliminera de kovariater som ej visade sig vara signifikanta. Det andra var att modellera med interaktions kovariaterna och stegvist eliminerar de kovariater som inte ansågs som signifikanta. Elimineringsprocessen som följdes var Backward stepwise regression med Wald statistik utan standardizerade residualer och Cook s värdena samt Backward stepwise regression med wald statistik med standardizerade residualer och Cook s värdena, där man sållar bort de fall som avviker mycket och har för stora Cook värden Modeller Modell 1: inga interaktioner Logit(p 1 ) = β o + β 1 X 1 + β 2 x 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 Modell 2: EL*VVS +β 7 X 7 + β 8 X 8 + β 9 X 9 (3.1) Logit(p 1 ) = β o + β 1 X 1 + β 2 x 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 +β 7 X 7 + β 8 X 8 + β 9 X 9 + β 10 X 3 X 4 (3.2) Modell 3: referens objekt* referens person Logit(p 1 ) = β o + β 1 X 1 + β 2 x 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 +β 7 X 7 + β 8 X 8 + β 9 X 9 + β 11 X 7 X 8 (3.3) 29

36 Modell 4: Anbuds typ*timpris i genomsnitt Logit(p 1 ) = β o + β 1 X 1 + β 2 x 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 +β 7 X 7 + β 8 X 8 + β 9 X 9 + β 12 X 1 X 6 (3.4) Modell 5: Kompetensgrad*Timpris i genomsnitt Logit(p 1 ) = β o + β 1 X 1 + β 2 x 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 Modell 6: alla interaktioner +β 7 X 7 + β 8 X 8 + β 9 X 9 + β 13 X 1 X 9 (3.5) Logit(p 1 ) = β o + β 1 X 1 + β 2 x 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 +β 7 X 7 + β 8 X 8 + β 9 X 9 + β 13 X 1 X 9 β 12 X 1 X 6 + β 11 X 7 X 8 + β 10 X 3 X 4 (3.6) 30

37 Kapitel 4 Resultat Resultaten för varje modell visas nedan dock borde det noteras att de sista stegen på backward stepwise regression har återskapats då hela procedurens utskrift är väldigt omständig och skulle täcka minst 3 sidor, vardera modell. Hosmer och Lemeshow testen har lagts i appendix då inga av kovariaterna är kontinuerliga, de är antingen i skala eller nominala. 4.1 Signifikanser Model: 1,2 och 5 De resultat som rapporterats av SPSS visar att modell 1, 2 och 5 ger samma resultat där modell 2 och 5 krävt 5 steg till skillnad från modell 1 som krävde 4 steg. Tabell 4.1: De kovariater som SPSS rapporterade efter det sista steget i modeller 1,2 och 5 Av det som avläses i figur 4.1 är att VVS är över den kritiska gränsen som normalt sätts vid modellering,p < Frågan som ställs kan då vara varför 31

38 ha med den? Det visar sig att om disciplin VVS tas bort och en ny regression utförs kommer disciplin EL att passera den kritiska gränsen vilket leder en till att tro att disciplinerna måste vara korrelerade och disciplin VVS behålls därför. 4.2 Model: 3 Vidare är resultaten på modell 3,se figur 4.5, annorlunda till modeller 1,2 och 5. Referens person istället för referens objekt anses signifikant och interaktionen mellan referens objekt och referens person tas med. återigen togs disciplin VVS med, detta diskuterades ovan, men det är inte bara disciplin VVS som är över den kritiska gränsen utan även referensperson och interaktions variabeln. Tabell 4.2: De kovariater som SPSS rapporterade efter sista steget i modell 3 32

39 4.3 Model: 4 Model 4 visar att interaktions variabeln,anbuds typ med timpris i genomsnitt, är signifikant. Det som är oroande är att konstanten och 2 andra kovariater, referens objekt och disciplin VVS, är relativt högt över den kritiska gränsen, p < Tabell 4.3: De kovariater som SPSS rapporterade efter sista steget i modell Model: 6 De kovariater som är ligger över den kritiska gränsen är disciplin VVS, referensperson och interaktionen mellan referens objekt med refers person. Disciplin EL är även väldigt nära gränsen. 4.5 Psuedo R 2 och Deviance, 2 log likelihood De psuedo R 2 som rapporteras är Cox & Snell R square och Nagelkerke R square. Till skillnad från det vanliga R 2 som rapporteras i vanlig multiple regressionsanalys visar dessa R 2 inte hur stor del som regressions modellen står för när ett värde uppskattas. Dessa R 2 visa ungefär hur står del regressions modellen står för när värden uppskattas. Anledningen till att den vanliga R 2 som rapporteras i multiple regressionsanalys är för att logistisk regression är heteroskedastisk i sin natur. 2 log likelihood som SPSS rapporterar är det samma som deviance, vilket kan ses som residual sum of squares i linjär regression. Om deviance, eller 33

40 Tabell 4.4: De kovariater som SPSS rapporterade efter sista steget i modell 6 2 log likelihood, är hög innebär det att modellen inte stäar för stor del av variansen Modell 1,2 och 5 I modell 1,2 och 3 ändras psuedo R:en inte med mycket under stegens gång. Enda skillnaden mellan modellerna var att modell 2 och 5 hade fler steg än modell 1. Utskriften visar även att 2 log likelihood är väldigt stor vilket tyder på att modellen inte förklarar en stor av variansen. Tabell 4.5: Psuedo R 2 modell 1 34

41 Tabell 4.6: Psuedo R 2 modell 2 Tabell 4.7: Psuedo R 2 modell Modell 3 Modell 3 var psuedo R 2 något bättre än de i modell 1,2 och 5 men 2log likelihood visar sig fortfarande vara hög genom alla 3 steg. Tabell 4.8: Psuedo R 2 modell Modell 4 Modell 4 följer trenden med högt 2 log likelihood och med låga R Modell 6 Modell 6 är av att dömma på SPSS utskrifter den modellen som verkar lämpligast sett till 2 log likelihood värdet och R 2 värdena, i jämförelse med de 35

42 Tabell 4.9: Psuedo R 2 modell 4 andra modellerna. Tabell 4.10: Psuedo R 2 modell Signifikanser med användning av standardiserade residualer och Cook s värden Nedan visas kovariaternas signifikans när observationer med för stora standardiserade residualer och stora Cook värden utelämnats. Hosmer och Lemeshow test finns i appendix Modell 1,2 och 5 Kovariaterna visar sig vara mer signifikanta när fall med stor avvikelse och hög påverkan utelämnats. 36

43 Tabell 4.11: Modell 1, 2 och 5 s kovariater Modell 3 Modell 3 behåller samma kovariater som innan dock är alla kovariater signifikanta till skillnad från första analysen där disciplin VVS, referensperson och interaktionen mellan referensobjekt samt referensperson inte ansågs signifikanta Modell 4 Tabell 4.12: Modell 3 s kovariater Konstanten visar sig vara insignifikant och disciplin VVS togs bort medan resterande kovariaterna visar sig vara av signifikanta Modell 6 Modell 6 består av samma kovariater efter de 7 stegen dock är de signifikanta. 37

44 Tabell 4.13: Modell 4 s kovariater Tabell 4.14: Modell 6 s kovariater 4.7 Psuedo R 2 och Deviance, 2 log likelihood med standardiserade residualer och Cook s värden Modell 1,2 och 5 R 2 visar sig vara större och 2 log likelihood för modellerna visar sig vara lägre, vilket är positivt. Dock ska det noteras att R 2 är högre under de två första stegen, när fler insignifikanta kovariater var med Modell 3 Modell 3 visar högre R 2 än i första analysen och även lägre 2 log likelihood men även här liksom i modellerna 1,2 och 5 var R 2 högre u de första stegen. 38

45 Tabell 4.15: Psuedo R 2 och 2 log likelihood för modell 1,2 och 5 Tabell 4.16: Psuedo R 2 och 2 log likelihood för modell Modell 4 Modell 4 visar högre R 2 än och även lägre 2 log likelihood och liksom modellerna innan visar det sig att psuedo goodness of fit värdena, R 2, var betydligt högre i de tidigare stegen. Tabell 4.17: Psuedo R 2 och 2 log likelihood för modell 4 39

46 4.7.4 Modell 6 Den sista modellen visade sig ha fått störst R 2 jämfört med de andra modellerna, och jämfört med sig självt i första analysen. Det borde även noteras att i första steget var R 2 väldigt högt men som nämnt innan skall man ej förlita sig för mycket på de. 2 log likelihood visar sig vara under 70, vilket fortfarande är högt men det får ses som något positivt. Tabell 4.18: Psuedo R 2 och 2 log likelihood för modell De slutliga modellerna utan standardiserade residualer och Cook s värden Modell 1,2 och 5: Logit(p 1 ) = X X X X 6 Modell 3: X X 9 (4.1) Logit(p 1 ) = X X X X 6 Modell 4: 1.498X X X 7 X 8 (4.2) Logit(p 1 ) = X X X X X X 1 X 6 (4.3) 40

47 Modell 6: Logit(p 1 ) = X X X X X X 1 X X 7 X 8 (4.4) De slutliga modellerna med standardiserade residualer och Cook s värden Modell 1,2 och 5: Logit(p 1 ) = X X X X 6 Modell 3: X X 9 (4.5) Logit(p 1 ) = X X X X X X X 7 X 8 (4.6) Modell 4: Modell 6: Logit(p 1 ) = X X X X X 1 X 6 (4.7) Logit(p 1 ) = X X X X X X 1 X X 7 X 8 (4.8) ROC kurvorna Nedan visas ROC kurvorna, samt arean under de, mellan modellerna i de två analys omgångarna. Vad som kan ses i samtliga fall är att genom elimineringen av observationer med stora standardiserade residualer och stora Cook värden leder till att arean under ROC kurvan blir större och där genom leder till en bättre urskiljning. 41

48 (a) omgång 1 (b) omgång 2 Figur 4.1: ROC kurvorna för modellerna 1,2 & 5 (a) omgång 1 (b) omgång 2 Figur 4.2: ROC kurvorna för modell 3 42

49 (a) omgång 1 (b) omgång 2 Figur 4.3: ROC kurvorna för modell 4 (a) omgång 1 (b) omgång 2 Figur 4.4: ROC kurvorna för modell 6 43

50 (a) Omgång 1. (b) Omgång 2. Figur 4.5: Arean under ROC kurvorna för modellerna 1,2 & 5. (a) Omgång 1. (b) Omgång 2. Figur 4.6: Arean under ROC kurvorna för modell 3. 44

51 (a) Omgång 1. (b) Omgång 2. Figur 4.7: Arean under ROC kurvorna för modell 4. (a) Omgång 1. (b) Omgång 2. Figur 4.8: Arean under ROC kurvorna för modell 6. 45

52 Kapitel 5 Diskussion, felkällor & slutsats Av att döma av resultaten visar det sig att utav de 6 modellerna som föreslogs var det modell 6, där standardiserade residualer och Cook s värden användes, som visade sig vara den bästa modellen. Själva modellen var dock inte speciellt lyckad då den förklarade ungefär lite mer än 50% av variansen, sett till R 2, där 2 log likelihood var väldigt hög, tolkas ungefär som residual sum of squares i multipel regressionsanalys, vilket visar att modellen inte har en stark förutsägelse kraft och sett till ROC kurvorna var modellernas urskiljning allt från acceptabel till enastående. Sammanfattningsvis rekommenderas ingen modell till att förutse sannolikheten att vinna ett anbud fast än om arean under ROC kurvorna visar sig vara väldigt höga, man måste nämligen även ta hänsyn till 2 log likelihood som är väldigt hög i samtliga modeller, dock kan det vara motiv till att fortsätta forska på ämnet och ideen. Angående kovariaterna som användes visade det sig att antalet fyllda roller i ett projekt, de administrativa, verkade vara insignifikanta vilket kan vara p.g.a. alla roller har olika vikt i ett projekt och att bara räkna på antalet roller utan att ta hänsyn till vilka roller som faktiskt fyllts utan enbart räkna på hur många som fyllts kan vara anledning till att den visats vara insignifikant. Affärsområde visade sig inte heller ha signifikans och det kan vara för att de observationer som tagits var till stor del uppdelad mellan 3 affärsområden. En kovariat som förvånade var referens person som visade negativt medan referens projekt visade positivt, troligtvis är det p.g.a. observationerna och att referens person vart korrelerad med andra kovariater. En annan förklaring kan vara att väldigt många av de äldre och erfarna arbetarna har pensionerats de sista åren och många nyexaminerade arbetare har anställts vilket resulterar i bleka referenser i jämförelse med de äldre och mer erfarna arbetarna. Logistiska regressions modellers grafer skall vara sigmoid formade, s formade, för samtliga modeller var de dock vagt s formade, se appendix, detta kan 46

53 vara p.g.a. antalet observationer och hur man valt samt ställt upp kovariaterna. Hur kovariaterna ställs upp är väldigt viktigt då t.ex. kontinuerliga värden är alltid bättre än skalor som kan skapa stora gap mellan värdena, i det här exemplet är det timpris i genomsnitt som är skalad, p.g.a. sekretess, något som skapar väldigt stora gap mellan värdena då en stor andel genomsnitts timpris grupperas när de kanske egentligen inte borde grupperas. Man måste även ta hänsyn till att en eller flera kovariater kan bero eller påverka varandra vilket skapar problem där t.ex. två kovariater beror av varandra och det visar sig efter gjord analys att en av kovariaterna visar sig insignifikant där beslutet att utelämna den görs. Det som kan ske p.g.a. att de påverkar varandra, korrelerade till den grad att de har relativt stor inverkan på varandra, är att vid nästa steg av analysen skjuter den andra kovariaten upp eller ned i både signifikans och dess parameter, koefficient, värde β. Datan som tillförs spelar även stor roll, kanske störst roll, i det här fallet då den inte finns lagrad som specifik information utan i form av textmassa, leder till att större delen av tiden spenderas på att extrahera data. Detta skulle kunna lösas genom att företaget Sweco skapar en form av databas där de anbudsansvariga i framtiden fyller informationen som getts och fåtts. Naturligtvis kan inte det skapas matematiska modeller som innehåller alla kovariater då de flesta anbud skiljer sig åt, ibland går de i steg och ibland skickas allt på en gång, vilket leder till att matematiska modeller för subgrupper eller steg skulle kunna skapas för att inte bara förutspå sannolikheten att vinna ett anbud utan även skapa modeller som förutspår chansen att gå vidare ett steg beroende på vad beställaren kräver. Sist kan det nämnas att om logistisk regressions är valet av regressionsanalys och regressionen skall utföras utförligt med alla tester och lösningar till problem behövs det mer tid än 7 veckor och betydligt kraftfullare mjukvara. 5.1 Om arbetet Arbetet var intressant då det involverade användningen av logistisk regression vilket används bl.a. till att beräkna risk m.m. [2]. Logistisk regressionsanalys visade sig dock att vara väldigt annorlunda och mer komplext än vanliga multipel regressions analysen, man kunde nämligen inte se saker på samma sätt och antagandena var olika. Jämfört med multiple regressionsanalys som har relativt kända metoder för att handskas med problem som multikollinearitet, heteroskedasticitet och autokorrelation, för att nämna några, är det inte lika för logistisk regression som för det första är heteroskedastisk i sin natur[2] och för det andra är väldigt känsligt för multikollinearitet, vil- 47

54 ket är ett relativt vanligt problem, detta gör att kovariaterna blir svåra att tolka. Vidare krävs det väldigt avancerade mjukvareprogram för att kunna beräkna och testa modeller utförligt, SPSS må kunna utföra skattningar av parametrar och skapa scatter plots dock kan den inte utföra mycket mer. De mjukvareprogram som krävs för att t.ex. vid multikollinearitets problem beräkna Fhir estimates är program som SAS och STATA, deras mest avancerade paket [2]. Inte nog med att det krävs väldigt tekniskt avancerad mjukvara för att utföra logistisk regressionsanalys ordentligt, det finns nämligen inte mycket information att hitta om logistisk regression förutom introduktions information vilket inte leder till några stora framsteg. Det som skulle behövas för ett arbete vars mål och syfte är att skapa en matematisk modell och analysera faktorer som påverkar utfallet m.h.a. logistisk regression skulle vara att gå en kurs enbart för logistisk regression då logistisk regression är väldigt omständigt. Just för någon som gått en kurs i tillämpad statistik vars primära syfte är att lära ut multipel regressionsanalys och där logistisk regression endast gås igenom ytligt blir ett arbete som det här väldigt svårt att utföra med lyckat resultat, speciellt om det utförs helt självt. Själva ideen var dock väldigt intressant då anbud är en väldigt viktig del inom teknik konsult branschen, det för med sig efter allt arbete samt vinst, betingat att allt går vägen. Överlag har arbetet varit intressant och roligt men också frustrerande, då man inte kunnat förstå eller hitta information. Med tanke på att kunskapen om hur logistisk regression funkar är väldigt nyttig och används mycket inom beräkning av risk bl.a. dock krävs det mycket tid till att förstå sig på regressions typen. Via arbetet har mycket lärts men det finns fortfarande mycket att lära sig om logistisk regression, allt från binärt till multinomial, och jag ser fram i mot att lära mig mera om logistisk regression. 48

55 49

56 Kapitel 6 Appendix 6.1 Hosmer och Lemeshow test (a) Modell 1. (b) Modell 2. (c) Modell 5. Figur 6.1: Lemeshow testen för modellerna 1,2 & 5. 50

57 (a) Modell 3. (b) Modell 4. (c) Modell 6. Figur 6.2: Lemeshow testen för modellerna 3,4 & Hosmer och Lemeshow test för analysen med standardiserade residualer och Cook s värden Hosmer och Lemeshow test för modell 2 och 5 har utelämnats då de leder till samma sak som modell 1 i slutändan. 51

58 (a) Modell 1. (b) Modell 3. (c) Modell 4. (d) Modell 6. Figur 6.3: Lemeshow testen för modellerna 1 till 6. 52

59 6.3 Modellernas logit grafer utan standardizerade residualer och Cook s värden (a) Modell 1,2 och 5. (b) Modell 3. Figur 6.4: Logit graferna till modeller1,2,3 och 5 53

60 (a) Modell 4. (b) Modell 6. Figur 6.5: Logit graferna till modeller4 och 6 54

61 6.4 Modellernas logit grafer med standardiserade residualer och Cook s värden (a) Modell 1,2 och 5. (b) Modell 3. Figur 6.6: Logit graferna till modeller1,2,3 och 5 55

62 (a) Modell 4. (b) Modell 6. Figur 6.7: Logit graferna till modeller 4 och 6 56

63 6.5 Modellernas logit residualer med och utan standardiserade residualer och Cook s värden (a) Modell 1 residualer utan standard res. & Cook (b) Modell 1 residualer med standard res. & Cook. Figur 6.8: Logit residualer till modell 1 57

64 (a) Modell 2 residualer utan standard res. & Cook (b) Modell 2 residualer med standard res. & Cook. Figur 6.9: Logit residualer till modell 2 58

65 (a) Modell 3 residualer utan standard res. & Cook (b) Modell 3 residualer med standard res. & Cook. Figur 6.10: Logit residualer till modell 3 59

66 (a) Modell 4 residualer utan standard res. & Cook (b) Modell 4 residualer med standard res. & Cook. Figur 6.11: Logit residualer till modell 4 60

67 (a) Modell 5 residualer utan standard res. & Cook (b) Modell 5 residualer med standard res. & Cook. Figur 6.12: Logit residualer till modell 5 61

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Finansiell statistik. Multipel regression. 4 maj 2011

Finansiell statistik. Multipel regression. 4 maj 2011 Finansiell statistik Föreläsning 4 Multipel regression Jörgen Säve-Söderbergh 4 maj 2011 Samband mellan variabler Vi människor misstänker ofta att det finns många variabler som påverkar den variabel vi

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

Formler och tabeller till kursen MSG830

Formler och tabeller till kursen MSG830 Formler och tabeller till kursen MSG830 Deskriptiva mått För ett datamängd x 1,, x n denieras medelvärde standardavvikelse standardfelet (SEM) Sannolikheter x = 1 n n i=1 = x 1 + + x n n s = 1 n (x i x)

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Till ampad statistik (A5) Förläsning 13: Logistisk regression Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08 Exempel 1: NTU2015 Exempel 2: En jobbannons Exempel 3 1 1 Klofstad, C.

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Finansiell statistik

Finansiell statistik Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs

Läs mer

Enkel och multipel linjär regression

Enkel och multipel linjär regression TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Föreläsning 13: Multipel Regression

Föreläsning 13: Multipel Regression Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017 Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5 LÖSNINGAR TILL Matematisk statistik Tentamen: 29 7 kl 8 3 Matematikcentrum FMSF45 Matematisk statistik AK för D,I,Pi,F, 9 h Lunds universitet MASB3 Matematisk statistik AK för fysiker, 9 h. För tiden mellan

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 Statistiska Institutionen Patrik Zetterberg Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 2013-01-18 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course,

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Paneldata och instrumentvariabler/2sls

Paneldata och instrumentvariabler/2sls Extra anteckningar om paneldata; Paneldata och instrumentvariabler/2sls Oavsett REM, FEM eller poolad OLS så görs antagandet att Corr(x,u) = 0, dvs att vi har svagt exogena regressorer. Om detta inte gäller

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

Laboration 2 multipel linjär regression

Laboration 2 multipel linjär regression Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka. y Uppgift 1 (18p) I syfte för att se om antalet månader som man ägt en viss träningsutrustning påverkar träningsintensiteten har tio personer som har köpt träningsutrustningen fått ange hur många månader

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

F7 Polynomregression och Dummyvariabler

F7 Polynomregression och Dummyvariabler F7 Polnomregression och Dummvariabler Antag att man börjar med enkel linjär regression. Kap Polnomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polnom av k:te ordningen

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1 Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β

Läs mer

Kovarians och kriging

Kovarians och kriging Kovarians och kriging Bengt Ringnér November 2, 2007 Inledning Detta är föreläsningsmanus på lantmätarprogrammet vid LTH. 2 Kovarianser Sedan tidigare har vi, för oberoende X och Y, att VX + Y ) = VX)

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i )

Läs mer

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD 208-08-26 Sannolikhetsteori Följande gäller för sannolikheter: 0 P(A P(Ω = P(A

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Analys av bostadsrättspriset i Stockholms innerstad

Analys av bostadsrättspriset i Stockholms innerstad Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare "Det finns inget så praktiskt som en bra teori" November 2011 Bakgrund Introduktion till test Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut När det

Läs mer

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS STOCKHOLMS UNIVERSITET Statistiska institutionen Marcus Berg VT2014 TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS Fredag 23 maj 2014 kl. 12-17 Skrivtid: 5 timmar Godkända hjälpmedel: Kalkylator utan

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2017-08-15 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan och att en inblandning mellan 10% och 40% är bra. För att

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 6 13 november 2017 1 / 29 Idag Förra gången Mer om väntevärden och varianser (Kap. 5.2 5.3) Beroendemått (Kap. 5.4) Summor, linjärkombinationer

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression Anna Lindgren 28+29 november, 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 1/22 Linjär regression

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

AMatematiska institutionen avd matematisk statistik

AMatematiska institutionen avd matematisk statistik Kungl Tekniska Högskolan AMatematiska institutionen avd matematisk statistik TENTAMEN I 5B1503 STATISTIK MED FÖRSÖKSPLANERING FÖR B OCH K FREDAGEN DEN 11 JANUARI 2002 KL 14.00 19.00. Examinator: Gunnar

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 12. MER HYPOTESPRÖVNING. χ 2 -TEST Jan Grandell & Timo Koski 25.02.2016 Jan Grandell & Timo Koski Matematisk statistik 25.02.2016 1 / 46 INNEHÅLL Hypotesprövning

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE30 Sannolikhet, statistik och risk 207-08-5 kl. 8:30-3:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 03-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

NÄR SKA MAN SÄLJA SIN BOSTAD?

NÄR SKA MAN SÄLJA SIN BOSTAD? NÄR SKA MAN SÄLJA SIN BOSTAD? En multipel regressionsanalys av bostadsrätter i Stockholm Oscar Jonsson Moa Englund Stockholm 2015 Matematik Institutionen Kungliga Tekniska Högskolan Sammanfattning Projektet

Läs mer

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26 Lite som vi inte hann med när

Läs mer

Lycka till!

Lycka till! Avd. Matematisk statistik TENTAMEN I 5B1503 STATISTIK MED FÖRSÖKSPLANERING FÖR K OCH B MÅNDAGEN DEN 25 AUGUSTI 2003 KL 14.00 19.00. Examinator: Gunnar Englund, 790 7416. Tillåtna hjälpmedel: Formel- och

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Mälardalens Högskola. Formelsamling. Statistik, grundkurs Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken

Läs mer

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression Föreläsning 15, FMSF45 Multipel linjär regression Stas Volkov 2017-11-28 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 1/23 Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n

Läs mer