Prissättningsanalys av annonser på internet

Storlek: px
Starta visningen från sidan:

Download "Prissättningsanalys av annonser på internet"

Transkript

1 EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2016 Prissättningsanalys av annonser på internet En analys av variabler som påverkar slutpriset GUSTAF ERLANDSSON CHRISTOFER TÄRNELL KTH KUNGLIGA TEKNISKA HÖGSKOLAN SKOLAN FÖR TEKNIKVETENSKAP

2

3 Prissättningsanalys av annonser på internet En analys av variabler som påverkar slutpriset GUSTAF ERLANDSSON CHRISTOFER TÄRNELL Examensarbete inom teknik: Tillämpad matematik och industriell ekonomi (15 hp) Civilingenjörsutbildning i industriell ekonomi (300 hp) Kungliga Tekniska högskolan 2016 Handledare på KTH: Thomas Önskog, Jonatan Freilich Examinator: Henrik Hult TRITA-MAT-K 2016:13 ISRN-KTH/MAT/K--16/13--SE Royal Institute of Technology SCI School of Engineering Sciences KTH SCI SE Stockholm, Sweden URL:

4

5 Sammanfattning Den här rapporten undersöker vilka faktorer som påverkar prissättningen av annonser på internet. För att komma fram till ett resultat användes statistisk analys på drygt datapunkter som erhölls av företaget Wiget Media. Modellerna som används har anpassats till datan med hjälp av regressionsanalys, där genomgående analyser av datan har genomförts för att få fram de mest lämpliga modellerna. Regressionen utfördes med hjälp av mjukvaruprogrammet R och strukturering av datan gjordes med hjälp av Excel och Stata. Resultatet av undersökningen visar på att länder, kategorier och plattform är variabler som spelar stor roll vid prissättning. Rapporten undersöker även hur man som mäklare på internet kan utforma prissättningsstrategier. För att komma fram till ett resultat gjordes grundliga litteraturstudier om e-prissättning. Olika prissättningsstrategier diskuteras och resulterar i en slutsats som rekommenderar mäklare på internet att använda en auktionsbaserad prissättningsmodell. 1

6 Abstract This thesis investigates factors that affect the prices of online ads. Statistical analysis was applied in order to draw conclusions from the data recieved from the company Wiget Media. Regression analysis was used to derive models to fit the data. The regression was performed with the software R and the structure of the data was handeled with Excel and Scala. The results from the thesis indicates that countries, categories and platforms are important factors when pricing online ads. Furthermore the thesis investigates and develop a pricing strategy for online borkers. A thorough litterature study regarding online-pricing was performed to derive a pricing strategy suitable for the brokers market and company structure. Different pricing strategies are discussed and conclude in a recommendation to implement an auction-based pricing model. 2

7 Förord Vi vill rikta ett stort tack till handledarna av uppsatsen, Thomas Önskog och Jonatan Freilich, för deras rekommendationer och vägledning. Ett stort tack riktas även till Wiget Media, där Armin Eftekhari och Robin Eklund var kontaktpersoner. De tillhandahöll data och var väldigt hjälpsamma vid utformning av frågeställningen. Ett stort tack riktas även till våra klasskamrater som givit feedback på rapporten. 3

8 Beteckningar V iewers - Antal visningar av en annons P rice - Pris i CPM C** - C står för land, ** står för landskoden. P F - Plattform OS - Operativsystem cat - Kategori T imeinter - Tidsintervall 4

9 Innehåll 1 Inledning Bakgrund Problemformulering och frågeställning Syfte Metod Dataset Databehandling Behandling av avvikelser i datan Avgränsningar Teoretisk bakgrund Linjär regression Ordinary Least Square, OLS Val av kovariat Akaike Information Criterion (AIC) Baeysian Information Criterion (BIC) Skillnader mellan AIC och BIC Dummyvariabler Förklaringsgrad Påverkningsgrad och Cohen s rule Fördelning- och hypotesteori Typ I och typ II fel F-fördelning Hypotestest för linjära modeller Konfidensintervall Bonferroni Heteroskedasticitet Identifiering och åtgärdande av heteroskedasticitet Breusch-Pagan test White s Consistent Variance Estimatior Problem med heteroskedasticitet Endogenitet Simultanitet och saknad av relevanta kovariat Åtgärder för endogenitet Instrumentella variabler Durbin-Wu-Hausmann test SLS Multikollinjäritet Imperfekt multikollinjäritet Perfekt multikollinjäritet Variance Inflation Factor (VIF) Undersökning och behandling av dataset och modell Förklaring av kovariat V iewers P rice Plattform

10 4.1.4 OS Land Tid Kategori Test av heteroskedasticitet Uppställning av modell Reducering av modell Undersökning av multikollinjäritet genom VIF-test QQ-plot Endogenitet Resultat Regressionens koefficienter Påverkan från viewers Påverkan från länder Påverkan från plattform Påverkan från OS Påverkan från tiden Påverkan från kategorierna Diskussion Kovariat Viewers Plattform Operativsystem (OS) Kategori Land Tid Slutsats 37 8 Prissättningsstrategi för mäklare på internet Introduktion Typer av annonsering Avgränsning Mäklare på internet Generell intäktsmodell Digitala annonser Marknadsekonomi Prissättningsteori Grundläggande prissättningsmodeller Platt prissättning Prissättning efter användning Prissättning efter belastning Dynamisk prissättning Annonserad prissättning Auktionsbaserad prissättning Kvantitet prissättning Utbud och efterfrågan på marknaden under ett dygn Möjliga metoder för att möta ändringar i efterfrågan

11 Surge-prissättning (Übers prissättningsmodell) Auktionsbaserad prissättning med begränsade resurser Diskussion Annonserad prissättning Auktionsbaserad prissättning Kvantitet prissättning Slutsats 50 Referenser Appendix Resultat från regression med alla kovariat Resultat från regression utan CAT Resultat från regression utan CAT och catlinkshortener Resultat från regression utan CAT, catlinkshortener och CDE Resultat från regression utan CAT, catlinkshortener, CDK och catdownloadsitesadultcontent Konfidensintervall för slutgiltiga modellen Figurer 58 Tabeller 58 7

12

13 1 Inledning 1.1 Bakgrund Under det senaste decenniet har marknadsföring på internet blivit allt vanligare och det investeras i dagsläget stora summor pengar på att marknadsföra sig online. Allt från reklamkampanjer som kommuniceras till kund via videos till annonser på webbplatser som är tänkt att vara riktad till den specifika användaren. Annonser säljs via något som kan liknas vid en mäklare, där mäklaren bestämmer trafiken på hemsidan, innebärandes att de har rätt att välja vad som ska visas för användaren. Företag kan köpa rätt till annonsplats på dessa hemsidor. Vilka komponenter som spelar störst roll i prissättningen av dessa annonsplatser är vad den här rapporten kommer behandla. Wiget Media är ett av många företag som agerar som mäklare av annonser på hemsidor. Det är ett företag som haft god tillväxttakt på annonsmarknaden på senare tid, där den egentliga konkurrensen ligger i att skapa en effektiv algoritm samt program. Detta för att på ett enkelt sätt kan distribuera trafik på hemsidorna samtidigt som man hämtar ut information om användaren för att kunna rikta annonserna till den specifika användaren. Eftersom affärsmodellen går ut på att sälja för så mycket som möjligt men samtidigt inte ha för stora kostnader själva har företagets fokus endast legat på kod och effektivisering av befintliga system. Wiget Media har därför ingen tydlig uppfattning angående vilka faktorer som spelar in på prissättningen, det vill säga om det finns variabler som ger större effekt än andra för det slutgiltiga priset. Av den anledningen är faktorer som påverkar prissättningen av annonser på internet ett aktuellt område att studera. Dels för företaget som inte har någon egen utvärdering av prissättningen samt att det är intressant för marknaden i stort då det inte finns någon liknande studie som har gjorts. 1.2 Problemformulering och frågeställning Frågeställningarna som behandlas i kandidatexamensarbetet lyder som följande: i) Vilka variabler påverkar prissättningen av annonser på internet mest? Det är också av intresse att undersöka hur man utformar prisstrategier för mäklare på internet, därav formuleras INDEK-frågan som följande: ii) Hur kan en prisstrategi för mäklare på internet utformas? 1.3 Syfte Arbetets syfte är att analysera de olika faktorerna som påverkar prissättningen av annonser på internet. Detta görs med hjälp av statistiska metoder. Arbetet är tänkt att bidra till att identifiera och definiera de mest väsentliga faktorerna i prissättningen av annonser på internet, samt hur mäklare på internet kan utforma en effektiv prissättningsstrategi. Arbetet ska genom ovanstående bidra med relevanta resultat för företaget Wiget Media, som är företaget som tillhandahåller datan som analysen grundar sig på. 8

14 2 Metod Den här rapporten är uppdelad i två delar. I den första delen undersöks vilka faktorer som spelar störst roll vid prissättning av annonser på internet. I den andra delen av rapporten utformas en prissättningsstrategi för mäklare på internet. För att komma fram till ett resultat gällande första delen av rapporten gjordes först en litteraturstudie inom regressionsanalys. Därefter applicerades teorin på en uppsättning datapunkter för att få fram ett resultat. Utifrån resultaten drogs slutsatser om vilka faktorer som påverkar priset mest. I den andra delen av rapporten gjordes en litteraturstudie om grundläggande prissättningsmodeller samt en studie av dynamiska prissättningsmodeller för att kunna besvara rapportens frågeställning. Utifrån fakta från litteraturstudien och konkreta exempel utformades en prissättningsstrategi som mäklare på internet kan applicera. 2.1 Dataset Målet med rapporten är att använda data från annonsmarknaden för att kunna ge ett precist svar på frågan om vilka faktorer som påverkar priset mest. Datasetet som används för att besvara den första frågeställningen tillhandahölls av företaget Wiget Media, som är ett av många företag som agerar som mäklare på annonsmarknaden. Innan behandling av datan bestod datasetet av drygt datapunkter Databehandling Datan analyserades med multipel linjär regression för att dra slutsatser om vilka faktorer som påverkar prissättning av annonser på internet. Vidare undersöktes kovaritens relevans genom konfidensintervallsundersökningar. Responsvariabeln var priset på annonserna och de oberoende variablerna var egenskaperna som definierar annonsen. Områden som analyseras samt modellerna återfinns nedan. Variabler som hade liten relevans i modellen störde resultaten av den. Genom verktyg inom regressionsanalys kan man fastställa om en variabel ska vara med i modellen eller inte. Det finns två typer av verktyg för att analysera variablernas relevans, grafiska metoder och signifikanstest metoder. De grafiska metoderna innebär att man tittar på plottar av residualen mot data, histogram och sannolikhetsfördelning etc. Grafiska undersökningsmetoder som gjordes i denna rapport var, QQ-plot och undersökning av endogenitet samt heteroskedasticitet genom plot. Signifikanstester som användes var P-värdes test och F-test genom Breusch-Pagan för att testa hetroskedasticitet samt VIF-test för att undersöka mulitkollinjäritet i variabler. Beräkningarna för dessa metoder utfördes i R, dock gjordes viss strukturering och sortering av datan med hjälp av Excel och Scala Behandling av avvikelser i datan Vid inspektion av data upptäcktes flertalet problem och avvikelser. En del av datan gick ej att använda i modellen då de skulle generera fel i skattningen av kovariaten. Till en början skapades en modell som var tänkt att vara anpassad till hela datasetet, men efter flertalet försök och ytterliggare inspektion av datan 9

15 kunde inte en modell med tillräckligt hög validitet skapas. En första åtgärd blev att ta bort extrempunkter i datan, vilket innebar att extremt höga värden på priset togs bort. Även datapunkter med lågt pris och få antal V iewers togs bort då det för företaget är intressant att undersöka annonserna som har större påverkan på intäkterna. Det uppstod även en dummyvariabel som var svår att tolka, enligt datan tolkades ett operativsystem som Unknown. Denna variabel anses vara ett fel i datan då företagets system inte kan identifiera ett specifikt operativsystem. Denna variabel återfanns bara i åtta datapunkter och togs därför bort då påverkan på resultatet var liten. Det fanns ytterligare ett operativsystem som inte lästes av korrekt från företaget. WindowsPhone tolkades som en stationär plattform men då detta är omöjligt ansågs även denna vara felaktigt, därför plockades även datan med denna variabel bort. 2.2 Avgränsningar Datamängden är stor och avgränsningar av antal datapunkter måste göras. Utöver begränsningen av datapunkter begränsas arbetet även till att endast behandla länder inom Europa samt ett fåtal kategorier av hemsidor för att möjliggöra en effektiv modell. Valet av begränsningarna ovan gjordes i samtycke med Wiget Media med motiveringen att det är de större marknaderna och vissa utvalda variabler som är mest intressanta. 10

16 3 Teoretisk bakgrund 3.1 Linjär regression Inom matematisk statistik är linjär regression en vanlig metod att använda. Metoden används när man vill förklara en beroende responsvariabels påverkan från en samling oberoende variabler, även kallat kovariat. Förhållandet mellan dessa beskrivs av följande ekvation: Som kan skrivas som följande: y i = x ik β k + e i (1) Y = Xβ + e y 1 1 x 1,1 x 1,2... x 1,k β 0 e 1 y 2 Där Y =., X = 1 x 2,1 x 2,2... x 2,k , β = β 1., e = e 2. y n 1 x n,1 x n,2... x n,k β k e n I ekvation (1) är y den beroende variabeln. Variabeln beskrivs av kovariaten x i samt feltermen e i. Där e i antas vara oberoende mellan observationerna och väntevärdet σ okänt sådant att: E[e i ] = 0 och E[e 2 i ] = σ 2 Det sista förhållandet gäller endast vid homskedasticitet och inte vid hetroskedsticitet, vilket tas upp i ett senare avsnitt. [1] Den för modellen beräknade β i anger förhållandet mellan en förändring i responsvariabeln y motsvarande en ändring i kovariatet x i sådan att: β i = δy δx (2) 3.2 Ordinary Least Square, OLS ˆβ är okänd och uppskattas för att kunna beskriva förhållandet mellan responsvariabeln y i, kovariaten x i och feltermen e i. Ett sätt att uppskatta β är genom metoden OLS, vilken minimerar kvadratsumman av feltermen e 2. Det uppskattade β betecknas som ˆβ. Genom en omskrivning av normalekvationen nedan kan ˆβ uppskattas: X t ê = 0 (3) Genom insättning av ekvation (1) i (3) fås en OLS estimation av ˆβ sådan att: ˆβ = (X t X) 1 X t Y (4) 11

17 Kovariansmatrisen av ˆβ skrivs som följande: Cov( ˆβ) = E[( ˆβ β]e[( ˆβ β) t ] = (X t X) 1 X t Iσ 2 X(X t X) 1 En opartisk uppskattning för σ 2 ges av: s 2 = 1 n k 1 ê2 Vilket ger en skattning av kovariansmatrisen som ser ut som följande: Côv( ˆβ) = (X t X) 1 s 2 Detta gäller endast för modeller där datan är homoskedastisk, i annat fall kommer den skattade matrisen bli inkonsistent och White s Consistence Varience Estimator måste appliceras. [1] 3.3 Val av kovariat Det kan vara svårt att avgöra vilka kovariat som skall inkluderas i en modell eller ej. Vid val av kovariat finns det två olika tester för att avgöra om ett kovariat ska vara med i modellen eller inte. AIC-test och BIC-test [1] är de två testen som används för detta. 3.4 Akaike Information Criterion (AIC) För att mäta den relativa kvalitén hos en modell givet en uppsättning data kan AIC användas. Testet kan ses som avvägning mellan förklaringsgrad och modellens komplexitet (antal kovariat). I nästan alla fall beskrivs den bästa modellen av den modell som genererar lägst resultat hos fäljande uttryck: AIC = nln( ê 2 ) + 2k (5) Ovanstående ekvation (5) identifierar modeller som är överestimerade sett till det optimala. Därför väljer man den modell som ger lägst resultat. Denna modell är den mest lämpade och förhållandevis hög förklaringsgrad sett till andra modeller man kan ställa upp med samma dataset [2] [1]. 3.5 Baeysian Information Criterion (BIC) Ett annat sätt att mäta den relativa kvalitén hos en modell given en uppsättning data är att använda sig av BIC. Man kan se testet som en avvägning mellan förklaringsgrad och modellens komplexitet (antal kovariat). Den bästa modellen avgörs efter minimering av följande uttryck: BIC = nln( ê 2 ) + kln(n) (6) Ekvation (6) identifierar modeller som är överestimerade och precis som för AIC-testet väljs den modell som minimerar ekvation (6). Denna modell är den mest lämpade och har förhållandevis hög förklaringsgrad. [1] 12

18 3.6 Skillnader mellan AIC och BIC Det är inga större skillnader mellan AIC och BIC enligt ekvation (5) och (6) ovan. Den enda skillnaden är den sista termen. AIC har en 2k term medan BIC har en kln(n) term. Båda är härledda från samma informationsteori och ramverk men skiljer sig i prioriteringar, där BIC ofta reducerar modellen mer än AIC gör. Det mest lämpade testet att applicera beror på modellen. [3] Värt att ta i beaktning är att det inte alltid är optimalt att reducera en modell bara för att testerna säger säger det. När skillnaden mellan två modeller är liten är intuitionen hos den som ställer upp modellen lämpligare att använda. 3.7 Dummyvariabler Införandet av dummyvariabler sker på grund av att en del datatyper inte är kvantifierbara. Att dela upp dessa datatyper i dummyvariabler är en effektiv metod att behandla data för att göra den användbar. Nedan följer en beskrivning av hur en dummyvariabel definieras och används. Låt x i vara en dummyvaribel som har följande egenskaper: x i = 0, om observationen är inaktiv x i = 1, om observationen är aktiv När x i är aktiv kommer den beroende responsvariabeln öka med β i [1]. För att undersöka skillnader mellan kön kan man införa en dummyvariabel vilken utreder om en observation är en kvinna eller ej. Det skulle kunna se ut som följande: x i = 0, om det är en man x i = 1, om det är en kvinna 3.8 Förklaringsgrad R 2 är beteckningen för förklaringsgrad inom statistik. Konstanten förklarar hur bra modellen är anpassad till datan. R 2 -koefficienten anger hur bra variationen i den beroende variabeln y som kan föklaras av variation i de oberoende variablerna x. Målet är att uppnå ett högt värde för att minimera feltermerna och ha en väl anpassad modell till regressionslinjen.[4] R 2 definieras som följande: R 2 = V ar(x ˆβ) V ar(y ) = 1 V ar(ê) V ar(y ) (7) Ett R 2 värde nära 1 visar på att modellen är väl anpassad till datan, medan ett lägre värde indikerar att modellen inte tar hänsyn till alla feltermer. 3.9 Påverkningsgrad och Cohen s rule Påverkningsgraden eller effektstorleken mäter hur stor påverkan ett kovariat har på en modell. Till skillnad från signifikanstest är effektstorleken oberoende av storleken på datan. [5] Effektstorleken kan uttryckas på flera sätt, men i rapporten kommer den endast uttryckas som η 2. η 2 definieras som följande: 13

19 η 2 = ê2 effect ê 2 total (8) Där ê 2 effect är kvadratsumman av påverkan från kovariaten som undersöks och ê 2 total är kvadratsumman av alla kovariat. För att avgöra hur står påverkan ett kovariat har, kan man använda sig av Cohen s rule. Cohen s rule är en tumregel för att avgöra påverkan hos ett kovariat, där Cohen definierat storleken av påverkan i kategorierna small, medium och large [6]. Cohen s tumregel Impact: Small Medium Big η 2 : Fördelning- och hypotesteori För att kunna dra slutsatser om en uppsättning data behöver man göra ett hypotestest. Den vanliga processen för testet är: 1. Definiera nollhypotesen H 0 samt en alternativ hypotes H Gör ett statistiskt antagande om datan, exempelvis om datan är oberoende eller ett antagande gällande observationernas fördelning. 3. Bestäm vilket test som ska användas och definiera testet för relevant F- statistika. 4. Definiera en signifikansnivå α,vilket är den lägsta nivå som nollhypotesen kommer förkastas på. Oftast används en signifikansnivå på 5%. 5. Den erhållna fördelningen kommer dela upp F-statistikan i två delar, en där nollhypotesen förkastas med sannolikhet α och en där nollhypotesen inte förkastas. 6. Beräkna F obs kopplat till F-statistika. 7. Slutligen förkastar man eller behåller nollhypotesen. Hypotesen förkastas med signifikansnivån α om F obs ligger utanför konfidensintervallet [7] Typ I och typ II fel Ibland dras fel slutsats från hypotestestet. Dessa benämns Typ I och Typ II fel och definieras nedan som: Typ I är felaktigt förkastande av en sann nollhypotes Typ II är att ej förkasta en falsk nollhypotes Risken att detta sker är med sannolikheten på signifikansnivån α för Typ I fel samt med β för Typ II. Där β är relaterat till styrkan hos ett statistiskt test som definieras enligt 1 β. 14

20 3.11 F-fördelning F-fördelningen definieras som förhållandet mellan två chi-kvadrat fördelningar. På grund av detta förhållande är F-fördelningen förskjuten åt höger. F-fördelningen definieras som följande [8]: F (n, p) = χ 2 (n) n χ 2 (p) p (9) 3.12 Hypotestest för linjära modeller Rapporten kräver signifikanstest för flera kovariat. Detta görs genom att definiera en nollhypotes för att testa en grupp av kovariat på signifikansnivå α: H 0 :β i = 0, i = 1, 2,..., n, n N H 1 :β i 0, i = 1, 2,..., n, n N När man gör ett signifikanstest för en koeffecient β i adderas restriktioner till modellen. Om man testar för n restriktioner, körs först regressionen utan restriktionerna (β i 0) för att bestämma ê. Sedan körs regressionen igen under restriktion (β i = 0) för att kunna bestämma ê. F-statistiken ser därför ut som följande: F = n k 1 ( ê2 r ê 2 1) (10) F är F (r, n k 1) fördelad[1]. Testet ser ut som följande: Förkasta H 0 om F > F α (r, n k 1) Där F α (r, n k 1) är den kumulativa distributionsfunktionen Konfidensintervall För att med säkerhet kunna fastställa att ett kovariat ger ett positivt eller negativt utslag mot benchmarken är det viktigt att undersöka kovariatets konfidensintervall. Är det endast positivt eller endast negativt kan man dra slutsatsen att effekten av kovariatet på modellen antingen ger ett positivt eller negativt utslag. Innehåller konfidensintervallet mängden 0 kan man inte dra någon slutsats vilken påverkan kovariatet har. Det vanligaste sättet att undersöka konfidensintervallet hos ett enskilt kovariat β i på signifikansnivån 1 α är genom följande ekvation: β i = ˆβ i ± F α (1, n k 1)SE( ˆβ i ) (11) Där F α (1, n k 1) är den kumulativa distributionsfunktionen med en frihetsgrad i täljaren och n k 1 frihetsgrader i nämnaren, SE( ˆβ i ) är den estimerade feltermen för ˆβ i [1]. 15

21 Bonferroni När man undersöker en hypotes för flera kovariat samtidigt måste man korrigera för detta i testet av konfidensintervallet. Ett vanligt sätt att undersöka hypotesen för flera kovariat samtidigt är att använda Bonferroni. Det är ett test som är likt det vanliga testet för konfidensintervall, men det är korrigerat för antalet kovariat man undersöker samtidigt. Signifikansnivån man undersöker hypotesen på blir därför 1 α, där α står för vilken signifikansnivå man vill undersöka #r och där #r står för antalet kovariat som undersöks i hypotestestet [1] Heteroskedasticitet Den linjära regressionsmodellen beskrivs som följande: y i = x ik β k + e i Antagandet för homoskedasticitet, som är det vanligaste förekommande antagandet är att feltermerna e i har samma standardavvikelse σ, vilket beskrivs enligt följande: E[e i ] = 0 och E[e 2 i ] = σ 2 Men då feltermerna kan vara normalfördelade innebär det att ovanstående kriterium inte alltid är uppfyllt, då definieras feltermerna enligt följande: E[e i ] = 0, E[e 2 i ] = σ 2 i och E[e 4 i ] < Ovan ses definitionen för hur feltermerna hos en heteroskedstisk modell beskrivs, vilket kännetecknas av att feltermerna e i inte antar samma värden för alla termer [1] Identifiering och åtgärdande av heteroskedasticitet Har man felaktigt definierat en modell som homoskedastisk fast den egentligen är heteroskedstisk kommer man stöta på problem. Parametriseringarna blir inkonsistenta på grund av den felaktiga specificeringen att standardavvikelsen för varje felterm antar samma värde. Detta leder till att eventuella F-test kopplat till resultatet av regressionen blir ogiltig. Det är därför viktigt att undersöka om man har heteroskedasticitet i en modell, vilket man på ett enkelt och överskådligt sätt kan göra genom att plotta feltermen ê för regressionen på den beroende variabeln Y (se Figur1). 16

22 Figur 1: Homoskedasticitet vs Hetroskedasticitet Breusch-Pagan test Ett annat sätt att identifiera heteroskedasticitet i en modell är att applicera Breusch-Pagan test för heteroskedasticitet. Man undersöker då ifall den estimerade variansen V ar(ê) är beroende av kovariaten som används i modellen. Om den estimerade variansen är beroende av kovariaten betyder det att modellen är heteroskedstisk. Som tidigare definierat är ett villkor för homoskedasticitet att E[e 2 i ] = σ 2 i, vilket betyder att variansen inte är beroende på kovariaten. För att utföra Breush- Pagan testet behöver man variansen för modellen vilket man kan få ut genom att ta medelvärdet av alla kvadrerade feltermer ê 2, sedan ställer man upp sin hypotes vilket kan se ut som följande: H 0 : Modellen är homoskedastisk H 1 : Modellen är heteroskedastisk Därefter körs en regression på ê 2 som oberoende variabel med kovariaten X, regressionen beskrivs som följande: ê 2 = Xβ + u, där u är notationen för regressionens felterm. Man kan testa hypoteserna genom att köra ett F-test. Om F-testet kan konfirmera att variablerna är beroende (jointly significant) för den signifikansnivån man vill undersöka kan nollhypotesen förkastas givet att man testar för homoskedasticitet [10] White s Consistent Variance Estimatior Det finns ytterligare tillvägagångssätt för att handskas med heteroskedasticitet. En möjlig lösning för att minska heteroskedasticiteten är att använda sig av White s Consistent Variance Estimator som utgår från att ˆβ är en unbaised estimering av β, det vill säga E( ˆβ) = β. Kovariansmatrisen beskrivs således som följande: cov( ˆβ) = (X t X) 1 X t D(ê 2 )X(X t X) 1 (12) I ekvation (12) är D(ê 2 ) en diagonalmatris av storleken n x n med diagonalen fylld av elementen ê 2 i. Till ovanstående formel behövs en modifikation, 17

23 n vilket är att en faktorterm om bör multipliceras med uttrycket. Detta eftersom man vill minimera summan av ê 2. Men när detta görs utan den n k 1 nämnda modifikationen underestimeras det verkliga värdet av e 2, därför läggs n termen som agerar som en typ av ad-hoc kompensation. Den mer n k 1 robusta kovariansmatrisen beskrivs därför som följande [1]: côv( ˆβ) = (X t X) 1 X t D(ê 2 )X(X t X) 1 n n k Problem med heteroskedasticitet Endogenitet (13) Endogenitet uppstår ifall feltermen ê är väl korrelerad med en eller flera kovariat som ingår i modellen. Det här får konsekvenser i form av att resultaten från OLS-regressionen blir inkonsistenta [13]. Om man misstänker att ett eller flera kovariat i en modell kan bidra till endogenitet kan man undersöka dessa variabler genom en plott med feltermen ê på y-axeln mot det valda kovariatet på x-axeln. Om det visar sig att det finns en linjär trend i plotten mellan dessa visar det på endogenitet. Figur 2: Endogenitet I ovanstående figur ses ett exempel på en plott mellan variabler som är endogena. På y-axeln återfinns feltermerna från regressionen för den modell man undersöker och på x-axeln är variabeln som undersöks för endogenitet. Anledningen till att plotten ovan visar på endogenitet är för att feltermerna är beroende av variabeln på x-axeln vilket illustreras genom den linjära (röda) linjen. 18

24 Simultanitet och saknad av relevanta kovariat I rapporten finns det möjlighet att stöta på endogenitet i modellerna, vilket skulle kunna uppstå på grund av simultanitet. Simultanitet innebär att den oberoende variabeln Y är korrelerad med en eller flera av kovariaten vilket blir ett problem då orsak och samband får betydelse för resultatet av korrelerade variablerna, vilka påverkas i båda riktningarna. Saknad av relevanta kovariat är en annan anledning till varför endogenitet uppstår. Det innebär att komponenter av feltermen i en modell ibland kan korrelera med vissa kovariat, som kan identifieras. För att åtgärda problemet är en lösning att lägga till det kovariat som saknas, vilket gör modellen komplett Åtgärder för endogenitet Instrumentella variabler Instrumentella variabler innebär att man med hjälp av en eller fler variabler kan beskriva en annan oönskad variabel. En instrumentell variabel är effektiv att använda för att motverka endogenitet hos variabler. För att kunna införa en instrumentell variabel krävs det att den är väl korrelerad med den oönskade variabeln samt att den inte är korrelerad med feltermen Durbin-Wu-Hausmann test Det finns flera tillvägagångssätt för att identifiera endogenitet i en modell. För att undersöka om en eller flera av kovariaten i en given modell är endogen kan man applicera Durbin-Wu-Hausmanns test. Det innebär att man utför en OLS regression för de endogena variablerna på de instrumentella variablerna, regressionen ser ut som följande: x = Zα + u (14) Där û från regressionen i ekvation (14) används för en ny regression, i vilken man undersöker om û ger något signifikant utslag på resultatet. Detta görs genom att man utför en OLS-regression av û med X. Ekvationen illustreras som följande: Y = Xβ + Υû + e (15) Testet för eventuell signifikans hos feltermen û utformas som ett hypotestest med följande uppställning [9]: H 0 = ˆΥ if tested variable is exogenous. H 1 ˆΥ if tested variable is endogenous SLS När det uppstår endogenitet i en modell betyder det att minst en av kovariaten är endogen, vilket innebär att den endogena variabeln är korrelerad med feltermen. Den vanligaste åtgärden för att lösa problemet är att applicera 2-SLS ( Two Stage Least Square ). Första steget är att införa instrumentella variabler 19

25 som kan ersätta den endogena variabel. De variabler som från början var exogena samt de nya variablerna som beskriver den endogena variabeln definieras i en ny matris Z. Om Z har fler kolumner än X måste X projiceras på Z, vilket görs genom följande: Normalekvationen beskrivs således som: ˆX = Z(Z t Z) 1 Z t X (16) ˆXê = 0 (17) Vilket gör att punktskattningen av β definieras som följande: ˆβ = ( ˆX t X) 1 ˆX t Y (18) Vilket ger estimationen av White s robusta kovariansmatris följande utseende: côv( ˆβ) = ( ˆX t X) 1 ˆX t D(ê 2 ) ˆX( ˆX t X) 1 n n k Multikollinjäritet (19) Det finns två typer av multikollinjäritet, imperfekt multikollinjäritet och perfekt multikollinjäritet Imperfekt multikollinjäritet Mulitkollinjäritet uppstår då estimeringen från OLS inte har någon unik lösning. Detta händer ifall två eller flera av kovariaten är linjärt beroende, vilket innebär att man kan beskriva ett kovariat som en linjärkombination av en eller flera andra kovariat. För att upptäcka multikollinjäritet observerar man de uppskattade standardavvikelserna för regressionskoefficienterna. Om standardavvikelserna antar höga värden är det troligt att multikollinjäritet existerar i modellen. För att eliminera multikollinjäriteten tar man bort de linjärt beroende variablerna från modellen, vilka man identifierar från kovariatens respektive VIF-värde Perfekt multikollinjäritet Perfekt multikollinjäritet innebär att två av de beskrivande variablerna är helt korrelerade med varandra. Ett exempel på detta är om man genomför en regression med en variabel för män och en variabel för kvinnor, där de nämnda variablerna är helt korrelerade med varandra, eftersom att man inte kan vara en kvinna och man på samma gång. Därmed finns det inte en unik lösning och perfekt multikollinjäritet uppstår. För att identifiera detta undersöker man kovariatens respektive VIF-värde Variance Inflation Factor (VIF) Multikollinjäritet kan upptäckas genom att titta på kovariatens VIF-värden. VIF indikerar hur mycket större variansen är jämfört med vad den skulle varit om kovariatet var helt okorrelerat med de andra. Om det finns en modell där man misstänker att det förekommer k multikollinjär kovariat, beräkna då k 20

26 VIF-värden, en för varje X i. Kör sedan en vanlig OLS regression med X i som responsvariabel på de andra kovariaten, vilket kan definieras som följande: X i = 1γ 0 + γ 1 X i+1 + γ 2 X i+2 + γ 3 X i+3 + γ 4 X i γ k X i+k + e i Här är i = 1, 2,..., k VIF-värdet beräknas genom följande: V IF ( ˆβ 1 i ) = 1 Ri 2 (20) En tumregel vid bedömning av resultatet från ekvation (20) är att VIF-värde > 10 indikerar hög multikollinjäritet [16]. 21

27 4 Undersökning och behandling av dataset och modell 4.1 Förklaring av kovariat I det givna datasetet som erhölls från Wiget Media återfanns sju variabler, nämligen V iewers, P rice, plattform, OS, land, tid och kategori. Av dessa variabler var det endast P rice och V iewers som var kvantifierbara, vilket innebär att de fem återståenda variablerna erhölls som strängar. För att kunna genomföra en regressionsanalys på den givna datan delades kovariaten upp i dummyvariabler, vilket resulterade i en grundmodell beståendes av 38 variabler V iewers V iewers är ett kovariat som beskriver hur många visningar en viss annons har fått under en given period. Antalet V iewers är kopplat till en datapunkt och hör ihop med de resterade sex kovariaten P rice, plattform, OS, land, tid och kategori för den givna datapunkten P rice P rice är en variabel som står för det faktiska värdet som annonsen såldes för. I datasetet var P rice givet i CPM, vilket betyder att det illustrerade priset är priset för 1000 visningar i dollar Plattform Plattform är ett kovariat som beskriver vilken typ av plattform en användare befinner sig på när denne ser en annons. Plattform angavs som Desktop eller M obile. Kovariatet delades därför upp i två dummyvariabler för att kunna göra en regressionsanalys. I dummyvariabeln Desktop räknas stationära datorer samt bärbara datorer. Till M obile räknas mobiler och andra tänkbara uppkopplade enheter som inte ingår i Desktop OS OS är ett kovariat som beskriver vilken typ av operativsystem som annonsen visats på. OS är det kovariat som beskriver om annonsen visats på exempelvis Windows7, Windows8, Mac, iphone eller Android. Kovariatet OS anges i termer av namn vilket innebär att OS delades upp i ett antal kovariat som beskriver varje enskild plattform Land Kovariatet land beskriver vilket land som annonsen visats i. Kovariatet land var uppdelad i sju länder i Europa och Norden. För att genomföra regressionen delades kovariatet land upp i sju stycken dummyvariabler. 22

28 4.1.6 Tid Tid är det kovariat som beskriver när på dygnet annonsen visats. Tid delaades in i fyra dummyvariabler som var och en motsvarar ett av fyra tidsintervall. TimeInter1 beskriver tiden från 00:00 till 05:00, TimeInter2 beskriver tiden från 05:00 till 11:00, TimeInter3 beskriver tiden mellan 11:00 och 17:00, TimeInter4 beskriver tiden från 17:00 till 24:00. Anledningen till att dummyvariablerna kategoriserats som ovan är på grund av att trafiken som varje dummyvariabel beskriver är ungefär lika inom tidsintervallet, men trafiken skiljer sig mellan de olika dummyariablerna Kategori Kovariatet kategori beskriver vilken typ av sajt som annonsen visats på. Kovariatet bestod av 17 olika kategorier av sajter, vilket innebär att 17 dummyvariabler skapades för att regressionsanalys på datan skulle kunna genomföras. Vissa av dummyvariablerna som skapades är uppbyggda av flera kategorier vilket förklaras med att man i den givna datan inte kunde utröna vilken av alla kategorier som var kopplat till sajten där annonsen visades. 4.2 Test av heteroskedasticitet För att välja vilken modell som är mest lämplig att använda med avseende på datan behövs en undersökning av datan utföras. Det är viktigt att undersöka om datan är homoskedastisk eller heteroskedastisk. I teoriavsnittet är ett tillvägagångssätt för detta beskrivet, vilket är att man undersöker datan genom att plotta feltermerna ê mot responsvariabeln Y. I figur 3 återfinns plotten av feltermerna mot responsvariabeln som i det här fallet är priset av annonserna. Figur 3: Grundmodell 23

29 I figur 3 ser man även tydliga heteroskedastiska tendenser i datan eftersom variansen inte är konstant. För att fastställa att datan är heteroskedastisk genomförs ett Berusch-Pagan test med följande resultat: Tabell 1: Breusch-Pagan test F-värde df p.value *10 16 I tabell 1 ser man att testet genererade p-värdet < Då hypotesen för testet är att datan är homoskedastisk förkastas antagandet och det konstateras att heteroskedasticitet är närvarande. På grund av detta valdes en modell för att handskas med heteroskedasticitet. I själva regressionen används log på responsvariabeln, som definieras enligt log(1+price). I mjukvaruprogrammet som utför regressionen användes även en robust summering (robust.summary) av regressionen på log(1 + P rice) som responsvariabel, vilket genererar resultat i form av estimerade β i -värden, feltermer (e i ), påverkningsgrad (η 2 i ) samt p-värden för respektive kovariat. Testet behandlar eventuell heteroskedasticitet och resultaten från dessa körningar anses därför vara validerade för att dra eventuella slutsatser. Figur 4: log-modell I figur 4 ses feltermerna från regressionen på log(1 + P rice) plottade mot P rice. Efter ändringen i modellen kan man se att heteroskedasticitet fortfarande är närvarande, men i mindre utsträckning än innan. 4.3 Uppställning av modell Då heteroskedasticitet har indentifierats i datan ställs en modell upp för att handskas med detta. I regressionen återfinns responsvariabeln log(1+p rice) som 24

30 predikteras med hjälp av kovariatet viewers och dummyvariablerna som beskriver de resterande variablerna. Det innebär att grundmodellen ställs upp som följande: log(1+price) = β 0 + β 1 X 1 + β 2 X β 38 X 38 + e i, där i = 1, 2,..., 38 Kovariaten som inkluderas i grundmodellen återfinns i Appendix 11.1, där variablerna Windows7, desktop, TimeInter4, CSE, catdownloadsites är benchmarks i den redovisade regressionen. 4.4 Reducering av modell För att reducera ursprungsmodellen användes AIC för att bedöma om enskilda variabler kan elimineras ur modellen. För val av kovariat att testa valdes de kovariat med högre p-värde, låg påverkningsgrad eller en kombination av de båda. Ett AIC test utfördes efter varje eliminerat kovariat för att undersöka skillnaden mellan modellen med det testade kovariatet samt modellen utan kovariatet. Ett lägre AIC-värde indikerar på en förbättrad modell, därför gjordes tester för att ta fram den optimala modellen givet datasetet. Först utfördes ett test på kovariatet CAT där både P-värdet var högt samt η 2 -värde som var förhållandevis lågt. Modellen utan kovariatet resulterade i ett lägre AIC värde och därför togs CAT bort från modellen. Den reducerade modellen utvärderades därefter utan kovariatet catlinkshortener. Modellen gav ett lägre AIC-värde än modellen med kovariatet och plockades därför bort från modellen. Vidare undersöktes kovariatet CDE då detta kovariat var ett av de kvarvarande kovariaten som hade högt p-värde samtidigt som η 2 -värdet var lågt. AIC-värdet för den reducerade modellen utan kovariatet CDE genererade även det ett lägre AIC-värde och eliminerades därför ifrån modellen. Vidare testades kovariatet catdownloadsitesadultcontent för ett högre AIC-värde och behölls därför i modellen. Kopplat till modellerna har även ett R 2 -värde tagits fram vilket beskriver hur väl anpassad modellen är till den givna datan. Model4 är den slutgiltiga modellen som används för resterande tester. Nedan visas en tabell av resultaten från körningarna. I Appendix ( ) återfinns alla kovariat som inkluderades i de olika AIC-körningarna. Tabell 2: AIC körningar Model1 Model2 Model3 Model4 Model5 AIC R Undersökning av multikollinjäritet genom VIF-test För att undersöka om modellen innehåller multikollinjära variabler genomförs ett VIF-test där resultatet från testet illustreras nedan. Vilket tidigare nämnts i teoriavsnittet indikerar ett VIF-värde > 10 på multikollinjäritet. 25

31 Tabell 3: VIF-tabell VIFtable Viewers CDK 1.18 CES 1.33 CFR 1.80 CIT 1.88 PFMobile 8.12 OSAndroid 4.96 OSIpad 3.59 OSIphone 4.01 OSMac 1.32 OSUnix 1.18 OSWindows 1.50 OSWindows OSWindowsVista 1.11 OSWindowsXP 1.10 catappsandextensions 2.52 catdownloadsites,adultcontent 1.02 catdownloadsites,tvandmovies 1.22 catexchangetier catfilehosting 3.64 catimagehosting 1.07 catimagehosting,adultcontent 1.02 catother 3.65 catsportstreaming 1.24 catsport,sportstreaming 1.05 cattvandmovies 1.57 cattvandmovies,filehosting 2.54 cattvandmovies,sport 1.04 cattvandmovies,sport,filehosting,sportstreaming 1.10 cattvandmovies,sport,sportstreaming 1.23 TimeInter TimeInter TimeInter log(viewers) 9.44 Viewers.sqr I tabell 3 kan man utläsa att det endast är två värden som är > 10, ett av dem är V iewers. Anledningen till att hög multikollinjäritet återfinns hos det kovariatet är för att det kan beskrivas väl av kovariaten log(v iewers) och V iewers.sqr. Detta är inte ett problem i modellen då endast en undersökning av variablers påverkan görs och inte en prediktion av priset. Detsamma gäller för V iewers.sqr. 4.6 QQ-plot En QQ-plot har gjorts för att undersöka om residualerna är normalfördelade eller ej. Enligt figur 5 syns tendenser på att residualerna inte är det. Åtgärder 26

32 har gjorts för att motverka detta, dels genom att logaritmera responsvariabeln men även addition av log(v iewers) samt V iewers.sqr i modellen. Figur 5: QQ-plot Vidare alternativa åtgärder har undersökts, exempelvis genom att lägga till en variabel i datan. Detta har dock inte varit möjligt vilket gjort att följande utseende har accepteras. 4.7 Endogenitet Kovariat som misstänks vara endogena behöver undersökas närmre för att utesluta eller bekräfta endogenitet. Man kan tänka sig att plattform är en endogen variabel, men då variabeln endast är uppdelad i dummies behövs dummyvariablerna undersökas för eventuell endogenitet. En plott för dummyvariabeln Desktop visas nedan för att undersöka eventuell endogenitet. 27

33 Figur 6: Endogenitetstest Platform I figur 6 ses plotten för variabeln plattform som är uppdelad i två kovariat, Desktop och M obile. När Desktop är aktiv resulterar dummyvariabeln i en etta och felet tillhörande Desktop är alltså plottad kring värdet 1 på x-axeln. När det inte är en Desktop är värdet noll och felet för detta är plottat på x-axeln kring värdet 0. Medelfelet för Desktop är 0.05 och mobile är Eftersom medelfelet är ungefär samma för både Desktop och Mobile samt att plotten visar på att variansen för feltermerna är förhållandevis lika, kan man dra slutsatsen att det inte råder någon endogenitet hos kovariatet plattform. Vidare misstänks V iewers vara endogen. Ytterligare en plott har utförts för att undersöka detta närmare. I figur 7 visas V iewers mot residualerna. 28

34 Figur 7: Endogenitetstest Viewers I figur 7 kan man se att endogenitet inte är närvarande eftersom regressionslinjen är utan lutning genom punkterna. Detta gör att V iewers utesluts som endogen. 29

35 5 Resultat 5.1 Regressionens koefficienter Från avsnittet reducering av modell togs den slutgiltiga modellen fram och presenteras i avsnitt Modellen har sedan används i följande körningar för att beräkna kovariatens estimat och konfidensintervall. Vid beräkning av konfidensintervall gjordes test på 5% signifikansnivå med tillhörande Bonferronis korrektion. Där beräkningen korrigeras efter antalet kovariat i modellen. I detta fall har 35 kovariat inkluderats, vilket var antalet kovariat som var kvar efter reducering Påverkan från viewers V iewers har den största påverkan på modellen. Detta är rimligt ur ett marknadsperspektiv, då annonsörer är beredda att betala mer när efterfrågan är stor. Varje enskild Viewer har låg påverkan på slutpriset, däremot skiljer sig antalet viewers på varje annons stort och sträcker sig från ett fåtal till ca Tabell 4: Konf. intervall viewers lower upper Viewers log(viewers) Viewers.sqr V iewers har en relativt stor påverkan på modellen. Med en av de högsta η 2 -värdena och med lågt p-värde går det inte att ifrågasätta kovariatets existens i modellen. Tabell 5: Påverkningsgrad viewers Std.Error Eta.sq p.value Viewers log(viewers) Viewers.sqr Påverkan från länder I tabell 6 presenteras konfidensintervallen för ländernas kovariat. Med Bonferroni korrigeringen kan man dra slutsatser om påverkan från flera av kovariaten. Landet som benchmarkas i regressionen är Sverige, Österrike och Tyskland. I kontrast till benchmarken ses i tabell 6 att inga länder har en positiv påverkan på priset. Danmark, Spanien, Frankrike och Italien ger alla ett negativt utslag på priset, där man kan dra slutsatsen att Spanien är det land som har störst negativ inverkan på priset sett till alla länder. Bland de länder som ses i tabell 6 kan man även dra slutsatsen att Frankrike ger ett positivt utslag på priset kontra Danmark och Spanien. 30

36 Tabell 6: Konf. intervall länder lower upper CDK CES CFR CIT Vidare är det intressant att undersöka kovariatens påverkningsgrad på priset. I tabell 7 återfinns respektive kovariats påverkningsgrad η 2. Spanien har största påverkan på slutpriset, vilket man kan se genom att studera konfidensintervallen i tabell 6. För prissättningen av annonser spelar länder roll på slutpriset och det är något som man bör ta hänsyn till. Tabell 7: Påverkningsgrad länder Std.Error η 2 p.value CDK CES CFR CIT Det är relevant att utreda kovariatens P-värde för att kunna bestämma deras relevans i modellen. Ovan ser man att samtliga kovariat har låga η 2 -värden utom Spanien Påverkan från plattform Plattformarna jämförs mellan varandra, där PFMobile benchmarkas mot PF- Desktop. I tabell 8 kan man urskilja att PFMobile är att föredra vid prissättning och har ett generellt högre pris. Tabell 8: Konf. intervall plattform lower upper PFMobile PFMobiles påverkningsgrad är inte avvikande stor eller låg och p-värdet tillräckligt signifikant för att vara relevant i modellen. Tabell 9: Påverkningsgrad plattform Std.Error η 2 p.value PFMobile

37 5.1.4 Påverkan från OS Operativsystemen benchmarkades mot OSWindows7. För de olika operativsystemen kan man konstatera att alla kovariat har ett negativt utslag på slutpriset, däremot måste man tänka på att OSAndroid, OSIpad, OSIphone tillhör PFMobile och får ett negativt estimat men vägs upp av det positiva estimatet hos PFMobile. Tabell 10: Konf. intervall OS lower upper OSAndroid OSIpad OSIphone OSMac OSUnix OSWindows OSWindows OSWindowsVista OSWindowsXP I tabell 11 ser man att resultaten för respektive kovariats η 2 är relativt låga och inget kovariat utmärker sig som avvikande i η 2. Tabellen innehåller inte något avvikande p-värde. Tabell 11: Påverkningsgrad OS Std.Error η 2 p.value OSAndroid OSIpad OSIphone OSMac OSUnix OSWindows OSWindows OSWindowsVista OSWindowsXP

38 5.1.5 Påverkan från tiden I tabell 12 illustreras tidens påverkan på priset. Tiden är uppdelad i 4 intervall som tidigare nämnts och förklarats i rapporten. TimeInter1 är från midnatt till morgon, TimeInter2 är morgon till förmiddag, TimeInter3 är förmiddag till eftermiddag och TimeInter4 är eftermiddag till natt. De tre intervallen som redovisas i figuren benchmarkas mot TimeInter4. Eftersom konfidensintervallen för endast Timeinter1 är negativ är slutsatsen att detta tidsintervall har en negativ påverkan på slutpriset sett till benchmarken. Man kan vid jämförelse av kovariaten emellan inte dra någon slutsats om skillnaderna internt. Tabell 12: Konf. intervall tiden lower upper TimeInter TimeInter TimeInter Resultatet från körningen av regressionen visas nedan. Vad man kan se är att p-värdena för TimeInter1 och TimeInter2 är nära 0 medan effektstorleken för de båda är väldigt låg. Medan TimeInter3 har en ett relativt högt p-värde Tabell 13: Påverkan tiden Std.Error Eta.sq p.value TimeInter TimeInter TimeInter Påverkan från kategorierna Nedan visas resultaten för kategorierna från regressionen. Benchamerken för regressionen är catdownloadsites och catlinkshortener. Vid undersökning av konfidensintervallen ser man att det inte finns några kategorier som har positivt utslag mot benchmarken. Alla kategorier har ett negativt utslag på priset jämfört med benchmarken. Dock kan man undersöka konfidensintervallen för kovariaten i tabell 14. Vad man ser är exempelvis att kategorin catappsandextensions ger ett positivt utslag på priset jämfört med kategorin catimagehosting, detta eftersom det övre konfidensintervallet för catimagehosting är lägre än det lägre konfidensintervallet för kategorin catappsandextensions. Undersöker man resultaten än mer noga ser man att kategorin som ger sämst utslag på priset är kategorin cattvandmoviessportfilehostingsportstreaming. 33

39 Tabell 14: Konf. intervall kategorier lower upper catappsandextensions catdownloadsites,adultcontent catdownloadsites,tvandmovies catexchangetier catfilehosting catimagehosting catimagehosting,adultcontent catother catsportstreaming catsport,sportstreaming cattvandmovies cattvandmovies,filehosting cattvandmovies,sport cattvandmovies,sport,filehosting,sportstreaming cattvandmovies,sport,sportstreaming Kopplat till konfidensintervallet för kategorierna återfinns nedanstående tabell från regressionen. Vad man ser är att vissa kategorier har ett lågt η 2 -värde samt ett lågt p värde. Låga p värden är väntat eftersom AIC har reducerat modellen och tagit bort kovariaten som inte ska vara med. Studerar man η 2 från tabell 15 ser man att värdena för vissa kovariat är höga. Framförallt catexchangetier2, catfilehosting och cattvandmovies. Tabell 15: Påverkan kategorier Std.Error η 2 p.value catappsandextensions catdownloadsites,tvandmovies catexchangetier catfilehosting catimagehosting catimagehosting,adultcontent catother catsportstreaming catsport,sportstreaming cattvandmovies cattvandmovies,filehosting cattvandmovies,sport cattvandmovies,sport,filehosting,sportstreaming cattvandmovies,sport,sportstreaming

40 6 Diskussion I resultatavsnittet kan man tydligt se att kovariaten påverkar det slutliga priset på olika sätt. I det här avsnittet diskuteras kovariaten var för sig och som jämförelser mellan varandra. Även modelluppställningen och tillvägagångssättet kommenteras samt förslag till alternativa tillvägagångssätt. 6.1 Kovariat De kovariat som används i regressionsmodellen presenteras och kommenteras nedan Viewers Viewers har som förväntat den största påverkan på slutpriset av annonserna. Problemet för WigetMedia är svårigheter i att påverka hur många Viewers de får då antalet främst är beroende av trafiken hos sidan de mäklar till. Däremot bör man inse vikten av att köpa rättigheter att mäkla till sidor som har en hög trafik för att kunna generera största möjliga intäkter. Dessutom blir det än viktigare att mäkla rätt annonser till rätt sida för att kunna ta ut högsta möjliga pris Plattform Större delen av de observerade datapunkterna utgjordes av annonser som såldes via dator. I datan framgick det inte om det var en stationär eller bärbar dator som annonsen såldes på. Det är möjligt att det kan finnas en skillnad i pris på annonser som säljs via en stationär dator och en bärbar dator, men det är inget som den här rapporten kan besvara sett till urvalet av data. Vid jämförelse av annonsering på plattformarna mobiltelefoner och datorer, identifierades en tydlig skillnad. Mobilmarknaden har i genomsnitt ett högre pris på annonser än de som annonseras på datorer. Detta beror främst på att priset på annonserna inom datormarknaden skiljer sig stort mellan vilken typ av operativsystem som används, medan den mobila marknaden har en homogen prissättning mellan operativsystemen. Vilken plattform som annonsörerna väljer att annonsera på är avgörande för slutpriset, däremot finns det fler bakomliggande orsaker kopplade till detta kovariat som har en större betydelse för slutpriset Operativsystem (OS) Operativsystemen har en stor påverkan på slutpriset, där det är en stor spridning mellan de positiva och negativa påslagen enligt tabell 10. Det främsta operativsystemet är OSWindows7, detta känns troligt eftersom det är det klart vanligaste. Därför blir det lättare att ta fram en standardiserad modell anpassad efter dessa operativsystem tillskillnad från övriga. Man bör även ta hänsyn till operativsystemens interaktionseffekt med plattformar och hur man kan välja att kategorisera in de mobila plattformarna OSAndroid, OSIphone och OSIpad och få ett generellt högre pris inom hela det segmentet, medan de övriga operativsystemen förutom OSWindows7 med tillhörande datorer ger ett sämre slutpris. 35

41 Det finns en tydlig påverkan från operativsystemen men det viktiga är hur man väljer att dela upp sitt segment. Väljer man att sälja annonser på datormarknaden hamnar stor vikt på att rikta sig till det specifika operativsystemet OSWindows7, medan vid inriktning mot mobilmarknaden har operativsystemet inte lika stor betydelse och marknaden i stort blir mer intressant Kategori De flesta datapunkterna tillhörde endast en kategori. De datapunkter som innehöll fler än en kategori döptes till det fulla namnet av samtliga kategorier som kopplades till datapunkten. Eftersom det ur datan inte gick att avgöra vilken kategori av alla som listades till datapunkten valdes det nämnda tillvägagångssättet. Valet av kategori att annonsera inom kan ha stor påverkan på priset då flertalet av kategorierna ger stort utslag, de flesta även ett negativt utslag på priset sett till benchmarken som används i regressionen. Man måste även ha i åtanke att antalet dummy-variabler inom detta område blev väldigt många. Mängden kovariat sprider ut den totala påverkan på varje individuellt kovariat. Därför har detta område en mycket större effekt på slutpriset än vad varje enskilt kovariat ger upphov till. Det är snarare det aggregerade påverkningsgraden från alla kovariat tillsammans som ger en fingervisning av kovariatets påverkan på slutpriset. Därför anses kategorierna ha den näst största påverkan på slutpriset. För att kunna uppnå bättre resultat för kategorierna krävs en mer precis indelning av kategorierna för att minska antalet kovariat för att i sin tur kunna dra bättre slutsatser Land Ser man till länder finns det ett antal länder som är intressanta att diskutera. Wiget Media trodde på förhand att den marknaden som påverkar priset mest i positiv bemärkelse skulle vara Sverige. I tabell 6, där benchmarken är Sverige, Österrike och Tyskland ser man tydligt att detta stämmer överlag och ger ett positivt utslag på priset. Spanien har den störst påverkningsgrad och mest negativ jämfört med de övriga länderna. Detta gör att länder har en stor påverkan och är en viktigt faktor för slutpriset Tid Tidens påverkan på priset var förvånansvärt låg mot vad som förutspåddes. Detta kan bero på att kovariatet V iewers hade en stor påverkan samt att tiden och V iewers är relativt korrelerade (se avsnitt 8.10, figur 10). Därför blir påverkan från tiden mindre än vad den förväntas. Man kan diskutera relevansen av att tiden finns med i modellen men i och med att testerna visar att den bör behållas har den inte tagits bort. Tidsintervallen i modellen visar alla ett negativt utslag i förhållande till TimeInter3 och TimeInter4 vilka anger tiden mellan 11:00-17:00 respektive 17:00-24:00. Eftersom andelen V iewers är störst inom detta intervall kan detta ligga till grund till att den får störst positiv påverkan på slutpriset. TimeInter1 har den största negativa påverkan och intervallet befinner sig i området där andelen V iewers är lägst. 36

42 7 Slutsats Slutsatsen som kan dras givet datan som erhölls är att olika kovariat har olika stor påverkan på slutpriset. Med en förklaringsgrad om 76% anses resultaten från regressionen vara tillräckligt goda för att agera som underlag för att kunna dra slutsatser av resultaten. Genom att jämföra de olika kovariaten kan man dra slutsatsen att V iewers har den överlägset största förklaringsgraden samt påverkan på slutpriset. Däremot är denna faktor inget företaget direkt kan påverka och därmed irrelevant att undersöka mer utförligt. Det kovariat som har näst störst påverkan på priset är kategorierna, där olika kategorier påverkar slutpriset olika mycket. Det kan därför vara av stor vikt för Wiget Media att analysera den här informationen för framtida försäljningar och uppköp av rättigheter att mäkla trafik. Från resultatet av regressionen kan man säga att Sverige är ett av de undersökta länderna som påverkar priset mest i positiv bemärkelse, vilket var Wiget Medias hypotes. Resultatet visar på att de lönsammaste länderna att annonsera i är Tyskland, Österrike och Sverige samtidigt som Spanien har en stor negativ påverkan på slutpriset. Denna slutsats dras då dessa länder ger de största utslagen på priset samt att länderna har förhållandevis stor påverkningsgrad jämfört med de andra länderna. Den här informationen kan komma väl tillhands för Wiget Media när det gäller expansion på marknader. Att annonsera via mobila enheter kontra dator ger även det ett positivt utslag på slutpriset. Det innebär att det är mer gynnsamt att annonsera inom det segmentet. Noterbart är dock att inom segmentet för datorer är Windows 7 lönsammare än övriga kombinationer av operativsystem och plattform. Det vill säga att det mest lönsamma för Wiget Media är att annonsera på operativsystem med Windows 7, men om man bara skulle rikta sig till den marknaden blir kundsegmentet väl skralt, vilket gör att man bör annonserar på andra operativsystem då dessa fortfarande är lönsamma för företaget. Det kovariat som har minst utslag på slutpriset är tiden, vilket innebär att det teoretiskt sett inte spelar någon roll när på dygnet man annonserar. Däremot är trafiken som mäklas under dygnet varierande och kvalitén på V iewers varierar. Priset per annons ger därför inte så stort utslag men kombinerar man antalet V iewers med priset på annonserna blir omsättningen mycket högre under kvällstid vilket i praktiken innebär att tiden spelar stor roll. 37

43 8 Prissättningsstrategi för mäklare på internet 8.1 Introduktion Annonsering på internet började redan 1994 när internetmagasinet HotWire sålde en banner ad till företaget [11]. Sedan starten upplevde annonsmarknaden på internet en stagnation i tillväxten fram till och med IT-bubblan Efter att IT-bubblan sparck tog marknaden fart och en ny generation IT-bolag växte fram. Denna nya generation även kallad Web 2.0 hade en ny affärsmodell och nytt syfte att tjäna pengar på, genom att köpa och sälja annonsutrymme på internet, några av dessa bolag var Google, Advertising.com och ValueClick.com[12]. Många hemsidor och företag utnyttjar denna annonsverksamhet för att finansiera sin egen. Genom att erbjuda innehåll på sin hemsida skapar de trafik till den, trafiken genererar i sin tur intäkter genom att annonser visas på hemsidan. Tack vare att tillgången till internet ökat med fler uppkopplade enheter som mobiltelefoner, smart-tv och surfplattor har även exponeringen mot annonsmarknaden på internet ökat. Den ökade exponeringen mot marknaden har resulterat i en mångdubbelt tillväxt sedan starten, bara de senaste åren har den globala annonsmarknaden dubblerats från att omsätta 104 miljarder dollar 2012 till 197 miljarder 2016[14]. Den stora ökningen av kapital på annonsmarknaden har gjort att resurser omfördelats från andra kanaler, där ett tydligt exempel på denna omfördelning återfinns i tidnings- och TV-branschen. TV-branschen har kraftigt minskat sina intäkter från reklam och kompletterat verksamheten med streaming på internet medan tidningsbranschens intäkter har allokerats från den fysiska tidningen till annonsintäkter på internettidningen, vilket har ändrat hela branschernas intäktsmodell och verksamhet [29]. Denna revolution inom branscherna skulle enligt nationalekonomen Schumpeter defineras som gale of creative destruction [15] Typer av annonsering Marknaden fungerar genom försäljning av annonsutrymme. Annonserna utformas på olika sätt beroende på annonsörens preferenser och vilken produkt de betalat för. Inom industrin för annonsering på internet delas annons-typerna upp i fyra olika kategorier, vilka är följande: 1. Search advertising, som uppkommer vid sökningar på sidor. 2. Display advertising, som påminner om vanliga tidningsannonser. Förkommer ofta på internetbaserade tidningar. 3. Classif ied listings, som påminner om radannonser. 4. Internet e mail, som är annonser via Avgränsning Som nämnt ovan kan annonser säljas på olika sätt och marknaderna ser annorlunda ut. Därför avgränsas prissättningsmodellen till att behandla display advertising, vilket är den typ av annonser Wiget Media använder. 38

44 8.3 Mäklare på internet För att marknaden mellan annonsörer och annonsplatser ska fungera krävs en mäklare som kan mäkla trafiken dem emellan. Mäklarens uppgift är att medla trafiken på bästa sätt. Detta innebär att annonserna visas för rätt individer för att öka sannolikheten att annonsen är relevant och därigenom öka sannolikheten för ett köp. 8.4 Generell intäktsmodell Företagen som agerar mäklare på marknaden behöver generera pengar för att överleva. Hur företagen väljer att göra detta skiljer sig något men i detta avsnitt kommer övergripande och generella metoder att täckas. Mäklarna tar betalt av annonsörer efter hur många impressions annonsen får. Med impresison menar man hur många gånger annonsen blivit hämtad. Med andra ord hur många gånger annonsen har blivit begärd från en server till en användares dator. Impressions räknar därmed inte antalet klick annonsen får. För att säkerställa att antalet impressions inte manipuleras av robotar och annan bedrägeriverksamhet har en internationell övervakare kallad Internet Architechture Board satt upp ett ramverk för beräkningen av de.[18]. Den interna enheten betalningen sker i kallas cost per mille (CPM). Enheten definieras som kostnad per tusende impression. Mäklarna tillhandahåller inte annonsutrymmet själva utan behöver köpa in annonsplatser. Avtalen skiljer sig bitvis men mäklarna betalar en fast avgift för att mäkla trafiken till hemsidan. De tar sedan betalt av annonsörerna i CPM, intäkterna från annonsörerna kan antingen mäklaren helt behålla själv eller dela med hemsidan för annonsplatsen[30]. Uppgiften blir sedan att hitta rätt annons till rätt plats. 8.5 Digitala annonser I avsnitt 8.1 nämns en av de vanligaste metoderna för att välja rätt annons till rätt annonsplats. Där man utgår ifrån sökord hos användaren för att anpassa annonsen. I denna metod antar man att personen i fråga är intresserad av det denne söker på. Detta används främst av bolag med stora sökmotorer som Google och Yahoo! [12]. 39

45 Figur 8: Digitala annonser En annan metod mäklare använder sig av är att man låter annonsörerna själva bestämma vilka användare som ska se deras annonser. Där annonsörerna anger parametrar som hemsida, enhet (mobil, stationär dator), operativsystem med mera. Mäklarna använder sedan deras interna system för att avgöra vilken annons som visas. När en begäran om att en annons ska visas listas annonsörer i det interna systemet efter hur väl deras preferenser överensstämmer med användaren[30]. När de rätta annonsörerna listats väljer mäklaren annonsören som är beredd att betala. 8.6 Marknadsekonomi En av grundförutsättningarna för prissättning är att marknaden för annonsering är någorlunda fri. Det betyder att prissättningen på annonser följer de förutsättningar som råder i en marknadsekonomi [31]. I en marknadsekonomi avgörs priset på en produkt, i det här fallet en annons, av utbud och efterfrågan. I en öppen marknad interagerar köpare och säljare där ett pris sätts på den nivå där köpare och säljare möts [31]. Eftersom marknaden för annonsering mer eller mindre är datoriserad finns det anledning att anta att marknaden är relativt effektiv. Det skulle innebära att en godtycklig annons vid en godtycklig tidpunkt reflekterar det högsta pris som en annonsör kan tänka sig att betala. Detta förutsätter att det inte råder någon form av ineffektivitet i marknaden, som till exempel att vissa annonsörer kan förhandla med icke-prisbaserade medel. Om exempelvis en annonsör kan erbjuda sig att köpa flera annonser samtidigt mot en rabatt skulle det betyda att det finns ineffektivitet i systemet eftersom att varje annonstillfälle inte kommer att vara korrekt prissatt. Det är därför viktigt att prissättningsmodellen om möjligt inte tar hänsyn till liknande förhandlingsmedel. För att marknaden för annonser ska kunna anses vara effektiv måste varje annons reflektera det högsta pris som erbjuds. Säljaren kommer av naturliga skäl att prioritera sin egen fortsatta verksamhet 40

46 och värdera den till ett premium, detta är hänförligt till prospect theory som hävdar att säkerhet värderas högre än vad det borde göra [32]. För säljaren betyder det att affärer som beskrevs ovan, där en större mängd försäljning utlovas mot en mängdrabatt är mer attraktiv eftersom att företag generellt inte sysslar med optimering, utan strävar efter att överleva. För kunden råder den motsatta situationen. Kunden vet förmodligen att denne kommer att vara intresserad av att annonsera även nästa månad. Finns möjligheten att i förväg veta vad det kommer att kosta, eller kanske rent av boka in det redan nu till rabatt, kommer kunden att föredra det säkra avtalet. Eftersom både kund och säljare inte är intresserade av en effektiv prissättning finns det all anledning att tro at marknaden på kort sikt inte är effektiv. Däremot på lång sikt och aggregerad nivå kan den antas vara effektiv. Detta eftersom att över tid kommer de enskilda ineffektiviteterna att ta ut varandra eftersom man kan anta att kunderna och säljarna kommer att ha ungefär lika stor förhandlingskraft. 8.7 Prissättningsteori För att utforma prissättningsstrategier för mäklare på internet krävs en genomgång av grundläggande men också mer utvecklade prissättningsstrategier över lag. Dels för att förstå de system som används, men också för att få en övergripande bild av vilka olika modeller som idag existerar för prissättning av tjänster och produkter. Som producent eller säljare gäller det att anpassa utbudet mot efterfrågan, samtidigt som man maximerar sin egen vinst[31]. För att göra detta är det viktigt att veta hur den egna organisationen är uppbyggd, vilken typ av marknad man agerar på samt vilka kunderna är. För att uppnå de egna målen är prissättningen en vital del. Prissättning kan göras på många olika sätt och det finns ingen riktig mall att följa. Därför är det viktigt för företagen att utvärdera både den egna organisationen, men också marknaden där man agerar för att kunna utforma en prissättningsstrategi. Nedan följer tre utgångspunkter som kan vara av stor nytta vid utformning av en prissättningsmodell för företag som agerar på internet. Frågorna man bör ställa sig och utgå från är följande [19]: Vilka faktorer kan organisationer ta betalt för? Hur kan man upptäcka dessa faktorer vid olika typer av service? Hur mycket kan man ta betalt? För organisationen gäller det att utvärdera de egna kostnaderna och därefter sätta ett pris. De fasta kostnaderna beskrivs av service som krävs inom den egna organisationen (underhåll av system, utrustning, personalkostnader), utvecklingskostnader, marginalkostnader för att skicka och spara data samt marginalkostnaden för fler användare [21]. Genom att undersöka vilken servicetyp som företaget erbjuder är det tänkt att man ska kunna definiera problemen mellan servicetyp och prissättningsmodell. Man kan då identifiera hållbara prissättningsstrategier som tar den tekniska komplexiteten av service i beaktning. Inom detta område klassificeras två kategorier, best-effort och QoS (Quality of Service) [19]. 41

47 Det sista steget är att definiera ett resonabelt pris utifrån fasta kostnader samt den service man erbjuder kunden. I de allra flesta fall bestäms dock priset av utbud och efterfrågan, men också av konkurrens (prispress) från liknande företag. Därför är det viktigt att allokera resurserna inom företaget på ett optimalt sätt för att kunna möta konkurrens [19]. 8.8 Grundläggande prissättningsmodeller Platt prissättning Platt prissättning var en av de första prissättningsmodellerna som uppkom på internet [19]. Platt prissättning betyder att man tar ut ett pris eller en avgift C från kunden, där exempelvis storleken på C bestäms av tiden. Kunder med samma mängd tidsanvändning betalar då lika mycket. Intuitivt kan man tänka sig att platt prissättning är en enkel modell sett ur ett prissättningsperspektiv, samt att den är enkel att implementera då den inte är beroende av komplexa system. Vidare stimulerar den här prissättninsstrategin nätanvändandet då mängden data en användare använder inte prissätts, utan tiden som kunden använder företagens tjänster. Dock medför den ökade trafiken för företagen att optimal resursallokering inte kan uppnås, vilket illustreras i bilden nedan. Figur 9: Plattprissättning I figur 9 visas priset för användaren, p, på y-axeln och användning på x- axeln. Efterfrågekurvan ges av D(p), c står för kostnaden per tidsenhet per användare. Från figur 8 kan man utläsa att användare inte har några incitament att minska användningen. En nackdel för företagen som sker vid platt prissättning är att förändringen i efterfrågan skiftas från D(c) till D(0) då marginalkostnaden för konsumenten är 0 [19]. I och med detta blir utebliven inkomst för företagen, c 0 (D(c) D(0))dp, vilket motsvaras av den skuggade arean i figur 9. Med hjälp av ovanstående kan man diskutera för att platt prissättning inte är en prissättningsmodell som företag avser att använda då den inte är op- 42

48 timal. Dock kan platt prissättning vara en referenspunkt eller en del av en prissättningsstrategi för företag som vill garantera intäkter som täcker de fasta kostnaderna Prissättning efter användning Att prissätta efter konsumenters användning är ett annat tillvägagångssätt att prissätta tjänster. I det här fallet bestäms kundens slutliga pris av konsumerad data och priset på denna, som beskrivs enligt följande: P = p * v, där p beskriver priset per enhet använd resurs och v för volymen Prissättning efter belastning För att undvika att få för hög belastning under vissa tidpunkter kan man prissätta efter antalet användare, vilket innebär att ju större efterfrågan är på att komma åt en tjänst, desto högre pris måste konsumenten betala för att använda tjänsten vid det tillfället (en sorts dynamisk prissättning). Det kräver mer komplexa system med uppdatering i realtid för att korrigera pris efter efterfrågan. Av de grundläggande modellerna är prissättning efter belastning på systemet det mest allokeringseffektiva alternativet av de tre ovan nämnda modellerna. Men bara för att man hittat den mest allokeringseffektiva alternativet betyder det inte att man utesluter andra alternativ, exempelvis kan det finnas situationer där en kombination eller tvärfunktionell prissättning är att föredra [19]. 8.9 Dynamisk prissättning Dynamisk prissättning är ingen ny prissättningsstrategi men har blivit allt vanligare i och med framväxten av internet. I denna rapport definieras strategin som variation i pris efter faktorer som tid, efterfrågan, konsumenter och produkter. Internet har underlättat insamlande av information hos konsumenter och därmed ökat möjligheter att förutspå efterfrågan, utbud och beteende[27]. Detta har gjort att företag som agerar på dessa marknader kan anpassa priset mer effektivt och maximera vinsten. Strategin förekommer ofta bland aktörer som säljer tjänster som resor, hotellboende och distribution av varor men även bland försäljning av varor som elektronik och bilar. En i raden av nya aktörer med denna strategi är exempelvis Über [17]. Über är en samåknings service som fungerar likt en taxitjänst. Företagets prissättning innebär att de anpassar priset efter efterfrågan och utbud. När efterfrågan på tjänsten är stor ökar priset. Priset ökar med en multipel efter hur stor efterfrågan är likt belastnings prissättning. Tanken är att prissättningen ska motverka en hög efterfrågan samt uppmuntra fler förare att köra och därmed öka utbudet. Detta för att uppnå Übers mål som företag; tjänsten ska alltid vara tillgänglig oavsett tid på dygn eller dag[28]. Denna strategi är en av flera olika strategier inom dynamisk prissättning. I avsnittet 8.9 presenteras olika typer av dynamiska prissättningsstrategier på olika marknader. Strategierna kan delas upp i olika segment där antingen företaget eller kunder avgör priset[20]. 43

49 8.9.1 Annonserad prissättning Modellen bygger på att priset sätts efter kunder, främst med avseende på deras beteende på marknaden. Detta innebär att företagen sänker eller höjer priset beroende på hur frekvent produkter eftersöks. Priset anpassas även efter konkurrenter och företagen uppdaterar sina priser mot konkurrenters på en daglig basis [20]. Modellen har blivit viktig eftersom tillgängligheten till företagens priser har ökat med olika jämförelsesajter som prisjakt.nu och pricerunner.com. Prissättningsstrategin förekommer främst inom elektronik-branschen där produkter är homogena och lätta att jämföra Auktionsbaserad prissättning En auktionsbaserad prissättningsmodell innebär att kunder lägger bud på varor som säljs. Modellen fungerar som en vanlig auktionsmarknad där det högsta budet blir priset på varan. Värderingen av varan sker i olika takt beroende på marknad där vanligt förekommande marknader är auktionsförsäljning av konst med en långsam värderingstakt eller börsmarknaden där varor värderas varje minut (när börsen är öppen). Modellen är effektiv och underlättar prissättning för företag eftersom marknaden gör det automatiskt åt dem. Nackdelen är att man inte kan styra över slutvärdering utan förlustaffärer kan ske om man inte sätter ett utropspris Kvantitet prissättning Kvantitetsmodellen utgår ifrån ett pris per enhet men slutpriset per enhet avgörs efter hur stor kvantitet som efterfrågas och köps. Detta motiverar kunder att köpa större kvantiteter och gör att företag med denna modell kan minska sin ATP (Average Total Cost). Detta är framförallt fördelaktigt för företag med en låg marginalkostnad för varan och kostnaden inte avgörs av volym Utbud och efterfrågan på marknaden under ett dygn Genom att undersöka utbudet och efterfrågan kan man identifiera faktorer som är viktiga att ta hänsyn till vid prissättning. I figur 10 illustreras antalet impressions under ett helt dygn från företaget Wiget Media. I denna marknad blir impressions efterfrågan på att se en annons. Man kan tydligt konstatera att antalet tittare varierar kraftigt med tiden med en topp mellan kl Det finns flera alternativ för att hantera en varierande efterfrågan. Detta tas upp i avsnitt

50 Figur 10: Plot på efterfrågan Vid undersökning av mäklarnas utbud måste man göra två antaganden. För det första är utbudet annonsplatser och inte annonsörer som vill marknadsföra sig där. Man kan anta att det finns tillräckligt många annonsörer för att fylla alla annonsplatser samtidigt vid en given tidpunkt. För det andra antas utbudet av annonsplatser vara konstant över ett dygn. Det vill säga att mäklarna inte har några möjligheter att snabbt minska eller öka utbudet under en dag. Detta är ett rimligt antagande eftersom mäklarna alltid ställer sina annonsplatser till förfogande samt att köpa in en stor mängd nya annonsplatser på en dag inte är rimligt. Dessutom finns det ingen anledning för mäklarna att säga upp annonsplatser för att anpassa en variation i efterfrågan under en dag. Med dessa antaganden i ryggen kan man närmare utreda utseendet på utbudskurvan. Det troligaste är att utbudet är konstant under en period av ett dygn och därför blir det svårt för mäklarna att påverka priset eller efterfrågan genom förändringar i utbud Möjliga metoder för att möta ändringar i efterfrågan Eftersom efterfrågan på företagets annonser fluktuerar över tid är en prissättningsmodell som kan hantera detta av yttersta vikt. En dynamisk prissättningsmodell är modeller anpassade efter skiftningar i antingen utbud eller efterfrågan, därför blir det naturligt att applicera någon av modellerna inom det avsnittet på mäklarnas prissättningsstrategi. I detta avsnitt kommer marknader med liknande förutsättningar på efterfrågan att presenteras. 45

51 Surge-prissättning (Übers prissättningsmodell) Genom en surge-prissättningsmodell, som är en typ av annonserad prissättningsmodell, har Über på ett framgångsrikt sätt lyckats möta den ökande efterfrågan på taxibilar som uppstår vid vissa tidpunkter på dygnet. Då efterfrågan fluktuerar mycket samtidigt som utbudet av förare varierar krävs en prissättningsmodell som är anpassad till detta. Det har Über löst genom att öka priset för kunden när det är hög efterfrågan inom ett specifikt geografiskt område, vilket resulterar i att fler förare dras till området [26]. Resultatet av detta blir att kunden kan ta del av Übers service då utbudet av bilar kan möta efterfrågan, samtidigt som det blir en effektiv allokering för förarna då endast de som tycker att priset är rätt väljer att erbjuda kunden service i form av transport [25]. En ökning av priset innebär dock att en del kunder väljer alternativa transportmedel eller väntar till att priset återgår till det normala. Därför ökar inte antalet körningar lika mycket dem potentiellt sett skulle kunna göra sett till efterfrågan som finns. Skillnaden mellan dessa illustreras i figur 11, där den blåa linjen är antalet körningar och den röda linjen är antalet personer som öppnar Übers app och är potentiella kunder [25]. Figur 11: Uber prissättning Att applicera en prissättningsmodell som liknar ovanstående surge-modell skulle för mäklare på internet kunna vara ett tillvägagångssätt att hantera efterfrågan, men också för att få ut mer från annonsörerna. Det innebär att mäklarna som mäklar trafiken på hemsidorna justerar priset efter hur många annonsörer som konkurrerar om samma annonsplats. Annonsörerna som vill synas på bästa tid behöver därför betala mer för att få synas, vilket vid högre priser minskar antalet annonsörer som är villiga att betala. Om en mäklare på internet skulle vilja utforma en surge-modell för prissättningen 46

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

Analys av bostadsrättspriset i Stockholms innerstad

Analys av bostadsrättspriset i Stockholms innerstad Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

Vad påverkar en kommuns totala kostnad?

Vad påverkar en kommuns totala kostnad? Vad påverkar en kommuns totala kostnad? En multipel regressionsanalys av faktorer som korrelerar med kommuners kostnader MARKUS BERG OCH MALTE KROON Stockholm 15 Kandidatexamensarbete i Teknisk Fysik Institutionen

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

En nyttomaximerande skola i det innovationsdrivna samhället

En nyttomaximerande skola i det innovationsdrivna samhället EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2016 En nyttomaximerande skola i det innovationsdrivna samhället ERIC FORNANDER SIMON PARK KTH KUNGLIGA TEKNISKA HÖGSKOLAN SKOLAN FÖR TEKNIKVETENSKAP

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression DEGREE PROJECT, IN APPLIED MATHEMATICS AND INDUSTRIAL ECONOMICS, FIRST LEVEL STOCKHOLM, SWEDEN 2015 Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression REBECCA AXELSSON,

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26 Lite som vi inte hann med när

Läs mer

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större

Läs mer

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson (examinator) VT2017 TENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2017-04-20 LÖSNINGSFÖRSLAG Första version, med reservation för tryck-

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Enkel och multipel linjär regression

Enkel och multipel linjär regression TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0

Läs mer

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Kungliga Tekniska Högskolan Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Författare:

Läs mer

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa. Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Laboration 2: Styrkefunktion samt Regression

Laboration 2: Styrkefunktion samt Regression Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

NÄR SKA MAN SÄLJA SIN BOSTAD?

NÄR SKA MAN SÄLJA SIN BOSTAD? NÄR SKA MAN SÄLJA SIN BOSTAD? En multipel regressionsanalys av bostadsrätter i Stockholm Oscar Jonsson Moa Englund Stockholm 2015 Matematik Institutionen Kungliga Tekniska Högskolan Sammanfattning Projektet

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser: 1 Uppgiftsbeskrivning Syftet med denna laboration var att utifrån uppmätt data avgöra: (i) Om något samband finnes mellan kroppstemperatur och hjärtfrekvens. (ii) Om någon signifikant skillnad i sockerhalt

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer Laboration 2 i 5B52, Grundkurs i matematisk statistik för ekonomer Namn: Elevnummer: Laborationen syftar till ett ge information och träning i Excels rutiner för statistisk slutledning, konfidensintervall,

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar

Läs mer

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 12. MER HYPOTESPRÖVNING. χ 2 -TEST Jan Grandell & Timo Koski 25.02.2016 Jan Grandell & Timo Koski Matematisk statistik 25.02.2016 1 / 46 INNEHÅLL Hypotesprövning

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

Finansiell statistik

Finansiell statistik Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs

Läs mer

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression Föreläsning 15, FMSF45 Multipel linjär regression Stas Volkov 2017-11-28 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 1/23 Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n

Läs mer

Bilaga 6 till rapport 1 (5)

Bilaga 6 till rapport 1 (5) till rapport 1 (5) Bilddiagnostik vid misstänkt prostatacancer, rapport UTV2012/49 (2014). Värdet av att undvika en prostatabiopsitagning beskrivning av studien SBU har i samarbete med Centrum för utvärdering

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression Anna Lindgren 28+29 november, 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 1/22 Linjär regression

Läs mer

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Mälardalens Högskola. Formelsamling. Statistik, grundkurs Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken

Läs mer

Föreläsning 13: Multipel Regression

Föreläsning 13: Multipel Regression Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017 Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 20 mars 2015 9 14

Tentamen för kursen. Linjära statistiska modeller. 20 mars 2015 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 20 mars 2015 9 14 Examinator: Anders Björkström, bjorks@math.su.se Återlämning: Fredag 27/3 kl 12.00, Hus 5,

Läs mer

TENTAMEN I STATISTIK B,

TENTAMEN I STATISTIK B, 732G7 Tentamen. hp TENTAMEN I STATISTIK B, 24-2- Skrivtid: kl: -2 Tillåtna hjälpmedel: Ett A4-blad med egna handskrivna anteckningar samt räknedosa Jourhavande lärare: Lotta Hallberg Betygsgränser: Tentamen

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF90 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 26:E OKTOBER 206 KL 8.00 3.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Hur man tolkar statistiska resultat

Hur man tolkar statistiska resultat Hur man tolkar statistiska resultat Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Varför använder vi oss av statistiska tester?

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Uppgift a b c d e Vet inte Poäng

Uppgift a b c d e Vet inte Poäng TENTAMEN: Dataanalys och statistik för I2, TMS135 Fredagen den 12 mars kl. 8:45-11:45 på V. Jour: Jenny Andersson, ankn 8294 (mobil:070 3597858) Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på

Läs mer

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp UMEÅ UNIVERSITET Tentamen 2016-08-24 Sid 1 TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp Skrivtid: 16-22 Tillåtna hjälpmedel: Miniräknare. Formelblad och tabeller bifogas till tentamen. Studenterna

Läs mer

Paneldata och instrumentvariabler/2sls

Paneldata och instrumentvariabler/2sls Extra anteckningar om paneldata; Paneldata och instrumentvariabler/2sls Oavsett REM, FEM eller poolad OLS så görs antagandet att Corr(x,u) = 0, dvs att vi har svagt exogena regressorer. Om detta inte gäller

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 9 Statistiska metoder 1 Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel

Läs mer

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL TENTAMEN I SF950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 010 KL 14.00 19.00 Examinator : Gunnar Englund, tel. 790 7416, epost: gunnare@math.kth.se Tillåtna hjälpmedel: Formel-

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE32 Sannolikhet och statistik 219-6-5 kl. 8:3-12:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

TAMS65 - Seminarium 4 Regressionsanalys

TAMS65 - Seminarium 4 Regressionsanalys TAMS65 - Seminarium 4 Regressionsanalys Martin Singull Matematisk statistik Matematiska institutionen Problem 1 PS29 Vid ett test av bromsarna på en bil bromsades bilen upprepade gånger från en hastighet

Läs mer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer