Går det att slå spelbolagen? - En undersökning av effektiviteten på oddsmarknaden för fotboll i Italien

Relevanta dokument
Oddssättning. - utvärdering av modeller för skattning av matchodds i Svenska Superligan i innebandy

Exempel på tentamensuppgifter

Strategiskt spelande för en positiv avkastning

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Till ampad statistik (A5) Förläsning 13: Logistisk regression

3 Maximum Likelihoodestimering

För spel på Asiatiskt handikapp inom svenska Basketligan

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Föreläsning 11: Mer om jämförelser och inferens

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

SPEL PÅ ENGELSKA LEAGUE ONE - en optimerande ansats

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Kapitel 10 Hypotesprövning

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

FÖRELÄSNING 8:

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

1. Inledning Bakgrund The possession scoring system Logistisk regression...10

Statistisk analys av komplexa data

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Dekomponering av löneskillnader

Statistisk analys av komplexa data

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

F19, (Multipel linjär regression forts) och F20, Chi-två test.

SF1901 Sannolikhetsteori och statistik I

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Regressionsanalys av NHL-statistik

SVERIGEFONDERS AVKASTNING:

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Statistisk analys av komplexa data

Avd. Matematisk statistik

Föreläsning G60 Statistiska metoder

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Introduktion till statistik för statsvetare

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Hur skriver man statistikavsnittet i en ansökan?

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Metod och teori. Statistik för naturvetare Umeå universitet

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Att med multinomial logistisk regression förklara sannolikheter i fotbollsmatcher

3:e perioden - en statistisk analys av utfallet i jämna ishockeymatcher

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Matematisk statistik för D, I, Π och Fysiker

AMatematiska institutionen avd matematisk statistik

Avd. Matematisk statistik

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen Tillämpad statistik A5 (15hp)

MVE051/MSG Föreläsning 14

Föreläsning 8: Konfidensintervall

TMS136: Dataanalys och statistik Tentamen

Multipel Regressionsmodellen

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Matematisk statistik KTH. Formelsamling i matematisk statistik

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

GMM och Estimationsfunktioner

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Statistik 1 för biologer, logopeder och psykologer

Lycka till!

Statistiska metoder för säkerhetsanalys

Statistik 1 för biologer, logopeder och psykologer

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Tentamen Tillämpad statistik A5 (15hp)

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Avd. Matematisk statistik

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

F23 forts Logistisk regression + Envägs-ANOVA

Matematisk statistik för B, K, N, BME och Kemister

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Avd. Matematisk statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Lektionsanteckningar 11-12: Normalfördelningen

Spelmarknaden Ett test av effektiviteten på den svenska spelmarknaden

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 15, FMSF45 Multipel linjär regression

Transkript:

Går det att slå spelbolagen? - En undersökning av effektiviteten på oddsmarknaden för fotboll i Italien Petter Ehn Wingårdh Kandidatuppsats i statistik (15 HP) Handledare: Jonas Wallin HT 2016

Abstract The efficiency of the fixed odds market for football in Italy is investigated. The purpose is to find out whether bookmakers take publicly available information into account in an effective way when predicting probabilities for match outcomes. Regression based tests fail to refute weak and semi strong efficiency. An economic test confirms the result. Sammanfattning Effektiviteten på oddsmarknaden för fotboll i Italien undersöks. Frågeställningen är huruvida spelbolag tar hänsyn till allmänt tillgänglig information på ett effektivt sätt när de bedömer sannolikheter för matchutfall. Regressionsbaserade tester kan inte motbevisa svag och semistark effektivitet. Ett ekonomiskt test bekräftar resultatet. 2

1. Inledning På en effektiv marknad reflekterar priserna fullständigt all allmänt tillgänglig information. Marknaden för spel på idrottsevenemang ger goda förutsättningar för undersökningar av hypotesen om effektiva marknader, baserat på dess låga transaktionskostnader och att ny information snabbt görs allmänt tillgänglig för dess aktörer. Eugene Fama introducerade 1970 begreppen svag, semistark och stark marknadseffektivitet, för att förenkla möjligheten att empiriskt testa hypotesens grad av giltighet för olika marknader. Inom ramen för undersökningar av effektiviteten i spelbolagsodds har ett av två vanliga angreppssätt oftast nyttjats. Ett ekonomiskt test går ut på att bygga modeller bestående av allmänt tillgänglig information och sedan strategiskt spela i linje med modellernas prediktioner och se om en signifikant positiv avkastning kan åstadkommas. Ett regressionsbaserat test går ut på att inkludera de implicita sannolikheter som spelbolagen ger de olika utfallen i modellen och kontrollera om de skattade koefficienterna är signifikant skilda från de parameterrestriktioner som gäller under nollhypotesen om marknadseffektivitet. För den sistnämnda metoden innebär tester av svag effektivitet att enbart spelbolagssannolikheterna inkluderas i modellen, medan tester av semistark effektivitet innebär att även andra förklarande variabler finns med. Ett vanligt resultat är att svag effektivitet inte kan förkastas men att semistark effektivitet kan förkastas (Se exempelvis Figlewski 1979, Gabriel & Marsden 1990, Zuber et al. 1985, Sauer et al. 1988, Gandar et al. 1988, Jakobsson & Karlsson 2007). Men det finns även marknader där svag effektivitet kan förkastas (se till exempel Pope & Peel 1989, Vlastakis et al. 2009, Nyberg 2014). I den här studien undersöks spelmarknaden för Serie A, den högsta divisionen i italiensk fotboll, mellan 2013 och 2016. Syftet är att ta reda på om spelbolagen sätter odds på ett sätt som är förenligt med teorierna om effektiva marknader. Både svag och semistark effektivitet undersöks, med hjälp av regressionsbaserade och ekonomiska test. Tillvägagångssättet liknar det som Jakobsson och Karlsson följde 2007, när de testade marknadseffektiviteten i fasta spelbolagsodds vid trav genom att ställa upp en binomial logistisk modell och fastställa parameterrestriktioner som undersöktes med Wald-tester. Skillnaden är att jag undersöker fotbollsmatcher och att det därmed finns 3

tre möjliga utfall i varje match: hemmavinst, oavgjort och bortavinst. Regressionsbaserade tester av effektivitet på fotbollsspelsmarknaden har tidigare utförts genom tre oberoende binomiala logistiska regressioner (se exempelvis Pope & Peel 1990, Goddard & Asimakopolous 2004 och Franck et al. 2010) men det är inte helt tydligt vilka slutsatser som kan dras om nollhypotesen förkastas för ett utfall men inte för ett annat vid sådana tester (Nyberg, 2014). En naturlig metod är att istället använda multinomial logistisk regression. Multinomial logit har tidigare använts för undersökning av fotbollsspelsmarknadens effektivitet med hjälp av ekonomiska tester av Vlastakis et al. (2009) och med hjälp av regressionbaserade tester av Nyberg (2014). Jag nyttjar metoden som introduceras av Nyberg med förlängningen att jag även testar semistark marknadseffektivitet genom att inkludera ytterligare variabler utöver de implicita spelbolagssannolikheterna, och använder sedan också den modellen (korrigerad) till prediktion för ett ekonomiskt test. Uppsatsen är uppdelad i sex sektioner. Sektion två inleds med en kort beskrivning av begreppet odds, följt av en förklaring av hur sannolikheterna som spelbolagen tilldelar olika händelser kan beräknas. I avsnitt tre presenteras multinomial logistisk regression och testerna för marknadseffektivitet. I sektion fyra presenteras data och variabler. Sektion fem består av empiriska resultat och följs av en sammanfattande diskussion i sektion sex. 2 Spelbolagens implicita sannolikhetsbedömning Inom sannolikhetsläran är definitionen av oddset för händelsen A kvoten mellan sannolikheten att A inträffar och att A inte inträffar, O(A) = P(A) P(A ). Det är inte vad som avses när spelbolag presenterar oddset för en händelse. Istället beskriver det förhållandet mellan insats och möjlig vinst. Spelbolagsoddsen ställs också upp på olika sätt i olika länder. I Storbritannien presenteras de i bråkform, där täljaren beskriver den möjliga vinsten för en given insats som finns i nämnaren. Är oddset 5/6 innebär det att en insats på 6 pund ger en möjlig vinst på 5 pund. Europeiska odds presenteras istället i decimalform och inkluderar även insatsen, samma odds är då 1,83, vilket tolkas som att den som satsar 1 krona på utfallet vinner 83 öre om det inträffar. 4

Om oddsen som spelbolagen presenterar varit ekvivalenta med odds enligt dess korrekta definition hade sannolikheten som spelbolagen uppskattat för ett utfall kunnat beräknas enligt metoden 1 O j där O j är det europeiska oddset för utfall j. Men den som prövar att addera spelbolagens sannolikheter för samtliga utfall i några matcher utifrån den beräkningen inser att den totala sannolikheten alltid blir större än 1. Spelbolagsoddsen är inte rättvisa, utan innehåller en marginal, ofta kring 5%. Korrigerade rättvisa implicita spelbolagssannolikheter beräknas enligt 1 P j,sb = 1 1, (1) O j O k k= 1 där vi låter j ta värdet 1 vid hemmavinst, 0 vid oavgjort och -1 vid bortavinst. Det är däremot inte helt okomplicerat att tolka (1) som spelbolagens faktiska skattningar av sannolikheterna. Levitt (2004) visar att spelbolag inte alltid har incitament att sätta odds som avspeglar deras skattade sannolikheter, då de genom att ta hänsyn till genomsnittliga tendenser hos spelare att göra felbedömningar kan sätta odds som avviker från skattningarna och ibland på så vis få ut större vinster. För att (1) ska gälla måste även spelvolymerna för olika spel vara ungefärligt likformigt fördelade över de olika utfallen. I den här studien används å andra sidan genomsnittliga marknadsodds, vilket bör göra eventuella avvikelser små (se diskussionen i Nyberg, 2014). För en inledande granskning av spelbolagens sannolikhetsbedömningars precision läggs matcher där de skattade sannolikheterna för utfallet hemmavinst är likartade ihop i grupper. I figur 1 presenteras sannolikhetsmedelvärdena i grupperna tillsammans med den faktiska andelen hemmavinster i gruppens matcher. I figur 2 presenteras motsvarande graf för utfallet bortavinst. En likadan graf för utfallet oavgjort ger inte särskilt mycket information då spridningen i de bedömningarna är mycket liten, och presenteras således inte. Grupper där spelbolagen överskattar sannolikheten för aktuellt utfall ligger under den 45-gradiga linjen och grupper där sannolikheten underskattas ligger ovanför linjen. Genom att titta på graferna går det inte att finna något uppenbart mönster som tyder på systematiska felbedömningar i 5

något sannolikhetsintervall. Noterbart i figur 1 är emellertid att för matcher med mycket höga nivåer på sannolikhetsbedömningen för hemmavinst är den faktiska andelen ännu högre än spelbolagen estimerar, vilket också visar sig i figur 2 där istället mycket låga nivåer på sannolikhetsbedömningen för bortavinst är förknippade med ännu lägre faktiska andelar. Figur 1. Medelvärdet av spelbolagens skattade sannolikheter enligt (1) för matcher där sannolikheten för hemmavinst är liknande tillsammans med den faktiska andelen hemmavinster för dessa matcher. Figur 2. Spelbolagens skattade sannolikheter enligt (1) för matcher där sannolikheten för bortavinst är liknande tillsammans med den faktiska andelen bortavinster för dessa matcher. I sektion 3 beskrivs metoden som används för att skatta sannolikheter för utfallen, följt av metoden som nyttjas för att testa hypotesen om effektivitet på spelmarknaden. 6

3 Modell och test av marknadseffektivitet 3.1 Modell Multinomial logistisk regression används framförallt för analys och prediktion av individers val, exempelvis av politiskt parti, med antagandet att individens val faller på det alternativ som ger denne högst nytta. Med hjälp av andra variabler, exempelvis hemort, lön och kön kan sannolikheter för de olika valmöjligheterna skattas. När det gäller analys och prediktion av fotbollsmatcher är valmöjligheterna de tre möjliga utfallen hemmavinst, oavgjort och bortavinst, och valet antas bero på faktorer som framförallt har att göra med lagens inbördes styrkeförhållanden. Låt w innehålla faktorer som kan tänkas påverka matchutfallet. Nyttan av matchresultatet j kan då beskrivas U ij = α j + w ij β j + ε ij (2) (se exempelvis Greene, 2012). Här är αj en skalär och βj en vektor. Vi låter variabeln Yi beskriva utfallet i match i. Yi tar värdet 1 vid hemmavinst, 0 vid oavgjort och -1 vid bortavinst. Anta att det utfall för varje match med störst nytta är det som inträffar. Sannolikheten att utfall j ska inträffa är då P(U ij > U ik ), för alla k j. För att estimera sannolikheterna krävs en transformation. Om feltermerna ϵij antas vara oberoende och identiskt Gumbel-fördelade ger följande länkfunktion värden med egenskaper som medför att de går att tolka som sannolikheter: P(Y i = j w ij ) = e α j+w ij β j 1 j= 1 e α j+w ij β j, för j = 1,0,1 (3) (se exempelvis Greene, 2012). Då sannolikheterna summerar till 1 behövs enbart parametervektorer för två av utfallen för att beräkna sannolikheter för samtliga tre utfall. Utfallet oavgjort får således agera referensgrupp, vilket innebär att β-1 och β1 transformeras till differensen mellan sig själva och β0, samtidigt som β0 normaliseras till en vektor med nollor. Samma sak gäller intercepten αj. 7

Modellen kan nu beskrivas med logaritmerade oddskvoter där parametrarna skattas med ML-metoden. ln ( P j,i ) = α P j + w ij β j, för j = 1,1, (5) 0,i 3.2 Regressionsbaserat marknadseffektivitetstest För att ta reda på om spelbolagens genomsnittliga implicita sannolikheter innehåller all relevant information som finns allmänt tillgänglig, och således uppfyller kraven för marknadseffektivitet låter vi P m = P 1m, P 0m, P 1m, (6) P sb = P 1sb, P 0sb, P 1sb, (7) där Pm är en vektor som består av sannolikheterna för de olika utfallen enligt den skattade modellen och Psb innehåller spelbolagens genomsnittliga implicita rättvisa sannolikheter för utfallen (1). Under hypotesen om marknadseffektivitet finns all relevant information inkluderad i Psb. Om marknadseffektivitet håller bör de genomsnittliga spelbolagssannolikheterna således vara väntevärdesriktiga prediktorer av matchutfallen, vilket ger följande hypotes att pröva: H0: P m = P sb, (8) Naturligt för testet av svag marknadseffektivitet blir således att definiera den oberoende variabeln för utfall j i match i till w ij = ln ( P j sb,i P 0sb,i ). (9) 8

Vilket ger följande modell: ln ( P j P 0 ) = α j + ln ( P j sb P 0sb ) β j, för j = 1,1 (10) och följande enkla parameterrestriktioner: H0: [α 1, β 1, α 1, β 1 ] = [0, 1, 0, 1] H1: [α 1, β 1, α 1, β 1 ] [0, 1, 0, 1] (11) Test av semistark marknadseffektivitet blir ekvivalent förutom att fler förklarande variabler inkluderas i w vars parametrar under nollhypotesen tar värdet noll. Hypotesen kan testas med hjälp av den skattade modellens logaritmerade likelihoodfunktion l(α, β ) och dess motsvarighet under nollhypotesen l(α H0, β H0 ). I fortsättningen skrivs l(α, β ) och l(α H0, β H0 ) förenklat istället l(θ ) och l(θ H0 ). Ett likelihood ratio-test enligt följande LR = 2 (l(θ ) l(θ H0 )) (12) är asymptotiskt χ 2 (k)-fördelat om nollhypotesen är sann (Nyberg, 2014), och för svag marknadseffektivitet således χ 2 (4)-fördelat. Den skattade modellens loglikelihoodfunktion beräknas med Newton-Raphsons numeriska metod. Likelihoodfunktionen vid H0 beräknas enligt N 1 y ij L(θ H0 ) = P jsb,i i=1 j= 1 (13) där yij antar värdet 1 när utfallet i match i är j, och 0 för övriga utfall. N är det totala antalet matcher. Därmed blir loglikelihoodfunktionen N 1 l(θ H0 ) = y ij ln(p jsb,i ). (14) i=1 j= 1 Flera tidigare artiklar beskriver att styrkan i den här typen av regressionsbaserade tester är låg om en låg grad av marknadsineffektivitet antas föreligga, det finns således en betydande risk för typ-2-fel om inte den verkliga avvikelsen från marknadseffektivitet är stor (se exempelvis Nyberg, 2014). 9

3.3 Spelstrategi och utvärdering När det gäller det ekonomiska testet, frågan om huruvida det är möjligt att få en signifikant positiv avkastning genom att använda modellens prediktioner tillsammans med en spelstrategi, följs metoden som Jakobsson & Karlsson nyttjade 2007. Slumpvariabeln V ij tar värdet av vinsten av att spela på utfall j i match i om insatsen för varje spel är 1. Låt spelbolagens genomsnittliga europeiska odds för utfall j i match i vara lika med O ij. Då blir sannolikhetsfördelningen för V ij : V ij = { O ij 1, P(Y i = j w i ) 1, 1 P(Y i = j w i ) } (15) Spelstrategin är att spela på de matcher och utfall där P m,j > 1 O j, det vill säga där modellens sannolikheter är större än spelbolagens genomsnittliga icke-korrigerade implicita sannolikheter, och den förväntade vinsten således är positiv. Spelet läggs på spelbolaget med det högsta oddset för det valda utfallet. Spelstrategin utvärderas genom en tiofaldig korsvalidering. Data delas slumpmässigt in i tio lika stora delar och modellen tränas sedan på nio delar och testas på den tionde delen. Det upprepas tio gånger så att alla delar används till test vid ett tillfälle var. Vinsten i spel b när spelstrategin nyttjas betecknas C b. Variablerna C 1 C B kan ses som oberoende och identiskt fördelade slumpvariabler som tar värdet -1 vid förlust och är större än 0 vid vinst (Jakobsson & Karlsson, 2007). Låt E(C b ) = μ och V(C b ) = σ 2. Hypoteserna är då H0: μ 0 H1: μ > 0 (16) Nollhypotesen testas med testkvantiteten Z = 1 B 1 B(C 0) B b=1 (C b C ) 2 (17) som är asymptotiskt standardnormalfördelad under nollhypotesen. 10

4 Data och variabler Data består av information om matcher i italienska Serie A säsongerna 2013 14, 2014 15, 2015 16 och fram till omgång 13 säsong 2016 17. De första tre omgångarna varje säsong bortses ifrån vilket ger 1150 observationer. Data angående spelbolagsodds hämtas från football-data.co.uk och består av odds av den europeiska typen från mellan 47 och 56 spelbolag utifrån vilka genomsnittliga odds räknas ut. Oddsen hämtas ut fredagseftermiddagar för helgmatcher och tisdageftermiddagar för veckodagsmatcher. I modellen inkorporeras spelbolagens skattade sannolikheter för de olika utfallen som logodds, enligt LO j = ln ( P j sb P 0sb ), för j = 1,0,1, (18) vilket gör att parameterrestriktionerna under nollhypoteserna i marknadseffektivitetstesterna som beskrivs i avsnitt 3 blir gynnsamma. När det gäller övriga faktorer finns det många möjliga som kan tänkas påverka. Jag väljer att använda både konventionella och icke-konventionella variabler. Ett enkelt sätt att ta hänsyn till skillnader i lagens form är att inkludera en variabel jag valt att kalla FORMDIFF, som består av differensen mellan antalet poäng lagen tagit de tre senaste matcherna. Ett mått på styrkeförhållandet mellan lagen är hur de ligger till i tabellen. Därför inkluderas även tre binära variabler vars värden baseras på hur många lag som ligger mellan hemmalaget och bortalaget i tabellen: TabD1 = ( 1, hemmalaget fler än 5 placeringar framför bortalaget ) 0, annars TabD2 = ( 1, lagen inom 5 placeringar ifrån varandra ) 0, annars 11

TabD3 = ( 1, bortalaget fler än 5 placeringar framför hemmalaget ) 0, annars De ovanbeskrivna 0-1-variablerna börjar inte gälla förrän efter tio spelade omgångar varje säsong, och tar för omgång 4 10 värdet 0 oavsett lagens placeringar i tabellen. Efter tio omgångar bör tabellen ha stabiliserat sig någorlunda och skillnader i tabellplaceringar med större sannolikhet visa på reella styrkeskillnader. Jag inkluderar också en binär variabel var för varje domare som dömt fler än 50 matcher sedan 2013/14 och fortfarande är aktiv, vilket innebär sammanlagt 14 stycken. För matcher som en sådan domare dömer tar motsvarande variabel värdet 1, i övrigt tar den värdet 0. Teoretiskt är det möjligt att en domare har en tendens att medvetet eller omedvetet påverka till fördel för något av utfallen. Bevis för en allmän domareffekt till fördel för hemmalag finns, åtminstone i England och Tyskland (Buraimo et al. 2010), men jag är inte medveten om tidigare studier där effekter av specifika domare studeras. Variabeln inkluderas inte i det regressionsbaserade testet av semistark marknadseffektivitet på grund av att eventuella domareffekter i den mån de finns antas vara ganska små och att ett inkluderande hade inneburit 28 förlorade frihetsgrader. Den används således enbart vid det ekonomiska testet. Data hämtas från Serie A:s officiella hemsida (Lega Serie A: Home Page, 2016). En annan intressant variabel bygger på artikeln Network structure and team performance: The case of English Premier League soccer teams av Thomas Grund, 2012. Kontrollerat för andra variabler som beskriver lagens kvalitet visar Grund att en hög passningsintensitet har en signifikant positiv effekt på ett lags förväntade antal gjorda mål. Därmed inkluderar jag en variabel som bygger på hur många passningar per minut av bollinnehav hemmalaget respektive bortalaget slagit inför matchen. Differensen ger variabeln DLP.B. Statistik över bollinnehav och antal passningar hämtas från webbversionen av Statszone från Fourfourtwo (2016). 12

David Sumpter skapar i sin bok Soccermatics (2016) en variabel som kan tänkas vara en bättre prediktor av antal mål i kommande matcher än det mer konventionella användandet av lagens tidigare gjorda och insläppta mål. Han delar upp området från vilka lagen skjuter sina skott i tre zoner: innanför målgården innanför straffområdet men utanför målgården utanför straffområdet Sedan beräknas den genomsnittliga mängden mål per skott från zonerna under en eller flera tidigare säsonger. För det syftet används i den här undersökningen data från Serie A säsongen 2012 13. Därefter kan andelen målgivande skott från respektive zon under referenssäsongen multipliceras med antalet skott som hemma- och bortalaget skjutit och släppt till per match från zonerna under säsongen inför varje match. Det är ett sätt att beräkna hur många mål lagen borde gjort och släppt in per match utifrån varifrån de skjuter sina skott. Variabeln inkluderas i modellen som SkottD och beräknas som differensen mellan lagens förväntade målskillnad per match. Data över skottpositioner hämtas från Fourfourtwo (2016). För testet av semistark marknadseffektivitet bestäms således vektorn av oberoende variabler för utfall j i match i till w ij = (LO ij, FORMDIFF i, DLP. B i, SkottD i, TabD1 i, TabD2 i, TabD3 i ) (19) 13

5 Resultat I det här avsnittet presenteras resultatet av marknadseffektivitetstesterna, samt MLskattningar av parametrarna. Analysen utförs i R och för estimering av multinomiala logitmodeller används paketet mlogit skapat av Yves Croissant (2013). Testet för svag marknadseffektivitet ger Likelihood-ratio-storheten 4,319951 som är asymptotiskt χ 2 (4)-fördelad under nollhypotesen, vilket ger p-värdet: 0,364. Motsvarande storhet för det semistarka testet är 22,51995 och asymptotiskt χ 2 (16)- fördelad, vilket leder till p-värdet 0,127. Med hjälp av de regressionsbaserade testen är det således inte möjligt att förkasta hypotesen att spelbolagen på ett effektivt sätt tar hänsyn till allmänt tillgänglig information när de väljer sina odds. Varken svag eller semistark effektivitet kan avfärdas. I tabell 1 presenteras parameterskattningarna för modellen som används vid testet av semistark effektivitet. 95-procentiga konfidensintervall för spelbolagens logodds täcker värdet 1 för båda utfallen, vilket bekräftar resultatet i LR-testet. Tolkning av koefficienterna kräver viss försiktighet. De är relativa och ska tolkas i förhållande till referenskategorin oavgjort. Som exempel får man förändringen i sannolikhetskvoten för hemmavinst och oavgjort P 1 P 0 i matcher där hemmalaget ligger fler än fem placeringar framför bortalaget efter tio spelade omgångar jämfört med matcher under de första tio omgångarna genom att upphöja talet e med koefficienten för TabD11, allt annat lika. Ytterligare ett exempel är att koefficienten för FORMDIFF1 tolkas som att sannolikhetskvoten för hemmavinst och oavgjort P 1 P 0, vid en enhetsökning av skillnaden i antalet poäng lagen tagit de tre senaste matcherna, minskar med 0,023%. Det kan tyckas vara ett märkligt resultat men kan inte tolkas separerat från övriga variablers effekter, till exempel spelbolagens bedömning av formens effekt. Variabeln är dessutom inte signifikant. Signifikanta variabler kan ses som variabler vars påverkan på matchutfallet spelbolagen enligt modellen systematiskt felbedömer. I linje med resultatet av LR-testet är merparten av parametrarna inte statistiskt säkerställt skilda från noll när hänsyn tas till spelbolagssannolikheterna. Den enda signifikanta koefficienten är TabD31, spelbolagen tycks felbedöma förhållandet mellan sannolikheterna för hemmavinst och oavgjort vid fall då bortalaget ligger fler än fem placeringar framför hemmalaget. Intressant är att spelbolagen verkar ta hänsyn 14

till de mer okonventionella variablerna som baseras på lagens skottpositioner och passningsfrekvenser, i den mån de har någon effekt. Tabell 1. Parameterskattningar för modell som används vid test av semistark marknadseffektivitet. Två skattningar av var och en av de förklarande variablerna görs, eftersom två modeller skattas, hemmavinst relativt till oavgjort och bortavinst relativt till oavgjort. Variabel Koefficient P-värde Intercept 1-0,038 0,865 Intercept 1-0,228 0,242 LO 1 1,446 0,000 LO 1 0,557 0,129 FORMDIFF 1-0,023 0,404 FORMDIFF 1-0,054 0,076 DLP.B 1 0,058 0,541 DLP.B 1 0,067 0,522 SkottD 1-0,075 0,665 SkottD 1-0,317 0,093 TabD1 1 0,011 0,966 TabD1 1 0,301 0,239 TabD2 1-0,218 0,288 TabD2 1 0,201 0,388 TabD3 1-0,666 0,009 TabD3 1-0,335 0,301 Tabell 2. Parameterskattningar för reducerad modell som används vid det ekonomiska testet. Två skattningar av var och en av de förklarande variablerna görs, eftersom två modeller skattas, hemmavinst relativt till oavgjort och bortavinst relativt till oavgjort. Variabel Koefficient P-värde Intercept 1-0,200 0,082 Intercept 1-0,001 0,989 LO 1 1,417 0,000 LO 1 1,025 0,000 TabD3 1-0,568 0,008 TabD3 1-0,554 0,043 PaoloSilvioMazzoleni 1 0,843 0,040 PaoloSilvioMazzoleni 1 0,603 0,150 NicolaRizzoli 1 0,114 0,735 NicolaRizzoli 1-0,786 0,049 PaoloTagliavento 1 1,071 0,015 PaoloTagliavento 1 0,777 0,091 15

För det ekonomiska testet läggs domarvariablerna till i modellen. För att finna en mindre komplex modell som kan vara mer lämplig för prediktion utförs backward elimination baserad på AIC-värden. Modellens parameterskattningar presenteras i Tabell 2. Som synes består den reducerade modellen av logoddsvariabeln, en av tabellpositionsvariablerna och tre domarvariabler. Ett intressant sidospår är frågan om varför tre av domarvariablerna har en signifikant påverkan på de relativa sannolikheterna för utfallen, allt annat lika. Som exempel presenteras i tabell 3 modellens skattade sannolikheter i den sista matchen i datasetet när den döms av matchens sanne domare Daniele Doveri och när den kontrafaktiskt döms av domaren Paolo Tagliavento. Om Tagliavento dömt matchen hade modellens skattade sannolikhet för hemmavinst ökat kraftigt. Anledningen är svår att tolka inom ramen för den här undersökningen, då det kan innebära att spelbolagen tar hänsyn till domarnas påverkan men felaktigt, eller att de inte tar hänsyn till domarna men borde göra det. En möjlig förklaring är att en viss domare exempelvis i större utsträckning än övriga dömer lag av hög kvalitet på hemmaplan, och att domareffekten i sådana fall visar på att de övriga variablerna inte fullständigt kontrollerar för kvalitetsskillnaderna mellan lagen. Den tolkningen går däremot emot resultatet i LRtestet, som ju visar att spelbolagsoddsen väl beskriver styrkeförhållandena. Om domarna påverkar är det anmärkningsvärt med tanke på att de ska vara opartiska, och det är således någonting som kan vara intressant att titta vidare på. Tabell 3. Den reducerade modellens skattade sannolikheter för utfallen i matchen Sampdoria Sassuolo 20:e november 2016 med matchens faktiske domare Daniele Doveri och med domaren Paolo Tagliavento. Daniele Doveri Paolo Tagliavento Hemmavinst 0,446 0,600 Oavgjort 0,286 0,132 Bortavinst 0,268 0,268 Att använda spelstrategin som presenteras i avsnitt 3 leder till att 1575 spel läggs som ger en snittförlust med 0,237% per spel. Spelen på hemmavinst och oavgjort ger en 16

vinst på 5,69% respektive 4,67% per spel, medan spelen på bortavinst ger en förlust på 11,15% per spel. Z-värdet är 0,05 vilket ger P-värdet 0,521. Således kan jag inte visa att det är möjligt att få en signifikant positiv avkastning genom att nyttja en spelstrategi byggd på allmänt tillgänglig information och prediktioner från statistiska modeller. Spelbolagens oddssättning kan inte visas vara annat än effektiv. 6 Sammanfattning och slutsatser I den här studien undersöks huruvida spelbolag tar hänsyn till allmänt tillgänglig information på ett effektivt sätt vid oddssättning på fotbollsspelsmarknaden. Det undersöks med hjälp av regressionsbaserade tester och ett ekonomiskt test. Varken svag eller semistark effektivitet kan förkastas med hjälp av de regressionsbaserade testen, vilket är ett resultat som också bekräftas av det ekonomiska testet. Att spela strategiskt utefter den skapade modellens prediktioner ger en förlust på 0,237% per spel. En kort kritik av den valda metoden sammanfattas i det här stycket. När det gäller det utförda testet av semistark effektivitet är de förklarande variablerna något godtyckligt valda och det är givetvis möjligt att utföra en mer fullständig analys genom att inkludera fler och bättre variabler. En större mängd observationer skulle också bidra till en större sannolikhet att detektera en eventuell liten ineffektivitet i oddssättningen. Det hade också möjliggjort en annan metod vid modellval för det ekonomiska testet, där exempelvis en nestad korsvalideringsapproach kunnat appliceras vilket skulle medföra bättre förutsättningar för att finna en modell med god prediktiv förmåga. Avslutningsvis tycks spelbolagen veta vad de gör. Med tanke på hur tidskrävande datainsamling är avråds allmänheten från att viga sina liv till att försöka slå spelbolagen med hjälp av prediktioner från statistiska modeller. 17

Referenser Buraimo, B., Forrest, D., & Simmons, R. (2010). The 12th man?: refereeing bias in English and German soccer. Journal of the Royal Statistical Society: Series A (Statistisc in Society), 173(2), 431-449. Croissant, Y. (2013). mlogit: multinomial logit model. Hämtat från https://cran.rproject.org/package=mlogit Fama, E. F. (1970). Efficient Capital Markets: A Review of Theory and Empirical Work. Journal of Finance, volym 25, upplaga 2, 383-417. Figlewski, S. (1979). Subjective Information and Market Efficiency in a Betting Market. The Journal of Political Economy, 87(1), 75-88. Football-Data. (2016). Hämtat från http://www.football-data.co.uk/ den 25 november 2016 Forrest, D., & Simmons, R. (2000). Forecasting sport: the behaviour and performance of football tipsters. International Journal of Forcasting, 16(3), 317-331. Forrest, D., Goddard, J., & Simmons, R. (2005). Odds-setters as forecasters: The case of English football. International Journal of Forecasting, 21(3), 551-564. Fourfourtwo. (2016). Hämtat från www.fourfourtwo.com/statszone Franck, E., Verbeek, E., & Nüesch, S. (2010). Prediction accuracy of different market structures - bookmakers versus a betting exchange. International Journal of Forecasting, 26(3), 448-459. Gabriel, P. E., & Marsden, J. R. (1990). An Examination of Market Efficiency in British Racetrack Betting. Journal of Political Economy, 98(4), 874-885. Gandar, J., Zuber, R., O'brien, T., & Russo, B. (1988). Testing Rationality in the Point Spread Betting Market. The Journal of Finance, 43(4), 995-1008. Goddard, J. (2005). Regression models for forecasting goals and match results in association football. International Journal of Forecasting, 21(2), 331-340. Goddard, J., & Asimakopoulos, I. (2004). Forecasting football results and the efficiency of fixed-odds betting. Journal of Forecasting, 23(1), 51-66. 18

Greene, W. H. (2012). Econometric Analysis (7:e uppl.). New York University: Pearson Education Limited. Grund, T. (2012). Network structure and team performance: The case of English Premier League soccer teams. Social Networks 34(4), 682-690. Jakobsson, R., & Karlsson, N. (2007). Testing Market Efficiency in a Fixed Odds Betting Market. Wokring paper No.12, Department of Statistics, Örebro University. Koning, R. H. (2000). Balance in Competition in Dutch Soccer. Journal of the Royal Statistical Society: Series D (The Statistician), 49(3), 419-431. Kuypers, T. (2000). Information and efficiency: an empirical study of a fixed odds betting market. Applied Economics, 32(11), 1353-1363. Lega Serie A: Home Page. (2016). Hämtat från http://www.legaseriea.it/en/serie-atim/fixture-and-results Levitt, S. D. (2004). WHY ARE GAMBLING MARKETS ORGANISED SO DIFFERENTLY FROM FINANCIAL MARKETS? The Economic Journal, 114, 223-246. Nyberg, H. (2014). A Multinomial Logit-based Statistical Test of Association Football Betting Market Efficiency. Discussion Paper No. 380. University of Helsinki and Helsinki Center of Economic Research. Pope, P. F., & Peel, D. A. (1989). Information, Prices, and Efficiency in a Fixed-Odds Betting Market. Economica, 56(223), 323-341. Sauer, R. D., Brajer, V., Ferris, S. P., & Marr, M. W. (1988). Hold Your Bets: Another Look at the Efficiency of the Gambling Market for National Football League Games. Journal of Political Economy, 96(1), 206-213. Sumpter, D. (2016). Mer än en sport: Fotbollens matematik. Stockholm: Volante. Vlastakis, N., Dotsis, G., & Markellos, R. (2009). How efficient is the European football betting market? Evidence from arbitrage and trading strategies. Journal of Forecasting, 28, 426-444. Zuber, R. A., Gandar, J. M., & Bowers, B. D. (1985). Betting the Spread: Testing the Efficiency of the Gambling Market for National Football League Games. Journal of Political Economy, 93(4), 800-806. 19