En Säsongsspelsmodell

Relevanta dokument
Omgång april Omgång april Omgång april Omgång april Omgång april

FÖRELÄSNING 7:

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 13 november 2004, kl

Vid spelordningsmöte den 10 december 2009 kommer dagar att fastställas. Nedan endast huvudspeldag i respektive omgång.

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Suède Retard 26 avril Sue Örebro SK Örgryte IS 01:01

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Allsvenskan Original 2017 omg Omg Lag Lag Dag Datum Tid

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning G60 Statistiska metoder

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Jörgen Säve-Söderbergh

FÖRELÄSNING 8:

Till ampad statistik (A5) Förläsning 13: Logistisk regression

SF1901 Sannolikhetsteori och statistik I

Föreläsning 7. Statistikens grunder.

Föreläsning 7: Punktskattningar

Spelprogram - Allsvenskan, herrar

Statistik 1 för biologer, logopeder och psykologer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Grundläggande matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Fotboll. Slump eller systematik???

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Summor av slumpvariabler

SF1901 Sannolikhetsteori och statistik I

A l l s v e n s k a n OBS! att speldagar kan komma att ändras!

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen MVE301 Sannolikhet, statistik och risk

Grundläggande matematisk statistik

Statistik 1 för biologer, logopeder och psykologer

Suède Allsvenskan

Oddssättning. - utvärdering av modeller för skattning av matchodds i Svenska Superligan i innebandy

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Lärmål Sannolikhet, statistik och risk 2015

Exempel på tentamensuppgifter

Stokastiska vektorer och multivariat normalfördelning

Förslag Allsvenskan Kommentarer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 11: Mer om jämförelser och inferens

Tentamen i Matematisk statistik Kurskod S0001M

Datorövning 1: Fördelningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Kap 2. Sannolikhetsteorins grunder

Tentamen MVE301 Sannolikhet, statistik och risk

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för B, K, N, BME och Kemister

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i Matematisk statistik Kurskod S0001M

Repetitionsföreläsning

AMatematiska institutionen avd matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

ALLSVENSKAN Omgång 2. Omgång 3. Omgång 4. Kommentar. Omgång 1

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Bayesiansk statistik, 732g43, 7.5 hp

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

TMS136. Föreläsning 10

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Avd. Matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1901: Sannolikhetslära och statistik

Lycka till!

Tentamen MVE301 Sannolikhet, statistik och risk

4 Diskret stokastisk variabel

F9 Konfidensintervall

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

TMS136. Föreläsning 7

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

SF1901 Sannolikhetsteori och statistik I

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i Matematisk statistik Kurskod S0001M

Stokastiska processer med diskret tid

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

4.1 Grundläggande sannolikhetslära

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F9 SAMPLINGFÖRDELNINGAR (NCT

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

oberoende av varandra så observationerna är

Föreläsning 12: Regression

A l l s v e n s k a n OBS! att speldagar kan komma att ändras!

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Föreläsning 6, Repetition Sannolikhetslära

Tentamen MVE302 Sannolikhet och statistik

F3 Introduktion Stickprov

Föreläsning 7: Punktskattningar

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

0 om x < 0, F X (x) = c x. 1 om x 2.

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Transkript:

Örebro universitet Handelshögskolan Statistik C, Uppsats Handledare: Niklas Karlsson Examinator: Nicklas Pettersson VT-15 En Säsongsspelsmodell William Pirsech (1989-10-18)

Förord Ett tack till Niklas Karlsson, min handledare, för rådgivning i statistiska frågor. Ett tack till Tomas Ericsson från Kambi, för uppsatsämnet, rådgivning i mer praktiska frågor och för all data som använts i denna uppsats. William Pirsech

Sammanfattning I denna uppsats härleds en metod för att generera odds på godtyckliga säsongsspel, baserad på vinnaroutrighten. Genom ett normalfördelningsantagande fås en förenklad analys och en eektivare simuleringsmetod. Metoden testas på Allsvenskan 2015.

Innehåll 1 Inledning 1 2 Databeskrivning 2 3 Metod 3 3.1 Skattning av matchsannolikheter............................. 3 3.1.1 Vinnaroutright................................... 3 3.1.2 Modell........................................ 3 3.1.3 Utvärdering..................................... 4 3.2 Modellering av säsonger.................................. 4 3.2.1 Härledning..................................... 4 3.2.2 Simulering av säsonger.............................. 6 4 Resultat 7 4.1 Säsongsodds......................................... 7 4.1.1 Vinnare....................................... 8 4.1.2 Vinnare utan Malmö................................ 8 4.1.3 Best Finishing Position.............................. 9 4.1.4 Relegering till Superettan............................. 10 4.1.5 Kvalplacering.................................... 10 4.1.6 Best in Region................................... 11 4.2 Tester av modellantaganden................................ 12 4.2.1 Val av regressionsmodell.............................. 12 4.2.2 Normalitet..................................... 13 5 Slutsats 15 6 Appendix 17 6.1 Härledning av kovariansformeln.............................. 17 6.2 Data............................................. 17

1 Inledning Säsongsspel är spel på olika utfall under en säsong. Det kan vara vem som vinner säsongen, vilka lag som relegeras till lägre division eller andra händelser som rör lagens slutgiltiga placering. Det nns en efterfrågan bland spelare på er säsongsspel, men eftersom det är svårt att sätta odds på dessa spel är utbudet litet, begränsat till stora ligor och till vissa sporter. Oddset på en händelse anger hur mycket du vinner per satsad krona om händelsen inträar. Ett oskattat odds är helt enkelt inversen av en skattad sannolikhet p. För att ett spelbolag ska gå med vinst tar de ut en skatt. Om sannolikheten för en händelse bedöms vara 50% och en skatt tas ut på 5% är oddset som erbjuds spelarna (1 0.05) 1 0.50 = 1.90. Om 100 kr satsas på ett odds på 1.90, är vinsten vid fördelaktigt utfall 190 kr, vilket inkluderar det satsade beloppet. Vid ofördelaktigt utfall förloras de satsade kronorna. Spelbolagens skatt varierar kraftigt mellan olika odds och olika speltyper och är i regel högre för händelser med låg skattad sannolikhet. I denna uppsats används odds utan någon skatt inräknad. Vinnaroutrighten är oddset på att ett lag vinner serien, vilken här alltid sätts under antagandet att inga matcher ännu är spelade, så att tagna poäng inte påverkar dess värde. Oftast nns god intuition, från spelbolagens sida, om lagens relativa styrka. På grund av detta antas att vinnaroutrights håller god kvalitet och därför kan användas. För odds på mer exotiska händelser, som kvalplacering eller relegering, är det inte lika uppenbart hur sannolikt ett utfall är. Syftet med denna uppsats är att ta fram och testa en metod för värdering av odds på godtyckliga säsongsspel. Vinnaroutrighten används här som en skattning av lagens styrka. Från vinnaroutrighten tas oddsen för säsongsspel tas fram. Detta görs genom att från vinnaroutrighten skatta matchsannolikheter för alla återstående matcher i säsongen. Från dessa matchsannolikheter simuleras matchutfall för återstående matcher i säsongen. Poäng från redan spelade matcher räknas med. Genom utfallen i dessa simulerade säsonger kan man ta fram sannolikheter för alla tänkbara säsongsspel. Metoden testas på Allsvenskan 2015. I Allsvenskan spelar 16 lag alla mot alla, totalt 30 matcher var och 240 matcher totalt. Det lag som vinner en match får 3 poäng. Om matchen slutar oavgjort får båda lagen 1 poäng. Det lag med est poäng när säsongen är över vinner. De två poängmässigt sämsta lagen relegeras till Superettan. Odds tas fram för några intressanta säsongsspel. I nästa avsnitt ges en beskrivning av den data som använts. Därefter följer en ingående beskrivning av metoden. I avsnitt 4 testas och utvärderas den på Allsvenskan 2015. Slutligen följer en diskussion och slutsatser. 1

2 Databeskrivning Vinnaroutrights kommer från Kambi. De från 2014 är satta innan säsongens början och används för att ta fram en formel för matchssannolikheter som kan användas på säsong 2015. Vinnaroutrights för 2015 är tagna vid två tidpunkter - precis innan säsongen och en uppdaterad outright tagen efter omgång 8. De satta efter omgång 8 är satta utan lagens tagna poäng inräknade, så att enbart lagets skattade förmåga påverkar dess värde. Tabell 1: Vinnaroutrights 2015, med tillhörande härledd styrka S, som beskrivs i nästa avsnitt. Lag Initiell Outright Uppdaterad Outright Initiell S Uppdaterad S Malmö FF 2.02 1.85-0.02 0.16 IFK Göteborg 7.22 6.50-1.83-1.70 AIK 8.33 20.00-1.99-2.94 IF Elfsborg 14.12 8.00-2.57-1.95 BK Häcken 21.18 30.00-3.00-3.37 Hammarby IF 35.00 40.00-3.53-3.66 Djurgårdens IF 38.75 40.00-3.63-3.66 Helsingborgs IF 42.50 85.00-3.73-4.43 Kalmar FF 51.25 130.00-3.92-4.86 Örebro SK 63.75 175.00-4.14-5.16 IFK Norrköping 70.00 85.00-4.23-4.43 Åtvidabergs FF 440.00 200.00-6.08-5.29 Halmstads BK 627.50 1000.00-6.44-6.91 Gee IF 752.50 750.00-6.62-6.62 GIF Sundsvall 877.50 750.00-6.78-6.62 Falkenbergs FF 877.50 1000.00-6.78-6.91 ÖSK:s initiella outright sattes till 63.75. IFK Norrköpings sattes till 70.00. Detta innebär att ÖSK bedömdes vara lite bättre än IFK Norrköping i början av säsongen. Efter omgång 8 har detta ändrats - ÖSK:s prestation har höjt deras outright ganska mycket samtidigt som IFK Norrköping har fått sin outright sänkt en aning. Därför tros IFK Norrköping nu vara bättre än ÖSK. Matchodds från Allsvenskan 2014 används för utvärdering. Dessa kommer från Betradar (2015) och är ett genomsnitt av matchodds satta av spelbolag precis innan matchstart. 2

3 Metod 3.1 Skattning av matchsannolikheter Låt utfallet i en viss match betecknas med slumpvariabeln Y. Y har tre möjliga utfall: 1, X eller 2. Eftersom det nns en tydlig ordning i dessa utfall, antas att Y är ordinal. På grund av detta används en ordinal logistisk regressionsmodell med antagande om proportionella odds. Se Agresti (2010) för en fullständig beskrivning av sådana modeller. Alla regressionsmodeller skattas med R och paketet VGAM, se Yee (2015). 3.1.1 Vinnaroutright Låt OR beteckna vinnaroutrighten för något lag. Om p är sannolikheten för att laget ifråga vinner säsongen, ges OR av OR = 1 p. (1) Denna sätts av en expert genom erfarenhet och intuition, baserat på den information som nns tillgänglig om lagets nuvarande förmåga, under antagandet att inga matcher ännu är spelade. Lagets prestation under säsongen är en viktig del av värderingen av denna, men andra faktorer ingår. Även om vinnaroutrighten är en gissning på oddset för att ett lag vinner ligan, ska den här ses mer som ett subjektivt mått på hur bra ett lag är. För att ta fram en användbar prediktor för regression utgås från OR 1 = 1 p p. Detta är ett odds i traditionell, statistisk mening som en kvot av sannolikheter. Eftersom relativa förändringar i denna ligger närmare till hands än absoluta, utförs logaritmering. Låt därför styrkan S för ett lag ges av S = log(or 1). (2) Denna variabel ligger till grund för regressionsmodellen. Ju större den är, desto bättre förväntas ett lag vara. Se Tabell 1 för värden på S för olika lag. 3.1.2 Modell I en ordinal regressionsmodell används kumulativa log-odds som svarsvariabel. Dessa är på formen ( ) P(Y ) c = log, (3) 1 P(Y ) där är någon av 1 eller X. En ordinal regressionsmodell används, given av { c 1 = α 1 + β(s H S A ) c X = α X + β(s H S A ). (4) S H och S A är hemma- respektive borta-lagets styrka. Modellparametrar skattas från matchutfall och vinnaroutrights från tidigare säsong. Parametrarna α 1, α X och β skattas med Maximum Likelihood. 3

3.1.3 Utvärdering För att avgöra om antagandet om proportionella odds (Agresti, 2010) är giltigt jämförs (4) mot den mer generella { c 1 = α 1 + β 1 (S H S A ). (5) c X = α X + β X (S H S A ) En vanlig metod för att testa antagandet är att med hypotesprövning, exempelvis ett likelihoodkvot-test, avgöra om det nns någon statistiskt signikant skillnad mellan (4) och (5). Enligt Agresti (2010, s. 71) är sådana tester problematiska, eftersom statistisk signikans inte nödvändigtvis innebär praktisk signikans. En alternativ metod, beskriven av Kim (2003) är att plotta de skattade sannolikheterna från respektive modell mot varandra. Om de ser ut att följa linjen y = x väl, är antagandet om proportionella odds i praktiska termer uppfyllt. Som referenspunkt för passningsgrad används en nollmodell. Den ges av { c 1 = α 1 c X = α X. (6) Ett mått på hur väl en modell passar matchresultaten relativt nollmodellen är McFaddens Pseudo- R 2. För en modell med log-likelihood LL ges den av där LL 0 är log-likelihood för nollmodellen. R 2 = 1 LL LL 0, (7) För att avgöra hur bra den ordinala regressionsmodellen given av (4) passar data, jämförs regressionsmodellen med spelbolagens odds. Dessa odds är tagna precis före match och förväntas därför vara bättre. Log-likelihood för spelbolagets modell, LL Spelbolag, kan tas fram genom de implicita matchsannolikheterna. 3.2 Modellering av säsonger Alla säsongsspel utgår från lagens totala poäng för säsongen. Ett lag får 3, 0 eller 1 poäng i en match om det vinner, förlorar respektive spelar oavgjort. Dessa utfall har sannolikheter som är helt kända givet regressionsmodellen ovan. En metod för simulering av säsonger är att utföra ktiva spel på alla matcher. Eftersom denna metod är långsam, används en alternativ metod - genom att betrakta poängfördelningen för alla lag som en helhet och approximera denna med en multivariat normalfördelning kan man eektivt sampla slutgiltig poäng för säsongen, utan att behöva simulera enskilda matcher. 3.2.1 Härledning Om inga matcher ännu är spelade har varje lag 30 matcher kvar att spela, 15 hemma och 15 på bortaplan. Alla 16 lag möter varje annat lag två gånger, en gång hemma och en gång borta för totalt 30 matcher var och 240 matcher totalt. Låt π (1) i,j och π (2) i,j vara slumpvariabler som representerar 4

poängen för lag i respektive j, i den match där lag i är hemma och lag j är borta. Exempelvis kommer π (1) i,j anta något av värdena 3, 0 eller 1 beroende på om lag i på hemmaplan vinner, förlorar eller spelar oavgjort mot lag j. Sannolikheterna för dessa utfall är p (1) i,j, p(2) i,j respektive p(x) i,j. Dessa tre storheter skattades från regressionsmodellen. j: j i Låt π i vara slumpvariabeln som representerar lag i:s totalpoäng för säsongen. Den kan skrivas som π i = π (1) i,j + π (2) j,i. (8) Om alla matcher är ospelade kommer detta vara en summa av 30 oberoende slumpvariabler. Med stöd av centrala gränsvärdessatsen görs därför antagandet att π i är normalfördelad. Man kan gå ett steg längre och anta att vektorn π = (π 1, π 2,..., π 16 ) T av alla totalpoänger är en multivarat normal slumpvariabel, alltså att j: j i π N(µ, Σ). (9) Här är µ vektorn av förväntade poänger och Σ är kovariansmatrisen till fördelningen. Både µ och Σ kan bestämmas enbart med hjälp av de skattade matchsannolikheterna. Förväntat värde för poäng i enskilda matcher för hemma- respektive bortalag ges av [ E [ E π (1) i,j π (2) i,j ] ] = p (X) i,j + 3p (1) i,j, (10) = p (X) i,j + 3p (2) i,j. (11) Genom att ta förväntat värde över alla termer, med insättning av (10) och (11) i (8) fås lagets förväntade totalpoäng E [π i ] = [ ] p (X) i,j + 3p (1) i,j + [ ] p (X) j,i + 3p (2) j,i. (12) j: j i j: j i Detta ger alla komponenter för vektorn µ. Varians i poäng i individuella matcher ges av [ Var [ Var π (1) i,j π (2) i,j ] ] = p (X) i,j + 9p (1) i,j (p(x) i,j + 3p (1) i,j )2, (13) = p (X) i,j + 9p (2) i,j (p(x) i,j + 3p (2) i,j )2. (14) Insättning av (13) och (14) i (8) ger variansen i totalpoäng för lag i till Var[π i ] = j: j i [ p (X) i,j + 9p (1) i,j (p(x) i,j + 3p (1) i,j )2] + j: j i Det sista som behövs är kovariansen i poäng mellan lag. Man kan visa att [ p (X) j,i + 9p (2) j,i (p(x) j,i + 3p (2) j,i )2]. (15) 5

Cov[π i, π j ] = p (X) i,j (p (X) i,j + 3p (1) i,j )(p(x) i,j + 3p (2) i,j ) + p (X) j,i (p (X) j,i + 3p (1) j,i )(p(x) j,i + 3p (2) j,i ). (16) Se Appendix för fullständig härledning av kovariansen. Detta tillsammans med variansen ger Σ. 3.2.2 Simulering av säsonger Metoden för sampling ur en multivariat normalfördelning 1 som används här går kortfattat ut på att man diagonaliserar kovariansmatrisen Σ enligt Σ = UDU T. Bilda därefter x = µ + UD 1 2 z, (17) där z är en kolonnvektor av oberoende standardnormalfördelade variabler, vilka eektivt kan genereras. Då kommer vektorn x vara normalfördelad med väntevärde µ och varians Σ, som önskat. Med andra ord är x ett stickprov ur π, det vill säga ett simulerat poängresultat för en säsong. Alltså kan en simulering av utgången i en hel säsong utföras genom att: Generera 16 standardnormalfördelade tal innehållna i kolonnvektorn z. Utföra matrisoperation på vektorn z, given av (17). De simulerade totalpoängerna för säsongen ges då av x. Beräkna rangordningen av varje element i x för att få lagens simulerade placering. Upprepa detta ett stort antal gånger. Den relativa frekvensen för intressanta händelser bland dessa simuleringar ger säsongsodds. 1 Se http://en.wikipedia.org/wiki/multivariate_normal_distribution för en kort introduktion till den multivariata normalfördelningen, samt samplingsmetoden. 6

4 Resultat En regressionsmodell skattas från 2014 års data. Från denna, med vinnaroutrighten från år 2015, tas matchsannolikheter för 2015 fram. Med dessa skattas parametrarna i normalfördelningen (9). Därefter simuleras 1000000 säsonger. Figur 1: Simulerad fördelning för slutgiltig poäng för alla lag 2015. Normalapproximation användes. 1000000 simulerade säsonger. Baserad på outrights och matchresultat tagna efter omgång 8. Tabellen till höger ger de olika lagen, sorterade efter förväntad poäng från lägsta till högsta. 4.1 Säsongsodds Alla säsongsodds beräknas med normalapproximation. Två uppsättningar vinnaroutrights används: Initiella (I), tagna innan säsong 2015 börjar. Uppdaterade (U), tagna efter omgång 8, alltså med 64 av 240 matcher spelade. Här räknas tagna poäng med och endast framtida matcher simuleras. Här presenteras odds för ett antal olika spel som används av spelbolag, eller helt enkelt bedöms vara intressanta. Denna metod kan dock ta fram odds för vilka säsongsspel som helst. 7

4.1.1 Vinnare Detta är oddsen på att ett visst lag vinner ligan. Här är det intressant att jämföra med de vinnaroutrights vi utgick från - vinnaroutrights var ju tänkta att ge oddsen för precis denna händelse. Överlag följer vinnarodds och vinnaroutrights varandra någorlunda. Att de inte överensstämmer för högre odds är väntat. Tabell 2: Oddsen till att ett visst lag vinner ligan. Tillhörande outrights i parentes. Vinnare Lag Odds (I) Odds (U) Malmö FF 1.64 (2.02) 1.55 (1.85) IFKG Göteborg 7.62 (7.22) 4.82 (6.50) AIK 9.10 (8.33) 54.31 (20.00) IF Elfsborg 17.55 (14.12) 8.75 (8.00) BK Häcken 30.61 (21.18) 462.53 (30.00) Hammarby IF 63.31 (35.00) 434.78 (40.00) Djurgårdens IF 73.56 (38.75) 100.50 (40.00) Helsingborgs IF 84.93 (42.50) 3355.71 (85.00) Kalmar FF 117.70 (51.25) 58823.53 (130.00) Örebro SK 168.81 (63.75) (175.00) IFK Norrköping 202.59 (70.00) 634.12 (85.00) Åtvidabergs FF 11627.91 (440.00) 1000000 (200.0) Halmstads BK 31250.000 (627.50) (1000.00) Gee IF 40000.00 (752.50) 333333.33 (750.00) Falkenbergs FF 55555.56 (877.50) (750.00) GIF Sundsvall 66666.67 (877.50) 1000000 (1000.00) 4.1.2 Vinnare utan Malmö Eftersom Malmö är storfavoriter för säsongen är det intressant att titta på säsongen utan dem. 8

Tabell 3: Vinnare om man bortser från Malmö FF:s placering. Vinnare utan Malmö Lag Odds (I) Odds (U) IFKG Göteborg 3.32 1.90 AIK 3.85 13.93 IF Elfsborg 6.77 3.07 BK Häcken 10.82 87.66 Hammarby IF 20.27 79.87 Djurgårdens IF 23.29 24.17 Helsingborgs IF 26.76 407.33 Kalmar FF 34.87 7575.76 Örebro SK 48.27 200000.00 IFK Norrköping 54.74 114.27 Åtvidabergs FF 1862.20 71428.57 Halmstads BK 4184.10 Gee IF 6134.97 24390.24 Falkenbergs FF 9615.39 500000 GIF Sundsvall 10101.01 21276.60 4.1.3 Best Finishing Position Detta är oddsen för att lag i kommer före lag j i poäng. Till skillnad från andra säsongsodds kan denna beräknas exakt, det vill säga utan simulering. Eftersom poängfördelningar är normalfördelade, kan sannolikheten beräknas som: ( ) E[π i ] E[π j ] P(π i > π j ) = 1 Φ, (18) (Var [π i ] + Var [π j ] 2 Cov [π i, π j ]) 1 2 där Φ är den kumulativa fördelningsfunktionen till standardnormalfördelningen. Tabell 4: Odds för Best Finishing Position för några kombinationer av lag. Best Finishing Position Lag i Lag j Odds (I) Odds (U) GIF Sundsvall Gee IF 2.12 2.04 Malmö FF AIK 1.219 1.05 IFK Norrköping Åtvidabergs FF 1.240 1.07 IFK Göteborg IF Elfsborg 1.569 1.64 IFK Göteborg BK Häcken 1.407 1.05 AIK Djurgårdens IF 1.280 1.73 AIK Hammarby IF 1.305 1.37 Djurgårdens IF Hammarby IF 2.082 1.51 9

4.1.4 Relegering till Superettan Ett lag i Allsvenskan relegeras direkt till Superettan om det kommer på plats 15 eller 16. Tabell 5: Odds för relegering till Superettan. Relegering till Superettan Lag Odds (I) Odds (U) Falkenberg 2.33 2.81 GIF Sundsvall 2.33 7.10 Gee IF 2.57 7.62 Halmstads BK 2.92 1.61 Åtvidabergs FF 3.83 3.52 IFK Norrköping 27.08 244.08 Örebro SK 30.79 2.94 Kalmar FF 42.27 10.41 Helsingborgs IF 55.30 52.46 Djurgårdens IF 64.38 1650.17 Hammarby IF 77.95 266.95 BK Häcken 182.18 295.86 IF Elfsborg 397.77 250000 AIK 1319.26 4032.26 IFK Göteborg 1949.31 Malmö FF 1000000 4.1.5 Kvalplacering Det lag som kommer på 14:e plats kommer att få spela mot ett lag i Superettan om plats i nästa säsong. 10

Tabell 6: Odds för kvalplacering. Lag Odds (I) Odds (U) GIF Sundsvall 5.92 8.77 Falkenbergs FF 5.95 5.69 Gee IF 5.96 9.07 Halmstads BK 6.06 6.88 Åtvidabergs FF 6.68 6.35 IFK Norrköping 24.94 128.25 Örebro SK 27.79 6.10 Kalmar FF 35.34 11.66 Helsingborgs IF 44.19 39.53 Djurgårdens IF 49.48 802.57 Hammarby IF 56.44 155.40 BK Häcken 116.28 162.15 IF Elfsborg 224.82 90909.10 AIK 647.67 1555.21 IFK Göteborg 922.51 500000 Malmö FF 76923.08 4.1.6 Best in Region I dessa spel delar man upp ligan i grupper efter region. Man spelar på vem som kommer först i dessa. Tabell 7: Best in Region Lag Odds (I) Odds (U) Best in Stockholm AIK 1.54 2.02 Hammarby IF 5.45 6.49 Djurgårdens IF 6.04 2.84 Best in West IFK Göteborg 1.92 1.67 IF Elfsborg 3.52 2.61 BK Häcken 5.20 58.88 Falkenbergs FF 1201.92 90909.10 Halmstads BK 597.73 Best of the Rest Örebro SK 2.23 35.79 IFK Norrköping 2.39 1.31 GIF Sundsvall 34.81 11.72 Gee IF 28.545 11.61 Åtvidabergs FF 14.56 26.96 11

4.2 Tester av modellantaganden Två förutsättningar är kritiska - valet av modell för matchsannolikheter, samt normalfördelningsantagandet vid simulering. De utvärderas här. 4.2.1 Val av regressionsmodell Modellparametrar skattas med outrights och resultat från 2014. Antagandet om proportionella odds testas genom att jämföra modellen av intresse, den proportionella modellen, given av (4), mot den generella modellen, given av (5). Nollmodellen, samt spelbolagens skattningar av matchsannolikhet innan match, anges här som referenspukter. Tabell 8: Parameterskattningar och annan information om modellerna. Proportionell Skattning Medelfel α 1 0.1773508 0.1358 α X 1.0079140 0.1507 β 0.2269296 0.0434 Generell Skattning Medelfel α 1 0.1884082 0.13768 α X 0.9813191 0.15278 β 1 0.2399651 0.04790 β X 0.2052762 0.05129 Nollmodell Proportionell Generell Spelbolag Log-Likelihood (LL) 255.3838 240.8405 240.6186 235.1232 Pseudo-R 2 0.000% 5.695% 5.782% 7.933% Antal Frihetsgrader 478 477 476 Att spelbolagets matchsannolikheter ger bättre pseudo-r 2 är väntat, men skillnaden är mindre än väntat, vilket får tala för modellens giltighet. Spelbolagets odds är satta precis innan matchstart och har därför använt sig av mer information. Regressionsmodellens å andra sidan, är baserade på vinnaroutrights satta innan säsongens början. 12

Figur 2: Skattade matchsannolikheter för säsong 2014, för den proportionella och den generella modellen på var sin axel. En plot av skattade matchsannolikheter enligt metoden från Kim (2003) visar inte på någon meningsfull skillnad mellan den proportionella och den generella modellen eftersom ingen av oddstyperna 1, X eller 2 avviker avsevärt från linjen y = x. Därför antas antagandet om proportionella odds vara uppfyllt. 4.2.2 Normalitet Antag först att inga matcher är spelade ännu. Genom att generera ett antal säsongsodds, å ena sidan med normalapproximation och å andra sidan genom direkt simulering, jämförs därefter resultaten. Eftersom direkt simulering är så långsamt kan endast 100000 simuleringar utföras, varför viss avvikelse mellan metoderna är väntad. 13

Tabell 9: Ett stickprov av odds jämförs med både direkt simulering och normalapproximation. Inga matcher spelade. Best in Stockholm Lag Normalapproximation Direkt simulering AIK 1.54 1.54 Hammarby IF 5.45 5.42 Djurgårdens IF 6.04 6.00 Relegering Lag Normalapproximation Direkt Simulering Falkenberg 2.33 2.31 GIF Sundsvall 2.33 2.31 Gee IF 2.58 2.55 Halmstads BK 2.92 2.92 14

5 Slutsats Användandet av ordinal logistisk regression med proportionella odds verkar vara en giltig metod. Som prediktiv modell för matchodds är den knappast något att skryta med och duger inte för värdespel på en hel säsong, men det är inte heller syftet. Den ger användbara matchsannolikheter givet ett litet input av vinnaroutrights som sätts av användaren. Ett problem med de outrights som sattes här är att regressionssambandet tas fram baserat på initiella outrights för 2014. De outrights som sattes i början av 2014 verkar ha underskattat lag som presterade bra, vilket gör att det skattade sambandet mellan outrights och matchsannolikheter blir för starkt. Detta leder i sin tur till att Malmö FF i 2015, ett lag med mycket låg vinnaroutright, får alldeles för optimistiska odds. Det kanske ger bättre resultat att för 2014 ta outrights satta i efterhand, i slutet av säsongen, eller genom att sätta outrighten som ett genomsnittlig betyg över lagets prestation under säsongen. Detta påverkar dock inte själva metodens giltighet utan bara valet av input. Normalapproximationen bygger på centrala gränsvärdessatsen, vilken förutsätter att antalet addender i (8), alltså antalet matcher ett visst lag har kvar att spela, är tillräckligt stort. Allteftersom säsongen fortgår kommer detta antal att minska. Den naturliga frågan är hur länge normalapproximationen är giltig. Antagandet verkar vara riktigt även med relativt få kvarvarande matcher. Även en poängsumma med bara 5 termer ser ganska normalfördelad ut. En idé är att man övergår till exakt beräkning när något lag endast har 4 matcher kvar. Då är en direkt simulering beräkningsmässigt genomförbar. Vinnaroutrighten är ett säsongsodds som nns tillgängligt för många sporter och många ligor. Det verkar också som att en väl vald vinnaroutright säger tillräckligt mycket om säsongens utgång för att vara användbar. Med metoden beskriven i denna uppsats kan man därför använda sig av den för att ta enkelt fram odds på alla tänkbara säsongsspel. 15

Referenser Agresti, A. (2010). Analysis of Ordinal Categorical Data. Second Edition. Kim, J-H. Assessing practical signicance of the proportional odds assumption. Statistics & Probability Letters, Volume 65, Issue 3. 15 November 2003. Betradar. https://www.betradar.com/dp/ R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.r-project.org/ Thomas W. Yee (2015). VGAM: Vector Generalized Linear and Additive Models. R package version 0.9-7. URL http://cran.r-project.org/package=vgam 16

6 Appendix 6.1 Härledning av kovariansformeln Formeln för kovarians mellan totalpoänger visas här. Formlerna för förväntat värde och varians är enkla i jämförelse. Med kovariansoperatorn skrivs kovariansen i poäng mellan två lag som Cov [π i, π j ] = Cov π (1) i,j + π (2) j,i, π (1) j,j + π (2). (19) j : j i j : j i j : j j j : j j Eftersom kovariansoperatorn är bilinjär kan all summation yttas till utsidan av uttrycket: j,j : j,,j j [ [ Cov π (1) i,j ] [ j,j + Cov, π(1) π (1) i,j, π(2) j,j j,j ] [ ] [ ]] + Cov π (2) j,i, π(1) j,j + Cov π (2) j,i, π(2) j,j. (20) Detta uttryck kan verka invecklat, men det förenklas av att poänger ur olika matcher antas vara oberoende. Detta innebär att Cov [π i1,j 1, π i2,j 2 ] 0 bara om i 1 = i 2 och j 1 = j 2. Detta reducerar summan till endast två termer: [ ] [ ] Cov π (1) i,j, π(2) i,j + Cov π (2) j,i, π(1) j,i. (21) Dessa termer representerar de två matcher där lagen möter varandra. Kovarians för den första termen kan skrivas som: [ ] [ ] [ ] [ ] Cov π (1) i,j, π(2) i,j = E π (1) i,j π(2) i,j E π (1) i,j E π (2) i,j. (22) Detta beräknas till ( ) 0 3 p (1) i,j + 1 1 p(x) i,j + 3 0 p (2) i,j ( ) ( ) 3 p (1) i,j + 1 p(x) i,j + 0 p (2) i,j 0 p (1) i,j + 1 p(x) i,j + 3 p (2) i,j ( ) ( ) p (X) i,j p (X) i,j + 3p (1) i,j p (X) i,j + 3p (2) i,j = (23). Kovariansen för den andra termen bestäms på exakt samma sätt. Detta ger formel (16). En måttligt intressant övning är att visa att kovariansen alltid är ickepositiv. 6.2 Data Se https://github.com/williampirsech/seasonalmodel för all kod. Excellen Seasonmodel2015.xlsx innehåller all data som använts, med initiella outrights. Seasonmodel2015_2.xlsx innehåller data med uppdaterade outrights. 17