Oddssättning. - utvärdering av modeller för skattning av matchodds i Svenska Superligan i innebandy

Relevanta dokument
För spel på Asiatiskt handikapp inom svenska Basketligan

[HUR MAN VINNER ÖVER SPELBOLAGEN]

SPEL PÅ ENGELSKA LEAGUE ONE - en optimerande ansats

Medicinsk statistik II

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Att med multinomial logistisk regression förklara sannolikheter i fotbollsmatcher

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Strategiskt spelande för en positiv avkastning

Statistik 1 för biologer, logopeder och psykologer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Statistik och epidemiologi T5

import totalt, mkr index 85,23 100,00 107,36 103,76

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Går det att slå spelbolagen? - En undersökning av effektiviteten på oddsmarknaden för fotboll i Italien

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Hur skriver man statistikavsnittet i en ansökan?

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Föreläsning G60 Statistiska metoder

En studie av svensk ishockey Olika faktorers påverkan på utgången av en förlängning

Fråga nr a b c d 2 D

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

, s a. , s b. personer från Alingsås och n b


8 Inferens om väntevärdet (och variansen) av en fördelning

En Säsongsspelsmodell

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Uppgift 1. Produktmomentkorrelationskoefficienten

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

MSG830 Statistisk analys och experimentplanering

Multipel Regressionsmodellen

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

F3 Introduktion Stickprov

Regressionsanalys av lägenhetspriser i Spånga

Lektionsanteckningar 11-12: Normalfördelningen

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Uppgift 1 (14p) lika stor eller mindre än den förväntade poängen som efterfrågades i deluppgift d? Endast svar krävs, ingen motivering.

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Statistik Lars Valter

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Regression

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Statistik och epidemiologi T5

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

TENTAMEN I STATISTIKENS GRUNDER 2

Fotbollsklubbars prestationer och deras effekt på aktiekursen

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Matematisk statistik KTH. Formelsamling i matematisk statistik

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Hur påverkas AIK:s aktiekurs av lagets matchresultat på kort sikt? - en regressionsanalytisk ansats

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Föreläsning 12: Linjär regression

Laboration 4 R-versionen

Grundläggande matematisk statistik

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Antal hörnor i Premier League-matcher En modell för att uppskatta antalet hörnor i fotbollsmatcher

Industriell matematik och statistik, LMA /14

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Regressionsanalys av NHL-statistik

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Stockholms Universitet Statistiska institutionen Termeh Shafie

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Medicinsk statistik II

10.1 Enkel linjär regression

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Demografisk rapport 2014:10. Prognosmetoder och modeller. Regressionsanalys. Befolkningsprognos /45

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Skrivning i ekonometri torsdagen den 8 februari 2007

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Transkript:

Örebro universitet Handelshögskolan Statistik C, Uppsats Handledare: Niklas Karlsson Examinator: Nicklas Pettersson VT 2015 Oddssättning - utvärdering av modeller för skattning av matchodds i Svenska Superligan i innebandy Henrik Mundt 900919

Sammanfattning I denna uppsats används en statistisk modellansats för att undersöka om det går att få långsiktig positiv avkastning i Svenska Superligan i innebandy. Ordinal logistisk regression utförs med de förklarande variablerna skattad målskillnad och en i dessa sammanhang ny variabel, skattad skillnad i sannolikhet mellan hemmavinst och bortavinst baserat på spelbolagens odds. Resultatet visar att det är mest lämpligt att utnyttja spelbolagens sätt att skatta odds för att uppnå långsiktig positiv avkastning.

Innehållsförteckning 1. Inledning... 1 1.1 Syfte... 1 1.2 Frågeställning... 1 1.3 Disposition... 2 1.4 Grundläggande begrepp... 2 2. Metod... 2 2.1 Variabler... 3 2.2 Modell... 7 2.3 Förväntad avkastning och spelstrategi... 7 2.4 T-test för långsiktig avkastning... 9 3. Data... 10 4. Resultat och analys... 10 4.1 Del 1... 10 4.2 Del 2... 12 4.3 Del 3... 14 5. Slutsats... 18 6. Diskussion... 19 7. Källförteckning... 20 8. Appendix... 21

1. Inledning I denna uppsats kommer innebandymatcher ligga till grund för modellering och framtagning av odds. Innebandy är en ny kontext relativt många tidigare studier och uppsatser där fokus ligger på fotboll. Tanken är att det är lättare att få en positiv avkastning då det är en mindre sport med mindre pengar, och därmed lägger spelbolagen rimligtvis inte lika mycket tid på framtagningen av odds. Detta möjliggör att lättare kunna skatta bättre odds än spelbolagen än om man till exempel valt Engelska Premier League i fotboll. I tidigare studier där man har försökt skatta olika matchsannolikheter är fotboll den idrott som är vanligt förkommande. Till exempel utförde Forrest, Goddard & Simmons (2005) en studie i engelsk fotboll baserad på 10 000 matcher där en jämförelse gjordes mellan subjektivt satta odds och odds baserat på statistiska modeller och beräkningar. I de första säsongerna som undersöktes var oddsen från den statistiska modellen mer precisa än de subjektivt satta, medan under de sista förelåg det omvända. Det finns en mängd olika sätt att gå tillväga vid skattning av sannolikheter för olika matchutfall. I tidigare studier finns både metodmässig variation och olika typer av förklarande variabler som vägs in. Att dra nytta av tidigare resultat förespråkas av Stefani (1997). Medan odds satta av spelbolagen visade sig framgångsrikt för Odachowski & Grekow (2013), där förändringar i oddsen användes för att prediktera matchresultat. Metodmässigt har Ordinal logistisk regression där parametrarna skattas med Maximum Likelihoodmetoden använts av Brillinger (2006). Detta leder in på uppsatsens syfte. 1.1 Syfte Syftet med denna uppsats är att undersöka om det går att långsiktigt få en positiv avkastning vid spel på matchutfall i Svenska Superligan i innebandy. Detta baserat på tidigare resultat och spelbolagens odds. Uppsatsen syftar även till att jämföra olika varianter av skattade modeller. 1.2 Frågeställning Kan man få en långsiktig positiv avkastning baserat på en statistisk modellansats som relaterar till tidigare matchresultat och odds? 1

1.3 Disposition I metoddelen redogörs och motiveras den vald statistisk metoden för arbetet, de variabler som används och de olika modeller som testas. I delen Data beskrivs det valda datamaterialet. I Resultat och analys genomförs olika regressionsskattningar, och test för positiv avkastning. 1.4 Grundläggande begrepp Spelbolagens odds Om exempelvis oddset för att IBF Falun ska vinna över Pixbo Wallenstam IBK är 3, innebär det att spelaren erhåller 3 kronor per satsad krona om IBF Falun vinner. Modellodds Modellodds definieras som inversen för modellens skattade sannolikhet att en händelse ska inträffa, med andra ord:. Om exempelvis modellen skattar sannolikheten för att IBF Falun ska vinna till 0,5 blir modelloddset 2 ( = 2). Överodds Ett spelbolags odds är ett överodds om spelbolagets odds är större än modelloddset. I matchexemplet IBF Falun - Pixbo Wallenstam IBK ovan, är således spelbolagets odds för att IBF Falun ska vinna ett överodds (3 > 2). 2. Metod För att skatta sannolikheter då undersökningsvariabeln antar tre värden används Ordinal logistisk regression. I Ordinal logistisk regression finns det en naturlig rangordning i beroende variabeln (Hosmer & Lemeshow, 2000). Då det finns en naturlig rangordning av den beroende variabelns tre utfall, bortavinst, oavgjort och hemmavinst, är därmed Ordinal logistisk regression ett lämpligt metodval. Detta då utfallet i den beroende variabeln ger information om skillnaden i hemmalaget och bortalagets inbördes styrka, vilket motiverar att den är ordinal då denna styrka varierar och kan rangordnas (Brillinger 2006). I en Ordinal 2

logistisk regression skattas koefficienterna med Maximum Likelihoodmetoden (Stock & Watson 2012). Om den beroende variabeln y i den Ordinala logistiska regressionen kan anta något av de tre utfallen 0 (bortavinst), 1 (oavgjort) och 2 (hemmavinst), ges sannolikheterna för de olika utfallen som en funkton av de förklarande variablerna x 1, x 2,.., x k som - där α 1 och α 2 är interceptparametrar och β 1,, β k är parametrar framför de förklarande variablerna (Hosmer & Lemeshow, 2000). 2.1 Variabler Det finns en mängd förklarande variabler som förklarar sannolikheten för olika matchutfall. Fokus i denna uppsats är dels variabler baserade på målskillnad i tidigare spelade matcher, och dels variabler som utnyttjar spelbolagens odds. Nedan följer en beskrivning av variablerna i den Ordinala regressionsmodellen, den beroende variabeln såväl som de förklarande variablerna. Resultat Den beroende variabeln resultat definieras som matchutfall och antar värdena: resultat = Predmåldiff Variabeln predmåldiff är baserad på Stefani (1997) och tar hänsyn inte bara till tidigare resultat för bägge lagen i den aktuella matchen, utan även resultat mellan andra lag i serien. Principen är att om lag A och lag B möter varandra finns det information att hämta om de två lagens inbördes styrka genom att studera hur det gick i mötet mellan lag A och lag C, samt lag B och lag C. Om exempelvis lag A vinner mot lag C med 10-0 och lag B förlorar mot lag C med 5-0, är det rimligt att tänka sig att lag A är ett bättre lag än B. Således är det troligt att lag A gör fler antal mål än B i matchen. Det är denna målskillnad som parameterskattas. 3

Alla lag i den aktuella serien får en siffra, i denna uppsats 1-14. Varje match tilldelas ett nummer i kronologisk ordning baserat på datum. Matcher som spelas samma datum får därmed samma nummer. Observera att det bara är matcher från samma säsong. För att förstå hur värden på predmåldiff erhålls, låt där måldiff = skillnad i antal gjorda mål mellan hemmalag och bortalag (samma definition som ovan). h = förväntat antal fler gjorda mål för hemmalag jämfört med bortalag. S h = förväntat antal fler gjorda mål för hemmalaget på neutral plan mot ett referenslag. S b = förväntat antal fler gjorda mål för bortalaget på neutral plan mot ett referenslag. u = störningsterm med väntevärde noll. Modellen ovan kan enligt Stefani (1997) skrivas om som en regressionsmodell med målskillnad som beroende variabel: där = ε = störningsterm med väntevärde noll. Regressionsmodellen inkluderar endast 13 x - variabler, lag 14 tas inte med. Detta för att undvika perfekt multikolinjäritet. Modellen skattas med minsta kvadratmetoden och om lag s möter lag t hemma blir värdet på variabeln predmåldiff lika med + - där, och är regressionsskattningar av parametrarna, och. (Se Duras och Englund (2012) för en pedagogisk framställning av metoden.) 4

Pdiff och Predpdiff Spelbolagens matchodds innehåller naturligtvis mycket information om lagens inbördes styrka. Låt: Odds1=odds för hemmavinst OddsX = odds för oavgjort Odds2= odds för bortavinst Vidare låt p 1, p x, p 2 vara de implicit givna sannolikheterna för de tre matchutfallen. De definieras enligt följande: Variabeln pdiff definieras som p1-p2, och är skillnad i vinstsannolikhet mellan hemmalag och bortalag. Även p 1, p x och p 2 kan i sig fungera som förklarande variabler, dock högst två i samma modell för att undvika prefekt multikolinjäritet. En variant för att skatta skillnaden i vinstsannolikhet för hemmalaget respektive bortalaget lånar idéer från Stefanis (1997) metod för att prediktera målskillnad. För att prediktera målskillnad i en aktuell match användes information om målskillnad från alla matcher under innevarande säsong fram till den aktuella matchen. För att prediktera skillnaden i vinstsannolikhet i den aktuella matchen används information på liknande sätt om skillnad i vinstsannolikhet för alla matcher under innevarande säsong fram till den aktuella matchen baserat på spelbolagens implicit givna sannolikheter. Låt 5

pdiff = skillnad i sannolikhet att vinna mellan hemmalag och bortalag enligt spelbolagens odds. a = förväntad skillnad tack vare hemmaplansfördel. b h = förväntad skillnad i sannolikhet att vinna mellan hemmalag och referenslag på neutral plan. b b = förväntad skillnad i sannolikhet att vinna mellan bortalag och referenslag på neutral plan. ε = störningsterm med väntevärde noll. På liknande sätt som i föregående avsnitt med predmåldiff skrivs modellen om som en regressionsmodell: där: x j och ε definieras som tidigare. Modellen skattas med minsta kvadratmetoden och om lag s möter lag t antar variabeln predpdiff1 värdet + - där, och är regressionsskattningar av parametrarna, och. Dessa är predikterad skillnad i sannolikhet att vinna mellan lag s och lag t. Det som är värt att notera är att det är spelbolagens skattning i sannolikhet för hemmavinst respektive bortavinst som används för att få alternativa och förhoppningsvis bättre skattningar. Detta tillvägagångssätt tar sin utgångspunkt i några antaganden nämligen att lagens styrka över tid är bra, men i vissa matcher underskattas ett visst lag och i andra matcher överskattas ett samma lag. Om så är fallet är det relevant att väga in oddssättning mellan A och C samt B och C för att bedöma inbördes styrka mellan A och B. På detta sätt kan metoden ge en bättre skattning av lagens inbördes styrka genom att korrigera spelbolagens bedömning. I de fall då spelbolagen har överskattat ett lag kommer metodens skattning av lagets styrka mest troligt att vara lägre, och i de fall då spelbolagen har underskattat lagets styrka kommer metodens skattning troligtvis vara högre. I en tredje variant används spelbolagens odds från de tre senaste omgångarna fram till aktuell match, plus oddsen för den aktuella matchen. Denna variabel betecknas predpdiff2. Denna variant är snarlik den andra men med undantag från den nämnda datamässiga skillnaden. Att 6

det är oddsen från fyra omgångar (inklusive aktuell omgång) är godtyckligt valt, men tanken är att lagens styrka förändras under säsongen vilket variabelns konstruktion bedöms ge en bra bild av. 2.2 Modell En modellering av ovan nämnda variabler kommer genomföras med Ordinal logistisk regression. Det kriterium som kommer användas om en förklarande variabel är lämplig att användas är ett p-värde 0,20. Denna gräns används av Olsson (2002) för om en variabel ska tas med vid en modellering med multipel logistisk regression. De modeller som resultaten tar sin utgångspunkt i sammanställs nedan. Del 1 Del 2 Del 3 2.3 Förväntad avkastning och spelstrategi När en modell är skattad är nästa steg att undersöka avkastningen på modellen. Låt U vara avkastningen på ett spel där du satsar en krona på ett visst matchutfall. Slumpvariabeln U har följande sannolikhetsfördelning: 7

där Odds är spelbolagens satta odds och p är modellens sannolikhet för det utfall som det spelas en krona på. Den förväntade avkastningen ges av: Spelstrategin blir att spela på de spel som har en positiv förväntad avkastning, där spelbolagens odds är större än modelloddset. vilket ger där kan tolkas som modellens odds. Två andra spelstrategier kommer även att prövas. Dels strategin att spela endast på Förväntad avkastning 5 % och dels på Förväntad avkastning 10 %. Observera att dessa strategier följer samma princip som ovan, då ovanstående strategi är att spela när Förväntad avkastning 0. Faktisk avkastning - Förväntad avkastning En regressionsmodell med faktisk avkastning som beroende variabel och förväntad avkastning enligt modell som förklarande variabel utförs sedan. Modellen skattas med minsta kvadratmetoden. Idealt är och, vilket svarar mot en rät linje genom origo med 45 graders lutning. I ett sådant fall sammanfaller förväntad faktisk avkastning med modellens förväntade avkastning. Observera att förväntad faktisk avkastning = väntevärdet för faktisk avkastning. En modell med denna egenskap skulle således ge en genomsnittlig avkastning per spel lika med, säg 7 %. Om det spelades många spel skulle även förväntad avkastning enligt modell ligga på 7 %. 8

Således testas hypotesen: Signifikansnivå: 5 % Teststatistikan är F-fördelad med 2 och n-2 frihetsgrader där n = antalet identifierade överodds (Stock & Watson 2012) Beslutsregel: Förkasta H 0 om p-värdet 0,05. Observera att den önskvärda kombinationen av parameterskattningar ligger inom nollhypotesen. Att parameterskattningen ett positivt samband är en attraktiv modellegenskap. är signifikant positiv testas även med ett t-test på nivån 5 - %, då 2.4 T-test för långsiktig avkastning För att avgöra om eventuell avkastning är signifikant skild från noll genomförs ett t-test. Låt (u 1, u 2,.., u n ) vara ett stort slumpmässigt stickprov av avkastningen på n stycken spel enligt nämnda strategi. Då avkastningen antingen kan bli negativ eller positiv väljs en dubbelsidig alternativhypotes. där S = n = antal identifierade överodds Beslutsregel: Förkasta H0 om tobs 1,96 (Wackerly, Mendenhall & Scheaffer 2008) 9

3. Data Matchresultaten är inhämtade från Svenska innebandyförbundet, och sträcker sig från säsong 08/09 till säsong 13/14 i Svenska Superligan för herrar. Detta ger data från totalt 1092 matcher (sex säsonger, 26 omgångar/182 matcher i varje säsong). Datamaterialet består av 389 bortavinster, 178 oavgjorda och 525 hemmavinster. De matcher som tagits med är enbart grundomgångarna, ej slutspel. Oddsen är hämtade från Oddsportal. Oddsen är ett genomsnittsodds av 5-6 spelbolag, vilket innebär att det finns matchodds som både ligger under och över de odds som presenteras i denna uppsats. De aktuella spelbolagen är 10Bet, bet-at-home, bet365, Betsafe, Betway, bwin och Unibet. Varje match har tre stycken odds, vilket blir totalt 3276 stycken (1092 * 3). I data över odds förekommer ett litet bortfall, men detta får ses som marginellt av den totala mängden data på 3276 observationer. 4. Resultat och analys Resultat och analys är uppdelat i tre delar där olika modelleringar prövas. 4.1 Del 1 Till att börja med undersöks variabeln predikterad målskillnad, predmåldiff. En Ordinal logistisk regression skattas. Tabell 1: Ordinal logistisk regression med Resultat som beroende variabel och Predikterad målskillnad som förklarande variabel. Resultat Koefficient Standardavvikelse Z obs p-värde Predmåldiff 0,3245 0,0272 11,91 0,000 /Intercept1-0,5102 0,0706 /Intercept2 0,2681 0,0692 Parameterskattningen för Predmåldiff är klart signifikant, med ett p-värde < 0,05. Då parameterskattningen är signifikant kan spelstrategin testas, där överodds till att börja med identifieras. 10

Tabell 2: Antal identifierade överodds för hemmavinst, oavgjort och bortavinst. Matchutfall Antal överodds Hemmavinst 308 Oavgjort 726 Bortavinst 319 Totalt 1353 Matchutfallet Oavgjort sticker ut som det utfall där det finns flest överodds. Utfallen Hemmavinst och Bortavinst har liknande antal identifierade överodds. Enligt nämnd spelstrategi ska 1 krona satsas per identifierat överodds. Om överodds sammanfaller med förväntat resultat vinner man Odds - 1 antal kronor, till exempel i en match där det finns ett identifierat överodds för en hemmavinst och där hemmalaget också vinner. Om detta inte sammanfaller blir det en vinst på -1 krona. Detta summeras till en medelavkastning per match. Tabell 3: Avkastningen från modellen. Matchutfall Genomsnittlig avkastning per match Medelfel (S/ n) Hemmavinst -0,2486 0,0728 Oavgjort 0,0474 0,0883 Bortavinst -0,3534 0,0797 Totalt -0,1685 0,0770 I samtliga matchutfall förutom Oavgjort är avkastningen negativ. Ett t-test genomförs för total avkastning enligt följande nollhypotes och alternativhypotes: H 0 : E(U) = 0 H A : E(U) 0 Signifikansnivå: 5 % Beslutsregel: Förkasta H0 om t obs 1,96 t obs = -2,1883 p-värde: 0,0289 11

Antagandet att avkastningen är lika med noll kan förkastas på 5 % - nivån. Avkastningen är signifikant negativ. Resultaten visar att modelleringen måste vidareutvecklas för att uppnå positiv långsiktig avkastning med det givna datamaterialet. Dock behålls grundantagandena från variabeln predmåldiff när kommande förklarande variabler konstrueras. 4.2 Del 2 Då den predikterade målskillnaden som förklarande variabel inte lyckades få positiv avkastning används i den kommande modelleringen spelbolagens odds, dels genom variabeln Predpdiff 1, som är predikterad differens baserat på oddsen fram till aktuell match. Även variabeln p1 tas med som är den implicita sannolikheten för hemmavinst för aktuell match. Tabell 4: Ordinal logistisk regression med Resultat som beroende variabel och p1 och Predpdiff1 som förklarande variabler. Resultat Koefficient Standardavvikelse Z obs p-värde p1 4,4315 0,9814 4,52 0,000 Predpdiff 1 0,6883 0,5210 1,32 0,186 /Intercept1 1,4753 0,4320 /Intercept2 2,3148 0,4360 Parameterskattningen för p1 är klart signifikant på 5 % -nivå med ett p-värde < 0,05. Även Predpdiff1 får betraktas som en relevant variabel då p-värdet < 0,20. Tabell 5: Antal identifierade överodds för hemmavinst, oavgjort och bortavinst. Matchutfall Antal överodds Hemmavinst 41 Oavgjort 654 Bortavinst 7 Totalt 702 Matchutfallet oavgjort har i stort sett samtliga av totalt antal identifierade överodds. Då överoddsen är identifierade kan avkastningen beräknas. 12

Tabell 6: Avkastningen från modellen. Matchutfall Genomsnittlig avkastning per match Medelfel (S/ n) Hemmavinst -0,0878 0,1047 Oavgjort 0,2007 0,0961 Bortavinst 0,3357 0,2764 Totalt 0,1881 0,0909 Det är positiv avkastning i matchutfallen Oavgjort och Bortavinst. En negativ avkastning föreligger för Hemmavinst. Den totala avkastningen är positiv, och för att avgöra om avkastningen är skild från noll genomförs ett t-test enligt följande nollhypotes och alternativhypotes: H 0 : E(U) = 0 H A : E(U) 0 Signifikansnivå: 5 % Beslutsregel: Förkasta H0 om t obs 1,96 t obs = 2,0696 p-värde: 0,0389 Det är signifikant positiv avkastning på 5 % - nivån. Avkastning - Förväntad avkastning Då det föreligger positiv avkastning vidareutvecklas analysen med en regression mellan Avkastning och Förväntad avkastning. Tabell 7: Linjär regression med Avkastning som beroende variabel och Förväntad avkastning som förklarande variabel. Avkastning Koefficient Standardfel t obs p-värde Förvänt.avkast 2,3260 1,1842 1,96 0,050 Intercept -0,0980 0,1716-0,57 0,568 Den förväntade avkastningen är signifikant positiv på 5 % -nivån, p-värdet < 0,05 ( ). Skattningen för interceptet är ej signifikant skilt från noll på 5 % -nivån, p-värdet > 0,05. 13

Vid ett F-test av en rät linje genom origo med 45 graders lutning erhålls: p-värde = 0,4135 Nollhypotesen att båda parameterrestriktionerna gäller kan ej förkastas. Då parameterskattningen framför Förväntad avkastning är signifikant positiv (se Tabell 7) antyder resultatet att en högre avkastning skulle kunna erhållas om det bara spelades på matchutfall med en förväntad avkastning enligt modell som ligger en bit över noll. Denna spelstrategi visas nedan med exempel på gränser för den förväntade avkastningen. Tabell 8: Avkastning vid förväntad avkastning 5 % Avkastning Medelfel t obs p-värde 0,2533 0,1072 2,3635 0,0185 Avkastningen ökar och p-värdet sjunker i jämförelse med orginalskattningen. Tabell 9: Avkastning vid förväntad avkastning 10 % Avkastning Medelfel t obs p-värde 0,2259 0,1212 1,8640 0,0630 Avkastningen ökar och p-värdet sjunker i jämförelse med orginalskattningen. Dock är det en försämring i jämförelse med fallet Förväntad avkastning 5 %. 4.3 Del 3 I denna del testas slutligen den andra varianten av den predikterade differensen i sannolikhet mellan hemmavinst och bortavinst, Predpdiff2, denna gång således baserad på oddsen från de tre senaste omgångarna och odds för aktuell match. Tabell 10: Ordinal logistisk regression med Resultat som beroende variabel och Pdiff och Predpdiff 2 som förklarande variabler. Resultat Koefficient Standardavvikelse Z obs p-värde pdiff -0,7819 1,4752-0,53 0,596 Predpdiff2 3,7605 1,5085 2,49 0,013 /Intercept1-0,4156 0,0768 /Intercept2 0,4328 0,0768 Parameterskattningen för pdiff är ej signifikant på 5 % - nivå, då p-värdet > 0,05. Parameterskattningen för den förklarande variabeln Predpdiff2 är däremot signifikant då p- värdet < 0,05. 14

Tabell 11: Ordinal logistisk regression med Resultat som beroende variabel och P1 och Pred.pdiff2 som förklarande variabler. Resultat Koefficient Standardavvikelse Z obs p-värde p1-0,9528 2,8626-0,33 0,739 Predpdiff2 3,4591 1,4867 2,33 0,020 /Intercept1-0,8221 1,2260 /Intercept2 0,0264 1,2261 Parameterskattningen för p1 är ej signifikant på 5 % - nivå, då p-värdet > 0,05. Parameterskattningen för den förklarande variabeln Predpdiff2 är däremot signifikant då p- värdet < 0,05. I bägge regressionerna i Tabell 10 och Tabell 11 är parameterskattningen för Predpdiff2 klart signifikant (p-värde < 0,05), och tar ut effekterna av Pdiff och p1 implicit givna av oddsen. Detta tyder på att Preddiff2 är en relevant förklarande variabel i sig själv. En ny regression utförs således med Predpdiff2 som förklarande variabel. Tabell 12: Ordinal logistisk regression med Resultat som beroende variabel och Predpdiff 2 som förklarande variabel. Resultat Koefficient Standardavvikelse Z obs p-värde Predpdiff2 2,7934 0,2046 13,65 0,000 /Intercept1-0,4033 0,0753 /Intercept2 0,4256 0,0754 Parameterskattningen för Predpdiff2 är signifikant med ett p-värde < 0,05. Detta bekräftar tanken att Preddiff2 är en variabel som på egen hand kan ingå i en Ordinal logistisk regression. Detta gör det relevant att gå vidare och identifiera överodds och testa om modellen kan få långsiktig positiv avkastning. 15

Tabell 13: Antal identifierade överodds för hemmavinst, oavgjort och bortavinst. Matchutfall Antal överodds Hemmavinst 52 Oavgjort 652 Bortavinst 44 Totalt 748 Även i denna skattade modell är Oavgjort det matchutfall som identifierar klart flest överodds. Vidare beräknas avkastningen. Tabell 14: Avkastningen från modellen. Matchutfall Genomsnittlig avkastning per match Medelfel (S/ n) Hemmavinst -0,4986 0,1097 Oavgjort 0,1429 0,0957 Bortavinst -0,4450 0,1326 Totalt 0,0819 0,0919 Det föreligger en negativ avkastning för Hemmavinst och Bortavinst, dock är Oavgjort och Totalt avkastning positiv. Ett t-test genomförs således för total avkastning enligt följande nollhypotes och alternativhypotes: H 0 : E(U) = 0 H A : E(U) 0 Signifikansnivå: 5 % Beslutsregel: Förkasta H0 om t obs 1,96 t obs = 0,8912 p-värde: 0,3731 Avkastningen är ej signifikant skild från noll. 16

Avkastning - Förväntad avkastning Tabell 15: Linjär regression med Avkastning som beroende variabel och Förväntad avkastning som förklarande variabel. Avkastning Koefficient Standardavvikelse t obs p-värde Förvänt.avkast 2,9917 1,2255 2,44 0,015 Intercept -0,2212 0,1778-1,24 0,214 Den förväntade avkastningen är signifikant positiv på 5 % - nivån, p-värdet < 0,05. Interceptet är ej signifikant skilt från noll på 5 % - nivån, p-värdet > 0,05. Vid ett F-test av en rät linje genom origo med 45 graders lutning erhålls: p-värde = 0,2584 Nollhypotesen att båda restriktionerna gäller kan ej förkastas. Då parameterskattningen även i detta fall är signifikant positiv antyder resultatet att en högre avkastning skulle kunna erhållas vid förväntad avkastning större än noll. Tabell 16: Avkastning vid förväntad avkastning 5 % Avkastning Medelfel t obs p-värde 0,1543 0,1064 1,4507 0,1474 Tabell 17: Avkastning vid förväntad avkastning 10 % Avkastning Medelfel t obs p-värde 0,1856 0,1255 1,4788 0,1400 I både avkastning 5 % och 10 % ökar avkastningen och p-värdet sjunker vid jämförelse med den första skattningen då gränsen var noll. Det är även en förbättring mellan 5 % och 10 %. Vid en jämförelse mellan de två varianterna av variabeln Predpdiff syns styrkor och svagheter i båda. Med Predpdiff1 erhålls en högre positiv avkastning som även är signifikant positiv. Dock är parameterskattningen för variabeln ej signifikant, men har ett p-värde < 0,20 som är acceptabelt vid modellering. Det är därmed tveksamt hur mycket denna tillför utöver spelbolagens sannolikhet. Med Predpdiff2 erhålls en lägre positiv avkastning som inte är signifikant på 5 % - nivå. Dock är variabeln klart signifikant vid skattningen av en Ordinal logistisk regression. Det är tydligt att den tillför något utöver spelbolagens odds. När hänsyn 17

tas till förväntad avkastning blir avkastningen högre och p-värdet lägre. Detta gör Predpdiff2 till en variabel att föredra, och för en framtida studie skulle denna kunna testas med ett större datamateriel och/eller i en annan sport. Att både Predpdiff1 och Predpdiff2 ger signifikant positiv avkastning/signifikant parameterskattning baserat på spelbolagens implicita sannolikheter är ett intressant resultat. Detta kan möjligen förklaras med att metoden för predikterad skillnad mellan sannolikhet för hemmavinst och bortavinst ger en medelskattning som justerar fel i spelbolagens satta sannolikheter. Spelbolagen gör bra oddsskattningar på lång sikt, men i enskilda matcher är det inte omöjligt att lag under- eller överskattas. Detta går förmodligen att korrigera med den skattade föreslagna metoden för generering av Predpdiff1 och Predpdiff2. Ett annat intressant resultat är skillnaden i antal observerade överodds mellan modellerna. Predpdiff1 och Predpdiff2 har ett betydande mindre antal identifierade överodds för hemmavinst och bortavinst än Predmåldiff (se Tabell 2, 5 och 13), medan förändringen i överodds för oavgjort inte är lika stor procentuellt sett. Att det i Tabell 5 och 13 är så få identifierade överodds för Hemmavinst och Bortavinst, gör att det är de identifierade överoddsen för Oavgjort som bidrar till den positiva avkastningen. 5. Slutsats Vid en modell baserad på tidigare matchresultat uppnås ej långsiktig positiv avkastning. Däremot går det att få positiv avkastning baserat på spelbolagens odds. Resultatet antyder dock att hänsyn tas till tidigare satta matchodds. Den skattade modell som slutligen ansågs mest lämplig var en modell baserat på de fyra senaste omgångarna inklusive aktuell omgång. 18

6. Diskussion Det faktum att oddsen som används i denna uppsats är ett medelvärde av oddsen från 5-6 spelbolag (varierar från match till match) gör att avkastningen skulle kunna öka om man tog de högre oddsen, till exempel det högst satta oddset för varje match. Det är stor spridning i genomsnittlig avkastning per match. Detta beror på att oddsen för de oavgjorda matcherna sätts ganska högt. Skillnaden mellan förlust, -1 krona, och en vinst blir stor då en vinst kan ge till exempel 5,6 eller 7 kronor. Detta gör att resultatet är på gränsen till signifikant. Eftersom det visade sig att det var de oavgjorda matcherna som spelbolagen har svårast att sätta ett bra odds på, ger detta en större spridning vilket även bidrar till att man förmodligen behöver fler observationer för att kunna få stöd för en positiv avkastning. Sammanfattningsvis kan det diskuteras om den stora spridningen generellt kan bero på sporten, eller att spelbolagen har svårt att sätta bra odds på oavgjort. 19

7. Källförteckning Brillinger, D.R. (2006). Modelling som Norwegian Soccer data. World Scientific Review Volume 9in * 6in. Englund, J., & Duras, T. (2012). Statistisk oddsmodellering - Odds i spelarens favör. Örebro universitet. Forrest, D., Goddard., & Simmons, R. (2005). Odds-setters as forecasters: The case of English football. International Journal of Forecastning 21 (2005) s.551-564. Hosmer, D.W., & Lemeshow, S. (2000). Applied Logistic Regression (Second Edition). John Wiley & Sons, Inc. Innebandyförbundet. (2015). http://www.innebandy.se/statistikhistorik/tidigare-sasonger/. Hämtad 2015-04-13. Odachowski, K., & Grekow, J. (2013). Using Bookmaker Odds to Predict the Final Result of Football Matches. Computer Science Volume 7828 s. 196-205. Oddsportal. (2015). http://www.oddsportal.com/floorball/sweden/svenskasuperligan/results/page/2/. Hämtad 2015-04-20. Olsson, U. (2002). Generalized Linear Models. Studentlitteratur, Lund. Stefani, R.T. (1997). Predicting the Outcome of Soccer Matches. American Statistical Association 1997 Proceedings of the Section on Statistics in Sports. Stock, J.H., Watson, MM. (2011). Introduction to Econometrics. (Third Edition). Pearson Education Limited. Wackerly, D.D., Mendenhall, W., & Scheaffer, RL. (2008). Mathematical Statistics with Applications. (Seventh Edition). Thomson Learning, Inc. 20

8. Appendix Nedan visas de do-filer som har använts för att generera variablerna predmåldiff, predpdiff1 och predpdiff2. Predmåldiff capture program drop goaldiff3 program goaldiff3 quietly replace koef=. quietly replace koef1=. quietly replace koef2=. quietly replace koef3=. quietly replace koef4=. quietly replace koef5=. quietly replace koef6=. quietly replace koef7=. quietly replace koef8=. quietly replace koef9=. quietly replace koef10=. quietly replace koef11=. quietly replace koef12=. quietly replace koef13=. forvalues i=15(1)182{ if date[`i']==date[`i'-1]+1{ local j1=`i'-1 quietly reg goaldiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in 1/`j1' quietly replace koef3=_b[x3] in `i' 21

quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-2]+1{ local j2=`i'-2 quietly reg goaldiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in 1/`j2' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-3]+1{ 22

local j3=`i'-3 quietly reg goaldiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in 1/`j3' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-4]+1{ local j4=`i'-4 quietly reg goaldiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in 1/`j4' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' 23

quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-5]+1{ local j5=`i'-5 quietly reg goaldiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in 1/`j5' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-6]+1{ local j6=`i'-6 quietly reg goaldiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in 1/`j6' 24

quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else{ local j7=`i'-7 quietly reg goaldiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in 1/`j7' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' 25

quietly replace koef13=_b[x13] in `i' end Predpdiff1 capture program drop goaldiff3 program goaldiff3 quietly replace koef=. quietly replace koef1=. quietly replace koef2=. quietly replace koef3=. quietly replace koef4=. quietly replace koef5=. quietly replace koef6=. quietly replace koef7=. quietly replace koef8=. quietly replace koef9=. quietly replace koef10=. quietly replace koef11=. quietly replace koef12=. quietly replace koef13=. forvalues i=22(1)182{ if date[`i']==date[`i'-1]+1{ local j1=`i'-1 local k1=`i'-21 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k1'/`j1' 26

quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-2]+1{ local j2=`i'-2 local k2=`i'-22 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k2'/`j2' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' 27

quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-3]+1{ local j3=`i'-3 local k3=`i'-23 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k3'/`j3' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-4]+1{ local j4=`i'-4 local k4=`i'-24 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k4'/`j4' 28

quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-5]+1{ local j5=`i'-5 local k5=`i'-25 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k5'/`j5' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' 29

quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'-6]+1{ local j6=`i'-6 local k6=`i'-26 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k6'/`j6' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else{ local j7=`i'-7 local k7=`i'-27 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k7'/`j7' quietly replace koef3=_b[x3] in `i' 30

quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' end Predpdiff2 capture program drop goaldiff4 program goaldiff4 quietly replace koef=. quietly replace koef1=. quietly replace koef2=. quietly replace koef3=. quietly replace koef4=. quietly replace koef5=. quietly replace koef6=. quietly replace koef7=. quietly replace koef8=. quietly replace koef9=. quietly replace koef10=. quietly replace koef11=. quietly replace koef12=. 31

quietly replace koef13=. forvalues i=21(1)182{ if date[`i']==date[`i'+1]+1{ local k1=`i'-20 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k1'/`i' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'+2]+1{ local j2=`i'+1 local k2=`i'-19 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k2'/`j2' quietly replace koef3=_b[x3] in `i' 32

quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'+3]+1{ local j3=`i'+2 local k3=`i'-18 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k3'/`j3' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' 33

else if date[`i']==date[`i'+4]+1{ local j4=`i'+3 local k4=`i'-17 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k4'/`j4' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'+5]+1{ local j5=`i'+4 local k5=`i'-16 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k5'/`j5' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' 34

quietly replace koef13=_b[x13] in `i' else if date[`i']==date[`i'+6]+1{ local j6=`i'+5 local k6=`i'-15 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k6'/`j6' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' else{ 35

local j7=`i'+6 local k7=`i'-14 quietly reg pdiff x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 in `k7'/`j7' quietly replace koef3=_b[x3] in `i' quietly replace koef5=_b[x5] in `i' quietly replace koef13=_b[x13] in `i' end 36