Att prediktera ett mästerskap En fallstudie av fotbolls-em i Frankrike 2016 Av: Felix Kirstein & Mattias Stenlund Kandidatuppsats, 15hp Statistiska institutionen Uppsala universitet Handledare: Måns Thulin HT, 2016
Sammanfattning Syftet med uppsatsen är att anpassa en befintlig Poissonregressionsmodell för prediktioner av fotbollsmatcher under seriespel till att prediktera fotbollsmatcher under ett mästerskap. Detta gör vi genom en fallstudie baserad på kval- och träningsmatcher inför fotbolls-em 2016 i Frankrike. Modellen förutser antalet mål ett specifikt lag bör göra och släppa in mot ett annat specifikt lag. De prediktioner modellen ger jämförs mot de observerade resultaten från fotbolls-em. Det är utifrån dessa jämförelser vi ser hur väl modellen kan anpassas till att förutse utfallen under ett mästerskap. Studien kommer fram till att det finns vissa problem med att använda en modell framtagen för att prediktera antalet mål under seriespel till att prediktera antalet mål under ett mästerskap. Problemen diskuteras och vi belyser svårigheten med att förutsättningarna och uppläggen skiljer sig åt vilket modellen inte tar hänsyn till. Däremot påvisar studien att modellen med en viss framgång kan prediktera vinnare i enskilda fotbollsmatcher. Nyckelord Fotboll, mästerskap, antal mål, sannolikhet och Poissonregression
Innehållsförteckning 1. Inledning... 1 1.1 Problembakgrund... 1 1.2 Syfte... 1 1.3 Frågeställning... 1 1.4 Disposition... 2 2. Teori... 3 2.1 Tidigare forskning kring prediktion av sport... 3 2.2 Forskningsläge... 4 2.3 Poissonfördelningen och Poissonregression... 4 2.4 The Expectation-Maximization algorithm... 5 2.5 Akaike s information criterion & Bayesian information criterion... 6 2.6 Sammanfattning av analysmodell... 6 3. Metod... 7 3.1 Val av sport och mästerskap... 7 3.2 Val av metod... 8 3.3 Val av data och datainsamling... 9 3.4 Datahantering och variabelhantering... 9 3.5 Presentation av modeller... 10 3.6 Tillämpning av Poissonregression... 11 3.7 Uträkning av sannolikheter, Vinst(1), oavgjort(x), förlust(2)... 12 4. Resultat... 13 4.1 Introduktion till resultat... 13 4.2 Bestäm modell... 13 4.3 Tillämpning av Poissonregressionsmodell... 15 4.4 Sannolikheter... 17 4.5 Gruppspelet, observerat mot predikterat... 17 4.5.1 Grupp A... 18 4.5.2 Grupp B... 19 4.5.3 Grupp C... 20 4.5.4 Grupp D... 21 4.5.5 Grupp E... 22 4.5.6 Grupp F... 23 4.5.7 Bästa treor... 24
4.6 Slutspelet, observerat mot predikterat... 24 4.6.1 Predikterat slutspel... 24 4.6.2 Observerat slutspel... 27 4.6.3 Observerade matcher med estimerade parametrar... 28 4.7 Tillägg: exkludera extremvärden i form av Gibraltar och San Marino... 30 5. Analys... 32 5.1 Analys av att exkludera San Marino & Gibraltar... 33 6. Diskussion... 34 6.1 Tyskland... 36 7. Slutsats... 38 7.1 Tankar kring framtida undersökningar... 38 Källförteckning... 39 Tryckta källor... 39 Elektroniska källor... 39
1. Inledning 1.1 Problembakgrund Att gjorda mål i en fotbollsmatch antas följa en Poissonfördelning öppnar möjligheten för att försöka förutse hur specifika fotbollsmatcher ska sluta. Vi kommer i vår studie att undersöka hur väl en på förhand utvecklad Poissonregressionsmodell, anpassad för att prediktera fotbollsmatcher under ett seriespel, kan anpassas för att prediktera fotbollsmatcher under fotbolls-em 2016 i Frankrike. Regressionsmodellen som används är hämtad från Karlis & Ntzoufras (2003) med varianter och tillämpning från Karlis & Ntzoufras (2005). Totalt deltog 53 nationer i kvalet till fotbolls-em 2016. Från dessa kvalmatcher, med ett antal kompletterande träningsmatcher, hämtar vi vår data. Utifrån datan får vi variabler som representerar de olika nationernas styrkor i form av offensiv och defensiv kvalité. Dessa variabler används för att estimera parametrar i Poissonregressionsmodellen som sedan ger ett predikterat utfall av antal mål. Ett flertal tidigare studier har behandlat prediktioner av fotbollsmatcher under ett seriespel och visat att prediktioner av denna sort kan anses relativt träffsäkra. Att försöka använda en liknande teknik för att försöka förutse matcher under ett mästerskap är däremot mindre vanligt. I vårt arbete utgår vi från att en fotbollsmatch under ett seriespel kan jämställas med en fotbollsmatch under ett mästerskap. Detta borde då leda till att vi kan få relativt träffsäkra prediktioner även för ett mästerskap. 1.2 Syfte Syftet med uppsatsen är att utifrån en befintlig modell, anpassad för prediktering av fotbollsmatcher under seriespel, uppskatta en modell för att prediktera utfallet i fotbollsmatcher under ett mästerskap och därigenom kunna förutsäga vinnaren av mästerskapet. Vi gör en fallstudie som är begränsad till kval- och träningsmatcher inför fotbolls-em i Frankrike 2016. Målet med modellen är att den ska kunna prediktera de faktiska resultaten under EM 2016. 1.3 Frågeställning Är det möjligt att skatta en modell som kan användas för att prediktera fotbolls-em i Frankrike 2016? 1
1.4 Disposition Vi har valt att dela in denna studie i fem avsnitt. Vi börjar med teoriavsnittet där tidigare prediktioner av sport diskuteras. Vidare presenteras de teoretiska metoderna i form av bland annat Poissonregression och estimering av parametrar genom EM-algoritmen. Därefter behandlas metodavsnittet där vi förklarar hur vi valt att tillämpa teorin utifrån vårt syfte. Detta leder till resultatavsnittet där de empiriska resultaten presenteras. I analys- och diskussionavsnittet så kopplar vi samman teori och resultat för att visa på hur väl studien har fungerat. Vi avslutar med ett avsnitt innehållande slutsats samt tankar kring framtida undersökningar. 2
2. Teori 2.1 Tidigare forskning kring prediktion av sport Att försöka prediktera resultat i sport utifrån sannolikheter och som i vårt fall prediktera resultat i fotboll med ett akademisk angreppssätt är inget nytt. Däremot har angreppssätten skilt sig åt och det har inte varit självklart vilken typ av sannolikhetsfördelning som bäst förklarar ett resultat. Maher (1982) skriver om tidigare forskning som har försökt förkasta tesen att målen som görs under en fotbollsmatch följer en Poissonfördelning och istället skulle följa en negativ Binomial-fördelning. Detta motbevisas av Maher, som bryter ner antal mål ett lag gör och släpper in till offensiva och defensiva parametrar som sedan används för att beräkna utfallen för enskilda matcher. Observerade och predikterade resultat jämförs och med ett goodness-of-fit test visar man att en oberoende Poisson modell ger en relativt pricksäker bild av antalet mål som görs under en fotbollsmatch. Håvard & Salvesen (2000) tar ett statistiskt grepp om problemet att förutse hur en fotbollsmatch ska sluta och föreslår användandet av dynamiskt generaliserade linjära modeller. Dessa modeller kan användas för att estimera en tidsberoende förmåga hos ett lag i form av parametrar, vilket fungerar som underlag för att prediktera kommande fotbollsmatcher. Problemet med att prediktera fotbollsmatcher är att man måste ta hänsyn till alla lags individuella förmåga samtidigt, då de är beroende av varandra. Detta visar på att en fotbollsmatch kan förutses med en modell och att dess parametrar beror på tidsaspekten. Framgång och motgång inom fotboll mäts genom resultat, därför måste ett lags framgång bero på ett annat lags motgång. Att räkna ut hur en viss match ska sluta är en sak, men kan man använda samma princip för att räkna ut hur en hel säsong ska sluta? Lee (1997) ställer sig frågan om vi kan räkna ut sannolikheten för att ett lag ska vinna en liga. Författaren anser att ett sätt för att svara på den frågan är att räkna ut sannolikheten för hur varje enskild match ska sluta. Sannolikheten kommer att påverkas av vilka motståndare man har, samt om man spelar hemma eller borta. Författaren inser att det finns många andra variabler som påverkar utgången i en match men att dessa till stor del kan ignoreras. Författaren visar att man med simulationer kan prediktera vem som ska vinna ligan. 3
Att gå vidare från två enkla Poissonfördelningar till bivariat Poissonfördelning görs aktuellt av Karlis & Ntzoufras (2003). Detta kan användas då man driver tesen att antalet mål som utfaller i en sport där två lag intagrerar med varandra bör vara korrelerade. I deras artikel undersöker de olika förlängningar av den bivariata Poissonfördelningen och kommer fram till att det finns korrelation mellan antal mål som utfaller i fotboll och därför är den bivariata Poissonfördelningen att föredra framför de två enkla Poissonfördelningarna. Hur de sedan tillämpar förlängningarna över undersökt data presenteras vidare i Karlis & Ntzoufras (2005). 2.2 Forskningsläge Den tidigare forskningen visar på att det går att anpassa modeller för att prediktera fotbollsmatcher. Det är dock mest genomfört på data som är baserat på seriespel och inte på stora internationella mästerskap. Utifrån den tidigare forskningen ser vi en lucka som kan fyllas och vi väljer att försöka anpassa de modeller som presenteras av Karlis & Ntzoufras (2005) över data som inte är baserad på seriespel. Detta är intressant då mästerskapets upplägg skiljer sig från seriespelet och kan därmed ge andra resultat. 2.3 Poissonfördelningen och Poissonregression Haight (1967) beskriver Poissonfördelningen som en diskret sannolikhetsfördelning som predikterar sannolikheten att ett givet antal utfall ska ske under ett på förhand bestämt tidsintervall, då dessa utfall sker med en genomsnittlig hastighet och är oberoende av tiden till det senaste utfallet. Poissonfördelningens sannolikhetsfunktion är: P(Y = k) = e λ λ k Parametervärdet λ beskriver både väntevärde och variansen för funktionen. k är ett positivt heltal mellan noll och oändligheten. k! Poissonregressionen kan beskrivas av en modell bestående av en beroende variabel och ett antal förklarande variabler. Den beroende variabeln antas följa en Poissonfördelning som beror på en linjärkombination av de förklarande variablerna. P(Y i = k i ) = e λ k iλ i i, där Log(λ k i! i ) = Log(E(Y i )) = β 0 + β 1 X i + β p X i, i = 1,2,, k I regressionsmodellen ger λ i väntevärdet av Y i. Y i beror i sin tur på parametrarna β i och observation X i. Genom inversen av väntevärdet hos den Poissonfördelade beroende variabeln ges ett förväntat antal utfall. 4
En variant av Poissonfördelningen är den bivariata Poissonfördelningen. Den bivariata Poissonfördelningen tillåter beroende mellan två slumpmässiga variabler. För att de två variablerna X 1 och X 2 ska anta en bivariat Poissonfördelning så krävs tre enkla Poissonfördelningar som benämns Y 1, Y 2, Y 3. Dessa har väntevärde λ 1, λ 2, λ 3. Den bivariata Poissonfördelningen för X 1 och X 2 kan då beräknas genom X 1 = Y 1 + Y 3, X 2 = Y 2 + Y 3. Sannolikhetsfunktionen hos den bivariata Poissonfördelningen ges då av: Pr(X 1 = k 1, X 2 = k 2 ) = exp( λ 1 λ 2 λ 3 ) λ k 1 k 1 λ 2 2 k 1! k 2! min(k 1,k 2 ) ( k 1 k ) (k 2 k ) k! ( λ k 3 ) λ 1 λ 2 2.4 The Expectation-Maximization algorithm The expectation-maximization algorithm (EM-algoritmen) kan användas för att beräkna parametrarna i en Poissonregressionsmodell. EM-algoritmen är en brett tillämpbar strategi för den iterativa beräkningen av maximum-likelihood-estimation (McLachlan, G. J. & Krishnan, T., 1997). Varje iteration av EM-algoritmen sker i två steg, först det förväntade steget (Expectation) där missing values (saknad data) uppskattas utifrån deras villkorliga förväntningar. Sedan det maximerande steget (Maximization) som maximerar befintlig datas sannolikhet. Algoritmen används främst då det finns problem med ofullständig data något som vanlig maximum-likelihood-estimation har problem att hantera. EM-algormiten kan också vara användbar för komplexa modeller med fullständig data. EM-algoritmen estimerar parametrar utifrån befintlig data som används för att prediktera ofullständig eller ännu icke producerad data. Parameterskattningarna uppdateras löpande allt eftersom ny data tillkommer, för att hela tiden överensstämma med befintlig data. k=0 L(θ; X) = p(x θ) = p(x, Z θ) Då Z antas kunna växa exponentiellt blir summeringen av beräkningarna svårhanterade och det är här EM-algoritmen är användbar. Den beräknar maximum likelihood skattningen (MLS) via marginal likelihood genom att iterativt tillämpa följande två steg: E-steget: Beräknar det förväntade värdet hos log likelihood funktionen med hänsyn till den betingade fördelningen av Z givet X enligt bedömningen av parametern θ (t) : Q(θ θ (t) ) = E Z X,θ (t)[logl(θ; X, Z)] Z 5
M-steget: Hittar den maximerande sannolikheten hos parametern: θ (t+1) = arg max θ Q(θ θ (t) ) 2.5 Akaike s information criterion & Bayesian information criterion Akaike's information criterion (AIC) och Bayesian information criterion (BIC) är test framtagna för att välja ut den bästa av flera modeller. Testerna görs för att undersöka vilken av modellerna som förklarar datan bäst. När man vill anpassa data till modeller kan man öka förklaringen av datan genom att lägga till fler oberoende variabler. Ett problem med detta kan vara att modellerna blir överskattade vilket AIC löser genom att straffa likelihoodfunktionen så att enklare modeller föredras (Olsson, U., 2002). BIC fungera på samma sätt men straffar likelihood funktionen hårdare än vad AIC gör. Ju lägre BIC- och AIC-värde en modell har desto bättre passar datan modellen (Cryer, J.D. & Chan, K., 2008). Därmed föredras en modell med så lågt BIC och AIC värde som möjligt. AIC och BIC kan definieras som: AIC = 2p 2 ln(l) BIC = p ln(k) 2 ln (L) Där L är det maximerade värdet av likelihood funktionen för modellen, k anger antalet observationer och p anger antalet parametrar som estimeras i modellen. 2.6 Sammanfattning av analysmodell Vi utnyttjar att mål som utfaller under en fotbollsmatch anses följa en Poissonfördelning. Det innebär att vi kan använda en Poissonregression för att beräkna de förväntade utfallen av mål. Den generaliserade linjära regressionsmodellen består av en beroende variabel och ett antal förklarande variabler. Den beroende variabeln beskriver antalet förväntade mål ett specifikt lag ska göra under en fotbollsmatch. De förklarande variablerna består av estimerade parametrar som beskriver ett specifikt lags möjligheter att göra och släppa in mål mot ett annat specifikt lag. Dessa parametrar estimeras utifrån EM-algoritmen där datan består av tidigare fotbollsresultat. För att regressionsmodellen ska på ett så effektivt sätt som möjligt kunna prediktera fotbollsmatcher så testas olika varianter av den. Den variant som bäst förklarar datan utifrån AIC- och BIC-test kommer sedan att användas för prediktioner. 6
3. Metod 3.1 Val av sport och mästerskap Att försöka förutse hur en fotbollsmatch ska sluta är något tusentals svenskar ägnar sig åt varje vecka (Svenska Spels årsredovisning, 2015). Fotboll är en sport som dels avgörs av de enskilda lagens skicklighet men också genom det som kan tyckas vara tur och slump. Det är egenskaper som dessa som gör fotbollen svår att förutse samt lockar publiken till arenorna. Frågan är då; går det att se något mönster i ett lags spelade matcher vilket gör att man kan förutse lagets kommande matcher? Enligt Karlis & Ntzoufras (2003) så antar gjorda mål som inträffar i en fotbollsmatch oberoende av varandra en Poissonfördelning. De har i sin artikel Analysis of sport data by using bivariate Poisson models, beskrivit hur man med olika typer av generaliserade linjära-modeller kan förutse hur många mål ett specifikt lag bör göra mot ett annat, anpassat för seriespel i Italien. Med denna artikel som förlaga vill vi se om vi kan använda en liknande modell för att förutse utfallet i fotbollsmatcher som inte är från ett seriespel utan från ett mästerskap. Vi har valt att undersöka fotbolls-em i Frankrike 2016. Det är ett aktuellt mästerskap att undersöka då sporten och mästerskapet drar stort intresse världen över. Vi tycker mästerskapet är intressant då de är det senaste spelade mästerskapet och eftersom mästerskapet redan är spelat blir det intressant att redan nu kunna jämföra våra predikterade resultat med de observerade resultaten. Kvalet till fotbolls-em består av 53 nationer. Nationerna blir lottade in i nio grupper om sex lag i varje grupp (en grupp består av fem nationer). För att få grupperna någorlunda jämna så tillämpas gruppseedning. Seedningen baseras på nationernas europaranking (Uefa europaranking, 2015). Ettan och tvåan i varje grupp samt bästa grupptrea går direkt till EM i Frankrike och resterande åtta grupptreor gör upp om de fyra sista platserna till EM genom ett play-off. Efter kval återstår det 24 nationer, 23 som kvalat sig in samt värdnationen (Frankrike) som har en direktplats. Väl i EM lottas nationerna in i sex grupper om fyra lag i varje där de två främsta i varje grupp samt de fyra bästa treorna går vidare till slutspel. Rankningen av de bästa treorna baseras på hur lagen har presterat under gruppspelet. Utöver inspelade poäng så används antal gjorda och insläppta mål samt inbördes möten för att avgöra vilka som går vidare. Mästerskapet avslutas med ett slutspel där nationerna ställs emot 7
varandra i en åttondelsfinal. Vinnande nationer tar sig till kvartsfinal, semifinal och till sist gör två nationer upp i en final för att utse vinnaren av EM. Vem som möter vem efter gruppspelet följer ett på förhand bestämt schema (Uefa resultat, 2016). Då matcher inte får sluta oavgjort efter full tid efter att gruppspelet är avklarat så spelas först förlängning och om resultatet fortfarande står sig så avgörs matchen på straffar för att utse en vinnare. Matcher som har avgjorts efter förlängning eller straffar märks ut i resultatet med förkortningarna (e.f) för efter förlängning och (Str.) för straffar. Då modellerna vi testar inte kan ta hänsyn till en eventuell förlängning eller straffläggning så låter vi laget med högst sannolikhet, förkortas (P), gå vidare. 3.2 Val av metod Den insamlade datan är av kvantitativ karaktär där varje fotbollsmatch innehåller information kring vilka lag som spelar, vem som räknas som hemmalag och vem som räknas som bortalag samt hur många mål som har gjorts och släppts in av respektive lag. För att kunna använda datan till att prediktera utfallen i en fotbollsmatch använder vi oss av tidigare teorier om hur man kan analysera sportdata med hjälp av bivariata Poissonmodeller i likhet med Karlis & Ntzoufras (2003). Att anpassa insamlad data till redan befintlig teori är att använda sig av en form av deduktiv metod. Att anta en deduktiv metod låter oss förklara relationen mellan variabler och testa modeller utifrån befintlig teori för att antingen bekräfta den eller visa på ett behov av modifiering utifrån våra behov. Då vi har valt att försöka prediktera fotbolls-em i Frankrike 2016, och datan är inhämtad med det syftet, så kan vår studie ses som en fallstudie. En fallstudie är användbar för att hantera frågor som vad, hur och varför, något som stämmer väl överens med vår studies syfte (Saunders et al., 2007). Som Haight (1967) skrev är Poissonfördelningen en diskret sannolikhetsfördelning. Med den kan vi prediktera sannolikheten av antalet mål som ett lag bör göra och släppa in under de 90 minuterna en fotbollsmatch pågår. En fotbollsmatch innehåller alltid två lag vilket gör att den enkla Poissonfördelningen inte räcker till. Istället är en dubbel-poisson eller en bivariat Poissonfördelning mer passande där bägge lagen jämförs samtidigt. Även i dessa fördelningar har man funnit begränsningar kring prediktionen då oavgjorda resultat lätt blir underskattade. Dixon & Coles (1997) löser detta genom att blåsa upp (inflate) sina modeller med att addera en parameter som kompenserar för eventuell underspridning och överspridning samt positiv och negativ korrelation. 8
I Karlis & Ntzoufras (2005) så undersöker författarna fem stycken varianter av Poissonfördelningen över tolv olika modeller för att avgöra vilken variant och modell som bäst förklarar utfallen i den Italienska ligan (Serie A) från år 1991. Vi har valt att använda samma utarbetade varianter och modeller över vår insamlade data för att undersöka om den modell som antas förklara vår data bäst kan hjälpa oss att prediktera och förklara utfallen av fotbolls-em 2016. 3.3 Val av data och datainsamling Datamaterialet för vår studie är hämtad från Uefa resultat (2016) och är begränsad till matcherna under kval-gruppspelet mellan 7/9-2014 till 13/10-2015 och ett fåtal träningsmatcher under samma period. Frankrike har en direktplats till EM då de är värdnation och därmed har vi tagit data för Frankrikes matcher enbart från deras senaste träningsmatcher då nationen inte deltar i kvalet. Totalt består vårt datamaterial av 367 kval- och träningsmatcher där varje nation spelat mellan 12-16 matcher. Vi har valt datan från kval- och träningsmatcher då alla nationer som vi vill prediktera för är med. Datan är vald för att den är representativ för att svara på syftet vi har i denna studie. Varför vi har valt att begränsa datamaterialet till kvalet och några fåtal träningsmatcher är för att ju senare datan är insamlad desto bättre representerar datan nationernas form. Datan som är insamlad och intresserar oss är huruvida laget spelar på hemma- och bortaplan och hur många mål lagen gör respektive släpper in. 3.4 Datahantering och variabelhantering Materialet är hämtat från Uefa resultat (2016). Härifrån har vi manuellt fört in all data i Excel för att sedan på ett smidigt sätt kunna importera materialet till R, vilket är det statistiska program som vi primärt använder oss av i studien. Valet av statistikprogram föll på R då en tidigare studie, Karlis & Ntzoufras (2005), gjorts i programmet samt att R kan behandla Poissonregression, något som vi använder oss av i denna studie. Spridningsdiagram som används är skapade i Minitab. Datamaterialet innehåller fyra variabler: mål1, mål2, lag1 och lag2. Dessa beskriver antal gjorda mål för hemma- och bortalag samt antal insläppta mål för hemma- och bortalag. Variabler testas i de olika modellerna där de med hjälp av EM-algoritmen skattar offensiva och defensiva parametrar för varje enskilt lag. Valet av vilken modell som sedan kommer användas bestäms utifrån BIC- och AIC-värdena för varje modell. Dessa värden beskriver hur 9
väl de olika modellerna förklarar datan och ju lägre BIC-och AIC-värde desto bättre passar datan modellen (Cryer, J.D. & Chan, K., 2008). 3.5 Presentation av modeller Alla modeller består av två stycken Poissonfördelningar då en fotbollsmatch innehåller två fotbollslag. De fem varianter av modeller som testas är: 1. Double Poisson model som är två stycken enkla Poissonfördelningar. Denna modell tar inte hänsyn till att antalet mål som utfaller under en fotbollsmatch är korrelerade. 2. Bivariat Poisson model som tillåter ett positivt beroende mellan två slumpmässiga variabler. Modellen har en kovarians och tar därmed hänsyn till korrelation mellan de två variablerna, alltså antalet mål som utfaller. 3. Zero inflated model som passar om variansen hos variablerna är större än dess väntevärde, även kallat överspridning. Dessa modeller används framförallt när antalet nollor i datan överstiger det förväntade för en Poissonfördelad variabel. Modellerna används alltså för att till exempel undvika att överskatta antalet matcher som slutar 0-0 4. Diagonal inflated bivariate Poisson model som tar hänsyn till fler faktorer än den bivariata. Dessa modeller kan utöver hantering av positiv korrelation även hantera under- och överspridning samt negativ korrelation. De används främst för att öka sannolikheten för oavgjorda resultat. 5. Diagonal inflated double Poisson model som inte tar hänsyn till korrelation men tar hänsyn till under och överspridning. Alltså finns det ingen korrelation mellan antal mål som utfaller men ökar sannolikheten för oavgjorda resultat. Utförligare beskrivning av varianterna med dess 12 förlängningar beskrivs i sin helhet av Karlis & Ntzoufras (2005). De parametrar som ges av den bäst anpassade modellen kommer att användas i en log-linjär regressionsmodell, de vill säga en Poissonregression där vi kan estimera hur många mål ett lag gör och släpper in under en match. Vi kommer därefter kunna prediktera hur varje enskilt lag kommer prestera under EM och jämföra det mot det faktiska utfallet. 10
3.6 Tillämpning av Poissonregression För att kunna räkna ut antal mål ett specifikt lag förväntas göra används Poissonregression. Den dubbla Poissonfördelningen beräknar antalet mål (2.4 och 2.5) med (2.1) och (2.2). I resterande modeller beräknas antalet mål (2.6 och 2.7) med (2.1), (2.2) samt (2.3). (Se exempel på tillämpning i Resultat 4.3.) (X i, Y i )~BP(λ 1i, λ 2i, λ 3i ) log(λ 1i ) = µ + home + att hi + def gi (2.1) log(λ 2i ) = µ + att gi + def hi (2.2) Där i = 1,2,, k, där k står för antal observationer (matcher), h i och g i indikerar hemmalag och bortalag i observation (match) i. X i och Y i är antal gjorda mål av hemmalaget respektive bortalaget i match i. λ 1i och λ 2i är förväntat antal gjorda mål för hemmalag respektive bortalag, µ är en konstant parameter och home är en hemmaeffekt parameter som bara Frankrike kommer att ta del av då Frankrike är det enda hemmalaget i mästerskapet. Till sist har vi att och def vilket är en sammanfattning av ett lags offensiva respektive defensiva kvalitéer. log(λ 3i ) = β con + γ 1 β home away hi + γ 2 β gi (2.3) λ 3i beskriver den förväntade korrelationen mellan variablerna X i och Y i. β con är en konstant parameter och γ 1 β home hi och γ 2 β away gi är parametrar som beror på hemmalaget respektive bortalaget. γ 1 och γ 2 är dummy variabler som sätts till 1 eller 0 beroende på om hemmalaget eller bortalaget påverkar kovarians. Om det anses att både hemmalaget och bortalaget har en konstant kovarians så sätts γ 1 och γ 2 till 0, och om det anses att kovariansen bara beror på hemmalaget så sätts γ 1 till 1 och γ 2 till 0. E(X i ) = λ 1i (2.4) E(Y i ) = λ 2i (2.5) λ 1i och λ 2i är förväntade antal gjorda mål för hemmalag respektive bortalag. λ 3i är korrelationen mellan dessa variabler. 11
E(X i ) = (1 p)(λ 1i + λ 3i ) + pθ 1 (2.6) E(Y i ) = (1 p)(λ 2i + λ 3i ) + pθ 1 (2.7) Här är p den uppskattat mixade andelen mellan ändlig och oändligt bivariat Poissonfördelning och θ 1 är en parameter som används om man vill blåsa upp en modell för att undvika underskattning. 3.7 Uträkning av sannolikheter, Vinst(1), oavgjort(x), förlust(2) Vi använder Poissonfördelningen för att göra om väntevärde till sannolikheter för olika utfall. Genom att använda Poissonfördelning kan vi beräkna sannolikheten att ett lag vinner med olika resultat, till exempel sannolikheten att Frankrike vinner med 1-0, 2-0, 2-1 och så vidare. Vi kommer beräkna alla sannolikheter mellan 0-0 och 10-10 i alla matcher som spelas i gruppspelet och slutspelet. Sannolikheterna kommer sedan summeras, alla vinster hemmalaget (1), alla oavgjorda matcher (X) och vinst bortalaget (2). Hädanefter kommer (1X2) användas som förkortning för hemmavinst, oavgjord match och bortavinst. Summan av alla sannolikheter kommer uppgå till 100 % (Se Resultat 4.4 för exempel). Att presentera de predikterade sannolikheterna bidrar med att synliggöra hur styrkeförhållandena mellan lagen är fördelat utöver det predikterade resultaten. De används dessutom för att i prediktioner avgöra oavgjorda resultat under slutspelet. 12
4. Resultat 4.1 Introduktion till resultat Europamästerskapet står för dörren och för 24 nationer finns fortfarande chansen att stå som Europeiska mästare av fotbolls-em 2016. Kvalet har varit tufft och många framstående fotbollsnationer har fallit bort. Nästa utmaning är att ta sig vidare från gruppspelet. 4.2 Bestäm modell Utifrån kvalets 367 matcher har vi sammanställt antalet gjorda och insläppta mål för hemmalag och bortalag. För att på bästa sätt prediktera utfallet av EMs matcher testar vi nu den insamlade datan över de på förhand bestämda modellerna. Genom att testa modellerna över datan i R kan vi beräkna AIC- och BIC-värden. Dessa värden indikerar vilken modell vi bör använda för våra prediktioner: Tabell 1 - Val av modell Modeller Modell.nr AIC BIC Double Poisson Model 1 2017,73 2514,9 Bivariate Poisson Model level 1 2 2011,84 2514,78 Bivariate Poisson Model level 2 3 2665,35 2815,47 Bivariate Poisson Model level 3 4 2076,13 2820,65 Bivariate Poisson Model level 4 5 2082,83 3070,92 Zero Inflated Model 6 2013,84 2519,38 Diagonal Inflated Bivariate Poisson Model level 1 7 2015,84 2525,98 Diagonal Inflated Bivariate Poisson Model level 2 8 2015,84 2525,98 Diagonal Inflated Bivariate Poisson Model level 3 9 2017,84 2535,57 Diagonal Inflated Bivariate Poisson Model level 4 10 2019,84 2539,17 Diagonal Inflated Bivariate Poisson Model level 5 11 2015,84 2525,98 Diagonal Inflated Double Poisson Model 12 2021,73 2527,26 I tabell (1) presenteras resultaten av AIC och BIC testen av modellerna. Utifrån de givna resultaten ovan antas modell nummer 2, den bivariata Poisson modellen, vara den som bäst förklarar datan. När vi har bestämt oss för modell 2 använder vi modellen för att beräkna lagens offensiva och defensiva parametrar. Genom dessa parametrar får vi en indikation på hur bra respektive lag är och hur bra lagens parametrar står sig mot varandra. 13
Defensiv Spridningsdiagram, defensiva mot offensiva parametrar 1,5 Rumänien Spanien 1,0 0,5 0,0-0,5-1,0-1,5 San Marino Gibraltar Ukraina Portugal England Kroatien Nederländerna Island Frankrike Danmark Slovakien Wales Ungern Österrike Albanien Skottland Irland Belgien Italien Polen Slovenien Serbien Sverige Tjeckien Kazakstan Ryssland N.Irland Tyskland Vitryssland Lettland Bulgarien Bosnien Armenien Montenegro Moldavien Schweiz Norge Malta Macedonien Grekland Finland Estland Litauen Georgien Cypern Israel Azerbajdzjan Färöarna Turkiet Luxemburg Liechtenstein Andorra -16-12 -8 Offensiv -4 0 Figur 1 - Offensiva & defensiva parametrar 54 nationer Utifrån figur (1) kan vi se hur de 54 nationernas offensiva och defensiva parametrar står sig mot varandra. Lag som gör många mål erhåller en hög offensiv parameter och lag som släpper in få mål erhåller en låg defensiv parameter. I bilden ovan har vi för tydlighetens skull multiplicerat alla defensiva parametrar med minus 1 för att lätt kunna tolka lagens styrkor och svagheter. Då vi har multiplicerat den defensiva parametern med minus 1 så kommer ett lag med bra defensiv och offensiv synas i bildens övre högra hörn medan lag med dålig defensiv och offensiv syns nere i vänstra hörn. Som figur (1) visar är spridningen mellan lagen stor. Vi kan tydligt avläsa att det finns två stycken extremvärden i San Marino och Gibraltar. (Extremvärden hanteras nedan i 4.7.) 14
Defensiv Då figur (1) ovan med 54 nationer är svårtydd presenterar vi nedan parametrarna för de 24 nationerna som går vidare från kvalet till EM, se figur (2). Spridningsdiagram, defensiva mot offensiva parametrar 1,5 Rumänien Spanien Ukraina 1,0 Portugal 0,5 0,0 Wales Ungern Irland Italien Albanien Sverige Kroatien England Island Slovakien Österrike Polen Belgien Ryssland Tyskland Tjeckien N.Irland Frankrike Schweiz -0,5 Turkiet 0,2 0,4 0,6 0,8 1,0 Offensiv 1,2 1,4 1,6 1,8 Figur 2 - Offensiva & defensiva parametrar 24 nationer I figur (2) ser vi tydligt hur nationernas parametrar står sig mot varandra. Här kan vi se att Frankrike och Spanien ser starka ut medan nationer som Wales och Turkiet erhåller en dålig offensiv respektive defensiv parameter, något som sammanlagt ger ett svagare intryck. 4.3 Tillämpning av Poissonregressionsmodell Lagens parametrar används i Poissonregressionsmodellen, (se metod 3.6) för att prediktera antalet mål ett lag bör göra och släppa in mot ett annat. Vi använder två versioner av modellen, dels en som tar hänsyn till hemmaplansfördel och dels en som inte tar hänsyn till hemmaplansfördel. Under ett EM i fotboll finns det endast ett lag som vi räknar som hemmalag (värdnationen). Under EM 2016 är den nationen Frankrike. Detta innebär alltså att det endast är när prediktioner görs för Frankrikes matcher som modellen med parametern hemmaplansfördel kommer att användas. 15
Nedan visas ett exempel på hur vi går tillväga för att prediktera mål i en match mellan två lag. Parametrar från den bivariata modellen Parametrar Offensiv Defensiv Frankrike(Fra) 1,72-0,55 Rumänien(Rom) 0,75-1,42 Intercept -0,91 Korrelation 0,178 Hemmafördel 0,22 Prediktion för antal mål i matchen mellan Frankrike och Rumänien Log(Fra) = Intercept + hemmafördel + offensiv Fra + defensiv Rom + korrelation ( 0,21) = 0,91 + 0,22 + 1,72 + ( 1,42) + 0,178 EXP( 0,21) = 0,81 mål Log(Rom) = Intercept + offensiv Rom + defensiv Fra + korrelation ( 0,53) = 0,91 + 0,75 + ( 0,55) + 0,178 EXP( 0,53) = 0,59 mål Prediktionen säger att Frankrike bör göra 0.81 mål medan Rumänien bör göra 0.59 mål. Med avrundning slutar alltså matchen 1-1. 16
Frankrike 4.4 Sannolikheter Varje match som spelas föranleds av en mängd spekulationer om vilka som kommer att vinna. Alla har sina egna teorier, vissa baserade på fakta, andra på känslor. Vi låter istället sannolikheten bestämma vinnaren. Utöver att prediktera antalet gjorda och insläppta mål som varje match innehåller använder vi sannolikhetsfunktionen för Poissonfördelningen till att prediktera sannolikheten för hemmavinst, oavgjort samt bortavinst (1X2) för varje match. Öppningsmatchen står mellan Frankrike och Rumänien. Sannolikheten för deras match beräknas enligt tabell (2) nedan. Tabell 2 - Sannolikheter för olika utfall i en fotbollsmatch mellan Frankrike och Rumänien Rumänien Mål 0 1 2 3 4 5 6 7 8 9 10 0 24,660 14,549 4,292 0,844 0,125 0,015 0,001 0,000 0,000 0,000 0,000 1 19,974 11,785 3,477 0,684 0,101 0,012 0,001 0,000 0,000 0,000 0,000 2 8,090 4,773 1,408 0,277 0,041 0,005 0,000 0,000 0,000 0,000 0,000 3 2,184 1,289 0,380 0,075 0,011 0,001 0,000 0,000 0,000 0,000 0,000 4 0,442 0,261 0,077 0,015 0,002 0,000 0,000 0,000 0,000 0,000 0,000 5 0,072 0,042 0,012 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000 6 0,010 0,006 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 7 0,001 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 8 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 9 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 I tabell (3) har vi summerat alla sannolikheter att Frankrike vinner, spelar lika och förlorar i öppningsmatchen mot Rumänien. På följande sätt presenteras varje match under gruppspel och slutspel. Tabell 3 - Summerad sannolikhet för vinst(1), oavgjort(x), förlust(2) 1 X 2 38% 38% 24% 4.5 Gruppspelet, observerat mot predikterat I tabell (4, 6, 8, 10, 12, 14) kan vi avläsa antal predikterade mål, predikterade sannolikheten för 1X2 samt de faktiska resultaten. Resultatet från tabellerna (4, 6, 8, 10, 12, 14) används för att skapa tabellerna (5, 7, 9, 11, 13, 15). Här ser vi hur lagen utifrån sina prestationer har placerat sig i sina respektive grupper. GM står för gjorda mål, IM står för insläppta mål, MS står för målskillnad och P står för poäng. Resultaten i tabellerna jämförs mellan det predikterade och det observerade och där alltså topp två i varje grupp samt de fyra bästa treorna går vidare till slutspelet. 17
4.5.1 Grupp A Tabell 4 - Grupp A, matchresultat för observerat- och predikterad matcher samt predikterade sannolikheter Grupp A Predikterade mål Predikterade sannolikheter Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Frankrike Rumänien 1 1 38% 38% 24% 2 1 Albanien Schweiz 1 1 51% 27% 23% 0 1 Rumänien Schweiz 1 0 66% 26% 8% 1 1 Frankrike Albanien 2 1 76% 16% 8% 2 0 Rumänien Albanien 1 0 43% 45% 12% 0 1 Schweiz Frankrike 1 5 1% 3% 96% 0 0 Tabell (4) redovisar predikterat och observerat resultat för de spelade matcherna i gruppspelet i grupp A. Vi har beräknat poängen för de predikterade matchresultaten och summerat nationernas totala poäng nedan, (se tabell 5). Tabell 5 - Grupp A, sammanställning av predikterad samt observerad gruppspelstabell Predikterat Observerat Pos. Grupp A GM IM MS P Pos. Grupp A GM IM MS P 1 Frankrike 8 3 5 7 1 Frankrike 4 1 3 7 2 Rumänien 3 1 2 7 2 Schweiz 2 1 1 5 3 Albanien 2 4-2 1 3 Albanien 1 3-2 3 4 Schweiz 2 7-5 1 4 Rumänien 2 4-2 1 Summering mål 15 Summering mål 9 Från grupp A, tabell (5) predikteras Frankrike och Rumänien gå vidare som gruppens etta och tvåa. Detta jämförs mot att Frankrike och Schweiz faktiskt går vidare. Störst skillnad i grupp A står Schweiz för som predikteras få en målskillnad på minus 5 istället för plus 1. En konsekvens av detta blir att man istället för att faktiskt bli grupptvåa predikteras att sluta som gruppens fyra och därmed bli utslagna ur mästerskapet. Om vi jämför antal gjorde mål mellan predikterade gruppen och den observerade gruppen kan vi konstatera att vi har överskattat de predikterade målen. Gruppens antal predikterade mål är 15, vilket jämförs mot de observerade målen som är 9. 18
4.5.2 Grupp B Tabell 6 - Grupp B, matchresultat för observerat- och predikterad matcher samt predikterade sannolikheter Grupp B Predikterade mål Predikterade sannolikheter Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Wales Slovakien 0 1 13% 34% 53% 2 1 England Ryssland 3 1 77% 15% 8% 1 1 Ryssland Slovakien 1 1 26% 27% 47% 1 2 England Wales 1 0 59% 32% 9% 2 1 Ryssland Wales 1 1 48% 33% 19% 0 3 Slovakien England 1 1 24% 33% 43% 0 0 Tabell (6) redovisar predikterat och observerat resultat för de spelade matcherna i gruppspelet i grupp B. Vi har beräknat poängen för de predikterade matchresultaten och summerat nationernas totala poäng nedan, (se tabell 7). Tabell 7 - Grupp B, sammanställning av predikterad samt observerad gruppspelstabell Predikterat Observerat Pos. Grupp B GM IM MS P Pos. Grupp B GM IM MS P 1 England 5 2 3 7 1 Wales 6 3 3 6 2 Slovakien 3 2 1 5 2 England 3 2 1 5 3 Ryssland 3 5-2 2 3 Slovakien 3 3 0 4 4 Wales 1 3-2 1 4 Ryssland 2 6-4 1 Summering mål 12 Summering mål 14 Från grupp B, tabell (7) predikteras England och Slovakien gå vidare som gruppens etta och tvåa. Detta jämförs mot att Wales och England faktiskt går vidare. Störst skillnad i grupp B står Wales för som predikteras att få en målskillnad på minus 2 istället för plus 3. En konsekvens av detta blir att faktiskt vinna gruppen predikteras sluta som grupp fyra. Gruppens antal predikterade mål är 12, vilket jämförs mot de observerade målen som är 14. 19
4.5.3 Grupp C Tabell 8 - Grupp C, matchresultat för observerat- och predikterad matcher samt predikterade sannolikheter Grupp C Predikterade mål Predikterade sannolikheter Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Polen N.Irland 2 2 32% 22% 46% 1 0 Tyskland Ukraina 1 1 29% 27% 44% 2 0 Ukraina N.Irland 1 1 46% 30% 24% 0 2 Tyskland Polen 1 2 27% 24% 49% 0 0 Ukraina Polen 1 1 47% 34% 19% 0 1 N.Irland Tyskland 2 2 58% 19% 23% 0 1 Tabell (8) redovisar predikterat och observerat resultat för de spelade matcherna i gruppspelet i grupp C. Vi har beräknat poängen för de predikterade matchresultaten och summerat nationernas totala poäng nedan, (se tabell 9). Tabell 9 - Grupp C, sammanställning av predikterad samt observerad gruppspelstabell Predikterat Observerat Pos. Grupp C GM IM MS P Pos. Grupp C GM IM MS P 1 Polen 5 4 1 5 1 Tyskland 3 0 3 7 2 N.Irland 5 5 0 3 2 Polen 2 0 2 7 3 Ukraina 3 3 0 3 3 N.Irland 2 2 0 3 4 Tyskland 3 5-2 1 4 Ukraina 0 5-5 0 Summering mål 16 Summering mål 7 Från grupp C, tabell (9) predikteras Polen och Nordirland gå vidare som gruppens etta och tvåa. Ukraina går vidare som en av de fyra bästa treorna. Detta jämförs mot att Tyskland och Polen faktiskt går vidare med Nordirland som en av de bästa treorna. Störst skillnad i grupp C står Tyskland för som predikteras få en målskillnad på minus 2 istället för plus 3. En konsekvens av detta blir att man istället för att faktiskt vinna gruppen blir gruppens fyra. Gruppens antal predikterade mål är 16, vilket jämförs mot de observerade målen som är 7. 20
4.5.4 Grupp D Tabell 10 - Grupp D, matchresultat för observerat- och predikterad matcher samt predikterade sannolikheter Grupp D Predikterade mål Predikterade sannolikheter Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Turkiet Kroatien 1 3 8% 13% 79% 0 1 Spanien Tjeckien 2 1 64% 24% 12% 1 0 Tjeckien Kroatien 1 1 34% 28% 38% 2 2 Spanien Turkiet 4 0 94% 5% 1% 3 0 Tjeckien Turkiet 4 1 92% 5% 3% 0 2 Kroatien Spanien 0 1 13% 35% 52% 2 1 Tabell (10) redovisar predikterat och observerat resultat för de spelade matcherna i gruppspelet i grupp D. Vi har beräknat poängen för de predikterade matchresultaten och summerat nationernas totala poäng nedan, (se tabell 11). Tabell 11 - Grupp D, sammanställning av predikterad samt observerad gruppspelstabell Predikterat Observerat Pos. Grupp D GM IM MS P Pos. Grupp D GM IM MS P 1 Spanien 7 1 6 9 1 Kroatien 5 3 2 7 2 Tjeckien 6 4 2 4 2 Spanien 5 2 3 6 3 Kroatien 4 3 1 4 3 Turkiet 2 4-2 3 4 Turkiet 2 11-9 0 4 Tjeckien 2 5-3 1 Summering mål 19 Summering mål 14 Från grupp D, tabell (11) predikteras Spanien och Tjeckien gå vidare som gruppens etta och tvåa. Kroatien går vidare som en av de fyra bästa treorna. Detta jämförs mot att Kroatien och Spanien faktiskt går vidare. Störst skillnad i grupp D står Turkiet för som predikteras få en målskillnad på minus 9 istället för minus 2, något som dock inte påverkar Turkiets fortsatta medverkan. Även med Tjeckien finns en stor skillnad där man predikteras få en målskillnad på plus 2 istället för minus 3. En konsekvens av detta blir att Tjeckien predikteras till en andraplats i gruppen mot den faktiska fjärdeplatsen. Gruppens antal predikterade mål är 19, vilket jämförs mot de observerade målen som är 14. 21
4.5.5 Grupp E Tabell 12 - Grupp E, matchresultat för observerat- och predikterad matcher samt predikterade sannolikheter Grupp E Predikterade mål Predikterade sannolikheter Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Irland Sverige 1 1 36% 34% 30% 1 1 Belgien Italien 1 1 39% 32% 29% 0 2 Italien Sverige 1 1 38% 32% 30% 1 0 Belgien Irland 1 1 39% 34% 27% 3 0 Italien Irland 1 0 41% 39% 20% 0 1 Sverige Belgien 0 1 16% 32% 52% 0 1 Tabell (12) redovisar predikterat och observerat resultat för de spelade matcherna i gruppspelet i grupp E. Vi har beräknat poängen för de predikterade matchresultaten och summerat nationernas totala poäng nedan, (se tabell 13). Tabell 13 - Grupp E, sammanställning av predikterad samt observerad gruppspelstabell Predikterat Observerat Pos. Grupp E GM IM MS P Pos. Grupp E GM IM MS P 1 Belgien 4 3 1 5 1 Italien 3 1 2 6 2 Italien 3 2 1 5 2 Belgien 4 2 2 6 3 Irland 2 3-1 2 3 Irland 2 4-2 4 4 Sverige 2 3-1 2 4 Sverige 1 3-2 1 Summering mål 11 Summering mål 10 Från grupp E, tabell (13) predikteras Belgien och Italien gå vidare som gruppens etta och tvåa. Irland går vidare som en av de fyra bästa treorna. Detta jämförs mot att Italien och Belgien faktisk går vidare med Irland som en av de bästa treorna. I denna grupp predikteras inga större skillnader mot det observerade. Gruppens antal predikterade mål är 11, vilket jämförs mot de observerade målen som är 10. 22
4.5.6 Grupp F Tabell 14 - Grupp F, matchresultat för observerat- och predikterad matcher samt predikterade sannolikheter Grupp F Predikterade mål Predikterade sannolikheter Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Österrike Ungern 1 1 43% 37% 20% 0 2 Portugal Island 1 1 38% 33% 29% 1 1 Island Ungern 1 1 52% 31% 17% 1 1 Portugal Österrike 1 1 47% 33% 20% 0 0 Island Österrike 2 1 56% 25% 19% 2 1 Ungern Portugal 0 1 11% 33% 56% 3 3 Tabell (14) redovisar predikterat och observerat resultat för de spelade matcherna i gruppspelet i grupp F. Vi har beräknat poängen för de predikterade matchresultaten och summerat nationernas totala poäng nedan, (se tabell 15). Tabell 15 - Grupp F, sammanställning av predikterad samt observerad gruppspelstabell Predikterat Observerat Pos. Grupp F GM IM MS P Pos. Grupp F GM IM MS P 1 Island 4 3 1 5 1 Ungern 6 4 2 5 2 Portugal 3 2 1 5 2 Island 4 3 1 5 3 Österrike 3 4-1 2 3 Portugal 4 4 0 3 4 Ungern 2 3-1 2 4 Österrike 1 4-3 1 Summering mål 12 Summering mål 15 Från grupp F, tabell (15) predikteras Island och Portugal gå vidare som gruppens etta och tvåa. Österrike går vidare som en av de fyra bästa treorna. Detta jämförs mot att Ungern och Island går vidare med Portugal som en av de bästa treorna. Störst skillnad i grupp F står Ungern för som predikteras få en målskillnad på minus 1 istället för plus 2. En konsekvens av detta blir att Ungern predikteras en fjärdeplats i gruppen mot den faktiska förstaplatsen. Prediktionen säger även att Österrike går från en faktisk målskillnad på minus 3 till minus 1 vilket räcker för att de ska gå vidare i slutspelet. Gruppens antal predikterade mål är 12, vilket jämförs mot de observerade målen som är 15. 23
4.5.7 Bästa treor Tabell 16 - Sammanställning av predikterade samt observerade grupptreor Ranking av grupptreor-predikterat Ranking av grupptreor-observerat Pos. GM IM MS P Pos. GM IM MS P 1 Kroatien 4 3 1 4 1 Slovakien 3 3 0 4 2 Ukraina 3 3 0 3 2 Irland 2 4-2 4 3 Österrike 3 4-1 2 3 Portugal 4 4 0 3 4 Irland 2 3-1 2 4 N.Irland 2 2 0 3 5 Ryssland 3 5-2 2 5 Turkiet 2 4-2 3 6 Albanien 2 4-2 1 6 Albanien 1 3-2 3 Summering målskillnad -5 Summering målskillnad -6 Bland de bästa treorna, tabell (16) som går vidare ser vi att det endast är Irland som går vidare både i det predikterade och observerade. Gruppens totala målskillnad predikteras bli minus 5 mål. Detta jämförs mot gruppens faktiska målskillnad på minus 6 mål. 4.6 Slutspelet, observerat mot predikterat Från gruppspelet har 16 nationer tagit sig vidare till åttondelsfinal. Insatserna höjs och nu är varje match vinna eller försvinna. Vilken nation som möter vilket baseras på nationernas placeringar i gruppspelet och följer sedan ett på förhand bestämt slutspelsträd (Uefa resultat, 2016). Utifrån resultaten i åttondelsfinalerna får vi kvartsfinalmotståndare. Från dessa får vi semifinalmotståndare och sedan finalmotståndare. I tabell (17, 18, 19, 20) predikteras slutspelsmatcherna. Till sist står vi med en predikterad vinnare av Europeiska mästerskapen i fotboll 2016, se predikterat slutspelsträd. 4.6.1 Predikterat slutspel Tabell 17 - Predikterade åttondelsfinaler Åttondelsfinaler Predikterade sannolikheter Lag1 Lag2 Mål1 Mål2 1 X 2 Rumänien N.Irland 1 1 40% 36% 24% Spanien Irland 1 0 66% 27% 7% England Kroatien 1 1 38% 36% 26% Island Italien 1 1 53% 28% 19% Polen Österrike 1 1 39% 29% 32% Belgien Tjeckien 1 2 27% 25% 48% Frankrike Ukraina 1 1 42% 31% 27% Slovakien Portugal 1 1 24% 33% 43% Tabell (17) redovisar de predikterade åttondelsfinalerna i EM. Rumänien möter N.Irland och matchen predikteras sluta 1-1. Då vi inte kan utse en vinnare efter förlängning eller efter 24
straffar då modellen inte tar hänsyn till detta går Rumänien vidare till kvartsfinal tack vare högre predikterad sannolikhet att vinna matchen. Även Englands, Islands, Polens, Frankrikes samt Portugals åttondelsfinalmatcher slutar oavgjort vilket resulterar i att just de nämnda nationerna tar sig vidare tack vare högre predikterad sannolikhet att vinna matchen. Spanien och Tjeckien vinner sina matcher och tar sig vidare. Tabell 18 - Predikterade kvartsfinaler Kvartsfinaler Predikterade sannolikheter Lag1 Lag2 Mål1 Mål2 1 X 2 Rumänien Spanien 0 0 15% 54% 31% England Island 1 1 38% 33% 29% Polen Tjeckien 1 2 34% 24% 42% Frankrike Portugal 2 1 50% 26% 24% Tabell (18) redovisar de predikterade kvartsfinalerna i EM. Rumänien spelar oavgjort mot Spanien och England spelar oavgjort mot Island. Spanien och England går vidare på högre predikterad sannolikhet. Tjeckien går vidare då de vinner mot Polen med 2-1 och Frankrike går vidare då de slår ut Portugal med 2-1. Tabell 19 - Predikterade semifinaler Semifinaler Predikterade sannolikheter Lag1 Lag2 Mål1 Mål2 1 X 2 Spanien England 1 0 45% 38% 17% Tjeckien Frankrike 1 3 15% 16% 69% Tabell (19) redovisar de predikterade semifinalerna i EM. Spanien slår ut England med 1-0 och tar sig till final och Frankrike slår ut Tjeckien med 3-1 och tar sig till final. Tabell 20 - Predikterad final Final Predikterade sannolikheter Lag1 Lag2 Mål1 Mål2 1 X 2 Spanien Frankrike 1 1 42% 31% 27% Tabell (20) redovisar den predikterade finalen i EM. I finalen ställs Spanien mot värdnationen Frankrike. Matchen predikteras sluta 1-1 men Spanien tilldelas titeln då deras predikterade sannolikhet är högre än Frankrikes. 25
För tydlighetens skull visas nedan ett predikterat slutspelsträd. Predikterat slutspelsträd Åttondelsfinal Rumänien (P)* 1 Kvartsfinal N.Irland 1 Rumänien 0 Spanien (P)* 0 Spanien 1 Semifinal Irland 0 Spanien 1 England 0 England (P)* 1 Kroatien 1 England (P)* 1 Island 1 Island (P)* 1 Final Italien 1 Spanien (P)* 1 Frankrike 1 Polen (P)* 1 Österrike 1 Polen 1 Tjeckien 2 Belgien 1 Tjeckien 2 Tjeckien 1 Frankrike 3 Frankrike (P)* 1 Ukraina 1 Frankrike 2 Portugal 1 Slovakien 1 Portugal (P)* 1 *(P) står för vinst på högre sannolikhet Vi vill härmed gratulera Spanien till att ha vunnit det predikterade Europeiska mästerskapen i fotboll 2016! 26
4.6.2 Observerat slutspel Att jämföra antalet mål hos de enskilda matcherna under slutspelet är inte längre möjligt då motståndare och förutsättningar skiljer sig åt mellan det predikterade och det observerade. Vi kan istället jämföra det totala antalet mål som predikteras under slutspelet mot det observerade antalet målen som faktiskt gjordes under slutspelet. Utöver antalet gjorda mål så kan vi jämföra antalet lag som predikteras gå vidare från gruppspelet till slutspelet mot de som faktiskt gick vidare till slutspelet. Observerat slutspelsträd Åttondelsfinal Schweiz 1 Kvartsfinal Polen (Str)* 1 Polen 1 Portugal (Str)* 1 Kroatien 0 Semifinal Portugal (e.f)* 0 Portugal 2 Wales 0 Wales 1 N.Irland 0 Wales 3 Belgien 1 Ungern 0 Final Belgien 4 Portugal (e.f)* 0 Frankrike 0 Tyskland 3 Slovakien 0 Tyskland (Str)* 1 Italien 1 Italien 2 Spanien 0 Tyskland 0 Frankrike 2 Frankrike 2 Irland 1 Frankrike 5 Island 2 England 1 Island 2 *e.f står för vinst efter förlängning och Str. Står för vinst på straffar. 27
Antalet predikterade mål för slutspelet blev 31 stycken att jämföra mot de 37 stycken observerade. Antalet nationer som predikteras ta sig vidare från gruppspelet och överensstämmer med de nationer som faktiskt tog sig vidare är 12 stycken av totalt 16 stycken. 4.6.3 Observerade matcher med estimerade parametrar Den observerade vinnaren av EM 2016 var Portugal. Här kan vi beräkna hur stor predikterad sannolikhet det är att Portugal går obesegrade genom slutspelet. I tabell (21, 22, 23, 24) beräknas sannolikheterna för varje observerad match utifrån våra beräknade parametrar. I dessa tabeller kan vi följa hur våra parametrar skulle prediktera vilket lag som går vidare samt antal mål i de observerade matcherna i slutspelet. Tabell 21 - Åttondelsfinal, observerade matcher med estimerade parametrar Åttondelsfinaler Predikterade mål Predikterade sannolikhet Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Schweiz Polen 1 2 13% 17% 70% 1 1 Kroatien Portugal 1 1 26% 36% 38% 0 0 Wales N.Irland 1 2 11% 23% 66% 1 0 Ungern Belgien 1 1 21% 37% 42% 0 4 Tyskland Slovakien 1 2 24% 26% 50% 3 0 Italien Spanien 0 1 7% 25% 68% 2 0 Frankrike Irland 2 1 77% 15% 8% 2 1 England Island 1 1 38% 33% 29% 1 2 Tabell (21) redovisar de observerade åttondelsfinalerna med våra estimerade parametrar. Vår prediktion stämmer inte helt överrens med det observerade resultatet. Polen, Portugal, Belgien samt Frankrike predikteras gå vidare vilket också överensstämmer med det observerade resultatet. Att N. Irland, Slovakien, Spanien samt England går vidare stämmer inte överrens med det observerade. Tabell 22 - Kvartsfinal, observerade matcher med estimerade parametrar Kvartsfinaler Predikterade mål Predikterade sannolikhet Observerade mål Lag1 Lag2 Mål1 Mål2 1 X 2 Mål1 Mål2 Polen Portugal 1 1 23% 29% 48% 1 1 Wales Belgien 0 1 17% 37% 46% 3 1 Tyskland Italien 1 1 37% 28% 35% 1 1 Frankrike Island 2 1 59% 22% 19% 5 2 Tabell (22) redovisar de observerade kvartfinalerna med våra estimerade parametrar. Observerat resultat mellan Polen och Portugal är 1-1 och Portugal vinner på straffar. Vår prediktion är också 1-1 och Portugal vinner på högre predikterad sannolikhet. Vi predikterar 28