Regressionsanalys av NHL-statistik

Relevanta dokument
Föreläsning 12: Linjär regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Regressions- och Tidsserieanalys - F7

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Föreläsning 13: Multipel Regression

Finansiell statistik. Multipel regression. 4 maj 2011

Metod och teori. Statistik för naturvetare Umeå universitet

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Multipel Regressionsmodellen

Analys av betygsstatistik från KTH

Föreläsning 12: Regression

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Matematisk statistik, Föreläsning 5

Enkel och multipel linjär regression

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen för kursen. Linjära statistiska modeller. 22 februari

TAMS65 - Seminarium 4 Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

InStat Exempel 4 Korrelation och Regression

Grundläggande matematisk statistik

Linjär regressionsanalys. Wieland Wermke

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Tisdagen den 16 januari

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Regressions- och Tidsserieanalys - F4

Regressionsanalys av lägenhetspriser i Spånga

F13 Regression och problemlösning

Stokastiska processer med diskret tid

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Matematisk statistik för B, K, N, BME och Kemister

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Taktik/spelanalys. Snabba uppspel i Svenska Basketligan. Juan Alonso

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning G60 Statistiska metoder

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Matematisk statistik för D, I, Π och Fysiker

Regressions- och Tidsserieanalys - F1

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Föreläsning 11: Mer om jämförelser och inferens

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

MVE051/MSG Föreläsning 14

Skrivning i ekonometri lördagen den 29 mars 2008

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

F11. Kvantitativa prognostekniker

LABORATION 3 - Regressionsanalys

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

oberoende av varandra så observationerna är

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Tentamen MVE301 Sannolikhet, statistik och risk

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Hur de bästa PP lagen i SHL 13/14 gjorde sina PP mål

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Regressions- och Tidsserieanalys - F1

Analys av bostadsrättspriset i Stockholms innerstad

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Fråga nr a b c d 2 D

Skrivning i ekonometri torsdagen den 8 februari 2007

Lektionsanteckningar 11-12: Normalfördelningen

Introduktion till statistik för statsvetare

Matematisk statistik för B, K, N, BME och Kemister

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Medicinsk statistik II

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Tentamen i Matematisk statistik Kurskod S0001M

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 7: Punktskattningar

Tentamen i Matematisk statistik Kurskod S0001M

STATISTISK ANALYS AV KOMPLEXA DATA

Regressionsanalys av huspriser i Vaxholm

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Bilaga 6 till rapport 1 (5)

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

F19, (Multipel linjär regression forts) och F20, Chi-två test.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen i matematisk statistik

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Laboration 4 R-versionen

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

TVM-Matematik Adam Jonsson

Transkript:

Regressionsanalys av NHL-statistik Av Gustav Hedén gheden@kth.se Examensarbete inom teknisk fysik, grundnivå SA104x KTH Matematisk statistik Handledare Fredrik Armerin 1

Innehållsförteckning Sammanfattning:... 2 Abstract:... 2 Inledning:... 2 Teoretisk bakgrund: 3 Metod:... 4 Resultat:... 5 Diskussion:... 15 Slutsatser: 16 Sammanfattning: Denna studie har undersökt vad NHL-lag ska förbättra. Detta har skett genom att studera statistiskt signifikant statistik från NHL-säsonger med linjär regression i syfte att kunna identifiera vad NHL-lag ska göra för att ta många poäng och således hamna högt i tabellen. Det mest intressanta som studien har gett är att antalet skott och antalet vunna tekningar samt effektiviteten i power play i en NHLmatch för de flesta av de studerade säsongerna inte har någon statistik betydelse för vilket lag som vinner matchen. Abstract: The study examined what NHL-teams should improve. This has been done by studying the significant statistics of NHL-seasons, and with linear regression identifying what NHL-teams should do to win many points and thereby get a good placement in the final table. The most interesting result of the study is that the statistics on faceoffs and shots on goal and power play efficiency most seasons where irrelevant for the outcome of a season. Inledning: Syftet med projektet är att studera NHL-lag och deras tagna poäng under en säsong i relation till erkänt statistiskt viktiga moment under en hockeymatch. Detta görs med en multipel linjär regressionsanalys i syfte att kunna relatera de olika statistikerna till varandra och antalet tagna poäng. Ur denna analys kan de statistiskt signifikanta momenten skiljas från de icke statistiskt signifikanta och ur det kan slutsatser dras kring vad NHL-lag ska försöka förbättra. En tidigare studie har påvisat en totalökning med fyra mer tagna poäng per säsong om ett NHL-lags tekningsvinstprocent ökar från 50% till 60%(Schuckers, Pascuali och Curro, 2012). Det skulle innebära att tekningsvinststatistiken är en del ett lag kan förbättra om de vill ta mer poäng under en säsong och således är det resultatet intressant vid jämförande med den här regressionsanalysen av NHL-statistik. 2

Teoretisk bakgrund: Referensen till den teoretiska bakgrunden är studiehäftet Topics on Applied Mathematical Statistics av Harald Lang. Den teoretiska modell som används i denna analys heter linjär regression. Matematiskt beskrivs denna som y i = k j=0 x ij β j + e i Där y i är att betrakta som en observation av en slumpmässig, beroende variabel y, vars värde ges av kovariaterna x ij. Feltermen e i antas vara oberoende av de olika observationerna så att E e i x jl = 0 och E e i 2 x jl = σ 2 Där σ 2 är variansen. I matrisnotation brukar denna modell skrivas som y = Xβ + e där E(e X) = 0 och E(ee t X) = Iσ 2 För att analysera datan efter modellen för linjär regression används minsta kvadratmetoden(ols) till att ta fram ett skattat värde av β som benämns β. Detta sker genom att minimera kvadratsumman till residualen e t e = e 2. Den minimeringen sker genom att lösa normalekvationerna ur X t e = 0. Ur den skattade residualekvatioen e = y Xβ och normalekvationerna X t e = 0 ges att β = (X t X) 1 X t Y Notera även att β = (X t X) 1 X t (Xβ + e) = β + (X t X) 1 X t e eller β β = (X t X) 1 X t e Och då β är en väntevärdesriktig skattning av β ges kovariansmatrisen för β som: Cov β X = (X t X) 1 σ 2 Vilket ger en väntevärdesriktig skattning av σ 2 som: s 2 = 1 n k 1 e 2 Därefter kan t-statistiken beräknas för den väntevärdesriktiga skattningen av β som: t β = β β 0 s. e. β Vilket ur tabell ger ett p-värde för varje t-statistik för β. Dessutom kan ett R 2 -värde beräknas till modellen som beskriver hur korrekt modellen har passats till y. Det ges som: R 2 = 1 Var(e ) Var(y) Där ett värde närmare ett ger en bättre passning och vice versa. 3

Metod: Modellen som jag har valt att använda för att undersöka vad NHL-lag ska förbättra är: y = Totala antalet tagna poäng på säsongen β 0 = Konstant = Intercept y = β 0 + x 1 β 1 + x 2 β 2 + x 3 β 3 + x 4 β 4 + x 5 β 5 + e x 1 = Mål per match minus insläppta mål per match = G/G GA/G x 2 = Antal gjorda mål i powerplay genom antalet powerplay = PP% x 3 = Antalet offensiva skott per match minus antalet mottagna skott per match = S/G SA/G x 4 = Antalet vinster vid första gjorda målet genom antalet matcher laget gör första målet = SC1% x 5 = Antalet vunna tekningar genom antalet tekningar = FO% e = residualvektor Dessa koefficienter studeras alltså med linjär regression. Varje årgångsanalys kommer att börja med regressionen ovan. Därefter studeras vilka variabler som inte verkar inverka på antalet tagna poäng den säsongen. Sedan testas att ta bort en koefficient åt gången. Detta genom att studera de olika p- värdena och välja bort den med p-värdet närmast ett. Därefter genomförs en linjär regression med den nya modellen och om dess standardavvikelse har minskat kommer den att behållas. Denna process upprepas tills modellen inte kan förminskas mer och är då således optimerad. När regressionsmodellen har optimerats för samtliga säsonger kan studier göras kring vilka variabler som oftast blir kvar och vilka som optimeras bort. Därefter kan generella slutsatser dras om vad som faktiskt är viktigt för att vinna en NHL-match och hur detta har utvecklats med tiden. 4

Resultat: Totalt har 15 NHL-säsonger, från 97/98 till 12/13 analyserats med multipel linjär regression. Därefter har modellerna stegvis optimerats med ett Waldtest. Allt detta gjordes i programmet XLSTAT. Den optimerade modellen består av de statistiskt säkerställda variablerna som inverkar till antalet tagna poäng under den säsongen. 97/98: Intercept 78,179 18,815 4,155 0,000 38,932 117,427 GA/G 25,074 3,585 6,993 < 0,0001 17,595 32,553 PP% 10,248 46,825 0,219 0,829-87,427 107,923 SA/G 0,079 0,286 0,276 0,786-0,519 0,676 SC 1% 17,586 10,028 1,754 0,095-3,333 38,505 FO% -16,360 34,609-0,473 0,642-88,554 55,834 Tabell 1 Anpassat R 2 0,956 Intercept 81,989 0,642 127,668 < 0,0001 80,664 83,314 GA/G 28,638 1,214 23,581 < 0,0001 26,131 31,144 Tabell 2 Anpassat R 2 0,957 5

98/99: Intercept 92,383 23,631 3,909 0,001 43,239 141,527 GA/G 31,562 3,346 9,434 < 0,0001 24,604 38,519 PP% -20,696 34,291-0,604 0,553-92,009 50,616 SA/G -0,276 0,331-0,832 0,415-0,965 0,413 SC 1% -8,729 16,743-0,521 0,608-43,548 26,089 FO% -3,080 43,804-0,070 0,945-94,176 88,015 Tabell 3 Anpassat R 2 0,923 Intercept 82,000 0,797 102,827 < 0,0001 80,358 83,642 GA/G 28,605 1,521 18,813 < 0,0001 25,473 31,736 Tabell 4 Anpassat R 2 0,931 99/00: Intercept 48,728 19,601 2,486 0,021 8,077 89,378 GA/G 24,651 2,512 9,815 < 0,0001 19,442 29,859 PP% 11,968 35,387 0,338 0,738-61,419 85,355 SA/G -0,071 0,245-0,292 0,773-0,578 0,436 SC 1% 10,789 12,053 0,895 0,380-14,207 35,785 FO% 57,915 39,469 1,467 0,156-23,939 139,769 Tabell 5 Anpassat R 2 0,960 6

Intercept 86,052 0,641 134,348 < 0,0001 84,735 87,369 GA/G 27,269 1,065 25,602 < 0,0001 25,080 29,458 Tabell 6 Anpassat R 2 0,960 00/01: Intercept 62,227 18,599 3,346 0,003 23,839 100,614 GA/G 25,633 2,806 9,133 < 0,0001 19,840 31,425 PP% 40,455 38,154 1,060 0,300-38,291 119,200 SA/G 0,133 0,394 0,338 0,738-0,679 0,945 SC 1% 3,490 12,057 0,289 0,775-21,394 28,374 FO% 29,761 39,638 0,751 0,460-52,047 111,569 Tabell 7 Anpassat R 2 0,943 Intercept 86,047 0,763 112,728 < 0,0001 84,484 87,611 GA/G 28,826 1,303 22,125 < 0,0001 26,157 31,495 Tabell 8 Anpassat R 2 0,944 01/02: 7

Intercept 43,451 17,472 2,487 0,020 7,390 79,511 GA/G 21,182 3,093 6,849 < 0,0001 14,799 27,566 PP% 83,639 39,527 2,116 0,045 2,058 165,220 SA/G 0,099 0,292 0,339 0,738-0,504 0,702 SC 1% 21,026 13,057 1,610 0,120-5,922 47,973 FO% 33,031 33,927 0,974 0,340-36,990 103,053 Tabell 9 Anpassat R 2 0,935 Intercept 69,551 6,016 11,561 < 0,0001 57,207 81,894 GA/G 25,317 1,640 15,439 < 0,0001 21,953 28,682 PP% 104,918 38,026 2,759 0,010 26,896 182,941 Tabell 10 Anpassat R 2 0,933 02/03: Intercept 65,881 17,560 3,752 0,001 29,639 102,123 GA/G 26,287 2,790 9,423 < 0,0001 20,530 32,045 PP% -0,382 28,713-0,013 0,989-59,642 58,878 SA/G -0,190 0,231-0,826 0,417-0,667 0,286 SC 1% 19,017 9,626 1,976 0,060-0,850 38,883 FO% 20,318 26,135 0,777 0,444-33,621 74,257 Tabell 11 Anpassat R 2 0,960 8

Intercept 75,847 4,571 16,594 < 0,0001 66,469 85,226 GA/G 25,398 1,529 16,611 < 0,0001 22,260 28,535 SC 1% 19,244 7,717 2,494 0,019 3,410 35,077 Tabell 12 Anpassat R 2 0,963 03/04: Intercept 45,285 23,919 1,893 0,070-4,081 94,652 GA/G 23,693 3,081 7,691 < 0,0001 17,335 30,052 PP% 5,770 34,809 0,166 0,870-66,072 77,613 SA/G -0,180 0,440-0,409 0,686-1,087 0,727 SC 1% 25,255 10,821 2,334 0,028 2,923 47,588 FO% 50,681 45,988 1,102 0,281-44,233 145,595 Tabell 13 Anpassat R 2 0,929 Intercept 70,858 6,334 11,186 < 0,0001 57,861 83,855 GA/G 23,031 2,029 11,349 < 0,0001 18,867 27,195 SC 1% 26,446 10,409 2,541 0,017 5,089 47,802 Tabell 14 Anpassat R 2 0,933 9

05/06: Intercept -11,369 40,112-0,283 0,779-94,156 71,419 GA/G 22,429 3,968 5,653 < 0,0001 14,239 30,618 PP% -33,049 72,440-0,456 0,652-182,558 116,460 SA/G -0,272 0,513-0,530 0,601-1,330 0,787 SC 1% 36,619 17,212 2,128 0,044 1,095 72,144 FO% 169,002 67,248 2,513 0,019 30,209 307,795 Tabell 15 Anpassat R 2 0,879 GA/G 0,718 0,105 6,812 < 0,0001 0,501 0,935 SC 1% 0,216 0,102 2,112 0,044 0,006 0,426 FO% 0,173 0,066 2,596 0,015 0,036 0,309 Tabell 16 Anpassat R 2 0,887 06/07: Intercept 65,029 32,747 1,986 0,059-2,558 132,616 GA/G 22,313 3,140 7,106 < 0,0001 15,832 28,793 PP% 4,775 48,326 0,099 0,922-94,965 104,514 SA/G -0,025 0,355-0,070 0,945-0,757 0,707 SC 1% 38,315 19,103 2,006 0,056-1,111 77,741 FO% -0,513 61,522-0,008 0,993-127,489 126,462 Tabell 17 10

Anpassat R 2 0,889 Intercept 65,560 11,456 5,723 < 0,0001 42,055 89,065 GA/G 22,356 2,762 8,094 < 0,0001 16,689 28,023 SC 1% 38,392 16,998 2,259 0,032 3,514 73,270 Tabell 18 Anpassat R 2 0,901 07/08: Intercept 47,539 32,096 1,481 0,152-18,704 113,783 GA/G 24,666 3,697 6,672 < 0,0001 17,036 32,297 PP% -14,919 42,781-0,349 0,730-103,215 73,378 SA/G -0,237 0,291-0,813 0,424-0,837 0,364 SC 1% 31,364 12,104 2,591 0,016 6,383 56,344 FO% 48,667 52,887 0,920 0,367-60,487 157,821 Tabell 19 Anpassat R 2 0,852 Intercept 69,329 7,922 8,751 < 0,0001 53,074 85,584 GA/G 22,892 2,562 8,937 < 0,0001 17,636 28,148 SC 1% 31,237 11,348 2,753 0,010 7,953 54,521 Tabell 20 Anpassat R 2 0,862 11

08/09: Intercept 78,291 19,310 4,054 0,000 38,437 118,145 GA/G 26,175 2,325 11,260 < 0,0001 21,378 30,973 PP% -32,311 24,276-1,331 0,196-82,415 17,792 SA/G 0,732 0,264 2,775 0,011 0,187 1,276 SC 1% 9,682 11,686 0,829 0,416-14,436 33,800 FO% 25,479 37,169 0,685 0,500-51,234 102,193 Tabell 21 Anpassat R 2 0,941 Intercept 91,429 0,608 150,265 < 0,0001 90,181 92,678 GA/G 26,252 1,586 16,551 < 0,0001 22,998 29,507 SA/G 0,859 0,212 4,049 0,000 0,424 1,294 Tabell 22 Anpassat R 2 0,942 09/10: Intercept 69,962 21,858 3,201 0,004 24,849 115,074 GA/G 25,636 2,797 9,166 < 0,0001 19,864 31,409 PP% -38,461 35,748-1,076 0,293-112,242 35,319 SA/G 0,120 0,302 0,398 0,694-0,504 0,744 SC 1% 28,828 9,765 2,952 0,007 8,673 48,982 FO% 19,443 42,313 0,460 0,650-67,886 106,773 Tabell 23 Anpassat R 2 0,916 12

Intercept 71,078 6,334 11,222 < 0,0001 58,082 84,074 GA/G 25,012 2,004 12,479 < 0,0001 20,899 29,124 SC 1% 31,210 9,367 3,332 0,003 11,990 50,429 Tabell 24 Anpassat R 2 0,919 10/11: Intercept 55,632 22,136 2,513 0,019 9,945 101,319 GA/G 21,480 3,570 6,017 < 0,0001 14,113 28,847 PP% 33,635 33,960 0,990 0,332-36,455 103,725 SA/G 0,455 0,471 0,966 0,344-0,517 1,427 SC 1% 31,244 16,464 1,898 0,070-2,736 65,224 FO% 17,481 43,556 0,401 0,692-72,415 107,377 Tabell 25 Anpassat R 2 0,869 Intercept 74,353 9,737 7,636 < 0,0001 54,373 94,332 GA/G 25,114 2,567 9,785 < 0,0001 19,847 30,380 SC 1% 25,525 14,129 1,807 0,082-3,466 54,516 Tabell 26 Anpassat R 2 0,869 13

11/12: Intercept 91,794 29,875 3,073 0,005 30,135 153,452 GA/G 18,622 4,397 4,235 0,000 9,546 27,697 PP% 2,186 45,203 0,048 0,962-91,109 95,480 SA/G -0,013 0,439-0,030 0,976-0,920 0,893 Sc 1% 40,027 16,545 2,419 0,023 5,879 74,174 FO% -54,200 55,836-0,971 0,341-169,439 61,039 Tabell 27 Anpassat R 2 0,822 Intercept 66,484 10,635 6,251 < 0,0001 44,662 88,306 GA/G 18,138 3,675 4,935 < 0,0001 10,597 25,679 Sc 1% 37,939 15,750 2,409 0,023 5,622 70,256 Tabell 28 Anpassat R 2 0,835 12/13: Intercept 53,311 21,133 2,523 0,019 9,695 96,927 GA/G 16,255 1,924 8,448 < 0,0001 12,284 20,226 PP% -1,476 23,676-0,062 0,951-50,340 47,389 SA/G 0,172 0,326 0,529 0,602-0,500 0,844 SC 1% 15,106 12,797 1,180 0,249-11,306 41,517 FO% -20,373 36,193-0,563 0,579-95,070 54,325 Tabell 29 Anpassat R 2 0,842 14

Intercept 40,420 6,460 6,257 < 0,0001 27,166 53,674 GA/G 16,028 1,733 9,246 < 0,0001 12,471 19,584 SC 1% 18,595 9,201 2,021 0,053-0,283 37,473 Tabell 30 Anpassat R 2 0,857 Total optimeringsstatistik utföll enligt följande: Optimeringsdiagram 14 antal optimeringsbortfall 12 10 8 6 4 2 0 GA/G PP% SA/G SC 1% FO% Diagram 1 Diskussion: Fel och upplägg: När analysen konstruerades var det viktigt att undvika multikollinjäritet. Multikollinjäritet innebär att flera variabler i analysen är en linjär kombination av varandra. Till exempel att ett gjort mål för ett lag per definition innebär ett insläppt mål för ett annat och således linjärt beroende av varandra. Detta gjorde att den valda datan för mål och skott konstruerades till mål och skottskillnad per spelad match. Det kan däremot finnas en viss endogenisk risk i mätningsupplägget kring målskillnaden. Detta då definitionen av en vunnen match är att göra fler mål än motståndaren kommer lag som vinner fler matcher än de förlorar att troligtvis göra fler mål. Det är däremot inte självklart då man tillexempel kan förlora en match med många mål och sedan vinna flera matcher med bara ett måls marginal och 15

det var vad jag ville undersöka om det fanns sådana tendenser. Det får dock till följd att en viss endogenisk komplikation kan uppstå vid studerandet av resultaten. Den anpassade R 2 -statistiken var för de flesta säsonger hög nog för att kunna fastslå att beskrivningsmodellen var bra anpassad. Det innebär att slutsatserna som dras av denna studie kan anses legitima och relevanta. Analys av resultaten: Resultaten gav mycket entydigt att varje säsong var målskillnaden en statistiskt signifikant variabel att beakta om ett lag ska komma högt upp i tabellen. P-värderna varierade mellan säsongerna men höll sig ändå väldigt lågt i förhållande till de övriga koefficienterna. Effektiviteten i power play var statistiskt signifikant i en säsong(se diagram 1). När studier över de 15 tabellerna görs finns det ingen talande trend över tid utan effektiviteten i powerplay är i 14 säsonger av 15 inte statistiskt signifikant och således kan det med en relativt stor signifikans sägas att power play inte är något som en statistiskt vanlig säsong spelar en signifikant roll för vilken slutpoäng ett lag får. Skottskillnaden i en match har i 14 av de 15 studerade säsongerna inte varit statistiskt signifikant nog för att påverka slutpoängen i tabellen. Alltså kan samma resultat som för power play skönjas där det med en stor sannolikhet kan sägas att det inte är statistiskt signifikant för ett NHL-lag att deras skottstatistik påverkar slutpoängen. Statistiken kring ett lags procentuella vinstchans vid det första gjorda målet i matchen var statistiskt signifikant i 9 av de 15 säsongerna. Över tid kunde inte generella mönster skönjas. Det innebär att statistiken kring vilket lag som gör det första målet och därefter vinner inte kan nonchaleras utan bör tas i beaktande trotts att det inte har en statistiskt säker påverkan varje säsong. Vinstprocenten i tekningar var bara statistiskt signifikant i en säsong av 15. Det innebär att samma slutsats kan dras som för power play och skottstatistiken att de inte spelar en signifikant roll för hur många poäng ett NHL-lag kommer att ta under en säsong. Det innebär att denna rapport motsäger (Schuckers, Pascuali och Curro, 2012) där de kunde påvisa en, dock litet, samband mellan vinstprocent i tekningar och tagna poäng. Denna motsägelse är logisk då studierna skiljer sig i den meningen att deras resultat visar på en hypotetisk höjning av tekningsvinstprocenten med tio procentenheter och extrapolerar ut det till fyra fler tagna poäng över en säsong. Detta resultat är något komplicerat då deras studier består av flera antaganden, bland annat en variabel baserad på målgörandestatistik från vunnen tekning inom 20 sekunder. Denna variabel är problematisk då studien inte kompenserar för insläppta mål med samma villkor och således är studien dömd att ge ett positivt utfall för alla lag. Därmed kan det fastslås att denna regressionsanalys av NHL-statistik inte motsäger (Schuckers, Pascuali och Curro, 2012) och att tekningsvinstprocenten inte är en statistiskt signifikant statistik för ett NHL-lags tagna poäng över en säsong. 16

Slutsatser: Den främsta slutsatsen som kan göras från denna studie är att målskillnad är viktigt och något värt att lägga extra kraft på för att ta mera poäng över en säsong. Dessutom kan slutsatsen att göra första målet anses som statistiskt relevant då 6 säsonger av 15 visade på att det inte spelade någon statistisk roll. Det som däremot är intressant är att varken power play, skottskillnad eller vunna tekningar spelar någon statistisk säker roll för en hockeymatch i NHL. Vissa säsonger har det gjort det men eftersom det endast är en säsong av femton för samtliga för de säsongerna betraktas som anomalier. Slutsatsen att varken power play, skottskillnad eller tekningsvinstprocent spelar någon statistiskt signifikant roll för ett NHL-lag är uppseendeväckande då de flesta hockeyspelare och tränare nog skulle anse det som viktigt att ha ett bra powerplay, att skjuta fler skott än motståndaren och att vinna fler tekningar än de förlorar. Det innebär istället att ett NHL-lag ska fokusera på att göra fler mål än de släpper in över säsongen. Alltså kan det antas att varje mål räknas även om en match kan anses avgjord. Dessutom är det viktigt att satsa på att göra första målet. Det innebär att något som lagen bör fokusera på i en statistisk mening är att vara fullt fokuserade från start och inte släppa in första målet oftare än då laget gör första målet. Dessa slutsatser får nog anses vara relativt legitima över tid då inga klara förändringar över tid har kunnat upptäckas under studiens femton år långa tidsspann. Det innebär att denna studie och dess slutsatser kan anses legitima för i alla fall ett antal säsonger framöver. Referenser: 1. An Analysis of NHL Faceoffs Michael Schuckers, Tom Pasquali and Jim Curro St. Lawrence University and Statistical Sports Consulting, LLC 2012 http://statsportsconsulting.com/main/wp-content/uploads/faceoffanalysis12-12.pdf 2. Topics on Applied Mathematical Statistics av Harald Land Nov.2013, version 0.97 17