Statistiska institutionen. Bachelor thesis, Department of Statistics. Kategorisering av simmares hastighetsfördelningar under tävlingslopp

Transkript

1 1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2019:2 Kategorisering av simmares hastighetsfördelningar under tävlingslopp Categorization of pacing during swimming competitions Filip Stjernfeldt och Dennis Roslinde Självständigt arbete 15 högskolepoäng inom Statistik III, VT2019 Handledare: Hans Nyquist

2 2 Innehåll 1. Inledning Syfte & frågeställning Tidigare forskning Beskrivning av data Avgränsningar Variabler Metod Klusteranalys Wards minimal-variance metod Estimering av antal kluster Cubic clustering criteron (CCC) Pseudo F och Pseudo T-squared Dendogram Resultat Klusteranalys Klustrens fördelningar Boxplot Distribution av beroende observationer i fördelningarna Diskussion Slutsats Referenslista Bilagor Klustrens deskription SAS-kod... 35

3 3 Tabell 1 Beteckningsbeskrivning Beteckning x K D KL N K P G G Beskrivning Medelvärde av vektor i index K Distansen mellan kluster K och L Antal observationer i kluster K Där P G motsvarar W J d.v.s. summan av alla kvadratsummor inom varje enskilt kluster som dikteras av G kluster vid nivå G i hierarkin Antal kluster vid en given nivå av hierarkin. Där hierarkin menas med klusterindelningens förlopp. B KL W M W K W L om C M = C K C L Där B KL är kvadratsumman mellan klustren K och L. T T = n i=1 x i x 2 Summan av den totala ekludiska längdens avvikelse mellan vektorerna x i och dess medelvärde x i kvadrat. T är den totala kvadratsumman. W k W k = n i C x i x K 2 k Summan av alla ekludiska längders avvikelse mellan vektorerna x i och dess medelvärde x K i kvadrat inom kluster K. W k är kvadratsumman inom kluster K. C k K th kluster i delmängden av [1,2,, n] p v v = j=1 s j, v är volymen för hyperboxen s j Längden längs kanterna av kuberna i en hyperbox upp till den j th dimmensionen p Antalet parametrar c c = ( v p ) 1 p Längden längs kanten för en av kuberna i en hyperbox u j u j = s j C Antal kuber längs den jth dimmensionen

4 4 Beteckning q Beskrivning Antal kluster Tabell 2 Förkortningsbeskrivning Förkortning [LCM] [SCM] [ERD] [P] [PSD] [PRD] [OS] [FINA] Beskrivning Lång bassäng, 50 m Kort bassäng, 25 m Even Recursive Drop Positive Positive Sequential Decline Positive Recursive Decline Oposite Sequential Fédération internationale de natation, en organisation som upprätthåller simregler internationellt.

5 5 1. Inledning Tävlingssimning är en sport som involverar jakten efter perfektion. Det är inte ovanligt att ett lopp avgörs med en hundradels sekunds marginal. Små korrigeringar i taktik, teknik, träning eller utrustning kan utgöra skillnaden mellan ett guld och en fjärdeplats. En viktig aspekt av simning är s.k. pacing. Pacing går ut på att fördela den energi en simmare har till sitt förfogande under ett lopp så effektivt som möjligt. Om en simmare går ut för hårt i början av ett lopp kommer all energi vara slut innan loppet är över och om en simmare tar det för lugnt kommer det finnas energi kvar efter målgången som kunnat spenderas under loppet. Ofta delas en önskad sluttid in i olika segment där varje segment har en viss tid som målsättning. Simmare tränar sedan på att hålla rätt tempo under de olika segmenten. Detta görs exempelvis genom att deras tränare gör gester och ljud under träningar för att hjälpa simmaren hålla rätt hastighet. Det råder delade meningar kring hur ett lopp ska delas in. Vissa menar exempelvis att det är bättre för en simmare att gå ut hårt i början av ett lopp medan andra anser att det är effektivare är att hålla ett jämnt tempo under hela loppet (Mcgibbon et al. 2018). När ett lopp studeras kommer vissa segment sticka ut som snabbare än andra. Detta beror inte nödvändigtvis på att simmare spenderar mer energi eller har en snabbare pacing under dessa delar, ofta beror det på hur ett sim-lopp är utformat. De första 15 m av ett lopp består av att simmarna dyker från en språngbräda på bassängens kant för att sedan glida max 15 m under vattnet, att vara under vattnet i längre än 15 m är ett regelbrott (Fédération internationale de natation (FINA), 2017). Detta är alltid den snabbaste delen av ett lopp. Alla distanser förutom 50 m innefattar även vändningar och frånskjut. Eftersom en bassäng inte är längre än 50 m måste simmare byta riktning till det motsatta hållet efter att de nått bassängens ände för att fortsätta loppet. Denna vändning genomförs vanligtvis genom en slags volt under vattnets yta. Efter en lyckad vändning skjuter simmarna ifrån mot väggen och glider en bit under vattenytan. Frånskjutet innebär att de första metrarna av en längd blir de snabbaste. De sista 5 metrarna av ett lopp sträcker sig simmarna för att nudda bassängens kant, det resulterar i att segmentet får en väldigt hög genomsnittshastighet. Dessa segment kan klassas som tekniska delar. Det innebär att tidsskillnader mellan individer under dessa segment rimligtvis inte beror på pacing utan på tekniskt och atletiskt utförande. Segmenten har den överlägset bästa energi/hastighet kvoten vilket innebär att simmarna kan generera en hög hastighet utan

6 6 att spendera en betydande mängd energi (Madge, 2016). Att försöka spara på kraft genom att inte genomföra de tekniska delarna så snabbt som möjligt är därför mycket ineffektivt och det finns därför antagligen inte någon elitsimmare som använder sig av denna taktik. 1.1 Syfte & frågeställning Syftet med denna studie är att utröna vilka hastighetsfördelningar som finns bland simmare under tävlingslopp och vilka av dessa fördelningar som producerar det bästa resultatet. Detta för att simmare och simtränare ska få mer kännedom om vilken taktik som har statistisk grund. Studiens frågeställningar ser därför ut som följande: Vilka hastighetsfördelningar finns bland simmare under tävlingslopp? Vad karaktäriserar fördelningarna med bäst sluttider? 1.2 Tidigare forskning Skorksi et al. menar att erfarna simmare tenderar att ha samma fördelning under olika lopp och tävlingar (Skorski et al. 2013). Detta kan anses som en indikation på att duktiga simmare har en inlärd tempoprocess som de har övat in under träningar samt att denna inlärning har en reell effekt på deras prestationer under tävlingar. Eftersom den data som används i studien främst berör simmare på elitnivå (simmare som kan anses vara erfarna) bör nästan alla observerade lopp ha genomförts av simmare med inövade taktiska fördelningar. Simtränare kommunicerar med simmare under träningar med hjälp av visuella och/eller verbala signaler i form exempelvis visslingar och rop för att simmaren ska veta om den håller ett högt, bra eller lågt tempo. Altavilla, Cjuela & Caballero-Pérez (2018) anser att lopp där simtränaren kommunicerar med simmaren utmynnar i ett jämnare tempo än lopp där denna hjälp inte är tillgänglig. FINA, den officiella kommittén för regler och tävlingar inom simning, klassificerar denna typ av kommunikation mellan utomstående och simmare under tävlingslopp som ett regelbrott (FINA, 2017). Vid besök av en simtävling på elitnivå fann vi dock att somliga inom publiken gjorde distinkta, rytmiska, ljud riktade mot vissa simmare, framförallt inom bröstsimning. Om detta var för att hjälpa simmaren med tempot eller som ett sätt att peppa de tävlande är dock oklart. Rimligtvis bör inte dessa ljudsignaler ha en allt för

7 7 stor effekt under tävlingar då de tordes bli dränkta i alla de ljud som uppstår när många människor befinner sig i samma lokal. I tidigare forskning så finns olika synpunkter för hur en simmare bör disponera sitt lopp. Enligt Altavila, Cjuela & Caballero-Pérez (2018) finns det inte någon generell regel för hur simmare ska disponera sitt lopp så effektivt som möjligt McGibbon et al. (2018) genomförde en studie där de sammanfattade Abbiss, C.R. & Laursen, P.B., (2008) arbete om olika fördelningar där McGibbon et al. transformerade om Abbiss, C.R. & Laursen, P. B arbete till överskådliga grafer. Enligt McGibbon et al. (2018) finns det sammanlagt 6 energidisponeringar som simmare använder sig av för samtliga sträckor och simstilar. Dessa fördelningar kallar han för Negative, Positive, Even, Parabolic Jformed och All-out. En Negative fördelning innebär att simmaren tar det lugnt vid start för att sedan succesivt öka i hastighet och tempo under loppets gång. En Positive fördelning är motsatsen, alltså att simmaren går ut hårt vid start för att sedan tappa i tempo under loppets gång. En Even fördelning är ganska självförklarande, det innebär att simmaren (om man bortser från starten) håller ett jämnt tempo genom hela loppet. En Parabolic fördelning är en disponering där simmaren håller ett hög tempo vid start, långsamt under loppens mitt för att sedan spurta på slutet. En J-formed fördelning innebär att simmaren håller ett jämt tempo genom majoriteten av loppet följt av en spurt på slutet, grafiskt ser det lite ut som ett liggande J, därav namnet. En All-out disponering innebär att simmaren tar ut sig så mycket som det bara går från start, vilket resulterar i en kraftig minskning i hastighet under loppets slut då simmaren inte har kvar någon energi. Naturligtvis förekommer dessa fördelningar olika frekvent under olika distanser och simstilar. Exempelvis kan en All-out fördelning tänkas vara vanlig under en 50-meters spurt medan en J-formed fördelning oftare förekommer vid 1800-meters lopp. Gemensamt för alla fördelningar är att de i någon mån har en snabb start på grund av dykningen från kanten.

8 8 Figur 1 Illustration av Mcgibbon et al. 6 fördelningar McGibbon et al. sammanställde i sin studie vad andra undersökningar kommit fram gällande de mest optimala fördelningarna för simmare. För 200 m freestyle har totalt 4 studier dragit slutsatsen att en Even fördelning är bäst, 1 att Positive är mest optimal och 1 att en version av en Even energidistribution där den snabba starten är utesluten är bäst (se tabell 3). Mcgibbon menar även att den mest frekventa fördelningen som fristilssimmare använder vid 200 meters sträckor är parabolic eller fast start even (Mcgibbon et al. 2018). Värt att påpeka är att Abbiss, C.R. & Laursen, P.B., (2008) fördelningar var till för att kategorisera flera typer av sporters energiförbrukning, inte bara simning

9 9 Tabell 3 Sammanställning av Mcgibbon et al. Referens Kön Bassäng Fördelning De Koning et al.(2011) Ej tillgängligt LCM Even (utan snabb start) Dormehl och Osborough (2015) Män och kvinnor SCM Even Robertson et al.(2009) Män och kvinnor LCM Positive Skorski et al.(2013) Män och kvinnor LCM Even Skorski et al.(2014) Män LCM Even Veiga and Roig (2015) Män och kvinnor LCM Even De Koning et al. genomförde den studie som kom fram till att en Even (utan snabb start)- fördelning är mest optimal under ett 200-meters lopp på långbana. Detta grundade sig inte i empiri utan på matematiska beräkningar baserade på fysikens lagar. De Koning et al. fann att en simmare bör hålla ett så jämt tempo som möjligt under hela loppet då hastighetsökningar i vatten leder till ett kraftigare vattenmotstånd som resulterar i en suboptimal förbrukning av energi. Eftersom studien främst riktade in sig på vattens egenskaper kontra hastighetsförändringar tog De Koning et al. aldrig de tekniska segment som utgör ett simlopp i beaktning (dyk, frånskjut etc.). Detta kan ligga till grund för att de kom fram till att en Even -fördelning utan snabb start är mest optimal istället för en Even -fördelning med en snabb start som de andra undersökningarna. Som nämnts tidigare, den snabba starten är inte ett aktivt val från simmarnas sida utan en naturlig del av hur ett lopp är upplagt. Mauger, Neuloh & Castle (2012) genomförde en studie där de analyserade australiska simmares energidisponering vid 400 meters sträckor. De klassificerade olika fördelningar genom en algoritm. De jämförde sedan sina resultat med Abbiss, C.R. & Laursen, P.B., (2008) studie och kom fram till att de fördelningar som var mest lika deras resultat var parabolic och fast start even. Vid deras analysering om dessa fördelningar presterade bättre tider så indikerade data att de var snabare men inte så pass att det var statistiskt signifikant. I fristil så tenderar simmarna att förlora hastighet successivt under loppets gång. Viega & Roig (2015) menar att en simmare förlorar mellan 6-8% av deras hastighet från första längden till den sista längden.

10 10 2. Beskrivning av data Den data som används i studien är insamlad av Aqua Front. Företaget har samlat in data genom att spela in och studera tävlingar på främst elitnivå. Observationerna består av tider för olika distanser, segment och simstilar, kön, längd och tävlingar. Sträckan för varje lopp har delats in i segment. För 200 m långbana följer indelningen av varje längd ordningen 15, 25, 35, 45 och 50 m. Indelningen har genomförts genom att följa simmarnas huvuden, när huvudet passerat exempelvis 25 meters markeringen räknas simmaren ha avklarat 0-25 meters segmentet. Det finns en viss variation i hur tidtagningen utförs, oftast är markeringen för de olika sträckorna ca 1 decimeter lång, ibland har tiden tagits när simmaren nått början på markeringen och ibland slutet. Under de tävlingar där datan samlats in har huvudsakligen kvarts-, semi- och finallopp observerats. Detta beror på att de elitsimmare som är bland de snabbaste i världen sällan behöver prestera sitt bästa under kvallopp och dylikt. Att studera kvallopp skulle därför innebära en bias där duktiga simmare inte gör sitt bästa. En naturlig följd av att främst observera kvarts-, semi- och finallopp blir dock att individer som tillhör den bästa gruppen av simmare blir överrepresenterade. Detta gäller även för datasetet. Sara Sjöström är den simmare med flest observationer i stickprovet, hon utgör totalt 8 utav 112 observationer. Detta resulterar i att alla observationer inte är oberoende av varandra. 2.1 Avgränsningar Studien har avgränsats till 200 meter fristil med kvinnliga simmare på långbana. Fristil består vanligtvis av s.k. crawl-simning eftersom det är den snabbaste simformen (Mitchell, 2018). Det finns generellt två olika typer av bassänger inom simning; lång- och kortbana. En långbana är 50 m lång och en kortbana 25 m. De mest prestigefyllda tävlingarna, exempelvis OS, använder sig av långbanor. Simmare kan tänkas anpassa sig så att de når toppform under OS för att generera ett så bra resultat som möjlig. Att studera lopp på långbana utgör därför störst sannolikhet att observera simmare när de är som bäst. Långbanor har också mindre tekniska segment än kortbanor (vändningar, frånskjut mm.) vilket innebär att långbanor har ett större utrymme för taktik och pacing. Datasetet har avgränsats till att endast innefatta observationer mellan perioden Detta beror på att det infördes regelmässiga förändringar gällande tillåten utrustning efter att

11 11 en speciell dräkt (s.k. shark suit) fått spridning inom simvärlden och markant förbättrat simmares sluttider (Zahn, 2016). 2.2 Variabler De variabler som använts till denna studie är tiden för sträckorna 25, 35, 45, 75, 85, 95, 125, 135, 145, 175, 185, 195 och 200 meter, referensnummer på simmare som genomförde observerat lopp, typ av bana och kön. Varje variabel har totalt 112 observerade värden. 3 Metod Exkluderingen av de tekniska delarna av ett lopp har utförts på grund av två anledningar. Dels som tidigare diskuterats utgör inte de tekniska delarna en del av en simmares pacing men även på grund av att studien tillämpar en kategoriserings metod som heter klusteranalys. Utrymmet för förändring i hastighetsökning är som störst vid vändningarna och vid starten vilket hade mynnat ut i att klusteranalysen hade producerat kluster som dikterats av om simmaren utfört ett bra eller dåligt tekniskt segment, vilket inte är i linje med studiens syfte. För att kategoriseringen av olika taktiker inte skulle dikteras av observationernas sluttid så har varje segmentens tider omvandlats till andelar. Andelen av loppet som spenderades under varje tidssegment har tagits fram genom att dela tiden det tog för en individ att simma det givna segmentet på den sammanlagda tiden (exklusive tekniska delar). En större proportion innebär således ett långsammare segment och vice versa. Efter en kategorisering är genomförd presenteras hastighetsfördelningarna för de olika kategorierna. Sluttiden (inklusive tekniska segment) används senare i analysen för att urskilja om det är någon kategorisering som presterar bättre än en annan. 3.1 Klusteranalys Klusteranalys är en teknik som används för att dela in datamängder i delmängder (kluster). Målet är att det ska råda homogenitet mellan observationerna inom ett kluster och att de olika klustren är heterogena. Klusteranalys används vanligtvis vid stora mängder data för att synliggöra och kategorisera avvikande element (Sharma, 1996). Eftersom studien ämnar att identifiera olika hastighetsfördelningar bland simmare kan en klusteranalys användas för att upptäcka och para ihop homogena observationer för att på så sätt synliggöra fördelningar som existerar i datasetet.

12 Wards minimal-variance metod Wards minimal-varians metod är en hierarkisk typ av klusterfiering. Metoden tenderar att para ihop kluster med få observationer samt skapa kluster som består av ett liknande antal observationer. En nackdel med metoden är att den är känslig för avvikande värden (outliers). (SAS, 2010). Wards metod är bra att använda när variablerna är icke-binära och följer en elliptisk form (formen är ungefär som ett ägg) om de plottas i en p-dimensionell scatterplott (King, 2015). Då studiens variabler är icke-binära och kan tänkas ha en elliptisk form bör Wards metod vara passande att använda. Eftersom det ligger i studiens intresse att ta fram olika fördelningar bör det vara en fördel om flera kluster bildas. Avvikande fördelningar (outliers) kan lätt upptäckas genom att plotta alla kluster grafiskt. I Wards metod är distansen mellan två kluster felkvadratssumman mellan de två klustren för alla variabler. Vid varje ny generation av kluster paras kluster från föregående generation ihop så att felkvadratssumman inom varje nytt kluster är så liten som möjligt. Denna procedur görs från att alla observationer är ensamma till att alla observationer tillhör ett och samma kluster (SAS, 2010). Wards metod utförs genom att beräkna den euklidiska längden mellan kluster, följande formel används : Där D KL = B KL = x K x L 2 1 N K + 1 N L specificerar att en euklidisk norm råder, K, L, M och J är index för kluster Om d(x, y) = 1 2 x y 2, där d(x, y) är ett uttryck för populationsvariansen, är den kombinatoriska formeln för Ward s metod (Murtagh, 2014): D JM = (N J+N K )D JK +(N J +N L )D JL N J D KL N J +N M = Där M = L K N J +N K N J +N K +N L D JK + N J+N L N J +N K +N L D JL N J N J +N K +N L D KL Den kombinatoriska formeln används för varje ny generation av kluster för att producera D för alla kombinationer av kluster. Den kombination av klusterpar som leder till den minsta ökningen av inom-kluster-varians paras ihop för att bilda nästa generation av kluster. Detta fortgår tills specificerat antal kluster är uppnått. (SAS, 2010).

13 Estimering av antal kluster När Wards metod används i SAS fortsätter dataprogrammet att para ihop nya generationer av kluster tills alla observationer tillhör ett och samma kluster. Att bara ha ett gigantiskt kluster är vanligtvis inte eftersträvansvärt när Wards metod används, därför måste ett önskat antal kluster specificeras i SAS. För att estimera hur många kluster som är passande för stickprovet produceras ett antal vägledande kriterier för evaluering; Cubic clusterin criterion (CCC), Pseudo F, Pseudo T-squared och ett dendogram. Dessa kriterier bör tas i beaktning var för sig och vägas mot varandra för att rätt beslut ska tas angående klustermängden (SAS, 2017; Greenacre, 2008). 3.4 Cubic clustering criteron (CCC) CCC är ett mått på hur många kluster som kan vara passande att använda i exempelvis en klusteranalys gjord med Wards metod. CCC:n grundar sig i antagandet att klustren antar en uniform fördelning på en hyperbox med lika stora hyperkuber. Vanligtvis gäller inte antagandet om hyperkuberna men metoden används ändå då frångången från antagandet oftast är litet såvida antalet kluster inte är väldigt stort i två eller fler dimensioner (SAS, 2017). CCC:n beräknas vid varje ihopparning av kluster där p är det största heltalet som är mindre än antalet kluster q vid en given generation av kluster. Ett positivt värde på CCC:n indikerar att det observerade R 2 -värdet är större än vad som vore förväntat om klustren härstammat från en uniform distribution när ytterligare en dimension, p + 1, inkluderats. Ett positivt värde för CCC:n innebär alltså att det observerade R 2 -värdet är större än det förväntade, en lämplig avgränsning för antalet kluster blir därför den mängd kluster där CCC:n når en topp (SAS, 2017). Uträkningen för CCC ser ut som följande: CCC = ln ( (1 E(R2 )) np (1 R 2 ) ) 2 (0,001 + E(R 2 )) 1,2 Där formeln för R 2 är: R 2 = 1 p p 2 + j=p +1 u j p 2 u j j=1

14 14 Och formeln för förväntat R 2 givet en uniform fördelning på en hyperbox är: E(R 2 ) = 1 p j=1 1 n + u + j p 2 j=1 u j p j=p +1 u j 2 n + u j (n q) n n I resultatdelen av studien redovisas resultatet grafiskt med en CCC-plot. Där CCC-värdet presenteras på y-axeln och antal kluster på x-axeln. Vid granskning av en CCC-plot skall det antal kluster där det inträffar en topp av CCC:n tas med i avvägning för beslut. Det är vanligt förekommande att flera toppar framkommer och då bör fastställandet av antal kluster kompleteras med andra mått. Vid granskning av CCC ska även de uppkomna värdena tas i åtanke. En CCC-plot där CCC-värdet uppgår till 2-3 vid en topp indikerar ett bra antal kluster. Värden som är mellan 0-2 indikerar att det är möjligt att klustern är bra. Om värdet är negativ för två eller mer kluster så innebär detta att datadistributionen troligen är unimodal eller snefördelad. Utifall det är extremt negativa värden, -30 eller mindre så är det många outliers som förekommer i data-setet. Om värdet ökar kontinuerligt när antalet kluster ökar tyder CCC:n på att stickprovet inte är tillräckligt informativt. En utökning av antal decimaler för stickprovet är då lämpligt (ibid.). 3.5 Pseudo F och Pseudo T-squared Pseudo F beskriver förhållandet för variansen mellan alla klustren och inom varje kluster för varje ny generation av kluster. Psuedo F är med andra ord ett mått på hur heterogena klustren är. Pseudo F kalkyleras genom följande Pseudo F = T P G G 1 P G n G Eftersom T är den totala kvadratsumman och P G är kvadratsumman inom varje kluster blir T P G den totala kvadratsumman mellan varje kluster.

15 15 Vid evaluering av Pseudo F menar Horsley att det antal kluster som bör användas är när den första distinkta höjningen sker av Pseudo F-värdet där endast en tydlig topp bör förekomma (Horsley, u.å. SAS, 2011.). Toppen används då ett högt värde tyder på att klustren är heterogena gentemot varandra, d.v.s. är separerade från varandra. Pseudo T-squared är ett index som kvantifierar skillnaden i förhållandet för variansen mellan två kluster och variansen inom två stycken kluster, K och L när de paras ihop. Beräkningen utav Pseudo T-squared tas fram genom följande formel Pseudo t 2 = B KL ((W K + W L )/(N K + N L 2)) Pseudo T-squared-plot skall avläsas från höger till vänster. När den första stora uppgången av Pseudo T-squared värdet inträffar är det antal kluster föregående till uppgången som bör väljas. Det föregående antalet kluster används på grund av att en stor uppgång av pseudo t- square tyder på att de två klustren som sammanfoggats skiljer sig ifrån varandra i stor grad och bör därför inte genomföras eftersom ett av målen med klusteranalys är att ha homogena observationer inom kluster. Vid Pseudo T-squared är det vanligt att det förekommer även här, flera toppar (SAS, 2011). 3.6 Dendogram Ett dendogram visar hur stort avstånd det är mellan varje steg av klusteranalysen som har utförs vid indelningen av nya kluster. Ett dendogram utgörs exakt som den valda klustermetoden där alla observationer är en egen grupp från början där de delas in i kluster ända fram tills att det endast finns ett kluster som innehar alla observationer. Genom att utläsa var skillnaden mellan kluster inte är stor kan en avvägning för antalet kluster utföras (Statistics How To, 2016).. 4. Resultat I denna del redovisas resultaten för metoderna som är beskrivna i studiens metodologiska del.

16 Klusteranalys I figur 2 presenteras resultatet för CCC, Pseudo F och Pseudo T-squared med indexvärdet på y- axeln och antal kluster på x-axeln. Figur 2 avläses från höger till vänster precis som en klusteranalytisk process, då vi går från många olika kluster till att alla tillhör ett och samma kluster. I figuren visas från att de var 22 kluster tills att det endast var 1 kluster kvar. Figur 2 Kriterier för antalet kluster I figur 2 går det utläsa att CCC:n har två toppar. En topp visas när det är 5 kluster och en när det är 14 stycken kluster. Den mest framstående toppen är vid 5st kluster även om denna inte är speciellt framträdande. Värdena på CCC:n är svagt negativa i flera generationer av kluster, vilket tyder på att variablerna följer en unimodal eller sned fördelning. Resultatet från CCC:n tyder med andra ord på att klustren inte är perfekta. Negativa värden på CCC:n utan framträdande toppar har dock validerats utav andra studier (Gangnon et al. 2015). För Pseudo F visas inga tydliga toppar som presenteras i figur 2. Vilket beskriver att variansen inom och mellan klustren ökar kontinuerligt när antalet kluster minskar. Detta leder

17 17 till att det högsta värdet av Pseudo F är vid dess sista genomförda process vilket är när det finns 3 kluster. Pseudo T-squared visar att en stor ökning sker efter 3 kluster. Vi kan även se att denna ökning påbörjar redan efter det 5:e klustret. Figur 3 Dendogram för klusterindelningen Utifrån dendogrammet går det att utläsa att en uppdelning bör göras vid antingen 3 eller 5 kluster. För många klusterindelningar resulterar i att grupperna blir små och homogena sinsemellan och för få att det råder för stor heterogenitet inom varje kluster. Om endast 3 klusterindelningar gjorts hade kluster 3 och 1 samt kluster 5 och 2 tillhört samma grupp. Dessa grupper skulle ha för stor intern heterogenitet. Om ett 6:e kluster bildats hade kluster 1 delats in i två grupper. De skulle rimligtvis vara väldigt lika och det 6:e klustret hade därför inte tillfört något betydande till analysen. Utifrån CCC:n som tidigare nämnt gav detta en indikation vid det 5:e klustret medan Pseudo T-squared gav indikation på tre kluster men med början av uppgången efter 5:e kluster. Ett beslut togs i att göra uppdelningen vid 5 kluster med risk för att de två sista utelämnande sammanfogningsprocesserna, kluster 3 och 1 samt 5 och 2 har viss likhet med varandra.

18 Klustrens fördelningar Nedan visas klustrens medelhastighetsfördelning över loppet. Varje kluster har tilldelats ett namn i ett försök att fånga klustrens karaktärism. Namngivningen är baserad på den tidigare studien av McGibbon et al. som diskuterades tidigare i studien. Figur 4 Medelhastighet med kvartiler för kluster 1 De två första segmenten för kluster 1 har en mycket hög genomsnittshastighet. Denna hastighet avtar dock snabbt och övergår till en jämn, något avtagande, hastighetsfördelning med plötsliga och kraftiga minskningar i hastighet de sista 15 metrarna av varje längd, precis innan vändningen. Om man bortser från hastighetsfallen i slutet på varje längd liknar fördelningen en, vad McGibbon et al. (2018) skulle kalla, Even, fördelning som karaktäriseras av en snabb start efterföljt av en jämn hastighet. Fördelningen har därför namngetts till Even, Recursive Drops (Jämn med återkommande fall). Spridningen i hastighet för de olika segmenten är inte stor mellan simmarna, skillnaden mellan Q1 och Q3 är relativt liten.

19 19 Figur 5 Medelhastighet med kvartiler för kluster 2 Hastighetsfördelningen för kluster 2 har en snabb start följt av en nästintill linjärt avtagande hastighet. Det går att tyda en viss reduktion i hastighet innan vändningen för varje längd men denna förändring är mycket liten (2-3cm/s). Fördelningen är i stora drag lik den som McGibbon et al. (2018) kallar Positive och har därför tilldelats samma namn. Skillnaden mellan kvartil- 1 och 3 är liten och ser ut att vara jämnstor genom hela fördelningen och vittnar om homogena observationer inom klustret.

20 20 Figur 6 Medelhastighet med kvartiler för kluster 3 Fördelningen för Kluster 3 inleds med en hög men snabbt avtagande hastighet. Efter de två första segmenten följer de tre nästkommande segmenten ett mönster, eller sekvens, som återupprepas ända fram till loppets slut. Varje sekvens är något långsammare än den föregående vilket resulterar i en fördelning som liknar en Positive -fördelning. Kluster 3 har därför fått namnet Positive, Sequential Decline (Positiv, sekventiellt avtagande). Enligt Q1- och Q3 värdena tycks simmarna i klustret följa samma fördelning fast med en stor spridning i hastighet. Den snabbaste kvartilen är betydligt bättre än den långsammaste och vice versa, detta gäller för samtliga segment i klustret.

21 21 Figur 7 Medelhastighet med kvartiler för kluster 4 Kluster 4 håller inledningsvis en hög genomsnittshastighet med den avtar i en relativt stor utsträckning under loppets gång. Fördelningen för kluster 4 har precis som Even, Recursive Drops återkommande fall där hastigheten minskar precis innan vändningen. Eftersom kluster 4 har en fördelning som har mer gemensamt med McGibbons et al. (2018) Postive - än Even, -fördelning tilldelas den namnet Postivite, Recursive Drops (Positiv, återkommande fall) då den har samma återkommande fall som Kluster 1.

22 22 Figur 8 Medelhastighet med kvartiler för kluster 5 Hastighetsfördelningen för kluster 5 håller en hög, något avtagande men ändå relativt jämn hastighet fram tills ungefär halva loppet där det sker en stor minskning i hastighet. Därefter är tempot någorlunda jämnt fram tills målgången. Något som är värt att notera är att kluster 5 ökar i hastighet under de segment som de andra fördelningarna minskar. Kluster 5 är det enda kluster som ökar i hastighet i slutet av varje längd, innan vändningen. Det är på grund av detta som fördelningen för kluster 5 har fått namnet Opposite Sequence då dess fördelning kan beskrivas som tvärtemot de andras. Spridningen i hastighet är någorlunda liten för alla segment utom det vid 125 m där råder det en stor skillnad mellan det snabbaste och långsammaste kvartilen. Kvartilerna indikerar också att det finns en större grad av heterogenitet i fördelningen i jämförelse med de andra klustren. Det finns en påtaglig skillnad i fördelningen mellan de långsammaste- och snabbaste värdena.

23 23 Figur 9 Medelhastighet för samtliga kluster Gemensamt för samtliga kluster är att alla har en avtagande genomsnittshastighet, varje längd får alltså en något sämre tid ju längre in loppet simmarna kommer. Detta är i linje med vad Viega, S. & Roig A. (2015) menar, vid frisim på långbana tenderar hastigheten hos simmarna att stagnera över tid. Det har producerats fyra fördelningar som har återkommande sekvenser igenom loppet. PRD, ERD och PSD visar en relativt kraftig minskning vid varje segment som är innan väggen. Varför detta inträffar är dock oklart. Det är möjligt att simmarna saktar ned i förberedelse för att utföra ett så bra tekniskt segment som möjligt.

24 Boxplot Figur 10 Boxplot för de fem klustrens sluttid Av de fem fördelningarna har kluster 1, Even, Recursive Drop, den bästa genomsnittliga sluttiden (118,01 sekunder). Dess median förhåller nära till den första kvartilen jämfört med hur andra kvartilen förhåller sig till den tredje. Dess median (116,5) är ca 1,5 sekunder ifrån medelvärdet. 50 % av alla observationer i ERD har en sluttid inom intervallet 113,73-116,5 sekunder vilket är mycket bra tider. Det är också den fördelningen som presterat de lägsta sluttiderna utav alla observationerna. ERD är den fördelning som har minst standardavvikelse, dvs. en slumpmässig observation skiljer sig minst från medelvärdet i genomsnitt jämfört med de andra fördelningarna. P-fördelningen har den näst lägsta genomsnittssluttiden (119,84 sekunder). Medianen (118,71 sekunder) intar ett lägre värde än medelvärdet. Kvartil två ligger i mitten av första och tredje kvartilen men är lite närmare den första kvartilen än den tredje. Spridningen för maxim-värdet förhållande till kvartil tre avviker i större grad än vad det minsta värdet gör från kvartil ett. PSD-fördelningen har en av de långsammare medelsluttiderna på 121,76 sekunder och är det enda klustret där medianen (122,65 sekunder) är långsammare än medelvärdet vilket gör att

25 25 PSD har den hösta medianen. PSD har den största standardavvikelsen vilket innebär den bredaste boxen av fördelningarna. Maxvärdet avviker mer än det lägsta värdet. PRD-fördelningen har den långsammaste medelsluttiden (122,40 sekunder) med en median som är betydligt lägre på 121,09 sekunder. Det är också den fördelning som har den överlägset långsammaste observationen (134,9 sekunder). I och med att det tycks finnas avvikande värden i fördelningen bör medelvärdet tolkas med en viss försiktighet, det är antagligen fördelaktigt att lägga en större vikt vid dess median. Trots att PRD har observerats bland de sämsta tiderna har den en även noterats vid 115,18 sekunder vilket är en mycket bra sluttid. Det innebär att det är fullt möjligt att prestera bra tider med denna typ av fördelning. OS-fördelningen är i mitten när det kommer till hastighet för både medianen som uppgick till 121,23 sekunder och medelvärdet till 120,27 sekunder. OS fördelning har dock inte med ett avvikande maxvärde såsom alla de andra fördelningarna. Detta påverkar medelvärdet positivt till OS fördelningens fördel. OS innehar som tidigare nämnt endast 7 observationer vilket innebär att resultatet eventuellt skulle ändras markant om några ytterligare observationer uppkom. Genomgående för alla kluster förutom PSD är att andra kvartilen, dvs. medianen intar ett lägre värde än medelvärdet. Detta är på grund utav att fördelningen av tider i dessa kluster är snedfördelad på så vis att det är låg spridning mellan kvartil 1 och kvartil 2 medan det är en högre avvikelse mellan kvartil 2 till 3. Vi kan även notera att det maxvärde som presenterats har större avvikelse från tredje kvartilen än vad första kvartilen har till det lägsta mäta värdet vid alla boxplots förutom OP.

26 Distribution av beroende observationer i fördelningarna Tabell 4 Distribution av simmare som har mer än 1 observation och fördelning Simmare Antal observationer ERD P PSD PRD OS A B C D E F G H I J K I tabell 4 finns det totalt 11 simmare i datasetet som har observerats mer än en gång, detta motsvarar 44 observationer. Samtliga av dessa simmare har använt sig av olika fördelningar under olika lopp. Simmare A har exempelvis observerats simma 5 lopp med en ERD fördelning, två med en PRD- och en med en P-fördelning. Det kan anses förekomma ett samband vad gäller distributionen för fördelningarna. Det tycks inte vara slumpmässigt att en simmare verkar hålla sig mellan att använda två fördelningar, detta är fallet förutom för simare C, F och G. Simmare F står ut i att den använder sig utav 4 olika fördelningar.

27 27 Tabell 5 Genomsnittlig sluttid för de olika fördelningar bland simmare med fler än 1 observation Simmare x ERD x P x PSD x PRD x OS A 114,92 114,34-116,28 - B 115,47 115, C 121,28 121,97 122,65 - D 115,47-115, E ,42 119,94 - F 122,4 123,36 124,61 126,56 G 116,51 116,29 116,5 - H 120, ,73 I ,61 115,18 - J 115,25-116, K ,36 129,32 - Simmare A har utfört flest lopp som går att utläsa i tabell 4, hennes sämsta sluttider är genomförda med en PRD-fördelning medan hennes bästa tider är antingen en ERD eller P- fördelning vilket syns i tabell 5. Simmare F som använder sig av 4 olika fördelningar. F presterar som bäst med fördelning P i stickprovet, det skiljer ungefär 1 sekund mellan P och den näst bästa fördelningen PSD. Notera att differensen mellan de olika fördelningarna är relativt stora när en och samma individ utför loppen. Den differens som är lägst är utförd av simmare B med en differens på 0,39 mellan de två olika fördelningarna hon simmar vilket även det är en betydande skillnad inom simvärlden. Om en simmare utför P och en annan fördelning verkar P prestera bättre i de flesta fall, vilket skiljer från när alla observationer är med då det är ERD som har den lägsta genomsnittshastigheten (se figur 10). 5. Diskussion Eftersom studien lider av ett stort antal beroende observationer är det svårt att generalisera resultatet till en population. Nästan 40 % av urvalet bestod av simmare som observerats vid fler än 1 tillfälle. Det innebär att ett par snabba simmare som observerats flera gånger i datan kan dra ner genomsnittssluttiden för den fördelning de frekvent använder sig av oavsett om den är optimal eller ej. Exempelvis tillhör Simmare A en av de snabbaste i datasetet. Hon använder sig i stor utsträckning av en ERD fördelning (se Tabell 4) och har därför bidragit till att den har den lägsta genomsnittssluttiden (se figur 10). Samma problematik kan tänkas uppkomma bland de långsamma simmarna, en riktigt långsam individ kan dra ner genomsnittet för en fördelning och bidra till ett missvisande resultat. De simmare med fler observationer än 1 som är bland de

28 28 långsammaste verkar dock inte använda sig av en specifik fördelning i någon större utsträckning och detta bör därför inte vara något problem. Att ta bort de beroende observationerna skulle kunna tänkas vara en lösning på svårigheten med beroende, det skulle dock medföra en rad andra problem. Att ta bort nästan hälften av alla observationer skulle resultera i ett mycket litet urval och göra studiens resultat ännu mindre generaliserbart. Det skulle också vara svårt att konstruera de kriterier för vilka observationer som lämnas kvar i datasetet och vilka som utesluts. Om detta inte genomförts på rätt sätt skulle observationerna fortfarande vara beroende. Troligtvis hade en slumpmässig borttagning vart lämpligast. Eftersom urvalet främst grundar sig på kvarts- semi- och finallopp (anledningen till detta diskuteras i beskrivning av data) blir det automatiskt beroende observationer då snabba simmare är överrepresenterade och kvalar in i dessa lopp på en regelbunden basis. Eftersom det är en mycket liten grupp individer som deltar i OS-finaler blir det därför svårt att frånkoma att samma simmare observeras flera gånger under datainsamlingen om elitsimmare i toppform ska studeras. För att helt och håller bli av med beroendet skulle därför ett mycket bredare intervall av simmare i termer av skicklighet och prestation behöva studeras. Då skulle nya problem uppkomma, det finns troligtvis inte någon mening med att jämföra hastighetsfördelningen för en elitsimmare och en simmare på amatörnivå. De vägledande kriterier som producerades i samband med Wards metod (se figur 2) vittnar om att de kluster som skapats inte är helt optimala. Trots detta tycks observationerna, bortsett från kluster 5, vara homogena inom klustren och heterogena sinsemellan. Det som kan anses vara unikt för varje fördelning upplevs inte som slumpmässigt då hastighetsfördelningen för en given längd upprepas på ett liknande sätt i nästkommande längd för samtliga kluster. Det finns också betydande olikheter i tid och spridning mellan de olika fördelningarna (se figur 10). Något annat som talar för den klusterindelning som genomförts i studien är fördelningarnas likheter med tidigare forskning. De fördelningar som McGibbon et al. (2018) beskrev som mest optimala i sin sammanställning av tidigare forskning återfinns till viss mån i denna studies kluster. ERD som har flest observationer och bäst genomsnittssluttid har störst likheter med en Even fördelning. 5 tidigare studier har kommit fram till att Even är den mest optimala distributionen (se tabell 3). Det finns dock vissa olikheter mellan ERD och Even. ERD har återkommande hastighetsminskningar innan vändningen, något som Even saknar. Det skulle kunna bero på att McGibbons et al. fördelningarna har ett mindre antal mätningar per längd vilket resulterar i en jämnare fördelning då variationer i hastighet under längden inte redovisas

29 29 i samma utsträckning som i denna studie. ERD har också en större total minskning i hastighet i jämförelse med tidigare forskning i allmänheten och Even i synnerhet. Enligt Viega & Roig (2015) tappar en simmare ca 6-8% i hastighet från första till sista längden, ERD:s förändring är något större. Skillnaden beror troligtvis på att Viega & Roig inkluderat de tekniska segmenten. De två fördelningar som tycks generera bäst resultat är ERD och P. Gemensamt för båda fördelningarna är att de har den jämnaste hastighetsfördelningen, som nämnts tidigare är detta i linje med McGibbons sammanställning. De Konnings et al.(2018) studie kom fram till att en så jämn hastighet som mjöligt i vatten är optimalt då det gör att vattenmotståndet minimeras. Eftersom ett simlopp består av en rad tekniska segment är det omöjligt för en simmare att hålla en helt jämn hastighet så studiens resultat stämmer därför inte helt överens med De Konnings et al. men resultatet indikerar att en jämn hastighetsfördelning är att föredra. 5.1 Slutsats I denna studie utrönandes totalt 5 olika hastighetsfördelningar genom en klusteranalys; ERD, P, PSD, PRD och OS. På grund av beroenden i urvalet är det svårt att dra generella slutsatser om resultatet. Dock finns det indikationer på att ERD och P är de mest framgångsrika hastighetsfördelningarna i termer av sluttid. Det som karaktäriserar och särskiljer fördelningarna är att de håller en relativt jämn hastighet under loppets gång. Resultatet är i viss mån i linje med tidigare forskning.

30 6. Referenslista Abbiss, C.R. & Laursen, P.B., (2008)., Describing and Understanding Pacing Strategies druring Athletic Competition. Sports Med 38:239. DOI: / Altavilla, C., Cejuela, R., Caballero-Pérez, P. (2018). Efffect of Different Feedback Modalities on Swimming pace: Which Feedback Modality is Most Effective?. Journal of Human Kinetics, Volume 65/2018, DOI: /hukin De Koning, J.J., Foster, C., Lucia, A., Bobbert, M., (2011). Using Modeling to Understand How Athletes in Diffrent Disciplines Solve the Same Problem: Swimming Versus Running Versus Speed Skating. International journal of sports and phisiology and performance 6(2): DOI: /ijspp Dormehl, S., Osborough, C.(2015). Effect of age, sex, and race distance onfront crawl stroke parameters in subelite adolescent swimmersduring competition. Pediatr Exerc Sci. 2015;27(3): DOI: /pes Fédération internationale de natation. (2017). FINA SWIMMING RULES , Part III. SENAST HÄMTAD [ ] Gagnon, P., Casaburi, R., Saey, D., Porszasz, J., Provencher, S., Milot, J., et al. (2015). Clusteranalysis in Patients with GOLD 1 Chronic ObstructivePulmonary Disease. Konstantions Kostikas, University of Athens Medical School. DOI: /journal.pone Greenacre, M. (2008). Chapter 7 hierarchical cluster analysis. Stanford university SENAST HÄMTAD [ ] Horsley, R. u.å. Cluster Analysis. SENAST HÄMTAD[ ] King, R.S. (2015). Cluster Analysis And Data Mining An Introduction. Dulles, Virginia. Mercury learning and information.

31 31 De Koning, J.J., Foster, C., Lucia, A., Bobbert, M., (2011). Using Modeling to Understand How Athletes in Diffrent Disciplines Solve the Same Problem: Swimming Versus Running Versus Speed Skating. International journal of sports and phisiology and performance 6(2): DOI: /ijspp Madge, R. (2016). The physics of the fastest swim. SENAST HÄMTAD [ ] m Freestyle Swimming. Medicine & science in Sports & Exercise. DOI: /MSS.0b013e b84. Mcgibbon, K.E., Pyne, D.B., Shepard, M.E, Thompson, K.G. (2018). Pacing in Swimming: A Systematic Review. Sports Med 48:1621. DOI: /s Mitchell, J. (2018). Is there a diffrence between front crawl and freestyle?. Mauger, A., Neuloh, J., Castle, P., (2012). Analysis of Pacing Strategy Selection in Elite SENAST HÄMTAD [ ] Murtag, F. (2014). Ward s Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Ward s Criteroion. SENAST HÄMTAD [ ] Robertson, E., Pyne, D., Hopkins, W., Anson, J. (2009). Analysis of lap times in international swimming competitions. J Sports Sci.2009;27(4): DOI: / SAS. (2010). Clustering Methods. _cluster_sect012.htm. SENAST HÄMTAD[ ]

32 32 SAS. (2011). Miscellaneous Formulas. _cluster_sect013.htm. SENAST HÄMTAD [ ] SAS. (2017). Cubic Clustering criterion. v1va.htm&docsetversion=14.3&locale=en#n0612cdmmgdyojn1drnrvcy5ia3t. SENAST HÄMTAD [ ] Sharma, S. (1996). Applied Multivariate Techniques. United states of America. John Wiley & Sons. Inc. Skorski, S., Faude, O., Caviezel, S., Meyer, T. (2014). Reproducibility of Pacing Profiles in Elite Swimmers. International journal of sports physiology and performance, Volume 9 issue 2. DOI: /IJSPP Skorski, S., Faude, O., Rausch, K., Meyer, T. (2013). Reproducibility of pacing profiles in competitive swimmers. Int J Sports Med.2013;34(2): DOI: /s Statistics How To. (2016). Hierarchical Clustering / Dendogram:simple definition, examples. Viega, S. & Roig A. (2015). Underwater and surface strategies of 200 m world level swimmers. Journal of Sports Sciences: Volume 34- issue 8. DOI: / Zahn, J. (2016). Technology Improves Olympic Swimming. SENAST HÄMTAD [ ]

33 33 7. Bilagor Nedan visas två bilagor, den första visar resultatet i detalj för klustrens medelvärde, kvartil 1 och kvartil 3 för varje segment. Den andra bilagan visar SAS-koden som användes i genomförande av studien.

34 Klustrens deskription Segment x : ERD x : P x : PSD x : PRD x : OS 1 1, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Segment ERD Q1 P Q1 PSD Q1 PRD Q1 OS Q1 1 1, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Segment ERD Q3 P Q3 PSD Q3 PRD Q3 OS Q3 1 1, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

35 35 9 1, , , , , , , , , , , ,6 1, , , , , , , , SAS-kod *SKAPAR KLUSTRERNA UTAN TEKNISKA SEGMENT; title 'Dendogram'; proc import out=excel23 datafile = "C:\Users\dero5160\Downloads\simdata" dbms=excel replace; run; ods rtf; proc cluster data=excel23 out=tree8 method=ward rmsstd rsquare ccc pseudo print=110; id resid; var pu25 pu35 pu45 pu75 pu85 pu95 pu125 pu135 pu145 pu175 pu185 pu195; run; proc Tree data=tree8 nclusters=5 out=tree8notime; id resid; copy pu25 pu35 pu45 pu75 pu85 pu95 pu125 pu135 pu145 pu175 pu185 pu195; Run; Ods rtf close; Proc sort data=tree8notime; by cluster; proc print data=tree8notime; by cluster; var pu25 pu35 pu45 pu75 pu85 pu95 pu125 pu135 pu145 pu175 pu185 pu195; run; quit; *Sätter ihop de två data-setet; proc sort data=tree8notime; by resid; proc sort data= excel23; by resid; run; data new23; set excel23; set tree8notime; by resid; run; *kolla medelvärden; ods rtf; proc means data=new23 mean stddev q1 q3; class cluster; var tid200; run; ods rtf close; *Kolla hur många av samma atlet som är i kluster; proc freq data=new23; tables athid cluster athid*cluster / out=freqcount outexpect sparse; title 'Atlet och cluster'; run; proc sort data= new23; by cluster; run; proc means data=excel23 mean stddev q1 q3; class cluster; var h25 h35 h45 h75 h85 h95 h125 h135 h145 h175 h185 h195; run;

Visa mer