Statistiska institutionen. Bachelor thesis, Department of Statistics. Kategorisering av simmares hastighetsfördelningar under tävlingslopp
|
|
- Kjell Sundqvist
- för 4 år sedan
- Visningar:
Transkript
1 1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2019:2 Kategorisering av simmares hastighetsfördelningar under tävlingslopp Categorization of pacing during swimming competitions Filip Stjernfeldt och Dennis Roslinde Självständigt arbete 15 högskolepoäng inom Statistik III, VT2019 Handledare: Hans Nyquist
2 2 Innehåll 1. Inledning Syfte & frågeställning Tidigare forskning Beskrivning av data Avgränsningar Variabler Metod Klusteranalys Wards minimal-variance metod Estimering av antal kluster Cubic clustering criteron (CCC) Pseudo F och Pseudo T-squared Dendogram Resultat Klusteranalys Klustrens fördelningar Boxplot Distribution av beroende observationer i fördelningarna Diskussion Slutsats Referenslista Bilagor Klustrens deskription SAS-kod... 35
3 3 Tabell 1 Beteckningsbeskrivning Beteckning x K D KL N K P G G Beskrivning Medelvärde av vektor i index K Distansen mellan kluster K och L Antal observationer i kluster K Där P G motsvarar W J d.v.s. summan av alla kvadratsummor inom varje enskilt kluster som dikteras av G kluster vid nivå G i hierarkin Antal kluster vid en given nivå av hierarkin. Där hierarkin menas med klusterindelningens förlopp. B KL W M W K W L om C M = C K C L Där B KL är kvadratsumman mellan klustren K och L. T T = n i=1 x i x 2 Summan av den totala ekludiska längdens avvikelse mellan vektorerna x i och dess medelvärde x i kvadrat. T är den totala kvadratsumman. W k W k = n i C x i x K 2 k Summan av alla ekludiska längders avvikelse mellan vektorerna x i och dess medelvärde x K i kvadrat inom kluster K. W k är kvadratsumman inom kluster K. C k K th kluster i delmängden av [1,2,, n] p v v = j=1 s j, v är volymen för hyperboxen s j Längden längs kanterna av kuberna i en hyperbox upp till den j th dimmensionen p Antalet parametrar c c = ( v p ) 1 p Längden längs kanten för en av kuberna i en hyperbox u j u j = s j C Antal kuber längs den jth dimmensionen
4 4 Beteckning q Beskrivning Antal kluster Tabell 2 Förkortningsbeskrivning Förkortning [LCM] [SCM] [ERD] [P] [PSD] [PRD] [OS] [FINA] Beskrivning Lång bassäng, 50 m Kort bassäng, 25 m Even Recursive Drop Positive Positive Sequential Decline Positive Recursive Decline Oposite Sequential Fédération internationale de natation, en organisation som upprätthåller simregler internationellt.
5 5 1. Inledning Tävlingssimning är en sport som involverar jakten efter perfektion. Det är inte ovanligt att ett lopp avgörs med en hundradels sekunds marginal. Små korrigeringar i taktik, teknik, träning eller utrustning kan utgöra skillnaden mellan ett guld och en fjärdeplats. En viktig aspekt av simning är s.k. pacing. Pacing går ut på att fördela den energi en simmare har till sitt förfogande under ett lopp så effektivt som möjligt. Om en simmare går ut för hårt i början av ett lopp kommer all energi vara slut innan loppet är över och om en simmare tar det för lugnt kommer det finnas energi kvar efter målgången som kunnat spenderas under loppet. Ofta delas en önskad sluttid in i olika segment där varje segment har en viss tid som målsättning. Simmare tränar sedan på att hålla rätt tempo under de olika segmenten. Detta görs exempelvis genom att deras tränare gör gester och ljud under träningar för att hjälpa simmaren hålla rätt hastighet. Det råder delade meningar kring hur ett lopp ska delas in. Vissa menar exempelvis att det är bättre för en simmare att gå ut hårt i början av ett lopp medan andra anser att det är effektivare är att hålla ett jämnt tempo under hela loppet (Mcgibbon et al. 2018). När ett lopp studeras kommer vissa segment sticka ut som snabbare än andra. Detta beror inte nödvändigtvis på att simmare spenderar mer energi eller har en snabbare pacing under dessa delar, ofta beror det på hur ett sim-lopp är utformat. De första 15 m av ett lopp består av att simmarna dyker från en språngbräda på bassängens kant för att sedan glida max 15 m under vattnet, att vara under vattnet i längre än 15 m är ett regelbrott (Fédération internationale de natation (FINA), 2017). Detta är alltid den snabbaste delen av ett lopp. Alla distanser förutom 50 m innefattar även vändningar och frånskjut. Eftersom en bassäng inte är längre än 50 m måste simmare byta riktning till det motsatta hållet efter att de nått bassängens ände för att fortsätta loppet. Denna vändning genomförs vanligtvis genom en slags volt under vattnets yta. Efter en lyckad vändning skjuter simmarna ifrån mot väggen och glider en bit under vattenytan. Frånskjutet innebär att de första metrarna av en längd blir de snabbaste. De sista 5 metrarna av ett lopp sträcker sig simmarna för att nudda bassängens kant, det resulterar i att segmentet får en väldigt hög genomsnittshastighet. Dessa segment kan klassas som tekniska delar. Det innebär att tidsskillnader mellan individer under dessa segment rimligtvis inte beror på pacing utan på tekniskt och atletiskt utförande. Segmenten har den överlägset bästa energi/hastighet kvoten vilket innebär att simmarna kan generera en hög hastighet utan
6 6 att spendera en betydande mängd energi (Madge, 2016). Att försöka spara på kraft genom att inte genomföra de tekniska delarna så snabbt som möjligt är därför mycket ineffektivt och det finns därför antagligen inte någon elitsimmare som använder sig av denna taktik. 1.1 Syfte & frågeställning Syftet med denna studie är att utröna vilka hastighetsfördelningar som finns bland simmare under tävlingslopp och vilka av dessa fördelningar som producerar det bästa resultatet. Detta för att simmare och simtränare ska få mer kännedom om vilken taktik som har statistisk grund. Studiens frågeställningar ser därför ut som följande: Vilka hastighetsfördelningar finns bland simmare under tävlingslopp? Vad karaktäriserar fördelningarna med bäst sluttider? 1.2 Tidigare forskning Skorksi et al. menar att erfarna simmare tenderar att ha samma fördelning under olika lopp och tävlingar (Skorski et al. 2013). Detta kan anses som en indikation på att duktiga simmare har en inlärd tempoprocess som de har övat in under träningar samt att denna inlärning har en reell effekt på deras prestationer under tävlingar. Eftersom den data som används i studien främst berör simmare på elitnivå (simmare som kan anses vara erfarna) bör nästan alla observerade lopp ha genomförts av simmare med inövade taktiska fördelningar. Simtränare kommunicerar med simmare under träningar med hjälp av visuella och/eller verbala signaler i form exempelvis visslingar och rop för att simmaren ska veta om den håller ett högt, bra eller lågt tempo. Altavilla, Cjuela & Caballero-Pérez (2018) anser att lopp där simtränaren kommunicerar med simmaren utmynnar i ett jämnare tempo än lopp där denna hjälp inte är tillgänglig. FINA, den officiella kommittén för regler och tävlingar inom simning, klassificerar denna typ av kommunikation mellan utomstående och simmare under tävlingslopp som ett regelbrott (FINA, 2017). Vid besök av en simtävling på elitnivå fann vi dock att somliga inom publiken gjorde distinkta, rytmiska, ljud riktade mot vissa simmare, framförallt inom bröstsimning. Om detta var för att hjälpa simmaren med tempot eller som ett sätt att peppa de tävlande är dock oklart. Rimligtvis bör inte dessa ljudsignaler ha en allt för
7 7 stor effekt under tävlingar då de tordes bli dränkta i alla de ljud som uppstår när många människor befinner sig i samma lokal. I tidigare forskning så finns olika synpunkter för hur en simmare bör disponera sitt lopp. Enligt Altavila, Cjuela & Caballero-Pérez (2018) finns det inte någon generell regel för hur simmare ska disponera sitt lopp så effektivt som möjligt McGibbon et al. (2018) genomförde en studie där de sammanfattade Abbiss, C.R. & Laursen, P.B., (2008) arbete om olika fördelningar där McGibbon et al. transformerade om Abbiss, C.R. & Laursen, P. B arbete till överskådliga grafer. Enligt McGibbon et al. (2018) finns det sammanlagt 6 energidisponeringar som simmare använder sig av för samtliga sträckor och simstilar. Dessa fördelningar kallar han för Negative, Positive, Even, Parabolic Jformed och All-out. En Negative fördelning innebär att simmaren tar det lugnt vid start för att sedan succesivt öka i hastighet och tempo under loppets gång. En Positive fördelning är motsatsen, alltså att simmaren går ut hårt vid start för att sedan tappa i tempo under loppets gång. En Even fördelning är ganska självförklarande, det innebär att simmaren (om man bortser från starten) håller ett jämnt tempo genom hela loppet. En Parabolic fördelning är en disponering där simmaren håller ett hög tempo vid start, långsamt under loppens mitt för att sedan spurta på slutet. En J-formed fördelning innebär att simmaren håller ett jämt tempo genom majoriteten av loppet följt av en spurt på slutet, grafiskt ser det lite ut som ett liggande J, därav namnet. En All-out disponering innebär att simmaren tar ut sig så mycket som det bara går från start, vilket resulterar i en kraftig minskning i hastighet under loppets slut då simmaren inte har kvar någon energi. Naturligtvis förekommer dessa fördelningar olika frekvent under olika distanser och simstilar. Exempelvis kan en All-out fördelning tänkas vara vanlig under en 50-meters spurt medan en J-formed fördelning oftare förekommer vid 1800-meters lopp. Gemensamt för alla fördelningar är att de i någon mån har en snabb start på grund av dykningen från kanten.
8 8 Figur 1 Illustration av Mcgibbon et al. 6 fördelningar McGibbon et al. sammanställde i sin studie vad andra undersökningar kommit fram gällande de mest optimala fördelningarna för simmare. För 200 m freestyle har totalt 4 studier dragit slutsatsen att en Even fördelning är bäst, 1 att Positive är mest optimal och 1 att en version av en Even energidistribution där den snabba starten är utesluten är bäst (se tabell 3). Mcgibbon menar även att den mest frekventa fördelningen som fristilssimmare använder vid 200 meters sträckor är parabolic eller fast start even (Mcgibbon et al. 2018). Värt att påpeka är att Abbiss, C.R. & Laursen, P.B., (2008) fördelningar var till för att kategorisera flera typer av sporters energiförbrukning, inte bara simning
9 9 Tabell 3 Sammanställning av Mcgibbon et al. Referens Kön Bassäng Fördelning De Koning et al.(2011) Ej tillgängligt LCM Even (utan snabb start) Dormehl och Osborough (2015) Män och kvinnor SCM Even Robertson et al.(2009) Män och kvinnor LCM Positive Skorski et al.(2013) Män och kvinnor LCM Even Skorski et al.(2014) Män LCM Even Veiga and Roig (2015) Män och kvinnor LCM Even De Koning et al. genomförde den studie som kom fram till att en Even (utan snabb start)- fördelning är mest optimal under ett 200-meters lopp på långbana. Detta grundade sig inte i empiri utan på matematiska beräkningar baserade på fysikens lagar. De Koning et al. fann att en simmare bör hålla ett så jämt tempo som möjligt under hela loppet då hastighetsökningar i vatten leder till ett kraftigare vattenmotstånd som resulterar i en suboptimal förbrukning av energi. Eftersom studien främst riktade in sig på vattens egenskaper kontra hastighetsförändringar tog De Koning et al. aldrig de tekniska segment som utgör ett simlopp i beaktning (dyk, frånskjut etc.). Detta kan ligga till grund för att de kom fram till att en Even -fördelning utan snabb start är mest optimal istället för en Even -fördelning med en snabb start som de andra undersökningarna. Som nämnts tidigare, den snabba starten är inte ett aktivt val från simmarnas sida utan en naturlig del av hur ett lopp är upplagt. Mauger, Neuloh & Castle (2012) genomförde en studie där de analyserade australiska simmares energidisponering vid 400 meters sträckor. De klassificerade olika fördelningar genom en algoritm. De jämförde sedan sina resultat med Abbiss, C.R. & Laursen, P.B., (2008) studie och kom fram till att de fördelningar som var mest lika deras resultat var parabolic och fast start even. Vid deras analysering om dessa fördelningar presterade bättre tider så indikerade data att de var snabare men inte så pass att det var statistiskt signifikant. I fristil så tenderar simmarna att förlora hastighet successivt under loppets gång. Viega & Roig (2015) menar att en simmare förlorar mellan 6-8% av deras hastighet från första längden till den sista längden.
10 10 2. Beskrivning av data Den data som används i studien är insamlad av Aqua Front. Företaget har samlat in data genom att spela in och studera tävlingar på främst elitnivå. Observationerna består av tider för olika distanser, segment och simstilar, kön, längd och tävlingar. Sträckan för varje lopp har delats in i segment. För 200 m långbana följer indelningen av varje längd ordningen 15, 25, 35, 45 och 50 m. Indelningen har genomförts genom att följa simmarnas huvuden, när huvudet passerat exempelvis 25 meters markeringen räknas simmaren ha avklarat 0-25 meters segmentet. Det finns en viss variation i hur tidtagningen utförs, oftast är markeringen för de olika sträckorna ca 1 decimeter lång, ibland har tiden tagits när simmaren nått början på markeringen och ibland slutet. Under de tävlingar där datan samlats in har huvudsakligen kvarts-, semi- och finallopp observerats. Detta beror på att de elitsimmare som är bland de snabbaste i världen sällan behöver prestera sitt bästa under kvallopp och dylikt. Att studera kvallopp skulle därför innebära en bias där duktiga simmare inte gör sitt bästa. En naturlig följd av att främst observera kvarts-, semi- och finallopp blir dock att individer som tillhör den bästa gruppen av simmare blir överrepresenterade. Detta gäller även för datasetet. Sara Sjöström är den simmare med flest observationer i stickprovet, hon utgör totalt 8 utav 112 observationer. Detta resulterar i att alla observationer inte är oberoende av varandra. 2.1 Avgränsningar Studien har avgränsats till 200 meter fristil med kvinnliga simmare på långbana. Fristil består vanligtvis av s.k. crawl-simning eftersom det är den snabbaste simformen (Mitchell, 2018). Det finns generellt två olika typer av bassänger inom simning; lång- och kortbana. En långbana är 50 m lång och en kortbana 25 m. De mest prestigefyllda tävlingarna, exempelvis OS, använder sig av långbanor. Simmare kan tänkas anpassa sig så att de når toppform under OS för att generera ett så bra resultat som möjlig. Att studera lopp på långbana utgör därför störst sannolikhet att observera simmare när de är som bäst. Långbanor har också mindre tekniska segment än kortbanor (vändningar, frånskjut mm.) vilket innebär att långbanor har ett större utrymme för taktik och pacing. Datasetet har avgränsats till att endast innefatta observationer mellan perioden Detta beror på att det infördes regelmässiga förändringar gällande tillåten utrustning efter att
11 11 en speciell dräkt (s.k. shark suit) fått spridning inom simvärlden och markant förbättrat simmares sluttider (Zahn, 2016). 2.2 Variabler De variabler som använts till denna studie är tiden för sträckorna 25, 35, 45, 75, 85, 95, 125, 135, 145, 175, 185, 195 och 200 meter, referensnummer på simmare som genomförde observerat lopp, typ av bana och kön. Varje variabel har totalt 112 observerade värden. 3 Metod Exkluderingen av de tekniska delarna av ett lopp har utförts på grund av två anledningar. Dels som tidigare diskuterats utgör inte de tekniska delarna en del av en simmares pacing men även på grund av att studien tillämpar en kategoriserings metod som heter klusteranalys. Utrymmet för förändring i hastighetsökning är som störst vid vändningarna och vid starten vilket hade mynnat ut i att klusteranalysen hade producerat kluster som dikterats av om simmaren utfört ett bra eller dåligt tekniskt segment, vilket inte är i linje med studiens syfte. För att kategoriseringen av olika taktiker inte skulle dikteras av observationernas sluttid så har varje segmentens tider omvandlats till andelar. Andelen av loppet som spenderades under varje tidssegment har tagits fram genom att dela tiden det tog för en individ att simma det givna segmentet på den sammanlagda tiden (exklusive tekniska delar). En större proportion innebär således ett långsammare segment och vice versa. Efter en kategorisering är genomförd presenteras hastighetsfördelningarna för de olika kategorierna. Sluttiden (inklusive tekniska segment) används senare i analysen för att urskilja om det är någon kategorisering som presterar bättre än en annan. 3.1 Klusteranalys Klusteranalys är en teknik som används för att dela in datamängder i delmängder (kluster). Målet är att det ska råda homogenitet mellan observationerna inom ett kluster och att de olika klustren är heterogena. Klusteranalys används vanligtvis vid stora mängder data för att synliggöra och kategorisera avvikande element (Sharma, 1996). Eftersom studien ämnar att identifiera olika hastighetsfördelningar bland simmare kan en klusteranalys användas för att upptäcka och para ihop homogena observationer för att på så sätt synliggöra fördelningar som existerar i datasetet.
12 Wards minimal-variance metod Wards minimal-varians metod är en hierarkisk typ av klusterfiering. Metoden tenderar att para ihop kluster med få observationer samt skapa kluster som består av ett liknande antal observationer. En nackdel med metoden är att den är känslig för avvikande värden (outliers). (SAS, 2010). Wards metod är bra att använda när variablerna är icke-binära och följer en elliptisk form (formen är ungefär som ett ägg) om de plottas i en p-dimensionell scatterplott (King, 2015). Då studiens variabler är icke-binära och kan tänkas ha en elliptisk form bör Wards metod vara passande att använda. Eftersom det ligger i studiens intresse att ta fram olika fördelningar bör det vara en fördel om flera kluster bildas. Avvikande fördelningar (outliers) kan lätt upptäckas genom att plotta alla kluster grafiskt. I Wards metod är distansen mellan två kluster felkvadratssumman mellan de två klustren för alla variabler. Vid varje ny generation av kluster paras kluster från föregående generation ihop så att felkvadratssumman inom varje nytt kluster är så liten som möjligt. Denna procedur görs från att alla observationer är ensamma till att alla observationer tillhör ett och samma kluster (SAS, 2010). Wards metod utförs genom att beräkna den euklidiska längden mellan kluster, följande formel används : Där D KL = B KL = x K x L 2 1 N K + 1 N L specificerar att en euklidisk norm råder, K, L, M och J är index för kluster Om d(x, y) = 1 2 x y 2, där d(x, y) är ett uttryck för populationsvariansen, är den kombinatoriska formeln för Ward s metod (Murtagh, 2014): D JM = (N J+N K )D JK +(N J +N L )D JL N J D KL N J +N M = Där M = L K N J +N K N J +N K +N L D JK + N J+N L N J +N K +N L D JL N J N J +N K +N L D KL Den kombinatoriska formeln används för varje ny generation av kluster för att producera D för alla kombinationer av kluster. Den kombination av klusterpar som leder till den minsta ökningen av inom-kluster-varians paras ihop för att bilda nästa generation av kluster. Detta fortgår tills specificerat antal kluster är uppnått. (SAS, 2010).
13 Estimering av antal kluster När Wards metod används i SAS fortsätter dataprogrammet att para ihop nya generationer av kluster tills alla observationer tillhör ett och samma kluster. Att bara ha ett gigantiskt kluster är vanligtvis inte eftersträvansvärt när Wards metod används, därför måste ett önskat antal kluster specificeras i SAS. För att estimera hur många kluster som är passande för stickprovet produceras ett antal vägledande kriterier för evaluering; Cubic clusterin criterion (CCC), Pseudo F, Pseudo T-squared och ett dendogram. Dessa kriterier bör tas i beaktning var för sig och vägas mot varandra för att rätt beslut ska tas angående klustermängden (SAS, 2017; Greenacre, 2008). 3.4 Cubic clustering criteron (CCC) CCC är ett mått på hur många kluster som kan vara passande att använda i exempelvis en klusteranalys gjord med Wards metod. CCC:n grundar sig i antagandet att klustren antar en uniform fördelning på en hyperbox med lika stora hyperkuber. Vanligtvis gäller inte antagandet om hyperkuberna men metoden används ändå då frångången från antagandet oftast är litet såvida antalet kluster inte är väldigt stort i två eller fler dimensioner (SAS, 2017). CCC:n beräknas vid varje ihopparning av kluster där p är det största heltalet som är mindre än antalet kluster q vid en given generation av kluster. Ett positivt värde på CCC:n indikerar att det observerade R 2 -värdet är större än vad som vore förväntat om klustren härstammat från en uniform distribution när ytterligare en dimension, p + 1, inkluderats. Ett positivt värde för CCC:n innebär alltså att det observerade R 2 -värdet är större än det förväntade, en lämplig avgränsning för antalet kluster blir därför den mängd kluster där CCC:n når en topp (SAS, 2017). Uträkningen för CCC ser ut som följande: CCC = ln ( (1 E(R2 )) np (1 R 2 ) ) 2 (0,001 + E(R 2 )) 1,2 Där formeln för R 2 är: R 2 = 1 p p 2 + j=p +1 u j p 2 u j j=1
14 14 Och formeln för förväntat R 2 givet en uniform fördelning på en hyperbox är: E(R 2 ) = 1 p j=1 1 n + u + j p 2 j=1 u j p j=p +1 u j 2 n + u j (n q) n n I resultatdelen av studien redovisas resultatet grafiskt med en CCC-plot. Där CCC-värdet presenteras på y-axeln och antal kluster på x-axeln. Vid granskning av en CCC-plot skall det antal kluster där det inträffar en topp av CCC:n tas med i avvägning för beslut. Det är vanligt förekommande att flera toppar framkommer och då bör fastställandet av antal kluster kompleteras med andra mått. Vid granskning av CCC ska även de uppkomna värdena tas i åtanke. En CCC-plot där CCC-värdet uppgår till 2-3 vid en topp indikerar ett bra antal kluster. Värden som är mellan 0-2 indikerar att det är möjligt att klustern är bra. Om värdet är negativ för två eller mer kluster så innebär detta att datadistributionen troligen är unimodal eller snefördelad. Utifall det är extremt negativa värden, -30 eller mindre så är det många outliers som förekommer i data-setet. Om värdet ökar kontinuerligt när antalet kluster ökar tyder CCC:n på att stickprovet inte är tillräckligt informativt. En utökning av antal decimaler för stickprovet är då lämpligt (ibid.). 3.5 Pseudo F och Pseudo T-squared Pseudo F beskriver förhållandet för variansen mellan alla klustren och inom varje kluster för varje ny generation av kluster. Psuedo F är med andra ord ett mått på hur heterogena klustren är. Pseudo F kalkyleras genom följande Pseudo F = T P G G 1 P G n G Eftersom T är den totala kvadratsumman och P G är kvadratsumman inom varje kluster blir T P G den totala kvadratsumman mellan varje kluster.
15 15 Vid evaluering av Pseudo F menar Horsley att det antal kluster som bör användas är när den första distinkta höjningen sker av Pseudo F-värdet där endast en tydlig topp bör förekomma (Horsley, u.å. SAS, 2011.). Toppen används då ett högt värde tyder på att klustren är heterogena gentemot varandra, d.v.s. är separerade från varandra. Pseudo T-squared är ett index som kvantifierar skillnaden i förhållandet för variansen mellan två kluster och variansen inom två stycken kluster, K och L när de paras ihop. Beräkningen utav Pseudo T-squared tas fram genom följande formel Pseudo t 2 = B KL ((W K + W L )/(N K + N L 2)) Pseudo T-squared-plot skall avläsas från höger till vänster. När den första stora uppgången av Pseudo T-squared värdet inträffar är det antal kluster föregående till uppgången som bör väljas. Det föregående antalet kluster används på grund av att en stor uppgång av pseudo t- square tyder på att de två klustren som sammanfoggats skiljer sig ifrån varandra i stor grad och bör därför inte genomföras eftersom ett av målen med klusteranalys är att ha homogena observationer inom kluster. Vid Pseudo T-squared är det vanligt att det förekommer även här, flera toppar (SAS, 2011). 3.6 Dendogram Ett dendogram visar hur stort avstånd det är mellan varje steg av klusteranalysen som har utförs vid indelningen av nya kluster. Ett dendogram utgörs exakt som den valda klustermetoden där alla observationer är en egen grupp från början där de delas in i kluster ända fram tills att det endast finns ett kluster som innehar alla observationer. Genom att utläsa var skillnaden mellan kluster inte är stor kan en avvägning för antalet kluster utföras (Statistics How To, 2016).. 4. Resultat I denna del redovisas resultaten för metoderna som är beskrivna i studiens metodologiska del.
16 Klusteranalys I figur 2 presenteras resultatet för CCC, Pseudo F och Pseudo T-squared med indexvärdet på y- axeln och antal kluster på x-axeln. Figur 2 avläses från höger till vänster precis som en klusteranalytisk process, då vi går från många olika kluster till att alla tillhör ett och samma kluster. I figuren visas från att de var 22 kluster tills att det endast var 1 kluster kvar. Figur 2 Kriterier för antalet kluster I figur 2 går det utläsa att CCC:n har två toppar. En topp visas när det är 5 kluster och en när det är 14 stycken kluster. Den mest framstående toppen är vid 5st kluster även om denna inte är speciellt framträdande. Värdena på CCC:n är svagt negativa i flera generationer av kluster, vilket tyder på att variablerna följer en unimodal eller sned fördelning. Resultatet från CCC:n tyder med andra ord på att klustren inte är perfekta. Negativa värden på CCC:n utan framträdande toppar har dock validerats utav andra studier (Gangnon et al. 2015). För Pseudo F visas inga tydliga toppar som presenteras i figur 2. Vilket beskriver att variansen inom och mellan klustren ökar kontinuerligt när antalet kluster minskar. Detta leder
17 17 till att det högsta värdet av Pseudo F är vid dess sista genomförda process vilket är när det finns 3 kluster. Pseudo T-squared visar att en stor ökning sker efter 3 kluster. Vi kan även se att denna ökning påbörjar redan efter det 5:e klustret. Figur 3 Dendogram för klusterindelningen Utifrån dendogrammet går det att utläsa att en uppdelning bör göras vid antingen 3 eller 5 kluster. För många klusterindelningar resulterar i att grupperna blir små och homogena sinsemellan och för få att det råder för stor heterogenitet inom varje kluster. Om endast 3 klusterindelningar gjorts hade kluster 3 och 1 samt kluster 5 och 2 tillhört samma grupp. Dessa grupper skulle ha för stor intern heterogenitet. Om ett 6:e kluster bildats hade kluster 1 delats in i två grupper. De skulle rimligtvis vara väldigt lika och det 6:e klustret hade därför inte tillfört något betydande till analysen. Utifrån CCC:n som tidigare nämnt gav detta en indikation vid det 5:e klustret medan Pseudo T-squared gav indikation på tre kluster men med början av uppgången efter 5:e kluster. Ett beslut togs i att göra uppdelningen vid 5 kluster med risk för att de två sista utelämnande sammanfogningsprocesserna, kluster 3 och 1 samt 5 och 2 har viss likhet med varandra.
18 Klustrens fördelningar Nedan visas klustrens medelhastighetsfördelning över loppet. Varje kluster har tilldelats ett namn i ett försök att fånga klustrens karaktärism. Namngivningen är baserad på den tidigare studien av McGibbon et al. som diskuterades tidigare i studien. Figur 4 Medelhastighet med kvartiler för kluster 1 De två första segmenten för kluster 1 har en mycket hög genomsnittshastighet. Denna hastighet avtar dock snabbt och övergår till en jämn, något avtagande, hastighetsfördelning med plötsliga och kraftiga minskningar i hastighet de sista 15 metrarna av varje längd, precis innan vändningen. Om man bortser från hastighetsfallen i slutet på varje längd liknar fördelningen en, vad McGibbon et al. (2018) skulle kalla, Even, fördelning som karaktäriseras av en snabb start efterföljt av en jämn hastighet. Fördelningen har därför namngetts till Even, Recursive Drops (Jämn med återkommande fall). Spridningen i hastighet för de olika segmenten är inte stor mellan simmarna, skillnaden mellan Q1 och Q3 är relativt liten.
19 19 Figur 5 Medelhastighet med kvartiler för kluster 2 Hastighetsfördelningen för kluster 2 har en snabb start följt av en nästintill linjärt avtagande hastighet. Det går att tyda en viss reduktion i hastighet innan vändningen för varje längd men denna förändring är mycket liten (2-3cm/s). Fördelningen är i stora drag lik den som McGibbon et al. (2018) kallar Positive och har därför tilldelats samma namn. Skillnaden mellan kvartil- 1 och 3 är liten och ser ut att vara jämnstor genom hela fördelningen och vittnar om homogena observationer inom klustret.
20 20 Figur 6 Medelhastighet med kvartiler för kluster 3 Fördelningen för Kluster 3 inleds med en hög men snabbt avtagande hastighet. Efter de två första segmenten följer de tre nästkommande segmenten ett mönster, eller sekvens, som återupprepas ända fram till loppets slut. Varje sekvens är något långsammare än den föregående vilket resulterar i en fördelning som liknar en Positive -fördelning. Kluster 3 har därför fått namnet Positive, Sequential Decline (Positiv, sekventiellt avtagande). Enligt Q1- och Q3 värdena tycks simmarna i klustret följa samma fördelning fast med en stor spridning i hastighet. Den snabbaste kvartilen är betydligt bättre än den långsammaste och vice versa, detta gäller för samtliga segment i klustret.
21 21 Figur 7 Medelhastighet med kvartiler för kluster 4 Kluster 4 håller inledningsvis en hög genomsnittshastighet med den avtar i en relativt stor utsträckning under loppets gång. Fördelningen för kluster 4 har precis som Even, Recursive Drops återkommande fall där hastigheten minskar precis innan vändningen. Eftersom kluster 4 har en fördelning som har mer gemensamt med McGibbons et al. (2018) Postive - än Even, -fördelning tilldelas den namnet Postivite, Recursive Drops (Positiv, återkommande fall) då den har samma återkommande fall som Kluster 1.
22 22 Figur 8 Medelhastighet med kvartiler för kluster 5 Hastighetsfördelningen för kluster 5 håller en hög, något avtagande men ändå relativt jämn hastighet fram tills ungefär halva loppet där det sker en stor minskning i hastighet. Därefter är tempot någorlunda jämnt fram tills målgången. Något som är värt att notera är att kluster 5 ökar i hastighet under de segment som de andra fördelningarna minskar. Kluster 5 är det enda kluster som ökar i hastighet i slutet av varje längd, innan vändningen. Det är på grund av detta som fördelningen för kluster 5 har fått namnet Opposite Sequence då dess fördelning kan beskrivas som tvärtemot de andras. Spridningen i hastighet är någorlunda liten för alla segment utom det vid 125 m där råder det en stor skillnad mellan det snabbaste och långsammaste kvartilen. Kvartilerna indikerar också att det finns en större grad av heterogenitet i fördelningen i jämförelse med de andra klustren. Det finns en påtaglig skillnad i fördelningen mellan de långsammaste- och snabbaste värdena.
23 23 Figur 9 Medelhastighet för samtliga kluster Gemensamt för samtliga kluster är att alla har en avtagande genomsnittshastighet, varje längd får alltså en något sämre tid ju längre in loppet simmarna kommer. Detta är i linje med vad Viega, S. & Roig A. (2015) menar, vid frisim på långbana tenderar hastigheten hos simmarna att stagnera över tid. Det har producerats fyra fördelningar som har återkommande sekvenser igenom loppet. PRD, ERD och PSD visar en relativt kraftig minskning vid varje segment som är innan väggen. Varför detta inträffar är dock oklart. Det är möjligt att simmarna saktar ned i förberedelse för att utföra ett så bra tekniskt segment som möjligt.
24 Boxplot Figur 10 Boxplot för de fem klustrens sluttid Av de fem fördelningarna har kluster 1, Even, Recursive Drop, den bästa genomsnittliga sluttiden (118,01 sekunder). Dess median förhåller nära till den första kvartilen jämfört med hur andra kvartilen förhåller sig till den tredje. Dess median (116,5) är ca 1,5 sekunder ifrån medelvärdet. 50 % av alla observationer i ERD har en sluttid inom intervallet 113,73-116,5 sekunder vilket är mycket bra tider. Det är också den fördelningen som presterat de lägsta sluttiderna utav alla observationerna. ERD är den fördelning som har minst standardavvikelse, dvs. en slumpmässig observation skiljer sig minst från medelvärdet i genomsnitt jämfört med de andra fördelningarna. P-fördelningen har den näst lägsta genomsnittssluttiden (119,84 sekunder). Medianen (118,71 sekunder) intar ett lägre värde än medelvärdet. Kvartil två ligger i mitten av första och tredje kvartilen men är lite närmare den första kvartilen än den tredje. Spridningen för maxim-värdet förhållande till kvartil tre avviker i större grad än vad det minsta värdet gör från kvartil ett. PSD-fördelningen har en av de långsammare medelsluttiderna på 121,76 sekunder och är det enda klustret där medianen (122,65 sekunder) är långsammare än medelvärdet vilket gör att
25 25 PSD har den hösta medianen. PSD har den största standardavvikelsen vilket innebär den bredaste boxen av fördelningarna. Maxvärdet avviker mer än det lägsta värdet. PRD-fördelningen har den långsammaste medelsluttiden (122,40 sekunder) med en median som är betydligt lägre på 121,09 sekunder. Det är också den fördelning som har den överlägset långsammaste observationen (134,9 sekunder). I och med att det tycks finnas avvikande värden i fördelningen bör medelvärdet tolkas med en viss försiktighet, det är antagligen fördelaktigt att lägga en större vikt vid dess median. Trots att PRD har observerats bland de sämsta tiderna har den en även noterats vid 115,18 sekunder vilket är en mycket bra sluttid. Det innebär att det är fullt möjligt att prestera bra tider med denna typ av fördelning. OS-fördelningen är i mitten när det kommer till hastighet för både medianen som uppgick till 121,23 sekunder och medelvärdet till 120,27 sekunder. OS fördelning har dock inte med ett avvikande maxvärde såsom alla de andra fördelningarna. Detta påverkar medelvärdet positivt till OS fördelningens fördel. OS innehar som tidigare nämnt endast 7 observationer vilket innebär att resultatet eventuellt skulle ändras markant om några ytterligare observationer uppkom. Genomgående för alla kluster förutom PSD är att andra kvartilen, dvs. medianen intar ett lägre värde än medelvärdet. Detta är på grund utav att fördelningen av tider i dessa kluster är snedfördelad på så vis att det är låg spridning mellan kvartil 1 och kvartil 2 medan det är en högre avvikelse mellan kvartil 2 till 3. Vi kan även notera att det maxvärde som presenterats har större avvikelse från tredje kvartilen än vad första kvartilen har till det lägsta mäta värdet vid alla boxplots förutom OP.
26 Distribution av beroende observationer i fördelningarna Tabell 4 Distribution av simmare som har mer än 1 observation och fördelning Simmare Antal observationer ERD P PSD PRD OS A B C D E F G H I J K I tabell 4 finns det totalt 11 simmare i datasetet som har observerats mer än en gång, detta motsvarar 44 observationer. Samtliga av dessa simmare har använt sig av olika fördelningar under olika lopp. Simmare A har exempelvis observerats simma 5 lopp med en ERD fördelning, två med en PRD- och en med en P-fördelning. Det kan anses förekomma ett samband vad gäller distributionen för fördelningarna. Det tycks inte vara slumpmässigt att en simmare verkar hålla sig mellan att använda två fördelningar, detta är fallet förutom för simare C, F och G. Simmare F står ut i att den använder sig utav 4 olika fördelningar.
27 27 Tabell 5 Genomsnittlig sluttid för de olika fördelningar bland simmare med fler än 1 observation Simmare x ERD x P x PSD x PRD x OS A 114,92 114,34-116,28 - B 115,47 115, C 121,28 121,97 122,65 - D 115,47-115, E ,42 119,94 - F 122,4 123,36 124,61 126,56 G 116,51 116,29 116,5 - H 120, ,73 I ,61 115,18 - J 115,25-116, K ,36 129,32 - Simmare A har utfört flest lopp som går att utläsa i tabell 4, hennes sämsta sluttider är genomförda med en PRD-fördelning medan hennes bästa tider är antingen en ERD eller P- fördelning vilket syns i tabell 5. Simmare F som använder sig av 4 olika fördelningar. F presterar som bäst med fördelning P i stickprovet, det skiljer ungefär 1 sekund mellan P och den näst bästa fördelningen PSD. Notera att differensen mellan de olika fördelningarna är relativt stora när en och samma individ utför loppen. Den differens som är lägst är utförd av simmare B med en differens på 0,39 mellan de två olika fördelningarna hon simmar vilket även det är en betydande skillnad inom simvärlden. Om en simmare utför P och en annan fördelning verkar P prestera bättre i de flesta fall, vilket skiljer från när alla observationer är med då det är ERD som har den lägsta genomsnittshastigheten (se figur 10). 5. Diskussion Eftersom studien lider av ett stort antal beroende observationer är det svårt att generalisera resultatet till en population. Nästan 40 % av urvalet bestod av simmare som observerats vid fler än 1 tillfälle. Det innebär att ett par snabba simmare som observerats flera gånger i datan kan dra ner genomsnittssluttiden för den fördelning de frekvent använder sig av oavsett om den är optimal eller ej. Exempelvis tillhör Simmare A en av de snabbaste i datasetet. Hon använder sig i stor utsträckning av en ERD fördelning (se Tabell 4) och har därför bidragit till att den har den lägsta genomsnittssluttiden (se figur 10). Samma problematik kan tänkas uppkomma bland de långsamma simmarna, en riktigt långsam individ kan dra ner genomsnittet för en fördelning och bidra till ett missvisande resultat. De simmare med fler observationer än 1 som är bland de
28 28 långsammaste verkar dock inte använda sig av en specifik fördelning i någon större utsträckning och detta bör därför inte vara något problem. Att ta bort de beroende observationerna skulle kunna tänkas vara en lösning på svårigheten med beroende, det skulle dock medföra en rad andra problem. Att ta bort nästan hälften av alla observationer skulle resultera i ett mycket litet urval och göra studiens resultat ännu mindre generaliserbart. Det skulle också vara svårt att konstruera de kriterier för vilka observationer som lämnas kvar i datasetet och vilka som utesluts. Om detta inte genomförts på rätt sätt skulle observationerna fortfarande vara beroende. Troligtvis hade en slumpmässig borttagning vart lämpligast. Eftersom urvalet främst grundar sig på kvarts- semi- och finallopp (anledningen till detta diskuteras i beskrivning av data) blir det automatiskt beroende observationer då snabba simmare är överrepresenterade och kvalar in i dessa lopp på en regelbunden basis. Eftersom det är en mycket liten grupp individer som deltar i OS-finaler blir det därför svårt att frånkoma att samma simmare observeras flera gånger under datainsamlingen om elitsimmare i toppform ska studeras. För att helt och håller bli av med beroendet skulle därför ett mycket bredare intervall av simmare i termer av skicklighet och prestation behöva studeras. Då skulle nya problem uppkomma, det finns troligtvis inte någon mening med att jämföra hastighetsfördelningen för en elitsimmare och en simmare på amatörnivå. De vägledande kriterier som producerades i samband med Wards metod (se figur 2) vittnar om att de kluster som skapats inte är helt optimala. Trots detta tycks observationerna, bortsett från kluster 5, vara homogena inom klustren och heterogena sinsemellan. Det som kan anses vara unikt för varje fördelning upplevs inte som slumpmässigt då hastighetsfördelningen för en given längd upprepas på ett liknande sätt i nästkommande längd för samtliga kluster. Det finns också betydande olikheter i tid och spridning mellan de olika fördelningarna (se figur 10). Något annat som talar för den klusterindelning som genomförts i studien är fördelningarnas likheter med tidigare forskning. De fördelningar som McGibbon et al. (2018) beskrev som mest optimala i sin sammanställning av tidigare forskning återfinns till viss mån i denna studies kluster. ERD som har flest observationer och bäst genomsnittssluttid har störst likheter med en Even fördelning. 5 tidigare studier har kommit fram till att Even är den mest optimala distributionen (se tabell 3). Det finns dock vissa olikheter mellan ERD och Even. ERD har återkommande hastighetsminskningar innan vändningen, något som Even saknar. Det skulle kunna bero på att McGibbons et al. fördelningarna har ett mindre antal mätningar per längd vilket resulterar i en jämnare fördelning då variationer i hastighet under längden inte redovisas
29 29 i samma utsträckning som i denna studie. ERD har också en större total minskning i hastighet i jämförelse med tidigare forskning i allmänheten och Even i synnerhet. Enligt Viega & Roig (2015) tappar en simmare ca 6-8% i hastighet från första till sista längden, ERD:s förändring är något större. Skillnaden beror troligtvis på att Viega & Roig inkluderat de tekniska segmenten. De två fördelningar som tycks generera bäst resultat är ERD och P. Gemensamt för båda fördelningarna är att de har den jämnaste hastighetsfördelningen, som nämnts tidigare är detta i linje med McGibbons sammanställning. De Konnings et al.(2018) studie kom fram till att en så jämn hastighet som mjöligt i vatten är optimalt då det gör att vattenmotståndet minimeras. Eftersom ett simlopp består av en rad tekniska segment är det omöjligt för en simmare att hålla en helt jämn hastighet så studiens resultat stämmer därför inte helt överens med De Konnings et al. men resultatet indikerar att en jämn hastighetsfördelning är att föredra. 5.1 Slutsats I denna studie utrönandes totalt 5 olika hastighetsfördelningar genom en klusteranalys; ERD, P, PSD, PRD och OS. På grund av beroenden i urvalet är det svårt att dra generella slutsatser om resultatet. Dock finns det indikationer på att ERD och P är de mest framgångsrika hastighetsfördelningarna i termer av sluttid. Det som karaktäriserar och särskiljer fördelningarna är att de håller en relativt jämn hastighet under loppets gång. Resultatet är i viss mån i linje med tidigare forskning.
30 6. Referenslista Abbiss, C.R. & Laursen, P.B., (2008)., Describing and Understanding Pacing Strategies druring Athletic Competition. Sports Med 38:239. DOI: / Altavilla, C., Cejuela, R., Caballero-Pérez, P. (2018). Efffect of Different Feedback Modalities on Swimming pace: Which Feedback Modality is Most Effective?. Journal of Human Kinetics, Volume 65/2018, DOI: /hukin De Koning, J.J., Foster, C., Lucia, A., Bobbert, M., (2011). Using Modeling to Understand How Athletes in Diffrent Disciplines Solve the Same Problem: Swimming Versus Running Versus Speed Skating. International journal of sports and phisiology and performance 6(2): DOI: /ijspp Dormehl, S., Osborough, C.(2015). Effect of age, sex, and race distance onfront crawl stroke parameters in subelite adolescent swimmersduring competition. Pediatr Exerc Sci. 2015;27(3): DOI: /pes Fédération internationale de natation. (2017). FINA SWIMMING RULES , Part III. SENAST HÄMTAD [ ] Gagnon, P., Casaburi, R., Saey, D., Porszasz, J., Provencher, S., Milot, J., et al. (2015). Clusteranalysis in Patients with GOLD 1 Chronic ObstructivePulmonary Disease. Konstantions Kostikas, University of Athens Medical School. DOI: /journal.pone Greenacre, M. (2008). Chapter 7 hierarchical cluster analysis. Stanford university SENAST HÄMTAD [ ] Horsley, R. u.å. Cluster Analysis. SENAST HÄMTAD[ ] King, R.S. (2015). Cluster Analysis And Data Mining An Introduction. Dulles, Virginia. Mercury learning and information.
31 31 De Koning, J.J., Foster, C., Lucia, A., Bobbert, M., (2011). Using Modeling to Understand How Athletes in Diffrent Disciplines Solve the Same Problem: Swimming Versus Running Versus Speed Skating. International journal of sports and phisiology and performance 6(2): DOI: /ijspp Madge, R. (2016). The physics of the fastest swim. SENAST HÄMTAD [ ] m Freestyle Swimming. Medicine & science in Sports & Exercise. DOI: /MSS.0b013e b84. Mcgibbon, K.E., Pyne, D.B., Shepard, M.E, Thompson, K.G. (2018). Pacing in Swimming: A Systematic Review. Sports Med 48:1621. DOI: /s Mitchell, J. (2018). Is there a diffrence between front crawl and freestyle?. Mauger, A., Neuloh, J., Castle, P., (2012). Analysis of Pacing Strategy Selection in Elite SENAST HÄMTAD [ ] Murtag, F. (2014). Ward s Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Ward s Criteroion. SENAST HÄMTAD [ ] Robertson, E., Pyne, D., Hopkins, W., Anson, J. (2009). Analysis of lap times in international swimming competitions. J Sports Sci.2009;27(4): DOI: / SAS. (2010). Clustering Methods. _cluster_sect012.htm. SENAST HÄMTAD[ ]
32 32 SAS. (2011). Miscellaneous Formulas. _cluster_sect013.htm. SENAST HÄMTAD [ ] SAS. (2017). Cubic Clustering criterion. v1va.htm&docsetversion=14.3&locale=en#n0612cdmmgdyojn1drnrvcy5ia3t. SENAST HÄMTAD [ ] Sharma, S. (1996). Applied Multivariate Techniques. United states of America. John Wiley & Sons. Inc. Skorski, S., Faude, O., Caviezel, S., Meyer, T. (2014). Reproducibility of Pacing Profiles in Elite Swimmers. International journal of sports physiology and performance, Volume 9 issue 2. DOI: /IJSPP Skorski, S., Faude, O., Rausch, K., Meyer, T. (2013). Reproducibility of pacing profiles in competitive swimmers. Int J Sports Med.2013;34(2): DOI: /s Statistics How To. (2016). Hierarchical Clustering / Dendogram:simple definition, examples. Viega, S. & Roig A. (2015). Underwater and surface strategies of 200 m world level swimmers. Journal of Sports Sciences: Volume 34- issue 8. DOI: / Zahn, J. (2016). Technology Improves Olympic Swimming. SENAST HÄMTAD [ ]
33 33 7. Bilagor Nedan visas två bilagor, den första visar resultatet i detalj för klustrens medelvärde, kvartil 1 och kvartil 3 för varje segment. Den andra bilagan visar SAS-koden som användes i genomförande av studien.
34 Klustrens deskription Segment x : ERD x : P x : PSD x : PRD x : OS 1 1, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Segment ERD Q1 P Q1 PSD Q1 PRD Q1 OS Q1 1 1, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Segment ERD Q3 P Q3 PSD Q3 PRD Q3 OS Q3 1 1, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
35 35 9 1, , , , , , , , , , , ,6 1, , , , , , , , SAS-kod *SKAPAR KLUSTRERNA UTAN TEKNISKA SEGMENT; title 'Dendogram'; proc import out=excel23 datafile = "C:\Users\dero5160\Downloads\simdata" dbms=excel replace; run; ods rtf; proc cluster data=excel23 out=tree8 method=ward rmsstd rsquare ccc pseudo print=110; id resid; var pu25 pu35 pu45 pu75 pu85 pu95 pu125 pu135 pu145 pu175 pu185 pu195; run; proc Tree data=tree8 nclusters=5 out=tree8notime; id resid; copy pu25 pu35 pu45 pu75 pu85 pu95 pu125 pu135 pu145 pu175 pu185 pu195; Run; Ods rtf close; Proc sort data=tree8notime; by cluster; proc print data=tree8notime; by cluster; var pu25 pu35 pu45 pu75 pu85 pu95 pu125 pu135 pu145 pu175 pu185 pu195; run; quit; *Sätter ihop de två data-setet; proc sort data=tree8notime; by resid; proc sort data= excel23; by resid; run; data new23; set excel23; set tree8notime; by resid; run; *kolla medelvärden; ods rtf; proc means data=new23 mean stddev q1 q3; class cluster; var tid200; run; ods rtf close; *Kolla hur många av samma atlet som är i kluster; proc freq data=new23; tables athid cluster athid*cluster / out=freqcount outexpect sparse; title 'Atlet och cluster'; run; proc sort data= new23; by cluster; run; proc means data=excel23 mean stddev q1 q3; class cluster; var h25 h35 h45 h75 h85 h95 h125 h135 h145 h175 h185 h195; run;
Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt
Datorövning 1 Statistisk teori med tillämpningar Repetition av SAS Syfte Syftet med Datoröving 1 (D1) är att repetera de SAS-kunskaperna från tidigare kurser samt att ge en kort introduktion till de studenter
Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab
Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts
Beskrivande statistik
Beskrivande statistik Tabellen ovan visar antalet allvarliga olyckor på en vägsträcka under 15 år. år Antal olyckor 1995 36 1996 20 1997 18 1998 26 1999 30 2000 20 2001 30 2002 27 2003 19 2004 24 2005
Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt
Datorövning 1 Statistisk teori med tillämpningar Repetition av SAS Syfte Syftet med Datoröving 1 (D1) är att repetera de SAS-kunskaperna från tidigare kurser samt att ge en kort introduktion till de studenter
Introduktion till statistik för statsvetare
och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag
MVE051/MSG Föreläsning 7
MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel
Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval
Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande
1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell
Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning
F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion
Gnuer i skyddade/oskyddade områden, binära utfall och binomialfördelningar Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 I vissa områden i Afrika har man observerat att förekomsten
EXAMINATION KVANTITATIV METOD vt-11 (110204)
ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering
Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006 Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT007 Laboration Simulering Grupp A: 007-11-1, 8.15-.00 Grupp B: 007-11-1, 13.15-15.00 Introduktion Syftet
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3 Laboration 2 Fördelningar och simulering Introduktion 2014-02-06 Syftet med laborationen är dels
Sänkningen av parasitnivåerna i blodet
4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet
F3 Introduktion Stickprov
Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever
Lektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
2 Dataanalys och beskrivande statistik
2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Vad är statistik?
Statistik Lars Valter
Lars Valter LARC (Linköping Academic Research Centre) Enheten för hälsoanalys, Centrum för hälso- och vårdutveckling Statistics, the most important science in the whole world: for upon it depends the applications
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics
Hur måttsätta osäkerheter?
Geotekniska osäkerheter och deras hantering Hur måttsätta osäkerheter? Lars Olsson Geostatistik AB 11-04-07 Hur måttsätta osäkerheter _LO 1 Sannolikheter Vi måste kunna sätta mått på osäkerheterna för
2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel
Datorövning 1 Statistikens Grunder 2 Syfte 1. Lära sig göra betingade frekvenstabeller 2. Lära sig beskriva en variabel numeriskt med "proc univariate" 3. Lära sig rita histogram 4. Lära sig rita diagram
Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment
EDAA35, föreläsning 4 KVANTITATIV ANALYS Idag Kvantitativ analys Kamratgranskning Analys Exempel: exekveringstid Hur analysera data? Hur vet man om man kan lita på skillnader och mönster som man observerar?
Föreläsning 1. 732G60 Statistiska metoder
Föreläsning 1 Statistiska metoder 1 Kursens uppbyggnad o 10 föreläsningar Teori blandas med exempel Läggs ut några dagar innan på kurshemsidan o 5 räknestugor Tillfälle för individuella frågor Viktigt
F9 SAMPLINGFÖRDELNINGAR (NCT
Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion
Metod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
Bilaga 6 till rapport 1 (5)
till rapport 1 (5) Bilddiagnostik vid misstänkt prostatacancer, rapport UTV2012/49 (2014). Värdet av att undvika en prostatabiopsitagning beskrivning av studien SBU har i samarbete med Centrum för utvärdering
, s a. , s b. personer från Alingsås och n b
Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen
Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS
Datorövning 2 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap
Piteås kunskapsresultat jämfört med Sveriges kommuner 2015/2016
1 Piteås kunskapsresultat jämfört med Sveriges kommuner 2015/2016 Utbildningsförvaltningen 0911-69 60 00 www.pitea.se www.facebook.com/pitea.se 2 Syfte Syftet med rapporten är att ge ett övergripande jämförelse
Kvantitativ strategi Univariat analys 2. Wieland Wermke
+ Kvantitativ strategi Univariat analys 2 Wieland Wermke + Sammanfattande mått: centralmått n Beroende på skalnivån finns det olika mått, som betecknar variablernas fördelning n Typvärde eller modalvärde
Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken
Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen
Regression med Genetiska Algoritmer
Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet
Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots
Fuktighet i jordmåner Variansanalys (Anova) Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 A 1 A 2 A 3 12.8 8.1 9.8 13.4 10.3 10.6 11.2 4.2 9.1 11.6 7.8 4.3 9.4 5.6 11.2 10.3
Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid
EDAA35, föreläsning 4 KVANTITATIV ANALYS Idag Kvantitativ analys Slump och slumptal Analys Boxplot Konfidensintervall Experiment och test Kamratgranskning Kursmeddelanden Analys Om laborationer: alla labbar
Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:
Datorövning 5 Statistisk teori med tillämpningar Hypotestest i SAS Syfte Lära sig beräkna konfidensintervall och utföra hypotestest för: 1. Populationsmedelvärdet, µ. 2. Skillnaden mellan två populationsmedelvärden,
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt
Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi
2.1 Minitab-introduktion
2.1 Minitab-introduktion Betrakta följande mätvärden (observationer): 9.07 11.83 9.56 7.85 10.44 12.69 9.39 10.36 11.90 10.15 9.35 10.11 11.31 8.88 10.94 10.37 11.52 8.26 11.91 11.61 10.72 9.84 11.89 7.46
Följande resultat erhålls (enhet: 1000psi):
Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling.
Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen
Datorövning 2 Statistikens Grunder 2 Syfte 1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen Exempel Beräkna
LABORATION 1. Syfte: Syftet med laborationen är att
LABORATION 1 Syfte: Syftet med laborationen är att ge övning i hur man kan använda det statistiska programpaketet Minitab för beskrivande statistik, grafisk framställning och sannolikhetsberäkningar, visa
7.5 Experiment with a single factor having more than two levels
7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan
Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer
Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens
Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större
Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS
Datorövning 3 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap
Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs
Statistikens grunder och 2, GN, hp, deltid, kvällskurs TE/RC Datorövning 3 Syfte:. Lära sig göra betingade frekvenstabeller 2. Lära sig beskriva en variabel numeriskt med proc univariate 3. Lära sig rita
Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper
Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att
Valresultat Riksdagen 2018
Valresultat Riksdagen 2018 I ämnesplanerna i matematik betonas att eleverna ska få möjlighet att använda digitala verktyg. Ett exempel från kursen Matematik 2 är Statistiska metoder för rapportering av
Datorövning 1: Fördelningar
Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS012/MASB03: MATEMATISK STATISTIK, 9 HP, VT-17 Datorövning 1: Fördelningar I denna datorövning ska du utforska begreppen sannolikhet och
Spela. Galopp! DEL 6 HUR RÄKNAR DU UT ETT EGET HANDICAP?
Spela på Galopp! HUR RÄKNAR DU UT ETT EGET HANDICAP? TEXT GEIR STABELL/WWW.GLOBEFORM.COM FOTO JON FRANKLIN DEL 6 Vi har tidigare i Spelskolan pratat om handicaptal, handicaplopp, och åldersvikttabeller.
Medelvärde, median och standardavvikelse
Medelvärde, median och standardavvikelse Detta är en enkel aktivitet där vi på ett dynamiskt sätt ska titta på hur de statistiska måtten, t.ex. median och medelvärde ändras när man ändar ett värde i en
Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.
Lägesmått Det kan ibland räcka med ett lägesmått för att beskriva datamaterial Lägesmåttet kan vara bra att använda då olika datamaterial skall jämföras Vilket lägesmått som skall användas: Typvärde Median
Ledtidsanpassa standardavvikelser för efterfrågevariationer
Handbok i materialstyrning - Del B Parametrar och variabler B 43 Ledtidsanpassa standardavvikelser för efterfrågevariationer I affärssystem brukar standardavvikelser för efterfrågevariationer eller prognosfel
Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar
Medicinsk statistik II
Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning
Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2
Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2 Laborationen avser att illustrera användandet av normalfördelningsdiagram, konfidensintervall vid jämförelser samt teckentest. En viktig
DATORÖVNING 3: MER OM STATISTISK INFERENS.
DATORÖVNING 3: MER OM STATISTISK INFERENS. START Logga in och starta Minitab. STATISTISK INFERENS MED DATORNS HJÄLP Vi fortsätter att arbeta med datamaterialet från datorävning 2: HUS.xls. Som vi sett
Iris Åkerberg Boende 2006:1 Tel. 018-25496. Hyresstatistik 2006. Medelmånadshyra efter finansieringsform och byggnadsår, euro/m 2
Iris Åkerberg Boende 2006:1 Tel. 018-25496 15.11.2006 Hyresstatistik 2006 Medelmånadshyra efter finansieringsform och byggnadsår, euro/m 2 Landskapsbelånade Frifinansierade Totalt 8,20 8,00 7,80 7,60 7,40
EXAMINATION KVANTITATIV METOD
ÖREBRO UNIVERSITET Hälsoakademin Idrott B, Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-09 (090209) Examinationen består av 8 frågor, några med tillhörande följdfrågor. Frågorna 4-7 är knutna till
Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor
Beskrivande statistik Tony Pansell, Leg optiker Docent, Universitetslektor Beskrivande statistik Grunden för all analys är ordning och reda! Beskrivande statistik hjälper oss att överskådligt sammanfatta
F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17
1/17 F8 Skattningar Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 14/2 2013 Inledande exempel: kullager Antag att diametern på kullager av en viss typ är normalfördelad N(µ,
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:
Mälardalens Högskola. Formelsamling. Statistik, grundkurs
Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken
Forskningsmetodik 2006 lektion 2
Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som
Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?
När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns
10.1 Enkel linjär regression
Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot
Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E
Innehåll I. Grundläggande begrepp II. Deskriptiv statistik (sid 53 i E) III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser 1 II. Beskrivande statistik,
Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University
Deskriptiv statistik Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Deskriptiv statistik Tabeller Figurer Sammanfattande mått Vilken
Kvantitativ forskning C2. Viktiga begrepp och univariat analys
+ Kvantitativ forskning C2 Viktiga begrepp och univariat analys + Delkursen mål n Ni har grundläggande kunskaper över statistiska analyser (univariat, bivariat) n Ni kan använda olika programvaror för
34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD
6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller
D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.
1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga
F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva
Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H
Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson
Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson Det framtida medlemsantalet i svenska kyrkan tycks vara intressant för många, då det regelbundet diskuteras i olika sammanhang. Att kyrkans
Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs
Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs TE/RC Datorövning 2 Syfte: 1. Lära sig presentera data i tabeller 2. Lära sig beskriva data numeriskt 3. Lära sig presentera data i grafer 4.
LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid
LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum 2008-12-22 Skrivtid 0900 1400 Tentamen i: Statistik 1, 7.5 hp Antal uppgifter: 5 Krav för G: 11 Lärare: Jour: Robert Lundqvist,
Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs
Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs TE/RC Datorövning 4 Syfte: 1. Lära sig beräkna konfidensintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera
13.1 Matematisk statistik
13.1 Matematisk statistik 13.1.1 Grundläggande begrepp I den här föreläsningen kommer vi att definiera och exemplifiera ett antal begrepp som sedan kommer att följa oss genom hela kursen. Det är därför
Vi har en ursprungspopulation/-fördelning med medelvärde µ.
P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har
Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University
Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att
Ekerö kommun först att mäta aktivitet med IPAQ!
Ekerö kommun först att mäta aktivitet med IPAQ! Till huvuduppgifterna i hälsoarbetet idag hör att främja en fysiskt aktiv livsstil. Resurserna är begränsade, varför det är viktigt att lägga de knappa medel
Stokastiska processer med diskret tid
Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna
OBS! Vi har nya rutiner.
KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare
Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel
Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,
Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter
Introduktion till statistik för statsvetare
"Det finns inget så praktiskt som en bra teori" November 2011 Repetition Vad vi gjort hitills Vi har börjat med att studera olika typer av mätningar och sedan successivt tagit fram olika beskrivande mått
Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin
Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,
Uppgift 1. Produktmomentkorrelationskoefficienten
Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill
Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet
Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.
4.1 Grundläggande sannolikhetslära
4.1 Grundläggande sannolikhetslära När osäkerhet förekommer kan man aldrig uttala sig tvärsäkert. Istället använder vi sannolikheter, väntevärden, standardavvikelser osv. Sannolikhet är ett tal mellan
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två
Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå
Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)
Studietyper, inferens och konfidensintervall
Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Sju sätt att visa data. Sju vanliga och praktiskt användbara presentationsformat vid förbättrings- och kvalitetsarbete
Sju sätt att visa data Sju vanliga och praktiskt användbara presentationsformat vid förbättrings- och kvalitetsarbete Introduktion I förbättringsarbete förekommer alltid någon form av data, om inte annat
Föreläsning 4. Kap 5,1-5,3
Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet
Bearbetning och Presentation
Bearbetning och Presentation Vid en bottenfaunaundersökning i Nydalasjön räknade man antalet ringmaskar i 5 vattenprover. Följande värden erhölls:,,,4,,,5,,8,4,,,0,3, Det verkar vara diskreta observationer.
7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.
Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 4I2B KINAF4, KINAR4, KINLO4, KMASK4 7,5 högskolepoäng Tentamensdatum: 28 oktober 206 Tid: