Välkommen! Biologisk statistik hp Zoologiska inst./populationsgenetik Linda Laikre (kursledare) Anastasia Andersson Peter Guban Populationsgenetik, Zoologiska institutionen, SU Biologisk mångfald på gennivå Bävervattsprojektet KURSES MÅLSÄTTIG Kursen Biologisk statistik omfattar högskolepoäng och syftar till att ge grundläggande förståelse för statistikens roll och betydelse inom biologisk verksamhet och forskning, grundläggande insikter i statistiska tankesätt och förståelse för innebörden av statistisk hypotesprövning, grundläggande förståelse för stokastiska processer och betraktelsesätt, kännedom om vissa centrala statistiska begrepp, viss erfarenhet av att utföra något/några basala statistiska tester.
Biologisk statistik vid BIG, SU Grundnivå: Biologisk statistik hp Kandidatnivå: Biostatistik analys och presentation av biologiska data 5 hp Avancerad nivå: Biologisk statistik och forskningsmetodik 7.5 hp Avancerad biostatistik 7.5 hp Uppläggning Kurslitteratur Betygsgrundande Betygsgrundande Föreläsningar 0 Räkneövningar Datorlab Projektarbete Skriftligt prov Obligatoriska Gratis kompendium Ordbok i statistik - Vejde & Leander (00:-) Kontakt med lärare Schemalagda frågestunder och genomgångar Hör gärna av er! Linda Laikre: linda.laikre@popgen.su.se Anastasia Andersson: anastasia.andersson@zoologi.su.se Peter Guban: peter.g.99@gmail.com Examination Muntlig och skriftlig redovisning av projektarbete torsdag 5 januari godkänt på båda krävs Skriftlig tentamen fredag 6 januari Betygskriterier: A: 95% rätt B: 85% rätt C: 75% rätt D: 65% rätt E: 60% rätt F: 50% rätt Fx: under 5% rätt Skrivningsåterlämning januari Omtenta 9 januari
Kursens hemsida: www.popgen.su.se/stathp Statistik Alliansen leder har 5% y efterbehandling fördubblar överlevnaden vid bröstcancer Myskoxen löper hög risk att dö ut i Sverige Risk för nederbörd imorgon 50% y typ av antibiotika effektivt mot resistenta bakterier DA-analys identifierar mördare Havre minskar risken för magsår Statistik Latin: tillstånd, ställning Läran om metoder för att samla in, strukturera, bearbeta, beskriva, analysera och dra slutsatser om numeriska och/eller icke-numeriska data Torsken på ICA fångad i Östersjön ej i ordatlanten Deskriptiv statistik Beskrivande statistik Sannolikhetslära Statistisk inferens Statistisk slutledning - slutsatser om något baserat på ett urval Inom biologisk forskning och tillämpad verksamhet används statistik för att: Undersöka och beskriva biologiska fenomen Deskriptiv statistik Inferens = slutsatser om generella förhållanden baserat på observerade resultat
Födoval hos tumlare Storlek hos skinnbaggar med parningsframgång Ålder för första reproduktion hos gråsäl Migrationsmönster hos lax Bakterietillväxt på medier med olika typer av antibiotika Inavelsgrader hos vargar i nordiska djurparker Inom biologisk forskning och tillämpad verksamhet används statistik för att: Besvara frågor, dra slutsatser om förhållanden och fenomen - Statistisk inferens Förlust av genetisk variation hos vargar i nordiska djurparker Hypotesprövning: Hypotes = ett antagande om verkligheten Vid hypotesprövning avgörs om en hypotes ger en sann eller falsk bild av verkligheten Prediktion baserad på hypotesen prövas via insamling av data och/eller via experiment. - Statistisk inferens egativa effekter av inavel observerade hos många djur Hypotes: Vargen är känslig för inavel
Vikt hos 8 månader gamla vargvalpar Insamling av data Statistisk hypotesprövning Vi vill veta sanningen! ollhypotes och alternativhypotes H0: ingen skillnad, ingen effekt H: skillnad, effekt Vikt hos 8 månader gamla vargvalpar Resultat av statistiskt test: P honor = 0.000 P hanar = 0.00 Statistisk inferens Reproduktion hos vargtikar Resultat av statistiskt test: P < 0.05 Statistisk hypotesprövning och inferens 5
Slutsats baserad på statistisk inferens: Inavel kan ha negativa effekter hos varg Statistisk inferens: Flera, reproduktivt isolerade öringpopulationer kan förekomma i en och samma sjö Antal individer 80 70 60 50 0 0 0 0 0 Inavelsgrader bland vargar innan licensjakt 00 Inga starka belägg finns för att tumlare i Östersjön är genetiskt skilda från tumlare i Kattegatt Granen i Centraleuropa har lägre grad av genetisk variation än ordeuropeisk 0.00 0.05 0.0 0.5 0.0 0.5 0.0 0.5 0.0 0.5 0.50 Inavelsgrad Det finns en sanning I vissa fall kan vi ta reda på sanningen Har bilolyckorna i Stockholmsområdet ökat? Samla in uppgifter på antalet olyckor under olika tidsperioder Jämför! 50 00 Antal bilolyckor i Stockholm Stolp-/stapeldiagram 50 00 50 Deskriptiv statistik ingen statistisk inferens 0 00 00 005 006 007 008 009 I vissa fall får vi till slut reda på sanningen Vinner alliansen även valet 0? Kommer Stina att överleva operationen? Kommer Bertil att drabbas av lungcancer om han röker ett paket cigaretter om dagen? Kommer alliansen att sitta kvar vid makten efter valet 00? Vi frågar ett urval av svenskarna och försöker utifrån det dra slutsatser om hela svenska folket Vi vill veta vad som är troligt - sannolikt Statistisk inferens 6
Kommer Stina att överleva operationen? Vi granskar utfallet av samma typ av operation som tidigare utförts på andra personer Kommer Bertil att drabbas av lungcancer om han röker ett paket cigaretter om dagen? I vissa fall får vi aldrig reda på den absoluta sanningen Är tumlaren i Östersjön genetiskt unik? Finns det fler mördarsniglar i min trädgård jämfört med grannens? Vi jämför personer som tidigare drabbats av lungcancer med avseende på rökvanor. Vi jämför med sådana som inte drabbats av lungcancer Statistisk inferens Är tumlaren i Östersjön genetiskt unik? Vi samlar in vävnad från några av tumlarna i Östersjön och från andra platser. Vi isolerar DA och undersöker variationen i några genetiska markörer. Vi analyserar våra data och försöker dra en slutsats. Vi kommer aldrig att ha möjlighet att undersöka alla tumlare eller hela genomet. Statistisk inferens Finns det fler daggmaskar i min trädgård jämfört med grannens? Vi räknar av antalet maskar i en del av trädgården. Vi väljer slumpmässigt en plats i vardera trädgården, gräver ut en kubikmeter jord och räknar av antalet daggmaskar. Vi har ingen möjlighet att gräva upp hela trädgården Statistisk inferens Slumpen Är det sanning eller är det slump? 7
Antag att antalet daggmaskar räknas i en kubikmeter jord från min trädgård, hos grannen räknas motsvarande jordmängd av. Vi hittar fler daggmaskar i grannens jord. Beror detta på att grannen har fler daggmaskar i sin trädgård? Eller beror det på slumpen? Statistisk hypotesprövning och inferens används för att avgöra detta. Undersökning lungcancer hos: 500 rökare 500 icke-rökare Förekomst av lungcancer: 75 av rökarna 9 av icke-rökarna Beror detta på att det finns en koppling mellan rökning och lungcancer? Eller beror vår observation bara på slumpen? Statistisk hypotesprövning och inferens Vikt hos 8 månader gamla vargvalpar Resultat av statistiskt test: Slumpen spelar en central roll i statistisk hypotesprövning P honor = 0.000 P hanar = 0.00 Statistisk hypotesprövning går ut på att skilja sanning från slump Att vara någorlunda säker på att skilja sanning från slump - målsättningen för statistisk hypotesprövning och inferens 8
Population Alla objekt som har en i förväg definierad egenskap Population Stickprov Sveriges befolkning Brunbjörnarna i Skandinavien n Alla som opererats för magsår i Skövde Alla som äter lunch på Lantis minst 0 gånger per år 000 svenskar 50 av förmodat 000 brunbjörnar 00 av de 00 som opererats 00 av de som äter på Lantis Vi vill kunna beskriva och/eller dra slutsatser om populationen Population Stickprov n En eller flera särskilda karaktärer/egenskaper hos medlemmarna i populationen av intresse Kroppslängd hos Sveriges befolkning Vikt vid tre års ålder hos brunbjörn Sjukskrivningens längd efter magsårsoperation Vikt och matvanor bland dem som äter på Lantis Ett stickprov dras för att beskriva och dra slutsatser om karaktären av intresse Stickprovet dras för att kunna beskriva och dra slutsatser om den totala populationen Det är viktigt att stickprovet är så representativt som möjligt för populationen Stickprovet dras för att kunna beskriva och dra slutsatser om den totala populationen Det är viktigt att stickprovet är så representativt som möjligt för populationen Stickprovet ska i största möjliga mån utgöra en miniatyrbild av populationen Stickprovet ska dras slumpmässigt Obundet slumpmässigt urval (OSU) Varje kombination av n enheter ska ha samma chans att bli vald som varje annan möjlig kombination av n enheter 9
Dragning utan återläggning De flesta statistiska metoder förutsätter dragning med återläggning Dragning med återläggning Om en population är tillräckligt stor kan dragning utan återläggning betraktas som dragning med återläggning De flesta statistiska metoder förutsätter dragning med återläggning I många praktiska situationer är det svårt att utföra dragning med återläggning Om en population är tillräckligt stor kan dragning utan återläggning betraktas som dragning med återläggning Ex. vikt Population.6.9.8.. 5...9.5.8 5.. 5.. 5.0.8.0 5. ågot som kan variera mellan enheter i populationen Variabel umerisk variabel Kvantitativ variabel Ex. fjäderdräktens färg Population ågot som kan variera mellan enheter i populationen - Variabel Kvantitativ ( tal ) Variabel ( egenskap ) Kvalitativ ( ord ) Icke-numerisk variabel Kvalitativ variabel Kontinuerlig t.ex. kroppslängd: 50 5 50.5 5.9 5.999 Diskret t.ex. antal barn ominal Ordinal ( alla värden möjliga ) ( vissa värden möjliga ) ( ej rangordning ) ( rangordning ) t.ex. nationalitet brittisk amerikansk austarliensisk fransk t.ex. hälsotillstånd livshotande kritiskt allvarligt stabilt 0
Variabel: vikt hos 5 veckor gamla vargvalpar Variabel: vikt hos 5 veckor gamla vargvalpar Population Hur mycket väger 5 veckor gamla vargvalpar? Stickprov n.. 5...6 5..9.9.. 5. Stickprov (n=) Observerat värde..6.9....9 5. Absolut frekvens Relativ frekvens /=0.8 0.09 0.09 0.09 0.09 0.09 0.09 0.7 Relativ frekvens % 8 9 9 9 9 9 9 7 00 Fördelning Variabel: vikt hos 5 veckor gamla vargvalpar Antal obseravtioner 0..6.9....9 5. Vikt Stolp-/Stapeldiagram Stickprov (n=) Observerat värde..6.9....9 5. < x < < x < 5 Klassindelning -.9 -.9 5-5.9 5 < x < 6 0 5 Absolut frekvens Histogram 5 6
Histogram Histogram Variabel: vikt hos 5 veckor gamla vargvalpar Stickprov (n=) 0.8 Cumulative relative frequency 0.05 0.5 0.55 0.75 0.87 0.95 0.98 0.98.00 Observerat värde..6.9....9 5. Klassindelning -.9 -.9 5-5.9 5 Frekvens Kumulativ frekvens 8 Histogram 0.6 0. 0. < x < < x < 5 0 7.5 8.5 9.5 0.5.5.5.5.5 5.5 5 < x < 6 0 5 6 Variabel: vikt hos 5 veckor gamla vargvalpar Population Hur mycket väger 5 veckor gamla vargvalpar? 7. = = Stickprov n.. 5...6 5..9.9 5... Medelvärdet för kroppsvikt i stickprovet. x Variabel: vikt hos 5 veckor gamla vargvalpar Population Stickprov n Det sanna medelvärdet för kroppsvikt = Parameter x =. = en storhet som karaktäriserar en population Xi
Är en god skattning av? utgör en skattning av estimat Det sanna medelvärdet skattas genom att beräkna medelvärdet i stickprovet Kopplat till stickprovets storlek och det sätt på vilket stickprovet är draget Generellt: ju större stickprov desto bättre Centralvärden Medelvärde Median Typvärde Median (Md) Observationerna rangordnas efter storlek Medianen är den mittersta observationen vid udda antal observationer Medianen är medelvärdet av de två mittersta observationerna vid jämnt antal observationer Typvärde (eng. mode) Fördelning Typvärde Median Medelvärde Typvärdet är det vanligast förekommande värdet Frekvens Årsinkom st
Hur mycket väger 5 veckor gamla vargvalpar? Stickprov (n=) Observerat värde..6.9....9 5. x =. Median =. Typvärde = 5. Absolut frekvens Antal obseravtioner Stickprov n.. 5...6 5..9.9.. 5. 0..6.9....9 5. Vikt Hur beskriva spridningen? Variabel: vikt hos 5 veckor gamla vargvalpar Variabel: vikt hos 5 veckor gamla vargvalpar Stickprov (n=) x i...6.9....9 5. 5. 5. x i -x -. -. -0.7-0. -0. 0.0 0. 0.6 0.9 0.9 0.9 0.0 (x i -x).. 0.9 0.6 0.0 0.00 0.0 0.6 0.8 0.8 0.8 5.88 Variansen = s = (x i -x) = 0.588 0.60 n- Standardavvikelsen = s = s = 0.7668 0.80 Kvadratsumma (kvadratavvikelsesumma) Sum of squares (SS) Population Den sanna variansen för kroppsvikt = (X i - ) Stickprov n x =. s = 0.588 Varians - Standardavvikelse Kvartiler s = s Stickprovet 5% 75% = Den verkliga populationen Första kvartilen Q
50% Kvartiler 50% 75% Kvartiler 5% Andra kvartilen Q Tredje kvartilen Q 5% Kvartiler 5% Variabel: vikt hos 5 veckor gamla vargvalpar Stickprov (n=) 5% 5% x i Q Q Kvartilavvikelse Q Första kvartilen Q Andra kvartilen Q Tredje kvartilen Första kvartilen Median = andra kvartilen Tredje kvartilen Kvartilavvikelse: 5..6 =0.8...6.9....9 5. 5. 5. Oviktat medelvärde Alla värden väger lika tungt oavsett stickprovsstorleken (n) Viktat medelvärde Exempel: Förekomst av blå fjäderdräkt hos en viss fågelart Stickprovsstorlek (n) Antal blå fåglar Relativ frekvens 0 0.0 0 7 0.70 50 0.6 50 8 0.56 00 6 0.6 Värdena väger olika tungt beroende på deras respektive stickprovsstorlek (n) Stora stickprov väger tyngre än små stickprov Oviktat medelvärde: 0.0 + 0.70 + 0.6 + 0.56 + 0.6 5 Viktat medelvärde: + 7 + + 8 + 6 = 0.60 0 = 0.566 5
Exempel: Användning av oviktat medelvärde om stickproven kommer från olika populationer. Vilken är den genomsnittliga frekvensen blå fåglar i Skandinavien? Datorlab Räkneövning Land Stickprovsstorlek (n) Antal blå fåglar Relativ frekvens Sverige 50 0.6 orge 8 0.56 Danmark 7 7 0. Oviktat medelvärde: 0.6 + 0.56 + 0. = 0.5 6