Gener, celler & populationer Del III: aturliga populationers evolution och bevarande 6 hp Populationers evolution & bevarande GCP III Biologisk statistik Populationsgenetik Bevarandebiologi Populationers evolution & bevarande GCP III Zoologiska institutionen Avdelningen för populationsgenetik Linda Laikre kursledare Anastasia Andersson doktorand Sara Kurland doktorand Karin Tahvanainen forskningsingenjör Maria Celorio forskningsanalytiker Anastasia Populationers evolution & bevarande GCP III Karin Sara Maria Populationsgenetik, Zoologiska institutionen, SU Biologisk mångfald på gennivå Bävervattsprojektet: mikroevolution hos öring i Hotagen reservatet i Jämtland
Kursens lärandemål Efter att ha gått kursen förväntas du: kunna förklara vilka processer som påverkar populationers genetiska sammansättning, överlevnad och evolution och hur dessa processer är kopplade till praktisk naturvård kunna redovisa kunskaper om några grundläggande statistiska begrepp och angreppssätt. Biologisk statistik vid BIG, SU Grundnivå: Introduktion till biologisk statistik hp Introduktion inom aturliga populationers evolution och bevarande.5 hp Kandidatnivå: Biologisk statistik I 7.5 hp Analys och presentation av biologiska data 7.5 hp Avancerad nivå: Biologisk statistik II 7.5 hp Biologisk statistik III 7.5 hp Populations- och bevarandebiologi, BIG, SU Grundnivå: aturliga populationers evolution och bevarande 6hp Kandidatnivå: Bevarandebiologi 5 hp...med flera kurser Avancerad nivå: Bevarande av populationer 7.5 hp Biodiversitet: mönster & processer 7.5 hp Evolutionär ekologi 7.5 hp. Kurslitteratur: LIFE 9th/0th edition: chapters & 59 Statistikkompendium laddas ner gratis Vejde: Ordbok i statistik 60:- (valfri) Handouts, instruktioner, övningar, etc. på hemsidan
Betygsgrundande Betygsgrundande Betygsgrundande Kursmoment Föreläsningar Datorlaborationer st Räkneövningar st Laborationer st Inlämningsuppgift Statistik dugga Skriftligt prov Populationers evolution & bevarande GCP III Kontakt med lärare Schemalagda datorlabbar och genomgångar Hör gärna av er! Linda Laikre: linda.laikre@popgen.su.se Sara Kurland: sara.kurland@zoologi.su.se Datorlab -, Räkneövningar -, föreläsning Anastasia Andersson: anastasia.andersson@zoologi.su.se Datorlab, Laboration proteinelektrofores, inlämningsuppgift, föreläsningar Maria Celorio: maria.celorio@zoologi.su.se Laboration DA Betygskriterier. Betygskriterier för uppgifter (tvågradig betygsskala, underkänd/godkänd) För att bli godkänd skall du individuellt eller i grupp genomföra och skriftligt redovisa: Inlämningsuppgift: analys av proteinelektroforetisk a data Betygskriterier, forts. Två skriftliga examinationer: dugga statistik, skrivning populationsgenetik, bevarandebiologi. Betygskriterier för skriftliga prov (sjugradig betygsskala) För betyget A krävs minst 95 % av den maximala poängsumman. För betyget B krävs minst 85 % av den maximala poängsumman. För betyget C krävs minst 75 % av den maximala poängsumman. För betyget D krävs minst 65 % av den maximala poängsumman. För betyget E krävs minst 60 % av den maximala poängsumman. För betyget Fx erhålls vid minst 50 % av den maximala poängsumman. Med mindre än 50 % av den maximala poängsumman erhålls betyget F Betygskriterier Hemsida: www.popgen.su.se/gcp. Slutbetyg på delmomentet Slutbetyget på kursavsnittet aturliga populationers evolution och bevarande 6 hp avgörs av betygen på statistikduggan (vikt 5%) och skrivningen i populationsgenetik och bevarande-biologi (vikt 75%). Dessutom krävs godkänt resultat på obligatoriska moment.. Slutbetyg på kursen som helhet Slutbetyget på kursen som helhet (Gener, celler och populationer 5 hp) avgörs genom sammanvägning av resultaten från de tre olika kursmomenten.
Slutsatser baserade på statistik! Alliansen leder har 5% Statistik y efterbehandling fördubblar överlevnaden vid bröstcancer Myskoxen löper hög risk att dö ut i Sverige Risk för nederbörd imorgon 50% y typ av antibiotika effektivt mot resistenta bakterier DA analys identifierar mördare Havre minskar risken för magsår Torsken på ICA fångad i Östersjön ej i ordatlanten Statistik Latin: tillstånd, ställning Denna kurs tar upp tre områden: Deskriptiv statistik Beskrivande statistik Sannolikhetslära Läran om metoder för att samla in, strukturera, bearbeta, beskriva, analysera och dra slutsatser om numeriska och/eller icke numeriska data Statistisk inferens Statistisk slutledning slutsatser om något baserat på ett urval Inferens = slutsatser om generella förhållanden baserat på observerade resultat Födoval hos tumlare Inom biologisk forskning och tillämpad verksamhet används statistik för att: Undersöka och beskriva biologiska fenomen Deskriptiv statistik Storlek hos skinnbaggar med parningsframgång Ålder för första reproduktion hos gråsäl Migrationsmönster hos lax Bakterietillväxt på medier med olika typer av antibiotika
Inavel parning mellan nära släktingar Fia Bertil Lotta Pelle Märta Inavelsgrader hos vargar i nordiska djurparker Inom biologisk forskning och tillämpad verksamhet används statistik för att: Besvara frågor, dra slutsatser om förhållanden och fenomen - Statistisk inferens Förlust av genetisk varation hos vargar i nordiska djurparker Hypotesprövning: Hypotes = ett antagande om verkligheten Vid hypotesprövning avgörs om en hypotes ger en sann eller falsk bild av verkligheten Prediktion baserad på hypotesen prövas via insamling av data och/eller via experiment. Statistisk inferens egativa effekter av inavel observerade hos många djur Hypotes: Vargen är känslig för inavel 5
Inavel leder till ökad grad av identisk homozygoti Recessiva anlag kommer till uttryck Recessiva ( vikande ) arvsanlag krävs i dubbel uppsättning för att komma till uttryck Insamling av data Vi vill veta sanningen! Vikt hos 8 månader gamla vargvalpar Statistisk hypotesprövning ollhypotes och alternativhypotes H0: ingen skillnad, ingen effekt H: skillnad, effekt Vikt hos 8 månader gamla vargvalpar Resultat av statistiskt test: ett p värde (=sannolikhetsvärde) som anger hur sannolikt det är att erhålla det observerade utfallet om nollhypotensen är sann. P honor = 0.000 P hanar = 0.00 Statistisk inferens 6
Slutsats baserad på statistisk inferens: Inavel kan ha negativa effekter hos varg Antal individer Inavelsgrader bland vargar innan licensjakt 00 80 70 60 50 0 0 0 0 0 0.00 0.05 0.0 0.5 0.0 0.5 0.0 Inavelsgrad 0.5 0.0 0.5 0.50 Statistisk inferens: Flera, reproduktivt isolerade öringpopulationer kan förekomma i en och samma sjö Det finns stora genetiska skillnader mellan älg i södra och norra Sverige och det beror troligen på små populationer historiskt sätt Granen i Centraleuropa har lägre grad av genetisk variation än ordeuropeisk Slutsatserna från studier i djurpark ligger till grund för vidare hypotesformulering och undersökning av till exempel det vilda vargbeståndet. Det finns en sanning I vissa fall kan vi ta reda på sanningen Har antalet skadade i trafikolyckor i Stockholm ökat? Samla in uppgifter på antalet olyckor under olika tidsperioder Jämför! 50 00 Antal bilolyckor i Stockholm Stolp /stapeldiagram 50 00 50 Deskriptiv statistik ingen statistisk inferens 0 00 00 005 006 007 008 009 I vissa fall får vi till slut reda på sanningen Vinner de röd-gröna valet 08? Kommer Stina att överleva operationen? Kommer Bertil att drabbas av lungcancer om han röker ett paket cigaretter om dagen? Kommer alliansen att sitta kvar vid makten efter valet 00? Vi frågar ett urval av svenskarna och försöker utifrån det dra slutsatser om hela svenska folket Vi vill veta vad som är troligt - sannolikt Statistisk inferens 7
Kommer Stina att överleva operationen? Vi granskar utfallet av samma typ av operation som tidigare utförts på andra personer Kommer Bertil att drabbas av lungcancer om han röker ett paket cigaretter om dagen? I vissa fall får vi aldrig reda på den absoluta sanningen Är tumlaren i Östersjön genetiskt unik? Finns det fler mördarsniglar i min trädgård jämfört med grannens? Vi jämför personer som tidigare drabbats av lungcancer med avseende på rökvanor. Vi jämför med sådana som inte drabbats av lungcancer Statistisk inferens Är tumlaren i Östersjön genetiskt unik? Vi samlar in vävnad från några av tumlarna i Östersjön och från andra platser. Vi isolerar DA och undersöker variationen i några genetiska markörer. Vi analyserar våra data och försöker dra en slutsats. Vi kommer aldrig att ha möjlighet att undersöka alla tumlare eller hela genomet. Finns det fler daggmaskar i min trädgård jämfört med grannens? Vi räknar av antalet maskar i en del av trädgården. Vi väljer slumpmässigt en plats i vardera trädgården, gräver ut en kubikmeter jord och räknar av antalet daggmaskar. Vi har ingen möjlighet att gräva upp hela trädgården Statistisk inferens Statistisk inferens Antag att antalet daggmaskar räknas i en kubikmeter jord från min trädgård, hos grannen räknas motsvarande jordmängd av. Vi hittar fler daggmaskar i min jord. Beror detta på att jag har fler daggmaskar i sin trädgård än vad grannen har i sin? Slumpen Eller beror det på slumpen? Statistisk hypotesprövning och inferens används för att avgöra detta. 8
Är det sanning eller är det slump? Undersökning lungcancer hos: 500 rökare 500 icke rökare Förekomst av lungcancer: 75 av rökarna 9 av icke rökarna Beror detta på att det finns en koppling mellan rökning och lungcancer? Eller beror vår observation bara på slumpen? Statistisk hypotesprövning och inferens Vikt hos 8 månader gamla vargvalpar Resultat av statistiskt test: Slumpen spelar en central roll i statistisk hypotesprövning P honor = 0.000 P hanar = 0.00 Statistisk hypotesprövning går ut på att skilja sanning från slump 9
Population Alla objekt som har en i förväg definierad egenskap Population Stickprov Sveriges befolkning Brunbjörnarna i Skandinavien n Alla som opererats för magsår i Skövde Alla som äter lunch på Lantis minst 0 gånger per år 000 svenskar 50 av förmodat 000 brunbjörnar 00 av de 00 som opererats 00 av de som äter på Lantis Vi vill kunna beskriva och/eller dra slutsatser om populationen Population Stickprov n En eller flera särskilda karaktärer/egenskaper hos medlemmarna i populationen av intresse Kroppslängd hos Sveriges befolkning Vikt vid tre års ålder hos brunbjörn Sjukskrivningens längd efter magsårsoperation Vikt och matvanor bland dem som äter på Lantis Ett stickprov dras för att beskriva och dra slutsatser om karaktären av intresse Stickprovet dras för att kunna beskriva och dra slutsatser om den totala populationen Det är viktigt att stickprovet är så representativt som möjligt för populationen Stickprovet ska i största möjliga mån utgöra en miniatyrbild av populationen Stickprovet ska dras slumpmässigt Obundet slumpmässigt urval (OSU) Dragning utan återläggning Dragning med återläggning Varje kombination av n enheter ska ha samma chans att bli vald som varje annan möjlig kombination av n enheter 0
De flesta statistiska metoder förutsätter dragning med återläggning Om en population är tillräckligt stor kan dragning utan återläggning betraktas som dragning med återläggning Ex. vikt Population.6.9.8.. 5...9.5.8 5.. 5.. 5.0.8.0 5. ågot som kan variera mellan enheter i populationen Variabel umerisk variabel Kvantitativ variabel Ex. fjäderdräktens färg Population ågot som kan variera mellan enheter i populationen - Variabel Kvantitativ ( tal ) Variabel ( egenskap ) Kvalitativ ( ord ) Icke-numerisk variabel Kvalitativ variabel Kontinuerlig t.ex. kroppslängd: 50 5 50.5 5.9 5.999 Diskret t.ex. antal barn ominal Ordinal ( alla värden möjliga ) ( vissa värden möjliga ) ( ej rangordning ) ( rangordning ) t.ex. nationalitet brittisk amerikansk austarliensisk fransk t.ex. hälsotillstånd livshotande kritiskt allvarligt stabilt Variabel: vikt hos 5 veckor gamla vargvalpar Variabel: vikt hos 5 veckor gamla vargvalpar Population Hur mycket väger 5 veckor gamla vargvalpar? Stickprov n.. 5...6 5..9.9.. 5. Stickprov (n=) Observerat värde..6.9....9 5. Absolut frekvens Relativ frekvens /=0.8 0.7 Relativ frekvens % 8 9 9 9 9 9 9 7 00
Fördelning Variabel: vikt hos 5 veckor gamla vargvalpar Antal obseravtioner 0..6.9....9 5. Vikt Stolp-/Stapeldiagram Stickprov (n=) Observerat värde..6.9....9 5. < x < < x < 5 Klassindelning -.9 -.9 5-5.9 5 < x < 6 0 5 Antal observationer Histogram 5 6 Histogram Histogram
Variabel: vikt hos 5 veckor gamla vargvalpar Stickprov (n=) 0.8 Cumulative relative frequency 0.05 0.5 0.55 0.75 0.87 0.95 0.98 0.98.00 Observerat värde..6.9....9 5. Klassindelning -.9 -.9 5-5.9 5 Frekvens Kumulativ frekvens 8 Histogram 0.6 0. 0. < x < < x < 5 0 7.5 8.5 9.5 0.5.5.5.5.5 5.5 5 < x < 6 0 5 6 Variabel: vikt hos 5 veckor gamla vargvalpar Population Hur mycket väger 5 veckor gamla vargvalpar? 7. = = Stickprov n.. 5...6 5..9.9 5... Medelvärdet för kroppsvikt i stickprovet. x Variabel: vikt hos 5 veckor gamla vargvalpar Population Stickprov n Det sanna medelvärdet för kroppsvikt = Parameter x =. = en storhet som karaktäriserar en population Xi Är en god skattning av? utgör en skattning av estimat Det sanna medelvärdet skattas genom att beräkna medelvärdet i stickprovet Kopplat till stickprovets storlek och det sätt på vilket stickprovet är draget Generellt: ju större stickprov desto bättre OSU Generellt är en god, medelvärdesriktig (unbiased) estimator av
Centralvärden Medelvärde Median Typvärde Median (Md) Observationerna rangordnas efter storlek Medianen är den mittersta observationen vid udda antal observationer Medianen är medelvärdet av de två mittersta observationerna vid jämnt antal observationer Typvärde (eng. mode) Fördelning Typvärde Median Medelvärde Typvärdet är det vanligast förekommande värdet Frekvens Årsinkomst Hur mycket väger 5 veckor gamla vargvalpar? Stickprov n Stickprov (n=) Observerat värde..6.9....9 5. x =. Median =. Typvärde = 5. Absolut frekvens Relativ frekvens 0.8 0.7 Antal obseravtioner 0.. 5...6 5..9.9.. 5...6.9....9 5. Vikt Hur beskriva spridningen? Variabel: vikt hos 5 veckor gamla vargvalpar Stickprov (n=) Observerat värde..6.9....9 5. Absolut frekvens Variationsbredd (range) = 5.. =
Variabel: vikt hos 5 veckor gamla vargvalpar Variabel: vikt hos 5 veckor gamla vargvalpar Stickprov (n=) x i...6.9....9 5. 5. 5. x i -x -. -. -0.7-0. -0. 0.0 0. 0.6 0.9 0.9 0.9 0.0 (x i -x).. 0.9 0.6 0.0 0.00 0.0 0.6 0.8 0.8 0.8 5.88 Variansen = s = (x i -x) = 0.588 0.60 n- Standardavvikelsen = s = s = 0.7668 0.80 Population Den sanna variansen för kroppsvikt = (X i - ) Stickprov n x =. s = 0.588 Varians - Standardavvikelse s = = s Stickprovet Den verkliga populationen Population Stickprov x s s n Take-home messages. Statistiken utgör grunden för biologisk forskning och verksamhet.. Deskriptiv statistik används för att beskiva biologiska fenomen.. Statistisk hypotesprövning används för att besvara frågor och dra slutsatser om biologiska förhållanden och fenomen.. Hypotesprövningens princip hörnpelare i statistisk inferens. 5. Att skilja sanning från slump är grunden för statistisk hypotesprövning. 6. ollhypotesen, H 0, formuleras alltid som ingen skillnad, ingen effekt oavsett vilken den underliggande hypotesen som testas är. 7. P-värdet anger sannolikheten för det observerade utfallet eller ett sämre/mer extremt om nollhypotesen är sann. Take-home messages. Det är viktigt att skilja den statistiska populationen från stickprovet.. Den statistiska populationen utgör den sanning vi är intresserade av. Vi vill beskriva och dra slutsatser om populationen.. Om populationen är stor kan vi inte undersöka hela populationen utan drar stickprov.. Vi använder deskriptiv statistik för att via skattningar (=estimat) av parameterar (storheter som karaktäriserar en population) beskriva populationen. 5. Vi har gått igenom några grundläggande delar av den deskriptiva statistiken som visar hur sådan beskrivning kan gå till. 5
Viktiga termer att lära Stokastisk process Hypotes ollhypotes (H 0 ) Alternativhypotes (H ) P-värde Deskriptiv statistik Statistisk inferens Dragning med och utan återläggning Statistisk population Stickprov Variabel umerisk variabel kvantitativ variabel Kvalitativ variabel Kontinuerlig variabel Diskret variabel Ordinalvariabel ominalvariabel Centralvärden: medelvärde, median, typvärde Spridningsmått: varians, standardavvikelse, variationsvidd(-bredd) Parameter Estimat, skattning 6