Föreläsning 1 Statistik; teori och tillämpning i biologi 1
Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer Datasalar i E-huset, ingång 27 (B-huset) Statistiska programpaketet SPSS Inlämningsuppgift i 3 delar Grupparbete, 3-4 stycken i varje grupp Godkänd om minst 60 % av de besvarade uppgifterna är rätt för respektive del. Salstenta 3 juni, kl. 14-18 2
Statistik i biologi Inom biologi finns det väldigt mycket data Men hur ska man analysera all data? Med hjälp av statistik kan man bland annat: Beräkna intervall för förväntad viktminskning efter foderbyte Undersöka om det finns samband mellan snödjup och antal fjällämlar Utreda om försurningen i en sjö minskar efter kalkning Och mycket annat! 3
Population och stickprov Inom statistik är en population den mängd av enheter (antal = N) man vill dra slutsatser om. En population kan vara t.ex. alla älgtjurar i Sverige. Det kan vara svårt att observera alla enheter i en population, så därför kan man dra ett stickprov (eng. sample) bestående av ett visst antal urvalsenheter (observationer, antal = n). Vid dragning av stickprov ska varje enhet i populationen ha lika stor chans att komma med i stickprovet och det ska vara ett oberoende mellan dragningarna. Detta kallas för att dra ett obundet slumpmässigt urval (OSU) (eng. random sample). 4
Population och stickprov Utifrån det slumpmässigt dragna stickprovet beräknas vissa statistikor, vilket är skattningar på populationens sanna värden, dess parametrar. Dessa parametrar är t.ex. medelvärde, standardavvikelse. Ju större stickprovsstorlek man använder, desto bättre kommer skattningen på populationens parametrar att bli. Vid dragning av stickprov kan det hända att det kommer med en eller flera så kallade outliers. Det är en extrem observation, som avviker väldigt mycket från de andra. Beroende på vad man vet om denna outliers egenskaper så kan den antingen behållas eller raderas. 5
Variabler och variabeltyper En variabel är något som observeras och som kan variera från enhet till enhet. Variabler antar vissa värden och kan vara på olika skalor: Metrisk skala: värden med en fast nollpunkt och konsekvent skillnad (t.ex. längd, vikt) Intervallskala: värden som bara kan finnas inom ett specifikt intervall, saknar fast nollpunkt (t.ex. temperatur) Ordinalskala: värden som kan rangordnas, dock ej konsekvent skillnad (t.ex. storlek på tröjor) Nominalskala: attribut som den observerade enheten har (t.ex. ögonfärg, hårfärg) 6
Variabler och variabeltyper Kvantitativa variabler brukar också beskrivas som antingen kontinuerliga eller diskreta, vilket är olika variabeltyper. Detta gäller för variabler på alla skalor utom nominalskala. Kontinuerliga: variabler som kan anta ett oändligt antal decimaler (t.ex. längd, vikt) Diskreta: variabler som bara kan anta heltalsvärden (t.ex. antal taggar på ett älghorn) 7
Medelvärde och median Populationsmedelvärdet: (GB s. 23, BB s. 21) μ = N i=1 N X i Stickprovsmedelvärdet: (GB s. 24, BB s. 22) X = n i=1 n X i Stickprovsmedelvärdet beräknat på frekvenstabell: (GB s. 25, BB s. 23) X = n i=1 n f i X i Stickprovsmedianen är värdet i mitten när värdena är i storleksordning och ligger på position: n+1 2 (GB s. 26,BB s. 24) 8
Percentiler och kvartiler För att beskriva hur ett stickprov är fördelat brukar percentiler och kvartiler användas. (GB s. 37-38, BB s. 35-36) Percentil: under denna ligger en viss andel av stickprovets observationer (t.ex. under 30:e percentilen ligger 30 % av observationerna) Kvartil: benämningar på 25:e, 50:e, 75:e percentilerna, där de är respektive första, andra, och tredje kvartil. Kvartilavståndet: Avståndet mellan tredje och första kvartilerna. Andra kvartilen är samma sak som medianen! 9
Varians och standardavvikelse (GB s. 39-43, BB s. 37-41) Populationsvarians: σ 2 = X i μ 2 = X i 2 N N Stickprovsvarians: X i 2 N s 2 = X i X 2 = X i 2 X 2 i n n 1 n 1 Stickprovsvarians beräknad på frekvenstabell: s 2 = f ix 2 2 f i i X i n n 1 Standardavvikelsen är kvadratroten ur variansen 10
Exempel X = antal taggar på ett slumpmässigt valt älghorn i Sverige Vi observerar 15 slumpmässigt utvalda älgtjurar och noterar antalet taggar på deras horn och får följande siffror: 4, 7, 10, 6, 4, 18, 12, 10, 9, 5, 6, 6, 12, 10, 7 Utifrån dessa siffror ska följande göras: Sammanställ data i en frekvenstabell Visa data i ett stapeldiagram Beräkna medelvärde och median Beräkna första och tredje kvartil samt kvartilavståndet Beräkna varians och standardavvikelse 11
Normalfördelning Väldigt viktig inom statistiken och återkommer väldigt ofta i statistiska beräkningar Symmetrisk kring sitt väntevärde (medelvärdet μ) Ytan under normalfördelningskurvan summerar till 1 Normalfördelning Medelvärde 0 med olika standardavvikelser Normalfördelning Standardavvikelse 1 med olika medelvärden 0,4 S 1 2 3 0,4 Medel 0 1 2 0,3 0,3 0,2 0,2 0,1 0,1 0,0-10 -5 0 X 5 10 0,0-3 -2-1 0 1 X 2 3 4 5 6 12
Normalfördelning Standardisering (GB s. 74, BB s. 68) Med hjälp av normalfördelningen kan man undersöka hur stor andel som är mindre eller större än ett givet värde på en variabel (X), eller mellan två givna värden på X. Detta görs genom så kallad standardisering. Z = X i μ σ där μ = variabelns väntevärde och σ = variabelns standardavvikelse Den standardiserade variabeln Z är N(μ = 0, σ = 1). Tabell B.2 (BB s. 676) visar hur stor andel av en normalfördelning som ligger ovanför ett givet värde på Z. 13
Normalfördelning Exempel standardisering X = vikten på en slumpmässigt vald älgtjur i Östergötland i kilogram X är N(μ = 450, σ = 30) Hur stor andel av älgtjurarna i Östergötland väger: a) mer än 475 kg? b) mindre än 440 kg? c) mellan 430 och 470 kg? Det går även att vända på frågeställningen: d) Under vilken vikt finns 10 % av älgtjurarna? e) Över vilken vikt finns 5 % av älgtjurarna? 14
Tack för idag! Nästa tillfälle: Föreläsning 2, onsdag 25/1, 10-12, sal R44 15