Föreläsning 2 Statistik; teori och tillämpning i biologi 1
Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är detta fördelningen för alla möjliga stickprovsmedelvärden för en viss storlek på n. Om man drar stickprov ur en normalfördelad population blir även samplingfördelningen för stickprovsmedelvärdena normalfördelad. Men, om man drar stickprov ur en icke-normalfördelad population blir samplingfördelningen för stickprovsmedelvärdena approximativt normalfördelad när urvalet (n) är stort, (tumregel: n > 30). Denna egenskap nämns i centrala gränsvärdessatsen (CGS) (eng. central limit theorem). 2
Normalfördelning Exempel samplingfördelningar Vi tänker oss att vi drar ett stickprov om 20 älgtjurar i Östergötland. Enligt föregående exempel är populationen normalfördelad som stickprovet dras i från, så samplingfördelningen för stickprovsmedelvärdena blir också normalfördelad. Det går att på liknande sätt som i föregående exempel att söka andelar för ett givet värde, men nu är det på medelvärdet, X. Det leder till att formeln för standardisering blir lite annorlunda: (GB s. 78, BB s. 72) Z = X μ σ n där σ n = medelvärdesstandardavvikelsen. Beräkna: a) sannolikheten att medelvärdet i stickprovet överstiger 460 kg 3
Hypotesprövning Med hjälp av hypotesprövning kan man dra slutsatser om hela populationen utifrån ett stickprov, förutsatt att stickprovet är slumpmässigt draget och samplingfördelningen för stickprovsstatistikan kan anses vara approximativt normalfördelad. Beroende på frågeställning formuleras en nollhypotes (H 0 ) och en alternativhypotes (mothypotes, H a ) på något av de tre sätten nedan. H 0 : μ = μ 0 H a : μ μ 0 Pröva om medelvärdet är skilt från ett visst värde (GB s. 103-109, BB s. 97-103) H 0 : μ μ 0 H a : μ < μ 0 Pröva om medelvärdet är mindre än ett visst värde (GB s. 109-110, BB s. 103-104) H 0 : μ μ 0 H a : μ > μ 0 Pröva om medelvärdet är större än ett visst värde (GB s. 110-111, BB s. 104-105) 4
Hypotesprövning Efter att hypoteserna formulerats bestäms en signifikansnivå (alpha, α), vanligtvis 0.01, 0.05, 0.10 (1, 5, 10 %). Detta är risken att förkasta (dvs. inte acceptera) en sann nollhypotes. Därefter beräknas en testvariabel: (GB s. 104, BB s. 98) Z = X μ 0 σ n Om H 0 är sann är denna testvariabel N(μ=0, σ=1). Testvariabeln jämförs med ett kritiskt värde ur normalfördelningstabell (B.2), vilket styrs av signifikansnivån och hypotesformuleringen. 5
Tidigare formler gällande hypotesprövning antar att populationsstandardavvikelsen är känd, men det händer väldigt sällan i praktiken. När populationsstandardavvikelsen ej är känd ska inte normalfördelningen användas, utan istället används t- fördelningen. 6
t-fördelningen t-fördelningen är väldigt lik normalfördelningen. Skillnaden är den att t-fördelningen ändrar form beroende på antalet frihetsgrader (df, degrees of freedom), vilket kan ses som antalet oberoende bitar av information. Större stickprov leder till fler frihetsgrader. 7
Hypotesprövning Hypotesprövning består av fyra steg: 1. Formulera hypoteser 2. Bestämma signifikansnivå 3. Beräkna testvariabel 4. Jämföra med kritiskt värde För att denna metodik ska kunna användas måste: stickprovet vara slumpmässigt draget och samplingfördelningen för stickprovsstatistiskan kunna ses som approximativt normalfördelad. 8
Hypotesprövning Hypoteserna kan formuleras t.ex. på detta vis: H 0 : μ = μ 0 H a : μ μ 0 Testvariabeln beräknas enligt: (GB s. 105, BB s. 99) t = X μ 0 s n Om nollhypotesen (H 0 ) är sann följer testvariabeln t en t-fördelning med n-1 (ν) frihetsgrader. 9
Exempel hypotesprövning Halten av radioaktivt cesium har uppmätts på 24 slumpmässigt utvalda öringar i olika sjöar och vattendrag i Jämtlands län. Följande siffror (i Bq/kg) har erhållits: 230, 180, 514, 183, 329, 426, 302, 270, 102, 354, 416, 91, 135, 121, 410, 298, 153, 376, 211, 574, 99, 278, 427, 274 Utifrån ovanstående siffror ska det utredas om: a) Den genomsnittliga cesiumhalten för en slumpmässigt vald öring i Jämtlands län är skilt från 400 Bq/kg b) Den genomsnittliga cesiumhalten för en slumpmässigt vald öring i Jämtlands län är lägre än gränsen för när livsmedel kan ätas i normal omfattning, dvs lägre än 300 Bq/kg 10
Inferens om en population Konfidensintervall Punktskattningar är osäkra och varierar från stickprov till stickprov. För att hantera osäkerheten bildas konfidensintervall med en viss konfidensnivå. Konfidensnivån är 1 signifikansnivån (1 α) och kan uttryckas (lite slarvigt) som den procentuella säkerhet att populationsparametern ska finnas inom intervallet. Egentligen innebär konfidensnivån att om alla möjliga stickprov av storlek n dras från en normalfördelad population, så kommer andelen (1 α) (konfidensnivån (1 α)% ) av de skapade intervallen innehålla den sanna populationsparametern. En konfidensnivå på 0,95 (95 %) säger att av alla möjliga intervall innehåller 95 % av intervallen den sanna populationsparametern. 11
Konfidensintervall När : stickprovet dragits slumpmässigt, samplingfördelningen för stickprovsmedelvärdet kan antas vara approximativt normalfördelad och populationsstandardavvikelsen ej är känd, bildas ett dubbelsidigt konfidensintervall för populationsmedelvärdet (μ) med hjälp av t-fördelningen enligt nedanstående formel. (GB s. 111, BB s. 105) X ± t α 2,ν s n 12
Konfidensintervall Det går även att bilda enkelsidiga konfidensintervall, dvs intervall som är enbart uppåt eller nedåt begränsade. (GB s. 113 (a), BB s. 107 (a)) X t α 1,ν s n Nedåt begränsat konfidensintervall X + t α 1,ν s n Uppåt begränsat konfidensintervall 13
Exempel konfidensintervall Vi återgår till datamaterialet om cesiumhalten i de 24 slumpmässigt utvalda öringarna i Jämtlands län. I det tidigare exemplet beräknades följande siffror: X = 281,375 s = 136,22 Beräkna: a) Ett 95 % dubbelsidigt konfidensintervall för den genomsnittliga cesiumhalten för en slumpmässigt vald öring i Jämtlands län b) Ett 95 % uppåt begränsat konfidensintervall för den genomsnittliga cesiumhalten för en slumpmässigt vald öring i Jämtlands län 14
Relationen mellan hypotesprövning och konfidensintervall Hypotesprövning och konfidensintervall hänger ihop på följande sätt: Om mothypotesen innehåller kan H 0 förkastas om μ 0 ej ingår i ett dubbelsidigt konfidensintervall Om mothypotesen innehåller > kan H 0 förkastas om μ 0 ej ingår i ett nedåt begränsat konfidensintervall Om mothypotesen innehåller < kan H 0 förkastas om μ 0 ej ingår i ett uppåt begränsat konfidensintervall Under förutsättning att samma signifikansnivå använts för hypotesprövningen och konfidensintervallet. 15
Tack för idag! Nästa tillfälle: Laboration 1, torsdag 28/1, PC 4-5 Grupp A, 13-15 Grupp B, 15-17 16