Gnuer i skyddade/oskyddade områden, binära utfall och binomialfördelningar Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 I vissa områden i Afrika har man observerat att förekomsten av gnuer har minskat drastiskt under 1900-talet. Biologer misstänker att detta förklaras av det moderna jordbruket och boskapsskötseln. Närmare bestämt, man misstänker att förekomsten av stora inhägnader stör gnuernas traditionella beteende. Gnuflockar brukar vanligtvis vandra över omfattande geografiska områden. För att skydda det vilda djurlivet har det inrättats nationalparker (skyddade områden), i vilka det inte bedrivs något jordbruk eller boskapsskötsel. Vilken effekt har förekomsten av skyddade/oskyddade områden på gnuernas beteende?, vt12 (1 : 32), vt12 (2 : 32) Exempel Binärt slumpförsök Ett försök som antingen lyckas eller misslyckas (jämför: observation i skyddat/oskyddat område). Några biologer registrerade förekomsten av gnuer under några dagars tid. De färdades över ett stort område. Lika lång tid tillbringades i skyddade/oskyddade områden. När färden var över hade de observerat 13 gnuer, i huvudsak i grupper om en till två individer. Av dessa 13 observationer skedde endast 2 i oskyddade områden. Är detta ett tydligt tecken på att tätheten av gnuer är lägre i oskyddade områden?, vt12 (3 : 32) Sannolikheten att lyckas brukar betecknas p och sannolikheten att misslyckas q. Observera att p + q = 1 och att p och q är värden mellan 0 och 1 (kan även anges i procent). Slumpvariabel: X = { 1, p 0, q KLASSISKT Singla en slant. Lika stor chans för krona som för klave. Motsvarar p = q = 1/2., vt12 (4 : 32)
Oberoende händelser/utfall Antalet ettor vid oberoende upprepning Om du singlar samma slant n gånger så är vart och ett av utfallen oberoende av övriga utfall. Motsvarar oberoende slumpvariabler X 1,..., X n. Med n = 2, vad är chansen att få klave i båda kasten? SVAR: Pr(X 1 = 1, X 2 = 1) = Pr(X 1 = 1) Pr(X 2 = 1) = 1/2 1/2 = 1/4 = 0.25. Oberoende binära slumpvariabler X 1,..., X n. Antalet ettor kan då uttryckas som: Y = n X i i=1 Andelen ettor kan uttryckas som: ˆp = 1 n n X i i=1, vt12 (5 : 32), vt12 (6 : 32) Stora talens lag ar Andelen ettor kan uttryckas som: ˆp = 1 n n i=1 Om n är någorlunda stort (ju större desto bättre) kan man förvänta sig att ˆp p, det vill säga att det genomsnittliga antalet ettor motsvarar sannolikheten för att få en etta. X i Oberoende binära slumpvariabler X 1,..., X n. Slumpvariabeln Y = n i=1 X i räknar antalet lyckade utfall. Y Bi(n, p). Med andra ord, Y sägs vara binomialfördelad, med parametrar n och p, där n anger motsvarande antal försök, och p anger motsvarande försökssannolikhet. Y är en slumpvariabel som antar något av värdena 0, 1, 2,..., n med givna sannolikheter p 0, p 1, p 2,..., p n. Detta resultat brukar kallas för Stora Talens Lag., vt12 (7 : 32), vt12 (8 : 32)
Genomsnittligt värde (Expectation) Jämförande exempel, 1:2 Vi konstaterade tidigare att man kan förvänta sig ˆp p. Detta betyder helt enkelt för Y Bi(n, p). Y n p, Annorlunda uttryckt, i genomsnitt ges antalet lyckade försök av arna Bi(10, 0.5) och Bi(10, 0.1) illustreras nedan till vänster respektive höger. E(Y ) = n p, där n anger antalet utförda försök och p försökssannolikheten. Notera att det genomsnittliga värdet är 5 till vänster och 1 till höger. Notera även att fördelningen till vänster är symmetrisk medan fördelningen till höger är skev., vt12 (9 : 32), vt12 (10 : 32) Gnuer i skyddade/oskyddade områden Analys Ingen skillnad mellan tätheter kan anses svara mot att Y = 2 är en observation från Bi(13, 0.5). Med andra ord, varje observation kan lika gärna härstamma från skyddat respektive oskyddat område (oberoende av övriga observationer). Vad är i så fall sannolikheten för Y 2? Endast 2 av de 13 observationerna härstammade från oskyddade områden. Hur pass osannolikt är detta från perspektivet att tätheten av gnuer inte skiljer sig åt mellan de två typerna av områden?, vt12 (11 : 32), vt12 (12 : 32)
Svar (med hjälp av statistisk programvara) Slutsats (enkelriktat binomialtest) Sannolikheten Pr(Y 2) då Y Bi(13, 0.5) ges av p 0 + p 1 + p 2 = 0.011. Med andra ord, det är 1.1% chans att få 0, 1 eller 2 krona då man singlar slant 13 gånger. Om tätheten av gnuer inte skiljer sig åt borde det vara lika stor sannolikhet (50%) att en given observation härrör från skyddat/oskyddat område. I detta fall gjordes totalt 13 observationer, varav endast 2 härrörde från oskyddade områden. Sannolikheten för minst lika extremt utfall (0,1 eller 2), givet att det inte är någon skillnad, är låg, cirka 1,1%. Med andra ord är det troligt att tätheten av gnuer verkligen är lägre i oskyddade områden., vt12 (13 : 32), vt12 (14 : 32) Allmänt brukar man beskriva sannolikheter i termer av möjliga utfall, där helheten av alla utfall brukar kallas för utfallsrum. En grupp av utfall brukar kallas för en händelse. Om man kastar en tärning finns det 6 möjliga utfall. Utfallsrummet kan beskrivas av mängden: Ω = {1, 2, 3, 4, 5, 6}. Diskreta utfallsrum I det enklaste fallen finns det på förhand ett fixt antal möjliga utfall: x 1,..., x n I en sannolikhetsmodell kan man då tilldela var och en av dessa en viss sannolikhet: p 1,..., p n Om man kastar en tärning finns det 6 möjliga utfall: Att få antingen en etta eller en sexa är en typ av händelse: 1, 2,..., 6 A = {1, 6}. Sannolikheten för var och en av dessa utfall är 1/6, 1/6,..., 1/6, vt12 (15 : 32), vt12 (16 : 32)
Addition av sannolikheter Multiplikation av sannolikheter Om en händelse består av ett givet antal utfall kan man räkna ut motsvarande sannolikhet genom att addera sannolikheterna för vart och ett av utfallen. Att få antingen en etta eller en sexa: A = {1, 6}. Multiplikation av sannolikheter dyker upp i samband med sannolikheter för att flera oberoende händelser skall inträffa. Sannolikheten för att få en sexa är 1/6. Vid två kast med tärning, vad är sannolikheten att få två sexor? Pr(A 1 och A 2 ) = Pr(A 1 ) Pr(A 2 ) = 1/6 1/6 = 1/36. Sannolikheten för vart och ett av utfallen är 1/6. Alltså: Pr(A) = 1/6 + 1/6 = 1/3 = 0.3333, vt12 (17 : 32), vt12 (18 : 32) Slumpvariabler ar Notationen x 1, p 1 X =.. x n, betyder att X är en diskret slumpvariabel som antar något av värdena x 1,..., x n med respektive sannolikheter p 1,..., p n. p n X Bi(n, p). I detta fall finns det n + 1 möjliga värden 0, 1,..., n. Det finns även formler för sannolikheterna p 0, p 1,..., p n för motsvarande sannolikheter. 1, 1/6 2, 1/6 X =.. 6, 1/6 Bi(10, 0.5) Bi(10, 0.1), vt12 (19 : 32), vt12 (20 : 32)
Jämförande exempel, 2:2 Standardiserad binomialfördelning 1:2 Vi utgår från X Bi(n, p). Motsvarande standardiserade slumpvariabel ges av Bi(10, 0.5) Bi(20, 0.5) Y = (X np)/ npq. Ovan illustreras två olika binomialfördelningar. X Y Diagramens form är uppenbarligen snarlika, men skalan på axlarna stämmer inte överens. Standardisering innebär att fördelningens mittpunkt flyttas till origo, samt att spridningen skalas om., vt12 (21 : 32) Med andra ord, skalan på axlarna stämmer inte längre överens., vt12 (22 : 32) Spridning, standardavvikelse och varians Standardiserad binomialfördelning 2:2 Givet X Bi(n, p) så kallas npq för motsvarande standardavvikelse (betecknas ofta σ) och npq för motsvarande varians (σ 2 ). Y 1 Y 2 Dessa är så kallade spridningsmått (ju högre, desto större variation). Standardiserade binomialfördelningar har samma spridning och centrum i origo. En slumpvariabel med σ = 1 kallas standardiserad. Dessutom kan man tillämpa normalapproximation vad gäller motsvarande sannolikheter., vt12 (23 : 32), vt12 (24 : 32)
Normalfördelning Två användbara tumregler Följande kurva, som ges av funktionen y = 1 2π e x2 /2 kallas för normalfördelning på standardiserad skala. Med en standardiserad normalfördelning är det C:a 95% sannolikhet att hamna inom intervallet [ 2, 2] C:a 99,9% sannolikhet att hamna inom intervallet [ 3, 3] Exempel på kontinuerlig slumpvariabel., vt12 (25 : 32), vt12 (26 : 32) Tillämpning: Gnuer i (o)skyddade områden I det tidigare exemplet resonerade vi kring slumpvariabeln Y Bi(13, 0.5). Motsvarande standardiserade slumpvariabel ges av Z = (Y 6.5)/ 13/4. Innebär att vi approximerar en standardiserad binomialfördelning med motsvarande normalfördelning på standardiserad skala. Speciellt kan vi tillämpa de två tumreglerna vad gäller extrema utfall. Y Z, vt12 (27 : 32), vt12 (28 : 32)
Uträkning Genom att stoppa in Y = 2 i formeln erhålls Z = (Y 6.5)/ 13/4 Z = (2 6.5)/ 13/4 2, 50 Vi ligger med andra ord utanför intervallet [ 2, 2] men innanför intervallet [ 3, 3]. Enligt tumregel 1-2 är detta signifikant på nivån 95%, men inte på nivån 99,9%. Vi har sett att binomialfördelningar karaktäriserar slumpmässigheten i samband med att man räknar antalet lyckade utfall vid oberoende binära slumpförsök. Vi har även sett exempel på en del grundläggande begrepp från sannolikhetsteori: utfall, addition, multiplikation, oberoende, slumpvariabler, väntevärde, standardavvikelse, normalfördelning, standardisering. ar kan approximeras av normalfördelningar. Detta görs enklast genom att standardisera motsvarande slumpvariabler. Detta stämmer någorlunda överens med det exakta svaret om att det är 1.1% sannolikhet att få minst lika extremt utfall givet att det inte är någon skillnad., vt12 (29 : 32) Vid normalapproximation kan man tillämpa två tumregler rörande extrema utfall., vt12 (30 : 32) Två användbara tumregler Med en standardiserad normalfördelning är det C:a 95% sannolikhet att hamna inom intervallet [ 2, 2] C:a 99,9% sannolikhet att hamna inom intervallet [ 3, 3] Svaret 1,1% är ett exempel på ett så kallat enkelsidigt p-värde med ett binomialtest. Vi kommer att återkomma till detta i samband med föreläsning 5 om χ 2 -test. För att beräkna detta med : gå in under fliken Stat Basic statistics och välj 1 Proportion. Fyll i Summarized data motsvarande 13 försök och 2 utfall. Välj hypotesprövning relativt andelen p = 0, 5 Se till att lämplig form av enkelsidig hypotes är vald genom att klicka på Options., vt12 (31 : 32), vt12 (32 : 32)