SF1911: Statistik för bioteknik

Relevanta dokument
SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

SF1911: Statistik för bioteknik

SF1901: Sannolikhetslära och statistik

Föreläsning 2. Kapitel 3, sid Sannolikhetsteori

F3 SANNOLIKHETSLÄRA (NCT ) För komplementhändelsen A till händelsen A gäller att

Introduktion till sannolikhetslära. Människor talar om sannolikheter :

SF1901: SANNOLIKHETSTEORI OCH GRUNDLÄGGANDE SANNOLIKHETSTEORI, STATISTIK BETINGADE SANNOLIKHETER, OBEROENDE. Tatjana Pavlenko.

1 Föreläsning I, Vecka I: 5/11-11/11 MatStat: Kap 1, avsnitt , 2.5

TMS136. Föreläsning 2

Grundläggande matematisk statistik

Matematisk statistik - Slumpens matematik

TMS136. Föreläsning 1

TMS136. Föreläsning 1

Föreläsning 1, Matematisk statistik Π + E

F ξ (x) = f(y, x)dydx = 1. We say that a random variable ξ has a distribution F (x), if. F (x) =

Satsen om total sannolikhet och Bayes sats

Matematisk Statistik och Disktret Matematik, MVE051/MSG810, VT19

1 Föreläsning I, Mängdlära och elementär sannolikhetsteori,

Föreläsning G70, 732G01 Statistik A

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Kombinatorik och sannolikhetslära

Föreläsning 1, Matematisk statistik för M

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

Sannolikhetsbegreppet

händelsen som alltid inträffar. Den tomma mängden representerar händelsen som aldrig inträffar.

Betingad sannolikhet och oberoende händelser

Matematisk statistik 9 hp för I, Pi, C, D och fysiker Föreläsning 1: Introduktion och Sannolikhet

TAMS79: Föreläsning 1 Grundläggande begrepp

Hur fattar samhället beslut när forskarna är oeniga?

TMS136. Föreläsning 2

Matematisk statistik 9hp för: C,D,I, Pi

SF1901 Sannolikhetsteori och statistik I

Chapter 2: Random Variables

SF1901: Sannolikhetslära och statistik

Isometries of the plane

Grundläggande matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIK GRUNDLÄGGANDE SANNOLIKHETSTEORI, BETINGAD SANNOLIKHETER, OBEROENDE. Tatjana Pavlenko.

Kurskod: TAMS11 Provkod: TENB 12 January 2015, 08:00-12:00. English Version

F2 SANNOLIKHETSLÄRA (NCT )

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

Utfall, Utfallsrummet, Händelse. Sannolikhet och statistik. Utfall, Utfallsrummet, Händelse. Utfall, Utfallsrummet, Händelse

Statistik 1 för biologer, logopeder och psykologer

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

S0007M Statistik2: Slumpmodeller och inferens. Inge Söderkvist

Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00. English Version

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 2 HT07

S0005M, Föreläsning 2

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 1 Mängdlära Grundläggande sannolikhetsteori Kombinatorik Deskriptiv statistik

Sannolikhetsteori. Måns Thulin. Uppsala universitet Statistik för ingenjörer 23/ /14

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

Styrteknik: Binära tal, talsystem och koder D3:1

Tentamen MMG610 Diskret Matematik, GU

Grafisk teknik IMCDP IMCDP IMCDP. IMCDP(filter) Sasan Gooran (HT 2006) Assumptions:

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

Kolmogorovs Axiomsystem Kolmogorovs Axiomsystem Varje händelse A tilldelas ett tal : slh att A inträar Sannolikheten måste uppfylla vissa krav: Kolmog

Par m 328 feet. Lång höger sväng. Korgen står placerad i en skogsglänta OB-linje på vänster sida.

Svar till gamla tentamenstal på veckobladen

Statistisk slutledning (statistisk inferens): Sannolikhetslära: GRUNDLÄGGANDE SANNOLIKHETSLÄRA. Med utgångspunkt från ett stickprov

4.1 Grundläggande sannolikhetslära

Kurskod: TAMS11 Provkod: TENB 07 April 2015, 14:00-18:00. English Version

Föreläsning 6, Repetition Sannolikhetslära

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Grundläggande matematisk statistik

SF1901: Sannolikhetslära och statistik

Föreläsning 2, Matematisk statistik för M

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

samhälle Susanna Öhman

Uttagning för D21E och H21E

Statistiska metoder för säkerhetsanalys

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Grafisk teknik IMCDP. Sasan Gooran (HT 2006) Assumptions:

Preschool Kindergarten

Om sannolikhet. Bengt Ringnér. August 27, Detta är introduktionsmaterial till kursen i matematisk statistik för lantmätarprogrammet

English Version. 1 x 4x 3 dx = 0.8. = P (N(0, 1) < 3.47) = =

Matematisk statistik för D, I, Π och Fysiker. Matematisk statistik slumpens matematik. Tillämpningar för matematisk statistik.

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, OCH ÖVNING 2, SAMT INFÖR ÖVNING 3

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

Lotto. Singla slant. Vanliga missuppfattningar vad gäller slumpen. Slumpen och hur vi uppfattar den - med och utan tärning

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

1. Varje bevissteg ska motiveras formellt (informella bevis ger 0 poang)

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

Matematisk statistik för B, K, N, BME och Kemister

Grafer, traversering. Koffman & Wolfgang kapitel 10, avsnitt 4

MATEMATIKSPELET TAR DU RISKEN

denna del en poäng. 1. (Dugga 1.1) och v = (a) Beräkna u (2u 2u v) om u = . (1p) och som är parallell

Statistikens grunder HT, dagtid Statistiska institutionen

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Övning 1 Sannolikhetsteorins grunder

1.5 Vad är sannolikheten för att ett slumpvis draget spelkort ska vara femma eller lägre eller knekt, dam, kung eller äss?

Module 6: Integrals and applications

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Validering av kvalitetsregisterdata vad duger data till?

Writing with context. Att skriva med sammanhang

Transkript:

SF1911: Statistik för bioteknik Föreläsning 4. TK 7.11.2017 TK Matematisk statistik 7.11.2017 1 / 42

Lärandemål Betingad sannolikhet (definition, betydelse) Oberoende händelser Lagen om total sannolikhet Bayes sats (definition, använding, betydelse) a priori sannolikhet posteriori sannolikhet Bayes sats i kliniska tillämpningar TK Matematisk statistik 7.11.2017 2 / 42

Conditional Probability In the figure we have 14 (abstract) peas: nine have white flowers, five have red flowers, six have yellow pods, eight have green pods. Two peas are selected at random and without replacement. Q: What is the probability for the event that the first selection has a green pod and the second selection has a yellow pod? TK Matematisk statistik 7.11.2017 3 / 42

Conditionally Probable Events: a Mendelian introduction First selection: P(green pod) = 8 14 Second selection: P(yellow pod) = 6 13 P( 1st pea with green pod and 2nd pea yellow pod) = 8 0.264. 14 6 13 TK Matematisk statistik 7.11.2017 4 / 42

Conditionally Probable Events Two peas are selected at random and without replacement. P( 1st pea green pod and 2nd pea with yellow pod) = 8 14 6 13 0.264. The key point here is that we must adjust the probability of the second event to reflect the outcome of the first event. One pea was removed in the first selection, there are only 13 left to choose for the second selection. TK Matematisk statistik 7.11.2017 5 / 42

Conditional Probability Events: The Principle & Notation (Notation for Conditional Probability) P(B A) represents the probability of the event B occurring after it is assumed that the event A has already occurred. We read B A as B given A or as event B after that event A has already occurred. TK Matematisk statistik 7.11.2017 6 / 42

Multiplication Rule P (A B) = P(A) P(B A) But also P (A B) = P(B) P(A B) TK Matematisk statistik 7.11.2017 7 / 42

Conditionally Probable Events Now we have in fact already used the multiplication rule P( 1st pea green pod and 2nd pea yellow pod) = P( 1st pea green pod) Pr(2nd pea yellow pod 1st pea green pod ) = 8 14 6 13 TK Matematisk statistik 7.11.2017 8 / 42

Generellt: Betingad sannolikhet TK Matematisk statistik 7.11.2017 9 / 42

Inledning (betingad sannolikhet) Låt A och B vara två händelser, dvs A, B Ω. Vad är sannolikheten, betecknad med P(B A), för B då vi vet att A har inträffat? Ω Β 000 111 000 111 0000 1111 0000 1111 00000 11111 00000 11111 00000 11111 00000 11111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 00000 11111 0000 1111 000 111 000 111 Α Α B TK Matematisk statistik 7.11.2017 10 / 42

P(B A) Vi är ledda oss till följande definition. Definition Låt A och B vara två händelser. Antag att P(A) > 0. Sannolikheten för B betingat av A betecknas med P(B A) och definieras som P(B A) = P(A B). P(A) TK Matematisk statistik 7.11.2017 11 / 42

Multiplication Rule If P(A) > 0 and if P(B) > 0 P (A B) P(A) P (A B) P(B) = P(B A) = P(A B) TK Matematisk statistik 7.11.2017 12 / 42

Probability: independent events P ( A B ) = P(A) P(B A) But if A and B are independent events P (A B) = P(A) P(B). Hence, if A and B are independent events P(B A) = P(B), i.e., we need not adjust the probability of B to reflect the outcome of A TK Matematisk statistik 7.11.2017 13 / 42

Oberoende händelser Intuitivt är två händelser A och B oberoende om inträffandet av A inte ger någon information om huruvida B inträffar eller ej. I formler betyder detta Allmänt gäller ju P(B A) = P(B). P(B A) = P(A B), om P(A) > 0. P(A) TK Matematisk statistik 7.11.2017 14 / 42

Oberoende händelser Multiplikation med P(A) leder oss till följande definition: Definition Två händelser A och B är oberoende om P(A B) = P(A)P(B). Definitionen ovan kräver inget villkor om positiva sannolikheter. TK Matematisk statistik 7.11.2017 15 / 42

Komplement till oberoende händelser är oberoende Vi har P(A c B c ) = P((A B) c ) = 1 P(A B) = 1 P(A) P(B) + P(A)P(B) = (1 P(A)) P(B)(1 P(A)) = (1 P(A))(1 P(B)) = P(A c )P(B c ). TK Matematisk statistik 7.11.2017 16 / 42

Betingad sannolikhet: exempel Exempel (Kast med röd och vit tärning) A = summan av ögonen är högst 4. B k = vita tärningen visar k ögon. P(B k A) = 0 om k 4. Möjliga utfall, m, är 36: (v, r), v, r = 1,... 6, dvs (1, 1), (1, 2),... (6, 6). Gynnsamma utfall för A, är 6: (1,1), (1,2), (1,3), (2,1), (2,2), (3,1). Gynnsamma utfall för A B k, är 4 k: (v, r), v = k, r = 1,... 4 k, dvs (k, 1), (k, 2),... (k, 4 k) om k < 4. TK Matematisk statistik 7.11.2017 17 / 42

Betingad sannolikhet: exempel forts. Exempel Klassiska sannolikhetsdefinitionen ger Detta ger, för k < 4, P(A) = 6 36 och P(B k A) = 4 k 6 P(A B k ) = 4 k 36. 3 6 = 1 2 k = 1 = 2 6 = 1 3 k = 2 1 6 k = 3. TK Matematisk statistik 7.11.2017 18 / 42

Betingad sannolikhet Ofta är det lättare att ange värden till betingade sannolikheter än till obetingade, och vi utnyttar definitionen baklänges. Exempel En ohederlig person har två tärningar, en äkta och en falsk som alltid ger 6 ögon. Han väljer slumpmässigt den ena. Vad är sannolikheten för 5 resp. 6 ögon. Låt oss betrakta fallet med sex ögon. Intuitivt bör gälla att sannolikheten är 1 2 1 6 + 1 2 1 = 1 12 + 6 12 = 7 12. TK Matematisk statistik 7.11.2017 19 / 42

Lagen om total sannolikhet Mera systematiskt gäller följande sats Sats (Lagen om total sannolikhet) Om H 1,..., H n är disjunkta händelser, har positiv sannolikhet och uppfyller hela Ω, så gäller för varje händelse A Ω att P(A) = n P(H i )P(A H i ). i=1 TK Matematisk statistik 7.11.2017 20 / 42

Lagen om total sannolikhet Ω Η 1 Η 5 Η 2 Η 3 Η 4 Α TK Matematisk statistik 7.11.2017 21 / 42

Lagen om total sannolikhet Bevis. Vi utnyttjar en av De Morgans regler P(A) = P(A Ω) = P(A (H 1... H n )) = P((A H 1 )... (A H n )) och sedan regel (c) från första föreläsningen, ty (A H i ) (A H j ) = om i = j, n n = P(A H i ) = P(H i )P(A H i ). i=1 i=1 TK Matematisk statistik 7.11.2017 22 / 42

Bayes sats Vi ska nu ge en viktig sats om vändning av händelserna i betingade sannolikheter. Sats (Bayes sats) Under samma villkor som i lagen om total sannolikhet gäller Bevis. P(H i A) = P(H i)p(a H i ) n j=1 P(H j )P(A H j ). P(H i A) = P(H i A) P(A) = P(H i A) P(H i ) P(H i) P(A) = P(A H i) P(H i) P(A). Lagen om total sannolikhet tillämpad på P(A) ger resultatet. TK Matematisk statistik 7.11.2017 23 / 42

Bayes sats: tolkning Sannolikheten P(H i ) kallas a priori sannolikhet för H i. Sannolikheten P(H i A) kallas posteriori sannolikhet för H i. Bayes sats visar alltså hur a priori sannolikhet omvandlas till posteriori sannolikhet. TK Matematisk statistik 7.11.2017 24 / 42

Thomas Bayes ca. 1701 1761 TK Matematisk statistik 7.11.2017 25 / 42

Bayes sats: exempel Låt oss gå tillbaka till exemplet om falskspelaren. Sätt A = 6 ögon. H 1 = äkta tärningen. H 2 = falska tärningen. Då gäller P(A) = P(H 1 )P(A H 1 ) + P(H 2 )P(A H 2 ) = 1 2 1 6 + 1 2 1 = 7 12, som i exemplet. Bayes sats ger vidare och P(H 1 A) = P(H 1 A) P(A) P(H 2 A) = P(H 2 A) P(A) = P(A H 1 ) P(H 1) P(A) = 1 1 6 2 = P(A H 2 ) P(H 2) P(A) = 1 1 2 vilket kanske inte är lika lätt att inse rent intuitivt. 12 7 = 1 7 12 7 = 6 7 TK Matematisk statistik 7.11.2017 26 / 42

Bayes sats & inlärning Vi har N slantar i en urna. N 1 av dessa är hederliga i den meningen att de har två olika sidor, krona och klave. En av slantarna är falsk i den meningen att den har krona på båda sidor. Någon plockar på måfå en av slantarna utan att vi får inspektera densamma, och singlar den k ggr. Utfallet blir k kronor. Vad är sannolikheten att den valda slanten är den falska? Beteckningar: H 1 = hederlig slant, H 2 = falsk slant. A k = händelsen med k st. kronor i k singlingar. Sannolikheter enligt uppgiften: P(H 1 ) = N 1 N (antalet gynnsamma fall/totalantalet fall). P(H 2 ) = 1 N. P (A k H 1 ) = 1 (antalet 2 k gynnsamma fall/totalantalet fall, senare alt. p.g.a oberoende) och P (A k H 2 ) = 1. Sökt: P (H 2 A k ). TK Matematisk statistik 7.11.2017 27 / 42

Bayes sats & inlärning H 1 = hederlig slant, H 2 = falsk slant. A k = händelsen med k st. kronor i k singlingar. P(H 1 ) = N 1 N, P(H 2) = 1 N. P (A k H 1 ) = 1 och P (A 2 k k H 2 ) = 1. Sökt: P (H 2 A k ). Lagen om total sannolikhet (LTS) ger P(A k ) = P (A k H 1 ) P(H 1 ) + P (A k H 2 ) P(H 2 ) Bayes sats ger = 1 2 k N 1 N + 1 N = 2k + N 1 2 k N P (H 2 A k ) = P (A k H 2 ) P(H 2 ) P(A k ) = 2 k 2 k + N 1. TK Matematisk statistik 7.11.2017 28 / 42

Bayes sats & inlärning H 1 = hederlig slant, H 2 = falsk slant. A k = händelsen med k st. kronor i k singlingar. P(H 1 ) = N 1 N, P(H 2) = 1 N, P (A k H 1 ) = 1 2 k och P (A k H 2 ) = 1. Observera att P (H 2 A k ) = 2 k 2 k + N 1. P (H 2 A 0 ) = 1 N = P(H 2). TK Matematisk statistik 7.11.2017 29 / 42

Bayes sats & en inlärningskurva I figuren plottas med den sökta sannolikheten som funktion av k för k = 0,..., 40 och N = 1000000 P (H 2 A k ) = 2 k 2 k + N 1. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 30 35 40 TK Matematisk statistik 7.11.2017 30 / 42

Bayes sats i diagnostiken TK Matematisk statistik 7.11.2017 31 / 42

General terminology: T + = positive test result in a diagnostic test, T = negative test result in a diagnostic test. D+ = has a disease, D = does not have a disease. Sensitivity = P(T + D+) Specificity = P(T D ) True positive (predicted value) = P(D+ T +) True negative (predicted value) = P(D T ) TK Matematisk statistik 7.11.2017 32 / 42

Overall accuracy = P(D+) sensitivity + P(D ) specificity False Positive P(False positive) = P(T + D ) = 1 specificity False Negative P(False negative) = P(T D+) = 1 sensitivity Bayes rule tells amongst other things that and P(D + T +) = P(D T ) = P(T + D+)P(D+) P(T +) P(T D )P(D ). P(T ) TK Matematisk statistik 7.11.2017 33 / 42

Bayes sats: screening för cancer Vi räknar på det exempel som ges av John Allen Paulos: The Math behind Screening Tests. What a positive result really means. Scientific American, January 2012. http://www.scientificamerican.com/article.cfm?id=weighing-the-positives Låt oss anta att 0.4 % av befolkningen drabbas av en form av cancer. Ett diagnostiskt test ger positivt resultat i 99.5 % av fallen, om en individ har cancer och ger positivt resultat i 1 % av fallen, om en individ inte har cancer. Om vi plockar på måfå en vuxen individ ur en stor population och testet ger ett positivt svar, vad är sannolikheten för att individen har den aktuella formen av cancer? Beteckna D+ = individen har cancer. D = individen har inte cancer. T + positivt testresultat. Vi har P (D+) = 0.004, P (D ) = 0.996, P (T + D+) = 0.995, P (T + D ) = 0.01 Sökt är P (D + T +). TK Matematisk statistik 7.11.2017 34 / 42

Bayes sats: medicinsk diagnostik P (D+) = 0.004, P (D ) = 0.996, P (T + D ) = 0.995, P (T + D ) = 0.01 Bayes sats ger P (D + T +) som P (D + T +) = = P (T + D+) P (D+) P (T + D+) P (D+) + P (T + D ) P (D ) = 0.995 0.004 0.995 0.004 + 0.01 0.996 = 0.2855. En oväntat låg posteriori sannolikhet! Varför är 72% falska positiva ändå ett rimligt svar? Vilken slutsats drar vi om screening? TK Matematisk statistik 7.11.2017 35 / 42

Positive likelihood ratio (LR + ) is defined as LR + = The posterior odds of D+ given T + is Here P(D+) P(D ) P(T + D+) P(T + D ) P(D + T +) P(D T +) = LR + P(D+) P(D ). is the prior odds of D+. TK Matematisk statistik 7.11.2017 36 / 42

LR + = Sensitivity / (1 - Specificity) (Negative) likelihood ratio (LR ) is defined as LR = P(T D+) = (1 - Sensitivity) / Specificity P(T D ) P(D + T ) P(D T ) = LR P(D+) P(D ). TK Matematisk statistik 7.11.2017 37 / 42

En ny version av Bayes sats P( True positive predicted value ) = P( D+ ) sensitivity P( D+ ) sensitivity + P( D- )(1 specificity). P( True negative predicted value ) = P( D- ) specificity P( D- ) specificity + P( D+ )(1 sensitivity ). TK Matematisk statistik 7.11.2017 38 / 42

En ny version av Bayes sats: härledning P( True positive predicted value ) = P(D+ T +) = P(T + D+)P(D+) P(T +) = Sensitivity P(D+) P(T +). The law of total probability (lagen om total sannolikhet) yields P(T +) = P(T + D+)P(D+) + P(T + D )P(D ) and = Sensitivity P(D+) + (1 Specificity) P(D ). TK Matematisk statistik 7.11.2017 39 / 42

En ny version av Bayes sats: härledning This gives P( True positive predicted value ) = P( D+ ) sensitivity P( D+ ) sensitivity + P( D- )(1 specificity). TK Matematisk statistik 7.11.2017 40 / 42

En ny version av Bayes sats: härledning The second case P( True negative predicted value ) = P(T D )P(D ) P(T ) = specificity P(D ). P(T ) Law of total probability again, P(T ) = P(T D+)P(D+) + P(T D )P(D ) = (1 sensitivity P(D+) + specificity P( D- ) and we have the desired formula. TK Matematisk statistik 7.11.2017 41 / 42

Vem skall få huvudrollen i en kommande Hollywoodfilm om Tom Bayes? TK Matematisk statistik 7.11.2017 42 / 42