Tentamen TMS145 Grundkurs i matematisk statistik och bioinformatik, 7,5 hp, 21-12-14 kl 8.3-12.3. Examinator: Olle Nerman, tel 772 35 65. Jour: Malin Östensson, tel 78347877 Hjälpmedel: valfri miniräknare, egen handskriven formelsamling (fyra A4 sidor) samt med skrivningen utdelade tabellsidor. Maxpoäng: 32. För godkänt krävs minst 15 poäng totalt och minst 4 poäng på sannolikhetsteori- och statistikdelen vardera samt minst 3 poaäng på bioinformatikdelen. Sannolikhetsteori 1. Låt X vara likformigt fördelad mellan och 1, och låt Y = X n för något heltal n. (a) Beräkna täthetsfunktionen (density function) för Y. (b) Beräkna variansen för Y. (c) Beräkna medianen m för Y. (d) Förklara varför medianen m avviker från väntevärdet µ. (a) F X (x) = x F Y (y) = P (X n y) = P (X y 1/n ) = F X (y 1/n ) f Y (y) = d dx F X(y 1/n ) = f X (y 1/n ) 1 n y1/n 1 = 1 n y1/n 1 1
(b) E(Y ) = E(Y 2 ) = 1 1 y 1 n y1/n 1 dy = y 2 1 n y1/n 1 dy = 1 1 [ 1 1 n y1/n dy = n y1/n+1 /( n + 1 [ 1 1 n y1/n+1 dy = ] 1 n ) n y1/n+2 /( 2n + 1 ) n V (Y ) = E(Y 2 ) E(Y ) 2 = 1 2n + 1 1 (n + 1) 2 = n 2 (2n + 1)(n + 1) 2 = 1 n + 1 ] 1 = 1 2n + 1 (c) F Y ( m) = m 1/n =.5 m = 1 2 n (d) För n > 1 är m < µ, detta för att Y har en assymetrisk fördelning med större sannolikhet för lägre värden på Y (inses då X ligger mellan och 1, då blir X n närmare för positiva heltal n.) 2. En genetisk sjukdom har två kända riskgener A och B som finns på olika kromosomer (d.v.s. marginellt är händelserna {en person har variant A} och {en person har variant B} oberoende). Populationsfrekvenserna av A resp. B är.1 resp..4. Den marginella risken att drabbas av sjukdomen om man har riskgen A är.2, och motsvarande för riskgen B är risken.4, om en person har båda riskgenerna är risken.1. (a) Vad är sannolikheten att drabbas av sjukdomen om man har riskgen A men inte B? (b) Vad är den marginella populationsrisken att drabbas av sjukdomen? (c) Visa att, givet att en person är sjuk så är händelserna att den sjuke har resp. riskgen inte är oberoende. (a) Vi har att P (sjuk A) = P (sjuk, A) = P (sjuk, A, B) + P (sjuk, A, Bc ) P (A) P (A) = P (sjuk A, B)P (B) + P (sjuk A, B c )(1 P (B)).2 =.1.4 + P (sjuk A, B c ).96 2
så P (sjuk A, B c ) =.2.4.96 =.167 (b) P (sjuk) = P (sjuk A, B)P (A, B) + P (sjuk A, B c )(P (A, B c )) +P (sjuk A c, B)(P (A c, B)) =.1.1.4 +.167.1.96 +.333.9.4 =.32 (c) P (A, B sjuk) = P (sjuk A, B)P (A)P (B) P (Sjuk) =.1.1.4.32 =.125 P (A sjuk) = P (sjuk A)P (A) P (Sjuk) =.2.1.32 =.625 Alltså P (B sjuk) = P (sjuk B)P (B) P (Sjuk) =.4.4.32 P (B sjuk)p (A sjuk) P (A, B sjuk) =.5 3. Anna åker från Stockholm till Göteborg med X2 kl. 15.1 med restid 2 timmar och 5 min enligt tidtabell. Vid 14.3 åker Magnus från Kalmar med Kust till Kust (KTK)-tåget med beräknad restid 4 timmar. Låt X resp. Y vara förseningarna (i timmar) för X2 och KTK. Antag att tätheten (a) Bestäm konstanten λ. f X,Y (x, y) = λe (x+2y), x >, y >. (b) Beräkna föväntad restid för respektive tågresa. (Om du inte lyckades lösa (a) så kan du uttrycka svaret med λ, samma gäller i del (c)) (c) Vad är sannolikheten att Magnus anländer före Anna? 3
(a) ( ) ( ) λe (x+2y) dxdy = λ e x dx e 2y dy = λ 1 1 2 = λ/2 Så λ = 2 och f X,Y är en produkt av två exponential-fördelningar. (b) Anna: T 1 = 2 h 5 min + X, så E[T 1 ] = 2h5min + E[X] = 3h5 min eftersom E[X] = 1. Magnus: T 2 = 4 h + Y, så E[T 2 ] = 4 h + E[Y ] = 4 h 3min eftersom E[Y ] = 1/2. (c) Enl. tidtabell anländer Magnus 3 min efter Anna, för att Magnus ska komma dit före Anna måste så vi söker P (X >.5 + Y ) = = = X >.5 + Y, P (X >.5 + y)f Y (y)dy (1 F X (.5 + y)) f Y (y)dy e (.5+y) 2e 2y dy = e.5 2e 3y dy = e.5 2 3.44 den första likheten följer från Satsen om total sannolikhet. Statistik 4. Ett bageri bakar 2 limpor surdegsbröd om dagen. För att undersöka fördelningen av antalet sålda bröd har de under 3 dagar räknat antal sålda bröd. Antalen finns i tabell Tabell 1. (a) Om du antar att X är binomialfördelad och att observationerna på olika dagar är oberoende, hur kan du då skatta variansen av X med hjälp av X? Beräkna denna skattning utifrån stickprovet. (b) Beräkna stickprovsvariansen s 2. 4
Vecka 1 Vecka 2 Vecka 3 Vecka 4 Antal 1 12 9 1 1 Antal 11 16 12 18 16 12 Antal 14 12 7 1 6 12 Antal 11 9 8 7 11 9 Tabell 1: Bröd försäljning. (c) Kan du se någon fördel med att använda den ena av dessa skattare? (a) Vi har att för en binomialfördelning gäller V (X) = np(1 p) och kan då skattas med nˆp(1 ˆp) där ˆp = x/n, d.v.s. variansen skattas med n x ( 1 x ) = 2 11.43 ( 1 11.43 ) = 4.898 n n 2 2 (b) s 2 = 7.495 (c) s 2 är mer robust än den andra skattningen, skattaren i (a) är inte väntevärdesriktig, därför är stickprovsvariansen att föredra. 5. Låt x 1, x 2,..., x n vara observationer av en Kumaraswamy-fördelning som har tätheten Antag att a = 1. f(x) = abx a 1 (1 x a ) b 1, a >, b >, x 1. (a) Härled maximum likelihoodskattaren för parametern b. Vad blir ˆbML om (1 x i ).5 n? 5
(b) Ge ett uttryck för medianen av X och använd detta för att ta fram en skattare av b som en funktion av stickprovsmedianen. (a) Täthetsfunktionen blir (b) och likelihoodfunktionen så f(x) = b(1 x) b 1 L(b; x) = b n n i=1 l(b; x) = n log b + (b 1) (1 x i ) b 1 n (1 x i ) i=1 d db l(b; x) = n n b + (1 x i ), i=1 n ˆbML = n i=1 (1 x i). n i=1 (1 x i) log.5 n = n log 2, medianen fås från skattningen för b blir n ˆbML n log 2 = 1 log 2. F (x) = 1 (1 x) b,.5 = 1 (1 m) b m = 1.5 1/b log.5 = b log(1 m) b = ˆb = log.5 log(1 m X ) log.5 log(1 m), 6. Julgransodling är en stor industri i vissa länder. Odlingen använder täta gödselgivor och behandling av pesticider. För att se hur mycket tillväxten påverkas av mängden gödsling har man valt ut 3 slumpmässiga områden i Sverige, och i respektive område har man gödslat olika mycket. Tabellen nedan presenterar de uppmätta värdena. Sambandet mellan gödning och tillväxt analyseras med en regressionsmodell med mängden Kväve(N) som förklaringsvariabel. 6
Kväve(kg/ha) Tillväxt(m 3 /ha) 16 44 54 34 125 53 141 38 197 67 Kväve Tillväxt 126 44 147 49 124 55 73 5 12 39 Kväve Tillväxt 9 5 223 66 77 53 215 62 53 5 Tabell 2: Tillväxt av träd (a) Tolka utskriften och ange ett uttryck för den linjära regressionsmodellen, samt använd denna för att förklara vilken effekt gödningen har på tillväxten. lm(formula = Y ~ N) Residuals: Min 1Q Median 3Q Max -.49-6.63 1.968 5.915 9.46 Coefficients: Estimate Std. Error t value (Intercept) 35.2151 5.43431 6.48 N.11543.3872 2.981 --- Residual standard error: 7.781 on degrees of freedom Multiple R-squared:.46,Adjusted R-squared:.363 --- Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value N 1 537.93 537.93 8.8858 Residuals 787. 6.54 (b) Använd denna utskrift för att konstruera ett konfidensintervall med konfidensgrad 95% för regressionskoefficienten för gödningen. (S xx = 4375.6) (c) Studera residualfigurerna och diskutera om den ovan använda modellen var lämplig, och om inte föreslå en förbättring. 7
residualer -1-5 5 residualer -1-5 5 5 1 15 2 N 57 58 59 6 61 62 63 64 Latitud (a) ŷ = 35.215 +.115x N (b) I β =.115 ± 1.77933.387 = (.46,.184) (c) Figuren med Latitud på x-axeln visar tecken på en trend, det kan alltså vara en idé att kontrollera om Latitud bör vara med i modellen. (Sämre tillväxt i norra sverige - sen tillväxtavslutning på hösten ökar risken för frostskador, detta är vanligare i norra Sverige) Bioinformatik 7. Sequence Alignment (a) Assuming a match score of 2, a mismatch score of -1 and a gap score of -2, derive the score matrix for a global alignment of ATC- GA and ACGGA. In this case, what is the score of an optimal global alignment? How many alignments have this optimal score (remember: each path represents a different alignment)? What are these alignments? (b) Calculate the score of the following multiple alignment using the BLOSUM62 matrix in Table 3 and the sum of pairs method: Sequence 1: LEA Sequence 2: LDT Sequence 3: LDS Sequence 4: LEH 3 p 8
A R N D C Q E G H I L K M F P S T W Y V A 4 R -1 5 N -2 6 D -2-2 1 6 C -3-3 -3 9 Q -1 1-3 5 E -1 2-4 2 5 G -2-1 -3-2 -2 6 H -2 1-1 -3-2 8 I -1-3 -3-3 -1-3 -3-4 -3 4 L -1-2 -3-4 -1-2 -3-4 -3 2 4 K -1 2-1 -3 1 1-2 -1-3 -2 5 M -1-1 -2-3 -1-2 -3-2 1 2-1 5 F -2-3 -3-3 -2-3 -3-3 -1-3 6 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7 S 1-1 1-1 -1-2 -2-1 -2-1 4 T -1-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7 V -3-3 -3-1 -2-2 -3-3 3 1-2 1-1 -2-2 -3-1 4 Tabell 3: BLOSUM62 Matrix 9
8. Structural Bioinformatics (a) In describing protein conformation, what is a torsion angle? (b) What is shown on a Ramachandran plot? Draw a sketch of a Ramachandran plot to illustrate your answer. Explain the horizontal and vertical axes, and explain what the plotted points represent. (c) In the output from the PROCHECK program, some regions of the Ramachandran plot are disallowed". Explain what this means. Why are some regions disallowed"? (d) In protein modelling, what is a side chain rotamer? 4 p 1