Tentamen TMS145 Grundkurs i matematisk statistik och bioinformatik, 7,5 hp, kl

Relevanta dokument
Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

(a) Beräkna sannolikhetsfunktionen p X (x). (2p) (b) Beräkna väntevärdet för X. (1p) (c) Beräkna standardavvikelsen för X. (1p)

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

FACIT: Tentamen L9MA30, LGMA30

FACIT: Tentamen L9MA30, LGMA30

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen MVE302 Sannolikhet och statistik

Formel- och tabellsamling i matematisk statistik

FACIT: Tentamen L9MA30, LGMA30

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

TENTAMEN MÅNDAGEN DEN 22 OKTOBER 2012 KL a) Bestäm P(ingen av händelserna inträffar). b) Bestäm P(exakt två av händelserna inträffar).

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Tentamen MVE301 Sannolikhet, statistik och risk

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik TMA321 1

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik TMS063 Tentamen

Föreläsning 5, Matematisk statistik Π + E

Tentamen L9MA30, LGMA30

Tentamen MVE301 Sannolikhet, statistik och risk

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Tentamen MVE300 Sannolikhet, statistik och risk

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?

TMS136: Dataanalys och statistik Tentamen

Tentamen MVE301 Sannolikhet, statistik och risk

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

0 om x < 0, F X (x) = c x. 1 om x 2.

Avd. Matematisk statistik

F13 Regression och problemlösning

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Tentamen i Sannolikhetslära och statistik, TNK069, , kl 8 13.

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 23 maj 2013 kl. 9 14

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

Föreläsning 12: Linjär regression

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Matematisk statistik för D, I, Π och Fysiker

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 12: Regression

Föreläsning 8: Konfidensintervall

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

Uppgift 1. f(x) = 2x om 0 x 1

Väntevärde och varians

Regressions- och Tidsserieanalys - F1

Repetitionsföreläsning

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Tentamen i Matematisk statistik Kurskod S0001M

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik KTH. Formelsamling i matematisk statistik

STATISTISKA INSTITUTIONEN Jakob Bergman

Tentamen MVE300 Sannolikhet, statistik och risk

Tentamentsskrivning: Matematisk statistik TMA Tentamentsskrivning i Matematisk statistik TMA321, 4.5 hp.

Kurskod: TAMS11 Provkod: TENB 12 January 2015, 08:00-12:00. English Version

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 5, FMSF45 Summor och väntevärden

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

TMS136. Föreläsning 4

9. Konfidensintervall vid normalfördelning

Regressions- och Tidsserieanalys - F1

Tentamen i Dataanalys och statistik för I den 28 okt 2015

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I MATEMATISK STATISTIK

SF1901: Sannolikhetslära och statistik

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 4: Konfidensintervall (forts.)

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Transkript:

Tentamen TMS145 Grundkurs i matematisk statistik och bioinformatik, 7,5 hp, 21-12-14 kl 8.3-12.3. Examinator: Olle Nerman, tel 772 35 65. Jour: Malin Östensson, tel 78347877 Hjälpmedel: valfri miniräknare, egen handskriven formelsamling (fyra A4 sidor) samt med skrivningen utdelade tabellsidor. Maxpoäng: 32. För godkänt krävs minst 15 poäng totalt och minst 4 poäng på sannolikhetsteori- och statistikdelen vardera samt minst 3 poaäng på bioinformatikdelen. Sannolikhetsteori 1. Låt X vara likformigt fördelad mellan och 1, och låt Y = X n för något heltal n. (a) Beräkna täthetsfunktionen (density function) för Y. (b) Beräkna variansen för Y. (c) Beräkna medianen m för Y. (d) Förklara varför medianen m avviker från väntevärdet µ. (a) F X (x) = x F Y (y) = P (X n y) = P (X y 1/n ) = F X (y 1/n ) f Y (y) = d dx F X(y 1/n ) = f X (y 1/n ) 1 n y1/n 1 = 1 n y1/n 1 1

(b) E(Y ) = E(Y 2 ) = 1 1 y 1 n y1/n 1 dy = y 2 1 n y1/n 1 dy = 1 1 [ 1 1 n y1/n dy = n y1/n+1 /( n + 1 [ 1 1 n y1/n+1 dy = ] 1 n ) n y1/n+2 /( 2n + 1 ) n V (Y ) = E(Y 2 ) E(Y ) 2 = 1 2n + 1 1 (n + 1) 2 = n 2 (2n + 1)(n + 1) 2 = 1 n + 1 ] 1 = 1 2n + 1 (c) F Y ( m) = m 1/n =.5 m = 1 2 n (d) För n > 1 är m < µ, detta för att Y har en assymetrisk fördelning med större sannolikhet för lägre värden på Y (inses då X ligger mellan och 1, då blir X n närmare för positiva heltal n.) 2. En genetisk sjukdom har två kända riskgener A och B som finns på olika kromosomer (d.v.s. marginellt är händelserna {en person har variant A} och {en person har variant B} oberoende). Populationsfrekvenserna av A resp. B är.1 resp..4. Den marginella risken att drabbas av sjukdomen om man har riskgen A är.2, och motsvarande för riskgen B är risken.4, om en person har båda riskgenerna är risken.1. (a) Vad är sannolikheten att drabbas av sjukdomen om man har riskgen A men inte B? (b) Vad är den marginella populationsrisken att drabbas av sjukdomen? (c) Visa att, givet att en person är sjuk så är händelserna att den sjuke har resp. riskgen inte är oberoende. (a) Vi har att P (sjuk A) = P (sjuk, A) = P (sjuk, A, B) + P (sjuk, A, Bc ) P (A) P (A) = P (sjuk A, B)P (B) + P (sjuk A, B c )(1 P (B)).2 =.1.4 + P (sjuk A, B c ).96 2

så P (sjuk A, B c ) =.2.4.96 =.167 (b) P (sjuk) = P (sjuk A, B)P (A, B) + P (sjuk A, B c )(P (A, B c )) +P (sjuk A c, B)(P (A c, B)) =.1.1.4 +.167.1.96 +.333.9.4 =.32 (c) P (A, B sjuk) = P (sjuk A, B)P (A)P (B) P (Sjuk) =.1.1.4.32 =.125 P (A sjuk) = P (sjuk A)P (A) P (Sjuk) =.2.1.32 =.625 Alltså P (B sjuk) = P (sjuk B)P (B) P (Sjuk) =.4.4.32 P (B sjuk)p (A sjuk) P (A, B sjuk) =.5 3. Anna åker från Stockholm till Göteborg med X2 kl. 15.1 med restid 2 timmar och 5 min enligt tidtabell. Vid 14.3 åker Magnus från Kalmar med Kust till Kust (KTK)-tåget med beräknad restid 4 timmar. Låt X resp. Y vara förseningarna (i timmar) för X2 och KTK. Antag att tätheten (a) Bestäm konstanten λ. f X,Y (x, y) = λe (x+2y), x >, y >. (b) Beräkna föväntad restid för respektive tågresa. (Om du inte lyckades lösa (a) så kan du uttrycka svaret med λ, samma gäller i del (c)) (c) Vad är sannolikheten att Magnus anländer före Anna? 3

(a) ( ) ( ) λe (x+2y) dxdy = λ e x dx e 2y dy = λ 1 1 2 = λ/2 Så λ = 2 och f X,Y är en produkt av två exponential-fördelningar. (b) Anna: T 1 = 2 h 5 min + X, så E[T 1 ] = 2h5min + E[X] = 3h5 min eftersom E[X] = 1. Magnus: T 2 = 4 h + Y, så E[T 2 ] = 4 h + E[Y ] = 4 h 3min eftersom E[Y ] = 1/2. (c) Enl. tidtabell anländer Magnus 3 min efter Anna, för att Magnus ska komma dit före Anna måste så vi söker P (X >.5 + Y ) = = = X >.5 + Y, P (X >.5 + y)f Y (y)dy (1 F X (.5 + y)) f Y (y)dy e (.5+y) 2e 2y dy = e.5 2e 3y dy = e.5 2 3.44 den första likheten följer från Satsen om total sannolikhet. Statistik 4. Ett bageri bakar 2 limpor surdegsbröd om dagen. För att undersöka fördelningen av antalet sålda bröd har de under 3 dagar räknat antal sålda bröd. Antalen finns i tabell Tabell 1. (a) Om du antar att X är binomialfördelad och att observationerna på olika dagar är oberoende, hur kan du då skatta variansen av X med hjälp av X? Beräkna denna skattning utifrån stickprovet. (b) Beräkna stickprovsvariansen s 2. 4

Vecka 1 Vecka 2 Vecka 3 Vecka 4 Antal 1 12 9 1 1 Antal 11 16 12 18 16 12 Antal 14 12 7 1 6 12 Antal 11 9 8 7 11 9 Tabell 1: Bröd försäljning. (c) Kan du se någon fördel med att använda den ena av dessa skattare? (a) Vi har att för en binomialfördelning gäller V (X) = np(1 p) och kan då skattas med nˆp(1 ˆp) där ˆp = x/n, d.v.s. variansen skattas med n x ( 1 x ) = 2 11.43 ( 1 11.43 ) = 4.898 n n 2 2 (b) s 2 = 7.495 (c) s 2 är mer robust än den andra skattningen, skattaren i (a) är inte väntevärdesriktig, därför är stickprovsvariansen att föredra. 5. Låt x 1, x 2,..., x n vara observationer av en Kumaraswamy-fördelning som har tätheten Antag att a = 1. f(x) = abx a 1 (1 x a ) b 1, a >, b >, x 1. (a) Härled maximum likelihoodskattaren för parametern b. Vad blir ˆbML om (1 x i ).5 n? 5

(b) Ge ett uttryck för medianen av X och använd detta för att ta fram en skattare av b som en funktion av stickprovsmedianen. (a) Täthetsfunktionen blir (b) och likelihoodfunktionen så f(x) = b(1 x) b 1 L(b; x) = b n n i=1 l(b; x) = n log b + (b 1) (1 x i ) b 1 n (1 x i ) i=1 d db l(b; x) = n n b + (1 x i ), i=1 n ˆbML = n i=1 (1 x i). n i=1 (1 x i) log.5 n = n log 2, medianen fås från skattningen för b blir n ˆbML n log 2 = 1 log 2. F (x) = 1 (1 x) b,.5 = 1 (1 m) b m = 1.5 1/b log.5 = b log(1 m) b = ˆb = log.5 log(1 m X ) log.5 log(1 m), 6. Julgransodling är en stor industri i vissa länder. Odlingen använder täta gödselgivor och behandling av pesticider. För att se hur mycket tillväxten påverkas av mängden gödsling har man valt ut 3 slumpmässiga områden i Sverige, och i respektive område har man gödslat olika mycket. Tabellen nedan presenterar de uppmätta värdena. Sambandet mellan gödning och tillväxt analyseras med en regressionsmodell med mängden Kväve(N) som förklaringsvariabel. 6

Kväve(kg/ha) Tillväxt(m 3 /ha) 16 44 54 34 125 53 141 38 197 67 Kväve Tillväxt 126 44 147 49 124 55 73 5 12 39 Kväve Tillväxt 9 5 223 66 77 53 215 62 53 5 Tabell 2: Tillväxt av träd (a) Tolka utskriften och ange ett uttryck för den linjära regressionsmodellen, samt använd denna för att förklara vilken effekt gödningen har på tillväxten. lm(formula = Y ~ N) Residuals: Min 1Q Median 3Q Max -.49-6.63 1.968 5.915 9.46 Coefficients: Estimate Std. Error t value (Intercept) 35.2151 5.43431 6.48 N.11543.3872 2.981 --- Residual standard error: 7.781 on degrees of freedom Multiple R-squared:.46,Adjusted R-squared:.363 --- Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value N 1 537.93 537.93 8.8858 Residuals 787. 6.54 (b) Använd denna utskrift för att konstruera ett konfidensintervall med konfidensgrad 95% för regressionskoefficienten för gödningen. (S xx = 4375.6) (c) Studera residualfigurerna och diskutera om den ovan använda modellen var lämplig, och om inte föreslå en förbättring. 7

residualer -1-5 5 residualer -1-5 5 5 1 15 2 N 57 58 59 6 61 62 63 64 Latitud (a) ŷ = 35.215 +.115x N (b) I β =.115 ± 1.77933.387 = (.46,.184) (c) Figuren med Latitud på x-axeln visar tecken på en trend, det kan alltså vara en idé att kontrollera om Latitud bör vara med i modellen. (Sämre tillväxt i norra sverige - sen tillväxtavslutning på hösten ökar risken för frostskador, detta är vanligare i norra Sverige) Bioinformatik 7. Sequence Alignment (a) Assuming a match score of 2, a mismatch score of -1 and a gap score of -2, derive the score matrix for a global alignment of ATC- GA and ACGGA. In this case, what is the score of an optimal global alignment? How many alignments have this optimal score (remember: each path represents a different alignment)? What are these alignments? (b) Calculate the score of the following multiple alignment using the BLOSUM62 matrix in Table 3 and the sum of pairs method: Sequence 1: LEA Sequence 2: LDT Sequence 3: LDS Sequence 4: LEH 3 p 8

A R N D C Q E G H I L K M F P S T W Y V A 4 R -1 5 N -2 6 D -2-2 1 6 C -3-3 -3 9 Q -1 1-3 5 E -1 2-4 2 5 G -2-1 -3-2 -2 6 H -2 1-1 -3-2 8 I -1-3 -3-3 -1-3 -3-4 -3 4 L -1-2 -3-4 -1-2 -3-4 -3 2 4 K -1 2-1 -3 1 1-2 -1-3 -2 5 M -1-1 -2-3 -1-2 -3-2 1 2-1 5 F -2-3 -3-3 -2-3 -3-3 -1-3 6 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7 S 1-1 1-1 -1-2 -2-1 -2-1 4 T -1-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7 V -3-3 -3-1 -2-2 -3-3 3 1-2 1-1 -2-2 -3-1 4 Tabell 3: BLOSUM62 Matrix 9

8. Structural Bioinformatics (a) In describing protein conformation, what is a torsion angle? (b) What is shown on a Ramachandran plot? Draw a sketch of a Ramachandran plot to illustrate your answer. Explain the horizontal and vertical axes, and explain what the plotted points represent. (c) In the output from the PROCHECK program, some regions of the Ramachandran plot are disallowed". Explain what this means. Why are some regions disallowed"? (d) In protein modelling, what is a side chain rotamer? 4 p 1