Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Relevanta dokument
(a) Beräkna sannolikhetsfunktionen p X (x). (2p) (b) Beräkna väntevärdet för X. (1p) (c) Beräkna standardavvikelsen för X. (1p)

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Tentamen TMS145 Grundkurs i matematisk statistik och bioinformatik, 7,5 hp, kl

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Tentamen MVE301 Sannolikhet, statistik och risk

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen MVE301 Sannolikhet, statistik och risk

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 23 maj 2013 kl. 9 14

Tentamen MVE301 Sannolikhet, statistik och risk

FACIT: Tentamen L9MA30, LGMA30

Tentamen MVE300 Sannolikhet, statistik och risk

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Tentamen MVE300 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Lufttorkat trä Ugnstorkat trä

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

f(x) = 2 x2, 1 < x < 2.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Tentamen MVE302 Sannolikhet och statistik

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Multipel Regressionsmodellen

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

MVE051/MSG Föreläsning 7

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Avd. Matematisk statistik

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Lycka till!

Avd. Matematisk statistik

4 Diskret stokastisk variabel

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen MVE301 Sannolikhet, statistik och risk

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Uppgift a b c d e Vet inte Poäng

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Matematisk statistik KTH. Formelsamling i matematisk statistik

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE302 Sannolikhet och statistik

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 6, Repetition Sannolikhetslära

Provmoment: Forskningsmetod, Salstentamen nr 1 Ladokkod:

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Uppgift 1. f(x) = 2x om 0 x 1

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Tentamen i Matematisk statistik Kurskod S0001M

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Del A: Schema för ifyllande av svar nns på sista sidan

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

OBS! Vi har nya rutiner.

Laboration 3: Enkel linjär regression och korrelationsanalys

Tentamen MVE301 Sannolikhet, statistik och risk

0 om x < 0, F X (x) = c x. 1 om x 2.

Formler och tabeller till kursen MSG830

TENTAMEN I MATEMATISK STATISTIK

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Matematisk statistik TMS064/TMS063 Tentamen

Uppgift a b c d e f (vet ej) Poäng

Avd. Matematisk statistik

Formel- och tabellsamling i matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen i matematisk statistik

Tillämpad statistik. Jesper Rydén

Psykologiska institutionen tillämpar anonymitet i samband med tentor i skrivsal, som går till så här:

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Standard Normal Quantiles. Vilken av följande slutsatser kan man dra från qq-plotten?

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

OBS! Vi har nya rutiner.

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Tentamen i Matematisk statistik Kurskod S0001M

Avd. Matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 11: Mer om jämförelser och inferens

Tentamen i Matematisk statistik Kurskod S0001M

FACIT: Tentamen L9MA30, LGMA30

F13 Regression och problemlösning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Avd. Matematisk statistik

Exempel på tentamensuppgifter

b) Teknologen Osquarulda känner inte till ML-metoden, men kom på intuitiva grunder fram till att p borde skattas med p = x 1 + 2x 2

Transkript:

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik, 5p. Tid: Torsdagen den 22 december, 2006 kl 14.00-18.00 i M-huset. Examinator: Olle Nerman, tel 7723565. Jour: Alexandra Jauhiainen, tel 7725380, Erik Kristiansson, tel 7725342. Hjälpmedel: kalkylator, egen handskriven formelsamling (fyra A4 sidor) samt med skrivningen utdelade formel- och tabellsidor. Maxpoäng: 32. För godkänt krävs minst 15 poäng totalt och minst 4 poäng på sannolikhetsteori- och statistik-delen vardera samt minst 3 poäng på bioinformatikdelen. Sannolikhetsteori 1 Kumaraswamy-fördelningen, ursprungligen skapad av den indiska hydrologen Poond Kumaraswamy, har följande täthetsfunktion, f X (x) = abx a 1 (1 x a ) b 1, 0 x 1. Låt X vara Kumaraswamy-fördelad med a = 2 och b = 2. (a) Beräkna E[X]. (1p) (b) Beräkna Var[X]. (2p) (c) Med moden för en kontinuerlig stokastisk variabel menas det x där täthetsfunktionen f(x) har det största värdet. Beräkna moden för en Kumaraswamy-fördelad stokastisk variabel med parametrarna a = 2 och b = 2. (1p) 2 Antalet fel på en slumpmässigt vald sida i den 6:e upplagan av Probability and Statitsics av J. L. Devore antas vara Poisson-fördelat med väntevärde λ. Boken har totalt 796 sidor och felen på de olika sidorna antas vara oberoende. Låt X vara det totala antalet fel i boken. (a) Om λ = 2, beräkna den approximativa sannolikheten att det totala antalet fel överstiger 1650. (2p) (b) På förlaget där boken ges ut (Thomson) är man noga med kvalitén. Beräkna därför det största tillåtna värdet på λ (approximativt) om sannolikheten för att det ska nnas max 1000 fel ska vara mindre än 0.90. (2p) 1

3 Låt A vara en händelse som inträar med sannolikheten 0.5 och låt X vara en stokastisk variabel. Den betingade fördelningen för X om A inträar är Bin(10, 0.8) och den betingade fördelningen för X om A inte inträar är Bin(10, 0.3). Statistik (a) Beräkna sannolikheten för A givet X = 8. (2p) (b) Beräkna E[X]. (2p) 4 En industri destillerar luft som frusits till vätskeform för att producera syre, kväve och argon. Renheten hos det producerade syret tros vara linjärt avtagande av mängden orenheter i luften (föroreningstalet i ppm). Följande data insamlades under ett testförsök. föroreningstal i ppm (x) renhet % (y) 1.10 93.30 1.45 92.00 1.36 92.40 1.59 91.70 1.08 94.00 0.75 94.60 1.20 93.60 0.99 93.10 0.83 93.20 1.22 92.90 1.47 92.20 1.81 91.30 2.03 90.10 1.75 91.60 1.68 91.90 Vi tänker oss att y j är en observation av en stokastisk variabel Y j där Y j = β 0 + β 1 x j + ɛ j En regressionanalys gjordes på materialet med följande resultat: 2

Residuals: -0.846768-0.195108 0.009844 0.270579 0.678471 Estimate Std. Error (Intercept) 96.4546 0.4282 x -2.9010 0.3056 Residual standard error: 0.4277 on 13 degrees of freedom Multiple R-Squared: 0.8739, Adjusted R-squared: 0.8642 Analysis of Variance Table Response: y Df Sum Sq Mean Sq x 1 16.4908 16.4908 Residuals 13 2.3786 0.1830 (a) Undersök på nivån 0.01 hur föroreningstalet påverkar renheten hos syret. (2p) (b) Vad betyder resultatet i (a)? (1p) (c) Ett företag har jämfört efterfrågan på sitt nya hälsopreparat i tolv olika försäljningsdistrikt. I fem av distrikten såldes preparatet endast i hälsokostbutiker, medan det i de övriga distrikten även såldes i vanliga mataärer. Försäljningsvolymen per invånare (y) registrerades och samtidigt togs tre förklarande variabler fram. 3

y x 1 x 2 x 3 167 1 42.2 31.9 185 1 48.6 33.2 170 1 42.6 28.7 152 1 39.0 26.1 150 1 34.7 30.1 192 0 44.5 28.5 183 0 39.1 24.3 180 0 40.1 28.6 191 0 45.9 20.4 171 0 36.2 24.1 168 0 39.3 30.0 189 0 46.1 34.3 Här är x 1 är en indikator för om distributionen skedde endast via hälskokostbutiker, x 2 är urbaniseringsgraden och x 3 är relativ inkomst. Nedan följer analyser för varje föklaringsvariabel mot y. Vilken förklarande variabel skulle du välja om du endast ck ta med en? (1p) Modell med x 1 : Call: lm(formula = y ~ x1) Residuals: -14.80-11.45 1.60 7.50 20.20 Estimate Std. Error t value Pr(> t ) (Intercept) 182.000 4.432 41.068 1.76e-12 *** x1-17.200 6.866-2.505 0.0312 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 11.73 on 10 degrees of freedom Multiple R-Squared: 0.3856, Adjusted R-squared: 0.3242 F-statistic: 6.276 on 1 and 10 DF, p-value: 0.03116 4

Modell med x 2 : Call: lm(formula = y ~ x2) Residuals: -16.5630-7.5984 0.7488 8.8765 14.1886 Estimate Std. Error t value Pr(> t ) (Intercept) 71.7151 30.4371 2.356 0.04021 * x2 2.4833 0.7296 3.404 0.00673 ** Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 10.18 on 10 degrees of freedom Multiple R-Squared: 0.5367, Adjusted R-squared: 0.4904 F-statistic: 11.59 on 1 and 10 DF, p-value: 0.006728 Modell med x 3 : Call: lm(formula = y ~ x3) Residuals: -24.4382-6.6035 0.2344 12.0392 17.2005 Estimate Std. Error t value Pr(> t ) (Intercept) 181.2347 31.8156 5.696 0.000199 *** x3-0.2258 1.1119-0.203 0.843150 Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 14.93 on 10 degrees of freedom Multiple R-Squared: 0.004107, Adjusted R-squared: -0.09548 F-statistic: 0.04124 on 1 and 10 DF, p-value: 0.8432 5

5 I ett ertal forskningsartiklar inom det medicinska området har det rapporterats att patienter med kardiovaskulära sjukdomar eller cancer har hög närvaro av endotelceller eller rester därav i blodet. En metod som bland annat innefattar centrifugering följt av immunouorescensinfärgning är användbar för att detektera endotelceller i blodet. Venöst blod har provtagits från 7 patienter i en kontrollgrupp och mängden endotelceller (mg/ml) bestämts med metoden ovan. På samma sätt har blod från 18 patienter med ischemisk hjärtsjukdom (IHD) provtagits och mängden endotelceller bestämts. medelvärde stickprovsstandardav. Kontroll 1.447 0.347 IHD 3.355 0.979 Antag att data följer en normalfördelning. (a) Undersök om varianserna kan anses vara lika i kontrollgruppen och gruppen med IHD-patienter. Nivå 0.1 (2p) (b) Baserat på din slutsats i (a), undersök med lämplig metod om IHD-gruppen kan anses ha högre innehåll av endotelceller i sitt blod än kontrollgruppen. Nivå 0.01. (2p) 6 I skidskytte ska man i varje skjutning träa med fem skott. Tänk att man följer en skidskytt under 250 skjutningar både på träning och tävling och registrerar antalet träar i varje skjutning. Man arbetar enligt modellen att skidskytten träar varje skott med sannolikheten p oberoende av andra skott. I en skjutning blir alltså X=antalet träade skott binomialfördelad med parametrarna n = 5 och p. (a) Härled maximum-likelihoodskattningen av p. Beräkna ett värde för ˆp från observationerna nedan. (2p) (b) Vi har fått följande observationer från de 250 skjutningarna: Träar 0 1 2 3 4 5 Antal obs. 25 65 33 21 60 46 Undersök med ett test på nivån 0.05 om vårt antagande om binomialfördelning är korrekt. Tips: Använd uttrycket för skattningen från uppgift (a) på den okända parametern p (om du gör det, hur blir då frihetsgraderna?). (2p) 6

Bioinformatik 7 Sekvensbioinformatik (a) För att utföra parvis sekvensjämförelse används en substitutionsmatris, till exempel en PAM120-matris. Vilka egenskaper är önskvärda hos en substitutionsmatris? (1p) (b) Vad är anledningen till att man använder olika substitutionsmatriser, exempelvis PAM40 och PAM120, vid parvis sekvensjämförelse? (1p) (c) Kan man generalisera Needleman-Wunsch algoritm för global parvis sekvensjämförelse till global multipel sekvensjämförelse? Vilka praktiska begränsningar nns isåfall? (2 p) 8 Strukturbioinformatik (a) What is the purpose of the DSSP program? Describe how main chain hydrogen bonds are calculated by DSSP. (2p) (b) In protein modelling, what is a side chain rotamer? How are side chain rotamers used in protein modelling? (2p) God Jul och lycka till! 7