Avd Matematisk statistik TENTAMEN I SF1911, STATISTIK FÖR BIOTEKNIK Torsdag den femte april 18 14:00-19:00 Examinator: Timo Koski, 072 14861 Kursledare: Timo Koski, 072 14861 Tillåtna hjälpmedel: Formel- och tabellsamling för SF1911, Mathematics Handbook Beta), hjälpreda för miniräknare, miniräknare Införda beteckningar skall förklaras och definieras Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa Numeriska svar skall anges med minst två siffrors noggrannhet Tentamen består av 8 uppgifter Varje korrekt lösning ger 4 poäng Gränsen för godkänt är preliminärt 16 poäng ev bonuspoäng inräknade) Möjlighet att komplettera ges för tentander med, preliminärt, 14 1 poäng Tid och plats för komplettering kommer att anges på kursens hemsida Det ankommer på dig själv att ta reda på om du har rätt att komplettera Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället Uppgift 1 En undersökning ville utreda effekten av extrakt av chinacea mot förkylning Alla deltagare i studien exponerar sig frivilligt för ett vanligt rhinovirus, ett litet RNA-virus som är mest känt för att orsaka vanlig förkylning Studien omfattar två olika behandlingar Några deltagare tog extrakt av chinacea from sju dagar före exponeringen och fortsatte med echinacea därefter Andra tog extrakt av chinacea samtidigt med exponeringen och fortsatte med echinacea därefter En tredje grupp av frivilliga exponerades men fick ingen behandling utan placebo Resultatet ges med en tabell över frekvenserna av de olika utfallen Förkylning, Ingen förkylning) fördelade över behandlingarna och placebo Förkylning Ingen förkylning Sju dagar före viral exponering med echinacea därefter 73 9 Efter viral exponering med echinacea därefter 88 43 Placebo ingen echinacea) 8 30 Din kollega räknar utifrån tabellen och får först siffran 62 % Hen blir dock starkt förkyld och måste sjukskriva sig utan att hinna berätta för andra vad denna siffra svarar mot a) En av följande utsagor i)-iv) är sann, vilken? Motivera Ditt svar 2 p) i) 62 % är den empiriska sannolikheten för diagnosticerat utfall, dvs den relativa frekvensen för förkylning
forts tentamen i SF1911 18-04-0 2 ii) 62 % är den empiriska sannolikheten för behandling iii) 62 % är den betingade empiriska sannolikheten för förkylning givet en behandling iv) 62 % är ett räknefel relaterat till förkylningenens förstadier b) Samma kollega granskade även gruppen som inte fick någon behandling Hen räknade fram den andra siffran 66 % En av följande utsagor i)-iv) är sann, vilken? Motivera Ditt svar 2 p) i) 66 % är den empiriska sannolikheten för diagnosticerat utfall, dvs den relativa frekvensen för antingen förkylning eller ingen förkylning ii) 66 % är den betingade empiriska sannolikheten för förkylning givet behandling iii) 66 % är den betingade empiriska sannolikheten för behandling givet utfall iv) 66 % är ett räknefel relaterat till förkylningens förstadier Uppgift 2 En stokastisk variabel X har fördelningsfunktionen 0 om x < 0, F X x) = x 3 om 0 x 1, 1 om x > 1 En av följande utsagor i)-iv) är sann, vilken? Motivera Ditt svar 4 p) i) EX) = 1 2 ii) EX) = 1 3 iii) EX) = 3 4 iv) EX) = 1 4 Uppgift 3 Tay-Sachs sjukdom är en autosomal recessiv genetisk störning Sjukdomen uppstår när skadliga mängder av gangliosider ansamlas i nervcellerna i hjärnan, vilket så småningom leder till en för tidig död av dessa celler Den orsakas av en enda genetisk mutation på HEXA genen på kromosom 1 Ett barn drabbas i och med att en defekt kopia av genen ärvs från båda föräldrarna När båda föräldrarna är bärare av denna mutation, är sannolikheten att ett barn till dem skall få Tay-Sachs sjukdom lika med 02 Anta att två föräldrar har denna mutation på HEXA genen De har eller planerar att ha) tre barn Vi bortser från förekomsten av identiska tvillingar Låt X = antalet barn till dessa föräldrar som har kommer att ha) Tay-Sachs sjukdom a) En av följande utsagor i)-iv) är sann, vilken? 2 p)
forts tentamen i SF1911 18-04-0 3 i) X Bin4, 1/4) ii) X Bin3, 1/4) iii) X Bin3, 1/3) iv) X N B3, 1/4) b) En av följande utsagor i)-iv) är sann, vilken? Motivera Ditt svar 2 p) i) Sannolikheten för att minst ett av deras barn har Tay-Sachs sjukdom = 068 ii) Sannolikheten för att minst ett av deras barn har Tay-Sachs sjukdom = 08 iii) Sannolikheten för att minst ett av deras barn har Tay-Sachs sjukdom = 048 iv) Sannolikheten för att minst ett av deras barn har Tay-Sachs sjukdom = 030 Uppgift 4 Kvinnor erbjuds regelbundna undersökningar med mammografi för att kunna upptäcka bröstcancer Om testet är positivt T +), dvs, visar indikationer av sjukdomen, återkallas kvinnan till ytterligare undersökningar Låt D+ beteckna händelsen att en kvinna har sjukdomen, och D beteckna händelsen att en kvinna inte har sjukdomen Vid en mammografi vet man att P T + D+) = 08 och P T + D ) = 01 Vi vet efter den senaste undersökningen att P D+) = sjukdomens prevalens = 0006 a) En av följande utsagor i)-iv) är sann, vilken? 1 p) i) Testets Sensitivitet = 089 ii) Testets Sensitivitet = 08 iii) Testets Sensitivitet = 082 iv) Testets Sensitivitet = 09 b) En av följande utsagor i)-iv) är sann, vilken? 1 p) i) Sannolikheten för T + = 0106 ii) Sannolikheten för T + = 01 iii) Sannolikheten för T + = 01603 iv) Sannolikheten för T + = 0104 c) Vi har att PPV = positive predictive value är definierad som P D + T +) En av följande utsagor i)-iv) är sann, vilken? 2 p) i) PPV = 0900 ii) PPV = 09000 iii) PPV = 00488 iv) PPV = 006
forts tentamen i SF1911 18-04-0 4 Uppgift Halten av bly får vara högst 0 ppm på en viss arbetsplats Vid mätning av halten uppkommer analysfel, varför ett mätresultat kan anses vara utfall på en stokastisk variabel, som är N µ, 13 2 ), där µ är den verkliga halten i ppm) σ 2 = 13 2 är ett mått på analysmetodens precision DATA och STATISTIKA: Vid en undersökning görs fem oberoende mätningar x i och x = 1 x i är det aritmetiska medelvärde av dessa fem mätningar Därmed beräknas ett konfidensintervall I µ för µ med [ I µ = x 196 13, x + 196 13 ] MODELL: x uppfattas som ett utfall av den stokastiska variabeln X = 1 X i och således uppfattas I µ som ett utfall av [ I µ = X 196 13, X + 196 13 ], som är ett intervall med slumpmässiga ändpunkter a) Om µ = 49, vad är fördelningen för X? 1 p) b) Allt anses vara lugnt ur blysynpunkt!), om I µ ligger helt till vänster om 0 Beräkna sannolikheten för detta om den verkliga halten µ är 49 ppm Jämför med konfidensgraden för I µ 3 p) Uppgift 6 Ärtbladlus Acyrthosiphon pisum) är en vinglös insektsart Ärtbladlusen är ett skadedjur i jordbruk, men har använts i forskning som modellorganism Den insekten kan tack vare gener från svampar producera sina egna karotenoider, vilket är unikt enligt Allt om Vetenskap) Ärtbladlössen sitter ofta i kolonier i ärtplantornas toppskott De låter sig falla ned när en fara nalkas, tex i form av rovdjur som nyckelpigor De förefaller att för det mesta landa på benen En grupp forskare har hängt upp ärtbladlöss i en upp och ner vänt position på finkonstruerade pincetter och sedan släppt dem ned Videobandningarna visar att 19 ärtbladlöss landade på benen Frågan är, huruvida denna observation ger stöd för hypotesen att en ärtbladlus landar rätt sida upp dvs på benen) pga en medfödd mekanism att rätta sig själv som hos en katt, mao oftare än vad som skulle vara fallet av en slump För att genomföra en statistisk analys av försöket ovan tänker vi enligt följande Populationen består av alla levande ärtbladlöss p är populationsparametern, den okända proportion av alla levande ärtbladlöss som landar på fötterna när de faller ned Om det är slumpen som avgör utfallet vid fallet, stipuleras det i vår analys att p = 0 a) Vi väljer som nollhypotes H o : p = 0 Vad bör vi ställa upp som mothypotesen? 1 p)
forts tentamen i SF1911 18-04-0 b) Teststatistikan är z = p p o p o1 p o Hur bör p väljas? Ge ett numeriskt värde 1 p) c) Vi vet att för rätt val av p är statistikan z ett utfall av en stokastisk variabel som är approximativt N 0, 1) Beräkna nu värdet på z samt testets p-värde Kommer nollhypotesen att förkastas på signifikansnivån 0001? Motivera Ditt svar Ifall Dnte vet svaret på b), får Du använda det felaktiga) värdet p = 01 2 p) Uppgift 7 För ett visst läkemedel gäller att mängden aktiv substans mg) i en tablett antas vara N 2, σ 2 ) Tabletterna ordineras patienterna i förpackningen som inhåller tabletter Mängderna aktiv substans i respektive tabletter anses vara oberoende av varandra Hur stor får σ högst vara om sannolikheten att mängden aktiv substans i en förpackning understiger 38 mg högst får vara 001? 4 p) Uppgift 8 I ett kemiskt försök avser man att mäta mängden kol i n prover som har vikterna u 1, u 2,, u n kända positiva tal) De exakta kolmängderna i de n proverna är βu 1, βu 2,, βu n där β är ett okänt tal Med den analysmetod man använder så kan man applicera följande statistiska metod MODELL: De uppmätta kolmängderna y 1, y 2,, y n i de n proverna är utfall av respektive oberoende stokastiska variabler Y 1, Y 2,, Y n, där Y i är N β, u 2 i ), i = 1, 2,, n MÅL: Skattning av β mha y 1, y 2,, y n och modellen a) Förklara varför likelihoodfunktionen Lβ) för β är lika med Lβ) = n ) 1 e 1 yi βu 2 i 2 2πui 1 p) b) Härled maximum-likelihood-skattningen av β som blir β ml = 1 n y i Ledning: Arbeta gärna med ln Lβ) 3 p) Lycka till!
Avd Matematisk statistik LÖSNINGSFÖRSLAG TENTAMEN I SF1911 STATISTIK FÖR BIOTEKNIK Torsdag den femte april 18 14:00-19:00 Uppgift 1 Det är 73 + 9 + 88 + 43 + 8 + 30 = individer med i undersökningen a) i) Det är 73 + 88 + 8 = 219 utfall av förkylning 219 062 är den relativa frekvensen för förkylning b) Alternativet i) stämmer Vi har följande i) ii) P förkylning ingen behandling) = Från tabellen har iv den relativa frekvensen och Detta ger P ingen behandling) = P förkylning och ingen behandling) P ingen behandling) 8 + 30 P förkylning och ingen behandling) = 8 P förkylning ingen behandling) = 8 8+30 = 8 0691 = 066 8 + 30 är den relativa frekvensen för förkylning bland de som inte fick någon behandling P förkylning behandling) = De empiriska sannolikheterna är och Detta ger P förkylning och behandling) = P behandling) = P förkylning och behandling) P behandling) 73 + 88 73 + 88 + 9 + 44 P förkylning behandling) = 161 264 = 161 = 264 = 161 264 = 060
forts tentamen i SF1911 18-04-0 2 iii) P behandling förkylning) = P förkylning och behandling) P förkylning) P förkylning) = 219 P behandling förkylning) = 161 219 = 074 Uppgift 2 iii) EX) = 3 Motiveringen är följande beräkning Vi vill beräkna värdet på 4 E[X] = + xf X x)dx, där f X x) är sannolikhetstäthetsfunktionen f X x) = d F dx Xx) Derivering ger 0 om x < 0, f X x) = 3x 2 om 0 x 1, 0 om x > 1 Detta medför E[X] = = 3 + 1 0 xf X x)dx = [ x x 3 4 dx = 3 4 1 0 ] 1 0 x 3x 2 dx = 3 4 Uppgift 3 a) iii) X Bin3, 1/4) b) ii) Sannolikheten för att minst ett av deras barn har Tay-Sachs sjukdom är P X 1) = 1 P X = 0) = 1 04219 08, där vi utnyttjade kursens tabell för Bin3, 1/4) i beräkning av P X = 0) Uppgift 4 a) ii) Testets Sensitivitet= P T + D+) = 08 b) iv) Sannolikheten för T + ges av lagen för total sannolikhet som P T +) = P T + D+)P D+) + P T + D )P D ) = P T + D+)P D+) + P T + D )1 P D )) = 08 0006 + 01 09940 = 0104
forts tentamen i SF1911 18-04-0 3 c) iii) PPV = 00488 Vi får detta medelst Bayes formel PPV= Positivt prediktivt värde = P D + T +) = P T + D+)P D+) P T +) = 08 0006/0104 ty P T +) = 0104 enligt del b) av uppgiften P P V = 08 0006/0104 = 00488 Uppgift a) Om µ = 49, så är fördelningen för X N 49, 13 2 /) b) Att I µ ligger helt till vänster om 0 innebär att den högra ändpukten till intervallet är mindre än 0, eller mao X + 196 13 < 0 Sannolikheten för detta är P X + 196 13 ) < 0 = P X < 0 196 13 ) = P X 49 13 < ) 13 0 49 196 = P 13 = Φ ) 1 196 13 13 X 49 13 ) 13 0 49 196 13 Svaret är = Φ 02399) = 1 Φ 02399) 1 0948 = 0402 Den sökta sannolikheten =041 Det dubbelsidiga konfindensintervallet har konfidensgraden 09, ty 196= λ 002 I detta fall är 09 lika med sannolikheten för att I µ skall täcka 49, vilket inte alltid innebär att I µ skall ligga till vänster om 0, varför det är klart att sannolikheten för att I µ ligger helt till vänster om 0 är mindre än 09 a) Vi väljer som nollhypotes och mothypotesen Uppgift 6 H o : p = 0 H 1 : p > 0 Detta görs pga att vi vill testa om den okända proportion av alla levande ärtbladlöss som landar på fötterna är större än vad som skulle i genomsnitt ge ett värde på 0 % som som landar på fötterna
forts tentamen i SF1911 18-04-0 4 b) Teststatistikan är Vi tar p = 19 z = p 0 01 0 = 09 Detta är maximum likelihoodskattningen av p Detta ger att är approximativt N 0, 1) Z = p 0 01 0 c) Från ovan z = p-värdet är för Z N 0, 1) 09 0 01 0 = 04 01 0 = 40249 P Z > 4029) = 1 Φ4029) 000002 I själva verket ligger Φ4029) utanför tabellen, men det räcker att svaret är ett mycket litet tal av ovanstående storleksordningen Eftersom p-värdet är mindre än den på förhand valda signifikansnivån 0001, förkastas nollhypotesen Uppgift 7 Sätt X i = mängden aktiv substans mg) i en tablett, så att X i N 2, σ 2 ) Mängden aktiv substans i en förpackning som inhåller tabletter är X i N 40, σ 2 ), ty mängderna aktiv substans i respektive tabletter anses vara oberoende av varandra Det gäller att bestämma σ så att P X i 38) 001 Vi har att ) P X i 38) = P X ) i 40 σ 38 40 38 40 σ = Φ σ, ty X i 40 σ N 0, 1) Således måste σ uppfylla Φ ) 38 40 σ 001 Observera att tabell 2 i tabellsamlingen ger för Z N 0, 1) ett tal λ 001 så att P Z λ 001 ) = 001 och λ 001 = 23263 Men här är vi engagerade av en händelse i svansen till vänster om origo, ) 38 40 P Z σ 001 Symmetrin ger se figuren i tabell 2) P Z λ 001 ) = 001
forts tentamen i SF1911 18-04-0 Detta ger pga att Φx) är en monotont växande funktion att Detta medför samt att vilket är ekvivalent med σ Således måste σ uppfylla σ 0192 38 40 σ λ 001 38 40 23263 σ 2 23263 σ 2 = 0192 23263 Uppgift 8 a) Eftersom f Yi y) = 1 ) e 1 y βui 2 2 2πui Så fås likelihoodfunktionen som produkten vilket kan skrivas som b) Detta ger vilket medför att Sätter vi d ln Lβ) dβ 1 2 ln Lβ) = ln d ln Lβ) dβ Lβ) = f Y1 y 1 ) f Y2 y 2 ) f Yn y n ) = = 0 fås yi β 2 n n y i = β = 0 1 2 ) 1 e 1 yi βu 2 i 2 2πui 1 2πui ) 1 2 yi β ) 2 ) yi β 2 u ) i ) u ) i = 0 1 = βn) β = 1 n y i β = 0 Eftersom man lätt visar att extremvärdet är ett maximum så gäller att maximumlikelihood-skattningen av β är y i vilket skulle visas β = 1 n y i,