BIOSTATISTISK GRUNDKURS



Relevanta dokument
BIOSTATISTISK GRUNDKURS

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Laboration 4 R-versionen

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Föreläsning 12: Regression

BIOSTATISTIK att hantera slumpmässiga variationer BIO STATISTIK. data handlar om levande saker

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Uppgift a b c d e Vet inte Poäng

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Laboration 4 Regressionsanalys

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Resultatet läggs in i ladok senast 13 juni 2014.

Lektionsanteckningar 11-12: Normalfördelningen

Industriell matematik och statistik, LMA /14

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

F3 Introduktion Stickprov

, s a. , s b. personer från Alingsås och n b

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Matematisk statistik för D, I, Π och Fysiker

Medicinsk statistik II

Uppgift a b c d e Vet inte Poäng

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

0 om x < 0, F X (x) = c x. 1 om x 2.

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Binomialfördelning, två stickprov

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Matematisk statistik för B, K, N, BME och Kemister

TMS136. Föreläsning 13

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

F13 Regression och problemlösning

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

FÖRELÄSNING 8:

Tentamen i Matematisk statistik Kurskod S0001M

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen i Matematisk statistik Kurskod S0001M

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Föreläsning 12, FMSF45 Hypotesprövning

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Avd. Matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

TENTAMEN I STATISTIKENS GRUNDER 2

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen i Matematisk statistik Kurskod S0001M

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

SF1901 Sannolikhetsteori och statistik I

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik för B, K, N, BME och Kemister

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Extrauppgifter i matematisk statistik

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen MVE302 Sannolikhet och statistik

TENTAMEN I MATEMATISK STATISTIK

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 12: Linjär regression

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Examinationsuppgifter del 2

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Laboration 4: Hypotesprövning och styrkefunktion

Några extra övningsuppgifter i Statistisk teori

Föreläsning 12: Repetition

1 Grundläggande begrepp vid hypotestestning

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Föreläsning 7: Punktskattningar

Laboration 2: Styrkefunktion samt Regression

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Avd. Matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Transkript:

BIOSTATISTISK GRUNDKURS ÖVNINGSMATERIAL VT 2011 Naturvetenskaplig fakultet Matematikcentrum Matematisk statistik CENTRUM SCIENTIARUM MATHEMATICARUM

Övningsmaterial 1 Övningsuppgifter 1. I en stor befolkning har 3 % reumatism. Vi väljer två individer, A och B, slumpmässigt. (a) Vad är sannolikheten att både A och B har reumatism? (b) Vad är sannolikheten att minst en av dem har reumatism? (c) Vad är sannolikheten att ingen av dem har reumatism? (d) Vad är sannolikheten att precis en av dem har reumatism? 2. På en arbetsplats skadas 1 % av personalen under ett år. Vi vet att 40 % av alla skadade var kvinnor och att 30 % av de anställda var kvinnor. Vad är sannolikheten att en kvinnlig anställd råkar ut för en skada enligt denna undersökning? 3. På ett arbetsplats finns 110 personer, varav 50 är kvinnor. Genom en enkät har man fått reda på vilka som är vegetarianer. Uppdelat på män och kvinnor är det Vegetarianer Ej vegetarianer Män 25 35 Kvinnor 32 18 En av de anställda väljs ut slumpmässigt. (a) Beräkna sannolikheten för att personen är vegetarian. (b) Antag att man vet att en kvinna valdes. Vad är sannolikheten för att hon är vegetarian? (c) Är händelserna kvinna väljs och vegetarian väljs oberoende? Motivera svaret. 4. I en dal finns två fabriker som båda, oberoende av varandra, vissa dagar använder en kemisk process som ger upphov till att toxiska föroreningar sprids i luften. Användandet beror inte på veckodag eller säsong. Fabrik A använder den kemiska processen 150 dagar av de totalt 260 arbetsdagarna under ett år medan fabrik B gör det under 30 dagar. (a) Vad är sannolikheten att fabrik A sprider föroreningen i dalen en given arbetsdag? (b) Vad är sannolikheten att den toxiska föroreningen sprids i dalen en given arbetsdag? (c) Vad är sannolikheten att föroreningen inte sprids i dalen under en arbetsvecka om fem dagar? (d) Vad är sannolikheten att den toxiska föroreningen sprids i dalen minst en dag under en arbetsvecka om fem dagar? (e) En viss dag visar mätningar att den toxiska föroreningen finns i dalen, vad är sannolikheten att det var fabrik A som gjorde utsläppet? 5. Ett nytt test för att avslöja en allvarlig sjukdom har tagits fram. Det ger positivt utslag med sannolikheten 0.99 om personen har sjukdomen fast med sannolikheten 0.05 även om personen inte har den. Det anses vara känt att 1 % av patientmaterialet har sjukdomen. (a) Beräkna den intressanta sannolikheten att en patient har sjukdomen om testet är positivt. (b) Vilken egenskap hos testet ska man försöka ändra för att få en högre sannolikhet i a)? Ska man försöka få 0.05 att bli 0 eller 0.99 att bli 1? (c) Antag att testet istället används i ett land där 50 % har sjukdomen. Vilket svar ger då frågan i (a)? 6. En medicin ger upphov till biverkan med sannolikhet 0.20. Man ger denna medicin till 30 patienter. (a) Vad är sannolikheten att minst en patient får biverkan? (b) Vad är det förväntade antalet patienter som får biverkan?

2 Biostatistisk grundkurs 7. I ett land är sannolikheten att smittas av HIV vid blodtransfusion 1 %. Antag att en person får blodtransfusion vid 20 tillfällen. Vad är sannolikheten att denna individ smittas någon gång med HIV genom blodtransfusion? 8. Antalet fall av leukemi i en befolkning kan ofta modelleras med hjälp av en poissonfördelning. Genom att jämföra med nationella cancerregistret förväntar man sig, under en viss tidsperiod, 9 fall i ett område. (a) Vad är sannolikheten att man observerar exakt 9 fall i området? (b) Vad är sannolikheten att man observerar minst 9 fall i området? (c) Inför statistikdelen i kursen: I området observerade man 19 fall. Tyder detta på att området är mer drabbat av leukemi än resten av landet? 9. Antalet jordskalv under ett år i ett område anses vara poissonfördelat med parameter Ð, dvs om X = antalet jordskalv under ett år gäller X Po(Ð). (a) Gör en konkret tolkning av parametern Ð. (b) Antag att Ð = 1.6. Vad är sannolikheten för högst 2 jordskalv under ett år? (c) Antag att Ð = 1.6. Vad är sannolikheten för ett jordskalvsfritt decennium i området? 10. Från en busshållplats går punktligt en buss var 10:e minut. Du kommer till busshållplatsen vid en slumpmässigt vald tidpunkt, låt X = din väntetid. En lämplig modell är att X är rektangelfördelad (likformigt fördelad) i inter vallet (0, 10). Det innebär att täthetsfunktionen är f (x) = 1 10 då 0 x 10 och 0 för alla andra värden på x. Nedan är täthetsfunktion och motsvarande fördelningsfunktion ritade. 0.15 Täthetsfunktion f(x) 0.1 0.05 0 0.05 0 2 4 6 8 10 x väntetid Fördelningsfunktion F(x) 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 x väntetid (a) Vad är sannolikheten att du får vänta mindre än 2 minuter, d.v.s. vad är P(X 2)? Markera hur sannolikheten kan beräknas i de båda figurerna. (b) Vad är sannolikheten att du får vänta mer än 7 minuter, d.v.s. vad är P(X > 7)? Markera hur sannolikheten kan beräknas i de båda figurerna. (c) Vad är sannolikheten att du får vänta mellan 3 och 8 minuter, d.v.s. vad är P(3 X 8)? Markera hur sannolikheten kan beräknas i de båda figurerna. (d) Vad är den förväntade väntetiden Ñ? 11. Från en stor population av kvinnor mellan 30 44 år valdes slumpmässigt 225 och deras serumkolesterolhalt (mmol/l) mättes: 5.62 5.77 3.89 5.41 6.37... 6.05 3.90 5.99

Övningsmaterial 3 Man ville undersöka om man kunde beskriva serumkolesterolhalten i den ursprungliga populationen med en lämplig statistisk standardmodell. När man ritade de 225 värdena i ett histogram (översta grafen i figuren nedan) såg man att en normalfördelning förmodligen var en rimlig modell (mittersta grafen). I understa grafen är täthetsfunktionen, f (x), för denna normalfördelning ritad. 40 30 antal 20 10 0 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 serumkolesterol 40 30 antal 20 10 0 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 serumkolesterol Täthetsfunktion f(x) 0.6 0.4 0.2 0 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 serumkolesterol Ett annat sätt att beskriva fördelningen är att rita kumulativ relativ frekvens för de 225 värdena (översta grafen i figuren nedan). Underst är fördelningsfunktionen, F(x), för normalfördelningen uppritad. 1 Kumulativ relativ frekvens 0.8 0.6 0.4 0.2 0 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 serumkolesterol 1 Fördelningsfunktion F(x) 0.8 0.6 0.4 0.2 Från den angivna modellen: 0 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 serumkolesterol (a) Vad är populationsmedelvärdet Ñ? Markera det i figurernas båda understa grafer. (b) Uppskatta sannolikheten att serumkolesterolhalten understiger 6.5 mmol/l. Markera hur sannolikheten beräknas i figurernas båda understa grafer. (c) Uppskatta sannolikheten att serumkolesterolhalten överstiger 6 mmol/l. Markera hur sannolikheten beräknas i figurernas båda understa grafer. (d) Uppskatta den serumkolesterolhalt som överstigs av 20 % av populationen. Markera halten i figurernas båda understa grafer. (e) Uppskatta standardavvikelsen,, i normalfördelningen.

4 Biostatistisk grundkurs 12. I en population av ammande kvinnor är retinol (A-vitamin) i serum approximativt normalfördelad med väntevärde 1.3 mikromol/l och standardavvikelsen 0.4 mikromol/l. (a) Hur stor andel kvinnor har en retinolnivå mellan 1.0 och 2.0 mikromol/l? (b) Ange den retinolnivå som överstigs av 2.5 % av kvinnorna. 13. Antag att fasteblodsockernivån är normalfördelad med förväntat värde (populationsmedelvärde) 4.6 mmol/l och standardavvikelsen 1.1 mmol/l. (a) Diagnosen diabetes definieras som fasteblodsockervärden som är större än 6.7 mmol/l enligt WHO. Hur stor andel av befolkningen skulle bli klassificerad som diabetiker enligt denna definition? (b) Det är vanligt att fasteblodsockernivån ligger mellan 4.0 och 6.0 mmol/l. Hur stor andel av befolkningen har värden som ligger inom detta intervall? (c) Antag att vi är intresserade av att undersöka personer med de allra högsta värdena på blodsockret, nämligen de som ligger över den 99:e percentilen. Vilket blodsockervärde bör dessa personer minst ha? 14. I marsklandet på sydöstra Jylland ligger stora områden under havsytans nivå skyddade av vallar. Det maximala vattenståndet under ett år vid Höjer räknat från en given referensnivå kan antas vara normalfördelat med väntevärde 300 och standardavvikelse 75 (enhet: cm). Skyddsvallarnas höjd är 500 cm över referensnivån. Översvämning inträffar när vattenståndet når över skyddsvallarna. (a) Beräkna sannolikheten för översvämning ett år. (b) Beräkna sannolikheten för minst en översvämning under 100 år. 15. Om bakteriehalten i dricksvatten överstiger 60 enheter anses det otjänligt. Bakteriehalten en slumpmässigt vald dag kan modelleras med hjälp av en normalfördelning med väntevärde Ñ och standardavvikelse 7 enheter. (a) Man tar ett vattenprov och bedömmer vattnets kvalité efter detta. Antag att Ñ är 50, vad är sannolikheten att dricksvattnet bedöms otjänligt? (b) Man överväger att ändra provtagningen genom att basera bedömningen på medelvärdet av tre oberoende prover av bakteriehalten. Beräkna nu sannolikheten att dricksvattnet anses otjänligt om ett prov kan modelleras enligt N (50, 49). 16. Ett företag köper ammoniaklösning som skall ha en ammoniakhalt på 20 %. Vid ankomstkontrollen gör man tre oberoende mätningar av halten. Om summan av de tre halterna understiger 59 %, så slår laboratoriet larm, och partiet undersöks noggrannare. Antag att den sanna ammoniakhalten verkligen är 20 % i en sändning, och att en bestämning av halten varierar enligt N(20, 0.04). Vad är sannolikheten att laboratoriet ändå slår larm? 17. Vikten (enhet: gram) hos en slumpmässigt vald magnecyltablett är en s.v. med väntevärdet 0.65 och standardavvikelsen 0.02. (a) Beräkna väntevärdet och standardavvikelsen för sammanlagda vikten av 100 magnecyltabletter (antag deras vikter är oberoende). (b) Beräkna med hjälp av centrala gränsvärdessatsen approximativt sannolikheten att 100 magnecyltabletter väger högst 65.3 g. 18. En laboratorieassistent utför en viss rutinmätning ett stort antal gånger under en arbetsdag. Han har noterat att 50 % av mätningarna tar 1 minut att genomföra, 40 % tar 2 minuter medan resten tar 3 minuter. Han tror inte att arbetet under dagens lopp påverkas av inlärningseffekter eller förtröttningseffekter. Låt X = antal minuter att genomföra en mätning.

Övningsmaterial 5 (a) Vad är sannolikhetsfunktionen för X? (b) Bestäm E(X ) och Var(X ). (c) Vad är sannolikheten att han hinner med 100 mätningar på mindre än 170 arbetsminuter? 19. Man studerar vikten hos 10-åriga flickor i Lund och antar att vikterna kan beskrivas av en N (Ñ, 2 ). För att estimera populationsmedelvärdet Ñ, väljer person A slumpmässigt ut 20 flickor, väger dem och beräknar sedan medelvärdet x. Person B väljer ut 40 flickor och motsvarande medelvärde betecknas ȳ. Båda personerna har då gjort var sin estimator av Ñ. (a) Vad är standard error of mean för A:s estimator, d.v.s. beräkna Var( x). (b) Vad är standard error of mean för B:s estimator? Vem av de två har den effektivaste estimatorn, d.v.s. den estimator som har minst varians? (c) A säger till B: Om vi ska kombinera våra skattningar till en gemensam kan vi ta uttrycket c 1 x + c 2 ȳ men då bör vi ha ett villkor på konstanterna c 1 och c 2, nämligen att c 1 + c 2 = 1. Har A rätt? 20. Från laboration pipetteringsövning i kursen cellbiologi: För att kalibrera en Gilsonpipett användes pipettinställningen 200 (Ñl). Vid fem mätningar användes en analysvåg för att registrera vikten av vattnet som kom från pipetten. Eftersom vattnets densitet vid 20 C är 0.998 (g/ml) kunde man med en enkel division, för varje försök, bestämma volymen vatten från pipetten. Resultat: Pipettinställning (Ñl) Volymmätning (Ñl) 200 208.3 203.3 210.5 201.2 205.4 (a) Ange medelvärde, standardavvikelse och variationskoefficient för de fem mätningarna. (b) Ange medelfelet ( standard error of the mean ) för medelvärdet. (c) Antag att mätningarna varierar enligt en normalfördelning som är centrerad kring Ñ, där Ñ tolkas som den förväntade volymen hos pipetten när den är inställd på 200 (Ñl). Bestäm ett 95 % konfidensintervall för Ñ. (d) Använd resultatet i (c) för att avgöra om pipetten verkar vara felinställd. 21. Man vill undersöka halten av bly på en viss arbetsplats. Vid mätning av halten uppkommer ett analysfel varför ett mätresultat kan anses vara ett utfall av en slumpvariabel som är N (Ñ, 1.3 2 ) där Ñ är den verkliga halten (i ppm) och standardavvikelsen = 1.3 är ett mått på analysmetodens precision. Vid en undersökning görs fem oberoende mätningar och man får följande resultat 48.35 46.50 49.19 49.43 47.28 (a) Gör ett tvåsidigt 95 % konfidensintervall för Ñ. (b) Ur de anställdas synpunkt är det mer intressant att studera ett ensidigt konfidensintervall. Vilken typ av intervall är det? Beräkna intervallet. 22. En forskare har konstruerat ett konfidensintervall för 15 olika okända parametrar. Varje konfidensintervall har konfidensgraden 0.90 och alla intervallen härrör från av varandra oberoende mätserier. Vissa av konfidensintervallen i bästa fall alla är korrekta, d.v.s. innehåller den avsedda parametern, medan något eller några nog missar sitt mål. Vilka av de 15 intervallen som missar vet man inte, men man kan överväga hur många intervall som rimligen kan vara fel. (a) Om man använder den beskrivna metoden, hur stor är sannolikheten att vart och ett av de 15 intervallen innehåller den avsedda parametern? (b) Vilket är det mest sannolika värdet på antal intervall som missar den avsedda okända parametern?

6 Biostatistisk grundkurs 23. Gräns för rattonykterhet är 0.2 promille. Vid trafikkontroll görs på varje person tre mätningar av alkoholhalten i blodet, x 1,...,x 3. Som modell antar man att de tre mätningarna är observationer från en normalfördelning N(Ñ, 2 ) där Ñ är genomsnittlig alkoholhalt i blodet och är ett mått på mätmetodens precision. Från ett stort antal tidigare mätningar tror man sig veta att = 0.07. När mätningar gjordes på Kalle visade det sig att medelvärdet av hans alkoholhalter var 0.27. (a) Problemet om Kalle ska dömas eller inte kan angripas med hjälp av ett hypotestest, sätt upp lämplig nollhypotes och mothypotes. (b) Utför testet antingen med hjälp av ett konfidensintervall, med en testkvantitet eller med hjälp av ett prob-värde. Var noga med att ange vilka dina slutsatser från testet är. 24. Man valde slumpmässigt ut 50 stycken 10-åriga flickor i Skåne och mätte deras vikt. Undersökningen gav x = 35.3 kg och s = 3.75 kg. (a) Gör ett 95 % konfidensintervall för förväntad vikt (populationsmedelvärde) hos 10-åriga skåneflickor. Normalfördelade vikter är ett rimligt antagande. (b) Antag att för 10-åriga flickor i Sverige gäller att förväntad vikt är 33.5 kg. Kan man anse att skåneflickor väger annorlunda än populationsmedelvikten? (c) Under samma förutsättningar som i (b), kan man anse att skåneflickor väger mer än populationsmedelvikten? 25. Vid en hälsoundersökning mätte man kolesterolvärdet (mmol/l) hos 168 slumpmässigt urvalda kvinnor samtidigt som deras yrke noterades: Antal Medelvärde Standardavvikelse Arbetare 102 6.0 1.3 Tjänstemän 66 5.6 1.2 (a) Tyder data på att det finns en skillnad i kolestrolhalt mellan de två grupperna? Vilka antaganden om data gör du i analysen? (b) Finns det någon annan variabel som du skulle vilja mäta i denna undersökning? 26. Daghemmet Bullerbyn är beläget nära en kraftigt trafikerad väg. I samma stad, men omgiven av ett stort grönområde, är daghemmet Ängslyckan placerad. Från vart och ett av de två daghemmen valde man slumpmässigt ut fem barn och mätte deras halt av bly i blodet: Blykoncentration (ng/ml) Bullerbyn 0.93 0.63 1.21 1.30 0.58 Ängslyckan 0.96 0.43 0.93 0.85 0.48 Man misstänker att den genomsnittliga blykoncentrationen i blodet är högre hos Bullerbybarn än hos barn från Ängslyckan. Undersök om denna misstanke är befogad genom att göra ett lämpligt konfidensintervall. Antag att variationen i blyhalt inom ett daghem är normalfördelad med en varians som antas vara den samma för de två daghemmen. 27. Vid en undersökning av alkohols inverkan på reaktionstiden på 6 slumpmässigt utvalda personer fick man följande resultat (tid i sekunder) före alkohol 0.15 0.10 0.10 0.25 0.25 0.05 efter alkohol 0.55 0.60 1.00 0.55 0.55 0.35 Vad kan man säga om hur reaktionstiden påverkas av alkohol? Vad gör du för antaganden i analysen? 28. Man vet av erfarenhet, när det gäller blodgrupper, att av svenskar är ca 15 % s.k. Rh-negativa. I ett stickprov om 75 personer med en viss blodsjukdom var 20 % Rh-negativa.

Övningsmaterial 7 (a) Konstruera ett 95 % konfidensintervall för andelen Rh-negativa med blodsjukdomen och tolka intervallet. (b) Var andelen Rh-negativa annorlunda bland personer med sjukdomen än bland friska personer? 29. I en influensaepidemi blev 532 barn i en skola med 1264 elever sjuka. Uppskatta, med ett konfidensintervall, sannolikheten att ett barn fick influensa. 30. Sedan länge har man använt det smärtstillande medlet A efter operation och noterat att det fungerade bra för 80 % av patienterna. Nu vill man pröva medlet B som anses vara bättre. Av de 200 patienter som fick B kände 170 en lindring av smärta. Är det från dessa data motiverat att byta smärtlindringsmedel? 31. Man ville göra en jämförelse mellan två olika läkemedels botande förmåga. Sammanlagt 110 patienter med urinvägsinfektion förosakad av en viss bakterie ingick i försöket. Antibiotikum A gavs till 60 kvinnor varav 80 % blev friska. Antibiotikum B gavs till 50 kvinnor varav 60 % blev botade. Kan vi påstå att det finns någon skillnad mellan andelen botade med de respektive läkemedlen? 32. Vid ett försök med en viss medicinsk behandling registreras för varje patient hurvida patienten förbättras eller inte efter behandlingen. När data om n = 10 patienter insamlats visar det sig att åtta av dem förbättrats. Tyder dessa data på att behandlingen är effektiv, d.v.s. kan vi anta att p > 0.5 där p = P(en patient förbättras)? 33. Antalet personer i en population som under ett år drabbas av en viss typ av cancer är poissonfördelat med ett väntevärde som beror på ålders- och könssammansättningen och om populationen är (eller har varit) utsatt för någon extra riskfaktor eller ej. Man misstänker att arbetare i en viss kemisk industri har större risk att få lungcancer än svensken i gemen och tar därför reda på antalet inträffade fall under perioden 1978 1988. Man finner att 14 personer drabbats mot ett förväntat antal på 7.5, om risken varit lika med genomsnittsrisken i Sverige. Testa på nivån 5 % nollhypotesen att fabrikens arbetare har samma risk som genomsnittssvensken att få lungcancer mot att risken är högre. 34. För ett antal år sedan slog en lundaläkare larm i en brett upplagd tidningsartikel om att i ett område i Lund, beläget i närheten av en kemisk industri, var antalet fall av en sällsynt cancersjukdom ovanligt stort. I det aktuella området hade nio personer (sex kvinnor och tre män) drabbats av sjukdomen under en femårsperiod. Då läkaren studerade det rikstäckande cancerregistret såg han att i en population lika stor som den i det aktuella området borde man under denna femårsperiod förväntat sig att antalet sjukdomsfall skulle vara fyra. (a) Undersök om det aktuella lundaområdet är speciellt drabbat av cancersjukdomen genom att göra ett test på 5 %-nivån. Du får anta att antalet cancerfall under tidsperioden är poissonfördelat. (b) Läkaren förvånades över att företrädesvis kvinnor drabbades av sjukdomen men presenterade i tidningen en medicinsk teori. Vad är din reaktion? Ger denna undersökning stöd för att kvinnor är mer drabbade än män? Motivera tydligt ditt svar genom att t.ex. göra ett lämpligt test. Ange tydligt noll- och mothypotes. 35. Varje individ i en viss population hör i genetiskt hänseende till en av fyra kategorier K 1, K 2, K 3, K 4. Teoretiskt skall de fyra kategoriernas storlekar förhålla sig som 9 : 3 : 3 : 1. Vid en undersökning av 160 slumpmässigt utvalda ur populationen fick man följande resultat: kategori K 1 K 2 K 3 K 4 frekvens 78 42 27 13 Hur många individer skulle man vänta sig att få i respektive kategori om teorin är riktig? Hur stor blir den testkvantitet med vars hjälp man kan testa om (med lättbegripliga beteckningar) H 0 : p 1 = 9/16, p 2 = p 3 = 3/16, p 4 = 1/16 är sann? Utför testet på nivån 0.01.

8 Biostatistisk grundkurs 36. I en enkät till ett slumpmässigt urval skolbarn i åldrarna 8 13 år (n = 241) ställdes bl.a. frågan Känner du dig ensam? med svarsalternativen Aldrig, Sällan, Ibland och Ofta. Studien skall ge svar på hurvida det är någon skillnad mellan pojkars och flickors ensamhetskänsla. Svarsfördelningen blev: Svar Pojkar Flickor Totalt Aldrig 47 27 74 Sällan 62 41 103 Ibland 20 34 54 Ofta 6 4 10 Totalt 135 106 241 Tyder data på att det finns en skillnad mellan pojkar och flickor i sjävrapporterad ensamhetskänsla? 37. Från laboration Proteinbestämning enligt Bradfordmetoden i kursen cellbiologi. I laborationen undersöktes absorbansen hos prov med olika spädningar av Bovint Serum Albumin (BSA)-standard. En laborationsgrupp uppmätte följande värden: Konc (mg/l) Absorbans 0 0.3749 0 0.3976 20 0.4046 20 0.4196 40 0.4268 60 0.4403 60 0.4504 80 0.4406 100 0.4829 100 0.4744 Enligt Lambert-Beers lag gäller att absorbansen (A) kan beskrivas som en linjär funktion av koncentrationen (c): A = k c där konstanten k beror på ämnets molära absorptionskoefficient vid en viss våglängd samt kyvettens längd. Vid mätningar får man naturligtvis räkna med en viss slumpmässig variation, en rimlig modell är att absorbansen vid mätning nr i, A i, beskrivs linjärt av koncentrationen c i plus ett slumpmässigt fel: A i = 0 + 1 c i + e i där e i är oberoende och e i N(0, 2 ). Här motsvaras konstanten 1 av den tidigare k medan 0 är absorbansen i den lösning som BSA:n är löst, (buffert eller vatten). (a) Undersök om den linjära regressionsmodellen ovan är rimlig att anpassa till data. (b) Om värdet på 0 är signifikant skilt från noll, hur ska vi tolka detta? (c) Hur mycket ökar absorbansen då man ökar koncentrationen en enhet? Ange ett 95% konfidensintervall för denna storhet. (d) Vad är genomsnittlig absorbans för prov med koncentration 50 (mg/l)? Ange ett 95 % konfidensintervall för denna storhet. (e) Vi har ett prov med koncentration 50 (mg/l). Ange ett 95 % prediktionsintervall för absorbansen i just detta prov. (f) Huvudsyftet med mätningarna var att erhålla en standardkurva för hur absorbansen påverkas av koncentrationen. Anta att vi på ett prov med okänd koncentration c 0 uppmätte absorbansen 0.43. Ange ett 95 % kalibreringsintervall för c 0. 38. I en studie av riskfaktorer för typ-2 diabetes undersöktes män i åldern 35 55 år. Nedan ges värden på diastoliskt blodtryck och ålder för ett urval av 30 av dessa män:

Övningsmaterial 9 Ålder 48 49 50 41 41 47 55 55 55 54 Blodtryck (mm Hg) 75 80 70 65 80 75 90 100 95 80 Ålder 55 40 49 53 51 50 40 52 43 45 Blodtryck (mm Hg) 80 90 70 80 70 80 75 90 80 80 Ålder 46 47 44 48 38 50 38 37 47 49 Blodtryck (mm Hg) 80 70 80 70 80 90 70 80 80 100 Man analyserade data enligt enkel linjär regression och fick följande datorutskrifter. ANOVA-tabell: Model Sum of df Mean square F Sig Squares Regression 304.730 1 304.730 4.225 0.049 Residual 2019.437 28 72.123 Total 2324.167 29 Skattning av koefficienter: Skattning Std.error t sig. Konstant 52.425 13.585 3.859 0.001 Ålder 0.587 0.286 2.056 0.049 Några figurer: Överst skattad linje med 95 % konfidensintervall för linjen samt prediktionsintervall för enstaka värde; nederst till vänster ses en residualplot mot ålder; nederst till höger visas residualer i normalfördelningsdiagram 110 Linear Regression 100 90 blodtryck 80 70 60 50 35 40 45 50 55 60 alder Residuals Normplot of Residuals 20 10 0 10 20 35 40 45 50 55 0.999 0.997 0.98 0.99 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.01 0.02 0.003 0.001 20 10 0 10 20 (a) Ange den antagna modellen. (b) Är det rimligt att anta denna modell? (c) Vad är skattningen av 0 interceptet i regressionslinjen? Vad är tolkningen av denna skattning? (d) Vad är skattningen av 1 lutningen i regressionslinjen? Vad är tolkningen av denna skattning?

10 Biostatistisk grundkurs (e) Vad är skattningen av modellens? Hur påverkas denna skattning om observationerna ligger mer samlade kring linjen? (f) Vad kan du säga om hur mycket blodtrycket ökar, i genomsnitt, när en man blir ett år äldre i det aktuella åldersintervallet? (g) Vad är det förväntade blodtrycket hos en man i 50-årsåldern? (h) Vad skulle du säga det förväntade blodtrycket hos en man i 20-årsåldern är? (i) Du ska mäta blodtrycket på 50-årige Anders. Mellan vilka värden kommer hans blodtryck att ligga med 95 % sannolikhet? (j) Blodtrycket påverkas naturligtvis även av andra faktorer än ålder uppskatta hur stor del av variationen i blodtrycket vi förklarat med faktorn ålder? 39. Man ville testa hurvida uppgifter om vikt givna i en enkät stämmer med verkliga viktuppgifter. Därför genomfördes ett test bland kvinnor i åldrarna 35 54 år anställda i en viss organisation. I en enkätundersökning inkluderades frågor om bl.a. längd och vikt. Kort tid efter det att enkätsvaren lämnats, togs kvinnorna in för provtagning av företagshälsovården. Då kontrollerades även vikten. Om viktuppgiften från enkäten är y-variabel och den verkliga vikten x-variabel, erhölls följande resultat för sambandet mellan de båda viktuppgifterna. Båda vikterna anges i kg och variationsområdet är 44 106 kg. n = 84; r = 0.82; y = 12.0 + 0.78x (a) Om det varit perfekt överensstämmelse mellan verklig vikt och uppgiven vikt, vad borde vi fått för värden på r samt på 0 och 1 i linjen? (b) Gör en tolkning av hur väl viktuppgifterna från enkäten stämmer med den verkliga vikten. 40. In an investigation of the relationship between body weight and lung capacity, LC, (estimated by spirometer) a student obtained the following results with a randomly selected group of Caucasian females between 17 and 19 years old. Subject 1 2 3 4 5 6 7 8 9 10 Wt (kg) 54.4 56.2 49.0 63.5 60.8 59.9 62.6 62.1 52.2 50.8 LC (l) 3.87 3.26 2.14 4.13 3.44 2.78 2.91 3.33 3.20 2.17 Subject 11 12 13 14 15 16 17 18 19 20 Wt (kg) 57.2 48.1 54.0 50.8 49.9 46.3 59.0 56.2 61.2 53.1 LC (l) 3.13 2.47 3.03 2.88 2.65 2.03 3.21 3.45 3.61 2.53 Plot these results as a scatter diagram, examine the nature of the relationship and test its significance by computing the correlation coefficient, r.

Svar 11 Svar 1. (a) 0.0009 (b) 0.0591 (c) 0.9409 (d) 0.0582 2. 0.0133 57 3. (a) 110 (b) 32 50 (c) Nej, eftersom P(veg) P(kvinna) P(veg kvinna) 4. (a) P(A) = 150 260 (b) P(toxisk förorening sprids i dalen) = P(minst en av fabrikerna sprider föroreningar) = = 150 260 + 30 260 150 260 30 260 = 0.626 (c) (1 0.626) 5 = 0.007 (d) 1 (1 0.626) 5 = 0.993 150 260 (e) 0.626 = 0.922 5. (a) Pos: Positivt utslag, S: Sjuk, S : Frisk. P(Pos S) P(S) Sökt: P(S Pos) = P(Pos S) P(S) + P(Pos S ) P(S ) = 0.99 0.01 0.99 0.01 + 0.05 0.99 = 1 6 (b) Om man lyckas ändra 0.05 till 0 fås den sökta sannolikheten till 1. En ändring av 0.99 (obs. inte den som har med 99 % av patienterna att göra) till 1 ger att den sökta sannolikheten ökar från ca 0.167 till ca 0.168. Dessvärre går det nog inte i verkligheten att minska antalet falsklarm utan att minska chansen till önskade larm. (c) Den sökta sannolikheten blir då (samma resonemang som i a) fast andra värden) 0.99 0.50 0.99 0.50 + 0.05 0.50 0.952. 6. (a) 0.9988 (b) Förväntat antal med biverkan är 6 (c) Standardavvikelsen är 2.19 7. 0.1821 8. (a) 0.1318 (b) 0.5443 (c) P(observera minst 19 fall om det förväntas 9) = 0.0024 9. (a) Ð tolkas som det förväntade antalet jordskalv under ett år. (b) P(högst 2 jordskalv under ett år) = 0.783 (c) P(jordskalvsfritt decennium) = 0.202 10 = 1.13 10 7 10. (a) 0.2 (b) 0.3

12 Biostatistisk grundkurs (c) 0.5 (d) 5 minuter 11. (a) Ñ = 5.5 (b) Ungefär 0.90 (c) Ungefär 0.25 (d) Ungefär 6.2 mmol/l (e) Ungefär 0.75 12. (a) 73.3 % (b) 2.08 mmol/l 13. (a) 2.8 % (b) 60.7 % (c) 7.16 mmol/l 14. (a) 0.0038 (b) 0.3187 15. (a) P(vattnet bedöms otjänligt) = 0.077 (b) Medelvärdet av tre mätningar är en observation av X N (50, 49 3 ). P(vattnet bedöms otjänligt) = 1 (2.474) = 1 0.993 = 0.007 16. X i = ammoniakhalt ; X i N(20, 0.04); 3 Y = total halt = X i N(60, 0.04 3) ty ( i=1 3 ) E(Y ) = E i=1 X i = 3 i=1 E(X i) = 3 20 = 60; ( 3 ) Var(Y ) = Var i=1 X i = 3 i=1 Var(X i) = 3 0.04; D(Y ) = 0.2 3; ( ) 59 60 P(Y < 59) = 0.2 = ( 2.89) = 1 (2.89) = 1 0.99807 = 0.00193. 3 17. (a) Väntevärdet för sammanlagda vikten är 100 0.65 = 65; standardavvikelsen är 100 0.02 = 0.2. (b) 0.933 18. X =antalet minuter att genomföra en mätning. 0.5 x = 1 0.4 x = 2 (a) f (x) = 0.1 x = 3 0 för övriga x (b) E(X ) = 1.6, E(X 2 ) = 3, Var(X ) = 0.44 100 170 160 (c) P( X i < 170) ( ) = (1.508) = 0.934 44 i=1

Svar 13 19. (a) (b) 20 ; B har den effektivaste estimatorn. 40 (c) Ja, eftersom den kombinerade estimatorn då blir väntevärdesriktig. 20. (a) x = 205.74; s = 3.7380; CV = 1.82 % s (b) = 1.6717 5 (c) I Ñ = (201.1, 210.4) (d) Ja, eftersom intervallet ej täcker över 200. 21. (a) (47.01, 49.29) (b) (, 49.11) eller alternativt (0, 49.11) eftersom halten alltid är positiv. Ett uppåt begränsat intervall är av intresse eftersom höga halter av bly är farliga. 22. (a) 0.2059 (b) Förväntat antal: 1.5. Mest sannolikt är att 1 intervall missar. 23. (a) H 0 : Ñ 0.2; H 0 : Ñ > 0.2 (b) ALT 1: 95 % konfidensintervall: I Ñ = (0.204, ) vilket ej täcker 0.2. 0.27 0.2 ALT 2: Testkvantitet z = 0.07 = 1.73 > 1.65 vilket är gränsen på signifikansnivå 0.05 3 ALT 3: probvärde = P( X > 0.27 om X N(0.2, 0.072 )) = 0.042 < 0.05 3 Samtliga alternativ ger naturligtvis samma slutsats: H 0 förkastas på nivå 0.05. 24. (a) I Ñ = (34.23, 36.37) (95 % intervall) (b) Ja, eftersom intervallet ej täcker 33.5 (c) Ja, eftersom ett undre begränsat intervall för Ñ är I Ñ = (34.41, ), täcker ej 33.5 (95 % intervall) 25. (a) I Ñ1 Ñ 2 = ((0.01, 0.79) mmol/l. Intervallet täcker ej 0, ja det tycks vara skillnader. Antaganden är normalfördelningar med samma varaians. (b) Förslagsvis ålder 26. Ett 95 % undre begränsat intervall för Ñ 1 Ñ 2 (Bullerbyn-Ängslyckan) är I Ñ1 Ñ 2 = ( 0.145, ). Eftersom intervallet täcker över 0 kan vi med dessa data inte påvisa en högre blyhalt för Bullerbybarnen. 27. Antaganden: differenserna (efter-före) är normalfördelade med förväntat värde (populationsmedelvärde). Ett 95 % konfidensintervall för är I = (0.20, 0.70). Med 95 % säkerhet kan man påstå att den genomsnittliga reaktionstiden är mellan 0.20 och 0.70 sekunder längre efter alkohol än före. 28. (a) I p = (0.11, 0.29) (b) Nej, eftersom intervallet täcker över 0.15. 29. I p = (0.394, 0.448) (95 % intervall) 30. Ett 95 % undre begränsat intervall för p är I p = (0.81, 1). Ja, det är motiverat att byta. 31. Ett 95 % intervall för p A p B är I pa p B = (0.031, 0.369). Eftersom intervallet ej täcker över 0 så har vi påvisat en skillnad mellan andelen botade av medlen. 32. Prob-värdet är 0.0547 vilket överstiger 0.05. Vi kan på nivå 0.05 inte påstå att behandlingen är effektiv.

14 Biostatistisk grundkurs 33. Testets p-värde (prob-värde) är 0.022; eftersom det understiger 0.05 kan nollhypotesen förkastas. Risken tycks vara högre i den kemiska industrin. 34. (a) Testets p-värde (prob-värde) är 0.0214; eftersom det understiger 0.05 kan nollhypotesen förkastas. Risken tycks vara högre i det aktuella området. (b) Testets p-värde (prob-värde) är 0.25. Ingen skillnad mellan könen är påvisad. 35. Tabellen blir Observerat 78 42 27 13 Förväntat 90 30 30 10 och Õ 2 (78 90)2 (42 30)2 (27 30)2 = + + 190 30 30 H 0 kan inte förkastas på nivån 0.01. + (13 10)2 10 7.6 < Õ 2 0.99(3) = 11.345 36. Õ 2 = 10.377 > 7.815 vilket är signifikansgränsen för 5 %. Det tycks finnas skillnader mellan flickor och pojkar. 37. Uppgiften behandlas vid regressionslabben med SPSS. (a) Ja, det är rimligt. (b) Att absorbansen i bufferten (alt vattnet) är skilt från noll. (c) Linjen lutning skattas till 0.0008 och ett 95% intervall är (0.00063, 0.0011). (d) Det sökta konfidensintervallet är (0.425, 0.441). (e) Det sökta prediktionsintervallet är (0.407, 0.459). (f) Kalibreringsintervallet skattas till (20, 70) mg. 38. (a) y-blodtryck; x-ålder; Modell: y i = 0 + 1 x i + i, där i N(0, 2 ), oberoende (b) En residualanalys ger att modellen verkar rimlig ingen trend i residualerna och de verkar hyfsat normalfördelade (c) 0 skattas till 52.425 (d) 1 skattas till 0.587 (e) skattas till 8.493; skattningens värde minskar om observationerna är mer samlade kring linjen (f) Blodtrycket ökar med 1 som skattas till 0.587 (g) 52.425+0.587 50 = 81.8 mm Hg. Ett 95 % konfidensintervall för denna storhet är (78, 85) mm Hg (h) Ingenting, vi kan inte extrapolera linjen så långt (i) Prediktionsintervallet är (64, 100) mm Hg (j) Förklaringsgraden R 2 är 0.13, d.v.s. 13 % 39. (a) r = 1; 0 = 0; 1 = 1 (b) Inte speciellt bra, t.ex. kommer i genomsnitt enbart ca 78 % av varje nytt kilo att uppges. 40. SP xy 41.230, SS x 530.966, SS y 6.143, r = SP xy SSx SS y 0.722 Tabell ger att H 0 : Ö = 0 mot H 1 : Ö 0 kan förkastas på nivån 0.001 (r skall jämföras med 0.679).

VT 2011 Matematisk statistik Matematikcentrum Lunds universitet Box 118, 221 00 Lund http://www.maths.lth.se/