Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Relevanta dokument
Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 23 februari 2004, klockan

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 27 mars 2004, kl

Tentamen i Statistik, STA A10 samt STA A13 9p 24 augusti 2005, kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

F3 Introduktion Stickprov

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 5. Kapitel 6, sid Inferens om en population

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Föreläsning 4: Konfidensintervall (forts.)

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 4 mars 2006, kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Tentamen i Matematisk statistik Kurskod S0001M

, s a. , s b. personer från Alingsås och n b

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i Matematisk statistik Kurskod S0001M

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Avd. Matematisk statistik

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 24 april 2004, kl

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

FÖRELÄSNING 7:

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

F22, Icke-parametriska metoder.

TMS136. Föreläsning 11

Formel- och tabellsamling i matematisk statistik

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

0 om x < 0, F X (x) = c x. 1 om x 2.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

F10 Problemlösning och mer om konfidensintervall

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 12 november 2005, kl

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Tentamen i Statistik, STA A13 (4 poäng) Lördag 11 november 2006, Kl

σ 12 = 3.81± σ n = 0.12 n = = 0.12

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

FÖRELÄSNING 8:

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Lufttorkat trä Ugnstorkat trä

Avd. Matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Uppgift a b c d e Vet inte Poäng

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

TMS136. Föreläsning 13

Uppgift 1. f(x) = 2x om 0 x 1

Tentamen i Statistik STG A01 (12 hp) Fredag 16 januari 2009, Kl

Tentamen i Matematisk statistik Kurskod S0001M

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

4 Diskret stokastisk variabel

TMS136. Föreläsning 10

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Avd. Matematisk statistik

Lösningar till tentamen i Matematisk Statistik, 5p

Tentamen i Matematisk statistik Kurskod S0001M

Stockholms Universitet Statistiska institutionen Termeh Shafie


Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Avd. Matematisk statistik

Avd. Matematisk statistik

TENTAMEN I STATISTIKENS GRUNDER 2

Avd. Matematisk statistik

Tentamen MVE302 Sannolikhet och statistik

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

FACIT: Tentamen L9MA30, LGMA30

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Samplingfördelningar 1

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Transkript:

Karlstads universitet Institutionen för informationsteknologi Avdelningen för Statistik Tentamen i Statistik, STA A0 och STA A3 (9 poäng) 6 januari 004, kl. 4.00-9.00 Tillåtna hjälpmedel: Bifogade formel- och tabellsamlingar (skall returneras) samt miniräknare. Ansvarig lärare: Jan Rudander, telefon 700 5 83 Övrigt: För att få maximala 0 poäng på en uppgift krävs att lösningen är så utförlig att den utan svårighet kan följas! För betyget Godkänd krävs minst 40 poäng, för betyget Väl Godkänd krävs minst 60 poäng. Uppgift I ett laboratorium bestämmer man smältpunkten för olika metallegeringar. Bland annat ville man veta smältpunkten för olika blandningar av metall A och metall B. I tabellen nedan redovisas resultatet av 8 olika smältpunktbestämningar. Anpassa en regressionsmodell y a + bx till datamaterialet i tabellen nedan där x är andelen av metallen A i legeringen (i procent) och y är smältpunkten ( i Celsius grader). Illustrera med en lämplig graf. x (%) 3 3 4 4 5 5 y ( C) 0 0 0 30 45 50 55 70 Uppgift Man valde slumpmässigt ut 300 av 4000 högstadieelever i en viss kommun som fick svara på ett antal olika frågor. Bland annat fick de svara på frågan om de någon gång provat narkotiska preparat. Av de tillfrågade var det 48 stycken som sade sig ha provat narkotika, övriga hade inte provat. a Beräkna ett konfidensintervall med 95 % konfidensgrad för andelen av de 4000 högstadieeleverna som har provat narkotika. b Beräkna ett konfidensintervall med 95 % konfidensgrad för antalet av de 4000 högstadieeleverna som har provat narkotika. c Förklara för en som inte läst statistik hur intervallet i b-uppgiften ska tolkas (vad innebörden av intervallet är). d Är konfidensgraden för dina konfidensintervall exakt eller approximativt 95 %? Motivera noga ditt svar!

Uppgift 3 Dagsinkomsten i ett visst varuhus varierar från dag till dag som en normalfördelad slumpvariabel med väntevärde 40 000 kronor och standardavvikelse 5 000 kronor. 3a Hur stor chans är det att inkomsten under en dag blir minst 50 000 kronor? 3b Hur stor chans är det att den sammanlagda inkomsten under fyra dagar uppgår till minst en miljon? Vi antar i denna uppgift att inkomsten olika dagar är oberoende av varandra. Uppgift 4 I ett lotteri ger 30 % av lotterna någon form av vinst. Anton tar 6 lotter. Beräkna sannolikheten att minst hälften av dessa är vinster om 4a antalet lotter i lotteriet är 0. 4b antalet lotter i lotteriet är 0 000. Uppgift 5 I en viss befolkningsgrupp är det 30 % som har gen A, 40 % som har gen B och 0 % som har gen C. De tre generna förekommer oberoende av varandra. Även om generna förekommer oberoende av varandra så finns det ett samband mellan dessa geners förekomst och en viss sjukdom. Tester har visat att de som har minst två av generna drabbas av sjukdomen (de som har högst en av generna drabbas alltså aldrig av denna sjukdom). 5a Hur stor del av befolkningen drabbas av sjukdomen? 5b Man har utvecklat en behandling som har visat sig fungera på vissa av de drabbade patienterna. Noggranna kliniska försök har visat att behandlingen fungerar på alla de som har två av generna A, B och C, medan behandlingen är helt verkningslös för de som har alla tre generna. Anta nu att Adam tillhör den aktuella befolkningsgruppen och att sjukdomen en dag bryter ut hos Adam. Hur stor chans är det att behandlingen hjälper på Adam? Uppgift 6 5 x En slumpvariabel X har sannolikhetsfunktionen ( x) för x,, 3, 4. 0 6a Beräkna väntevärdet för X. 6b Beräkna standardavvikelsen för X. 6c Bestäm fördelningsfunktionen F ( x). 6d Anta att X,..., X 50 är 50 stycken oberoende slumpvariabler som alla följer samma fördelning som X ovan. Beräkna sannolikheten att summan Y X +... + X 50 blir minst 90.

Uppgift 7 I en större kommun genomfördes en filmfestival. Efter festivalen ringde man runt till 00 slumpmässigt valda personer av kommunens invånare. Dessa fick bland annat svara på frågan hur många av festivalens filmer de tittat på. Svaren framgår av tabellen nedan. Antal filmer personen sett Antalet personer 0 44 6 0 3 3 4 4 5 6 7a Beräkna ett konfidensintervall med 95 % konfidensgrad för det genomsnittliga antalet filmer som kommuninvånarna sett under festivalen. 7b Beräkna ett konfidensintervall med 95 % konfidensgrad för det genomsnittliga antalet filmer som festivalens besökare sett. 7c Nämn några problem med giltigheten för intervallet i 7b (problem som inte gäller intervallet i 7a). Uppgift 8 å ett visst företag har personalen fri tillgång till kaffe. Förbrukningen varierar från vecka till vecka som en normalfördelad slumpvariabel med ett genomsnitt på 9.5 kg per vecka. En kväll rapporterades i massmedia om att risken för att drabbas av en speciell cancerform ökade dramatisk om man konsumerade mycket kaffe. De sex följande veckorna blev kaffekonsumtionen som följer på företaget: 8.3 9.5 9. 7.7 8.9 9.9 Genomför ett test av om personalen på företaget verkar vara opåverkade av larmrapporten. Använd 5 % signifikansnivå. 8a Sätt upp hypoteserna för testet. 8b Ange beslutsregeln för testet. 8c Räkna ut observerat värde på testvariabeln och formulera slutsatser.

STA A0 tentamen 0406, lösningar Uppgift Statistics X_ROC Y_SMÄLT X XY Y N Valid 8 8 8 8 8 Missing 0 0 0 0 0 Sum 8 700 08 6005 3655450 nσxy Σx Σy 8 6005 8 700 30 b 6.5 nσx ( Σx) 8 08 8 80 700 8 a y bx 6.5 37.5 6.5 3.5 079.75 8 8 Regressionslinjen y a + bx blir alltså y 079.75 + 6. 5x 80 70 60 50 40 30 Y_SMÄLT 0 0 00,5,0,5 3,0 3,5 4,0 4,5 5,0 5,5 X_ROC Tolkningar b : När vi ökar andelen av metall A en procentenhet så ökar smältpunkten med ca 6.5 grader. (Verkar gälla för x-värden mellan och 5 i alla fall.) a : Om sambandet mellan X och Y är (ungefär) linjärt även för x-värden ner till 0 %, så är smältpunkten när vi bara har ämne B i metallen, ca 080 grader. x 48 a Skattning ˆ π p 0. 6. Konfidensintervall n 300 p ( ) ( p) N n 0.6 0.84 4000 300 I π p ± zσ p p ± z 0.6 ±.96 n N 44444 300 44444 4000 3 0.0399 b Om vi inte haft otur (ca 5 % risk) så gäller med andra ord 0.0< π < 0. 999, vilket är det samma som att 0.0 4000 < π N < 0.999 4000, dvs. 480.4 < S < 799.6. c Förutsatt att vi inte hade otur när vi drog urvalet, så vet vi alltså att det är fler än 480 men mindre än 800 av de 4000 högstadieeleverna som provat narkotiska preparat. (Som vanligt förutsätter det hela att de som svarat har svarat sanningsenligt. När det ( 0.0,0.999)

gäller denna typ av känsliga frågor så är det detta som i praktiken är det största problemet, inte så mycket det som tas upp i d nedan.) d X antalet elever i stickprovet som provat narkotika är Hyp ( N 4000, n 300, π S / N ). Tumregeln för att approximera med NF är uppfylld med ganska god marginal: σ N n N n V p N N 4000 300 4000 ( X ) nπ ( π ) np( ) 300 0.6 0.84 37.3 0 Med andra ord bör X vara ungefär NF om än inte exakt NF. Följaktligen stämmer antagligen konfidensgraden 95 % ganska bra men inte exakt. Uppgift 3 X dagsinkomsten en viss dag (i 000 kronor), X N( µ 40, σ 5) 3a Sannolikheten att inkomsten under en dag blir minst 50 000 kronor är X µ 50 40 ( X 50) ( N 0, 0.67) ( N 0, 0.67) tabell 0. 54 σ 5 3b Av egenskaperna hos normalfördelningen (se kompletteringshäftet) följer att den sammanlagda inkomsten under fyra dagar Y X +... + X N( µ Y 960, σ Y 30). Sannolikheten att den sammanlagda inkomsten under fyra dagar uppgår till minst en miljon blir därmed Y µ 000 960 Y ( Y 000) ( 0,.33) ( 0,.33) 0. 098 30 N N tabell. σ Y X µ 50 40 Alternativt: ( Y 000) ( X 50) ( N 0,.33)... vilket σ / n 5 / 4 ger exakt samma svar som Y-varianten ovan. 4a X antal vinstlotter som Anton får är ( N 0, n 6, S / N 3/0) Hyp π. ( X 3 X Hyp( 0,6,0.3) ) ( X X Hyp( 0,6,0.3) ) 7 63 05 35 ( ( 0) + ( ) + ( ) ) + + + 0. 667 0 0 0 0 6 n 4b Tumregeln för att approximera Hyp med Bin 0. 05, är uppfylld med väldigt N n 6 stor marginal: 0.0006 0. 05. Därmed bör det approximativa svaret vi N 0000 räknar fram nedan stämma mycket bra med det korrekta svaret. ( X 3 X Hyp( 0000,6,0.3) ) ( X 3 X Bin( 6,0.3) ) ( X X Bin( 6,0.3) ) tabell 0.7443 0. 557

Anmärkning: Räknar vi exakt med Hyp så ger SSS följande svar: ( X 3 X Hyp( 0000,6,0.3) ) ( X X Hyp( 0000,6,0.3) ) SSS 0.7444 0. 556 5a Låt X beteckna antalet av de tre generna som en slumpmässigt vald person ur befolkningsgruppen har. ersonen drabbas av sjukdomen om X är eller 3. Låt A beteckna händelsen att personen har gen A och låt motsvarande gälla för B och C. () 3 ( X 3) ( ABC) ( A) ( B) ( C) 0.3 0.4 0. 0. 04, ( ) ( X ) ( A B ejc) + ( A ejb C) + ( eja B C) 0.3 0.4 0.8 + 0.3 0.6 0. + 0.7 0.4 0. 0.096 + 0.036 + 0.056 0.88. ( drabbas) ( X ) 0.88 + 0.04 0.. Det är alltså. % av denna befolkningsgrupp som drabbas av sjukdomen. 5b Vi söker sannolikheten att behandlingen hjälper Adam (vilket är det samma som att X ) givet att Adam är drabbad (vilket är det samma som att X ). Vi söker alltså ( ) ( X ochx ) ( X ) 0.88 X X 0.886679... 0.887 X X 0. ( ) Uppgift 6 x 3 4 sum ( x) 0.4 0.3 0. 0..0 F x X x 0.4 0.7 0.9.0 ( ) ( ) ( ) x ( x) 0.4 0.6 0.6 0.4 Σx ( x). 0 x ( x) 0.4..8.6 Σx ( x) 5. 0 6a Väntevärdet µ E( X ) SeTabellenOvan. 0 6b Variansen E ( X ) µ SeTabellenOvan 5 σ, ger standardavvikelsen σ σ 6c Fördelningsfunktionen är F(x) i tabellen ovan. X +... + X 50 90 6d Att Y X +... + X 50 90 är det samma som att X. 8. 50 50 Enligt CGS är X approximativt NF om n är stor. I vårt fall är fördelningen för de enskilda X i -variablerna mycket skev (rita graf över (x)), med andra ord mycket olik en NF. Detta gör att det verkligen behövs ett stort n för att approximationen ska fungera bra. Vi hade n 50 så tumregeln n 30 är uppfylld med ganska bred marginal och därmed bör approximationen fungera bra trots skevheten (om än inte lika bra som den skulle gjort om fördelningen för de enskilda X i -variablerna hade varit mer NF-lik, t.ex. åtminstone symmetrisk).

X µ.8 90.8, / 50 σ X Vi söker ( ) ( ) X Y X ( N.4) 0. 907 Med ½-korrektion får vi antagligen ett mer korrekt svar: X µ.79 89.5.79 X Y X N,.48 / 50 σ X 0 ( ) ( ) ( ) 0. 9306 7a x f xf x f 0 44 0 0 6 6 6 0 40 80 3 3 39 7 4 4 6 64 5 0 50 6 6 36 sum n Σf 00 Σxf 7 Σx f 363 0 Σfx 7 Medelvärdet x 0. 635, n 00 ( Σfx) 7 Σfx 363 variansen s n 00.48869... ger n 99 standardavvikelsen s s.48869....96.... 9 I µ s.96 ( x ± t s ) x ± t 0.635 ±.96 ( 0.470,0.800) x n 00 4443 4 0.65 Tumregeln n minst 30 är uppfylld med mycket bred marginal. Därmed bör konfidensgraden 95 % stämma bra. 7b, 7c opulationen är i detta fall inte kommuninvånarna utan festivalens besökare. De 44 som inte sett någon film tillhör alltså inte vår population (förutsatt att alla besökare sett åtminstone någon film). Resterande 56 personer kan ses som ett slumpmässigt urval från de av festivalens besökare som är bosatta i kommunen. När vi tar fram ett konfidensintervall utifrån dessa 56 personer så gäller detta konfidensintervall populationen festivalbesökare bosatta i kommunen som sett minst en film. Vi missar alltså de festivalbesökare som inte är bosatta i kommunen vilket är ett allvarligt problem om inte deras antal är försumbart. Vi missar också, som sagt, de festivalbesökare som inte sett någon film (deras antal är nog inte så stort, en ganska rimlig gissning är ju att om man besöker en filmfestival så tänker man nog också se åtminstone någon film). Om vi inte räknar med de 44 som inte sett någon film får vi följande:..

Count n Σf 56, Σxf 7 respektive Σx f 363, vilket ger medelvärdet ( Σfx) 7 Σfx 363 Σfx 7 x.679 och variansen s n 56.3633... n 56 n 55 Standardavvikelsen blir alltså s s.3633....67609.... 676. I µ s ( x ± t s ) x ± t.679 ±.0 (.954,.585) (.95,.58) x.676 n 56 443 4 0.336 Eftersom n56 så är tumregeln n minst 30 även här uppfylld (om än inte med lika bred marginal som i 7a). Därmed bör konfidensgraden 95 % även här stämma bra. 8a H 0 : µ 95 (förbrukningen oförändrad, personalen opåverkad av larmrapporten), H : µ 95 (förbrukningen har sjunkit, personalen påverkad av larmrapporten) < X 95 8b Om pop vore NF och µ 95 så vore testvariabeln T exakt t-fördelad S / n med n-6-5 frihetsgrader. Med α 5% (enkelsidigt test, vänster svans ) hittar vi värdet.0 i t-tabellen. Den kritiska gränsen är alltså -.0. Beslutsregel: Förkasta nollhypotesen om det observerade värdet av T är mindre än eller lika med -.0. x 95 89.0 95 8c Observerat värde är t. 837 vilket inte ligger längre ut i s / n 8.0/ 6 svansen än den kritiska gränsen -.0. Vi kan alltså inte förkasta H 0 på 5 % signifikansnivå. Även om den relativt låga förbrukningen de sista 6 veckorna antyder att personalen påverkats av larmrapporten har vi inte lyckat bevisa att så är fallet om vi vill att α, sannolikheten för typ-i-fel, ska vara högst 5 %. Anmärkning: Enligt grafen nedan är det inget som motsäger att pop skulle kunna vara åtminstone ungefär NF. Därmed borde den faktiska signifikansnivån i testet stämma bra överens med den signifikansnivå α 5%, som vi siktat på. A A A A A A Dot/Lines show counts 0,8 0,6 0,4 0, 0,0 80 85 90 95 hg