Tentamen i Matematisk statistik Kurskod S0001M



Relevanta dokument
Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Avd. Matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Statistisk undersökningsmetodik (Pol. kand.)

Resultatet läggs in i ladok senast 13 juni 2014.

Kompletterande kursmaterial till kursen Matematisk statistik.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik, LKT325,

tentaplugg.nu av studenter för studenter

Matematisk statistik, Föreläsning 5

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Vinst (k) Sannolikhet ( )

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Läs noggrant informationen nedan innan du börjar skriva tentamen

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Tentamen MVE265 Matematisk statistik för V,

Tentamen i Matematisk statistik Kurskod S0001M

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Läs noggrant informationen nedan innan du börjar skriva tentamen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Exempel 1 på multipelregression

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Metod och teori. Statistik för naturvetare Umeå universitet

Regressions- och Tidsserieanalys - F4

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F1

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Regressions- och Tidsserieanalys - F1

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

Regressions- och Tidsserieanalys - F3

Summor av slumpvariabler

TENTAMEN I MATEMATISK STATISTIK

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

5 Kontinuerliga stokastiska variabler

Läs noggrant informationen nedan innan du börjar skriva tentamen

Statistik och epidemiologi T5

Datorlaboration 2 Konfidensintervall & hypotesprövning

tentaplugg.nu av studenter för studenter

Tentamen Tillämpad statistik A5 (15hp)

Transkript:

Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (9 uppgifter) Tentamensdatum 2011-10-25 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Lennart Karlberg och Ove Edlund Jourhavande lärare: Adam Jonsson Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium i regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, ska enbart svar lämnas in, men lösningar får bifogas. Observera dock att dessa kommer ej att bedömas utan enbart användas vid gränsfall för att avgöra om någon uppgift kan rättas upp på grund av slarvfel. På del 1 ges inga delpoäng på uppgifterna. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Detta blad måste lämnas in. Lägg detta blad först bland lösningarna. Om inte det ifyllda svarsbladet har lämnats in så bedöms tentamen som underkänd. För godkänt krävs minst 17 poäng på del 1. Med 2 extrapoäng från laborationerna och KGB så räcker det alltså med 15 poäng av de 25 möjliga för godkänt. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (12)

1. En kvinnlig student i Luleå väljs ut slumpmässigt. Sannolikheten att hon äger en mobiltelefon är 84%, sannolikheten att hon äger en cykel är 42% och sannolikheten att hon äger både en mobil och en cykel är 38%. Hur stor är sannolikheten att hon varken äger en mobiltelefon eller en cykel? Ange ditt svar i procent utan decimaler. 2. För många sjukdomar är diagnosen osäker. Dels kan en person med sjukdomen bli friskförklarad, dels kan en frisk person få diagnosen sjuk. Antag att en godtycklig person har en viss sjukdom med sannolikhet 0.1. Antag vidare att diagnosmetoden ger rätt resultat om en person är frisk med sannolikhet 0.85, och rätt resultat om personen är sjuk med sannolikhet 0.94. Hur stor är sannolikheten för att diagnosen blir korrekt? Ange ditt svar i procent med minst en decimal. 3. Victoria har 30 böcker i sin bokhylla varav 6 handlar om mekanik (hennes favoritämne). Om Victoria väljer ut 4 böcker på måfå från sin bokhylla, vad är då sannolikheten att minst en handlar om mekanik? 4. Georg kan inte motstå frestelsen att spela Roulette. Det går till så att man satsar på ett tal mellan 1 och 38. Sedan väljs ett tal med likformig fördelning på 1, 2,..., 38 (se formelbladet) och man vinner (36 gånger insatsen) om man satsat på detta tal. (a) Georg spelar Roulette 5 gånger. Beräkna sannolikheten att han vinner minst två av de fem spelomgångarna. (b) Om Georg spelar 114 gånger, vad är då sannolikheten att han vinner minst 5 gånger? Den sökta sannolikheten kan beräknas exakt, men en mycket bra (och godtagbar) approximation kan fås genom att använda Poissonfördelningen på lämpligt sätt. 5. Anna och Stefan är ute och fiskar. För en ordentlig middag behövs två fiskar. De har bara ett metspö med sig och bestämmer sig därför för att först låta Stefan fiska tills han har fått en fisk och sedan låta Anna fiska. Den tid (enhet: minuter) som Stefan behöver för att få en fisk är Exponentialfördelad med λ = 1/15. Den tid Anna behöver är Exponentialfördelad med λ = 1/10 och oberoende av Stefans. (a) Beräkna sannolikheten att det tar mellan 15 och 20 minuter för Stefan att få upp sin fisk. (b) Beräkna standardavvikelsen för den sammanlagda tid som Anna och Stefan fiskar. 6. På macken Qmix får man i genomsnitt 7 liter bensin för 100 kr. Den faktiska mängden (enhet: liter) varierar slumpmässigt och kan anses normalfördelad med väntevärde 7 och standardavvikelse 0.06. (a) Maria och Helena tankar sina bilar med 100 kr var. Vad är sannolikheten att Maria får minst 0.05 liter mer än än Helena? 2 (12)

(b) Hamza tankar för 400 kr. Vad är sannolikheten att han får åtminstone 28.1 liter? 7. En läkare vill jämföra två mediciner, A och B, mot högt blodtryck med hjälp en nyligen genomförd studie omfattande 20 personer, som var och en provat de två olika medicinerna vid slumpmässigt valda tillfällen. En normalfördelningsplot över de 20 differenserna z i = x i y i, där x i är blodtrycket för person nummer i efter behandling med medicinen A, gav följande resultat. Figur 1: Normalfördelningsplot För att testa H 0 : ingen genomsnittlig skillnad mellan medicinerna mot H 1 : medicin A har i genomsnitt en större dämpande effekt än medicin B på 5 % signifikansnivå väljer hon mellan två test. För det första testet förkastas H 0 om x 15, där x är antalet negativa differenser. För det andra testet förkastas H 0 om t = z µ 0 s z / 20 < 1.729, där µ 0 har ett speciellt värde och där s z är stickprovsstandardavvikelsen för z 1,..., z 20. (a) Vilket är det speciella värdet på µ 0? (b) Vilket av följande påståenden stämmer (ange ett alternativ). Läkaren 3 (12)

bör välja testet som baseras på... (1)... x eftersom vi har att göra med en kontinuerlig fördelning. (2)... x eftersom differensvärdena inte ligger på samma räta linje. (3)... x pga normalfördelningsplottens utseende. (4)... t pga normalfördelningsplottens utseende. (5)... t eftersom differensvärdena inte ligger på samma räta linje. (6)... t eftersom mätvärdena troligen har en t-fördelning. 8. En stormarknad som säljer bakad pastej har via kundundersökningar fått veta att kunderna helst vill köpa förpackningar med storleken 500 gram. Butiken skär själv till pastejen för sina förpackningar med hjälp av en äldre våg och en kniv, vilket ger slumpmässiga avvikelser. För att undersöka om instrumenten behöver kalibreras tas ett stickprov av förpackningar ut och vägs på en våg som kan antas visa exakt vikt. Antag att standardavvikelsen σ=9 hos vikten på en förpackning bakad pastej är känd i förväg. Antag också att mätvärdena är observationer från en normalfördelad stokastisk variabel. Vilket är det minsta antal observationer som krävs för att bestämma ett 99 % konfidensintervall vars bredd som är högst 5 gram? Svara med det minsta antal observationer som behövs. 9. Ungefär hälften av distrikten i New Hampshire påbjuder användandet av syresatt bensin, för att minska de farliga utsläppen från bilar. Detta har dock lett till en ökning av föroreningar i grundvattnet av MTBE (metyl-tert-butyleter). En studie har gjorts för hur dessa föroreningar beror av olika faktorer. En första analys med multipel regressionsanalys görs på datamaterialet. Efter att ett antal förklarande variabler eliminerats återstår ph-värde och andel av närliggande mark som är industrifastighet (IndPct). Resultatet av regressionsanalysen, med vissa detaljer borttagna, redovisas i tabell 1. (a) Bestäm förklaringsgraden R 2. (b) Bestäm residualspridningen s. (c) Om vi vill påvisa att koefficienten för ph är skilld från noll på 10% signifikansnivå, vilket tal ska t-kvot jämföras med? Och kan vi påvisa att koefficienten är skilld från noll (JA/NEJ)? (d) Bestäm ett 90 % konfidensintervall för hur MTBE förändras om ph hålls konstantant och IndPct ökas med en enhet. Svara med den undre gränsen. 4 (12)

Tabell 1: Regression Analysis: MTBE versus ph; IndPct The regression equation is MTBE = 5,9-0,87 ph + 0,628 IndPct Predictor Coef SE Coef T P Constant 5,90 11,54 0,51? ph -0,874 1,587-0,55? IndPct 0,6276 0,1803 3,48? S =? R-Sq =? R-Sq(adj) = 30,7% Analysis of Variance Source DF SS MS F P Regression? 370,71 Residual Error?? Total 23 1010,52 Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 5 (12)

. 6 (12)

Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:................................................................... Personnummer:.......................................................... Fråga Svar Poäng 1 Sannolikhet (procent, två decimaler) 12.00 1 2 Sannolikhet (procent, två decimaler) 85.9 2 3 Sannolikhet (procent, två decimaler) 61.22 2 4 a Sannolikhet (procent, två decimaler) 0.66 2 b Sannolikhet (procent, två decimaler) 18.47 (18.25 exakt) 2 5 a Sannolikhet (procent, två decimaler) 10.43 1 b Standardavvikelse (tre decimaler) 18.028 2 6 a Sannolikhet (procent, två decimaler) 27.81 1 b Sannolikhet (procent, två decimaler) 20.23 2 7 a Värde på µ 0 (en decimal) 0.0 1 b Ange 1,2,3,4,5 eller 6 4 2 8 Stickprovsstorleken 86 2 9 a förklaringsgrad (procent, tre decimaler) 36.685 1 b residualspridning (fyra decimaler) 5.5197 1 c t-kvot jämförs med (tre decimaler) 1.721 JA eller NEJ NEJ 1 d undre gräns (fyra decimaler) 0.3173 2 Totalt antal poäng 25 7 (12)

8 (12)

Tentamen i Sannolkhetslära och statistik, S0001M, del 2 2011-10-25 Vid bedömningen av lösningarna av uppgifterna i del 2 läggs stor vikt vid hur lösningarna är motiverade och redovisade. Tänk på att noga redovisa införda beteckningar och eventuella antaganden. 10. Sara tar tunnelbanan till skolan varje dag. Tågen kommer 3 gånger per timme, men Sara har varken tidtabell eller klocka. Hon betraktar därför sin väntetid (enhet: minuter) som slumpmässig. Beräkna sannolikheten att Saras totala väntetid under sammanlagt 100 dagar (en termin) blir minst 1100 minuter under rimliga antaganden. Rimliga och välmotiverade approximationer godtas! (10) Lösningsskiss Här har vi antagit att tågen står på perrongen under mycket kort tid. R(0, 20) fördelningen ger en rimlig modell för väntetiden en dag. Antag att väntetiderna ξ 1,..., ξ 100 är oberoende. Sökt är P (ξ 1100), där ξ = 100 j=1 ξ j. Vi har approximativt ξ N(100µ, 10σ) enligt CGS. Formelbladet ger µ = 10 och σ = 20/ 12. Alltså ξ N(1000, 57.73), approximativt. Det ger P (ξ 1100) 0.04. 11. Två personer, A och B, skall mäta en fysikalisk konstant θ. De gör en mätning var med olika metoder, som båda är väntevärdesriktiga och har samma precision. De stokastiska variablerna ξ 1 och ξ 2 som betecknar mätvärdet från A respektive B kan antas oberoende. Att metoderna har samma precision innebär att V (ξ 1 ) = V (ξ 2 ). Som uppskattning av θ tänker man använda en linjär kombination av ξ 1 och ξ 2, nämligen η = cξ 1 + (1 c)ξ 2, där c är en konstant. (a) Visa att η är en väntevärdesriktig skattning av θ för varje värde på c. (b) Visa att bland alla väntevärdesriktiga linjärkombinationer av ξ 1 och ξ 2 är medelvärdet (ξ 1 + ξ 2 )/2 den skattning som har bäst precision, dvs minst varians. Lösningsskiss (a) Att metoderna är väntevärdesriktga (VVR) måste tolkas som att E[ξ 1 ] = E[ξ 2 ] = θ. Sats 5A två gånger ger (10) E[η] = E[cξ 1 + (1 c)ξ 2 ] = ce[ξ 1 ] + (1 c)e[ξ 2 ] = cθ + (1 c)θ = θ. Alltså är η VVR. (b) Alla VVR linjärkombinationer är på formen η = cξ 1 + (1 c)ξ 2, där c är en konstant. Sats 5A två gånger ger V [η] = c 2 V [ξ 1 ] + (1 c) 2 V [ξ 2 ] = c 2 σ 2 + (1 c) 2 σ 2. Funktionen har ett (enda) globalt minimum för c = 1/2 (σ konstant). 9 (12)

Tentamen i Sannolkhetslära och statistik, S0001M, del 2 2011-10-25 Tabell 2: Det analyserade stickprovet ph IndPct MTBE 7.15 1.35 0.2 7.15 0 0.2 6.77 0 0.2 7.37 0 0.2 6.26 1.37 0.2 6.72 0 0.2 8.24 0 0.39 8.22 0 0.2 8.09 11.8 0.2 7.66 3.2 0.2 6.94 3.09 0.2 7.57 0 2.06 8.1 0.21 0.26 8.04 0 0.2 7.81 0 0.2 7.7 0 0.72 7.59 17.46 2.7 7.7 12.91 0.2 7.45 21.36 32.8 7.62 0 0.37 5.43 0 0.34 5.85 0 0.33 6.56 0.84 0.83 7.75 14.92 0.2 12. Vi fortsätter att jobba med datamaterialet från regressionsuppgiften i del 1. Tabell 2 visar datamaterialet, figur 2 visar residualplottarna, och figur 3 visar leverage värdena. (a) Redovisa fullständiga modellantaganden, och tolka plottarna i figur 2 och 3. Vilka förändringar föreslår du utifrån detta och utifrån dina resultat i del 1? (6 p) (b) En ny analys genomförs där endast IndPct används som förklarande variabel. Resultatet av analysen redovisas i tabell 3. Finns det något som indikerar att detta är en förbättring? Motivera! Bestäm ett 95% konfidensintervall för E(Y ) då X 0 = 3.0. Som ledning är det givet att X = 3.69, TSS X = 987.44. (4 p) Lösningsskiss (a) Modellantagande Y i = β 0 +β 1 X 1,i +β 2 X 2,i +ε i, i = 1, 2, 3, 4,..., 24. ε N(0, σ), är oberoende. Y MTBE, X 1 ph, X 2 IndPct 5.43 X 1 8.24, 0 X 2 21.36 Normalfördelningsplotten följer inte en linje. Man kan därmed ifrågasätta om normalfördelningsantagandet gäller för analysen. Residualplottarna visar tydligt att observation 19 är en uteliggare, eftersom den standardiserade residualen är större än 3, och att residualplottarna lutar. Denna bör undersökas ytterligare, för att sedan (eventuellt) tas bort från analysen. Leverage-värden större än 2 K/N = 0.25 tyder på inflytelserika punkter. I detta fall är observation 19 (igen) och observation 10 (12)

Tentamen i Sannolkhetslära och statistik, S0001M, del 2 2011-10-25 Figur 2: Residualplottar Figur 3: Leverage-värden 11 (12)

Tentamen i Sannolkhetslära och statistik, S0001M, del 2 2011-10-25 21 att betrakta som inflytelserika, och skall hanteras som uteliggare (se ovan). (b) Justerade förklarinsgraden är högre, residualspridningen lägre och alla förklarande variabler har en signifikant effekt, vilket allt pekar på en förbättring i tabell 3. Konfidensintervall: Ŷ 0 = 0.415 + 0.6050 3.0 = 1.4000 1 sŷ0 = s e n + (X 0 X) 2 TSS X = 5.43157 Konfidensintervallet ges då av Ŷ0 ± t 0.025 (22) sŷ0 [ 0.913, 3.72]. 1 24 + (3.0 3.69)2 987.44 = 1.1151. dvs Tabell 3: Regression Analysis: MTBE versus IndPct The regression equation is MTBE = - 0,41 + 0,605 IndPct Predictor Coef SE Coef T P Constant -0,415 1,279-0,32 0,749 IndPct 0,6050 0,1729 3,50 0,002 S = 5,43157 R-Sq = 35,8% R-Sq(adj) = 32,9% Analysis of Variance Source DF SS MS F P Regression 1 361,47 361,47 12,25 0,002 Residual Error 22 649,04 29,50 Total 23 1010,52 12 (12)