Tentamen i Matematisk statistik Kurskod S0001M

Relevanta dokument
Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Matematisk statistik, Föreläsning 5

Kompletterande kursmaterial till kursen Matematisk statistik.

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys

TENTAMEN Datum: 14 feb 2011

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Regressions- och Tidsserieanalys - F3

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

tentaplugg.nu av studenter för studenter

Matematisk statistik TMS064/TMS063 Tentamen

TVM-Matematik Adam Jonsson

Tentamen i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

TENTAMEN I MATEMATISK STATISTIK

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Regressions- och Tidsserieanalys - F3

TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Statistik B Regressions- och tidsserieanalys Föreläsning 1

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Läs noggrant informationen nedan innan du börjar skriva tentamen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Antal P(ξ = x)

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

10.1 Enkel linjär regression

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Examinationsuppgifter del 2

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F7

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Stockholms Universitet Statistiska institutionen Termeh Shafie

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Tentamen i Matematisk statistik, S0001M, del 1,

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen Tillämpad statistik A5 (15hp)

Metod och teori. Statistik för naturvetare Umeå universitet

tentaplugg.nu av studenter för studenter

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Uppgift 2) Datum: 23 okt TENTAMEN I MATEMATIK OCH MATEMATISK STATISTIK, kurskod 6H3000

Transkript:

Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (8 uppgifter) Tentamensdatum 2011-03-25 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Erland Gadde, Ove Edlund Jourhavande lärare: Adam Jonsson Tel: 0766-317460 Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium i Regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, ska enbart svar lämnas in, men lösningar får bifogas. Observera dock att dessa kommer ej att bedömas utan enbart användas vid gränsfall för att avgöra om någon uppgift kan rättas upp på grund av slarvfel. På del 1 ges inga delpoäng på uppgifterna. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Detta blad måste lämnas in. Lägg detta blad först bland lösningarna. Om inte det ifyllda svarsbladet har lämnats in så bedöms tentamen som underkänd. För godkänt krävs minst 19 poäng på del 1. Med 4 extrapoäng från laborationerna och KGB så räcker det med 15 poäng av de 25 möjliga för godkänt. Observera att för omtentander utan bonuspoäng krävs endast 17p för godkänt. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (8)

1. I ett nordafrikanskt land bor 40 % av invånarna i Västprovinsen, 40 % i Centralprovinsen och 20 % i Östprovinsen. 50% av invånarna i Västprovinsen stöder det pågående reformarbetet i landet. Motsvarande siffra för Centralprovinsen är 70% och för Östprovinsen 80%. En invånare i landet väljs slumpmässigt. (a) Hur stor är sannolikheten att personen stöder reformarbetet? (b) Den utvalda personen stöder reformarbetet. Hur stor är sannolikheten att personen bor i Östprovinsen? 2. En kortlek innehåller 52 kort. Av dessa kort är 13 stycken märkta med ett hjärta. Dom korten kallar vi hjärter. (a) Man drar fem kort från en väl blandad kortlek. Hur stor är sannolikheten att man drar precis två hjärter? (b) Man drar ett kort från var och en av fem väl blandade kortlekar. Hur stor är sannolikheten att man drar precis två hjärter? 3. Ett företag skall konstruera en hiss för transport av tillverkade enheter. Enheternas vikter är normalfördelade (enhet: kg) med väntevärde 250 och standardavvikelse 18. Hissens maxkapacitet är av avgörande betydelse för hur många enheter som kan transporteras samtidigt. (a) Beräkna sannolikheten att hissen klarar av att transportera 3 slumpmässigt utvalda enheter om maxkapaciteten är 775. (b) Hur stor måste maxkapaciten (minst) vara för att sannolikheten att hissen klarar av att transportera 3 slumpmässigt utvalda enheter skall vara minst 95 %? 4. En fiskares väntetider ξ 1, ξ 2,... mellan napp 1 antas vara oberoende och Exponentialfördelade med väntevärde 1/λ = 10 minuter. (Alltså är tex ξ 2 den tid som förflyter mellan det första och det andra nappet.) Fiskaren bestämmer sig för att inte gå hem förrän hon fått 50 fiskar. Använd Centrala gränsvärdessatsen för att beräkna sannolikheten den totala väntetiden blir minst 10 timmar, dvs minst 600 minuter. 5. Johan har två högprecisionsvågar. Han misstänker att våg 1 i genomsnitt visar en högre vikt än våg 2. För att undersöka detta väger han sig själv sex gånger. Resultatet i kilogram ges nedan: Mätning 1 2 3 4 5 6 Våg 1 78.3561 78.3321 78.3418 78.3627 78.3650 78.3557 Våg 2 78.2917 78.3081 78.3131 78.3318 78.3444 78.2667 En beräkning av medelvärden och stickprovsstandardavvikelser gav x 1 = 78.352, x 2 = 78.309, s 1 = 0.0278, s 2 = 0.0128, z = 0.0429, s z = 0.0275. Beräkna ett lämpligt 98% konfidensintervall för den genomsnittliga skillnaden (våg 1 - våg 2) under rimliga normalfördelningsantaganden. Ange intervallets nedre gräns. 1 napp betyder att en fisk fastnar på kroken 2 (8)

6. Man vill testa om två slumpvariablers standardavvikelser, σ 1 och σ 2, kan vara lika stora eller om de skiljer sig åt. Ett sätt att göra detta är att bilda ett konfidensintervall för β, där β är kvoten σ 1 /σ 2. Antag att konfidensintervallet I har konstuerats med en metod som ger konfidensgrad 95%. (a) Ange H 0 och H 1. (1p) (b) Föreslå en lämplig beslutsregel. (Beslutsregeln skall vara av typen H 0 förkastas om intervallet I... ) (1p) 7. Parametern λ > 0 anger en viss maskins effektivitet (antal producerade enheter per timme). En naiv ingenjör vill med hjälp av en enda observation x från en P o(λ)-fördelning testa H 0 : λ = 13 mot H 1 : λ < 13. För ändamålet använder ingenjören x som testvariabel och beslutsregeln: förkasta H 0 om x 7. Beräkna testets styrka då λ = 10. Anmärkning: Att testets styrka blir låg beror naturligtvis på att testet baseras på en enda observation. I praktiken skulle man använt fler observationer. 8. Man analyserar livslängden (enhet: timmar) för två olika typer av gräsklippare med hjälp av multipel linjär regressionsanalys och ett stickprov om 20 stycken maskiner, 10 maskiner av typ A och 10 maskiner av typ B. Den beroende variabeln är Liv och de förklarande variablerna är Speed, som anger maxhastigheten för rotorbladen (i kodade enheter), samt dummyvariabeln Typ, där Typ= 0 för modell A och Typ= 1 för modell B. Resultatet ges på nästa sida. (a) Bestäm residualspridningen s e. (b) Bestäm förklaringsgraden R 2. (c) För att avgöra om Typ ska vara med som förklarande variabel på 5% signifikansnivå, genomförs ett hypotestest med en t-kvot som testvariabel. Ange det observerade värdet på denna testvariabel, samt ange om Typ ska behållas som förklarande variabel. (Ange Ja om Typ skall vara med i modellen.) (d) Finn ett 98% konfidensintervall för hur Liv förändras i genomsnitt då Speed ökar med en enhet och Typ hålls konstant. Svara med den övre gränsen. (1p) (1p) (1p) 3 (8)

Tabell 1: Regression Analysis: Material versus Glycerine; Speed The regression equation is Liv = 1551-111 Speed + 202 Typ Predictor Coef SE Coef T P Constant 1550,72 91,43?? Speed -111,23 17,02?? Typ 201,95 76,32?? S = 157,914 R-Sq =? % R-Sq(adj) = 79,0% Analysis of Variance Source DF SS MS F P Regression? 1829775 914888 36,69 0,000 Residual Error? 423924 24937 Total?? Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 4 (8)

Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:................................................................... Personnummer:.......................................................... Fråga Svar Poäng 1 a Sannolikhet (procent, en decimal) 64.0 2 b Sannolikhet (procent, en decimal) 25.0 2 2 a Sannolikhet (procent, två decimaler) 27.37 2 b Sannolikhet (procent, två decimal) 26.43 2 3 a Sannolikhet (procent, en decimal) 78.81 Φ(0.8) 2 b Maxkapacitet (en decimal) 801.3 2 4 Sannolikhet (procent, en decimal) 7.9 2 5 Nedre gräns (fyra decimaler) 0.0085 2 6 a H 0 : β = 1 (σ 1 = σ 2 går också bra) H 1 : β 1 1 b H 0 förkastas om intervallet...... inte täcker 1. 1 7 Styrka (procent, två decimaler) 22.02 2 8 a Residualspridning (tre decimaler) 157.914 1 b Förklaringsgrad (fyra decimaler) 0.8119 1 c obserat värde på testvariabeln (två decimaler) 2.65 Ja eller Nej Ja 1 d Övre gräns (fyra decimaler) -67.5397 2 Totalt antal poäng 25 Om man räknade med medelvärden och standardavvikelser på uppgift 5 och inte observerade att x 1 och x 2 förväxlats så är det ok. 5 (8)

6 (8)

Tentamen i Matematisk statistik, S0001M, del 2 2011-03-25 Vid bedömningen av lösningarna av uppgifterna i del 2 läggs stor vikt vid hur lösningarna är motiverade och redovisade. Tänk på att noga redovisa införda beteckningar och eventuella antaganden. 10. För att Johans dator skall stängas av krävs att datorn slutför två processer. Den första processen tar alltid 3 sekunder att slutföra. Den tid ξ som det krävs för den andra procesen att avslutas är slumpmässig. Det gäller att ξ Exp(λ), där λ > 0 är en konstant. Låt ζ var den tid som det för datorn att slutföra de två processerna. (a) Verifiera att fördelningsfunktionen F ζ (x) för ζ ges av { 1 e λ(x 3) om x 3, F ζ (x) = 0 om x < 3. (b) Bestäm frekvensfunktionen f ζ (x) för ζ. (5p) (3p) Lösning (a) Vi har ζ = ξ + a. Fördelingsfunktionen för ξ är F (x) = 1 e λx om x 0, noll annars. Låt F ζ vara fördelningsfunktionen för ζ. Vi har F ζ (x) = { 1 e λ(x a) om x a, P (ξ+a x) = P (ξ x a) = F (x a) = 0 om x < a. (b) Derivering ger f ζ (x) = F ζ (x) = { λe λ(x a) om x a, 0 om x < a. 11. Antag att ξ 1,..., ξ 5 är ett stickprov från R(0, b), där b > 0 är okänd och skall skattas. (a) Använd Sats 5A för att bestämma E[b 1 ], där b 1 = 2 ξ. Är b 1 väntevärdesriktig? (b) Verifiera att V (b 1 ) = b2 /3. (c) Man kan visa att frekvensfunktionen för skattningen b 2 = max(ξ 1,..., ξ 5 ) ges av Visa att b 2 { 5 x 4 om 0 x b, f(x) = b 5 0 annars. inte är väntevärdesriktig men att b 3 = 6 5 max(ξ 1,..., ξ 2 ) är väntevärdesriktig. (d) Vilken av skattningarna b 3 och b 1 är effektivast? (6p) 7 (8)

Tentamen i Matematisk statistik, S0001M, del 2 2011-03-25 Lösning (a) Formelbladet ger E[ξ j ] = b/2 för j = 1,..., 5. Sats 5A ger därför E[ ξ] = b/2 och E[b 1 ] = b. (b) Formelbladet och Sats 5A ger V (b 1 ) = b2 /3. (c) Direkt uträkning ger E[b 2 ] = b 0 xf(x)dx = 5b/6, vilket betyder att b 2 inte är väntevärdesriktig. Sats 5A ger E[b 3 ] = b, så att b 3 är väntevärdesriktig. (d) Direkt uträkning mha frekvensfunktionen ger V [b 3 ] < b2 /3. Alltså är b 3 effektivare än b 1. 12. Vi fortsätter att arbeta med datamaterialet som användes i del 1, med med ytterligare en förklarande variabel som är produkten av Typ och Speed. (a) Ange fullständiga modellantaganden för analysen i tabell 2. Tyder residualanalysen i figur 1 på att modellantagandet är rimligt? Finns det något i MINITAB utskrifterna i tabell 1 och tabell 2 som tyder på att den nya variabeln förbättrat modellen i uppgift 8 på del 1? (4 p) (b) Modellen som analyseras i tabell 1 kan uttryckas som två linjer, som har samma lutning. Vilka är de två skattade linjerna? Skriv ner formlerna för dessa. (2 p) (c) Kan man på 5 % signifikansnivå påstå att linjerna har olika lutning, dvs att hastighetens effekt på livslängden är olika för de två olika typerna? För att besvara frågan skall du genomföra ett test som rör någon av modellens parametrar. Testvariabel, beslutsregel samt slutsats skall framgå tydligt. (4 p) Figur 1: Residualplottar vid regressionanalysen med Speed, Typ samt deras produkt. Lösning (a) Modellantagandet är Y i = β 0 + β 1 X 1,i + β 2 X 2,i + ɛ i, där Y = Liv, X 1 = Speed, X 1 = Typ och där ɛ 1,..., ɛ 20 N(0, σ) är oberoende stokastiska variabler. Man skall om möjligt ange för vilka värden på variablerna som modellen är definiterad. Vi har X 2 = 0 eller 1 men i detta fall kan vi inte ange för vilka värden på X 1 modellen är definierad. Alla residualplottar ser bra ut. Det är tveksamt om modellen föbättras men här kan man resonera på olika sätt. (b) Linjerna ges av Liv = 1551 11Speed + 202Typ 8 (8)

Tentamen i Matematisk statistik, S0001M, del 2 2011-03-25 Tabell 2: Regression Analysis: Liv versus Speed; Typ; Typ Speed The regression equation is Liv = 1580-118 Speed + 155 Typ + 82,8 Speed x Typ Predictor Coef SE Coef T P Constant 1579,9 123,1 12,84? Speed -117,71 24,86-4,73? Typ 155,1 150,0 1,03? Speed x Typ 82,81 34,94 2,37? S = 162,095 R-Sq = 84,9% R-Sq(adj) = 82,1% Analysis of Variance Source DF SS MS F P Regression 3 2365111 788370 30,00 0,000 Residual Error 16 420395 26275 Total 19 2785506 för typ A och för typ B. Liv = 1753 11Speed + 202Typ (c) Modellantagandet är Y i = β 0 + β 1 X 1,i + β 2 X 2,i + β 3 X 1,i X 2,i + ɛ i, där Y = Liv, X 1 = Speed, X 1 = Typ och där ɛ 1,..., ɛ 20 N(0, σ) är oberoende stokastiska variabler.vi vill testa H 0 : β 2 = 0 mot H 0 : β 2 0. Testvariabel är t-kvoten b 2 /s b2. Beslutsregel: Förkasta H 0 om beloppet av t-kvoten är större än t 0.025 (16) = 2.12. Slutsats: H 0 förkastas på 5 5% signifikansnivå. 9 (8)