Tentamen i Matematisk statistik Kurskod S0001M

Relevanta dokument
Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Kompletterande kursmaterial till kursen Matematisk statistik.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Läs noggrant informationen nedan innan du börjar skriva tentamen

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

Läs noggrant informationen nedan innan du börjar skriva tentamen

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i Matematisk statistik Kurskod S0001M

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Metod och teori. Statistik för naturvetare Umeå universitet

Examinationsuppgifter del 2

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

TENTAMEN Datum: 14 feb 2011

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Antal P(ξ = x)

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

TENTAMEN I MATEMATISK STATISTIK

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Tentamen i matematisk statistik

Tentamen i matematisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Läs noggrant informationen nedan innan du börjar skriva tentamen

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

F3 Introduktion Stickprov

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Statistik för teknologer, 5 poäng Skrivtid:

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F7

7.3.3 Nonparametric Mann-Whitney test

Tentamen Tillämpad statistik A5 (15hp)

Läs noggrant informationen nedan innan du börjar skriva tentamen

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Matematisk statistik, Föreläsning 5

Tentamen i matematisk statistik

tentaplugg.nu av studenter för studenter

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F3

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen Tillämpad statistik A5 (15hp)

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

LABORATION 3 - Regressionsanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Obligatorisk uppgift, del 1

Läs noggrant informationen nedan innan du börjar skriva tentamen

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

tentaplugg.nu av studenter för studenter

Transkript:

Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (11 uppgifter) Tentamensdatum 2014-03-28 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Inge Söderkvist, Mykola Shykula och Jesper Martinsson Jourhavande lärare: Adam Jonsson Tel: 0920-491948 Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium om regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, behöver enbart svar lämnas in, men om korta lösningar bifogas så finns det vid gränsfall möjlighet att få delpoäng på en uppgift. Delpoäng ges i första hand om en uppgift i stort sett behandlats korrekt men slarvfel begåtts. Om kortfattade lösningar ej bifogas så finns inga möjligheter att få delpoäng på en uppgift. För godkänt krävs minst 17 poäng på del 1. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Det ifyllda svarsbladet skall läggas först om du lämnar in lösningar och bifogas oavsett om du lämnat in lösningar eller ej. Om inte det ifyllda svarsbladet lämnas in bedöms tentamen som underkänd. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (9)

1. Vid tillverkning av detaljer till en maskin är felfrekvensen 3%. För att begränsa antalet reklamationer beslutar man att alla detaljer ska passera en kontroll. Vid denna kontroll kasseras felaktiga detaljer med sannolikheten 0.9, och felfria kasseras med sannolikheten 0.02. Du tar en detalj ur högen med kasserade detaljer. Hur stor är sannolikheten att den detaljen är defekt? 2. Vid etsning av kretskort är andelen defekta ofta hög, och därför kontrolleras de färdiga korten. Kort läggs ihop i förpackningar om 20 kort. 4 av dessa kort ska tas ut för undersökning. Om det bland de 20 finns 3 defekta hur stor är sannolikheten att det i urvalet finns minst två defekta kort? 3. Slumpvariablerna ξ 1 och ξ 2 är oberoende och har samma fördelning. Fördelningen definieras av tabellen nedan. x 0 1 2 3 P (ξ i = x) 0.1 0.25 0.35 0.3 Låt ξ = ξ 1 + ξ 2. Beräkna sannolikheten P (ξ = 2). 4. Antal sålda enheter (i tusental) per månad av en viss vara på ett företag kan betraktas som en slumpvariabel med frekvensfunktion { 0.2 om 0 x 5, f(x) = 0 annars. Försäljningspriset är 60 kr per enhet. Om företaget har en konstant kostnad på 35 000 kr för tillverkning av enheterna (oavsett hur många enheter som produceras), vad är då väntevärdet av den totala vinsten per månad? 5. Antag att x 1,..., x 10 är ett stickprov av storlek 10 från en kontinuerlig fördelning och att ett konfidensintervall för medianen i fördelningen söks. Man har kommit fram till att intervallet [x(2), x(9)] skall användas, dvs intervallet vars nedre gräns är det näst minsta mätvärdet och vars övre gräns är det näst största mätvärdet. Bestäm intervallets konfidensgrad. 6. En statistikintresserad snickare har undersökt kapning med en viss utrustning och funnit att felet vid en kapning hade väntevärdet 0 och standardavvikelsen 0.9 (enhet: mm). Felen kan inte betraktas som observationer från en normalfördelning. Om snickaren nu ska kapa upp 28 brädor, vad blir standardavvikelsen för det sammanlagda felet? 7. Antag att ξ 1 N(5, 2) och ξ 2 N(6, 1) är oberoende. Beräkna sannolikheten att ξ 1 antar ett större värde än ξ 2. Dvs beräkna P (ξ 1 > ξ 2 ). 2 (9)

8. En lärare vill undersöka om vänsterhänta och högerhänta studenter i genomsnitt har samma betygsgenomsnitt eller om betygsgenomsnitten i genomsnitt skiljer sig åt. Läraren väljer ut 16 studenter på måfå (8 vänsterhänta och 8 högerhänta) och beräknar deras betygsgenomsnitt. Resultatet ges nedan (betygsskalan på skolan i fråga går från 1 till 7): Person # 1 2 3 4 5 6 7 8 Högerhänta 3.18 5.91 4.16 5.30 2.33 6.25 6.66 4.31 Vänsterhänta 3.48 5.75 1.31 4.51 3.87 4.19 3.82 5.38 En Minitab analys gav medelvärden och stickprovsstandardavvikelser: Descriptive Statistics: Höger; Vänster; Höger-vänster Variable Mean StDev Höger 4,763 1,531 Vänster 4,039 1,353 Höger-vänster 0,724 1,711 Beräkna ett 95% konfidensintervall för den genomsnittliga skillnaden mellan betygsgenomsnitten mellan höger och vänsterhänta (höger - vänster) under lämpliga normalfördelningsantaganden. Svara med den nedre gränsen. 9. Antag att du har ett stickprov x 1,..., x 8 från N(µ, σ), där µ är okänd och där σ = 0.6. För att genomföra ett test av H 0 : µ = 0 mot H 1 : µ < 0 så har man bestämt sig för att använda x z = 0.6/ 8 som testvariabel, där x är medelvärdet. Om ditt test skall ha 5 % signifikansnivå, vad blir då det kritiska värdet på testvariabeln z? 10. En forskargrupp vill testa H 0 mot H 1. Forskargruppen består av tolv forskare. Var och en av de tolv forskarna tillämpar ett test på 10 % signifikansnivå, vilka baseras på stickprov av storlek 30. De tolv stickproven är oberoende. Antag att H 0 är sann. Hur stor är sannolikheten att minst två forskare felaktigt drar slutsatsen att H 0 är falsk. 11. I en engelsk studie från 1954 undersöktes hur Y = antal personer med mentala defekter per 10 000 av befolkningen varierade med X= antal lösta radiolicenser i England under de 14 åren 1924-1937. Resultatet framgår av Tabell 1 nedan. (Vissa av uppgifterna i tabellen har medvetet ersatts med frågetecken.) (a) Bestäm förklaringsgraden. (1p) 3 (9)

(b) För att testa om antalet mentala defekter i genomsnitt förändras då antalet radiolicencer ökar kan man beräkna en t-kvot och sedan jämföra den med ett visst tal. Vad är det kritiska värde som t- kvoten skall jämföras med om testet skall ha 1 % signifikansnivå? Ett annat sätt att genomföra testet är att utgå från P-värdet. Är P-värdet i detta fall större eller mindre än 0.001? (c) I genomsnitt hur många fler mentala defekter per 10 000 invånare innebar varje ny radiolicens i England under åren 1924-1937? Besvara frågan genom att beräkna ett lämpligt 99 % konfidensintervall. Ange den nedre gränsen. Tabell 1: Regression Analysis: Defekter versus Licencer Regression Analysis: Defekter versus Licencer The regression equation is Defekter = 4,58 + 0,00220 Licencer Predictor Coef SE Coef T P Constant 4,5822 0,4233?? Licencer 0,00220418 0,00008070?? S = 0,726190 R-Sq =? R-Sq(adj) =? Analysis of Variance Source DF SS MS F P Regression 1 393,39 393,39 745,96 0,000 Residual Error 12 6,33 0,53 Total 13? Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 4 (9)

Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:................................................................... Personnummer:.......................................................... Klicka här för att se kommentarer ang. rättingen. Sannolikheter skall anges som ett tal mellan 0 och 1 i decimalform. Fråga Svar Poäng 1 Sannolikhet (tre decimaler) 0.581 2 2 Sannolikhet (tre decimaler) 0.088 2 3 Sannolikhet (tre decimaler) 0.133 eller 0.132 2 (exakt 0.1325) 0.193 4 Väntevärde i kkr (tre decimaler) 115.000 2 5 Konfidensgrad (fyra decimaler) 0.9785 2 6 Standardavvikelse (tre decimaler) 4.762 2 7 Sannolikhet (tre decimaler) 0.326 (Φ( 0.45) ) 2 8 Nedre gräns (fyra decimaler) -0.8250 2 9 Kritiska värdet k (fyra decimaler) -1.6449 2 10 Sannolikhet (fyra decimaler) 0.3410 2 11 a Förklaringsgrad i procent (tre decimaler) 98.416 1 b kritiskt värde (fyra decimaler) 3.055 = t 0.005 (12) Större eller Mindre Mindre 2 c Nedre gräns (fem decimaler) 0.00195 2 Totalt antal poäng 25 5 (9)

6 (9)

Tentamen i Matematisk statistik, S0001M, del 2 2014-03-28 Till uppgifterna på del 2 krävs fullständinga lösningar 12. Antag att slumpvariabeln η har Exponentialfördelning med λ = 0.05. Slumpvariabeln ξ definieras som kvadraten av η, dvs ξ = η 2. Bestäm medianen i fördelningen till ξ. Lösning. Medianen m i fördelningen till ξ definieras via (10p) P (ξ m) = 0.5. Med andra ord: P (η 2 m) = 0.5. Då η 0 är det samma sak som att P (η m) = 0.5. Eftersom η Exp(0.05) har vi P (η x) = e 0.05x. Det betyder att e 0.05 m = 0.5, vilket ger m = 192.2. 13. En ingenjör vill bestämma ett konfidensintervall för den genomsnittliga stopptiden efter avbrott i en gruva med hjälp 8 uppmätta stopptider 1 (enhet: timmar): 0.21, 2.97, 0.28, 0.03, 2.47, 0.12, 0.29, 0.31 Ingenjören är osäker på vilka fördelningsantaganden som kan göras för stopptiden, men hittar en normalfördelningsplot över 30 stopptider från en tidigare undersökning (se Figur 1). Använd de åtta mätvärdena ovan för att bestämma ett konfidensintervall för den genomsnittliga stopptiden som har en konfidensgrad som ligger så nära 95 % som möjligt. Kommentar: I uppgiften ingår att göra en tolkning av genomsnitt som är användbar i det sammanhang som beskrivs i uppgiften. Probability Plot of Differenser Normal - 95% CI Percent 99 95 90 80 70 60 50 40 30 20 Mean 0,9079 StDev 0,9626 N 30 AD 2,674 P-Value <0,005 10 5 1-2 -1 0 1 Differenser 2 3 4 Figur 1: Normalfördelningsplot över differenser (tidpunkt då arbetet kom igång efter stopp minus tidpunkt då stoppet inträffade) Lösning Normalfördelningsplotten antyder att stopptiderna inte kan antas komma från en normalfördelning. (Flera punkter ligger utanför (12p) 1 På tentan som gavs i skrivsalen stod det felaktigt att det var 10 mätvärden. 7 (9)

Tentamen i Matematisk statistik, S0001M, del 2 2014-03-28 det 95%-iga konfidensbandet och P-värdet för testet av H 0 : normalfördelning mot H 0 :inte normalfördelning är mindre än 0.005.) Men om vi tolkar genomsnitt som median (som på Lab 2) så kan vi använda metoden med teckenintervall. Den metoden kräver ju inte att vi vet något om fördelningen förutom att den är kontinuerlig. Metoden utgår från det ordnade stickprovet x(1) < x(2) <... < x(8) och intervallen I k = [x(1 + k), x(8 k)], k = 0, 1, 2, 3. Intervallet I 0 innehåller medianen m såvida inte alla mätvärden är mindre än m eller alla är större än m. Sannolikheten att I 0 innehåller m är därför 1 (0.5 8 + 0.5 8 ) = 0.992. För att få konfidensgraden för I k, k = 1, 2, 3 inför vi (som på Lektion 11) hjälpvariabeln η =antal variabler som är mindre än m. De möjliga värdena på η är 0,1,...,8 och vi har η Bin(8, 0.5). Att intervallet I 1 = [x(2), x(7)] innehåller m är samma sak som att 2 η 6. Binomialsannolikheten är 0.929. Att intervallet I 2 = [x(3), x(6)] innehåller m är samma sak som att 3 η 5. Sannolikheten är 0.71. Så I 1 passar bäst. Numeriskt: I 1 = [0.12, 2.47]. 14. Vi återvänder till studien om hur antalet mentala defekter varierar med antal lösta radiolicencer. (Se uppgift 11). Resultatet från den studien 2 återges nedan. Defekter Licencer År 7.9 1350 1924 8.1 1960 1925 9.3 2270 1926 10.2 2483 1927 11.0 2730 1928 11.8 3091 1929 12.6 3647 1930 16.4 4620 1931 18.4 5497 1932 19.1 6260 1933 20.7 7012 1934 21.1 7618 1935 22.8 8131 1936 23.8 8593 1937 (a) Beräkna korrelationskoefficienten mellan antalet mentala defekter och antal lösta radiolicencer. För full poäng krävs att du istället för att utgå från definitionen utnyttjar Minitabutskriften från uppgift 11 och kända samband mellan relevanta storheter. (b) Betyder svaret i (a) att det nödvändigtvis fanns ett orsakssamband mellan antalet mentala defekter och antal lösta radiolicencer i England under åren 1924-1937? Varför eller varför inte? Om du svarat nej, hur skulle man kunna använda resultatet i tabellen ovan för att säga något om huruvida ett sådant samband faktiskt fanns? (6p) Lösning 2 Studien genomfördes 1954 av Yule & Kendall. 8 (9)

Tentamen i Matematisk statistik, S0001M, del 2 2014-03-28 (a) Från uppgift 11 (a) har vi R 2 = 393.39/(393.39 + 6.33) = 0.984163, så korrelationskoefficienten r = 0.992. (Enligt regressionshäftet gäller att r 2 = R 2 och från tabellen är det helt tydligt att Y ökar då X ökar, så r måste vara positiv.) (b) Korrelationen mäter graden av linjärt samband och säger ingenting om huruvida ett eventuellt linjär samband beror av ett orsakssamband. I allmänhet är det svårt att påvisa att orsakssamband finns. För att säga något om ett sådant fanns i detta fall så skulle man kunna göra en multipel regression av Y mot X 1 =antal licenser och X 2 =tiden i år. Om man då skulle finna X 1 inte har signifikant effekt men X 2 har det så skulle det vara ett tecken på att sambandet mellan mentala defekter och antal lösta radiolicenser är dåligt. Fotnot Om man kör multipel regression med Y mot X 1 och X 2 så får man resultatet i Tabell 2 nedan. Det gäller fortfarande att X 1 har signifikant effekt. Men det skulle ju kunna vara så att det finns någon annan variabel, t.ex. X 3 =generell teknisk och vetenskaplig utveckling, som om den infördes i modellen skulle göra X 1 överflödig. Att avgöra om orsakssamband finns är som sagt svårt. Tabell 2: Regression Analysis: Defekter versus Licencer; Year The regression equation is Defekter = - 291 + 0,00195 Licencer + 0,154 Year Predictor Coef SE Coef T P Constant -290,7 578,4-0,50 0,625 Licencer 0,0019503 0,0005042 3,87 0,003 Year 0,1535 0,3008 0,51 0,620 9 (9)