Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2015-01-16 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: A. Jonsson, M. Shykula, J. Martinsson Jourhavande lärare: Adam Jonsson Tel: 0920-491948 Jesper Martinsson Tel: 0920-491425 Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium om regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, behöver enbart svar lämnas in, men om korta lösningar bifogas så finns det vid gränsfall möjlighet att få delpoäng på en uppgift. Delpoäng ges i första hand om en uppgift i stort sett behandlats korrekt men slarvfel begåtts. Om kortfattade lösningar ej bifogas så finns inga möjligheter att få delpoäng på en uppgift. För godkänt krävs avklarade webbuppgifter samt minst 17 poäng på del 1 inklusive eventualla bonuspoäng. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Det ifyllda svarsbladet skall läggas först om du lämnar in lösningar och bifogas oavsett om du lämnat in lösningar eller ej. Om inte det ifyllda svarsbladet lämnas in bedöms tentamen som underkänd. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (9)
1. För många sjukdommar gäller att diagnosen inte alltid är säker. Dels kan en person med sjukdomen bli friskförklarad, dels kan en frisk person få diagnosen sjuk. Antag att en godtycklig person har en viss sjukdom med sannolikhet 0.07. Antag vidare att diagnosmetoden ger rätt resultat om en person är frisk med sannolikhet 0.85, och rätt resultat om personen är sjuk med sannolikhet 0.93. Hur stor är sannolikheten för felaktig diagnos? 2. Basketspelaren Steve Nash satte i genomsnitt 0.9043 av sina straffkast, vilket är rekord i den amerikanska basketligan NBA. Om Steve Nash gör 5 straffkast, vad är sannolikheten att han sätter exakt 3 stycken? Antag att resultaten på de fem kasten är oberoende. 3. Bilar anländer till en färje-station med en genomsnittlig intensitet på 7 bilar per timme. Antalet bilar som anländer till färje-stationen på en timme antas ha Poissonfördelning. Varje timme anländer till stationen en tom färja. Färjorna kan ta max 10 bilar. Om en viss färja kan ta alla bilar som väntar vid stationen, vad är då sannolikheten att nästa färja lämnar stationen helt full? OBS: Tiden som krävs för att lasta färjorna kan antas vara försumbar. 4. Slumpvariabeln ξ har en kontinuerlig fördelning med fördelningsfunktion 0 om x 1 F (x) = x/3 + 1/3 om 1 x 2 1 om x > 2. (a) Bestäm sannolikheten P (0 < ξ 1). (b) Bestäm väntevärdet E(ξ). 5. Antag att ξ 1 N(1, 1) och ξ 2 N(0, 2) är oberoende. Beräkna P (ξ 2 < ξ 1 < ξ 2 + 1.5). 6. Ett samhälle med 100 hushåll skall byggas. Varje hushåll antas skaffa antingen 0,1 eller 2 bilar, där det förväntade antalet bilar i ett hushåll är 0.70 och där standardavvikelsen är 0.41. Hur många parkeringsplatser måste byggas för att alla bilar i samhället ska få plats med 99 % säkerhet? Antag att antalet bilar i olika hushåll är oberoende. (3p) 7. Antag att ξ 1,..., ξ 5 är ett stickprov från N(µ, σ), där σ = 0.3. För att testa H 0 : µ = 3.5 mot H 1 : µ < 3.5 på 5% signifikansnivå har man bestämt sig för att använda testvariabeln w = ξ 3.5 för att sedan förkasta H 0 om w är mindre än ett kritiskt värde k. 2 (9)
(a) Bestäm det kritiska värdet på testvariabeln w, dvs bestäm k. (b) De uppmätta värdena x 1,..., x 5 på ξ 1,..., ξ 5 ges i tabellen nedan: i 1 2 3 4 5 x i 3.05 3.17 2.93 2.90 2.95 Bestäm det observerade värdet på w. Skall H 0 förkastas? 8. En läkare vill veta om svenska kvinnor har större underarmsmått på den dominanta sidan eller om måttet på höger och vänster sida i genomsnitt är detsamma. Han utgår från en undersökning av 10 kvinnor, där man inte noterat de faktiska mätvärdena utan endast angivit med + om personens dominanta mått var större. Resultatet återges nedan: Kvinna nr 1 2 3 4 5 6 7 8 9 10 Mätning + + - + + - - + + + Läkaren tycker att det är rimligt att använda ξ =antalet plus-tecken för att testa H 0 : ingen genomsnittlig skillnad mot H 1 : genomsnittlig skillnade finns. Han tillämpar beslutsregeln Förkasta H 0 om antalet plus-tecken är högst 1 eller minst 9. Vilken signifikansnivå har den beslutsregeln? 9. Anna har två vågar. Vid vägning ger båda vågarna ett normalfördelat mätfel. Anna misstänker att vågarna i genomsnitt ger olika värden. För att undersöka detta gör hon fem vägningar av ett föremål på var och en av de två vågarna. Samma föremål vägs alltså på våg 1 och våg 2. Resultatet (enhet: gram) redovisas nedan Vägning 1 2 3 4 5 Våg 1 3.87 4.10 4.14 3.87 4.14 Våg 2 3.96 3.94 3.96 4.00 3.98 Beräkna ett 95 % konfidensintervall för skillnaden mellan våg 1 och våg 2:s genomsnittliga mätfel (våg 1 våg 2). 10. En konsult fick i uppdrag att studera lönesättningen på ett företag. Konsulten valde att studera månadslön, ålder, yrkeserfarenhet och kön för 8 på måfa utvalda anställda. Person # 1 2 3 4 5 6 7 8 Lön (kkr/månad) 17 30 27 35 44 38 36 25 Ålder (år) 21 32 40 56 61 55 39 33 Erfarenhet (månader) 0 120 40 90 160 160 140 80 Kön (M=0,K=1) 1 0 0 1 1 0 1 1 3 (9)
På det insamlade datamaterialet ovan gjordes en multipel linjär regressionsanalys av hur månadslön beror av ålder, erfarenhet och kön. Resultatet ges i Tabell 1. (Vissa av uppgifterna i tabellen har medvetet ersatts med frågetecken.) (a) Bestäm den justerade förkaringsgraden. (b) För att testa om månadslön i genomsnitt förändras då man blir äldre kan man beräkna en t-kvot och sedan jämföra den med ett visst tal. Vad är det kritiska värde som t-kvoten skall jämföras med om testet skall ha 5 % signifikansnivå? Ett annat sätt att genomföra testet är att utgå från P-värdet. Är P-värdet i detta fall större eller mindre än 0.01? (c) På 10% signifikansnivån finns det skillnad i lön mellan män och kvinnor? Svara Ja eller Nej. (d) På 5% signifikansnivån hur många förklarande variabler är signifikanta i den här regressionsmodellen? Svara med antalet. Tabell 1: Regression Analysis: Lön versus Ålder; Erfarenhet; Kön Source DF SS MS F-Value P-Value Regression????? Error? 17,393? Total 7 506,000 S R-sq R-sq(adj) R-sq(pred) 2,08524?? 87,77% Term Coef SE Coef T-Value P-Value Constant 9,59 2,69?? Ålder 0,3147 0,0780?? Erfarenhet 0,0821 0,0190?? Kön 0,88 1,54?? Regression Equation Lön = 9,59 + 0,3147 Ålder + 0,0821 Erfarenhet + 0,88 Kön Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 4 (9)
Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:................................................................... Personnummer:.......................................................... Sannolikheter skall anges som ett tal mellan 0 och 1 i decimalform. Fråga Svar Poäng 1 Sannolikhet (tre decimaler) 0.1444 2 2 Sannolikhet (tre decimaler) 0.068 2 3 Sannolikhet (tre decimaler) 0.169 (0.170 OK) 2 4 a Sannolikhet (tre decimaler) 0.333 1 b Väntevärde (tre decimaler) 0.500 2 5 Sannolikhet (tre decimaler) 0.261 2 6 Antal parkeringsplatser 80 (79.538 OK) 3 7 a Kritiskt värde på w (tre decimaler) -0.221 1 b Observerat värde på w (tre decimaler) -0.500 JA eller NEJ JA 1 8 Signifikansnivå (tre decimaler) 0.021 2 9 Övre gräns (tre decimaler) 0.204 2 10 a Justerad förklaringsgrad (%, tre decimaler) 93.98 1 b Kritiskt värde på t-kvot (tre decimaler) 2.776 1 STÖRRE eller MINDRE STÖRRE 1 b JA eller NEJ NEJ 1 b Ange antingen 0,1,2 eller 3 2 1 Totalt antal poäng 25 5 (9)
6 (9)
Tentamen i Matematisk statistik, S0001M, del 2 2015-01-16 Till uppgifterna på del 2 krävs fullständinga lösningar 11. På en högskola består varje tentaperiod av fem på varandra efterföljande dagar. Högst en tenta schemaläggas per dag under tentaperioden. Studenten Dag läser två kurser under en viss läsperiod. Beräkna sannolikheten att de två tentorna schemaläggs så oturligt att de hamnar dagarna efter varandra. Lösning Det finns ( 5 2 ) = 10 sätt att välja ut dom två dagarna då Dags tentor ska gå. Antag att alla dessa val är lika sannolika. Då har vi P (tentorna hamnar dagarna efter varandra) = g/m, där m = 10 och där g är antalet sätt att schemalägga tentorna så att de hamnar dagarna efter varandra. Vi har g = 4, vilket ger sannolkheten g/m = 0.4. (10p) 12. Anders har två vågar som vid vägning ger normalfördelade mätfel. Anders vet att våg 1 i genomsnitt visar korrekt vikt men misstänker att våg 2 i genomsnitt visar för hög vikt. För att undersöka detta gör han fem vägningar av ett föremål på var och en av de två vågarna. (Samma föremål vägs alltså på våg 1 och våg 2.) Föremålets exakta vikt antas vara okänd och betecknas med µ. Resultatet (enhet: gram) redovisas nedan Vägning 1 2 3 4 5 Våg 1 4.00 3.90 3.92 4.11 4.14 Våg 2 4.13 4.40 4.35 4.26 4.04 Kan Anders påstå att att våg 2 i genomsnitt visar för hög vikt på 5 % signifikansnivå? Beräkna och tolka ett lämpligt konfidensintervall för att besvara frågan. Motivera ditt val av metod samt ange fullständiga modellantaganden för din analys! Lösning Låt x i =vikt vid vägning nummer i på våg 1, y i =vikt vid vägning nummer i på våg 2. Modellantagande: x 1,..., x 5 är ett observerat stickprov från N(µ, σ 1 ), där µ betecknar föremålets (okända) vikt och där σ 1 är okänd. y 1,..., y 5 är ett observerat stickprov från N(µ+, σ 2 ), där betecknar det systematiska (dvs förväntade) mätfelet för våg 2 och där σ 2 är okänd. Antag σ 1 = σ 2. Då har vi modellantagandet för två stickprov med väntevärden µ resp µ+. Konfidensintervall för skillnaden µ+ = ges av uttrycket högst upp på sidan 216 i boken: (10p) ȳ x ± t 0.025 (8)σ obs 1 5 + 1 5. Vi får intervallet (0.03, 0, 41). På 5% risknivå (eller 95 % konfidensgrad) kan man säga att våg 2 i genomsnitt visar för hög vikt. 13. Vi återvänder till problem 10 på del 1. Utöver den information som finns där visar Figur 1 en normalfördelningsplot för de standardiserade residualerna. 7 (9)
Tentamen i Matematisk statistik, S0001M, del 2 2015-01-16 (a) Ange fullständiga modellantaganden för den regressionsmodell som analyserades i uppgift 10. (b) Tolka i ord en av dom de skattade regressionskoefficienterna från uppgift 10 (välj själv vilken). (c) Figur 1 visar en normalfördelningsplot för de standardiserade residualerna. Finns det något i plotten som tyder på att modellantagandena är orimliga? (d) Om man skulle ta bort en av dom förklarande variablerna, vilken bör man välja och varför? (e) Företaget skall anställa en 36 år gammal man med 8 års yrkeserfaranhet. Under budgetarbetet behövde man veta hur stora lönekostnaderna per månad skulle bli för den nyanställda. Lönekostnad (inkl sociala avgifter) fås genom att multiplicera bruttolönen med 1.9. Ange ett interval där de månatliga kostaderna för den nyanställa hamnar med 95% säkerhet. Konfidensintervall och prognosintervall för bruttolön ges i Tabell 2. (4p) Lösning (a) Modellantagandet är Y i = β 0 + β 1 X 1,i + β 2 X 2,i + β 2 X 3,i + ε i, där ε 1, ε 2,..., ε 8 är oberoende stokastiska variabler, ε i N(0, σ), σ är en okänd konstant; Y =lön, X 1 =ålder, 21 X 1 61, och X 2 =erfarenhet, 0 X 2 160, och X 3 =kön=0 eller 1. (b) Vi kan t.ex. tolka b 1 = 0.3147 som att skillnaden i lön mellan två personer som skiljer i ålder med ett år i genomsnitt är 315 kr i månaden. (c) Residualerna ska vara normalfördelade om modellantagandet är uppfyllt. Det finns inget i plotten som tyder på att residualerna inte är normalfördelade: Alla värden ligger innanför banden. Och p-värdet är 0.48: värdena ser alltså ut som normalfördelade värden ofta gör. (d) En metod för modellval utgår från med vilken säkerhet man kan påstå att variablerna har effekt. I praktiken väljer man bort den variabel som har högst p-värde, alternativt minst t-kvot. Här har variabeln kön minst t-kvot, b 3 /s b3 = 0.57. (e) Bruttolön för person med X 1 = 36, X 2 = 96, X 3 = 0 kan prognostiseras mha prognosintervall. Ett sådant ges av (22.0290, 35.568): bruttolönen hamnar i detta intervall med 95% säkerhet. Det betyder att lönekostnaderna med 95% säkerhet hamnar mellan 41.8 och 67.58 kkr/mån. 8 (9)
Tentamen i Matematisk statistik, S0001M, del 2 2015-01-16 Tabell 2: Prediction for Lön Regression Equation Lön = 9,59 + 0,3147 Ålder + 0,0821 Erfarenhet + 0,88 Kön Variable Setting Ålder 36 Erfarenhet 96 Kön 0 Fit SE Fit 95% CI 95% PI 28,7986 1,26358 (25,2903;?) (22,0290;?) Probability Plot of SRES1 Normal - 95% CI 99 95 90 Mean 0,05456 StDev 1,022 N 8 AD 0,314 P-Value 0,463 80 70 Percent 60 50 40 30 20 10 5 1-4 -3-2 -1 0 SRES1 1 2 3 4 Figur 1: Normalfördelningsplot 9 (9)