Matematisk statistik Tentamen: 214 6 2 kl 14 19 FMS 35 Matematisk statistik AK för M, 7.5 hp Till Del A skall endast svar lämnas. Samtliga svar skall skrivas på ett och samma papper. Övriga uppgifter fordrar väl motiverade lösningar med svar. Varje lösning skall börja överst på nytt blad. Institutionens papper skall användas både som kladdpapper och inskrivningspapper. Skriv fullständigt namn på varje papper. Rödpenna får ej användas. Tillåtna hjälpmedel: Miniräknare (utnyttjande av i förväg skrivna program och/eller textmassor är ej tillåtet), Formelsamling i Matematisk statistik för M, samt TEFYMA eller MaFyKe, eller likvärdig gymnasietabell. Totalt kan man få 12 poäng. För godkänt krävs 5 poäng. Resultatet läggs in i ladok senast 13 juni 214. DEL A: ENDAST SVAR 1. (a) Vattentillgången (miljoner liter) i en stad anses variera under sommarmånaderna enligt en normalfördelning med väntevärde 45 och standardavvikelse 5. Vad är sannolikheten att vattentillgången understiger 36 miljoner liter? Ange tre decimaler i svaret. (b) I en annan stad lider man av vattenbrist i genomsnitt en gång vart tionde år. Antag oberoende mellan år av vattenbrist. Vad är sannolikheten att man under de närmaste 15 åren får vattenbrist minst 5 år? Ange tre decimaler i svaret. (c) Av de bosatta i en stad är 2 % studenter och 2 % av dessa är bilägare. Bland icke-studenterna i staden är däremot 55 % bilägare. Beräkna sannolikheten att en slumpmässigt vald person är bilägare. Ange tre decimaler i svaret. (d) Fortsättning från 1c. Beräkna sannolikheten att en slumpmässigt vald bilägare är student. Ange tre decimaler i svaret. (e) En viss typ av lager har livslängden X i år som är Weibullfördelad med fördelningsfunktion F(x) = 1 e (x/1).5 för x. Vad är sannolikheten att lagret fungerar efter 1 år? Ange tre decimaler i svaret. (f) I en fabrik har man under en längre tid studerat antal produktionsstopp som sker under en arbetsvecka: Antal stopp 1 2 3 4 Sannolikhet.6.3.5.3.2 Beräkna det förväntade antalet produktionsstopp under en arbetsvecka. Ange två decimaler i svaret. (g) Antalet döda eller svårt skadade i olyckor på gator och vägar i Lund antas vara Poissonfördelat med väntevärde λ. Statistik från några år från gatu- och trafikkontoret: År 22 23 24 25 26 27 28 29 Antal döda eller skadade 37 5 45 47 57 41 44 41 Utifrån dessa data, uppskatta sannolikheten att det under år 21 ska vara högst 32 döda eller skadade. Ange tre decimaler i svaret. (h) Man har gjort ett 95 % konfidensintervall, baserat på 9 mätningar, för μ i en normalfördelning. Detta intervall blev (4.5, 6.2). Nu vill man använda samma data för att göra ett intervall förμsom har konfidensgrad 99 %. Hur kommer det nya intervallet att se ut? Ange två decimaler i svaret. (i) Vid en kvalitetskontroll av ett stort parti mäter man på n enheter en storhet som inte bör understiga 15. Man testar H :μ 15 mot H 1 :μ<15 och om H förkastas anses partiet dåligt och skickas tillbaka. Man utförde testet med direktmetoden och beräknade därmed P-värdet (den exakta felrisken), vilken blev.21. Ange om följande påstående är sanna eller falska. (Du får +1 poäng vid korrekt svar och -1 poäng vid felaktigt svar. Totalpoängen på denna deluppgift kan förstås inte understiga.) i. Sannolikheten att partiet är ok är.21 ii. Det är 2.1 % risk att vi skickar tillbaka ett part som är ok iii. H kan ej förkastas på nivå 1 % iv. Det är 2.1 % risk att vi accepterar ett parti som är dåligt 1
1 Probability of rejecting the hypothesis mu<=mu.9.8.7.6 sigma=.7.5 n=5.4 alpha=.1.3.2.1.2.4.6.8.1.12.14.16.18 c=mu mu (deviation from mu) Figur 1: Styrkefunktion till uppgift 1(j) (j) Man gör 5 mätningar av alkoholhalten (promille) i blodet hos en person med ett instrument vars avlästa värden kan anses vara normalfördelade med μ (verklig alkoholhalt) som väntevärde och standardavvikelse.7. Då man ska undersöka om personen ska förklaras skyldig till rattonykterhet motsvaras det av att testa H : μ.2 (personen oskyldig) mot H 1 :μ>.2 (rattonykter) med ett ensidigt test på signifikansnivå.1. För att undersöka testets styrka ritar man ut dess styrkefunktion. Använd figuren för att uppskatta hur stor sannolikheten är att man kommer att låta en person med alkoholhalt.3 promille gå fri. Svara med en decimal. DEL B: FULLSTÄNDIGA LÖSNINGAR T.ex. ska införda beteckningar noga redovisas, modeller alltid anges och approximationer, hypoteser och slutsatser anges och motiveras 2. Ett sätt att mäta ett reningsverks kapacitet är att mäta värdet på Biochemical Oxygen Demand (BOD) i det renade vattnet. BOD-värdet mäts i mg syrgas per liter och ju lägre värde på BOD, desto effektivare är reningen. Tillåtet utsläpp från reningsverk ligger vanligen på maximalt 1 mg/l. (a) I ett reningsverk mättes BOD-värdet på avfallsvattnet vid sju olika tillfällen: Tillfälle 1 2 3 4 5 6 7 BOD (mg/l) 7.1 9.5 5.3 8.6 1.7 12.7 1.3 Ligger det förväntade BOD-värdet under gränsvärdet 1 mg/l? Antag lämplig(a) normalfördelningar. (b) För att förbättra reningsverkets kapacitet prövar man en ny typ av rening. Vid ett test låter man en del av dagens avfallsvatten renas med den gamla metoden medan resten renas med den nya, varefter man mäter BOD-värdet. Dessa tester utfördes ungefär en gång varannan vecka i några månaders tid och gjordes då på den aktuella dagens avfallsvatten. Tyvärr gick det inte att få något BOD-värde för den nya reningstekniken den 24/2. Testdag 3/2 17/2 24/2 3/3 14/3 21/3 BOD (mg/l) med gammal metod 5.6 12.4 7.3 1.3 2.6 9.5 BOD (mg/l) med ny metod 4.7 9.3 8.5 1.1 8.2 Ger den nya tekniken en signifikant förbättring av reningen så att förväntad BOD-värde blir lägre? Antag lämplig(a) normalfördelningar. (1p) 3. En lärare vid LTH funderar över hur Lundakarnevalen påverkar tentamensresultatet på den kurs som varje år tenteras i månadsskiftet maj/juni. I figur 2 visas histogram och normplot för resultaten från ett typiskt icke-karnevalsår. Efter karnevalsårets tenta beräknades medelelvärde och standardavvikelse för både karnevalsår och icke-karnevalsår: x s n Karnevalsår 61.85 19.26 11 Ej karnevalsår 65.55 2.5 17 (a) Undersök om dessa data styrker misstanken att den förväntade tentapoängen vid den ordinarie tentamen är lägre under ett karnevalsår. (12p) (1p) 2
15 ANTAL 1 5 Probability 1 2 3 4 5 6 7 8 9 1 11 RESULTAT Normal Probability Plot.997.99.98.95.9.75.5.25.1.5.2.1.3 2 3 4 5 6 7 8 9 1 11 RESULTAT Figur 2: Histogram och normplot för tentaresultat ett normalår (b) Läraren vet av erfarenhet att 1 % av studenterna som är registrerade på kursen går ej upp på den ordinarie tentamen i maj/juni. Karnevalsåret var det 11 av de 13 registrerade som kom till ordinarie tenta. Tyder detta på att karnevalsår skiljer sig från icke karnevalsår så att det är färre som tenterar den ordinarie tentan? (8p) 4. Vid testning av en viss mätapparat placeras den i en miljö, där den utsätts för störningar. Tidsavståndet mellan två på varandra följande störningar är exponentialfördelat med väntevärde a minut, d.v.s. täthetsfunktionen är. f (x) = 1 a e x a, x (a) Man anser att a =.5. Vad är sannolikheten att det efter störning nr 6 dröjer mer än 1 minut innan nästa störning kommer? (3p) (b) Man räknar med att apparaten går sönder vid den 1:e störningen. Om Y är tiden (i minuter) fram till denna störning, ange en approximativ fördelning för Y. Ledning: I en exponentialfördelning med väntevärde a är standardavvikelsen också a. (5p) (c) Man anser att a =.5. Vad är sannolikheten att apparaten är hel efter 45 minuter? (d) Man tvivlar på att parametern a verkligen är.5 och vill skatta den utifrån 1 observationer av tidsavstånd mellan störningar: x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 1 Visa, genom att härleda ML-skattningen för a, att ML-skattningen är medelvärdet av observationerna, d.v.s. att a = 1 1 1 i=1 x i 5. Man ville undersöka vilka faktorer som påverkar huspriset i en viss region. På 122 hus noterade man bl.a. försäljningspris, boyta, taxeringsvärde och standardpoäng (ju lyxigare villa desto högre standardpoäng). (a) Först ville man undersöka hur boytan påverkar försäljningspriset. På sista bladet (i figur 3 och figur 4 med tillhörande tabeller) ser du resultatet av två enkla linjära regressionsmodeller där y är priset och x är boytan. Vilken av de två modellerna anser du passar bäst till data? Motivera noga ditt svar. (2p) (b) Utgå från modell 2. Gör ett intervall för hur mycket logaritmerat pris ökar då boytan ökar med 1 m 2. (c) Utgå från modell 2. Mias hus har en boyta på 14 m 2, gör: i. en uppskattning av försäljningspriset på hennes hus ii. en uppskattning av det intervall vilket försäljningspriset på hennes hus kommer att ligga med 95 % sannolikhet Uppgiften forstätter på baksidan! (2p) (1p) 3
(d) Sedan utökade man analysen till en multipel linjär regression med de tre variablerna boyta, taxeringsvärde och standardpoäng som tänkbara förklarande variabler för att beskriva hur logaritmerad försäljningspris varierar. Resultat från analysen: Koefficient Skattning Konfidensintervall (95%) Konstant 5.6624 (5.462, 5.9185) Boyta.47 (.27,.67) Taxeringsvärde.8 (.3,.12) Standardpoäng.68 (-.45,.181) Ange om följande påstående är sanna eller falska. Du behöver INTE motivera dina svar här. Du får +2 poäng vid korrekt svar och -2 poäng vid felaktigt svar. Totalpoängen på denna deluppgift kan förstås inte understiga.(1p) i. Enligt denna tabell tycks variabeln boyta inte påverka logaritmerat försäljningspris ii. Det är lämpligt att pröva en modell med två förklarande variabler och förslagsvis stryka standardpoäng i modellen iii. För att ta reda på vilka av de tre variablerna som påverkar logaritmerat försäljningspris är det bättre att göra tre separata enkla linjära regressionsanalyser iv. Ingen av variablerna boyta, taxeringsvärde eller standardpoäng tycks påverka logaritmerat försäljningspris v. Denna modell med boyta, taxeringsvärde och standardpoäng är mindre lämplig eftersom konstanten i modellen inte tycks vara 4
3 Linear Regression 25 FÖRSÄLJNINGSPRIS 2 15 1 5 5 2 4 6 8 1 12 14 16 18 2 15 Residualer, modell 1.997 Normplot på residualer, modell 1.99 1.98.95.9 5.75.5.25.1 5.5.2.1 1 4 6 8 1 12 14 16 18 2.3 1 5 5 1 15 Figur 3: Grafer som hör ihop med modell 1 i uppgift 5(a): Längst till vänster: Heldragen linje visar skattad regressionslinje. Inritat är också prediktionsintervall (95%) samt konfidensintervall för linjen (95%). Mitten: Residualer. Höger: Normalfördelningsplot för residualer Modell 1: y i =α 1 +β 1 x i +ε i därε 1,...,ε n är oberoende normalfördelade slumpvariabler med väntevärde och standardavvikelseσ 1 Koefficient Skattning Konfidensintervall (95%) α 1-9.397 (-25.2, 231.4) β 1 8.225 (6.323, 1.13) s=327.3, R 2 =.38 5
8 Linear Regression 7.5 LN(FÖRSÄLJNINGSPRIS) 7 6.5 6 5.5 2 4 6 8 1 12 14 16 18 2.8 Residualer, modell 2.997 Normplot på residualer, modell 2.6.99.98.4.95.9.2.75.5.2.25.4.1.5.6.2.1.8 4 6 8 1 12 14 16 18 2.3.8.6.4.2.2.4.6.8 Figur 4: Grafer som hör ihop med modell 2 i uppgift 5(a): Längst till vänster: Heldragen linje visar skattad regressionslinje. Inritat är också prediktionsintervall (95%) samt konfidensintervall för linjen (95%). Mitten: Residualer. Höger: Normalfördelningsplot för residualer Modell 2: ln(y i ) =α 2 +β 2 x i +ε i därε 1,...,ε n är oberoende normalfördelade slumpvariabler med väntevärde och standardavvikelseσ 2 Koefficient Skattning Konfidensintervall (95%) α 2 5.844 (5.652, 6.37) β 2.815 (.658,.963) s=.262, R 2 =.48 Lycka till och glöm inte att svara på CEQ-enkäten som skickas till dig! 6