Karlstads universitet Avdelningen för nationalekonomi och statistik Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Egen miniräknare. Ansvarig lärare: Jari Appelgren Övrigt: För att få maximala 10 poäng på en uppgift krävs att antaganden och motiveringar noga anges samt att lösningen även i övrigt är så utförlig att den utan svårighet kan följas. För betyget Godkänd krävs minst 40 poäng, för betyget Väl Godkänd krävs minst 60 poäng. Uppgift 1 Antag att vi har händelserna A, B och C. Sannolikheten för respektive händelser är följande: P(A) = 0,6, P(B) = 0,3, P(C) = 0,15. Vi vet även följande: P(A och B) = 0, P(A eller C) = 0,75 och P(C B) = 0,15 a) Beräkna P(A eller B). b) Beräkna P(B och C). c) Är någon av händelserna A, B eller C oberoende av varandra? Motivera. Uppgift 2 En student som ofta besökt Svensk kassaservice har samlat data från flera slumpmässiga tidperioder. Data som samlats in handlar om antal kunder under perioden och betjäningstiden. Kunders ankomst till Svensk kassaservice antas vara oberoende. Totalt undersöktes tjugo 5-minuters perioder där bara två av de fyra kassorna varit öppna. Det visade sig att i genomsnitt så besökte tio kunder Svensk kassaservice på 5-minuter. a) Uppskatta sannolikheten att högst 2 personer kommer in under 5 minuter. b) Uppskatta sannolikheten att minst 1 person kommer in under 5 minuter. c) Uppskatta sannolikheten att ingen kommer inom ett 2-minutersintervall.
Karlstads universitet Avdelningen för nationalekonomi och statistik Uppgift 3 Vid en viss tillverkningsprocess kontrolleras de tillverkade enheterna i en testmaskin om de klassificeras som antingen felaktig eller korrekt. Defekta enheter klassificeras som felaktig med sannolikheten 0,90. En fungerande enhet klassificeras som korrekt med sannolikheten 0,80. Av samtliga tillverkade enheterna så vet vi att 5 % är defekta. Vad är sannolikheten att en enhet som klassificeras som korrekt verkligen är fungerande, samt att en som klassificeras som felaktig är defekt? Kommentera resultatet. Uppgift 4 En slumpvariabel som anses vara normalfördelad gav i ett stickprov följande resultat: 1,7 2,0 1,8 2,1 2,2 1,8 2,5 2,3 1,6 a) Beräkna ett 98% konfidensintervall för variabelns väntevärde. b) En person, som sett data, påstår att väntevärdet för variablen är 2,3. Kommentera denna utsaga med hjälp av intervallet i a. Uppgift 5 Sveriges befolkning (i tiotusen-tal) fördelat enligt kön var den 31 december 2005: Ålder Kvinnor Män 0-6 33 35 7-24 98 103 25-64 236 243 65-89 68 Totalt 456 449 a) Jämför könen för olika åldrar med ett lämligt diagram. Förklara valet av diagram. b) På vilken datanivå är Ålder som den mäts i tabellen? c) Vad innebär att en variabel är kvantitativa respektive kvalitativa? Ge exempel från tabellen. d) Om man ser variablerna i sin grundform (obearbetad), är någon/några av dessa diskreta eller kontinuerliga?
Karlstads universitet Avdelningen för nationalekonomi och statistik Uppgift 6 En spelare spelar ett spel med en 12-sidig tärning. Insatsen är 2 kr per rullning. Vinst får spelaren om följande inträffar; A = resultatet är minst en 7:a, B = resultatet är minst en 10:a, C = resultatet visar en 12:a. Händelse A ger 1 kr, B ger 2 kr utöver annan vinst, och slutligen ger C utöver annan vinst 4 kr. Betrakta spelarens nettovinst (vinst insats) som slumpvariabel X. a) Bestäm sannolikhetsfördelningen för X. b) Beräkna P(-2 < X < 3) c) Är detta ett bra spel för spelaren? Förklara utförligt vem som tjänar på detta spel i det långa loppet. Uppgift 7 a) Antag att man har följande hypoteser: H 0 : π 0.70 och H 1 : π > 0.70 Vi har ett stickprov med 100 observationer som gav p = 0.78. Kan vi förkasta nollhypotesen på signifikansnivå lika med 5 %. Utför samtliga steg i hypotesenprövningen fullständigt. b) Beräkna p-värdet för testet. Kommentera vad slutsatsen för testet hade varit om man hade en dubbelsidig alternativ hypotes och signifikansnivå på 5%, utifrån det p-värde som beräknas. Observera att det ska framgå på vilket sätt p-värdet ger upphov till slutsatsen för denna situation. Uppgift 8 Sju slumpmässigt valda personer har undersöks med avseende på blodtryck och ålder, vilket gav följande resultat: Ålder 17 26 37 48 50 68 72 Blodtryck (mmhg) 110 125 145 138 196 188 199 a) Skapa ett spridningsdiagram över data. b) Beräkna korrelationskoefficienten. Tolka värdet. c) Beräkna determinationskoefficienten. Tolka värdet. d) Anpassa med minsta kvadratmetoden Y = a + bx och tolka resulatet i ord.
Lösningsförslag Tentamen (STA A10/13) 070514 Uppgift 1 a) P(A eller B) =... generella additionssatsen... = P(A) + P(B) + P(A och B) = 0,6 + 0,3 + 0 = 0,9 b) P(B och C) = generella multiplikationssatsen... = P(C B) P(B) = 0,15 0,3 = 0,045 c) A och B är beroende eftersom P(A och B) = 0 0,18 = P(A) P(B). A och C är beroende också, eftersom P(A och C) = 0 0,09 = P(A) P(C). B och C är oberoende eftersom P(C B) = 0,15 = P(C), alltså händelsen C beror inte på om händelsen B inträffar eller inte. Uppgift 2 Poisson fördelning med okänd µ. Vi har en skattning på µ som är 10 kunder per 5 minuter. a) P(X 2) = P(0) + P(1) + P(2) 0,0028 b) P(X 1) = 1 P(X < 1) = 1 P(0) 1 0 = 1 c) Två minutersintervall ger en skattning av µ till 4 kunder Y ~ Po(4) P(Y = 0) 0,0183 Uppgift 3 Definitioner: D = defekt enhet, ~D = fungerande enhet (ej defekt), f = enheten klassificeras som felaktig samt k = enheten klassificeras som korrekt. D ~D k 0,005 0,76 0,765 f 0,045 0,19 0,235 0,05 0,95 1 P(~D k) = 0,76 / 0,765 = 0,9935 och P(D f) = 0,045 / 0,235 0,1915 Tolkning: Korrekt klassificerade enhet är i högsta grad troligen en fungerande enhet (99,35%), medans för enheter som klassificerade som felaktiga så är ungefär 20% verkligen defekta. Om det inte kostar för mycket så bör man alltså undersöka de enheter som klassificerats som felaktiga mer noggrant. Uppgift 4 X ~ N(µ, σ). Eftersom vi har normalfördelning med litet stickprov (n = 9) och okänd σ så använder vi t-fördelningen. a) 2 ± 2,90 0,3 / 9 2 ± 0,29 98% KI för µ blir [1,71, 2,29]. b) Tolkning av intervallet är att med 98% säkerhet så ligger populationens parametern µ inom detta. Det innebär att om vi haft otur så är inte 2,3 ett troligt värde på µ.
Uppgift 5 a) Sveriges befolkning 31 december 2005 300 250 Antal (10 000-tal) 200 150 100 Kvinnor Män 50 0 0-6 7-24 25-64 65 - Ålder Eftersom vi vill jämföra antal män och kvinnor i de olika åldrarna så blir ett parvis stapeldiagram ett lämpligt alternativ. Vi kan direkt utläsa skillnader mellan könen. Samtidigt som vi kan även se skillnader mellan åldersklasser (sekundärt). Vad vi ser i diagrammet är att män är fler i åldersklasserna upptill 25-64 år, medans 65+ klass är kvinnorna fler. Detta är inte oväntat eftersom kvinnor lever i genomsnitt längre än män. b) Ordinal skalnivå. c) Kvalitativ variabel är en icke-numerisk variabel som definierar en kvalité hos enheten eller individen, t ex kön (man / kvinna). Kvantitativ variabel är en numerisk variabel som definierar en kvantitet (numerisk mängd) hos enheten eller individen, t ex antal. d) Diskret variabel är antal och kontinuerlig är ålder. Uppgift 6 a) x P(X = x) x P(x) -2 0,500-1 -1 0,250-0,250 1 0,167 0,167 5 0,083 0,415 1,000-0,668 b) P(-2 < X < 3) = P(-1) + P(1) = 0,250 + 0,167 = 0,417 c) E(X) = -0,668 vilket innebär att spelaren kommer i det långa loppet att gå back 0,668 kr per omgång.
Uppgift 7 a) Hypoteserna: H 0 : π 0,70 mot H 1 : π > 0,70. Signifikansnivån: α = 0,05. Teststatistika: Proportioner med stort stickprov så normalapproximering gäller, alltså Z 0 = (p π)/ ( π(1- π)/n) ~ approx. N(0, 1) under H 0. Beslutsstrategi: Förkasta H 0 om z 0 > 1,645 och kan ej förkasta H 0 om z 0 1,645. Beräkning: z = (0,78 0,70)/ (0,70(1-0,70)/100) 1,7457 Slutsats: Förkasta H 0 eftersom z 1,7457 > 1,645, vilket innebär att vi har ett statistiskt signifikant på 5% signifikansnivå att π är större än 0,7. b) p-värdet = P(Z 1,7457) < P(Z > 1,74) = 0,0409. Om testet hade varit dubbelsidigt så hade p-värdet för z = 1,7457 blivit lika med 2 0,0409 = 0,0818 > 0,05 = α. Alltså hade vi inte kunnat förkasta H 0 i det fallet. Uppgift 8 a) Spridningsdiagram för ålder och blodtryck 250 200 Blodtryck (mmhg) 150 100 50 0 0 10 20 30 40 50 60 70 80 Ålder b) r = 0,8963, vilket innebär att det är stark linjärt samband mellan ålder och blodtryck. c) r 2 = 0,8034, vilket innebär att ca 80% av variationen för blodtrycket samvarierar (kan förklaras) med variationen i ålder. d) Y = 84,52 + 1,60 x. Interceptet a = 84,52 är där regressionslinjen korsar y-axeln