Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 004, kl 14.00-19.00 Tillåtna hjälpmedel: Bifogad formelsamling, approimationsschema och tabellsamling (dessa skall returneras). Egen miniräknare. Ansvarig lärare: Hannah Hall, telefon 054 700 11 3 Övrigt: För att få maimala 10 poäng på en uppgift krävs att antaganden och motiveringar noga anges samt att lösningen även i övrigt är så utförlig att den utan svårighet kan följas. För betyget Godkänd krävs minst 40 poäng och för betyget Väl Godkänd krävs minst 60 poäng. Uppgift 1 följande sammanställning redovisas dygnsmedeltemperaturen ( o C) i Karlstad i april 004: 1 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 6 6 6 6 6 7 7 a. På vilken datanivå mäts ovanstående observationer? Dvs. Nominalskala, ordinalskala, intervallskala eller kvotskala. b. Redovisa materialet i en frekvenstabell. c. Beräkna april månads medeltemperatur ( µ ) i Karlstad, samt standardavvikelse (σ ). Uppgift Vädret en dag under tiden 1 juni 30 juli i Göteborg kan indelas i tre olika typer; lågtryck, ostadigt eller högtryck. Erfarenheten visar att de olika vädertyperna förekommer med sannolikheterna 0,5, 0,3, och 0, respektive. Vi känner också till sannolikheten för regn vid de olika vädertyperna; 0,9, 0,5 och 0,5 respektive. a. Anta att du skall resa till Göteborg den 5 juni för att fira en kompis bröllop, vad är sannolikheten att det regnar den dagen? b. Du befinner dig i Göteborg på bröllopsdagen och det regnar. Eftersom det regnar, gissar du att det är ett lågtryck. Vad är sannolikheten att du har gissat fel? 1
Uppgift 3 Välsviken (närmaste tågstation till Karlstads universitet), stiger fem passagerare på ett tåg med fyra vagnar. Passagerarna väljer vagn slumpmässigt och oberoende av varandra. a. Beräkna sannolikheten att eakt tre passagerare väljer första vagnen i tåget. Ett annat tåg med fyra vagnar skall avgå från Stockholms centralstation. 00 passagerare vill stiga på tåget, anta samma förutsättningar som ovan. Varje vagn har plats för eakt 55 passagerare. b. Beräkna sannolikheten att flera personer än det finns plats för försöker stiga på den första vagnen. Uppgift 4 ALET, ett välkänt märke av mobiltelefon, söker en leverantör av batterier till deras kommande modell. ALET kräver att batterierna har en standby -tid på minst 7 timmar (dvs. tiden ett fulladdat batteri kan hålla laddningen). Några fabrikanter har lämnat in sina anbud. En fabrikant, som ALET funderar på, påstår att deras batterier har en standby -tid med medelvärde 78,58 timmar och standardavvikelse 4 timmar (tiden kan betraktas som normalfördelad). a. Vad är sannolikheten att ett slumpmässigt valt batteri från denna fabrikant uppfyller ALETs krav på standby -tid? b. Vad är sannolikheten att av 10 batterier tillverkat av denna fabrikant åtminstone 9 kommer att uppfylla kravet? c. Skulle du föreslå denna fabrikant som leverantör av batterier till ALETs nästa mobilmodell? Uppgift 5 Antalet flickor i en slumpmässigt vald tre-barnsfamilj har sannolikhetsfördelning: X 0 1 3 ) 1/8 3/8 3/8 1/8 a. Rita ett lämpligt diagram över sannolikhetsfördelningen. b. Beräkna väntevärdet och standardavvikelsen. Glöm inte att tolka innebörden av väntevärdet och standardavvikelsen i detta eempel. c. Vid en undersökning ingår 300 slumpmässigt valda tre-barnsfamiljer i Sverige. Vad är sannolikheten att sammanlagda antal flickor i undersökningen är mellan 40 och 480? Använd dig av CGS (den centrala gränsvärdessatsen) och egenskaper av normalfördelningen.
Uppgift 6 En restaurang i Karlstad önskar vara mer kundvänlig. De funderar på att erbjuda kunden på ett gratis mål om tiden mellan beställningen och gästen får maten är mer än 30 minuter. nnan de går ut med en annons på erbjudandet, vill restaurangägaren undersöka risken att behöva bjuda på ett gratis mål. En statistisk undersökning genomfördes av nuvarande tider på restaurangen. Tiden mellan beställningen och fram till serveringen (i minuter) har observerats över en period av några veckor; 50 slumpmässiga observations togs. Datamaterialet har storleksordnats och visas nedanför: 1 13 13 14 14 15 15 15 15 16 16 16 16 16 17 17 17 17 17 18 18 18 19 0 0 0 0 0 1 1 1 1 1 1 3 3 3 3 4 4 5 31 35 35 39 4 49 a. Vilken är populationen som restaurangen önskar undersöka? b. Nämn några orsaker till anledningen till man har valt att studera ett urval i stället för hela populationen. c. Vad är den bästa gissningen för proportionen av måltider i restaurangen som tar mer än 30 minuter att serveras till kunden? d. Hur bra är den skattningen? För att hjälpa dig svara på frågan, beräkna ett 95% konfidensintervall för den sanna proportionen. e. Skulle du rekommendera restaurangen att gå ut med annonsen? 3
Uppgift 7 en urvalsundersökning studerade man hushållens tillgång till bil. Följande resultat erhölls för 100 slumpmässigt valda hushåll i Sverige: Antal bil Antal hushåll 0 5 1 45 0 3+ 10 a. Uppskatta, med hjälp av ett konfidensintervall, hur stor andel av alla hushåll i Sverige som har tillgång till bil. Använd en konfidensgrad på 95%. b. Om du istället skulle beräkna ett konfidensintervall med en konfidensgrad på 99%, hur skulle bredden på intervallet ändra sig? Kommentera och beräkna intervallet. c. Uppskatta, med hjälp av ett konfidensintervall, hur stor andel av alla hushåll i Sverige med tillgång till bil som har 3 eller flera bilar. Använd en konfidensgrad av 95%. Uppgift 8 En fabrikant säljer burkar med hjortronsylt. Hon påstår att innehållet är 500 gram. Man kan räkna med att vikten är normalfördelad. Eftersom medelvärdet, µ, kan variera genom ändring av ifyllningsanordningen, är det viktigt att fabrikanten håller koll på burkens innehåll och justerar därefter. Det är dags att ta ett stickprov från produktionen och kontrollera att väntevärdet av burkens innehåll är 500 gram. Vi använder oss av ett hypotestest och ställer upp följande hypoteser: H 0 : µ = 500 H 1: µ 500 a. Förklara innebörden av hypoteserna H 0 och H 1. Varför är det naturlig att välja en tvåsidig mothypotes? Vi väljer 5 burkar slumpmässigt och väger deras innehåll; stickprovsmedelvärdet är 510 gram och stickprovsstandardavvikelsen är 15 gram. b. Fabrikanten undrar om processen måste justeras. Testa hypotesen ovan på 1% signifikansnivå, för att hjälpa fabrikanten fatta ett beslut. Redovisa allt som bör redovisas när man genomför ett statistiskt test (definiera testvariabel, formulera beslutsregel etc.)! Formulera slutsatsen så att även fabrikanten kommer att förstå det hela (hon har inte studerat statistik!). 4
STA A10 tentamen 040604, lösningar Uppgift 1 a. ntervallskala b. En frekvens tabell : Temperatur ( o C) f: Frekvens f f 1 1 1 1 = 1 1 1 = 1 7 7 = 14 7 = 8 3 6 18 54 4 6 4 96 5 3 15 75 6 5 30 180 7 14 98 Σf=N=30 Σf=116 Σf =53 c. April månads medeltemperatur i Karlstad är 3,87 o 116 C: = f µ = = 3, 87 N 30 Standardavvikelse av temperaturen i April i Karlstad är 1,67 o C: ( f) (116) ( µ) f 53 σ = = N = 30 =,78 = 1, 67 N N 30 Uppgift R = Det regnar L = Det är lågtryck O = Det är ostadigt H = Det är högtryck a. Vi söker regn) = R) b. Vi söker man har gissat fel att det är ett lågtryck dvs. det är ostadigt eller ickel R) OR) + ( HR) högtryck, givit det regnar). P ickel R = = R) R) Lösningsalternativ 1 (med korstabell): Vi tänker oss det finns N=60 dagar mellan 1 juni och 30 juni (dvs. man hittar på ett värde till N). Då kan vi ta fram en korstabell där 50% av dagarna är det lågtryck, 30% är det ostadigt och 0% är det högtryck. Vi känner också till sannolikheten för regn vid de olika vädertyperna (te. 90% av dagarna som det är lågtryck så regnar det), se tabellen: 5
~R: Ej-regn R: Regn Summan L: Lågtryck 0,9(30)=7 0,5(60)=30 O: Ostadigt 0,5(18)=9 0,3(60)=18 H: Högtryck 0,5(1)=3 0,(60)=1 Summan 39 60 a. Det regnar 39 av de 60 dag. Sannolikheten att det regnar är 39/60 = 0,65. b. Av de 39 dag det regnar, är det 1 (9+3) som var ostadigt eller högtryck. Sannolikheten att man har gissat fel att det är ett lågtryck, givit det regnar, är 1/39=0,31 Lösningsalternativ (med sannolikheter): a. P ( R) = LR) + OR) + HR) P ( R) = L) P R L + O) P R O + H ) P P ( R) = (0,5 0,9) + (0,3 0,5) + (0, 0,5) = 0,65 ickel R) OR) + ( HR) (0,3 0,5) + (0, 0,5) b. P ickel R = = = = 0, 31 R) R) 0,65 R H Uppgift 3 a. X = Antal passagerare som väljer första vagnen i tåget. X Bin( n = 5; = 1/ 4 = 0,5) Vi söker sannolikheten att eakt tre passagerare väljer första vagnen i tåget dvs. X=3). P ( X = 3) = X 3) X ) = { tabell} = 0,9844 0,8965 = 0,0879 b. X = Antal passagerare som väljer första vagnen i tåget. X Bin( n = 00; = 1/ 4 = 0,5) Vi söker sannolikheten att flera personer än det finns plats för försöker stiga på den första vagnen dvs. P ( X > 55) Eftersom n och n( 1 ) är båda större än 5, så är tumregeln för att approimera en binomialfördelning med en normalfördelning uppfylld. Vi bör därför kunna räkna som om X N( n ; n (1 )) gällde och ändå få nästan eakt rätt svar. X N( µ = 00(0,5) = 50; σ = 00(0,5)(0,75) = 6,1) Eftersom vi ta en diskret slumpvariabel och approimera den med en som är kontinuerliga måste vi använda ½ korrektionen dvs. X>55,5). P ( X > 55,5) = 1 X 55,5) µ 55,5 50 55,5 50 = 1 P = 1 P Z σ 6,1 6,1 = 1 P Z 0,90 = { tabell } = 1 0,8159 = 0, 18 ( ) 6
Uppgift 4 a. X= Antal timmar ett fulladdat batteri kan hålla laddningen X N( µ = 78,58, σ = 4) Vi söker sannolikheten att ett slumpmässigt valt batteri från denna fabrikant uppfyller ALETs krav på standby -tid P ( X 7) = 1 X 7) X µ 7 78,58 = 1 P ( ) σ 4 = 1 P ( Z 1,645) = { tabell } = 1 0,05 = 0,95 b. Vi söker sannolikheten att av 10 batterier tillverkat åtminstone 9 kommer att uppfylla kravet. = Antalet batterier som uppfyller kravet. Bin( n, ) där n=10 och = X 7) = 0, 95 Vi söker P ( X 9) = 1 X 8) = { tabell} = 1 0,0861 = 0, 9139 c. Skulle du föreslå denna fabrikant som leverantör av batterier till ALETs nästa mobilmodell? Egna kommentarer. Uppgift 5 Antalet flickor i en slumpmässigt vald tre-barnsfamilj har sannolikhetsfördelning: Summan X 0 1 3 ) 1/8 3/8 3/8 1/8 ) 1 3/8 6/8 3/8 Σ)=1/8 0 = 0 8 ) 1 3/8 1/8 9/8 Σ )=4/8 0 = 0 8 7
a. Ett stolpdiagram.,4 Sannolikhetsfördelningen av X,3,,1 ) 0,0 0 1 3 X: Antal flickor i en tre-barnsfamilj b. 1 Väntevärde: E( X ) = µ = ) = = 1, 5 8 Vi väntar oss inte att finna 1,5 flickor i en 3-barnsfamilj; detta är i själva verket ett värde som aldrig kan erhållas, eftersom variabeln i detta fall endast kan antaga heltalsvärden. Vi tolkar väntevärde på följande sätt: studerar vi flera 3- barnsfamiljer väntar vi oss att i genomsnitt finna 1,5 flickor per familj. Väntevärdet är alltså en slags matematisk förväntan. 4 Varians: V ( X ) = σ = ( µ ) ) = E( X ) µ = 1,5 = 0, 75 8 Standardavvikelse: σ = V ( X ) = 0, 87 Standardavvikelse mäter den förväntade (ungefärlig) genomsnitsavvikelsen kring väntevärdet µ. c. Lösningsalternativ 1 (med =summan): =Antal flickor i 300 slumpmässigt valda tre-barnsfamiljer Dvs. = X 1 +X + +X 300 Där varje X i har samma fördelning som X ovanför och vi antar att de ör oberoende av varandra. Enligt CGS, är summan av enskilda normalfördelad slumpvariabler också normalfördelad dvs. N( µ ; σ ) µ = E( ) = 300E( X ) = 300 1,5 = 450 V ( ) = 300V ( X ) = 300 0,75 = 5 σ = 5 = 15 N( µ = 450; σ = 15) Vi söker sannolikheten att sammanlagda antal flickor i undersökningen är mellan 40 och 480: P ( 40 480) = 480) 40) (llustrerar med ett diagram). µ 480 450 µ 40 450 = ) ) σ 15 σ 15 = P ( Z ) P ( Z ) = {tabell} = 0,9775-0,08 = 0,9547 8
Lösningsalternativ (med samplingfördelning): 40 480 40 X 1 +X + +X 300 480) = P ( ) = P ( 1,4 1,6) 300 300 σ 0,75 Där N( µ = µ = 1,5; σ = = = 0,05) n 300 P ( 1,4 1,6) =... Lösningsalternativ 3 (med egenskaper av normalfördelningen): Vi söker P ( 1,4 1,6) där N( µ = 1,5; σ = 0,05) Dvs. Vi söker sannolikheten att ligger inom standardavvikelser (*0,05=0,01) av medelvärdet (1,5). Vi vet att appro 95% av värdarna ligger inom µ ± σ. Uppgift 6 a. Populationen: Tiden det tar mellan beställningen och gästen får maten på restaurangen. Det finns vissa problem med hur man kan når denna population diskutera. b. Kostnad; tid; information från ett stickprov kan vara tillräckligt om det är gjort på ett lämpligt statistiskt sätt; är det möjligt att ta tiden för alla beställningar?; man måste begränsa sig till ett tidsintervall; total felet kan vara mindre med ett stickprov mm. c. X= Antal måltider som överstiger 30 minuter. N= Antal mål som serveras. X = = Proportionen av måltider i restaurangen som tar mer än 30 minuter att N serveras till kunden. 6 Den bästa gissning av är från information i stickprovet: ˆ = = = 0, 1 n 50 d. Ett 95% konfidensintervall för : Bin( n = 50; ˆ = 0,1), och därför kan p approimeras till normalfördelning enligt CGS (båda n och n ( 1 ) 5 ), och vi kan beräkna ett konfidensintervall för. : p ± z p(1 n p) Från N(0,1) tabellen: P ( Z > z) = 0,05 z = 1, 96 0,1(0,88) : 0,1 ± 1,96 : 0,1 ± 0, 09 : [ 0,03;0,1] 50 Med 95% säkerhet, proportionen av måltider i restaurangen som tar mer än 30 minuter att serveras till kunden,, ligger mellan 3% och 1%. e. Skulle du rekommendera restaurangen att gå ut med annonsen? Egna kommentarer. 9
Uppgift 7 a. X = Antal hushåll med tillgång till bil i Sverige N = Antal hushåll i Sverige X Vi söker = som är andelen av alla hushåll i Sverige som har tillgång till bil. N Vi har inte tillgång till hela populationen och därför måste använda oss av information som finns i ett slumpmässigt stickprov från denna population. 75 Vår bästa gissning på är ˆ = p = = = 0, 75 (en punktskattning). n 100 Bin( n = 100; ˆ = 0,75), och därför kan p approimeras till normalfördelning enligt CGS (båda n och n ( 1 ) 5 ), och vi kan beräkna ett konfidensintervall för. p(1 p) : p ± z Från N(0,1) tabellen: P ( Z > z) = 0,05 z = 1, 96 n 0,75(0,5) : 0,75 ± 1,96 : 0,75 ± 0, 08 : [ 0,67;0,83] 100 Med 95% säkerhet, andelen av alla hushåll i Sverige som har tillgång till bil,, ligger mellan 67% och 83%. b. p(1 p) : p ± z Från N(0,1) tabellen: P ( Z > z) = 0,01 z =, 576. n 0,75(0,5) : 0,75 ±,576 : 0,75 ± 0, 11 : [ 0,64;0,86] 100 Med 99% säkerhet, andelen av alla hushåll i Sverige som har tillgång till bil,, ligger mellan 64% och 86%. ntervallet blir breddare eftersom vi örkar konfidensgraden, dvs. det är större chans att intervallet täcker in det sökta parametrar. c. W= Antal hushåll med tillgång till 3 eller flera bilar N = Antal hushåll med tillgång till bil Vi söker som är andelen av alla hushåll i Sverige med tillgång till bil som har 3 eller flera bilar. w 10 ˆ = p = = = 0,1333 där Bin( n = 75; ˆ = 0,1333) n 75 p kan approimeras till normalfördelning enligt CGS (båda n och n ( 1 ) 5 ) p(1 p) : p ± z Från N(0,1) tabellen: P ( Z > z) = 0,05 z = 1, 96 n 0,1333(1 0,1333) : 0,1333 ± 1,96 : 0,1333 ± 0, 08 : [ 0,06;0,1] 75 Med 95% säkerhet, andelen av alla hushåll i Sverige med tillgång till bil, som har tillgång till 3 eller flera bilar,, ligger mellan 6% och 1%. 10
Uppgift 8 a. H 0 : µ = 500 (Genomsnittsinnehållet för en burk med hjortronsylt från nuvarande produktionen är det samma som påstår fabrikanten). H 1: µ 500 (Genomsnittsinnehållet för en burk med hjortronsylt från nuvarande produktionen skiljer sig från det som påstår fabrikanten). Det är naturligt att mothypotesen är tvåsidig. Om genomsnittsinnehållet väsentligt överstiger 500g innebär detta en förlust för fabrikanten, och om innehållet understiger 500g resulterar detta i klagomål från konsumenterna. b. Steg 1: H 0 : µ = 500 H 1: µ 500 Steg : Signifikansnivån: α = 0, 01 (tvåsidigt test). Steg 3: Testvariabeln: Enligt CGS (populationen är normalfördelad är normalfördelad för n 1), eftersom populations standardavvikelse är okänd (σ ), µ 500 så vore testvariabeln t = = eakt t-fördelad, med n-1 frihetsgrader. s s n n Steg 4: Det kritiska värdet: Från t-tabellen t(n-1=4 frihetsgrader, dubbelsidiga test α = 0,01)=,80 Beslutsregel: Om testvariabeln (t) ligger i det kritiska området då förkastar vi H 0 ; dvs. om t är mindre än -,80 eller större än +,80 då förkastar vi H 0. (llustrerar med ett diagram som visar där vi kan och kan inte förkasta H 0 ). Steg 5: Stickprovet: n=5; = 510 ; µ 510 500 Testvariabel: t = = = 3,33 s 15 n 5 Slutsats: Testvariabeln ligger tillräckligt långt ut i svansarna för att kunna förkasta nollhypotesen, dvs. det är större än +,80. Med 99% säkerhet vi kan förkasta H 0, och godkänna mothypotesen dvs. µ är påvisbart skilt från 500g. Fabrikanten bör justera processen. 11