Karlstads Universitet Avdelningen för Nationalekonomi och Statistik Tentamen i Statistik, STG A0 och STG A06 (3,5 hp) Torsdag 5 juni 008, Kl 4.00-9.00 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Miniräknare. Ansvarig lärare: Hannah Hall, tel 054 700 3 Övrigt: För att få maximala 0 poäng på en uppgift krävs att antaganden och motiveringar noga anges samt att lösningen även i övrigt är så utförlig att den utan svårighet kan följas. För betyget Godkänd krävs minst 40 poäng, för betyget Väl Godkänd krävs minst 60 poäng. Uppgift En gymnasieskola har fått Internetuppkoppling. Efter detta har datorlärarna registrerat dåliga resultat på prov och misstänker att det kan bero på att eleverna lägger ned mycket mer tid på Internet än de borde göra. Därför väljs slumpvis 3 elever ut och det registreras hur mycket tid dessa använder på Internet per vecka. Tiden mått i minuter står på x-raden: Elev nr. 3 4 5 6 7 8 9 0 3 x 0 45 60 70 0 80 50 45 90 0 80 40 0 y 0 6 3 9 4 0 0 3 3 5 5 8 4 a) Rita en boxplot för x-värden i tabellen. b) Räkna ut den genomsnittliga tiden x på Internet per vecka för urvalet som består av de 3 eleverna. Räkna också ut standardavvikelsen s för samma urval. Skolan har också fått problem med lagringskapaciteten på nätverksservrarna och det antas bero på att de elever som använder mest tid på Internet hämtar flest filar och använder mest diskutrymme på servrarna. Varje elevs användning av diskutrymme (mätt i antal megabyte) står på y-raden i tabellen. c) Gör ett spridningsdiagram där du anger tid på Internet längs x-axlen och diskutrymme längs y-axeln.
Karlstads Universitet Avdelningen för Nationalekonomi och Statistik Uppgift Fortsätt med informationen från uppgift. a) Låt μ vara förväntad tid per vecka som används på Internet för en godtycklig elev på skolan. Sök ett 90 procents konfidensintervall för μ. b) Vilka antaganden måste du göra för att kunna ta fram ett konfidensintervall för μ? (Relatera tillbaka till det du tog fram i uppgift ). c) Verkar det föreligga ett linjärt samband mellan x och y? Motivera svaret. (Relatera tillbaka till det du tog fram i uppgift ). d) Använd minsta-kvadrat-metoden för att estimera regressionslinjen Y ' a + bx. Räkne hjälp: 3 3 xi 6350 yi 830 y x i i 05 3 Uppgift 3 Vi tänker oss att SAS har 5 avgångar från Malmö till Stockholm medan Malmö Aviation har 0 avgångar. En vinterdag med oväder blev avgångarna från Malmö försenade. Sannolikheten för att ett slumpist SAS-flygplan skulle vara försenat var 0., medan motsvarande sannolikhet för Malmö Aviation var 0.3. Vi definierar följande händelser: S ett slumpvis valt flygplan är ett SAS-plan B ett slumpvis valt flygplan är ett MA-plan F ett slumpvis valt flygplan är försenat a) Ange sannolikheterna S), B), P F S och P F B b) Sök sannolikheten för att ett slumpvis vald plan är försenat. c) Vilken är sannolikheten för att ett slumpvis valt plan som är försenat är ett SAS-plan? d) Vilken är sannolikheten för att ett slumpvis valt plan som är i tid är ett SAS-plan? Uppgift 4 En bra fotbollsspelare skickar många passningar till medspelarna under en fotbollsmatch. Ibland blir det felpassningar. Vi låter X vara antalet felpassningar under en match. Vi kan betrakta X som en slumpvariabel med sannolikhetsfördelningen: x 0 3 4 5 Xx) 0,05 0,5 0,30 0,5 0,5 0,0 a) Bestäm och skissa fördelningsfuntionen F(x) för X. b) Beräkna E(X) och Var(X).
Karlstads Universitet Avdelningen för Nationalekonomi och Statistik Låt X och X representera antalet felpassningar i två på varandra följande fotbollsmatcher. Antag att X och X är oberoende. c) Vad är sannolikheten för att spelaren inte gör några felpassningar under de två matcherna? d) Hur sannolikt är det att han gör exakt två felpassningar sammanlagt i de två matcherna? Uppgift 5 Vi tänker oss att en arbetssökande student skickar ut en lika väl formulerad platsansökan till 5 aktuella arbetsgivare. Vi räknar med att sannolikheten för att bli kallad till intervju är lika, π 0,, för varje ansökan som studenten skickar. Studenten betraktar det som ett delmål att bli kallad till intervju. a) Varför kan studentens platsansökan betraktas som ett binomialt försök? b) Hur stor är sannolikheten för att studenten blir kallad till: i. Minst en intervju ii. Fler än fyra intervju iii. Två, tre eller fyra intervjuer c) Till hur många intervjuer kan studenten förvänta sig att bli kallad? Sök också ett uttryck för hur detta tal varierar. En annan student skriver lite bättre ansökningar och har lite bättre kontakter så sannolikheten för att bli kallad till intervju är 0,5 för varje ansökan. Denna student skickar in tre ansökningar. d) Vad är sannolikheten för att denne student blir kallad till minst en intervju? Uppgift 6 Längden på graviditeter, X dagar, antas vara normalfördelad med väntevärde μ 66 dagar och standardavvikelsen σ 6. En graviditet som inte avviker mer än 4 dagar från förväntad längd sägs vara av normal längd. a) Vad är sannolikheten för att en graviditet har normal längd? Följande deluppgifter gäller fyra gravida väninnor. Längden på deras graviditeter betecknas X, X, X 3, X 4 och antas vara oberoende och normalfördelade med samma väntevärde och standardavvikelse som ovan. b) Vad är sannolikheten för att den genomsnittliga längden av de fyra graviditeterna ska vara av normal längd? c) Vad är sannolikheten för att alla fyras graviditeter blir av normal längd? d) Vad är sannolikheten för att åtminstone en av dem fyra ska föda för tidigt?
Karlstads Universitet Avdelningen för Nationalekonomi och Statistik e) En av väninnornas graviditet har redan varit i 5 ( 66-4) dagar. Sök den betingade sannolikheten för att hennes graviditet blir av normal längd under förutsättning att den redan har pågått i 5 dagar. Uppgift 7 a) Formulera Centrala gränsvärdessatsen med hjälp av följande diagram. b) Hur hjälper oss Centrala gränsvärdessatsen när vi drar slutsatser om en population (dvs. gör inferens)? c) Förklara skillnaden mellan praktiskt signifikans kontra statistisk signifikans. d) Vilket konfidensintervall är bredast, ett med en 99 % konfidensgrad eller ett med en 90 % konfidensgrad (allt annat lika)? Motivera. Uppgift 8 Sant eller falsk? a) Det är alltid så att Typ II fel) Typ I fel). b) Om vi förkastar H0: μ 0 vid ett test med α 0, 0, då ska vi också förkasta den i ett test med α 0, 05. c) Ett test får p-värdet 0,043 med H 0 : μ 0 mot H : μ 0. Om vi skulle göra ett 95% konfidensintervall för μ istället skulle vi få att 0 fanns inom intervallet. d) Ett 95% konfidensintervall för μ ger [96,0]. Då gäller det att ett hypotestest, med samma data, av H 0 : μ 00 mot H : μ 00 ger ett p-värdet > 0,05. e) För en bestämd signifikansnivå α, gäller att sannolikheten för Typ II felet ökar när urvalets storlek ökar.
Hannahs Lösningar till tentan: Torsdag 5 juni 008 Uppgift a) 3p Boxplot n 3 Ordna data: 0, 0, 45, 45, 60, 90, 0, 0, 50, 80, 80, 40, 70 Från vår data: Ordnings tal för Q : Q 45 Ordnings tal för Q : Q 0 Ordnings tal för Q3 : Q3 80 n + 3 + 3,5 : e 4 4 n + 3 + 7 : e n + 3 + 3 ( ) 3( ) 0,5 : e 4 4 Extrema observationer: Outlier > Q3 +.5(Q3-Q) 80+,5(80-45) 38,5 Outlier < Q3 -.5(Q3-Q) -,5 Vi har inga extrema observationer i vår data, då är: MIN 0 MAX 70 Statistics 300 50 00 50 00 50 0 x N Mean Median Std. Deviation Variance Range Minimum Maximum Percentiles Valid Missing 5 50 75 3 0 5,38 0,00 86,5 7439,43 70 0 70 45,00 0,00 80,00
Kommentera fördelningen med egna ord. b) 4p Genomsnittliga tiden x på Internet per vecka, från stickprovet 500 x x 5,3846 n 3 Standardavvikelsen s, från stickprovet s ( x x) n x ( x) n n 500 6350 3 3 86,5 c) 3p Spridningsdiagram 0 5 Y 0 5 R Sq Linear 0,788 0 0 50 00 50 X 00 50 300 Kommentera fördelningen och sambandet med egna ord.
Uppgift a) 3p μ : förväntad tid per vecka som används på Internet för en godtycklig elev på skolan s 90 procents konfidensintervall för μ : x ± t n t vid n- frihetsgrader, och ett 90% konfidensintervall t,78 500 86,5 ±,78 3 3 5,385 ± 4,58 [ 7,804;57, 966] Med 90% säkerhet ligger genomsnittstid spenderat på Internet mellan 7 och 58 minuter. (Notera bredden på intervallet hur användbar är intervallet?) b) 3p I detta exempel, för att kunna beräkna ett KI för μ måste vi anta att X är normalfördelad, detta eftersom vi har ett litet urval och kan inte utnyttja CGS. Eftersom X antas vara NF, då är stickprovsmedelvärde X också NF. Utifrån boxploten vid upp se vi inget tecken på att X skiljer sig från en NF; medelvärdet och medianen ligger nära varandra i stickprovet, fördelningen se ungefär symmetrisk, det finns inga extrema observationer. Men det är svårt att vara helt säker eftersom stickprovet är så lite. Det känns rimlig att tid på Internet är normalfördelad, men vi får anta att det finns inga extrema studenter som spenderar extremt mycket tid framför Internet. Det är kanske rimligt att anta detta eftersom dem är på skolan, om dem hade varit hemma det hade varit en annan fråga. c) p Spridningsdiagrammet tyder på en positiv linjär samband. r0,89 nxy x y r ( n x ( x) )( ny ( y) ) 3 05 500 30 r ( 3 6350 500 )( 3 830 30 ) 79365 r 0,8875 60550 6890 r 0,8875 0,7877 3
d) p Vi söker Y ' a + bx. 3 3 b 3 xi 6350 yi 830 y x i i 05 x 500 30 i n xy 3 y i x ( x) n x 3(05) 500 30 b 3(6350) 500 79365 b 60550 b0,0684 a y bx 30 500 a 0,0684,077 3 3 Y ' a + bx Y ', + 0, 07 X y 3 4
Uppgift 3 S ett slumpvis valt flygplan är ett SAS-plan B ett slumpvis valt flygplan är ett MA-plan F ett slumpvis valt flygplan är försenat Rita ett träddiagram med alla möjliga händelserna. a) p S)5/50,6, B)0/50,4, b) p Enligt lag om total sannolikhet vet vi att P ( F) S) P F S + B) P F B 0,4 P F S 0, och P F B 0,3 c) 3p Enligt Bayessats vet vi att P S F SF) S) P F S 0,(0,6) 0, 50 F) F) 0,4 d) 3p Enligt Bayessats vet vi att SF ) S) P F P S F F ) F ) S S)( P F F) S 0,6( 0,) 0,4 0,63 5
Uppgift 4 a) p Fördelningsfunktionen F(x) X x) ges i tabellen: x 0 3 4 5 X x) 0,05 0,0 0,50 0,75 0,90,00,00 0,80 0,60 Fx 0,40 0,0 0,00 0 3 4 5 X b) 4p E( X ) x X x) 0(0,05) + (0,5) +... + 5(0,0),6 Var( X ) x X x) E( x) [ 0 (0,05) + (0,5) +... + 5 (0,0)],6 8,5,6, 74 c) p noll fel) P X 0ochX 0) X 0) X 0) 0, 005 ( d) p två fel) P ( X 0ochX ) + P ( X ochx ) + P ( X ochx 0) 0,05(0,3) + 0,5(0,5) + 0,3(0,05) 0,055 6
Uppgift 5 a) 3p X räknar antal intervjuer som studenten blir kallad till X är Binomial eftersom: oberoende försök (kommentera), två möjliga utfall, med samma sannolikhet π 0, X ~ Bin( n 5, π 0,) b) 3p Från tabellen P ( X ) X 0) 0,8 5 0,9648 P ( X > 4) X 4) 0,8358 0,64 P ( X 4) X 4) X ) 0,8358 0,67 0,6687 c) p E ( X ) np 5(0,) 3,0 Var ( X ) np( p) 5(0,)(0,8),4 d) p Y är antal intervjuer av tre försök för en annan person. Y ~ Bin( n 3, p 0,5) P ( Y ) 0,75 3 0.578 7
Uppgift 6 X ~ N (66,6) a) p P ( 5 < X < 80) Z < 0,88) Z < 0,88) 0,806 0,894 0,6 b) p X är NF, då är X också NF X ~ N (66,6 / 4 8) P ( 5 < X < 80) Z <,75) Z <,75) 0,9599 0,040 0,998 c) p 4 4 alla fyra av normal längd) normal) 0,6 0, 489 d) p en för tidig födsel) P ( X < 5) Z < 0,88) 0, 894 minst en av fyra för tidig) -ingen för tidig) ( 0,894) 0, 568 e) p normal givit ej för tidigt) normal) 0,6 0, 7663 ejförtidig) 0,894 8
Uppgift 7 a) 3p Sid. 75 i boken Kommentera med egna ord. b) 3p Vi kan skatta population parametrar genom att använda oss av ett slumpmässigt urval. Men vi måste kunna säga någonting om hur säker vi är att vår skattning speglar det sanna värdet i populationen (den som vi egentligen vill ta reda på). Med hjälp av CGS kan vi säga hur säker vi är i vår skattning eftersom när n är tillräckligt stor då, enligt CGS, är fördelningen för stickprovsmedelvärdet approx normal. Då kan vi göra beräkningar, som ett konfidensintervall, och ange ett intervall där det är sannolikt att populationsvärde ligger. c) p Om man har tillräckligt många observationer så kan man hitta en signifikant skillnad. Denna skillnad behöver inte ha någon praktiskt betydelse dock! Hitta på egna exempel. d) p Ett 99% konfidensintervall är säkrare än ett 90%, dvs. det är bredare. När vi beräkna ett intervall gör vi : skattning ± felmarginal σ Tex. Konfidensintervall för μ : x ± z n Bredden beror på felmarginals storlek. Om vi antar, tex, att vår skattning är normalfördelad (tex. enligt CGS) och om populationsstandardavvikelse är känd, z värdet vid ett 99% konfidensintervall är,576, motsvarande vid ett 90% intervall är,645. Det gör att felmarginalen blir större, och intervallet breddare. Även om populationsstandardavvikelse är okänd och vi använder oss av t-fördelningen skulle vi få ett större t-värde. s Tex. konfidensintervall för μ : x ± t n Uppgift 8 p vardera a) Falsk b) Sant c) Falsk d) Sant e) Falsk 9