Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle Lärare: Mikael Elenius, 2006-08-25, kl:9-14 Betygsgränser: 65 poäng Väl Godkänt, 50 poäng Godkänt. Tentans maxpoäng: 70 poäng (därtill räknas resultat på inlämningsuppgifter och dugga). Anvisningar: Läs igenom uppgifterna nogrannt. Svara på det som frågas efter i kronologisk ordning. I de fall uppgiften kräver en matematisk lösning, ger ofullständiga lösningar poängavdrag. Lämna in lösningar på lösa blad, skriv namn, personnummer, uppgiftsnummer och sidnummer på varje blad. Skriv läsligt! Hjälpmedel: Penna, sudd, räknedosa och linjal. Formelsamling och tabeller medföljer tentamen. Lycka till!

1) (26p) Är följande påståenden sanna eller falska. Kryssa för sant om det är sant. Kryssa för falskt om det är falskt. Kryssa för vet ej om du inte vet. Du får 2 poäng för varje rätt svar. Du får -1 poäng för varje fel svar. Vet ej, ger alltid 0 poäng. Totalt kan man inte få mindre än noll poäng på denna uppgiften. (15p) Tips! Skriv namn och personummer på den här sidan och infoga den med er inlämnade tentamen. Påstående Sant Falskt Vet ej 1 Relativ frekvens anges i antal. 2 Ett 95% konfidensintervall har större felmarginal än ett 99% konfidensintervall. 3 Om fördelningen är högerskev är standardavvikelsen mindre än medelvärdet. 4 Tillsammans med medelvärde används kvartil och tillsammans med median används standardavvikelse 5 En parameter beskriver ett stickprov ur en population. 6 Begreppet bias innebär ett systematiskt fel. 7 Att genom resultaten från ett stickprov uttala sig om populationen kallas för statistisk inferens. 8 Anekdotisk data är lämpligt att använda för statistisk analys. 9 Vid en skev fördelning ger femsiffermåttet en bra beskrivning av fördelningen. 10 Ett placebo är vid en medicinsk studie t.ex. ett piller som endast innehåller verkningslösa substanser. 11 Alla kontinuerliga variabler är normalfördelade. 12 En stark korrellation är bevis för kausalitet. 13 Oavsett variabelns fördelning i populationen så är fördelningen för stickprovsmedelvärdet approximativt normalfördelat då stickprovet är stort. 1

2) (14p) Man har under åren 1900 till 1940 undersökt medelåldern (y) för det första äktenskapet. Determinationskoefficienten för regressionsmodellen är 92.6%. År 1900 motsvarar x = 0 i regressionsmodellen. Ange följande: ŷ =25.7 0.04x, a) interceptet, (2p) b) lutningen, (2p) c) korrellationskoefficienten, (2p) d) skattade värdet för medelåldern år 2006, (2p) e) residualen för en person som gifter sig vid 20 års ålder år 1933, (2p) f) det årtal då den skattade medelåldern har sjunkit till 15 års ålder. (2p) h) Är det rimligt att förlita sig på modellen i fråga d) och f)? Vad kallas det när man gör sådana beräkningar? (2p) 2

3) (14p) I en skola gjordes en undersökning om elevers studievanor. I ett stickprov visade det sig att 20 av 40 flickor använde senaste helgen till studier och att 10 av 40 pojkar använde senaste helgen till studier. a) Räkna ut ett 99% konfidensintervall för proportionen flickor som använde senaste helgen till studier. (4p) b) Räkna ut ett 90% konfidensintervall för proportionen pojkar som använde senaste helgen till studier. (4p) c) Räkna ut ett 95% konfidensintervall för skillnaden mellan proportionerna flickor och pojkar som använde senaste helgen till studier. (6p) 3

4) (16p) Antag att inga studenter kan svaret på någon fråga från uppgift 1, utan de chansar vilt mellan de olika svarsalternativen (sant, falsk, vet ej). a) Ställ upp utfallsrummet (sample space) för det antal poäng en fråga kan ge. Namnge frågan med slumpvariabeln X i,däri =1, 2,...,13 (totalt är det 13 frågor). Verifiera att sannolikheten för utfallsrummet är lika med 1. (4p) b) Beräkna hur många poäng studenterna borde få i snitt (för alla 13 frågorna), d.v.s. medelvärdet, μ Y. (4p) c) Beräkna standardavvikelsen (för alla 13 frågorna), σ Y. (4p) d) Vad är sannolikheten att medelvärdet (ȳ) hamnar över 5.6 poäng för 50 st vilt chansande studenter? Antag att medelvärdet kan anses normalfördelat. Ledning: SD(ȳ) =σ Y / n (4p) 4

Formelsamling och Tabeller Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Beteckningar, punktskattningar m.m. Population Stickprov Namn σ 2,σ s 2,s varians, standardavvikelse μ x medelvärde ρ r korrellationskoefficient N n populations-, stickprovs-storlek β 0,β 1 b 0, b 1 intercept, lutning ε e slumpfel, residual R 2 determinationskoefficient, förklaringsgrad Md median SD( x) SE( x) Medelvärdets standardavvikelse, Standardfelet p ˆp proportion x = 1 n x i n i=1 ˆp = 1 n x i,x=0, 1 n i=1 s = 1 n (x i x) n 1 2 r = 1 n 1 i=1 n z xi z yi i=1 z = x μ σ, x = μ + zσ ŷ i = b 0 + b 1 x i y i = b 0 + b 1 x i + e i μ yi = β 0 + β 1 x i y i = β 0 + β 1 x i + ε i 2

Sannolikhetsteori Regler Multiplikationsregeln för oberoende händelser A och B P (A och B) =P (A)P (B) Additionsregeln för disjunkta händelser A och B P (A eller B) =P (A)+P(B) Komplementregeln P (A c )=1 P(A) Övrigt, Om A och B är oberoende, så är också A c och B oberoende A och B c oberoende A c och B c oberoende Slumpvariabler Väntevärde för en diskret slumpvariabel: μ = E(X) = xp (X = x). Varians och standardavvikelse för en diskret slumpvariabel: σ 2 = Var(X) = (x μ) 2 P (X = x), σ = SD(X) = Var(X) = (x μ) 2 P (X = x). Linjär transformation på en slumpvariabel: E(a + bx) = be(x)+a, Var(a + bx) =b 2 Var(X), SD(a + bx) = Var(a + bx) =bsd(x). Addition och subtraktion mellan två slumpvariabler: E(X ± Y )=E(X) ± E(Y ). Om X och Y är oberoende, ges Var(X ± Y )=Var(X)+Var(Y), SD(X ± Y )= Var(X ± Y )= Var(X)+Var(Y ). 3

Sannolikhetsfördelningar Bernoullifördelning, Bernoulli(p) P (X = x) =p x (1 p) 1 x, x =0, 1, 0 p 1 μ = E(X) =p, V ar(x) =p(1 p),sd(x) = p(1 p) Parameter = p Geometrisk fördelning, Geometrisk(p) P (X = x) =(1 p) x 1 p, x =1, 2,...,, 0 p 1 μ = E(X) = 1 p, p 1 p Var(X) =1 p, SD(X) = p Parameter = p Geometrisk summa P (X x) = x (1 p) i 1 p, i=1 för att förenkla uttrycken så kan man ersätta (1 p) =q, x P (X x) = q i 1 p = p + qp + q 2 p + + q x 1 p i=1 = = p(1 qx ) 1 q Binomialfördelning, Bin(n, p) = p(1 qx ) 1 (1 p) = p(1 qx ) =1 q x p ( ) n P (X = x) = p x (1 p) n x, x =0, 1, 2,...,n, 0 p 1 x μ = E(X) =np, V ar(x) =np(1 p), SD(X) = np(1 p) Parametrar = p, n ( ) n n! = x x!(n x)! = n(n 1)(n 2) 1 x(x 1) 1((n x)(n x 1) 1) Där 0! = 1 och 1! = 1. 4

Konfidensintervall - KI, CI Konfidenskoefficienten eller konfidensgraden (Confidence level) för intervallen är =1 α. KI för en proportion Förutsättningar: np och n(1 p)) > 10 Obundet slumpmässigt urval p {ˆp ± z α/2 SE(ˆp) } Där standardfelet och felmarginalen är SE(ˆp) = ˆp(1 ˆp)/n ME = z α/2 SE(ˆp) Stickprovsstorlek n = z2 ˆp(1 ˆp) α/2 ME 2 KI för skillnaden mellan två proportioner Förutsättningar: n 1 p 1, n 1 (1 p 1 ),n 2 p 2, och n 2 (1 p 2 ) > 10 Obundet slumpmässigt urval ˆp 1 och ˆp 2 är oberoende av varandra (p 1 p 2 ) { (ˆp 1 ˆp 2 ) ± z α/2 SE(ˆp 1 ˆp 2 ) } Där standardfelet och felmarginalen är ˆp 1 (1 ˆp 1 ) SE(ˆp 1 ˆp 2 )= + ˆp 2(1 ˆp 2 ) n 1 n 2 ME = z α/2 SE(ˆp 1 ˆp 2 ) 5

KI för ett medelvärde Förutsättningar: X N(μ, σ) Obundet slumpmässigt urval μ { x ± t α/2 (n 1)SE( x) } Där standardfelet och felmarginalen är SE( x) =s/ n ME = t α/2 (n 1)SE( x) KI för skillnaden mellan två medelvärden Förutsättningar: X 1 N(μ 1,σ 1 ) och X 2 N(μ 2,σ 2 ), Obundet slumpmässigt urval X 1 och X 2 oberoende av varandra (μ 1 μ 2 ) { ( x 1 x 2 ) ± t α/2 ( )SE( x 1 x 2 ) } Där standardfelet och felmarginalen är SE( x 1 x 2 )= s 2 1 /n 1 + s 2 2 /n 2 ME = t α/2 ( )SE( x 1 x 2 ) = antalet frihetsgrader, som är det minsta stickprovet minus ett, (n 1 1) eller (n 2 1). I kurslitteraturen ges en mer komplicerad uträkning av frihetsgrader, vilken ni också kan använda, dock ger den inga pluspoäng = antal frihetsgrader = ( ) s 2 2 1 n 1 + s2 2 n 2 ( ) 1 s 2 2 1 n 1 1 n 1 + 1 n 2 1 ( s 2 2 n 2 ) 2. 6