Räkna med variation - Digitala uppgifter Studiematerial i sannolikhetslära och statistisk inferens Lena Zetterqvist och Johan Lindström 29 oktober 25
Innehåll Beskrivning av data 5 2 Grundläggande sannolikhetsteori 9 3 Fördelningar 3 3. Diskreta fördelningar......................... 3 3.2 Kontinuerliga fördelningar...................... 9 3.3 Summa, medelvärde och andra linjärkombinationer........ 28 3.4 Normalfördelningen.......................... 3 3.5 Fördelningsanpassning........................ 38 3.6 Mätsituationen, felfortplantning................... 42 4 Grundläggande inferens 43 4. Observationsstudier och slumpmässiga försök........... 43 4.2 Punktskattningar........................... 44 4.3 Kondensintervall.......................... 46 4.4 Hypotestest.............................. 49 5 Inferens i vanliga modeller 57 5. Inferens i ett normalfördelat stickprov............... 57 5.2 Jämförelse av två väntevärden.................... 58 6 Sambandsanalys 6 6. Regressionsanalys........................... 6 6.2 Korrelationsanalys.......................... 65 7 Svar 67 3
Beskrivning av data NYCKELBEGREPP: Begrepp Sammanfattande numeriska mått Empirisk fördelningsfunktion Länk till avsnittets ordinarie uppgifter Sammanfattande numeriska och graska mått. Vid ett kameraövervakat trakavsnitt noterades antalet tillbud under var och en av 68 dagar. Figuren visar stolpdiagrammet för antal tillbud per dag. Man beräknade median, typvärde och medelvärde (avrundat till heltal) i materialet, vilka av de angivna sirorna är de olika måtten? 2 Ange a) medianen b) typvärdet c) medelvärdet (avrundat till heltal) ANTAL DAGAR 22 2 8 6 4 2 8 6 4 2 2 3 4 5 6 7 8 ANTAL TILLBUD PER DAG.2 I ett bostadsområde noterades under ett år försäljningspriset (tusentals kronor) på 29 lägenheter. Medelvärdet blev 58., medianen 495 och standardavvikelsen blev 34.6. En av lägenheterna, den med ett pris på 45 tusen kronor, såldes för skattetekniska skäl och man beslöt att ta bort 5
Beskrivning av data den från materialet eftersom det inte var ett marknadsmässigt pris. På de återstående 28 lägenheterna beräknades de tre numeriska måtten om igen. Vilka värden är rimliga? a) Medelvärdet blev (i) 486.3 (ii) 58. (iii) 556.3 b) Medianen blev (i) 49 (ii) 495 (iii) 537.5 c) Standardavvikelsen blev (i) 276.6 (ii) 34.6 (iii) 353.6 7 6 5 ANTAL LÄGENHETER 4 3 2 4 6 8 2 4 6 8 2 22 PRIS (tusentals kronor).3 a) Man mätte ggr längden på en sträcka och noterade x = 32.6 cm och s =.3 cm. Sedan upptäckte man att instrumentet hade ett systematiskt fel så att det alltid angav. cm för högt värde. Ange korrekta värden på x och s. Svara med en decimal. b) Man mätte hastigheten (mph) hos 3 fordon och erhöll x = 57.5 mph och s = 4. mph. Sedan vill man uttrycka hastigheten i km/h och utnyttjar att mile motsvarar.6 km. Ange värden på x och s uttryckta i km/h. Svara med en decimal. c) Man mätte temperaturen (Fahrenheit) vid 25 olika orter i USA och noterade x = 66.4 och s = 7.5 F. För att jämföra med europeiska 6
mätningar vill man uttrycka temperaturen i C och uttnyttjar sambandet T C = 5 9 (T F 32). Ange värden på x och s uttryckta i C. Svara med en decimal..4 Vid ett triathlon för elitmotionärer mätte man på 36 deltagare hur lång tid (sekunder) det tog vid första växlingen mellan simning och cykellopp. Data är nedan beskrivna i en empirisk fördelningsfunktion. EMPIRISK FÖRDELNINGSFUNKTION.9.8.7.6 F(x).5.4.3.2. 5 5 2 25 3 35 4 TID (s) Avgör om följande påståenden är sanna eller falska. a) Den som växlade snabbast gjorde det på ca 5 sekunder. b) Drygt 65 % av deltagarna hade en växlingstid som understeg 2 sekunder. c) Ungefär 2 % av deltagarna hade en växlingstid som översteg 25 sekunder. d) Den som växlade långsammast gjorde det på ungefär på 6 minuter. e) Ungefär hälften av deltagarna hade en växlingstid mellan 2 till 4 minuter..5 Nedan är fyra datamaterial, om vardera 6 mätningar, utritade i histogram och i empiriska fördelningsfunktioner. Para ihop rätt gurer. 7
Beskrivning av data 5 HISTOGRAM 2 HISTOGRAM 2 5 5 5 2 4 6 8 5 5 5 HISTOGRAM 3 5 HISTOGRAM 4 5 5 3 4 5 6 7 46 48 5 52 54 EMPIRISK FÖRDELNINGSFUNKTION A.8 EMPIRISK FÖRDELNINGSFUNKTION B.8 F(x).6.4.2 F(x).6.4.2 2 4 6 8 x EMPIRISK FÖRDELNINGSFUNKTION C.8 2 4 6 8 x EMPIRISK FÖRDELNINGSFUNKTION D.8 F(x).6.4.2 5 5 x F(x).6.4.2 2 4 6 8 x 8
2 Grundläggande sannolikhetsteori NYCKELBEGREPP: Begrepp Grunderna Betingade sannolikheter Total slh och Bayes Länk till avnittets ordinarie uppgifter 2. Låt A vara händelsen att en person är rökare och B att personen har diabetes. Markera i Venndiagrammet a) händelsen att personen är både rökare och har diabetes b) händelsen att personen är rökare men har inte diabetes c) händelsen att personen varken är rökare eller har diabetes 2.2 2.3 I en population är 2% rökare och % har diabetes. 5% är både rökare och har diabetes. Beräkna sannolikheten att en slumpmässigt utvald person a) har minst en av egenskaperna rökare och diabetiker b) är rökare men inte diabetiker c) varken är rökare eller diabetiker I en population är 2% rökare och % har diabetes. 5% är både rökare och har diabetes. Beräkna sannolikheten att a) en diabetiker är rökare b) en rökare är diabetiker 2.4 9
2 Grundläggande sannolikhetsteori Ett system innehåller två komponenter A och B. A går sönder med sannolikheten. och B med sannolikheten.2. Dessutom vet man att om A redan är trasig är sannolikheten.4 att B också går sönder. Vad är a) P(B A) b) P(A B), dvs sannolikheten att båda komponenterna är trasiga c) P(A B), dvs sannolikheten att då B är trasig, A också går sönder 2.5 2.6 2.7 Avgör om följande påstående är sanna eller falska: a) Att händelserna A och B är oberoende är identiskt med att P(B A)=P(B) b) Att händelserna A och B är oberoende är identiskt med att P(B A)=P(A) Ett experiment lyckas med sannolikheten.9. Du utför tre experiment som lyckas oberoende av varandra. Vad är sannolikheten a) första experimentet misslyckas b) det första experimentet misslyckas men de två övriga lyckas c) precis ett experiment av de tre misslyckas d) det tredje misslyckas då man vet att de två första lyckats I en studentpopulation är 55% kvinnor. Av dessa har 2% ett extraknäck bredvid studierna medan motsvarande sira för männen är 5%. (FI- GUR!) a) Om K står för kvinna och E för extraknäck, hur kan då sannolikheten 2% i texten ovan tecknas? Är det (i) P(K E) (ii) P(E K) (iii) P(E K) b) Markera i guren händelsen att en slumpmässigt utvald person är kvinna och har extraknäck c) Beräkna sannolikheten att en slumpmässigt utvald person är kvinna och har extraknäck d) Markera i guren händelsen att en slumpmässigt utvald person är man och har extraknäck e) Beräkna sannolikheten att en slumpmässigt utvald person är man och har extraknäck f) Beräkna sannolikheten att en slumpmässigt utvald person har extraknäck
2.8 2.9 I ett land är sannolikheten att som turist bli magsjuk %. Antag att en person turistar i landet vid 2 tillfällen. a) Vad är sannolikheten att personen inte smittas vid ett tillfälle? b) Vad är sannolikheten att personen inte smittas vid något av de 2 tillfällena? c) Vad är sannolikheten att personen smittas vid minst ett av de 2 tillfällena? Av de bosatta i en stad är 2% studenter och 2% av dessa är bilägare. Bland icke-studenterna i staden är däremot 55% bilägare. Beräkna a) sannolikheten att en slumpmässigt vald person är bilägare b) den betingade sannolikheten att en slumpmässigt vald bilägare är student
3 Fördelningar 3. Diskreta fördelningar NYCKELBEGREPP: Begrepp Sannolikhets- och fördelningsfunktion Några standardfördelningar Väntevärde Varians och standardavvikelse Länk till avsnittets ordinarie uppgifter Sannolikhets- och fördelningsfunktion 3. Avgör om variabeln X i följande exempel är diskret eller kontinuerlig: (i) X = antalet ägg i ett rede (ii) X = längden (cm) hos en slumpmässigt vald 2 årig kvinna (iii) X = högsta ödet (m 3 /s) ett år i Vindelälven (iv) X = antal år under ett decennium som högsta ödet i Vindelälven överstiger m 3 /s (v) X = kolesterolhalten (mg/ml) hos en slumpmässigt vald manlig diabetiker (vi) X = brottgränsen (N/mm 2 ) hos ett material 3.2 I ett spel satsar man 4 kronor. Man kastar en symmetrisk tärning och får lika många kronor som det antal prickar som tärningen visar. Låt X vara vinsten i spelet. a) Vilka värden kan X anta? Markera de värden som X kan anta. b) Vad är sannolikheten att vinsten är, d.v.s. vad är P (X = )? c) Vad är sannolikheten att vinsten är 3, d.v.s. vad är P (X = 3)? d) Vad är sannolikheten att vinsten överstiger, d.v.s. vad är P (X > )? e) Vad är sannolikheten att vinsten är negativ, d.v.s. vad är P (X < )? 3.3 Para ihop: A: P (X 2) : Sannolikhetsfunktion i punkten 2, d.v.s. p(2) B: P (X > 2) 2: Fördelningsfunktion i punkten 2, d.v.s. F (2) C: P (X = 2) 3: - fördelningsfunktionen i punkten 2, d.v.s. F (2) 3
3 Fördelningar 3.4 Nedan visas sannolikhetsfunktion, p(x), och fördelningsfunktion, F (x), för en diskret stokastisk variabel X. Kontrollera att du kan använda såväl sannolikhetsfunktion som fördelningsfunktion när du beräknar följande sannolikheter: a) P (X = 3) b) P (X 2) c) P (X < 2) d) P (X 3) e) P (X > 3).4 Sannolikhetsfunktion.3 p(x).2. F(x)=P(X x) 2 3 4 5 x Fördelningsfunktion, F(x).8.6.4.2 2 3 4 5 6 7 x Några standardfördelningar 3.5 Du studerar färgen på bilarna som kör på vägen utanför ditt fönster. Antag att var femte bil i Sveriges fordonspark är röd. Vad är sannolikheten att den första röda bil som kommer a) är den tredje bilen b) är den sjunde bilen c) är bil nr x 3.6 Avgör i vilken eller vilka av de nedanstående situationerna slumpvariabeln X är binomialfördelad a) En person lämnar varje vecka in samma rad på Lotto. Låt X vara antal gånger hen får vinst under ett år. b) En person studerar noga tidningens fotbollssidor och lämnar varje vecka in sitt "experttips"utom i semestertider då hen har ett stående tips. Låt X vara antal gånger hen får vinst under ett år. c) En person äter choklad ur en kartong med 3 bitar av både ljus och mörk choklad. Hen väljer slumpmässigt ut bit efter bit och äter till 4
3. Diskreta fördelningar det återstår. Låt X vara antal ljusa chokladbitar hen ätit upp. d) En person står vid en väg och noterar under minuter färgen på de bilar som passerar. Låt X vara antalet bilar innan den första röda bilen passerar. e) En person står vid en väg och noterar under minuter färgen på de bilar som passerar. Låt X vara antalet röda bilar under dessa minuter. f) En person står vid en väg och noterar färgen på de första 5 bilar som passerar. Låt X vara antalet röda bilar av de 5. 3.7 I nedanstående situationer är X binomialfördelad. Ange n och p i fördelningarna. a) Risken att ett vägavsnitt översvämmas ett år uppskattas til 5%. Låt X vara antal år under ett decennium med översvämmat vägavsnitt. b) I genomsnitt råkar Benjamin ut för köer " gång av när han tar bilen till jobbet. Låt X vara antal dagar under en arbetsvecka då han inte köar på väg till arbetet. c) Lisa och Karin kastar vardera kast med en tärning. Låt X vara antalet femmor de får tillsammans. d) Vid tillverkning av?? blir % missfärgade medan 2% får fel form. Dessa två fel sker oberoende av varandra. Låt X vara antalet felfria enheter i en förpackning om. 3.8 Antalet årliga olyckor utmed ett vägsnitt anses vara Poissonfördelat med väntevärde 5, d.v.s. Po(5). Om X=antalet olyckor gäller p(x) = e 5 5x x! för x =,, 2,.... Beräkna sannolikheten (använd räknare eller tabell) att antalet olyckor ett år är a) precis 3 b) minst 7 c) högst 5 5
3 Fördelningar.8 Sannolikhetsfunktion för X=antal olyckor, Po(5).6.4.2. p(x).8.6.4.2 2 2 4 6 8 2 4 6 x=antal olyckor 3.9 Du kastar en tärning 5 gånger i rad och räknar antal sexor du får. Vad är sannolikheten att du får precis 3 sexor?.45 Sannolikhetsfunktion för X=sexor på 5 kast, Bin(5,/6).4.35.3.25 p(x).2.5..5 2 3 4 5 x=antal sexor på 5 kast Väntevärde och varians/standardavvikelse 3. Nedan visas sannolikhetsfunktionen för en stokastisk variabel X. Beräkna variabelns väntevärde, d.v.s. E(X). x 2 3 4 5 p(x)..3.2.2.. 6
3. Diskreta fördelningar.35 Sannolikhetsfunktion.3.25.2 p(x).5..5 2 3 4 5 x 3. I ett spel satsar man 4 kronor. Man kastar en symmetrisk tärning och får lika många kronor som det antal prickar som tärningen visar. Låt X vara vinsten i spelet. Vad är spelets förväntade vinst? 3.2 Nedan visas sannolikhetsfunktionerna för två stokastiska variabler X och Y..25 Sannolikhetsfunktion för X p(x).2.5..5.25 2 3 4 5 6 7 8 x Sannolikhetsfunktion för Y p(x).2.5..5 2 3 4 5 6 7 8 9 x a) Vilken av dem har störst väntevärde? b) Vilken av dem har störst varians? c) Vilken av dem har störst standardavvikelse? 3.3 Nedan visas sannolikhetsfunktionerna för två stokastiska variabler X och Y. 7
3 Fördelningar Sannolikhetsfunktion för X p(x) p(x).3.25.2.5..5.3.25.2.5..5 2 3 4 5 6 7 8 x Sannolikhetsfunktion för Y 2 3 4 5 6 7 8 x a) Vilken av dem har störst väntevärde? b) Vilken av dem har störst varians? c) Vilken av dem har störst standardavvikelse? 8
3.2 Kontinuerliga fördelningar 3.2 Kontinuerliga fördelningar NYCKELBEGREPP: Begrepp Täthets- och fördelningsfunktion Några standardfördelningar Väntevärde, percentiler/kvantiler Varians och standardavvikelse Transformationer av s.v. Länk till avsnittets ordinarie uppgifter Täthets- och fördelningsfunktion 3.4 Vilka av gurerna visar en fördelningsfunktion F och vilka en täthetsfunktion f? FIGUR A FIGUR B.5.5 2 4 6 FIGUR C 2 4 6 FIGUR D.5.5 2 4 6 FIGUR E 2 4 6 FIGUR F.5.5 2 4 6 2 4 6 3.5 I guren ovan visas tre täthetsfunktioner, f, med respektive fördelningsfunktion, F. Para ihop de tre täthetsfunktionerna med respektive fördelningsfunktion. 9
3 Fördelningar FIGUR A FIGUR B.5.5 2 4 6 FIGUR C 2 4 6 FIGUR D.5.5 2 4 6 FIGUR E 2 4 6 FIGUR F.5.5 2 4 6 2 4 6 3.6 Avgör vilka påståenden som är korrekta angående täthetsfunktionen, f(x) och fördelningsfunktionen, F (x), för en kontinuerlig slumpvariabel X. (i) F (x) = x f(t)dt (ii) F (x) (iii) f(x) (iv) F (x) är den primitiva funktionen till f(x) (v) P (X = x) = f(x) 3.7 En slumpvariabel X har täthetsfunktion f(x) (bilden nedan) och fördelningsfunktion F (x). Ange hur arean till höger om linjen kan utryckas. (i) P (X 4) (ii) P (X 4) (iii) P (X > 4) (iv) F (4) (v) F (4) (vi) F ( ) F (4) 2
3.2 Kontinuerliga fördelningar.35 Täthetsfunktion, f(x).3.25.2.5..5 2 2 4 6 8 3.8 Bilden visar fördelningsfunktionen, F (x), för den stokastiska variabeln X. Vad är a) P (X 5) b) P (X > 5) c) P (X < 5) d) P (3 < X 5) e) P (3 X 5) Fördelningsfunktion, F(x).9.8.7 F(3)=.3 F(5)=.93.6.5.4.3.2. 2 3 4 5 6 7 8 3.9 Bilden visar täthetsfunktionen, f(x), för den stokastiska variabeln X och sirorna i guren motsvarar arean för området. Låt motsvarande fördelningsfunktion betecknas F(x). Vad är a) P (X 3) b) P (X > ) 2
3 Fördelningar c) P (X < ) d) P (X 3) e) P (X = 3) f) F (3) g) F (3) F ().7 Täthetsfunktion, f(x).6.5.4.3.2..49.38.3 2 3 4 5 6 7 3.2 Figurerna visar täthetsfunktion och fördelningsfunktion för tre standardfördelningar. Para ihop rätt gurer med respektive fördelning exponentialfördelning normalfördelning rektangelfördelning (likformig fördelning) FIGUR A FIGUR B.5.5 2 4 6 FIGUR C 2 4 6 FIGUR D.5.5 2 4 6 FIGUR E 2 4 6 FIGUR F.5.5 2 4 6 2 4 6 3.2 Bilderna visar täthetsfunktionen, f(x), och fördelningsfunktionen, F (x), för en exponentialfördelning där f(x) = λe λx. 22
3.2 Kontinuerliga fördelningar a) Ange värdet på λ. b) Vilken av följande uttryck anger fördelningsfunktionen F (x) (i) e λx (ii) e λx c) Beräkna P (X 4) d) För vilket a gäller P (X a) =.95?.5 Exponentialfördelningen: täthetsfunktion, f(x).4.3.2. 2 4 6 8 2 Exponentialfördelningen: fördelningsfunktion, F(x).8.6.4.2 5 5 3.22 Figuren visar tre normalfördelningar. Para ihop gurerna med rätt kodbeteckning N(µ, σ). (i) N(, 3) (ii) N(5, ) (iii) N(5, 2) (iv) N(, ) (v) N(, 2) (vi) N(, 5) 23
3 Fördelningar.4 FIGUR A.2 4 3 2 2 3 4.2 FIGUR B. 4 2 2 4 6 8 2 4. FIGUR C.5 5 5 5 2 25 3 3.23 Figuren visar fördelningsfunktionen, F (x), för en rektangelfördelning (likformig fördelning) R(a,b). Rektangelfördelning: fördelningsfunktion, F(x).8.6.4.2 2 3 4 5 6 7 a) Ange a och b. b) Vilken av gurerna nedan beskriver motsvarande täthetsfunktion, f(x)?. 24
3.2 Kontinuerliga fördelningar FIGUR A.2. 2 3 4 5 6 7.3.2. FIGUR B 2 3 4 5 6 7.3.2. FIGUR C 2 3 4 5 6 7 c) Beräkna P (X > 4) d) Beräkna P ( X 3) 3.24 En tågvärd på Lunds station noterar ofta hur många minuter Öresundståget från Helsingör till Helsingborg är försenat. När hon plockat bort extrema händelser som t.ex. olyckor och avstängningar p.g.a. snö eller storm kvarstår normalaförseningar. Hon ritar samtliga 2325 noteringar om förseningar i ett histogram och anser att en approximativ modell är att X=försening är rektangelfördelad (likformigt fördelad) i intervallet till 7 minuter. Nedan visas motsvarande täthetsfunktion (frekvensfunktion), f(x) för denna modell. FIGUR! a) Ange f(x) b) Vad är sannolikheten att förseningen överstiger 5 minuter? c) Vad är sannolikheten att förseningen är mellan 3 och 4 minuter? d) Vad är sannolikheten att förseningen är exakt 3 minuter? e) Hur lång är den förväntade förseningen? Väntevärde, percentiler/kvantiler, varians/standardavvikelse 3.25 Bilderna visar en täthetsfunktionerna för en normalfördelad respektive rektangelfördelad stokastisk variabel. Ange väntevärdet i a) normalfördelningen b) rektangelfördelningen 25
3 Fördelningar.8 Normalfördelning.6.4.2 2 3 4 5 6 7 8 9.2 Rektangelfördelning.5..5 3 2 2 3 4 5 6 7 3.26 Bilderna visar täthetsfunktionen, f(x), och fördelningsfunktionen, F (x), för en exponentialfördelning där f(x) =.5e.5x och F (x) = e.5x. a) Ange det värde a där P (X a) =.5 b) Ange fördelningens 5 % kvantil c) Ange fördelningens 95 % percentil d) Ange fördelningens median e) Beräkna (eller slå upp) fördelningens väntevärde f) Beräkna (eller slå upp) fördelningens standardavvikelse.5 Exponentialfördelningen: täthetsfunktion, f(x).4.3.2. 2 4 6 8 2 Exponentialfördelningen: fördelningsfunktion, F(x).8.6.4.2 5 5 3.27 Bilden visar fördelningsfunktionen, F (x), för en rektangelfördelning där F (x) =.25(x ) då x 5. a) Ange det värde a där P (X a) =.5 b) Ange fördelningens 25 % kvantil 26
3.2 Kontinuerliga fördelningar c) Ange fördelningens median d) Ange fördelningens väntevärde e) Beräkna (eller slå upp) fördelningens standardavvikelse Rektangelfördelning: fördelningsfunktion, F(x).8.6.4.2 2 3 4 5 6 7 27
3 Fördelningar 3.3 Summa, medelvärde och andra linjärkombinationer NYCKELBEGREPP: Begrepp Räkneregler Summa och medelvärde Mätsituationen Länk till avsnittets ordinarie uppgifter 3.28 För de tre oberoende slumvariablerna X, Y och Z gäller E(X) = 2 D(X) = E(Y ) = D(Y ) = 2 E(Z) = D(Z) = 3 Ange väntevärde och standardavvikelse för a) X + Y b) 2X Y c) (X + Y + Z)/3 3.29 Antag att X och Y är två oberoende stokastiska variabler och a, b är två givna konstanter. Vilket av följande alternativ är INTE sant: (i) E(a X + b) = a E(X) + b (ii) V (a X + b) = a 2 V (X) (iii) V (X Y ) = V (X) + V (Y ) (iv) E(a X + b Y ) = a E(X) + b E(Y ) (v) V (a X) = a 2 E(X 2 ) 3.3 Antag att den mängd 4-procentig alkohol kroppen förbränner under en timme beskrivs av en slumpvariabel X med väntevärde.75 cl och standardavvikelse. cl. En person tog en shot på 6 cl 4-procentig alkohol, beräkna väntevärde och standardavvikelse för den mängd alkohol som återstår att förbränna efter två timmar. Antag att förbränningen olika timmar är oberoende. 3.3 Du har fått i uppdrag att undersöka vikten på de sopor som slängs i hushållen. Låt X i beteckna vikten av de sopor som slängs från hushåll i och V (X i ) = σ 2 kg 2. Para ihop rätt uttryck med beskrivning och med varians. 28
3.3 Summa, medelvärde och andra linjärkombinationer 5 X 5 i 5 X 5 X i A: Total mängd sopor från 5 B: Total mängd av C: Genomsnittlig vikt sopor hushåll då alla slänger lika 5 hushålls sopor hos 5 hushåll mycket som hushåll nr σ 2 5 5 σ 2 5 2 σ 2 29
3 Fördelningar 3.4 Normalfördelningen Normalfördelningen som modell NYCKELBEGREPP: Begrepp Normalfördelning som modell Beräkna sannolikheter/kvantiler Lognormalfördelningen Linjärkombinationer av normalfördelade s.v. Centrala gränsvärdessatsen Länk till avsnittets ordinarie uppgifter 3.32 Figurerna visar tre histogram från tre datamaterial. Samtidigt är materialen utritade i normalfördelningsdiagram. a) Para ihop rätt gurer. b) Vilket diagram visar en normalfördelning? HISTOGRAM HISTOGRAM 2 HISTOGRAM 3 Probability Probability Probability DIAGRAM A.98.99.95.9.75.5.25..5..2 6.5 7 7.5 8.98.99.9.95.75.5.25.5...2 DIAGRAM B 7 8 9 DIAGRAM C.98.99.9.95.75.5.25.5...2 2 3 4 3.33 Figurerna visar täthetsfunktionerna för ett antal normalfördelningar. Para ihop varje gur med rätt beteckning N(µ, σ). a) N(, 2) b) N(5, ) c) N(, ) d) N(5,.2) 3
3.4 Normalfördelningen.4 FIGUR A.2 FIGUR B.3.5.2...5 2 4 6 8 5 5 2.4 FIGUR C 2 FIGUR D.3.5.2..5 6 8 2 4 4 4.5 5 5.5 6 3.34 Vikten hos fullgångna nyfödda barn kan modelleras med en normalfördelning. Vilket av följande värden är en lämplig uppskattning av sannolikheten att ett nyfött barn har en vikt som understiger 3.2 kg? a).35 b).25 c).75 Normal Probability Plot.99.98.95.9.75 Probability.5.25..5.2. 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 4 4.2 4.4 vikt (kg) 3.35 Bilden visar en täthetsfunktion för en normalfördelad stokastisk variabel som har enheten meter (m), vad är standardavvikelsen? a) 2 m b) 2 m 2 c) 4 m d) 4 m 2 3
3 Fördelningar.2.8.6.4.2..8.6.4.2 2 4 6 8 2 22 24 26 28 3 längd (m) 3.36 Vikten hos en alpin skidåkare med utrustning anses variera enligt en normalfördelad stokastisk variabel X med väntevärde E(X)=8 kg och varians V(X)=36 kg 2. Uppskatta mellan vilka vikter a) 95 % av skidåkarnas vikter ligger. Svara med hela kg. b) 99.7 % av skidåkarnas vikter ligger. Svara med hela kg. Beräkna sannolikheter 3.37 Slumpvariabeln X är normalfördelad N(, ). Beräkna, med hjälp av normalfördelningstabell, räknare eller beräkningsprogram, följande sannolikheter. Ange svaret med 3 decimaler. a) P (X 2.7) b) P (X > 2.7) c) P (.5 X.5) 3.38 Slumpvariabeln X är en normalfördelad med väntevärdet 3 och varians 4. Beräkna, med hjälp av normalfördelningstabell, räknare eller beräkningsprogram, följande sannolikheter. Ange svaret med 3 decimaler. a) P (X 4) b) P (X > 4) c) P ( X 4) 32 Kvantiler 3.39 Använd normalfördelningstabell, räknare eller beräkningsprogram för att beräkna följande sannolikheter.
3.4 Normalfördelningen a) Bild A visar en täthetsfunktion för en standardiserad normalfördelad stokastisk variabel. Det gråa området är ytan under tätheten för x a. Vad är a om ytans area är.5? Ange svaret med 3 signikanta siror. b) Bild B visar en täthetsfunktion för en standardiserad normalfördelad stokastisk variabel. Det gråa området är ytan under tätheten för x a. Vad är a om ytans area är.? Ange svaret med 3 signikanta siror..4 NORMALFÖRDELNING, N(,).3.2. 4 3 2 2 3 4.4 NORMALFÖRDELNING, N(,).3.2. 4 3 2 2 3 4 Lognormalfördelningen 3.4 De 28 mätningarna av kvävehalt (µg/l), respektive logaritmerad kvävehalt, i en å ritas i normalfördelningsdiagram. a) Vilken fördelning kan kvävehalten modelleras med? (i) normalfördelning (ii) lognormalfördelning b) Uppskatta sannolikheten att kvävehalten överstiger 35 (µg/l). (i).8 (ii).5 (iii).2 33
3 Fördelningar Probability Probability.99.98.95.9.75.5.25 Normal Probability Plot..5.2. 5 5 2 25 3 35 4 45 kvävehalt (µg/l).99.98.95.9.75.5.25..5.2. Normal Probability Plot 6.4 6.6 6.8 7 7.2 7.4 7.6 7.8 8 8.2 8.4 logaritmerad kvävehalt 3.4 X=koncentrationen av fosfor (mg/l) i en sjö varierar mellan olika mättillfällen, bl.a. på grund av när på året mätningen görs. Andra faktorer, som extremt väder, utsläpp o.s.v. påverkar också. En grov modell är att X kan modelleras som en lognormalfördelning Det innebär att ln(x) är normalfördelad med väntevärde µ och standardavvikelse σ. Från tidigare mätningar anser man sig veta att µ.9 mg/l och σ.7 mg/l. Använd räknare/dator för att uppskatta sannolikheten att en mätning överstiger.5 mg/l. 5 LOGNORMALFÖRDELNING, µ=.9, σ=.7 4.5 4 3.5 3 2.5 2.5.5..2.3.4.5.6.7.8.9 fosforhalt (mg/l) Linjärkombinationer 3.42 För de två oberoende s.v. X och Y gäller att X N(,3) och Y N(3,4). Linjärkombinationerna i (a)-(e) nedan är också normalfördelade, ange vilka normalfördelningar det är. a) X + Y 34
3.4 Normalfördelningen b) X Y + 2 c) (X + Y )/2 d) 2X + 3Y 6 e) 4X Y 3.43 Den stokastiska variablerna X,..., X 4 är oberoende och normalfördelade med väntevärde 25 och varians 9. a) Vilken av gurerna nedan motsvarar fördelningen för X +X 2 +X 3 + X 4 75? b) Ange väntevärdet och standardavvikelsen för X +X 2 +X 3 +X 4 75 c) Vilken av gurerna nedan motsvarar fördelningen för X = 4 (X + X 2 + X 3 + X 4 )? d) Ange väntevärdet och standardavvikelsen för X = 4 (X +X 2 +X 3 + X 4 ). Fördelning A.5 5 5 2 25 3 35 4 45.4 Fördelning B.2 5 5 2 25 3 35 4 45.2 Fördelning C. 5 5 2 25 3 35 4 45 3.44 Den stokastiska variablerna X,..., X 4 är oberoende och samtliga är normalfördelade med väntevärde 25 och standardavvikelse 3.5. Antag att X,..., X 4 beskriver vikten hos 4 treåringar i en viss population. I guren är markerat sannolikheten att en mätning, X, avviker från väntevärdet 25 med mindre än 3 enheter, d.v.s. P (22 < X < 28). Avgör om följande är sant eller falskt: a) Om jag bildar medelvärdet, X, av de fyra vikterna kommer P (22 < X < 28) att vara mindre än P (22 < X < 28) b) Om jag tar 8 barn och bildar medelvärdet av deras vikter, X8 kommer P (22 < X 8 < 28) < P (22 < X 4 < 28) c) Om jag vill att medelvärdet av n barns vikter ska avvika från intervallet (22, 28) med liten sannolikhet kan jag uppnå det genom att låta n vara stort, d.v.s. mäta vikterna på många barn. 35
3 Fördelningar.2 NORMALFÖRDELNING, N(25,3.5)..8.6.4.2 5 2 25 3 35 4 vikt (kg) 3.45 Två studenter programmerar en industrirobot att klippa en m lång vajer från en stor rulle, problemet är att industrirobotens räckvidd är endast ca 2 m. Student A låter roboten mäta ut 2 m en gång och viker sedan ihop vajern ett antal gånger för att få en längd på m. Student B har precis läst en kurs i matematisk statistik och låter roboten i stället mäta 2 m vajer 5 gånger. För att utvärdera vilken metod som är bäst låter man industriroboten klippa m vajer 2 gånger enligt de båda föreslagna metoderna. På bilderna visas resultatet, vilken bild motsvarar student B:s metod? 6 5 4 3 2 FIGUR 92 94 96 98 2 4 6 8 5 FIGUR 2 4 3 2 99 99.2 99.4 99.6 99.8.2.4.6.8 Centrala gränsvärdessatsen 3.46 Koncentrationen av fosfor (mg/l) i en sjö varierar mellan olika mättillfällen, bl.a. på grund av när på året mätningen görs. Andra faktorer, som extremt väder, utsläpp o.s.v. påverkar också. Om man gör n oberoende mätningar, x, x 2,..., x n kan mätningarna betraktas som observationer 36
3.4 Normalfördelningen från en stokastisk variabel X vars fördelning är ganska sned och okänd; se guren nedan som visar en tänkbar fördelning för X. Avgör om följande påståenden är sanna eller falska. 5 FÖRDELNING FÖR X=FOSFORHALT 4.5 4 3.5 3 2.5 2.5.5..2.3.4.5.6.7.8.9 fosforhalt (mg/l) a) Om jag tar 5 mätningar från X kommer ett histogram för mätningarna att approximativt likna en normalfördelning b) Om jag tar 5 mätningar från X kommer summan av mina mätningar approximativt vara normalfördelad c) Om jag tar 5 mätningar från X kommer medelvärdet av mina mätningar approximativt vara normalfördelad d) Om jag tar 5 mätningar från X är det förmodligen svårt att säga vad medelvärdet av mina mätningar har för fördelning 37
3 Fördelningar 3.5 Fördelningsanpassning NYCKELBEGREPP: Begrepp Finns det en standardfördelning till mina data? Länk till avsnittets ordinarie uppgifter 3.47 En cykelmotionär cyklar alltid samma 33 km långa sträcka och har noterat den tid det tar vid vart och ett av de 32 pass hen gjort under en säsong. Nedan visas den empiriska fördelningsfunktionen. EMPIRISK FÖRDELNINGSFUNKTION.9.8.7.6 F(x).5.4.3.2. 62 63 64 65 66 67 68 69 7 7 TID (minuter) a) Vilken tid understigs i 6 % av de 32 träningspassen? Svara med en decimal. b) I hur stor andel av de 32 träningspassen har cyklisten en tid som överstiger 7 minuter? Svara med hela procent. c) Tiderna ritades ut i ett normalfördelningsdiagram. Uppskatta, utifrån antagandet att normalfördelning är en lämplig modell, sannolikheten att tiden för ett slumpmässigt valt träningspass överstiger 7 minuter. 38
3.5 Fördelningsanpassning.99.98 Normal Probability Plot.95.9.75 Probability.5.25..5.2. 63 64 65 66 67 68 69 7 TID (minuter) 3.48 På en väg med högsta tillåtna hastighet 4 km/h mättes hastigheten hos 43 bilar. a) Medianhastigheten uppskattas till (i) 25 km/h (ii) 3 km/h (iii) 4 km/h b) Hastigheterna kan approximativt modelleras med en (i) normalfördelning (ii) lognormalfördelning (iii) exponentialfördelning c) Sannolikheten att hastigheten hos en slumpmässigt vald bil på vägsträckan överstiger 6 km/h kan, enligt den modellerade fördelningen, uppskattas till (i).95 (ii).5 (iii).5 (iv).85 39
3 Fördelningar 5 EMPIRISK FÖRDELNINGSFUNKTION 5 F(x).5 Probability 5 HASTIGHET (km/h) Normal Probability Plot.99.98.95.9.75.5.25..5.2. 2 4 6 8 HASTIGHET (km/h) Probability 5 x Normal Probability Plot.99.98.95.9.75.5.25..5.2. 2.5 3 3.5 4 ln(hastighet) 3.49 Slumptal från tre de standardfördelningarna exponentialfördelning, normalfördelning och rektangelfördelning är ritade i histogram och i normalfördelningsdiagram. Para ihop histogrammen med rätt normalfördelningsdiagram. 2 EXPONENTIALFÖRDELNING 2 4 6 8 2 NORMALFÖRDELNING 2 4 6 8 REKTANGELFÖRDELNING 2 2 4 6 8 Probability Probability Probability BILD A.997.999..3..2.5..25.5.75.9.95.98 2 4 6 8 Data BILD B.997.999..3..2.5..25.5.75.9.95.98 2 4 6 8 Data BILD C.997.999.75.9.95.98..3..2.5..25.5 2 4 6 Data 3.5 Hydrologer är ofta intresserade av sambandet mellan nederbörd och avrinning i ett vattendrags avrinningsområde. I denna uppgift nns resultat från mätningar vid orten Pontelagoscuro vid oden Po i Italien under åren 98-978. Först studerade man hur den årliga avrinningen (mm) varierat genom att göra några gurer. Figur: Årlig avrinning (mm) under perioden 98-978 plottade (a) med empirisk fördelningsfunktion, (b) i normalfördelningsplot, (c) ln(avrinning) i normalfördelningsplot, (d) i weibullplot. 4
3.5 Fördelningsanpassning Uppskatta sannolikheten att avrinningen ett år överstiger mm i Pontelagoscuro. F(x).8.6.4.2 Empirical CDF 4 6 8 2 avrinning Probability.99.98.95.9.75.5.25..5.2. Normal Probability Plot 4 6 8 2 avrinning Probability.99.98.95.9.75.5.25..5.2. Normal Probability Plot 6 6.2 6.4 6.6 6.8 7 ln(avrinning) Probability.99.96.9.75.5.25..5.2. Weibull Probability Plot avrinning 3 4
3 Fördelningar 3.6 Mätsituationen, felfortplantning NYCKELBEGREPP: Begrepp Mätsituationen Felfortplantning Länk till avsnittets ordinarie uppgifter 3.5 Mätningen på en storhet Θ beskrivs med en slumpvariabel X. Vilka av följande påståenden är korrekta? a) Om väntevärdet för X är Θ har mätningen inget systematiskt fel. b) Standardavvikelsen för X är ett mått på mätningens precision. c) Standardavvikelsen för medelvärdet av två mätningar, d.v.s. för X+X2 2, är alltid mindre än den för en mätning. 42
4 Grundläggande inferens 4. Observationsstudier och slumpmässiga försök NYCKELBEGREPP: Begrepp Länk till avsnittets Slumpmässiga försök ordinarie uppgifter Lite om försöksplanering 4. Avgör i följande fall om det är ett slumpmässigt stickprov... 43
4 Grundläggande inferens 4.2 Punktskattningar NYCKELBEGREPP: Begrepp Slumpmässiga stickprov Länk till avsnittets Skattningars egenskaper Kombination av σ-skattningar Hur hittar vi lämpliga skattningar? 4.2 Avgör om följande påstående är sanna eller falska ordinarie uppgifter (i) För att undersöka vad skattningen θ skattar i genomsnitt kan man studera E(θ ) (ii) Om E(θ ) = θ är skattningen θ vändevärdesriktig (vvr), d.v.s. skattar i genomsnitt θ (iii) Att en skattning är väntevärdesriktig är ett absolut krav på en lämplig skattning (iv) Figuren visar fördelningarna för två skattningar θ och θ2. Även om θ2 inte är en väntevärdesriktig skattning av θ tycks det vara en lämpligare skattning av θ än den väntevärderiktiga θ FIGUR! 4.3 Du tar mätningar x och x 2 från en fördelning med väntevärde 2a. Vilken eller vilka alternativ ger en väntevärdesriktig skattning av a? (i) x 2 + x2 2 (ii) x 4 + x2 4 (iii) 2 (x + x 2 ) (iv) 3 x 8 + x2 8 4.4 Du tar mätningar x och x 2 från en fördelning med väntevärde 2a och varians σ 2. Vilken av följande alternativ är den bästa skattning av a? (i) x 2 (ii) x 4 + x2 4 (iii) x 3 + x2 6 (iv) 3 x 8 + x2 8 4.5 Du gör mätningar x,..., x av temperaturen som varierar enligt en fördelning där väntevärdet är µ och variansen σ 2. Man skattar µ med µ = x. Sedan inser man att mätinstrumentet som man använt har ett systematiskt fel på λ enheter och beräknar därför även µ 2 = x λ. Avgör om följande påstående är sanna eller falska. a) µ är en väntevärdesriktig skattning av µ 44
b) µ 2 är en väntevärdesriktig skattning av µ 4.2 Punktskattningar c) V (µ ) = V (µ 2), d.v.s. de två skattningarnas spridning är den samma d) Om vi tagit ytterligare en mätning och skattat µ med µ 3 = i= x i λ hade µ 3 varit en eektivare skattning än µ 2 4.6 En person gör dubbelbestämningar av sträckorna A och B med ett avståndsinstrument: Sträcka mätning mätning 2 medelvärde A 3 5 4 B 3.5 Avgör om följande påstående är sanna eller falska a) Det är för få mätningar för att bestämma instrumentets precision b) En lämplig skattning av instrumentets precision är att betrakta alla 4 mätningarna som ett stickprov och skatta σ utifrån detta stickprov c) Man måste kombinera ihop två skattningar av σ 45
4 Grundläggande inferens 4.3 Kondensintervall NYCKELBEGREPP: Begrepp Kondensintervall för µ Kondensintervall för σ Länk till avsnittets ordinarie uppgifter 4.7 Väntetiden (min) i ett sjukhus akutrum en tisdag förmiddag anses vara normalfördelat med väntevärde µ. Baserat på 25 oberoende väntetider beräknas ett 95 % kondensintervall för µ, I µ = (23, 55). Avgör om följande påståenden är falska eller sanna: (i) Sannolikheten är.95 att en patients väntetid ligger i intervallet. (ii) Intervallet ger oss en uppfattning om hur stor den förväntade väntetiden är. (iii) 95 % av alla patienter har en väntetid som ligger i intervallet. (iv) Medelvärdet av de 25 väntetiderna var 39 minuter. (v) Det är inte speciellt troligt att påståendet Patienterna får i genomsnitt vänta 2 minuter är korrekt. 4.8 Avståndsmätningar med ett instrument är normalfördelade med väntevärde µ. Baserat på 7 mätningar beräknas ett 95 % kondensintervall för µ, I µ = (2.5, 2.7). Avgör om följande påståenden är falska eller sanna: (i) Intervallets bredd påverkas av variationen hos mätningarna. (ii) Om du ökar kondensgraden till.99 blir intervallet smalare. (iii) Ett 95 % ensidigt, nedåt begränsat, intervall för µ är (2.5, ). (iv) Om du ökar antalet observationer till kommer intervallet att bli smalare. (v) Det är inte så troligt att µ är 2.9. (vi) Om man vill halvera intervallets bredd måste man ta ungefär 4 gånger så många mätningar. 4.9 Ett 99 % kondensintervall för µ i en normalfördelning beräknades och man ck I µ = (4.5, 7.5). Vad är x, medelvärdet av mätningarna? 4. Med hjälp av n observationer vill man beräkna ett tvåsidigt 95 % kon- densintervall för µ i en normalfördelning där σ anses vara känd. Intervallet ska byggas upp enligt principen I µ = (A ± kvantil B). Två av följande påståenden är felaktiga, vilka? (i) A är medelvärdet av mätningarna. (ii) A är en väntevärdesriktig skattning av µ. 46
4.3 Kondensintervall (iii) kvantilen är λ.25. (iv) kvantilen är t.25 (n ). (v) B är medelfelet av µ. (vi) B är σ n. (vii) B är s n. 4. Med hjälp av n observationer vill man beräkna ett tvåsidigt 95 % kon- densintervall för µ i en normalfördelning där σ är känd. Intervallet ska byggas upp enligt principen I µ = (A ± kvantil B). Två av följande påståenden är felaktiga, vilka? (i) A är medelvärdet av mätningarna. (ii) A är en väntevärdesriktig skattning av µ. (iii) kvantilen är λ.25. (iv) kvantilen är t.25 (n ). (v) B är medelfelet av µ. (vi) B är σ n. (vii) B är s n. 4.2 Mätningar av kopparhalten i trä anses vara normalfördelade. Man ville ha information om µ, den verkliga halten av koppar i träbiten. Baserat på 9 mätningar beräknas x = 3.5, s =.7 och det 95 % intervallet s ( x ± t.25 (9 ) 9 ) = (3.5 ± 2.3.7 3 ) = (2.96, 4.4). Sedan insåg man att mätinstrumentet hade ett systematiskt fel på =. enheter. Para ihop nedanstående storheter med rätt numeriska värden.. Kondensintervall för µ + 2. Kondensintervall för µ 3. Skattad standardavvikelse för mätningar utan systematiskt fel 4. Skattning av µ + 5. Skattning av µ Numeriska värden: (i) 3.5 (ii) (2.96, 4.4) (iii) 3.4 (iv).7 (v) (2.86, 3.94) 47
4 Grundläggande inferens 4.3 Ett kondensintervall för µ, avståndet i meter mellan två punkter är beräknat till (.27,.34). Man ville uttrycka kondensintervallet i mm i stället, ange detta intervalls a) undre gräns b) övre gräns c) Vilket av alternativen nedan uttrycker vad det nya intervallet ett kondensintervall för? (i) µ (ii). µ (iii) µ+. 4.4 På en rivningsarbetsplats gjordes 5 mätningar av mängden asbestbrer (brer/cm 3 ) som är tunnare än tre mikrometer i diameter. Från mätningarna ck man x =.9 och s =.2. Ett uppåt begränsat 95 % kondensintervall för µ, förväntad halt, blev (,.). Gränsvärdet för asbest är. brer/cm 3, vilken slutsats drar du från ditt ensidiga intervall? (i) Genomsnittlig asbetshalt är troligen för hög på arbetsplatsen. (ii) Med dessa data har vi inte kunnat påvisa att genomsnittlig asbetshalt understiger gränsvärdet. (iii) Genomsnittlig asbetshalt är troligen under gränsvärdet på arbetsplatsen. (iv) Gränsvärdet är understiget eftersom x =.9 <.. 4.5 Avgör i följande situationer vilken typ av intervall som är lämpligt att beräkna för respektive parameter: ett nedåt begränsat intervall, ett tvåsidigt intervall eller ett uppåt begränsat intervall. a) Parametern µ är förväntad blyhalt på ett daghem nära en trakled. Man vill förvissa sig om att µ understiger ett gränsvärde. b) Parametern µ är förväntad eekt efter en medicinsk behandling. Man vill förvissa sig om att behandlingen ger positiv eekt som överstiger ett visst värde. c) Parametern uttrycker det systematiska felet hos ett instrument. Man vill undersöka om det existerar ett systematisk fel, d.v.s. om är. d) Parametern µ är den förväntade längden hos fyraåriga ickor. Man vill ha en uppfattning om vad µ är. e) Parametern p är andelen pojkar som föds med klumpfot. Man vill påvisa att pojkar har större tendens än ickor att ha denna medfödda defekt. 48
4.4 Hypotestest 4.4 Hypotestest 4.6 I en undersökning på slumpmässigt utvalda manliga lastbilschauörer med hjärt- och kärlbesvär mätte man deras kolesterolhalt (mmol/l). Ett normalt kolesterolvärde ska ligga under 5. mmol/l men man misstänkte att denna grupp hade en högre kolesterolhalt. Beteckna väntevärdet av kolesterolhalten med µ. Vilken uppsättning av hypoteser bör man studera för att undersöka om misstanken är befogad? (i) H : µ = 5; H : µ 5 (ii) H : µ 5; H : µ = 5 (iii) H : µ 5; H : µ > 5 (iv) H : µ 5; H : µ < 5 4.7 Aluminium har smältpunkt 66 C. På ett ämne görs mätningar av smältpunkten, beteckna mätningarnas väntevärde med µ. Man misstänker att ämnet inte är ren aluminium, vilken uppsättning av hypoteser bör ställas upp? (i) H : µ = 66; H : µ 66 (ii) H : µ 66; H : µ = 66 (iii) H : µ 66; H : µ > 66 (iv) H : µ 66; H : µ < 66 4.8 Gränsvärdet för asbest är. brer/cm 3 i luften. På en arbetsplats där man river ner rör isolerade med material innehållande asbest mäts halten. Om µ betecknar mätningarnas väntevärde, vilka hypoteser bör man ställa upp för att förvissa sig att genomsnittshalten av asbest är säkert under gränsvärdet? (i) H : µ =.; H : µ. (ii) H : µ.; H : µ =. (iii) H : µ.; H : µ >. (iv) H : µ.; H : µ <. 4.9 Då patienter får en viss typ av medicinsk behandling vet man av erfarenhet att 6% av dem får biverkan. En ny medicin är utvecklad och prövas på 2 slumpmässigt utvalda patienter. Låt p vara P(en patient får biverkan). Vilka hypoteser bör man ställa upp om man vill påvisa att den nya medicinen ger färre patienter biverkan än den traditionella behandlingen? (i) H : p =.6; H : p.6 (ii) H : p.6; H : p =.6 (iii) H : p.6; H : p >.6 49
4 Grundläggande inferens (iv) H : p.6; H : p <.6 4.2 Låt x,..., x n vara observationer från X som är normalfördelad N(µ, σ) där σ anses vara känd. Nedan anges ett antal uppsättningar av hypoteser kring µ. Para ihop de olika uppsättningarna med rätt testregel då man vill utföra testet med felrisken α. Hypoteser:. H : µ µ ; H : µ > µ 2. H : µ = µ ; H : µ µ 3. H : µ µ ; H : µ < µ Testregler: Förkasta H på nivå α om a) x < µ λ α/2 σ n b) x > µ + λ α σ n c) x > µ + λ α/2 σ d) x < µ + λ α/2 σ n e) x > µ + λ α/2 σ n f) x > µ λ α σ n g) x µ σ n < λ α 4.2 I en undersökning på lastbilschauörer ansåg man att kolesterolhalten varierar enligt en normalfördelning med väntevärde µ och standardavvikelse. Man misstänkte att denna grupp hade en högre kolesterolhalt än det normala 5. mmol/l och ville testa hypotesen H : µ 5 mot H : µ > 5 på signikansnivå.5. Medelvärdet av de kolesterolhalterna blev x = 5.7. Nedan visas en gur över det kritiska området där k = 5 + λ.5 = 5.52. Avgör om följande påståenden är sanna eller falska: a) H kan ej förkastas på signikansnivå.5. b) H kan förkastas på signikansnivå.5. c) H kan förkastas på signikansnivå.5. d) Testet baserar sig på för få mätningar för att man ska kunna dra någon slutsats Testet innebär att H kan förkastas på signikansnivå.5. Avgör om följande slutsatser är sanna eller falska. e) Risken är 5 % att chauörernas genomsnittliga kolesterolhalt är för hög. f) Risken är 5 % att vi felaktigt påstår att chauörer med en genomsnittlig normal kolesterolnivå har för hög halt. 5
4.4 Hypotestest g) Risken är 5 % att vi felaktigt påstår att chauörer med en genomsnittlig hög kolesterolhalt har en normal halt. h) Enbart 5 % av chauörerna har normal kolesterolhalt. 4.22 En tillverkare påstår att µ, förväntad livslängd hos en viss komponent är minst timmar. Du misstänker att livslängden är kortare än så och sätter upp hypoteserna H : µ ; H : µ <. Slutsatsen från testet blev att H KAN EJ förkastas på nivå 5 %. Vilket av alternativen nedan är en korrekt tolkning av detta resultat? a) Vi har visat att H gäller, d.v.s. genomsnittlig livslängd för komponenterna är minst timmar. b) Livslängderna i denna undersökning var inte tillräckligt låga för att vi ska dra slutsatsen att H förkastas. c) Vi har visat att H gäller. d) Vi har visat att för 5 % av komponenterna gäller H. 4.23 Ett företag köper regelbundet stora leveranser av en viss enhet från en tillverkare. Vid varje leverans görs en kvalitetskontroll och 2 partier väljs slumpmässigt ut från partiet. På dessa 2 enheter mäts en storhet som inte bör understiga mm. Man utför därför ett test på nivå 5 % och testar H = mot H <. Om H förkastas anser man partiet vara dåligt och det skickas tillbaka till tillverkaren. Vilket av följande alternativ kommer att gälla i det långa loppet? a) 5% av alla partier skickas tillbaka. b) 5% av alla bra partier kommer att skickas tillbaka. c) 5% av alla dåliga partier kommer att accepteras. d) 5% av alla bra partier kommer att accepteras. 4.24 Kolesterolhalten hos lastbilschauörer anses variera enligt en normalfördelning med väntevärde µ och standardavvikelse mmol/l. Baserat på mätningar vill man testa hypotesen H : µ = 5 (normal kolesterolhalt) mot H : µ > 5 (ökad halt) på signikansnivå.5. Antag att µ, chauörernas verkliga genomsnittliga kolesterolhalt, är 5.8. Använd guren nedan för att svara på frågorna. 5
4 Grundläggande inferens Kritiskt område, H : µ = 5., H : µ > 5..5.5 H: µ = 5. H: µ > 5. n = σ =. α =.5 4 4.5 5 5.5 6 k = 5.52 Sannolikheter för fel av typ och typ 2; Styrka då µ = 5.8.5.5 4 4.5 5 5.5 6 α =.5 (röd), β =.88 (blå); S(5.8) = β =.82 a) Hur stor är risken att man i testet inte upptäcker att chauörernas genomsnittliga kolesterolhalt överstiger 5 när den i själva verket är 5.8? b) Hur stor är chansen att man i testet verkligen upptäcker att chaufförernas genomsnittliga kolesterolhalt överstiger 5 när den är 5.8? 4.25 I en undersökning på slumpmässigt utvalda manliga lastbilschauörer med hjärt- och kärlbesvär mätte man bl.a. deras kolesterolhalt (mmol/l). Ett normalt kolesterolvärde ska ligga under 5. mmol/l men man misstänkte att denna grupp hade en högre kolesterolhalt. Därför ville man testa hypotesen H : µ = 5 mot H : µ > 5 på signikansnivå α. Antag att halten hos chauörerna varierar enligt en normalfördelning med väntevärde µ och standardavvikelse mmol/l. Testet är: Förkasta H på nivå α om x > k = 5 + λ α. Man ville undersöka testets styrka för olika värden på µ, chauörernas verkliga genomsnittliga kolesterolhalt, och ritade därför upp testets styrkfunktion, S(µ), då testet utförs på signikansnivå α. Använd guren nedan för att svara på frågorna. 52
4.4 Hypotestest.8.6.4 H: µ = 5. H: µ > 5. n = σ =. α =.5 S(µ) = P(förkasta H).2 5 5.5 6 µ a) Antag att µ är 5.4, vad är sannolikheten att vi i testet upptäcker att den genomsnittliga kolesterolhalten överstiger 5? b) Om vi tycker att sannolikheten i förra deluppgiften är för låg, vilka av följande strategier kommer att göra sannolikheten (d.v.s. styrkan) högre? (i) Öka antalet mätningar och mät på er än personer. (ii) Minska antalet mätningar och mät på färre än personer. (iii) Försöka öka variationen i populationen, d.v.s. öka σ. (iv) Försöka minska variationen i populationen, d.v.s. minska σ. (v) Öka testets signikansnivå α. (vi) Minska testets signikansnivå α. 4.26 Ett företag köper regelbundet stora leveranser av en viss enhet från en tillverkare. Vid varje leverans görs en kvalitetskontroll och 2 partier väljs slumpmässigt ut från partiet. På dessa 2 enheter mäts en storhet som inte bör understiga mm. Man utför därför ett test på nivå 5% och testar H = mot H <. Om H förkastas anser man partiet vara dåligt och det skickas tillbaka till tillverkaren. Vilket av följande alternativ är felaktigt angående testets styrkefunktion S(µ)? a) Då µ = gäller att S() =.5. b) Ju mindre µ är i förhållande till, desto större vill man att styrkefunktionen S(µ) ska vara. c) Om S(9.6) =.8 innebär det att ett dåligt parti där µ = 9.6 kommer att accepteras med sannolikhet.2. d) Om S(9.3) =.9 innebär det att µ är 9.3 med sannolikhet.9. 53
4 Grundläggande inferens 54 Samband med kondensintervall 4.27 Ett kondensintervall för µ med kondensgrad.99 angavs till (2.5, 28.8). Vilka av följande påstående är korrekta? a) H : µ = 3 kan förkastas på nivå.. b) Det är inte troligt att µ är 2, 99 % säkerhet c) Vi kan inte förkasta hypotesen att µ är 25 på nivå.. 4.28 Asbest är förbjudet sedan länge, men nns framförallt kvar i äldre byggnader och är en risk för de som arbetar i byggbranschen. Gränsvärdet för asbest är. brer/cm 3 i luften. På en rivningsarbetsplats gjordes 5 mätningar av mängden brer (brer/cm 3 ) och x =.9 och s =.2. Antag att för mätningarna på berhalten gäller en normalfördelning med väntevärde µ och standardavvikelse σ. a) För att testa hypoteserna H : µ =.; H. kan man beräkna ett kondensintervall för µ. Vilken typ av intervall är det intressanta? (Tvåsidigt/Ensidigt övre begränsat/ensidigt undre begränsat) b) För att testa hypoteserna H : µ =.; H <. kan man beräkna ett kondensintervall för µ. Vilken typ av intervall är det intressanta? (Tvåsidigt/Ensidigt övre begränsat/ensidigt undre begränsat) c) För att testa hypoteserna H : µ =.; H >. kan man beräkna ett kondensintervall för µ. Vilken typ av intervall är det intressanta? (Tvåsidigt/Ensidigt övre begränsat/ensidigt undre begränsat) d) Vilken uppsättning av hypoteser är intressanta för arbetarna på rivningsplatsen? (i) H : µ =.; H. (ii) H : µ =.; H <. (iii) H : µ =.; H >. 4.29 Nedan anges tre uppsättningar av hypoteser kring µ i en normalfördelning. Para ihop hypoteserna med de intervall som är intressanta att studera. Hypoteserna:. H : µ = 3; H 3 2. H : µ 3; H : µ < 3 3. H : µ 3; H : µ > 3 Intervallen: a) (, 4.7) b) (2.3, 2.9) c) (.7, )
4.4 Hypotestest Antag att samtliga intervall har kondensgrad.99. I vilken av de tre uppsättningarna av hypoteser är slutsatsen att H förkastas på nivå %? Direktmetoden 4.3 Vid ett test beräknades P-värdet =.36. Vilka av följande slutsatser är sanna? a) H kan förkastas på nivå 5%. b) H kan förkastas på nivå %. c) H kan förkastas på nivå 3.6%. d) H kan förkastas på samtliga nivåer som understiger 3.6%. 4.3 Ett företag köper stora leveranser av en viss enhet från en tillverkare. Vid kvalitetskontrollen mäts en storhet hos 2 enheter och medelvärdet blev 9.5. Man utför ett test på nivå 5 % där man testar H : µ (enhet ok) mot H : µ < (enhet felaktig). Om H förkastas anser man partiet vara dåligt och det skickas tillbaka till tillverkaren. Vid testet redovisas P-värdet som beräknades till.2. Ange om följande påstående angående P-värdet är sanna eller falska. a) Eftersom P-värdet är mindre än.5 kan vi förkasta H på nivå 5 %. b) H kan förkastas på nivå 2. %. c) Sannolikheten att H är falsk är 2. %. d) Sannolikheten att H är sann är 2. %. e) Sannolikheten att H är falsk är 2. %. f) Sannolikheten att H är sann är 2. %. g) H kan inte förkastas på nivå %. h) Det är 2. % risk att vi skickar tillbaka ett parti som är ok. i) Sannolikheten är.2 att medelvärdet är högst 9.5 då partiet är ok. 4.32 Nedan anges två uppsättningar hypoteser rörande µ med tillhörande 95 % kondensintervall. Para ihop med motsvarande P-värde. Hypoteser och intervall: () H : µ = 2; H : µ 2; I µ = (.67, 2.98) (2) H : µ ; H : µ < ; I µ = (, 9.5) P-värde: a) P-värde =.4 b) P-värde =. 55
5 Inferens i vanliga modeller 5. Inferens i ett normalfördelat stickprov NYCKELBEGREPP: Begrepp Inferens i ett normalfördelat stickprov Jämförelse av två väntevärden Inferens för diskreta data Inferens för kategoridata Länk till avsnittets ordinarie uppgifter 5. Koncentrationen av fosfor (mg/l) i en sjö varierar mellan olika mättillfällen.utifrån 4 oberoende fosforhaltmätningar vill man göra ett intervall för µ, förväntad fosforhalt i sjön men blir tveksam när man ser det sneda, icke-normala histogramet. Avgör om följande påståenden är sanna eller falska. a) Eftersom fosforhalterna inte är normalfördelade går det inte att göra något kondensintervall för µ. b) Medelvärdet av de 4 mätningarna är approximativt normalfördelade vilket räcker för att kunna göra ett intervall för µ. c) Man får ett intervall för µ med den approximativa kondensgraden.95 genom intervallet ( x±λ.25 s n ), där x och s beräknas från data. 5.2 Vikten hos friska sjuåriga pojkar varierar enligt en normalfördelning med väntevärde 24.7 kg. Man mätte vikten hos 6 pojkar som fått en viss medicinsk behandling och ville undersöka om µ, förväntad vikt hos de behandlade pojkarna skiljer sig från normalgruppens 24.7 kg. När data analyserades i ett datorprogram ck man bl.a. följande utskrifter: medelvärde 23.5 standardavvikelse.9 95 % intervall (22.5, 24.5) 99 % intervall (22., 24.9) Avgör om följande påstående är sanna eller falska. a) I genomsnitt väger den behandlade gruppen.2 kg lägre än normalgruppen. b) Utifrån intervallen följer att med en felrisk på 5 % kan vi säga att den behandlade gruppen har lägre genomsnittsvikt än 24.7 kg. 57