Typexempel i matematisk statistik

Relevanta dokument
FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

0 om x < 0, F X (x) = c x. 1 om x 2.

Kap 2. Sannolikhetsteorins grunder

Föreläsning 12: Regression

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

SF1901 Sannolikhetsteori och statistik I

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Avd. Matematisk statistik

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

FINGERÖVNINGAR I SANNOLIKHETSTEORI MATEMATISK STATISTIK AK FÖR I. Oktober Matematikcentrum Matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

Avd. Matematisk statistik

TENTAMEN I STATISTIKENS GRUNDER 1

Avd. Matematisk statistik

Några extra övningsuppgifter i Statistisk teori

Föreläsning 6, Matematisk statistik Π + E

Formel- och tabellsamling i matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

f(x) = 2 x2, 1 < x < 2.

Statistik 1 för biologer, logopeder och psykologer

Tentamen MVE301 Sannolikhet, statistik och risk

TMS136. Föreläsning 11

Lärmål Sannolikhet, statistik och risk 2015

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Repetitionsföreläsning

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Föreläsning 4: Konfidensintervall (forts.)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Föreläsning 7: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 5, Matematisk statistik Π + E

Föreläsning 5, FMSF45 Summor och väntevärden

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TMS136: Dataanalys och statistik Tentamen

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 11, Matematisk statistik Π + E

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Matematisk statistik TMS063 Tentamen

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Repetition 2, inför tentamen

SF1901: Sannolikhetslära och statistik

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Lufttorkat trä Ugnstorkat trä

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Repetition. Plus lite av det om faktorförsök som inte hanns med förra gången

TMS136. Föreläsning 4

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Sannolikheter och kombinatorik

Thomas Önskog 28/

Föreläsning 12: Repetition

Matematisk statistik KTH. Formelsamling i matematisk statistik

Avd. Matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

Avd. Matematisk statistik

FÖRELÄSNING 8:

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

bli bekant med summor av stokastiska variabler.

Matematisk statistik 9 hp Föreläsning 4: Flerdim

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Matematisk statistik för B, K, N, BME och Kemister

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Föreläsning 11, FMSF45 Konfidensintervall

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Avd. Matematisk statistik

TENTAMEN MÅNDAGEN DEN 22 OKTOBER 2012 KL a) Bestäm P(ingen av händelserna inträffar). b) Bestäm P(exakt två av händelserna inträffar).

Övning 1 Sannolikhetsteorins grunder

Formler och tabeller till kursen MSG830

Avd. Matematisk statistik

Föreläsning 7: Punktskattningar

Avd. Matematisk statistik

FACIT: Tentamen L9MA30, LGMA30

Transkript:

Typexempel i matematisk statistik Anders Holtsberg Matematikcentrum Lunds Tekniska Högskola 27 augusti 2000

c 2000 Anders Holtsberg ( "!! #$##% &' "!() )! *++! * ) (! ).

Innehåll Typexempel 5 2 Lösningar 8

Förord Denna stencil är avsedd för självdiagnos på kursen FMS02, våren 2000. Det finns ett annat repetitionsblad också. Det bladet innehåller de flesta definitioner och formler som har förekommer i hela kuren medan innehållet i detta blad är en uppräkning av de metoder som man skall behärska för att kunna angripa många sannolikhetsproblem och statistikproblem. Varje metod illustreras genom ett eller fler typexempel som för sin lösning kräver att man kan just den metoden. Vitsen är inte att studenten skall räkna alla typexempel. Vitsen är för det första att öva på att direkt känna igen situationer som kräver vissa lösningsmetoder och för det andra att studenten skall kunna hitta och avhjälpa luckor i sina kunskaper. Stencilen motsvarar huvudpunkterna i kurskraven för kursen, utom multipel regression som författaren inte gitte göra något exempel på. Urvalet är prioriterat. Till exempel finns momentgenererande funktion inte med här eftersom den metoden inte tillhör de centrala avsnitten i kursen. Notera att ett icke obetydligt antal av problemen är lättare än de problem som dyker upp på tentamen. Exemplen här valdes för att vara typexempel på situationer där man behöver en viss metod. På tentamen behövs ofta minst två metoder för att kunna lösa en uppgift. Trots att tidigare versioner av stencilen har använts i andra kurser riskerar det att finnas tryckfel kvar. Observera att om man har hämtat stencilen från nätet så saknas de handritade figurerna. mvh Anders Holtsberg Kursansvarig De handritade figurerna ersatta av datorritade och en del tryckfel rättade. Augusti 2000 Anna Lindgren

Typexempel Additionssatsen. Slh för sol är 0.85. Slh för regn är 0.. Slh för både regn och sol är 0.02. Vad är slh för antingen regn eller sol? Komplementhändelsen 2. (forts) Vad är slh för antingen regn eller mulet? Mulet är samma som inte sol.. Antag att p X (k) e 2 2 k +e k 2(k!), k 0,, 2,.... Vad är P(X > )? Betingad sannolikhet. (forts) Vad är sannolikheten att det är regn om det inte är sol? Gör en i taget 5. Vad är sannolikheten att alla kort har olika valör om man tar 5 kort ur en kortlek? 6. Hur många sätt finns det att placera fem olika blommor i tolv vaser? 7. Tio personer ställer sig slumpmässigt i rad. Vad är sannolikheten att Per, Pål och Petter alla hamnar bland de fem första platserna? Satsen om total sannolikhet 8. Slh att Anna kommer till jobbet först är 0.6, att Mustafa kommer först är 0. och att Leif kommer först 0.. Leif har glömt nyckeln med slh 0.2, slh att Mustafa har glömt sin nyckel är 0.0 och Anna sin nyckel 0.0. Vad är slh att första personen har glömt nyckeln? Bayes sats 9. (forts) Första personen står och väntar vid dörren för att han (eller hon) har glömt nyckeln. Vad är slh att det är slarvern Leif som står där? 0. Slh för för att datorn går sönder en arbetsdag utan blixtnedslag är en på tusen. Slh att den går sönder om det kommer blixtnedslag är en på tio. Slh för blixtnedslag är en på femhundra. Vad är sannolikheten att blixten har slagit ner en viss dag om datorn har gått sönder den dagen? Brutalmetoden. Kasta två tärningar, X och Y. Vad är P(X +2Y 7)? Första gången 2. Vi köper tuggummin i en godisautomat med dubbelt så många röda tuggummin som blå. Vad är sannolikheten att vi får ett blått tuggummi för första gången i sjätte köpet? Binomialkoefficienter och binomialfördelning. Hur många sätt finns det att placera fem likadana blommor i tolv vaser?. Vi köper nio tuggummin i en godisautomat med två sorters tuggummin. Automaten har dubbelt så många röda tuggummin som blå. Vad är slh att få fyra röda totalt? Vad är slh att få två röda bland de fem första? Vad är slh att få tre röda, varav en först och en sist? Integrera fram en sannolikhet 5. Tätheten för X är f X (x) ( x2 ), x. Vad är P( X 2 )? 6. Tätheten för (X, Y ) är f XY (x, y) c( x y + xy) på kvadranten < x <, < y <. Räkna ut konstanten c. (Är förresten X och Y oberoende?) Vad är sannolikheten att summan av beloppet av X och beloppet av Y är högst? Faltningsformeln 7. Låt X N(0, ) och Y R(, ) vara oberoende. Vad är tätheten för summan? Maximum 8. En person ringer sju telefonsamtal. Längden på samtalen är exponentialfördelade med väntevärde minuter. Vad är slh att inget samtal är längre än fyra minuter? Vad är slh att inget samtal är kortare än en minut? Räkna ut E(X) och V(X) och C(X, Y) 9. Kasta två tärningar. Sätt X till första tärningens resultat resultat och Y till om summan av tärningarna är större än tio, annars 0. Räkna ut E(X ), V(X ), E(Y ), V(Y ), C(X, Y ) och E(sin(ln(X ))). 20. X i har standardavvikelse i och väntevärde. Alla X i är parvis oberoende utom X och X som har kovarians. Vad är C(X + X, X 2 + X )? Vad är V(X + X 2 + X )? Använd E(E(Y X)) 2. Simulera ett tal X från en rektangel(0,)-fördelning. Simulera Z från en exponentialfördelning med väntevärde X. (Japp, sätt in resultatet av den första 5

simuleringen som parameter vid den andra efter att ha dragit roten ur!) Vad är E(Z)? Gauss approximationsformler 22. Tag en slumpmässig blyertspenna med längd N(20, 2) mm. Använd pennan som hypotenusa i en rätvinklig triangel. Den ena kateten är 72 mm exakt. Vad är (ungefär) väntevärde och varians för ytan på triangeln? Summa av oberoende variabler 2. Betrakta enkilos oberoende mjölpaket med m 00 g och g. Tag tio mjölpaket. Vad är väntevärde och standardavvikelse för totala vikten? Vad är väntevärde och standardavvikelse för medelvikten av de tio paketen? Normalfördelning 2. (forts) Vi antar att mjölpaketen har normalfördelad vikt. Vad är slh att allt mjölet väger mindre än tio kilo? Vad är slh att att skillnaden mellan två mjölpakets vikt är större än 20 gram? 25. Antag X N(2, ). Beräkna P(X ), P(X < ), P(X.97), P( X 0.5), P( X 2.76), P(X > 0) och slh att X avrundat till närmaste jämna ickenegativa heltal är jämnt delbart med fyra. 26. Vi har äpplen vilkas vikter är oberoende N(87, 22) gram. Vad är sannolikheten att nio slumpmässigt valda äpplen tillsammans väger mer än tio andra slumpmässigt valda äpplen? 27. (forts) Plocka i äpplen i en påse tills den väger minst ett kilo. Vad är slh att det ligger minst tretton äpplen i påsen? Vad är slh att det ligger exakt tretton äpplen i påsen? CGS 28. En person ringer 8 telefonsamtal. Längden på samtalen är exponentialfördelade med väntevärde minuter. Vad är (på ett ungefär) sannolikheten att han inte har ringt alla samtalen efter en timme? 29. Kasta en tärning 20 gånger. Vad är approximativt sannolikheten att få minst 25 sexor? Vad är ungefär slh att få precis 20 sexor? 0. I vilken av föregående två situationer ska man använda halvkorrektion? ML-metoden för punktskattning. Vi kastar en tändsticksask tills den hamnar på en plånsida. Det gjorde den för första gången i 2:e kastet. Vi gör om försöket fyra gånger till. Resultaten blev 0, 25, och 7. Skatta sannolikheten p att hamna på plånet. Använd maximum likelihoodtekniken. Konfidensintervall och hypotestest för väntevärde 2. Man mäter vikten hos 0 paket med russin. Gör ett tvåsidigt 99-procentigt konfidensintervall för väntevärdet med hjälp av följande observationer. Skriv upp vilka antaganden som behöver göras. 62 58 78 552 86 526 57 82 5 508 Kan väntevärdet vara 50 gram? Konfidensintervall och hypotestest för skillnad. (forts) I en liten skolklass går sju flickor och sju pojkar. Testa hypotesen att pojkar och flickor i den åldern är lika långa genom att göra ett 95-procentigt konfidensintervall för skillnaden i längd. Skriv upp vilka antaganden som behöver göras. Glöm inte att tydligt skriva upp slutsatsen om nollhypotesen. pojkar 5 9 7 26 59 7 flickor 5 28 8 7 6 2 Stickprov i par. Man mäter temperaturen varje måndag en sommar i en stad och på ett berg ovanför staden. Gör ett 90- procentigt konfidensintervall för skillnaden i sommartemperatur mellan staden och berget. Antag (något orealistiskt) oberoende mellan olika dagars temperatur. dag 2 5 6 7 8 9 0 stad 0 2 9 2 22 29 28 29 22 28 berg 2 7 9 6 2 20 22 2 20 Konfidensintervall och hypotestest vid normalapproximation 5. Vid en smaktest får 000 personer en Pepsi-cola och två Coca-cola och ska peka ut Pepsi-colan. Det är 78 personer som korrekt pekar ut Pepsi-colan. Om man antar att en andel r av befolkningen verkligen kan känna skillnad och resten har en chans på tre att gissa rätt så är ju sannolikheten att en godtyckligt vald person gissar rätt p r +( r)/ enligt satsen om total sannolikhet. Gör ett tvåsidigt 90-procentigt approximativt konfidensintervall för r, andelen personer i bakgrundsbefolkningen som kan känna skillnad. Tips: gör ett konfidensintervall för p först, och transformera det sedan till ett konfidensintervall för r. Testa hypotesten att det är högst hälften av befolkningen som kan känna skillnad. Ska det vara ensidigt 6

eller tvåsidigt? Om vi använder det tvåsidiga konfidensintervallet som vi räknade ut nyss, vad blir då för det ensidiga testet? (Notera att frågan inte lyder [... ] intervall för andelen personer bland de 000 som kan känna skillnad. Men även det problemet är lösbart med kunskaper enbart från denna kurs.) Styrka hos test 6. Vi ska testa om två olika blodtryckssänkande medel hjälper lika mycket. Vi mäter blodtryck före och efter behandling hos n patienter som har fått den ena medicinen och lika många som har fått den andra medicinen. En blodtrycksmätning på en patient är behäftad med en normalfördelat variation som vi tror oss veta är oberoende mellan mätningar och som har standardavvikelse 20. (a) Konstruera ett dubbelsidigt test med nivån fem procent som prövar hypotesen att den förväntade minskningen av blodtrycket är lika för de båda medicinerna. (b) Om den sanna skillnaden mellan de förväntade minskningarna av blodtrycket är 20, hur många patienter måste vi ha i varje grupp för att styrkan skall bli 90 procent? Linjär regression 7. Tag siffrorna från uppgiften ovan under stickprov i par och gör en formel som ger en punktskattning av temperaturen på berget givet temperaturen i staden. 7

2 Lösningar. Additionssatsen säger att P(A B) P(A) + P(B) P(AB), dvs P(sol eller regn) P(sol) + P(regn) P(sol och regn) 0.85 + 0. 0.02 0.9. Sol Regn 2. Additionssatsen ger P(regn eller mulet) P(regn) + P(mulet) P(regn och mulet). Vi behöver P(mulet) och P(regn och mulet). P(mulet) P(sol) 0.5. Vi vet att P(regn och mulet) + P(regn och sol) P(regn). Alltså: P(regn och mulet) 0. 0.02 0.09. Det ger P(regn eller mulet) 0. + 0.5 0.09 0.7. Sol Regn 2 Vi kan också använda brutalmetoden: räkna upp alla utfall! : P(regn och sol) 0.02 2: P(regn och sol ) 0. 0.02 0.09 : P(regn och sol) 0.85 0.02 0.8 : P(regn och sol ) 0.02 0.09 0.8 0.06 I händelsen regn eller mulet ingår utfallen nr, 2 och här ovanför. P(regn eller mulet) P(regn eller icke sol) 0.02 + 0.09 + 0.06 0.7.. Skriv om sannolikheten som ett minus sannolikheten för komplementhändelsen : P(X 0) 0.0926 P(X ) 0.200 P(X > ) 0.0926 0.200 0.697. Definitionen av betingad sannolikhet ger att P(regn sol ) P(regn och sol )/P(sol ). Vi behöver P(regn och sol ) samt P(sol ). Dem får vi med verktyget komplementhändelsen, se fråga 2. Alltså är den sökta sannolikheten 0.09 0.5 0.60. 5. Gör en i taget! Tag ett kort. Tag ett kort till. Slh att det inte har samma valör som det första är 8/5 eftersom det finns 5 kort kvar, varav 8 har annan valör än det kortet som vi tog, och alla kort är lika sannolika att ta. Ta ett kort till. P(tre olika) P(två första olika) P(tre olika två första olika), vilket är 8 5 50. Upprepa resonemanget några gånger till och svaret blir 8 5 50 0 9 6 8 0.507 6. Gör en i taget! Placera ut en blomma. Det finns 2 platser. Placera ut en blomma till. Det finns platser kvar. Upprepa resonemanget. Det finns alltså 2 0 9 8 95 00 sätt att placera ut blommorna. Notera att detta är med hänsyn till ordning. Att det står en ros i vas nummer ett och en tulpan i vas nummer två är alltså ett annat sätt än att ha en tulpan i vas nummer ett och en ros i vas nummer två. Om alla blommorna var tulpaner som inte gick att skilja på skulle vi ha ett mindre antal sätt att placera blommorna. Det skulle då kallas för antal sätt utan hänsyn till ordning. Då hade man använt verktyget binomialkoefficienter. Notera att problemkonstruktören tog för givet att det bara kunde stå en blomma i varje vas, men det är ju inte alls självklart som frågan står. 7. E : Per är bland de fem första. E 2 : Pål är bland de fem första. E : Petter är bland de fem första. Gör en i taget. Placera ut Per: P(E ) 5 0 Placera ut Pål. Per står redan på en av de fem första platserna. P(E E 2 ) P(E ) P(E 2 E ) 5 0 9 Placera till sist ut Petter. P(E E 2 E ) 5 0 9 8 2 Detta går att lösa med binomialkoefficienter också, men det är aningen krångligare. 8. Vi inför först beteckningar på händelser. A: Förste person har glömt nyckeln A : Anna har glömt nyckeln. A 2 : Mustafa har glömt nyckeln. A : Leif har glömt nyckeln. H : Anna kommer först. H 2 : Mustafa kommer först. H : Leif kommer först. Vi söker P(A). Vi har att P(A H i ) P(A i ). Vi vet att en och endast en av H, H 2 och H inträffar, dvs de är disjunkta och uppfyller hela utfallsrummet. Satsen om total sannolikhet säger att P(A) P(A H i ) P(H i ) 0.0 0.6 + 0.0 0. + 0.2 0. 0.0270 8

9. A: Förste person har glömt nyckeln. H : Leif kommer först. Vi vet P(A H ) men vi vill ha P(H A). P(H A) P(H A) P(A) P(A H ) P(H ) P(A) P(A) räknade vi ut med hjälp av satsen om total sannolikhet (se ovan). Svaret är alltså 0.2 0.0 0.027 0.. Om man vänder på en betingad sannolikhet genom att använda definitionen av betingad sannolikhet två gånger och därefter sätter in omskrivningen av P(A) med satsen om total sannolikhet i nämnaren så får man det som vanligen kallas Bayes sats. 0. A: Datorn sönder. B: Blixtnedslag. Vi vet P(A B) men vi vill ha P(B A). Bayes sats säger att P(B A) P(AB) P(A) där P(A B) P(B) P(A) P(A) P(A B) P(B) + P(A B ) P(B ) 0. 0.002 + 0.00 ( 0.002) 0.002. Svaret blir alltså 0. 0.002 0.002 0.667. ETT RÅD: Notera och kom ihåg att B och B är disjunkta och uppfyller hela utfallsrummet och att vi därmed kan använda satsen om total sannolikhet och Bayes sats).. Brutalmetoden går ut på att rita hela utfallsrummet och titta efter vilka utfall som ingår i händelsen (ett alternativ i vissa fall är att bara räkna upp de elementarhändelser som ingår i den sökta sannolikheten). Alla utfall är här lika sannolika, vilket gör att vi kan utnyttja klassiska sannolikhetsdefinitionen som ger att P(X + 2Y 7) 9 6. 2. Sannolikheten att få ett rött tuggummi är p 2. Det är underförstått i frågan att att händelserna att få blå tuggummin i olika köp är oberoende. Händelsen att få ett blått tuggummi för första gången i sjätte köpet är samma som händelsen att först få fem röda sedan ett blått. Slh är alltså p 5 ( p) ( 2 )5 0.09.. Underförstått var här att en vas kan innehålla högst en blomma. Binomialkoefficienten är ( ) 2 2 0 9 8 792 5 2 5. Sannolikheten att få ett rött tuggummi är p 2/. (a) Binomialfördelning ger att ( ) 9 P(fyra röda av nio) p k ( p) n k 9 8 7 6 2 (2 ) ( 2 )5 0.02 (b) Binomialfördelning ger att P(två röda av fem) 5 2 (2 )2 ( 2 ) 0.66 (c) Detta är lite knepigare. Slh för röd först sedan en röd av sju och sist en röd kan skrivas som produkten av tre sannolikheter. P(röd först) p 2, P(en röd av sju) 7 ( 2 ) ( 2 )6 0.006, P(röd sist) p 2. Den sökta slh är alltså 0.6667 0.006 0.6667 0.0028. 5. Vi ritar figur. p f (x) x /2 0 /2 p P(X > 2 ) 0.5 ( x2 ) dx ] [x x 0.5 [ 0.5 0.5 + ] 0.56 Svaret är alltså 2p 0.25. 6. (a) Vi räknar ut konstanten c. Eftersom f XY (x, y) dxdy så har vi att c ( x y + xy) dxdy ( x) dx p ( y) dy 2 2 vilket ger c /. (b) Ja, X och Y är oberoende eftersom vi kan skriva den tvådimensionella tätheten som en produkt av två endimensionella tätheter, f XY (x, y) ( x) 2 2 ( y) f X (x) f Y (y) där f X (x) ( x), 2 < x <, f Y (y) ( y), 2 < y < 9

(c) y Integralen över området X + Y < (se bilden) kan skrivas 0 x dvs 0 x + + + x0 0 x+ y x x+ x x0 0 x 2 x0 0 x y x x+ yx [x x + ( x) x0 x+ yx ( x)( y) dxdy + ( x)( y) dxdy [ ] x+ y y2 2 x ] x+ dx [ ( x) y y2 dx 2 x ( x)2( + x) dx ( x)2( x) dx 2 ( x2 ) dx+ x0 2 ( 2x+x2 ) dx ] 0 dx + ] [x x 2 + x dx 2 2 (0 0+ + + 0+0 0) 2 ETT RÅD: rita integrationsområdet, dvs rita det område som innehåller de elementarhändelser som ingår i den händelse som frågan gäller. 7. Täthetsfunktionen f X (x) (x), där en beteckning för den standardiserade normalfördelningens täthetsfunktion. f Y (y) 2, < x <. Faltningsformeln ger tätheten för Z X + Y eftersom X och Y är oberoende. f Z (z) f X (z y) f Y (y) dy (z y) 2 dy ( (z + ) (z )), < z < 2 där alltså är den standardiserade normalfördelningens fördelningsfunktion. Gränserna i integralen kommer från det faktum att f Y (y) är skild från 0 endast för y i intervallet [, ]. 8. (a) X är ett samtals längd. Slh att ett samtal är 0 x längre än fyra minuter kallar vi p. Fördelningsfunktionen (från formelbladet) är e x/m. p P(X > ) P(X ) F X () e / 0.266. Slh att ett samtal inte är längre än minuter är p 0.76. Slh att inget är längre än minuter är produkten av slh att var och en INTE är längre än minuter (vi antar att samtalen har oberoende längd). Den sökta slh är ( p) 7 0.7. (b) X är ett samtals längd. Slh att ett samtal är kortare än minut är p e / 0.285 Slh att ett samtal är längre än minut är p 0.765. Slh att alla samtal är längre än minut är produkten av slh att var och en är längre än minut (vi antar att samtalen har oberoende längd). Den sökta slh är ( p) 7 0.0970. ETT RÅD: Fråga a) hade kunnat vara... att det längsta samtalet är mindre än minuter. Det är ju samma sak! KOM IHÅG att det största är mindre än är samma som alla är mindre än och att det minsta är större än är samma som alla är större än. Ska man till exempel räkna ut sannolikheten att det minsta är mindre än så räknar man alltså ut sannolikheten för komplementhändelsen det minsta är större än i stället, för det är ju samma som alla är större än och det går lätt att räkna på! 9. E(X ).5 (av symmetriskäl) 6 V(X ) E(X 2 ) (E(X )) 2 k 2 6 (.5)2 2.967 E(Y ) /6 0.08 där vi utnyttjade att E(Y ) P(Y ) eftersom Y bara har utfallen 0 och. Av samma skäl har vi att V(Y ) p( p). Det ger V(Y ) 6 6 0.076 6 6 E(XY ) xy p X,Y (x, y) (5 + 6 + 6) 6 0.722 där vi utnyttjade att de enda utfall (x, y) som inte ger produkten xy 0 är (5, 6), (6, 5) och (6, 6). C(X, Y ) E(XY ) E(X )E(Y ) 0.722.5 0.08 0.807 E(sin ln(x )) (0 + 0.690 + 0.8906 + 0.980 + 6 + 0.999 + 0.9757) 0.779 0

X X 2 72 2 20. Den sökta kovariansen är C(X + X, X 2 + X ) C(X, X 2 ) + C(X, X ) + C(X, X 2 ) + C(X, X ) C(X, X 2 ) + C(X, X ) + C(X, X 2 ) + V(X ) 0 + + 0 + 2 0. Den sökta variansen är V(X + X 2 + X ) C(X + X 2 + X, X + X 2 + X ) vilket blir nio termer, eller sex om man noterar att C(Y, Z) C(Z, Y ), V(X + X 2 + X ) V(X ) + V(X 2 ) + V(X ) + + 2C(X, X 2 ) + 2C(X, X ) + 2C(X 2, X ) 2 + 2 2 + 2 + 2 0 + 2 + 2 0 6. ETT RÅD: Notera att det enda man behöver minnas av alla formlerna för väntevärden, varianser och standardavvikelser är att E är linjär, att C är bilinjär (bilinjär betyder linjär i argumenten vart och ett för sig) och att V(X ) C(X, X ). Då blir det självklart att V(aX ) a 2 V(X ) och att V( X ) 2 /n vid oberoende och så vidare. 2. Det står i frågan att E(Z X ) X. Det finns en sats som säger att E(Z) E(E(Z Y )), dvs E(Z) E(E(Z Y )) E( X ) x fx (x) dx 0 x dx [ x.5.5 ] 0 2. Notera att ordet exponentialfördelning i frågan inte hade med saken att göra. Det kunde lika gärna ha stått godtycklig fördelning med väntevärde X. 22. Den andra kateten är X 2 72 2. Ytan är Y g(x ) 2 (72 X 2 72 2 ). Approximera ytan genom taylorutveckling Y g(m X ) + g (m X )[X m X ] 000 0 2. Y X i E(Y ) 0 E(X i ) 0 00 g D(Y ) 0 D(X i ). g E( X ) E(X i ) 00 g D( X ) 0 D(X i ). g 2. En linjärkombination av oberoende normalfördelade variabler är normalfördelad. 0 000 0 00 (a) P(Y < 0 000) ( ). ( 0.972) (0.972) 0.652 (b) Z X X 2 E(Z) 0 V(Z) 2 V(X i ) D(Z) 2 8.8 g P( Z > 20) 2 ( ( 20 0 8.8 )) 2 ( 0.867) 0.277 25. P(X ) ( 2 ) (0.6667) 0.775 P(X < ) P(X ) 0.775 P(X.97) P(X <.97) (.97 2 ) (0.6567) 0.2557 P( X 0.5) P( 0.5 X 0.5) ( 0.5 2 ) ( 0.5 2 ) ( 0.567) ( 0.867) ( 0.697) ( 0.790) 0.0957 P( X 2.76) 2 (.76 ) 2( (.59)) 0.2 P(X > 0) ( 0 2 ) (0.6667) 0.775 f (x) 000 2000 72 E(Y ) g(m X ) 2 (72 20 2 72 2 ) 56 mm 2 m X g (m X ) 2 (72 m 2 X 72 ) 5 2 V(Y ) (g (m X )) 2 V (X ) 5 2 2 2 07 225mm Y D(Y ) 05 mm 2 000 0 80 90 00 0 20 0 0 50 x x 8 6 2 0 2 6 8 0 De jämna ickenegativa heltalen är 0, 2,,... De jämna ickenegativa heltal som är jämnt delbara med fyra är 0,, 8,.... I händelsen ingår alla x som inte ligger mellan och, eller mellan 5 och 7 eller mellan 9 och osv. Slh att X är mer än är försumbar så vi räknar ut slh för att hamna i de tre områdena i bilden. P( < X < ) ( 2 ) ( 2 ) 2 (0.) 0.26

P(5 < X < 7) ( 7 2 ) (5 2 ) 0.9522 0.8 0.087 P(9 < X < ) ( 2 ) ( 9 2 ) 0.99865 0.9908 0.0087 Den sökta sannolikheten är 0.26 0.09 0.0085 0.62 26. Numrera äpplena till 9. 9 9 Z X i 0 X i E(Z) (9 0) 87 87 g V(Z) 9V(X i ) D(Z) 9 22 95.9 g P(Z > 0) 0.82 ( 0 ( 87) ) (0.907) 95.9 ETT RÅD: Skilj noga på följande två fall. A) En linjärkombination av oberoende normalfördelade variabler är EXAKT normalfördelad. B) En summa av många oberoende likafördelade variabler (som har varians) är UNGEFÄR normalfördelad enligt CGS. Ett vanligt fel vid tentamen är att försöka motivera en lösning genom att hänvisa till CGS när den inte har med saken att göra. 27. (a) Händelsen minst äpplen i påsen är identisk med händelsen de 2 första äpplena väger mindre än ett kilo. 2 Z X i E(Z) 2 87 0 g V(Z) 2V(X i ) D(Z) 2 22 76.2 g 000 0 P(Z < 000) ( ) 76.2 (0.577) 0.282 (b) Inför beteckningar för händelserna A: minst äpplen i påsen ( de 2 första äpplena väger mindre än ett kilo ) B: minst äpplen i påsen ( de första äpplena väger mindre än ett kilo ) C: exakt äpplen i påsen. Vi har att P(C) P(AB ) och att P(A) P(AB ) + P(AB) P(AB ) + P(B) eftersom vi vet att B medför A. Det ger att P(C) P(A) P(B). Allt detta var bara ett krångligt sätt att säga att sannolikheten att få exakt äpplen är lika med sannolikheten att få minst äpplen minus sannolikheten att få minst äpplen. Sannolikheten att få minst äpplen är sannolikheten att de första väger mindre än ett kilo. Z X i E(Z) 87 g V(Z) V(X i ) D(Z) 22 79. g 000 P(Z < 000) ( ) 79. (.65) 0.09 Den sökta slh är alltså P(C) P(A) P(B) 0.282 0.09 0.2 28. E(X i ). Z 8 X i. Z är ungefär normalfördelad enligt CGS. För exponentialfördelning gäller att D(X i ) E(X i ) enligt formelbladet. Vi har att E(Z) 8 5 och D(Z) 8 2.7. Normalapproximation ger 60 5 P(Z > 60) P(Z < 60) ( 2.7 ) 0.8 29. Z Bin(20, /6). Tumregel för normalapproximation av binomialfördelning är att variansen npq > 2.5. Kontroll: V(Z) 20 (/6) (5/6) 6.67, dvs tumregeln är uppfylld. Vi behöver E(Z) np 20/6 20 stycken sexor. Standardavvikelsen är D(Z) 6.67.08. Nu gäller (a) P(Z 25) P(Z 2) 2.5 20 ( ) 0.5.08 (b) P(Z 20) P(Z 20) P(Z 9) P(Z < 2) P(Z < 20) 20.5 20 9.5 20 ( ) ( ).08.08 2 (0.225) 0.097 0. Vid normalapproximation av diskret fördelning ska man använda halvkorrektion. Det var i den senare av de två förra uppgifterna som det var aktuellt, och i lösningen ovan gjordes halvkorrektion.. För första gången -fördelning finns på formelbladet. Annars är den lätt att komma ihåg, p X (k) P(X k) ( p) k p, k, 2,,... För ett givet k är likelihoodfunktionen alltså L(p) ( p) k p och för fem oberoende observationer k,..., k 5 har vi att 5 L(p) ( p) ki p. i Standardtricket för att maximera detta uttryck m.a.p. p är att i stället maximera logaritmen (vilket fungerar eftersom likelihoodfunktionen är positiv och logaritmen strängt växande). 2

ln(l(p)) 5 (k i )ln( p) + ln(p). i För att hitta maximum deriverar vi och sätter derivatan till 0, d 5 ( dp ln(l(p)) k i p + ) 0 p i vilket ger 5 ( k i p ) 0 p i dvs 5 k i 5 p i och därmed p 5 5 i k i där vi satte på stjärnan på slutet för att indikera att detta är skattningen och inte nödvändigtvis den sanna parametern. (Man bör här också egentligen kontrollera att det är maximum man har hittat och inte en sadelpunkt eller något annat, samt kontrollera gränserna p 0 och p, men det lämnas därhän). Det numeriska värdet är p 0.07. 5 (2 + 0 + 25 + + 7) 2. Vi antar att observationerna är oberoende. Vi räknar vidare som om de vore normalfördelade och använder t-kvantil vid konstruktionen av konfidensintervallet (om de inte är det så är ändå ingen skada skedd, tvärtom så ger t-kvantil lite större och därmed säkrare intervall). m x 97.0 s 2.25 d(m ) s 0.25 0 t 0.005 (9).25 I m m ± t d 97.0 ±.25 0.25 [6, 5] Eftersom 50 gram ingår i intervallet så kan vi inte förkasta nollhypotesen (på nivån procent) att det skulle vara det sanna värdet.. Låt oss kalla pojkgruppen för x och flickgruppen för y. Vi antar oberoende observationer. Vi räknar här som om vi har normalfördelade observationer. Vi räknar som om standardavvikelserna vore samma i båda grupperna. Dessa två förutsättningar är de som ger exakt t-fördelning. Om de inte är uppfyllda så är det ingen större skada att ändå räkna på detta sätt. Å andra sidan kan man argumentera för andra varianter ( i st.f. t, annan formel för medelfelet, annat antal frihetsgrader), och det görs också i Bloms bok B. Med denna variant (standardvarianten) har vi m x x A 9. m y ȳ B. Q x S xx (x i x) 2 687.7 Q y S yy (y i ȳ) 2 96.7 s 2 Q x + Q y (n x ) + (n y ) 7.62 s 7.62.7 687.7 + 96.7 6 + 6 m x m y 9.. 5.00 d(m x m y ) s 7 + 7 6.27 Intervallet är I mx m y m x m y ± t d där t 0.025 (2) 2.8, dvs I mx m y 5.00 ± 2.8 6.27 [ 8.7, 8.7] Nollan ligger i konfidensintervallet. Alltså kan vi inte förkasta nollhypotesen att väntevärdet av längden är lika i grupperna. MINNESREGEL: Antal frihetsgrader för t- kvantilen är det man dividerar med när man räknar ut s 2.. Skillnaderna varje dag är 7 0 8 9 6 5 9 8 Vi räknar som om observationerna vore oberoende och normalfördelade (standardsituationen), m x 6.70 s 2.75 d(m ) t 0.05 (9).8 s 0 0.870 I m m ± t d 6.70 ±.8 0.870 [5., 8.] KOMMENTAR: Den som missar stickprov i par och räknar som om det vore två grupper får 0 poäng och syrlig kommentar på tentamen. 5. p 78 000 0.78 Antalet X som lyckades peka rätt var binomialfördelat X Bin(n, p), där n 000 och p okänt. Tumregeln för normalapproximation är att variansen npq ska vara minst 5 (eller 2.5 eller 0 beroende på vem man frågar). Här är np q 000 0.78 0.27 70 så tumregeln är uppfylld med råge. Ett konfidensintervall ges då av

I m p ± d där 0.05.6 och d d(p p q ) 0.00 dvs n I m p ± d 0.78 ±.6 0.00 [0.762, 0.80] Eftersom det står i frågan att p r + ( r)/ så har vi att r p 2 och eftersom detta turligt nog är en monotont växande funktion (ja t.o.m. linjär, men det behövs inte för resonemanget) så får vi ett intervall för r bara genom att transformera gränserna för p, I r [ 0.762, 0.80 ] 2 2 [0.6, 0.706] Hypotesen att exakt hälften av befolkningen kan känna skillnad kan vi alltså förkasta (på nivån 0 procent, dubbelsidigt) eftersom 0.5 inte ingår i konfidensintervallet. Men nu står det i frågan att vi skulle undersöka om högst hälften av befolkningen kunde känna skillnad, vilket tyder på att frågeställaren hade tänkt sig ett ensidigt test. Ska vi kunna förkasta denna nollhypotes med hjälp av ett ensidigt intervall så måste intervallet vara nedåt begränsat. Ett nedåt begränsat 95-procentigt intervall ges av [0.6, ] eftersom vi hade vårt 90-procentiga dubbelsidiga intervall som var konstruerat på så sätt att det missade med lika sannolikhet åt båda hållen. Vi kan alltså förkasta nollhypotesen att högst hälften av befolkningen kan känna skillnad med vårt nedåt begränsade 95-procentiga intervall [0.6, ]. 6. Standardavvikelsen för skillnaden mellan mätning före och efter behandling är 20 2 28.28. (a) Som test på nivån fem procent tar vi x ȳ D > 0.025 där vi införde beteckningarna x och ȳ för medelvärdena i ena och andra gruppen. Standardavvikelsen D är D D( X Ȳ ) n + n 0 n (b) Om den sanna skillnaden mellan de förväntade minskningarna är 20 så blir x ȳ D normalfördelat med standardavvikelse som förut men med väntevärde m 20 D. Under mothypotesen att skillnaden är 20 så blir P( x ȳ D > 0.025) P(Z > 0.025 20 D ) + P(Z < 0.025 20 D ) P(Z > 0.025 20 D ) + P(Z > 0.025 + 20 D ) där Z är en N(0, )-variabel. Vi kan strunta i den andra termen som ju är liten. Det vi vill är att P(Z > 0.025 20 D ) P(Z >.96 20 n 0 ) n P(Z > 0.025 2 ) 0.90 vilket är detsamma som att n 0.025 2 0.90 0.0 och n ( 0.025 + 0. ) 2 (.96 +.28) 2 2.0 Vi väljer 2 st patienter i varje grupp för att få önskad styrka. 7. Temperaturen i staden kallar vi x och temperaturen på berget kallar vi y. y i + (x x i ) + i x 25.20 ȳ 8.50 S xx 5.60 S xy 0.00 S xy 0.00 S xx 5.60 Egentligen verkar en modell y + x 5.7 0.96x mera lättbegriplig för en läsare. Dock kan man då förledas att tro att medelskillnaden är 5.7 grader, vilket inte är sant. Snarare verkar ju n (yi x i ) ȳ i x i 6.7 vara en rimligare tolkning av ordet. Notera att en linjär regression av temperaturen i staden på temperaturen på berget också hade givit en -koefficient mindre än. Man kan inte lösa ut x ur ekvationen för den teoretiska regressionslinjen. Man skiljer på kalibrering (fixa x, stokastiska y) och att göra regression av x på y (fixa y, stokastiska x, dvs vanlig regression fast vi bytte beteckningarna x och y). Det var bara av lättja som författaren inte gick vidare och frågade efter konfidensintervall för väntevärdet m o respektive prediktionsintervall för y o givet ett x o. Det kommer på tentan...