Övningsuppgifter Sannolikhetsteori 1. Sjödata1 (Matlab) I två olika sjöar, Sjö 1 och Sjö 2, har man en klar sommardag på olika platser i sjöarna gjort ett antal mätningar av ett visst näringsämne. (a) Om du redan kommit igång med Matlab: Data finns i filensjodata1 där variablerna heter lake1 respektive lake2. Nedan ges lämpliga Matlabkommandon (texten efter tecknet % kommenterar vad som görs i kommandot). >> load sjodata1 %(ladda in datafilen) >> whos %(visar vilka variabler som ligger i filen) >> lake1 %(visar de 12 mätningarna från denna sjö) Nu vill vi titta på data genom att göra histogram över mätningarna från respektive sjö. Med >> hist(lake1) gör Matlab en egen klassindelning på mätningarna från Sjö 1. Om du vill ha två histogram i samma figur (en för varje sjö) och med en klassindelning där klassmitt är placerade i heltalen (1,..., 15) kan du få det genom följande matlabkommandon >> subplot(2,1,1) %(delar fönstret i 2x1 figurer och gör redo att rita i position 1) >> X=[1:15]; %(vi bestämmer att staplarnas mitt ska vara i heltalen 1 till 15) >> hist(lake1,x) >> subplot(2,1,2) %(redo att rita i position 2) >> hist(lake2,x) (b) Då man gör histogram över båda datamaterialen får man följande figur. 1
3 Lake 1 frekvens 2.5 2 1.5 1 0.5 0 7 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 mg/l Lake 2 6 5 frekvens 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 mg/l I undersökningen vill man bl.a. veta koncentrationsnivån av näringsämnet, hur mycket koncentrationen varierar från mätning till mätning samt om det finns någon skillnad mellan sjöarna beträffande genomsnittlig koncentration av näringsämnet. Vilka sammanfattande numeriska mått av data skulle du kunna ha till hjälp i studien? Hur beräknas dessa m.h.a. Matlab? Beräkna dem om du redan fått igång Matlab. (c) När mätningarna var gjorda upptäckte man att mätproceduren denna dag hela tiden gav ca 0.6 enheter för högt värde (man hade alltså introducerat ett så kallat systematiskt fel i mätningarna på 0.6). Hur kommer histogrammen att förändras när man ska korrigera för detta systematiska fel? Hur kommer de mått du beräknat i föregående deluppgift att förändras? (d) Kan du uttala dig någonting om nivån av detta näringsämne i Sjö 1? (e) Kan du uttala dig någonting om eventuella skillnader i näringsnivå mellan sjöarna? (Vi återkommer till data senare i kursen i samband med jämförelser mellan stickprov.) 2. I en dal finns två fabriker som båda, oberoende av varandra, vissa dagar använder en kemisk process som ger upphov till att toxiska föroreningar sprids i luften. Användandet beror inte på veckodag eller säsong. Fabrik A använder den kemiska processen 150 dagar av de totalt 260 arbetsdagarna under ett år medan fabrik B gör det under 30 dagar. (a) Vad är sannolikheten att fabrik A sprider föroreningen i dalen en given arbetsdag? 2
(b) Vad är sannolikheten att den toxiska föroreningen sprids i dalen en given arbetsdag? (c) Vad är sannolikheten att föroreningen inte sprids i dalen under en arbetsvecka om fem dagar? (d) Vad är sannolikheten att den toxiska föroreningen sprids i dalen minst en dag under en arbetsvecka om fem dagar? (e) (svårare och frivillig) En viss dag visar mätningar att den toxiska föroreningen finns i dalen, vad är sannolikheten att det var fabrik A som gjorde utsläppet? 3. I en ny bilmodell installerar man en apparat som ska avläsa utsläppen av en viss förorening och apparaten kontrolleras årligen (vid bilprovningen?). Om apparaten fungerade vid en testning är sannolikheten 0.4 att den kommer att gå sönder under följande år. Dessutom är händelserna att den går sönder oberoende mellan åren. (a) Vad är sannolikheten att apparaten går sönder år 3? (b) Vad är sannolikheten att apparaten går sönder år k. (c) Vad är sannolikheten att apparaten går sönder före år 3? (d) Om apparattypen installeras i 100 bilar, hur många i genomsnitt kommer att ha hela apparater efter 4 år? 4. Avloppen i en stad är dimensionerade efter regnmängder med en återkomstid på 10 år. (a) Tolka återkomstid på 10 år i termer av sannolikheter. (b) Vad är sannolikheten att avloppen kommer att översvämmas för första gången på det 3:e året efter färdigställandet? (c) Vad är sannolikheten för minst en översvämning de första 3 åren? (d) Vad är sannolikheten för precis en översvämning inom 3 år? (e) (svårare och frivillig) Vad är sannolikheten för översvämning i 3 av de första 5 åren? 5. För att uppskatta antalet fiskar i en sjö kan man använda sig av en metod med fångst och återfångst (capture/recapture). Antag att det finns N (okänt antal) fiskar i sjön. Fånga slumpmässigt M fiskar, märk dem och släpp i dem i sjön igen. Vänta ett tag så att märkta fiskar blandar sig med de omärkta. Av de N fiskarna i sjön är alltså M märkta. Återfånga slumpmässigt n fiskar och notera hur många av de n som är märkta. Antag att detta antal betecknas x. Antag att N är så stort i förhållande till n så att sannolikheten att en fisk är märkt kan anses vara lika stor för alla återfångade fiskar. (a) Låt p=p(en återfångad fisk är märkt), hur kan man skatta (dvs få en uppskattning av) p? (b) Vad är sannolikheten att det av n återfångade fiskarna finns inga märkta? (c) Vad är sannolikheten att det av n återfångade fiskarna finns minst en märkt? 3
(d) (svårare och frivillig) Vad är sannolikheten att det av n återfångade fiskarna finns tre märkta? (e) Nu är det ju en skattning av N som är intressant. Vad är relationen mellan N (skattningen av N ) och p (skattningen av p)? 6. Statistics Toolbox i Matlab Bekanta dig med vilka rutiner som ingår i Statistics Toolbox genom att skriva >> help stats I kursen kommer vi att ha mest användning av de kommandon som ges under rubrikerna Probability density functions (pdf) anger värdet på täthetsfunktionen för en specificerad fördelning Cumulative Distribution functions (cdf) anger värdet på fördelningsfunktionen för en specificerad fördelning Random Number Generators simulerar slumptal från en specificerad fördelning Descriptive Statistics innehåller t ex medelvärde, varians och andra användbara mått vid dataanalys Hypothesis Tests innehåller olika beräkningar av hypotestest, av vilka vi kommer att använda några Statistical Plotting innehåller plotrutiner Egna Matlabrutiner För kursen finns ett antal specialskrivna m.filer som finns att hämta via kursens hemsida. De är uppbyggda på samma sätt som Matlabs egna rutiner, dvs genom att använda help-rutinen får du en beskrivning av m.filens funktion. 7. En diskret slumpvariabel, X, har sannolikhetsfunktionen ÑÑk p X (k) = e, k = 0, 1, 2,.... k! Antag attñ=4. (a) Beräkna P(1 X 2) och P(X > 2). (b) Beräkna fördelningsfunktionen F(x) = P(X x) för följande värden på x: x = 0.5, x = 0, x = 0.3, x = 1, x = 1.6, x = 2. Skissera sedan F(x) då 1 x < 3. 4
8. Rutherford (Matlab) Vid ett berömt experiment räknade Ernest Rutherford, Baron Rutherford of Nelson, of Cambridge, tillsammans med Hans Geiger, antalet alfa-partiklar som under korta tidsperioder emitteras från ett radioaktivt preparat. De räknade in totalt 10097 alfapartiklar under 2608 tidsintervall. I varje intervall kunde de räkna från 0 och upp till ett tiotal alfa-partiklar. I följande tabell är angivet antalet intervall som innehöll 0, 1,..., 14 antal partiklar. antal partiklar per intervall 0 1 2 3 4 5 6 7 antal intervall 57 203 383 525 532 408 273 139 antal partiklar per intervall 8 9 10 11 12 13 14 antal intervall 45 27 10 4 0 1 1 Tabellen skall tolkas så att man har gjort 2608 försök av vilka 57 gett resultatet 0 (partiklar per intervall), 203 har gett resultatet 1, etc. Data finns i filen Rutherford. (a) Ladda in datafilen och se efter vilka variabler som ligger i filen. >> load Rutherford >> whos Genom att skriva variabelnamnet skrivs innehållet ut på skärmen. (b) Låt X beteckna antalet partiklar på ett tidsintervall. Eftersom X en diskret slumpvariabel är det lämligt att beskriva data med ett stolpdiagram. Det görs i Matlab medbar (sehelp bar). >> bar(antalpartiklar,antalintervall) >> xlabel( antal partiklar per intervall ) >> ylabel( antal intervall ) >> title( Rutherford-Geigers experiment ) (c) Antag att du vill beräkna medelantalet partiklar per intervall. Medelvärdet i ett datamaterial beräknas normalt med mean (se help mean) men eftersom 5
data här är givna i en frekvenstabell kan den inte användas direkt. Enklast är att summera alla 2608 observationer och sedan dividera med 2608. Eftersom av de 2608 observationerna är 57 st 0, 203 st 1, osv kan summan beräknas som 57 0 + 203 1 +... + 14 1. >> antalintervall.*antalpartiklar %(observera.*) >> medel=sum(antalintervall.*antalpartiklar)/2608 (d) I nästa steg kan man fundera på om dessa data kan beskrivas med hjälp av någon statistisk standardfördelning. En sådan är poissonfördelningen, Po(Ñ) därñär det genomsnittliga antalet partiklar per intervall, dvs det som du beräknade i föregående deluppgift. Sannolikhetsfunktionen för en Po(Ñ) ges av p X (k) = P(X = k) = e ÑÑk k! för k = 0,.... Använd Matlabs poisspdf (se help poisspdf) för att beräkna sannolikhetsfunktionen för olika värden på k och rita (i en ny figur) funktionen. >> k=[0:14] %(skapar heltalen 0, 1,..., 14) >> poisspdf(k,medel) >> figure >> plot(k,poisspdf(k,medel)) %(heldragen linje ej lyckat!) >> plot(k,poisspdf(k,medel), * ) Stanna upp och tänk efter så att du verkligen kan tolka denna bild. Vad anges på de två axlarna? Enligt denna modell, vad är sannolikheten att antalet emitterade partiklar i ett försök (ett tidsintervall) är 1? Vad är sannolikheten att antalet emitterade partiklar i ett försök är högst 2? Den sista frågan kan också uttryckas som P(X 2) dvs det är F X (2), fördelningsfunktionen för den poissonfördelade variabeln i punkten 2. I Matlab kan detta beräknas via poisscdf (se help poisscdf) Plotta också upp fördelningsfunktionen för denna variabel. >> poisscdf(2,medel) >> x=[-1:0.01:15]; %(skapa en x-variabel i intervallet (-1,15)) >> plot(x,poisscdf(x,medel),. ) Hur ska du beräkna sannolikheten att antalet emitterade partiklar är minst 2, dvs P(X 2)? (e) Om denna modell om poissonfördelning stämmer, i hur många av de 2608 intervallen som Rutherford och Geiger betraktade skulle man förvänta sig att det blev 0 partiklar? 1 partikel? osv. Jämför dessa förväntade antal med Rutherfords observerade utfall, t ex genom att plotta i samma figur. >> figure(1) %(om det är i figur 1 du har Rutherfords data) >> hold on >> plot(k,2608*poisspdf(k,medel), * ) 6
>> hold off Verkar det rimligt att anta att X = antalet partiklar per intervall i experimentet är poissonfördelat? (f) Antag att du vill se hur ett motsvarande experiment, men där genomsnittliga antalet emissioner per intervall är 4, skulle få för utfall. Om poissonfördelningen fortfarande är en rimlig modell kan du förstås rita upp sannolikhetsfördelningen för Po(4) men du kan också simulera utfallen i försöket. Detta gör du genom att låta Matlab skapa slumptal från en Po(4), det aktuella kommandot är då poissrnd (se help poissrnd). Simulera alltså 2608 utfall från Po(4), beräkna medelvärdet av slumptalen och plotta dem på lämpligt sätt. >> y=poissrnd(4,2608,1); %(slumptalen läggs i en 2608x1-matris) >> hist(y) %(inte så snyggt för diskreta data) >> k=[0:15]; >> hist(y,k) >> mean(y) Jämför slutligen histogrammet över de relativa frekvenserna av dina slumptal med sannolikhetsfunktionen från en Po(4). De ska naturligtvis stämma bra eftersom slumptalen är hämtade just från denna fördelning. Den inte helt perfekta överensstämmelsen beror på att observationerna är just ett ändligt antal slumptal, pröva att öka antalet observationer (till 26080 t ex) för att se om det stämmer bättre. >> bar(k,hist(y,k)/2608) >> hold on >> plot(k,poisspdf(k,4), * ) >> figure >> y=poissrnd(4,26080,1); %(26080 nya slumptal skapas) >> bar(k,hist(y,k)/26080) >> hold on >> plot(k,poisspdf(k,4), * ) >> hold off 9. En rektangelfördelad slumpvariabel, R(A, B), har fördelningsfunktionen F(x) = (a) Skissa fördelningsfunktionen F(x). 0 x < A x A B A A x B 1 x > B (b) Bestäm täthetsfunktionen f (x) och skissa den. 7
(c) Beräkna slumpvariabelns väntevärde. 10. En viss ph-meter är sådan att den ger ett mätfel X som kan uppfattas som en kontinuerlig slumpvariabel X med täthetsfunktionen f X (x) = (a) Beräkna konstanten c. (b) Beräkna P( X < 0.03). (c) Beräkna E(X ) och E( X ). { c(0.05 x ) x 0.05, 0 x > 0.05. (d) Antag att den person som avläser ph-metern sitter snett i förhållande till mätarens skala och därmed introducerar ett systematiskt fel d = 0.02 så att sammanlagda felet blir 0.02 + X. Det kan då vara intressant att jämföra P( 0.02 + X < 0.03) med den i (b) framräknade sannolikheten. Gör det! 11. I en kemisk industri mäts dagligen koncentrationen (mg/10 3 liter) av en viss förorenande substans i avloppsvattnet. På grundval av många tidigare mätningar anser man att koncentrationen en slumpmässigt vald dag kan beskrivas med en slumpvariabel X som är exponentialfördelad { 0.5e 0.5x x 0 f (x) = 0 x < 0. (a) Skissa täthetsfunktionen f (x). (b) Om koncentrationen överstiger 6 mg/10 3 liter anses vattnet vara förorenat. Vad är sannolikheten att detta inträffar en dag? Markera den beräknade sannolikheten som en area i din skiss. (c) Vad är den förväntade koncentrationen en slumpmässigt vald dag? (d) (svårare och frivillig) Vad är sannolikheten att man under de nästkommande fem dagarna får förorenat vatten vid högst en av dagarna. Antag att koncentrationen av ämnet är oberoende för olika dagar. 12. Vattenkvalitetsdata från floder (Matlab) Myndigheter (Naturvårdsverk, länstyrelser, kommuner osv) har under de senaste åren genomfört omfattande övervakningsprogram av mark, luft och vatten i Sverige. En rad kvalitetsvariabler mäts med jämna mellanrum, i bästa fall går mätningarna tillbaka till 1960-talet. Numera kan många av mätningarna hittas på internet, vi ska titta på mätningar av vattenkvalitet i vattendrag. Institutionen för miljöanalys vid Statens Lantbruksuniversitet har skapat en databank för en rad mätningar i vatten, data kan nås på http://info1.ma.slu.se/db.html. I figuren nedan gäller det mätningar av totalt fosfor från station Ljungbyholm vid mynningen av Ljungbyån i sydöstra Småland, söder om Kalmar där man mätt en gång i månaden sedan 1965. 8
Institutionen för miljöanalys Ljungbyån Ljungbyholm Latitud/longitud: 563790 161055, RAK X/Y: 627831 152255, karta: 04G-NV (6,6 ; 45,1) Län/kommun: 08 80, avrinningsområde: 735 km2 Visanärområde Urval: tidsperiod 1965-2002, säsongsperiod 01-12, djupnivå 0,5 m tidsperiod 1965-1973 (blå graf) jämföres med tidsperiod 1974-2002 (röd graf) Tot-P µg/l 9
(a) Den översta grafen visar samtliga mätningar under den 35 år långa tidsperioden ( Graf över analysvärden ). Vad kännetecknar dessa data? Ser de homogena ut under hela tidsperioden? Den andra grafen visar den empiriska fördelningsfunktionen ( Fördelningsfunktion för stickprov ) för dessa data. Hur ska man tolka den? Vad har du på x-axel respektive y-axel? Vad innebär det t.ex. att funktionen vid 100 har värdet 0.9? Vad är medianen för data? Den streckade lodräta linjen motsvarar medelvärdet, vad innebär det om data att medelvärdet inte har värdet 0.5 i den empiriska fördelningsfunktionen? (b) När du tittar på tidsserien (dvs samtliga data utritade i tidsföljd) över fosforvärden kan du nog urskilja två tidsperioder där fosformätningarna inte riktigt beter sig på samma sätt. I den understa grafen har man gjort en jämförelse mellan två tidsperioder och separata grafer över de två empiriska fördelningsfunktionerna. Tolkning? (Orsaken till skillnaden i fosforhalt mellan tidsperioderna är att under början av 1970-talet förbättrades reningstekniken avsevärt vid det största reningsverket i avrinningsområdet.) (c) Via databanken kan man ladda ner data till sin egen dator. I filen ljungby finns samtliga mätningar av total fosforhalt och kiselhalt. Läs in data, plotta fosforhalten som en tidsserie och förvissa dig om att det är samma data som du såg på SLU:s hemsida. >> load ljungby >> whos >> plot(p) (d) Gör ett histogram över fosformätningarna (ändra gärna antalet klasser och se vilken effekt det får på histogrammet), beräkna medelvärde (mean) och standardavikelse (std). (e) Om X betecknar fosforhalten en slumpmässigt vald dag i Ljungbyån är X en kontinuerlig slumpvariabel. Finns det någon statistisk standardfördelning som passar till data? Den första man tänker på är normalfördelningen. För att bekanta dig med denna viktiga fördelning, simulera stickprov om 400 värden från normalfördelningen, N(Ñ, 2 ), där väntevärdetñoch variansen 2 antar olika värden. Gör histogram, vad har olika värden påñoch för effekt på histogrammen (observera att skalorna är olika!)? >> y=normrnd(4,2,400,1) %(ger 400 slumptal från N(4,4) i vektorn y) >> hist(y) >> figure >> y=normrnd(4,0.2,400,1) >> hist(y) >> figure >> y=normrnd(1,0.2,400,1) >> hist(y) 10
(f) Kommandona histfit och normplot (se respektive help kommandon) är användbara då man vill undersöka om ett stickprov kan tänkas komma från en normalfördelning. Se först vad de två kommandona ger för resultat på det simulerade stickprovet från normalfördelningen. Pröva sedan hur det ser ut när du tittar på fosfordata. >> histfit(y) >> normplot(y) >> histfit(p) >> normplot(p) (g) Det typiskt sneda histogrammet för fosfordata indikerar att data kanske är lognormalfördelade, dvs att logaritmerad fosforhalt är normalfördelad. Pröva det genom att användahistfit ochnormplot på log(p). >> histfit(log(p)) >> normplot(log(p)) (h) Plotten över ursprungliga fosformätningar visar (precis som du såg på figurerna) att något hänt efter ca 110 mätningar (motsvarar år 1973). Dela upp forsforserien i två serier, en serie som motsvarar mätningarna före införandet av den nya reningen och en serie efter. >> t=(1:432) %(skapa en tidsvariabel) >> pfore=p(t<=108) %(plocka ut de 108 första mätningarna) >> pefter=p(109:432) %(så här kan man också ta ut en delserie) Beräkna medelvärden och standardavvikelser för de båda serierna. Gör också separata histogram och lägg dem i samma figur >> subplot(211) %(delar i två grafer) >> hist(pfore) >> subplot(212) >> hist(pefter) Undersök om du kan anpassa normalfördelningar eller lognormalfördelningar till de separata serierna. (i) Titta på kiselmätningarna, verkar de vara normalfördelade? (j) Fosformängden i ett vattendrag kan tänkas vara summan av det fosfor som uppkommer genom naturlig vittring och det fosfor som tillförs genom olika mänskliga aktiviteter. Eftersom kisel i stort sett endast tillförs genom naturlig vittring och är ungefär proportionell mot den vittrade fosforn, kan det vara intressant att plotta kiselhalt mot fosforhalt samt att beräkna korrelationskoefficienten mellan de två mätserierna. 11
>> plot(p,si, * ) >> corrcoef(p,si) Verkar det finnas något samband mellan observerade kisel- och fosforhalter? Vad tyder detta på om relationen mellan naturligt fosfor och människorelaterat fosfor i vattendraget? 13. Låt X N(0, 1). Beräkna (a) P(X 1.50), (b) P(X > 0.25), (c) P(X 0.92), (d) P( 0.92 X 1.50), (e) P( X > 1.50), (f) c så att P(X > c) = 0.05, (g) c så att P(X > c) = 0.999, (h) c så att P( X < c) = 0.95. 14. Låt X N(5, 4). Beräkna (a) P(X 6.24), (b) P(X > 0), (c) P(1.8 < X < 7), (d) c så att P(X > c) = 0.05. 15. Mätningar på en våg (Matlab) Antag att du har en våg som har ett visst mätfel som vi betecknar X. Som modell antar vi att mätfelet är normalfördelat, N(0, 4) (enhet g). I genomsnitt visar alltså vågen rätt eftersom väntevärdet i normalfördelningen är 0, men för en enskild mätning kan utslaget bli för lågt eller för högt. Om du på vågen ställer en vikt på 30 g, kommer vågens utslag, Y att kunna skrivas som summan av vikten och vågens mätfel, d.v.s. Y = 30+X. Eftersom X är normalfördelad kommer Y också att vara normalfördelad men dess fördelning är N(30, 4). (a) Rita upp täthetsfunktionen för vågens utslag, Y, i intervallet (20, 40) g. Rita också upp fördelningsfunktionen för Y. Matlabtips: Täthetsfunktion och fördelningsfunktion för normalfördelningen fås genom normpdf respektive normcdf (använd help funktionen eller se stencilen om Användbara Matlabkommandon ). Med kommandot subplot kan du få båda graferna i samma figur. 12
>> x=[20:0.05:40]; % (skapa x-värden i intervallet (20,40) med steget 0.05) >> subplot(2,1,1) % (dela plottfönstret i två figurer) >> plot(x,normpdf(x,30,2)) % (rita normalfördelningens täthetsfunktion) >> subplot(2,1,2) % (placera ritmarkören i andra figuren) >> plot(x,normcdf(x,30,2)) % (rita normalfördelningens fördelningsfunktion) Enligt de uppritade graferna, mellan vilka värden visar vågen så gott som alltid sitt utslag? (b) Använd kommandotnormcdf för att ta reda på hur stor är sannolikheten att vågen visar mindre än 26 g. (c) Beräkna sannolikheten att vågen visar mer än 33 g. (d) Beräkna sannolikheten att vågen visar i intervallet (29, 31) g. Kontrollera att du förstår vad sannolikhetsberäkningarna innebär grafiskt i täthets- respektive fördelningsfunktionen. (e) För just normalfördelningen kan man i Matlab beräkna ovanstående sannolikheter med kommandot normspec och samtidigt få illustrativa grafer. Pröva följande kommandon och jämför med dina tidigare beräkningar. normspec([-inf 26],30,2) normspec([33 Inf ],30,2) normspec([29 31],30,2) (f) Ovanstående modell är en beskrivning av hur vågens utslag varierar i den population som består av oändligt många mätningar av vikten 30 g. I praktiken, då man gör ett begränsat antal (n st) mätningar av vikten, betraktas de n mätningarna som ett slumpmässigt stickprov av den oändliga populationen. Om man vill veta hur de n värdena i stickprovet varierar är det naturligt att använda histogram eller alternativt kumulativt histogram. Simulera 200 mätningar från N(30, 4), rita ut histogram och jämför med täthetsfunktionen. >> z=normrnd(30,2,200,1) % (simulerar slumptal från N(30,2) och placerar dem i en 200 x 1 matris) >> subplot(2,1,1) >> histfit(z) % (anpassar en normalfördelning till data, väntevärde och varians skattas från data) (g) Rita också ut ett trappstegsdiagram för det kumulativa histogrammet och jämför med normalfördelningens fördelningsfunktion. (De två sista kommandona har du skrivit tidigare, använd piltangenten för att få fram dem.) >> subplot(2,1,2) >> [m,c]=hist(z,20) %(ett histogram med 20 staplar görs; i m läggs de absoluta frekvenserna i varje 13
stapel medan c anger mitten på varje stapel) >> stairs(c,cumsum(m/200)) %(ett trappstegsdiagram ritas med hopp i c-värdena, hoppen motsvaras av den relativa frekvensen för respektive stapel) >> hold on >> x=[20:0.05:40]; >> plot(x,normcdf(x,30,2)) Slutsats: Täthetsfunktion i populationen (teoretiska fördelningen) motsvaras av histogram i stickprovsfördelningen. Histogrammet (lämpligt skalat) går mot täthetsfunktionen då stickprovsstorleken ökas. 16. Om bakteriehalten i dricksvatten överstiger 60 enheter anses det otjänligt. Bakteriehalten en slumpmässigt vald dag kan modelleras med hjälp av en normalfördelning med väntevärdeñoch standardavvikelse 7 enheter. Man tar ett vattenprov och bedömmer vattnets kvalité efter detta. (a) Antag attñär 50, vad är sannolikheten att dricksvattnet bedöms otjänligt? (b) Genom olika åtgärder kan man påverka den genomsnittliga bakteriehaltenñ. Om sannolikheten att vattnet är otjänligt inte får överstiga 0.05, vad ger detta för villkor påñ? 17. Normalfördelning? (Matlab) I skogsområdet ASA försökspark i Småland är 94 olika gropar grävda i marken och från varje grop är jordprover tagna där bland mycket annat aluminiumhalt och calciumhalt är uppmätta (mg/g). Data finns i filenjordprov och är hämtade från Johan Holmqvist, Kemisk teknologi, LTH. (a) Rita ut aluminiumhalterna i ett histogram, beräkna medelvärde och standardavvikelse. (b) För att undersöka om data kan tänkas komma från en normalfördelning kan man använda matlabrutinennormplot, kommandot i detta fall blir normplot(al). Verkar det rimligt att aluminiumhalterna är normalfördelade? (c) Undersök om det är rimligt att calciumhalterna antas vara normalfördelade. (d) Undersök också om anpassningen blir bättre om du logaritmerar calciumdata först, dvs anpassar en lognormalfördelning till calciumhalterna. 18. I marsklandet på sydöstra Jylland ligger stora områden under havsytans nivå skyddade av vallar. Det maximala vattenståndet under ett år vid Höjer räknat från en given referensnivå kan antas vara normalfördelat med väntevärde 300 och standardavvikelse 75 (enhet: cm). Skyddsvallarnas höjd är 500 cm över referensnivån. Översvämning inträffar när vattenståndet når över skyddsvallarna. (a) Beräkna sannolikheten för översvämning ett år. (b) Beräkna sannolikheten för minst en översvämning under 100 år. 14
19. I en fabrik tillverkas en viss produkt vars renhet bestäms genom smältpunktsbestämning. Om produkten är fullständigt ren kan resultatet av en sådan bestämning betraktas som en s.v. X = 179.3 + Y där Y avser mätfelet. Den s.v. Y har täthetsfunktionen { c(9 y f Y (y) = 2 ) y < 3, 0 y 3. (a) Beräkna c, E(X ) och V(X ). (b) Ovan har förutsatts att temperaturen har angivits i grader Celsius. Låt Z vara smältpunkten angiven grader Farenheit. Sambandet mellan grader Celsius (X ) och grader Farenheit (Z) är X = 5 9 (Z 32). Beräkna E(Z) och V(Z). 20. Trikloretylen (Matlab) Från ett område som tidigare tjänstgjort som avstjälpningsplats för en kemisk industri togs 31 jordprover och halten av trikloretylenñg/kg uppmättes: 730, 800, 810,..., 6 100 000 Samtliga mätningar finns i filen trikloretylen där de ligger i storleksordning. Som modell antar man att data är lognormalfördelade, dvs om X är koncentrationen av trikloretylen gäller att ln(x) N(Ñ, 2 ). (a) Kontrollera i Matlab att den angivna modellen är rimlig samt skattañoch 2. (b) Intressant är att studera sannolikheten att trikloretylenhalten i ett prov överstiger 700 000Ñg/kg. Använd skattningarna i (a) för att göra en uppskattning av denna sannolikhet. (c) Om man skulle ta 20 nya jordprover på samma plats, vad är sannolikheten att minst 2 av dessa prover har en halt av trikloretylen som överstiger 700 000 Ñg/kg? 21. Vindelälven (Matlab) Vindelälven är en oreglerad biflod till Umeälven, och dess vattenföring på våren är helt beroende av snömängd och snösmältning. I filenvindelalven finns årliga maximala vattenflöden (enhet m 3 s 1 ) som uppmätts vid Renforsen utanför Vindeln under åren 1957-1979. (a) Undersök om normalfördelning kan vara en lämplig modell för årsmaxima. Skatta i så fallñoch. (b) Beteckna det maximala årliga vattenflödet i floden med X (m 3 s 1 ). Under förutsättning att normalfördelning är en lämplig modell, skatta vattenflödet x 100 med återkomsttiden 100 år, dvs 100-årsflödet. Vad är tolkningen av x 100? (c) Beräkna sannolikheten att X kommer att överstiga x 100 minst en gång under de närmaste 100 åren. (d) Ofta är normalfördelning en olämplig modell för maximala flöden. Undersök om en lognormalfördelning passar bättre (ofta är det en extremvärdesfördelning som ger en bra modell). 15
(e) Skatta x 100 under förutsättning att lognormalfördelning är en bra modell. 22. Antag att man har tre oberoende slumpvariabler X 1, X 2 och X 3. För samtliga gäller att väntevärdet är 3 och standardavvikelsen är 2, d.v.s. E(X i ) = 3 och D(X i ) = 2, i = 1, 2, 3. (a) Beräkna väntevärde och standardavvikelse för Y = X 1 5X 2 + 2X 3. (b) Beräkna väntevärde och standardavvikelse för X = 1 3 (X 1 + X 2 + X 3 ). 23. Linjärkombination av normalfördelade variabler (Matlab) Antag att de två slumpvariablerna X och Y är oberoende med X N(2, 2) och Y N(5, 3). (a) Vad har 5X 2Y för fördelning? (b) Vad är sannolikheten att 5X överstiger 2Y, d.v.s. att P(5X > 2Y )? 24. Fortsättning från den tidigare uppgiften om bakteriehalt i dricksvatten: Om bakteriehalten i dricksvatten överstiger 60 enheter anses det otjänligt. Bakteriehalten en slumpmässigt vald dag kan modelleras med hjälp av en normalfördelning med väntevärdeñoch standardavvikelse 7 enheter. Man överväger att ändra provtagningen genom att basera bedömningen på medelvärdet av tre oberoende prover av bakteriehalten. Beräkna nu sannolikheten att dricksvattnet anses otjänligt om ett prov kan modelleras enligt N(50, 7 2 ). 25. Låt X i N(Ñ, 2 ), i = 1, 2,..., n vara oberoende. Bestäm fördelningen för X = 1 n n X i. i=1 26. Mäta upp 10 m band (Matlab) Denna uppgift illustrerar skillnaden mellan 10X och 10 i=1 X i där alla slumpvariabler X, X 1,...,X 10 har samma fördelning. Man vill mäta upp ett 10 m långt band med så bra precision (dvs med så liten variation) som möjligt. Till sitt förfogande har man en mätsticka av längd 1 m. Då man mäter bandet har man ett visst mätfel så den verkliga längden av bandet varierar från mätning till mätning som en slumpvariabel X som har väntevärde 1 m och standardavvikelse 0.05 m. För att göra det mer illustrativt ska vi anta att fördelningen är normalfördelad men detta är ej nödvändigt för resultatet. För att få ett 10 m långt band kan man välja mellan två strategier: I Den snabba metoden : Mät upp 1 m med mätstickan. Vik sedan över bandet ett antal gånger tills du har 10 m. II Den jobbiga metoden : Mät upp 1 m band med mätstickan, gör en ny mätning med stickan, osv. Man gör alltså totalt 10 st mätningar. 16
(a) Vilken av slumpvariablerna 10X eller 10 i=1 X i representerar den snabba metoden? Vilken representerar den jobbiga metoden? (b) 100 personer använde den snabba metoden medan 100 andra använde den jobbiga metoden. Simulera deras mätningar och gör histogram för resultatet i de två grupperna. Vilken metod är att föredra? Matlabtips: Med kommandot >> X=normrnd(1,0.05,10,100); får man en (10 x 100) matris med slumptal från en normalfördelning med väntevärde 1 och standardavvikelse 0.05. Genom >> sum(x); adderas för varje kolonn de 10 raderna vilket ger en (1 x 100) matris där varje element är summan av 10 slumptal från den aktuella normalfördelningen, dvs du har gjort 100 simuleringar av X 1 + X 2 +... + X 10. För att simulera 10X kan du bilda en (1 x 100) matris av normalfördelade slumptal och multiplicera den med 10. >> X1=10*normrnd(1,0.05,1,100); >> subplot(2,1,1) >> histfit(sum(x)) >> subplot(2,1,2) >> histfit(x1) (c) Tänk ut - genom att använda satser om normalfördelningen - vad fördelningen är för längden av det uppmätta bandet med den snabba metoden? Vad är fördelningen för längden av det uppmätta bandet med den jobbiga metoden? (d) För båda metoder, använd normcdf för att beräkna sannolikheten att det uppmätta bandets längd understiger 9.7 m. 27. Ett företag köper ammoniaklösning som skall ha en ammoniakhalt på 20%. Vid ankomstkontrollen gör man tre oberoende mätningar av halten. Om summan av de tre halterna understiger 59%, så slår laboratoriet larm, och partiet undersöks noggrannare. Antag att den sanna ammoniakhalten verkligen är 20% i en sändning, och att en bestämning av halten varierar enligt N(20, 0.04). Vad är sannolikheten att laboratoriet ändå slår larm? 28. Fördelningen för summor av slumpvariabler (Matlab) Adderar man flera normalfördelade slumpvariabler är summan också normalfördelad. Men vad händer om man lägger ihop flera variabler som alla är rektangelfördelade? (a) Simulera 1000 observationer från R(0,1) (rektangelfördelning eller likformig fördelning) och förvissa dig om att histogrammet för observationerna är en låda mellan 0 och 1. >> x=rand(1,1000) >> hist(x) 17
(b) Addera två uppsättningar av vardera 1000 observationer från R(0,1) och gör histogram för summan. Öka summan till att innehålla fyra, åtta respektive tolv variabler. Resultat!? Matlabtips: Vill du summera slumptal från m st R(0,1) variabler bilda först en (m x 1000) matris varefter du summerar raderna i varje kolonn. >> R=rand(m,1000); >> hist(sum(r)); %(tyvärr fungerar inte detta om du valt m=1, skriv enbart hist(r) då) (c) Ni har i föregående deluppgift illustrerat centrala gränsvärdessatsen som säger att summan av oberoende, likafördelade slumpvariabler är normalfördelad, oavsett vilken fördelning man utgår från, enbart antalet variabler i summan är tillräckligt stort. Vad som är tillräckligt stort varierar från fördelning till fördelning. Pröva genom att addera simulerade observationer från en exponentialfördelning med väntevärde 1 (exprnd i Matlab) om du behöver fler eller färre variabler i summan än vid rektangelfördelningen för att få en fördelning som liknar en normalfördelning. Matlabtips: Vill du summera slumptal från m st exp(1) variabler bilda först en (m x 1000) matris varefter du summerar raderna i varje kolonn, >> E=exprnd(1,m,1000); >> hist(sum(e)); %(tyvärr fungerar inte detta om du valt m=1, skriv enbart hist(e) då) (d) För vilken av de fördelningarna behövdes flest variabler i summan för att få en fördelning som liknar en normalfördelning? Om ni betraktar rektangelfördelningens respektive exponentialfördelningens täthetsfunktioner kan ni gissa på några egenskaper hos den ursprungliga fördelningen som skulle påverka konvergensen mot normalfördelning? 29. En laboratorieassistent utför en viss rutinmätning ett stort antal gånger under en arbetsdag. Han har noterat att 50 % av mätningarna tar 1 minut att genomföra, 40 % tar 2 minuter medan resten tar 3 minuter. Han tror inte att arbetet under dagens lopp påverkas av inlärningseffekter eller förtröttningseffekter. Låt X =antal minuter att genomföra en mätning. (a) Vad är sannolikhetsfunktionen för X? (b) Bestäm E(X ) och V (X ). (c) Vad är sannolikheten att han hinner med 100 mätningar på mindre än 170 arbetsminuter? 30. Vikterna av hönsägg från en viss producent har en fördelning med väntevärde 50 gram och standardavvikelse 5 gram. Äggen säljs till storkök och förpackas i kartonger om 100 ägg. Beräkna sannolikheten att en slumpvis vald kartong väger mindre än 5100 gram. 18
31. Till en liftkabin står ett stort antal människor i kö och kabinskötaren Frans funderar på hur många skidåkare han ska våga pressa in i kabinen. (Av erfarenhet vet han att skidturister kan packas mycket tätt.) På kabinväggen står ett plakat Max 8.2 ton och Frans, som själv åker med kabinen, vet att han väger 75 kg. Frans antar att skidåkares vikt inklusive skidutrustning är oberoende slumpvariabler med väntevärde 80 (kg) och standardavvikelse 5 (kg). Beräkna approximativt sannolikheten att kabinen belastas med mer än den tål om Frans pressar in 100 skidåkare i kabinen. Observera att Frans också åker med i kabinen. 32. När vi mätte natriumhalten hade vi förutom det slumpmässiga felet ett systematiskt fel på 0.7. Vad innebär det systematiska felet konkret i denna situation? Hur kan man få en uppfattning om hur stort det slumpmässiga felet är? 33. Surhetsgraden i ett vattendrag bestäms varje fredag med hjälp av en ph-meter. Därvid uppstår ett (additivt) fel Y med väntevärdeðoch standardavvikelsen =0.05. Här börð(det systematiska felet) vara 0 men på grund av en feljustering av phmetern ärð= 0.4. Beräkna väntevärde och standardavvikelse för mätresultatet om det rätta ph-värdet är 5.8. 34. Fortsättning från föregående uppgift. Antag att vattnets surhetsgrad varierar från fredag till fredag som en slumpvariabel X med väntevärdet 5.5 och standardavvikelsen 0.5. Beräkna väntevärde och standardavvikelse för mätresultatet en godtycklig fredag. 35. Fortsättning från de två föregående uppgifterna. Antag att man varje fredag gör tre mätningar på ett vattenprov med surhetsgraden X och att man därefter bildar medelvärdet av de tre mätningarna. Hur stor blir standardavvikelsen för detta medelvärde om de slumpmässiga felen vid de tre mätningarna är oberoende och X varierar som i föregående uppgift? 36. Arsenik finns i små men mätbara mängder i avloppsvattnet från hushållen och man funderar på hur mycket arsenik som släpps ut från samhället Wik som består av 67 hushåll. Från tidigare undersökningar på områden med likartad struktur beträffande befolkning, berggrund, jordmån osv. har man antagit en ganska grov modell där X = As-mängden i avloppsvattnet från ett slumpmässigt valt hushåll följer en lognormalfördelning med parametrarñoch. Det innebär alltså att ln(x ) N(Ñ, 2 ). Från denna undersökning gjorde man uppskattningarna att Ñ 3 och 0.3. Man tänkte sig också att As-mängden mellan olika hushåll var oberoende. (a) Simulera slumptal från denna lognormalfördelning för att få en uppfattning om hur stora As-mängderna kan tänkas vara. Enhet ärñg. Ange lämpliga numeriska mått och figurer. (b) Antag att samma lognormalfördelning, medñ 3 och 0.3, även gäller för As-mängden hos hushåll i Wik. Om X är lognormalfördelad med parametrarñoch gäller E(X ) = e (Ñ+ 2 2 ) och V (X ) = e (2Ñ+ 2) (e ( 2) 1). Med de angivna skattningarna påñoch 19
innebär det att om X i =As-mängden från hushåll i, gäller det att E(X i ) = 0.052 och V (X i ) = 2.554 10 4. Vad är då sannolikheten att den totala As-mängden från Wik överstiger 3.7 (Ñg)? 37. Aerosoler i Lund (Matlab) I detta material ska du ska titta på data som är hämtade från aerosolmätningar i Lund under hösten 1998. Erik Swietlicki på Kärnfysik har vänligen bidragit med data, arbetet var ett samarbete mellan Naturgeografiska Institutionen vid LU och Avdelningen för Kärnfysik vid LTH. Datafilen I filen aerosol finns partikelkoncentrationsmätningar från två dygn i Lund. Den innehåller följande variabler: okt26 Mätningar från dygnet 26 oktober 1998. Variabeln består av en matris med 94 rader och 35 kolumner. En rad är koncentrationen för 35 partikeldiametrar vid en tidpunkt under dygnet. Man har alltså gjort mätningar 20
vid 94 tidpunkter detta dygn och de är angivna i tidsföljd (rad1 dygnets första mätning, rad2 dygnets andra mätning osv). nov24 Mätningar från dygnet 24 november 1998. Variabeln består av en matris med 96 rader och 35 kolumner. En rad är koncentrationen för 35 partikeldiametrar vid en tidpunkt under dygnet. Man har alltså gjort mätningar vid 96 tidpunkter detta dygn och de är angivna i tidsföljd (rad1 dygnets första mätning, rad2 dygnets andra mätning osv). diameter Anger de diametrar (nm), i logskala, där man mätt partikelkoncentrationen. Fördelning för partikelstorlek Titta på mätningarna från 26 oktober 1998. Denna dag kännetecknas av sydvästliga till västliga vindar. Den relativa luftfuktigheten pendlade livligt mellan 65 till 95% och temperaturen flukturerade mellan 6 till 8 grader. Titta först efter för vilka partikeldiametrar man mätt koncentrationen genom att skriva exp(diameter). Plotta ut partikelkoncentrationen (antal/cm 3 ) mot dess partikeldiametrar Eftersom det finns koncentrationsmätningar från 94 olika tidpunkter kan du förenkla analysen genom att ta medelvärdet av alla tidpunkter. Medelvärdet av de 94 raderna kan du få genom mean(okt26) och du skriver lämpligtvis plot(exp(diameter),mean(okt26), * ). Vilken partikeldiameter har den högsta koncentrationen? Plotta ut partikelkoncentrationen (antal/cm 3 ) mot partikeldiametern i logskala. Har du något förslag på en lämplig fördelning för logaritmerad partikeldiameter? Data verkar bete sig enligt en lognormalfördelning. Det är vanligt att koncentrationsmätningar av halter i vatten eller luft eller som här partikeldiametern kan beskrivas med hjälp av lognormalfördelningar. Om X är lognormalfördelad med parametrarñoch, betecknasä(ñ, 2 ), gäller att ln(x) är normalfördelad N(Ñ, 2 ). Slumptal frånä(ñ, 2 ) läggs i en matris av storlek m n genom kommandot lognrnd(ñ,,m,n) (se help lognrnd). Bekanta dig med dessa fördelningar genom att simulera slumptal från olika lognormalfördelningar. Välj t.ex.ä(0.5, 0.8) ochä(1, 0.25) (observera att det är, ej 2 som är inparameter i Matlabkommandot). Titta också på logaritmen av slumptalen, verkar de följa normalfördelningar som de ska göra? Blandning av partiklar med olika ursprung Titta nu på mätningarna av aerosoler som är gjorda i Lund den 24 november 1998. Denna dag kännetecknas av i huvudsak regionala sydostliga vindar med temperatur kring nollstrecket. 21
Titta som tidigare på partikelkoncentrationen mot diameter (i logskala). Vad kännetecknar fördelningen? Kan du ge någon tolkning av data? Ett aerosolprov består av två olika partiklar, partikel A och partikel B. Partikel A är lognormalfördelad med parametrarña och A och tänks beskriva aerosoler med ett visst ursprung medan partikel B av ett annat ursprung är lognormalfördelad med parametrarñb och B. Kan vi upptäcka att det är två olika noder i blandningen? Svaret beror naturligtvis på värdena på parametrarnaña,ñb, A och B. Pröva genom att skapa ett stickprov om totalt 2000 partiklar som består av 1000 partiklar frånä(2.7, 0.25) och 1000 partiklar frånä(4.8, 0.25). (Två vektorer x och y adderas efter varandra med kommandot [x y ].) Rita upp histogram för [log(x) log(y) ] och jämför med data från lundamätningarna från den 24 november. (Även om skalorna inte är helt de samma som i lundamätningarna finns tvåtoppigheten i simulerade data.) Rita också upp normalplot för [log(x) log(y) ]. Kan du se att det är aerosoler med olika ursprung? Pröva samma sak då du har en blandning av 1000 partiklar frånä(2.7, 0.8) och 1000 partiklar frånä(4.8, 0.8). Kan du se att det är aerosoler med olika ursprung? 38. Avloppen i en stad är dimensionerade efter regnmängder med en återkomsttid på 10 år. Antag att översvämningar olika år inträffar oberoende av varandra. (a) Vad är sannolikheten - enligt dimensioneringen - att det sker en översvämning ett slumpmässigt valt år? (b) Vad är sannolikheten - enligt dimensioneringen - för minst 2 översvämningsår under en 15-årsperiod? (c) Dimensioneringen gjordes redan 1980. De senaste 20 åren tycker man att det har regnat mer än tidigare eftersom antalet år med översvämningar varit 5. Beräkna sannolikheten att man får minst 5 översvämningar under 20 år enligt den gamla dimensioneringen. Inför statistikdelen av kursen: Tyder detta på att det regnat mer de senaste decennierna så att sannolikheten för översvämning har ökat? 39. I en preliminär studie anges designnivån för en bro sådan att 30 % anses som en acceptabel sannolikhet för att bron ska översvämmas av flod minst en gång under de närmsta 25 åren. (a) Om p betecknar sannolikheten att brons designnivå överskrids under 1 år, vilken värde på p uppfyller designkriteriet ovan? (b) Vad är återkomstiden för denna designflod. 40. Antalet jordskalv under ett år i ett område anses vara poissonfördelat med parameter Ñ, dvs om X = antalet jordskalv under ett år gäller X Po(Ñ). (a) Gör en konkret tolkning av parameternñ. 22
(b) Antag attñ=1.6. Vad är sannolikheten för högst 2 jordskalv under ett år? (c) Antag attñ=1.6 Vad är sannolikheten för ett jordskalvsfritt decennium i området? 41. Ett sätt att mäta radonkoncentrationen i inomhusluft är att hänga upp en film känslig för alfa-partiklar. När filmen träffas av en partikel uppstår efter framkallning ett hål i filmen. Om X är antalet hål i en film är det rimligt att anta att X är poissonfördelat med ett väntevärde som är proportionellt mot radonkoncentrationenð, dvs X Po(KÐ). Då man gör mätningar i Wilmas hus är i denna mätsituation K = 0.1. (a) Antag att radonkoncentrationen ärð=100bq/m 3. Vad är sannolikheten att man finner högst 7 hål i filmen? (b) Gränsvärdet för radonkoncentrationen i nybyggda hus ärð=200 Bq/m 3. I huset uppmätte man 27 hål. Beräkna sannolikheten att det finns 27 hål eller fler på en film omð=200. Inför statistikdelen av kursen: Verkar det finnas fog för påståendet att gränsvärdet är överskridet i Wilmas hus? 42. Den nyligen inträffade orkanen i södra Sverige ger upphov till följande uppgift. Vindstyrkan under en storm varierar under vindbyarna enligt någon okänd fördelning. Mäter man den maximala vindstyrkan U under ett fixt tidsintervall, t ex under en halvtimme, får man en fördelning som är av extremvärdestyp, ofta med en fördelningsfuntion av typen { F U (u) = exp e (u a)/b}, där a är så stort att sannolikheten för negativa värden är försumbar. Antag att stormen pågår under 3 timmar och att vi mäter maximala vindstyrkan under de sex halvtimmarna, med resultat U 1, U 2,..., U 6. (a) Ange fördelningsfunktionen för Umax = max(u 1,..., U 6 ), uttryckt med hjälp av fördelningsfunktionen F U (x). Du får förutsätta att U 1,..., U 6 är oberoende. (b) Antag att b = 4 m/s. Under senaste stormen var maximala vindhastigheten på många ställen över 40 m/s. Vad skall a vara för att sannolikheten att maximala vinden överstiger 40 m/s skall vara 50%? 43. Kusten vid södra Jylland skyddas mot översvämning av vallar. Vattenståndet varierar och vid högvatten kommer det ibland farligt nära vallkrönet. För att dimensionera en ny vall som skall stå emot en eventuell framtida höjning av medelvattenståndet har man simulerat några olika vattenståndsmodeller. En modell gav följande resultat. Under 26 veckor förekom 43 tillfällen med högvatten över 2.5 meter, och fördelningsfunktionen för vattenståndet vid dessa tillfällen uppskattades till F(x) = 1 e (x 2.5)/0.26, för x > 2.5. 23
a) Högvatten förekommer vid Jyllandskusten 2 gånger per dygn. Uppskatta sannolikheten att vattenståndet vid högvatten överstiger 2.5 meter. b) Uppskatta sannolikheten att vattenståndet vid ett högvattentillfälle överstiger 3 meter. c) Uppskatta sannolikheten att det minst en gång under ett år förekommer vattenstånd över 3 meter, under förutsättning olika högvattentillfällen är oberoende. 44. Volymen Y av sfäriska bubblor beräknades genom att mäta bubblornas diameter D på en fotografisk plåt och tillämpa formeln Y =ÔD 3 6. Man ansåg sig kunna bestämma diametrarna med en precision av D = 0.02 mm. För en bubbla blev diametervärdet d = 1.80 mm, varur y = 3.05 mm 3. Beräkna med lämplig approximation volymsbestämningens precision Y. Använd i brist på bättre information att E(D)=1.80. Kan approximationen förmodas vara god? 45. Vid bestämning av utbytet (enhet: %) vid oxidation av ammoniak i en konverter mättes X = Halten NH 3 i ingående gas och Y = Halten NO i utgående gas. Utbytet Z beräknades sedan enligt formeln ( ) 100 Z = Y X 1.25. Genom att göra flera dubbelprov har man uppskattat spridningarna och funnit följande standardavvikelser för X - och Y -bestämningarna: X = 7.7 10 2, Y = 9.6 10 2. Vid ett av försöken noterade man dessutom x = 12.0 och y = 13.5. (a) Bestäm approximativt standardavvikelsen för bestämningen av utbytet vid detta försök. Använd i brist på bättre information uppskattningarnañ X = 12.0 och Ñ Y = 13.5 och antag att X och Y är oberoende. (b) Motivera (t.ex. grafiskt) att approximationen är bra. 46. Andelen kristallvatten i bariumkloriddihydrat bestämdes på följande sätt: 1. Vikt av tom degel avlästes till x = 15.0050 gram. 2. Vikt av degel med ca 1 gram prov avlästes till y = 15.9854 gram. 3. Vikt av degel med prov befriat från vatten (torkat) avlästes till z = 15.8404 gram. Proportionen kristallvatten beräknades till w = y z y x = 0.1479. Antag att den slumpmässiga osäkerheten i varje viktavläsning har en standardavvikelse på = 0.0001 gram, samt att avläsningsfelen är oberoende av varandra. Beräkna approximativt standardavvikelsen för W = Y Z Y X. 24
Inferensteori 47. Vid en undersökning av vattenkvaliteten i Italien gjordes mätningar av ett visst bekämpningsmedel, som man visste använts i jordbruket. Följande värden (ppm) erhölls: 0.18 0.14 0.15 0.16 0.17 Mätresultaten kan betraktas som ett slumpmässigt stickprov av en slumpvariabel X N(Ñ, 2 ) därñoch är okända. SkattaÑoch. 48. Hur bra är skattningarna? (Matlab) Ni ska undersöka hur skattningar av väntevärde och varians beror av stickprovsstorleken. Utgå från en normalfördelning N(3, 4). Antag att väntevärdet 3 och variansen 4 är okända för oss och att vi vill skatta dem genom att ta ett stickprov, x 1,..., x n, om n observationer och bilda x respektive s 2 = 1 n n 1 i=1 (x i x) 2. Hur nära kommer skattningarna de sanna värdena om stickprovsstorleken är 5? om den är 25? (a) Simulera 1000 stickprov om 5 värden från N(3, 4) och skattañoch 2 i varje stickprov. Gör histogram över väntevärdesskattningarna >> X=normrnd(3,2,5,1000); %(1000 stickprov om vardera 5 observationer skapas) >> mx=mean(x) %(1000 skattningar av $\mu$ fås) >> subplot(2,1,1) >> hist(mx,20) >> title( Skattningar baserade på 5 mätningar ) (b) Gör samma sak för 1000 stickprov som alla består av 25 observationer. >> Z=normrnd(3,2,25,1000); %(samma sak men 25 observationer i varje stickprov) >> mz=mean(z); >> subplot(2,1,2) >> hist(mz,20) >> title( Skattningar baserade på 25 mätningar ) Vann man mycket på att öka stickprovsstorleken från 5 observationer till 25? Observera att det är olika skalor på x-axlarna. (c) Gör även histogram för 2 -skattningarna och jfr de två stickprovsstorlekarna n=5 och n=25. Här får ni använda kommandot var i stället för mean när ni skattar. Titta på histogrammen för att avgöra om det är ovanligt att skattningen av 2 avviker mer än 2 från det sanna värdet 4 (dvs understiger 2 eller överstiger 6) då n=5 respektive då n=25. Sensmoral: Var försiktig med skattningen av 2 då ni har få mätvärden! (d) Återgå till skattningarna av väntevärdetñ. Hur stor är sannolikheten att skattningen avviker mer än 1 enhet från det sanna värdetñ=3 då ni använder 5 värden i stickprovet respektive 25 värden i stickprovet? För att beräkna detta 25
kan ni använda normcdf, men tänk först ut - genom att använda satser om normalfördelningen - vilken fördelning skattningen har då n=5 respektive då n=25. 49. Man gör två oberoende bestämningar x 1 och x 2 av ph-värdetñ. Dessa antas vara ett slumpmässigt stickprov från N(Ñ, 2 ). Som skattning avñtar man medelvärdet x = (x 1 +x 2 )/2. Denna skattning,ñ = x = (x 1 +x 2 )/2, anses som en observation av stickprovsvariabeln X = (X 1 + X 2 )/2 där både X 1 och X 2 är N(Ñ, 2 ). (a) Vad är variansen för X = (X 1 + X 2 )/2? (b) Vad är fördelningen för X = (X 1 + X 2 )/2? (c) Om 2 är okänd kan den skattas med s 2. Vad är då medelfelet för skattningen Ñ? 50. Man vill undersöka halten av bly på en viss arbetsplats. Vid mätning av halten uppkommer ett analysfel varför ett mätresultat kan anses vara ett utfall av en slumpvariabel som är N(m, 1.3 2 ) där m är den verkliga halten (i ppm) och standardavvikelsen =1.3 är ett mått på analysmetodens precision. Vid en undersökning görs fem oberoende mätningar och man får följande resultat 48.35 46.50 49.19 49.43 47.28 (a) Gör ett tvåsidigt 95 % konfidensintervall för m. (b) Ur de anställdas synpunkt är det mer intressant att studera ett ensidigt konfidensintervall. Vilken typ av intervall är det? Beräkna intervallet. 51. För att bestämma kvicksilverhalten hos gäddor i en viss sjö lades ett antal nät ut. Genom tidigare studier i liknande sjöar anser man sig veta att kvicksilverhalten är N(m, 2 ) med =0.01 mg. Vilket är det minsta antalet gäddor man måste få om man vill göra ett 95% konfidensintervall för m som är högst 0.005 mg brett? 52. Fortsättning från uppgift 47. Gör ett tvåsidigt 95% konfidensintervall förñ, den genomsnittliga halten av det undersökta bekämpningsmedlet i ån. 53. Simulering av konfidensintervall (Matlab) (a) Ni ska simulera 100 st 95% konfidensintervall förñi en N(Ñ, 2 ) där väntevärdet Ñi själva verket är 3 och standardavvikelsen är 2. Låt varje intervall vara baserat på n=5 värden. Rita ut intervallen, hur många missar det sanna värdet Ñ=3? Matlabtips: >> clear >> x=normrnd(3,2,5,100); %(simulera 100 st normalfördelade stickprov om vardera 5 observationer) >> medel=mean(x); %(beräkna de 100 medelvärdena) >> undre=medel-norminv(0.975,0,1)*2/sqrt(5); %(beräkna undre gränsen i de 100 intervallen) >> ovre=medel+norminv(0.975,0,1)*2/sqrt(5); %(beräkna övre gränsen i de 100 intervallen) 26