Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015

Storlek: px
Starta visningen från sidan:

Download "Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015"

Transkript

1 Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015 Innehåll 1. Beskrivning av data 2. Grundläggande sannolikhetsberäkningar 3. Fördelningar 3.1 Diskreta fördelningar 3.2 Kontinuerliga fördelningar 3.3 Summa, medelvärde och andra linjärkombinationer 3.4 Normalfördelningen 3.5 Fördelningsanpassning 4. Grundläggande inferens att dra slutsatser från data 4.1 Punktskattningar 4.2 Konfidensintervall 4.3 Hypotestest 5. Inferens i några vanliga statististiska modeller 5.1 Inferens för väntevärdet 5.2 Jämförelse av två väntevärden 5.3 Inferens för diskreta data 5.4 Inferens för kategoridata 6. Sambandsanalys 6.1 Regressionsanalys 6.2 Korrelationsanalys 7 Miniprojekt 8 och lösningar till vissa uppgifter

2 2 Datahantering 1. Beskrivning av data NYCKELBEGREPP: Begrepp Träna Sammanfattande numeriska mått MASB11 (Biostat): Empirisk fördelningsfunktion Digdatabeskr 1-5 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 10 Olsson, Englund och Engstrand Kapitel 2 Sammanfattande numeriska mått 1. DATAMATERIAL: sjodata1. I två olika sjöar, Sjö 1 och Sjö 2, har man en klar sommardag på olika platser i sjöarna gjort ett antal mätningar av ett visst näringsämne. (a) Data finns i filen sjodata1 där variablerna heter lake1 respektive lake2. Nedan ges lämpliga Matlabkommandon (texten efter tecknet % kommenterar vad som görs i kommandot). >> load sjodata1 %(ladda in datafilen) >> whos %(visar vilka variabler som ligger i filen) >> lake1 %(visar de 12 mätningarna från denna sjö) Nu vill vi titta på data genom att göra histogram över mätningarna från respektive sjö. Med >> hist(lake1) gör Matlab en egen klassindelning på mätningarna från Sjö 1. Om ni vill ha två histogram i samma figur (en för varje sjö) och själv bestämma antalet staplar i histogrammen, t.ex. till 10, kan man få det genom följande matlabkommandon >> subplot 211 %(delar fönstret i 2x1 figurer och gör redo att rita i position 1) >> hist(lake1,10) >> subplot 212 %(redo att rita i position 2)

3 Datahantering 3 >> hist(lake2,10) (b) Då man gör histogram över båda datamaterialen får man följande figur. I undersökningen vill man bl.a. veta koncentrationsnivån av näringsämnet, hur mycket koncentrationen varierar från mätning till mätning samt om det finns någon skillnad mellan sjöarna beträffande genomsnittlig koncentration av näringsämnet. Två sammanfattande numeriska mått av data som ni kan ha till hjälp i studien är medelvärdet x = 1 n n i=1 x i och standardavvikelsen 1 s = n n 1 i=1 (x i x) 2. Hur beräknas dessa m.h.a. Matlab? (c) När mätningarna var gjorda upptäckte man att mätproceduren denna dag hela tiden gav ca 0.6 enheter för högt värde (man hade alltså introducerat ett så kallat systematiskt fel i mätningarna på 0.6). Hur kommer histogrammen att förändras när man ska korrigera för detta systematiska fel? Hur kommer de mått ni beräknat i föregående deluppgift att förändras? (d) Kan ni uttala dig någonting om nivån av detta näringsämne i Sjö 1? Eller om eventuella skillnader i näringsnivå mellan sjöarna? 2. Det maximala årliga avrinningsflödet för Feather River i Californien har uppmätts för åren 1902 till I tabellen är flödena ordnade i storleksordning.

4 4 Datahantering År Flöde År Flöde År Flöde (10 3 ft 3 /s) (10 3 ft 3 /s) (10 3 ft 3 /s) xi = , x 2 i = (a) Beräkna medianen för materialet och jämför med medelvärdet. Observera att de två måtten skiljer sig åt! (b) Beräkna standardavvikelsen (s), variationskoefficienten ( ), variationsbredden s x (x max x min ) och variationsintervallet (x min, x max ) för materialet. 3. Man gjorde 7 längdbestämningar med ett instrument och fick medelvärdet x = 3.25 (m) och standardavvikelsen s = 0.08 (m). Därefter upptäckte man att instrumentet var felinställt och hade ett systematiskt fel på 0.05 m. Vad är de korrigerade värdena på medelvärde och standardavvikelse? a med två decimaler i båda fallen.

5 Datahantering 5 Empirisk fördelningsfunktion 4. Hur mycket energi producerar landbaserade vindkraftverk? Under 31 månader gjordes mätningar av producerad energi (kwh) från ett vindkraftverk som var placerat i närheten av ett skogsområde. Betrakta de 31 mätningarna x 1,..., x 31 som oberoende. Några enkla statistiska mått beräknades för de 31 mätningarna: x = kwh, s = i=1 (x i x) 2 = kwh. Man ritade ut data i ett empiriskt fördelningsdiagram. (a) Hur stor andel av månaderna produceras en energimängd som understiger kwh? (b) Hur stor andel av månaderna produceras en energimängd som överstiger kwh? (c) Vilken lägsta energimängd produceras i minst hälften av de noterade nånaderna? 5. DATAMATERIAL: vatten. I syfte att dimensionera en värmeväxlare som genererar varmvatten till bostadshus mäts flödet av varmvatten (l/s) var 30:e sek under ett dygn i en fastighet med 20 lägenheter. Data ligger i filen vatten där variabeln flode anger flödet av varmvatten (l/s) under de senaste 30 sekunderna. Varibeln tid anger tidpunkten (h) för mätningen, som ett decimaltal mellan 0 och 24. (a) Skaffa översikt av data. Läs in filen och plotta varmvattenflödet mot tiden.

6 6 Datahantering >> load vatten >> plot(tid,flode, * ) >> xlabel( timme ) >> ylabel( flöde (l/s) ) (b) Då vi vill använda mätningarna för att dimensionera en värmeväxlare är det intressant att titta på den tiden då det verkligen rinner vatten i kranarna, dvs då flödet är större än noll. Tag ut dessa flöden och tider. >> tid=tid(flode>0) %sorterar ut de värden ur tidsvektorn %där flödet är >0 >> flode=flode(flode>0) För att få en bättre översikt över flödesfördelningen kan man rita ett histogram. Skapa en ny figur i MATLAB och plotta ut ett histogram hist över flödena för att få en uppfattning om fördelningen av olika värden. >> figure >> help hist >> hist(flode) Antalet klasser i histogrammet kan du få till m genom kommandot hist(flode,m). (c) Empirisk fördelningsfunktion. Använd kommandot cdfplot för att få den informativa empiriska fördelningsfunktionen för data. Figuren visar ett kumulativt histogram över relativa frekvenser, i varje datapunkt ökar funktionen med storheten 1 där n är antalet mätningar i materialet. Empiriska fördelningsfunktionen kan användas för att avläsa kvantilerna i ett datamaterial eftersom n värdet på y-axeln för ett visst x ger oss andelen flöden som understiger x l/s. i. Hur stor andel av flödena understiger?? l/s? ii. Vilket flöde överstigs i 5 % av mätningarna? (d) Dimensioneringsproblemet. Antag att man funderar på att sätta in en ny värmeväxlare som maximalt kan klara av ett flöde på 0.4 l/s. i. Baserat på data, hur stor andel av flödesmätningarna överstiger detta värde? ii. För att kunna uttala sig om framtida flöden behövs däremot en modell för hur flödena varierar. Modellen kan t.ex. användas för att uttala sig om hur sannolikt det är att flödet överstiger 0.4 l/s. I uppgift 154 ska du fundera mer på detta problem och försöka anpassa en standardfördelning till dessa flödesdata. (e) Vi vill undersöka om vattenanvändningen i huset skiljer sig markant åt mellan morgon (klockan 7-9) och kväll (klockan 18-20). Genom att i Matlab skriva

7 Datahantering 7 >> morgon=flode(7<=tid & tid<=9); plockas de flödesmätningar ut som är gjorda mellan kl 7 och 9 och läggs i vektorn morgon. Här används en av MATLABs användbara logiska operatorer (& betecknar och, betecknar eller ), semikolon efter satsen gör att du inte får hela vektorn utskriven på skärmen. i. Plocka på motsvarande sätt ut kvällsflödena. ii. Beräkna medelvärde (mean) och standardavvikelse (std) i de två materialen och jämför. iii. Plotta också de två empiriska fördelningsfunktionerna baserade på morgon respektive kvällsmätningar. Använder du kommandot hold kan du få dem i samma figur. 6. DATAMATERIAL: ljungby Myndigheter (Naturvårdsverk, länstyrelser, kommuner osv) har under de senaste åren genomfört omfattande övervakningsprogram av mark, luft och vatten i Sverige. En rad kvalitetsvariabler mäts med jämna mellanrum, i bästa fall går mätningarna tillbaka till 1960-talet. Numera kan många av mätningarna hittas på internet, vi ska titta på mätningar av vattenkvalitet i vattendrag. Institutionen för vatten och miljö vid Statens Lantbruksuniversitet har skapat en databank för en rad mätningar i vatten, data kan nås på info1.ma.slu.se/db.html. I figuren nedan gäller det mätningar av totalt fosfor från station Ljungbyholm vid mynningen av Ljungbyån i sydöstra Småland, söder om Kalmar där man mätt en gång i månaden sedan 1965.

8 8 Datahantering (a) Den översta grafen visar samtliga mätningar under den 35 år långa tidsperioden ( Graf över analysvärden ). Vad kännetecknar dessa data? Ser de homogena ut under hela tidsperioden? Via databanken kan man ladda ner data till sin egen dator. I filen ljungby.mat finns samtliga mätningar av total fosforhalt och kiselhalt. Läs in data, plotta fosforhalten som en tidsserie och förvissa dig om att det är samma data som i figuren. >> load ljungby >> whos >> plot(p) (b) Då man har mätningar, x 1, x 2,..., x n, fås mycket information genom att rita upp den s.k. empiriska fördelningsfunktionen som betecknas F n (x). Datapunkterna, x i sorteras från minsta till största. Andelen datapunkter som är mindre eller lika med x i plottas sedan mot x i. Det blir en växande trappstegsfunktion som tar ett skutt med höjd 1/n för varje datapunkt. I Matlab kan kommandot cdfplot användas för att rita upp den empiriska fördelningsfuntionen F n (x). Den andra grafen visar den empiriska fördelningsfunktionen ( Fördelningsfunk-

9 Datahantering 9 tion för stickprov ) för dessa data. Hur ska man tolka den? Vad har du på x-axel respektive y-axel? Vad innebär det t.ex. att funktionen vid 100 har värdet 0.9? För att få den empiriska fördelningsfunktionen i matlab skriv >> cdfplot(p) (c) Beräkna median och medelvärde för data. I grafen över den empiriska fördelningsfunktionen motsvarar den streckade lodräta linjen medelvärdet, vad innebär det om data att medelvärdet inte har värdet 0.5 i den empiriska fördelningsfunktionen? (d) När du tittar på tidsserien (dvs samtliga data utritade i tidsföljd) över fosforvärden kan du nog urskilja två tidsperioder där fosformätningarna inte riktigt beter sig på samma sätt. I den understa grafen har man gjort en jämförelse mellan tidsperioderna och och gjort separata plottar över de två empiriska fördelningsfunktionerna. Tolkning? Vilken av de två empiriska fördelningsfunktionerna hör till den senare tidsperioden? (Orsaken till skillnaden i fosforhalt mellan tidsperioderna är att under början av 1970-talet förbättrades reningstekniken avsevärt vid det största reningsverket i avrinningsområdet.) (e) Vill du själv dela in fosformätningarna i de två tidsperioderna kan du göra på följande sätt: >> t=(1:432) %(skapa en tidsvariabel) >> pfore=p(t<=108) %(plocka ut de 108 första mätningarna) >> pefter=p(109:432) %(så här kan man också ta ut en delserie) Rita upp de två empiriska fördelningsfunktionerna för pfore och för pefter i samma figur. >> cdfplot(pfore) >> hold on >> cdfplot(pefter) (f) I en fortsatt analys vill man anpassa fördelningar till data. Detta kan t.ex. göra genom att rita ut data i olika fördelningspapper. Om denna teknik kan du läsa i uppgiften Finns det en lämplig standardfördelning till mina mätningar?.

10 10 Grundläggande sannolikhetsteori 2. Grundläggande sannolikhetsteori NYCKELBEGREPP: Begrepp Träna Grunderna FMS035 (M-kurs): Maple TA, slh1-slh8 Betingade sannolikheter MASB11 (Biostat): Digslh 1-9 Total slh och Bayes LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 2 Olsson, Englund och Engstrand Kapitel 3 Grunderna 7. Avfallsvattnet från en industri genomgår rening i två på varandra följande steg, steg I och steg II. Resultatet i steg i, i = 1, 2, kan betecknas som D i = dåligt i steg i, M i = medelgott i steg i, B i = bra i steg i. (a) Ange utfallsrummet för reningen, d.v.s. mängden av alla tänkbara utfall. (b) Vilka element ingår i händelsen E= minst ett steg har bra rening? (c) Antag att alla utfall i utfallsrummet har lika stor sannolikhet att inträffa. Vad är då P(E)? 8. För de två händelserna A och B gäller att P (A) = 0.7 och P (A B) = Dessutom är A och B disjunkta händelser (andra benämningar är oförenliga, uteslutande eller icke överlappande händelser). Beräkna P (B c ), där B c betecknar komplementet till B. 9. I en population röker 20 % och 15 % använder snus. Dessutom är det 5 % som både röker och snusar. Vi väljer en person slumpmässigt, vad är sannolikheten att personen gör minst en av aktiviteterna röker/snusar? Rita gärna ett Venndiagram. 10. I en stor befolkning har 4 % diabetes. Vi väljer två personer, A och B, slumpmässigt.

11 Grundläggande sannolikhetsteori 11 (a) Vad är sannolikheten att både A och B har diabetes? (b) Vad är sannolikheten att minst en av dem har diabetes? (c) Vad är sannolikheten att ingen av dem har diabetes? (d) Vad är sannolikheten att precis en av dem har diabetes? 11. För en viss bilmodell vet man att vid första kontrollen vid bilbesiktningen är felen F1 och F2 inte ovanliga. Man uppskattar att 1 % av bilarna har fel F1, 3 % har fel F2 medan 0.5 % har båda felen. Beräkna sannolikheten att en bil har (a) åtminstone ett av felen (b) fel F1 men ej fel F2 (c) precis ett av felen (d) inget av de två felen 12. Två pumpstationer förser ett fritidsområde med vatten. Pumparna går sönder med sannolikheten 0.1 vardera och sannolikheten att båda går sönder samtidigt är Vad är sannolikheten att båda fungerar? 13. Två servicestationer betjänar kunder. För vardera av de två stationerna gäller att sannolikheten att det ska uppstå kö är 0.1 medan sannolikheten att det är kö vid båda samtidigt är (a) Blir det kö vid de två stationerna oberoende av varandra? (b) Beräkna sannolikheten att ingen av stationerna har kö. (c) Beräkna sannolikheten att det är kö vid minst en av stationerna. 14. I en dal finns två fabriker som båda, oberoende av varandra, vissa dagar använder en kemisk process som ger upphov till att toxiska föroreningar sprids i luften. Användandet beror inte på veckodag eller säsong. Fabrik A använder den kemiska processen 150 dagar av de totalt 260 arbetsdagarna under ett år medan fabrik B gör det under 30 dagar. (a) Vad är sannolikheten att fabrik A sprider föroreningen i dalen en given arbetsdag?

12 12 Grundläggande sannolikhetsteori (b) Vad är sannolikheten att den toxiska föroreningen sprids i dalen en given arbetsdag? (c) Vad är sannolikheten att föroreningen inte sprids i dalen under en arbetsvecka om fem dagar? (d) Vad är sannolikheten att den toxiska föroreningen sprids i dalen minst en dag under en arbetsvecka om fem dagar? (e) En viss dag visar mätningar att den toxiska föroreningen finns i dalen, vad är sannolikheten att det var fabrik A som gjorde utsläppet? 15. Inom flera kustfiskprojekt undersöks vilka sorters fiskar som fås i näten för att kunna övervaka populationer och upptäcka förändringar. Från dessa vet man att på ett ställe är sannolikheten att det i nätet finns minst en braxen 0.9, medan motsvarande siffra för löja är 0.3 och för gädda 0.1. Förekomsten av de olika fisksorterna antas vara oberoende av varandra. (a) Beräkna sannolikheten att det i ett nät finns alla tre sorternas fiskar. (b) Beräkna sannolikheten att det i ett nät finns minst två av de tre sorterna. 16. I en viss befolkningsgrupp är 60% bilägare och 45% är fastighetsägare. I gruppen är det 35% som äger både bil och fastighet. Man väljer en person slumpmässigt från gruppen, beräkna sannolikheten att man valt en person som varken äger bil eller fastighet. 17. I en ny bilmodell installerar man en apparat som ska avläsa utsläppen av en viss förorening och apparaten kontrolleras årligen (vid bilprovningen?). Om apparaten fungerade vid en testning är sannolikheten 0.4 att den kommer att gå sönder under följande år. Dessutom är händelserna att den går sönder oberoende mellan åren. (a) Vad är sannolikheten att apparaten går sönder år 3? (b) Vad är sannolikheten att apparaten går sönder år k. (c) Vad är sannolikheten att apparaten går sönder före år 3? (d) Om apparattypen installeras i 100 bilar, hur många i genomsnitt kommer att ha hela apparater efter 4 år?

13 Grundläggande sannolikhetsteori Avloppen i en stad är dimensionerade efter regnmängder med en återkomstid på 10 år. Antag att händelserna regnmängd år i är oberoende. (a) Tolka återkomstid på 10 år i termer av sannolikheter. (b) Vad är sannolikheten att avloppen kommer att översvämmas för första gången på det 3:e året efter färdigställandet? (c) Vad är sannolikheten för minst en översvämning de första 3 åren? (d) Vad är sannolikheten för precis en översvämning inom 3 år? (e) (svårare och frivillig) Vad är sannolikheten för översvämning i 3 av de första 5 åren? 19. Vid en kurs på LTH finns 7 obligatoriska labbar. Efter varje labbtillfälle sätts ett kryss i en av tre pärmar. Antag att vid vart och ett av de 7 tillfällena väljs en pärm slumpmässigt då Leo ska bockas av. Beräkna sannolikheten att Leos samtliga 7 kryss hamnar i samma pärm. a med fyra decimaler. 20. I en notis i en dagstidning i slutet av september kunde man läsa angående halterna av bekämpningsmedel i frukt och grönt: Livsmedelsverket har analyserat 1836 prov. 18 prover överskred gränsvärdena. Du inhandlar 10 portioner av frukt/grönt, uppskatta sannolikheten att i minst ett av dina inköp överskrids gränsvärdet. Antag att såväl livsmedelsverkets prov som dina inköp är slumpmässigt utvalda och att det finns oberoende mellan olika frukt/grönt portioner. 21. Mia har funnit att sannolikheten att en bil som passerar i korsningen Tornavägen/Sölvegatan är röd är När hon står vid övergångsstället börjar hon notera bilarnas färg. Beräkna sannolikheten att det är först den femte bilen hon observerar som är röd. 22. Malte cyklar varje studiedag till LTH. Han bedömer att risken att råka ut för en allvarlig trafikincident en dag är Vad är risken att han råkar ut för minst en incident av allvarligt slag under sin studietid på 800 dagar? 23. Efter en operation inträffar en viss typ av komplikation med sannolikheten Man utför operationen på 50 patienter.

14 14 Grundläggande sannolikhetsteori (a) Vad är sannolikheten att minst en patient får komplikationen? (b) Vad är det förväntade antalet patienter som får komplikationen? Betingade sannolikheter 24. S:t Lars-parken i Lund är förbjuden för genomfartstrafik. Däremot finns det ett antal arbetsplatser och skolor i området så morgontrafiken kan vara ganska betydande då många föräldrar skjutsar sina barn till skolan. För ett tag sedan var det en artikel i Sydsvenskan med rubriken Stressade föräldrar fast i fartkontroll. I texten kunde man bl.a. läsa följande: Lärare och föräldrar i S:t Larsparken har klagat på att många struntar i 30-gränsen. Igår morse slog polisen till mot fartsyndarna. Vid kontrollen togs 45 bilister för fortkörning. 26 av dem var föräldrar som skulle lämna eller hade lämnat sina barn i skolan. Polisassistent Patriks slutsats är enkel och tydlig: Det är föräldrarna själva som kör fortast. Har polismannen rätt i sin slutsats? 25. På vägverkets hemsida kan följande läsas: År 2008 inträffade 355 olyckor i vägtrafiken med dödlig utgång. 20 procent var alkoholrelaterade. Om bara 20% av de som dog var alkoholpåverkade, betyder det att det är säkrare att köra alkoholpåverkad? (a) Börja med att teckna lämpliga händelser. Försök sedan med begreppet betingad sannolikhet förstå vilken händelse som man har fått sannolikheten för. (b) Vilken händelses sannolikhet berättar om det är farligt att köra alkoholpåverkad? 26. I en stor undersökning konstaterade man att 20 % i en viss population hade kärlsjukdom medan 60 % var rökare. Det var 15 % i gruppen som både rökte och var kärlsjuka. (a) Beräkna sannolikheten att en rökare är kärlsjuk. (b) Beräkna sannolikheten att en kärlsjuk är rökare. (c) Verkar de två faktorerna kärlsjuk och rökare vara oberoende?

15 Grundläggande sannolikhetsteori En slumpmässigt utvald grupp bilförare fick uppskatta sin egen risk för att råka ut för en allvarlig trafikolycka på väg till jobbet. Efter att ha jämfört med objektivt värderade risker delas personerna in efter kön och efter om de övervärderat eller undervärderat sin egen risk. Ö= Övervärderat U= Undervärderat Antal K= Kvinna M= Man Antal (a) Uppskatta P(K U). (b) Uppskatta sannolikheten att en man undervärderar sin risk, d.v.s. P(U M). (c) Uppskatta sannolikheten att en kvinna övervärderar sin risk, d.v.s. P(Ö K). (d) Verkar det finnas skillnad mellan könen beträffande denna typ av riskbedömning? 28. I en viss befolkningsgrupp har 70 % körkort för bil och 20 % körkort för mc. Det är 15 % som har körkort för båda trafikslagen. Vi väljer en person slumpmässigt och finner att personen ej har bil-körkort, vad är den betingade sannolikheten att personen inte har mc-körkort heller? 29. I ett system gäller att komponent A går sönder med sannolikhet 0.10 och komponent B med sannolikhet Om B redan gått sönder kommer A också att göra det med sannolikhet 0.8. Du finner att A är trasig, vad är sannolikheten att B också är det? 30. I en tätort eldar 25 % av hushållen i kamin/kakelugn. 3 % av hushållen i tätorten klagar till kommunen på sina grannars ovarsamma eldning, varav en tiondel av klagomålen kommer från hushåll som eldar själv. Beräkna sannolikheten ett hushåll som själv eldar klagar på sina grannarna för deras eldning. 31. Sannolikheten att ett försök lyckas är 0.8. Fem oberoende sådana försök utförs. Beräkna den betingade sannolikheten att försök nr 4 och nr 5 båda misslyckas när man vet att de tre första lyckades.

16 16 Grundläggande sannolikhetsteori 32. En låda innehåller två mynt, ett vanligt med krona på ena sidan och klave på den andra samt ett med krona på båda sidorna. Ett mynt väljs slumpvis och kastas varvid krona kommer upp. Med vilken sannolikhet är den andra sidan på myntet också krona? Total slh och Bayes 33. I en viss population är 35 % män. Av männen cyklar 40 % till sitt arbete medan motsvarande siffra för kvinnorna är 55 %. (a) Vi väljer slumpmässigt en person, vad är sannolikheten att vi valt en som cyklar till arbetet? (b) Vi väljer en cyklist slumpmässigt, vad är sannolikheten att det är kvinna? 34. Du ber en granne vattna din sjukliga krukväxt när du ska på semester. Utan vatten kommer den att dö med sannolikheten 0.8, med vatten dör den med sannolikheten Du är 90% säker att grannen kommer ihåg sitt vattningsuppdrag. Beräkna sannolikheten att krukväxten lever när du kommer hem. 35. I en viss befolkningsgrupp är 60% bilägare och 45% är fastighetsägare. I gruppen är det 35% som äger både bil och fastighet. Man väljer en person slumpmässigt från gruppen, beräkna sannolikheten att man valt en person som varken äger bil eller fastighet. 36. För att upptäcka livmoderscancer i ett tidigt stadium undersöker man regelbundet cellprov från livmodershalsen. Vid ett sådant test vet man att sannolikheten att P(test positivt cancer)= och P(test positivt ingen cancer)= Antag att det är 8.3 kvinnor på som har denna typ av cancer. (a) Vad är sannolikheten att om vi slumpmässigt väljer en kvinna, testet visar positivt? (b) Antag att tre på varandra följande test betraktas oberoende. Vad är sannolikheten att en kvinna som inte har cancer kommer att ha minst ett positivt resultat under de tre undersökningarna?

17 Grundläggande sannolikhetsteori Av de bosatta i en stad är 20 % studenter och 2 % av dessa är bilägare. Bland icke-studenterna i staden är däremot 55 % bilägare. (a) Beräkna sannolikheten att en slumpmässigt vald person är bilägare. (b) Beräkna sannolikheten att en slumpmässigt vald bilägare är student. 38. I en skola är 55% tjejer. Enligt en enkätundersökning använder 35% av tjejerna cykelhjälm medan motsvarande siffra för killarna är 43%. Vi väljer slumpmässigt en elev, vad är sannolikheten att vi valt en hjälmbärare? 39. Vera ställer ofta en cykel utanför affären. Hon har noterat att en låst cykel blir stulen med sannolikhet 0.05 medan en olåst blir stulen med sannolikhet 0.4. Vera är disträ och glömmer att låsa sin cykel vid i genomsnitt vart femte affärsbesök. En dag finner hon cykeln stulen, vad är sannolikheten att hon glömt låsa den? 40. Vid en högskola studerar studenterna på en femårig utbildning. I en enkät undersökte man bl.a. hur stor procentandel i varje årskurs som var missnöjda med utbildningen: åk 1 åk 2 åk 3 åk 4 åk 5 summa Andel av studenterna på skolan (%) Andel missnöjda i varje årskurs (%) (a) Om man slumpmässigt väljer en student från skolan, vad är sannolikheten att personen är missnöjd med utbildningen? (b) Man finner en missnöjd student, vad är slh att hen går första året? 41. Från en ö kan man ta flyget eller färjan till orten A på fastlandet. Man vill i första hand ta flyget men det går inte vid dimma. Om det är dimmigt på morgonen är chansen 30% att man kan ta ett senare flyg den dagen. Kan man inte flyga från ön tar man färjan. Har man tagit färjan är det enbart 5% chans att man hinner med samma dags flygförbindelse från A till Köpenhamn medan motsvarande siffra för flyget är 98%. (a) Vad är sannolikheten att man en dimmig morgon på ön hinner till Köpenhamn samma dag?

18 18 Grundläggande sannolikhetsteori (b) En dimmig morgon hann man ej till Köpenhamn samma dag. Vad är sannolikheten att man tog flyget från ön? 42. En maskin drivs av en generator A men har även en (något svagare) reservgenerator B som startar då A går sönder. Denna reservgenerator får driva maskinen tills A byts ut. Sannolikheten att A går sönder är Sannolikheten att B går sönder är 0.30 när det används men 0 när den är som reserv. (a) Beräkna sannolikheten att båda generatorerna går sönder. (b) Om maskinen fungerar, vad är sannolikheten att ingen av generatorna har gått sönder? 43. INSPELAD LÖSNING: Sjukdomsdiagnostik. I befolkningen har 2 % sjukdomen S. Det diagnostiska test som används för att avgöra om en person har S är dock inte perfekt utan man har följande felklassificeringar: En frisk person klassas som sjuk i S med sannolikheten En person med sjukdomen S klassas som frisk med sannolikheten (a) Vi väljer en person slumpmässigt ur befolkningen. Vad är sannolikheten att testet visar att personen har S? (b) Max har just genomgått testet och testresultatet var positivt, dvs enligt testet har han S. Vad är sannolikheten att han verkligen har sjukdomen? Se uppgiften LÖSAS på en skärminspelning.

19 Diskreta fördelningar Diskreta fördelningar NYCKELBEGREPP: Begrepp Träna Sannolikhets- och fördelningsfunktion FMS035 (M-kurs): Maple TA, slh9-slh18 Några standardfördelningar MASB11 (Biostat): DigUppg ? Väntevärde Varians och standardavvikelse LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel Sannolikhets- och fördelningsfunktion 44. Vid ett tärningsspel får man flytta en spelpjäs det antal steg tärningen visar, utom då den visar 1, då får man flytta sex steg. Låt X vara det antal steg man får flytta spelpjäsen. (a) Vilka värden, x, kan X anta? (b) Vad är sannolikheten att man får flytta precis tre steg, d.v.s. vad är p(3) = P (X = 3)? (c) Vad är sannolikheten att man får flytta precis sex steg, d.v.s. vad är p(6) = P (X = 6)? (d) Ange hela sannolikhetsfunktionen, p(x) = P (X = x) för X, d.v.s. p(x) för de värden på x som X antar. Skissa funktionen! (e) Vad är sannolikheten att man får flytta högst tre steg, d.v.s. vad är P (X 3)? (f) Ange fördelningsfunktionen F (x) = P (X x) för X. Försök att skissa den i ett koordinatsystem! (g) Vad är det förväntade värdet för X, d.v.s. vad är E(X)? 45. Man noterade antalet förarprov som en person gjorde innan hen fick sitt körkort för bil. Om X står för antalet förarprov för en slumpmässigt vald person, uppskattade man dess sannolikhetsfunktion:

20 20 Diskreta fördelningar x p(x) (a) Vad är sannolikheten att en person kuggas vid första förarprovet? (b) Beräkna P(X 3), d.v.s. sannolikheten att en person får göra minst 3 förarprov? (c) Beräkna P(X = 2 X 2), d.v.s. den betingade sannolikheten att en person som missade första förarprovet kommer att klara det i andra försöket. Några diskreta standardfördelningar 46. En diskret slumpvariabel X är Poissonfördelad med parameter 4, vilket innebär att X, har sannolikhetsfunktionen Det gäller att λ = 4. p(x) = P (X = x) = e (a) Beräkna P(1 X 2) och P(X > 2). λ λx, x = 0, 1, 2,.... x! (b) Beräkna fördelningsfunktionen F (x) = P (X x) för följande värden på x: x = 0.5, x = 0, x = 0.3, x = 1, x = 1.6, x = 2. Skissera sedan F (x) då 1 x < Illustrera i Matlab, DATAMATERIAL: Rutherford. Vid ett berömt experiment räknade Ernest Rutherford, tillsammans med Hans Geiger, antalet alfa-partiklar som under korta tidsperioder emitteras från ett radioaktivt preparat. De räknade in totalt alfa-partiklar under 2608 tidsintervall. I varje intervall kunde de räkna från 0 och upp till ett tiotal alfa-partiklar. I följande tabell är angivet antalet intervall som innehöll 0, 1,..., 14 antal partiklar. antal partiklar per intervall antal intervall antal partiklar per intervall antal intervall Tabellen skall tolkas så att man har gjort 2608 försök av vilka 57 gett resultatet 0 (partiklar per intervall), 203 har gett resultatet 1, etc. Data finns i filen Rutherford.mat.

21 Diskreta fördelningar 21 (a) Ladda in datafilen och se efter vilka variabler som ligger i filen. >> load Rutherford >> whos (b) Låt X beteckna antalet partiklar på ett tidsintervall. Eftersom X en diskret slumpvariabel är det lämligt att beskriva data med ett stolpdiagram. Det görs i Matlab med bar (se help bar). >> bar(antalpartiklar,antalintervall) >> xlabel( antal partiklar per intervall ) >> ylabel( antal intervall ) >> title( Rutherford-Geigers experiment ) (c) Antag att du vill beräkna medelantalet partiklar per intervall. Medelvärdet i ett datamaterial beräknas normalt med mean (se help mean) men eftersom data här är givna i en frekvenstabell kan den inte användas direkt. Enklast är att summera alla 2608 observationer och sedan dividera med Eftersom av de 2608 observationerna är 57 st 0, 203 st 1, osv kan summan beräknas som >> antalintervall.*antalpartiklar %(observera.*) >> medel=sum(antalintervall.*antalpartiklar)/2608 (d) I nästa steg kan man fundera på om dessa data kan beskrivas med hjälp av någon statistisk standardfördelning. En sådan är Poissonfördelningen, Po(µ) där µ är det genomsnittliga antalet partiklar per intervall, dvs det som du beräknade i föregående deluppgift. Sannolikhetsfunktionen för en Po(µ) ges av p(x) = P (X = x) = e µ µ x för x = 0,.... Använd Matlabs poisspdf (se help x! poisspdf) för att beräkna sannolikhetsfunktionen för olika värden på x och rita (i en ny figur) funktionen. >> k=[0:14] %(skapar heltalen 0, 1,..., 14) >> poisspdf(k,medel) >> figure >> plot(k,poisspdf(k,medel)) %(heldragen linje ej lyckat!) >> plot(k,poisspdf(k,medel), * ) Stanna upp och tänk efter så att du verkligen kan tolka denna bild. Vad anges på de två axlarna? Enligt denna modell, vad är sannolikheten att antalet emitterade partiklar i ett försök (ett tidsintervall) är 1? Vad är sannolikheten att antalet emitterade partiklar i ett försök är högst 2?

22 22 Diskreta fördelningar Den sista frågan kan också uttryckas som P (X 2) dvs det är F (2), fördelningsfunktionen för den Poissonfördelade variabeln i punkten 2. I Matlab kan detta beräknas via poisscdf (se help poisscdf) Plotta också upp fördelningsfunktionen för denna variabel. >> poisscdf(2,medel) >> x=[-1:0.01:15]; %(skapa en x-variabel i intervallet (-1,15)) >> plot(x,poisscdf(x,medel),. ) Hur ska du beräkna sannolikheten att antalet emitterade partiklar är minst 2, dvs P (X 2)? (e) Om denna modell om Poissonfördelning stämmer, i hur många av de 2608 intervallen som Rutherford och Geiger betraktade skulle man förvänta sig att det blev 0 partiklar? 1 partikel? osv. Jämför dessa förväntade antal med Rutherfords observerade utfall, t ex genom att plotta i samma figur. >> figure(1) %(om det är i figur 1 du har Rutherfords data) >> hold on >> plot(k,2608*poisspdf(k,medel), * ) >> hold off Verkar det rimligt att anta att X = antalet partiklar per intervall i experimentet är Poissonfördelat? 48. I en fabrik är antalet strömavbrott under 1 timme en stokastisk variabel X, där X Po(µ). Från tidigare undersökningar antog man att µ = 1. Beräkna sannolikheten 36 att få mer än ett strömavbrott under 18 timmars produktion. 49. Ett distributionssystem består av ett centrallager med 25 försäljningskontor. Kunderna efterfrågar varor på försäljningskontoren. Antag att antalet enheter som efterfrågas vid ett försäljningskontor av vara V under en vecka är Poissonfördelat med väntevärde 3.6. Antag också oberoende mellan försäljningskontor. Leveranser från tillverkaren till centrallagret sker enbart en gång i veckan, nämligen varje måndag morgon. (a) Vad är sannolikheten att efterfrågan från kontor 1 överstiger 10 enheter av vara V en vecka?

23 Diskreta fördelningar 23 (b) I början av veckan, efter tillverkarens leverans, finns 100 enheter av V i centrallagret och ingen påfyllnad sker under veckans gång. Vad är sannolikheten att totala efterfrågan på V överstiger tillgången i centrallagret den veckan? 50. I ett stort parti enheter är felkvoten 5 %, d.v.s. tar vi en enhet slumpmässigt är den felaktig med sannolikheten I en kvalitetskontroll kontrolleras en enhet i taget och man slutar då man fått den första felaktiga. Låt X vara antalet enheter som kontrolleras (inklusive den som är felaktig). (a) Beräkna P(X = 3), d.v.s. sannolikheten att de två första kontrollerade är felfria medan den tredje är felaktig. (b) Beräkna P(X = 5). (c) Teckna sannolikhetsfunktionen för X, d.v.s. P(X = x), då x = 1, 2, Avfallsvattnet från en industri genomgår rening i två, på varandra följande, steg: steg I och steg II. Resultatet i de båda stegen kan värderas som dåligt eller bra. De tillhörande sannolikheterna för var och en av de fyra möjliga händelserna ges i följande tabell: Bra rening Dålig rening Steg I Steg II Antag att resultatet från de två stegen är oberoende. (a) Vad är sannolikheten att en omgång vatten blir bra behandlat i båda stegen? (b) Om precis ett av stegen ger en bra rening (och det andra en dålig) benämner man detta som acceptabel rening. Vad är sannolikheten för denna händelse? (c) En oacceptabel rening har man om reningen är dålig i båda stegen. Om man studerar 10 omgångar avfallsvatten, vad är sannolikheten att minst 2 omgångar har en oacceptabel rening? 52. Per spelar Fia med sina kompisar. Enligt reglerna får han flytta ut sin spelpjäs från boet då tärningen visar etta eller sexa. Teckna sannolikheten att detta sker först i spelomgång nr x, x = 1, 2,....

24 24 Diskreta fördelningar 53. Antalet fall av leukemi i en befolkning kan ofta modelleras med hjälp av en Poissonfördelning. Genom att jämföra med nationella cancerregistret förväntar man sig, under en viss tidsperiod, 9 fall i ett område. (a) Vad är sannolikheten att man observerar exakt 9 fall i området? (b) Vad är sannolikheten att man observerar minst 9 fall i området? (c) Inför statistikdelen i kursen: I området observerade man 19 fall. Tyder detta på att området är mer drabbat av leukemi än resten av landet? 54. Avloppen i en stad är dimensionerade efter regnmängder med en återkomsttid på 10 år. Antag att översvämningar olika år inträffar oberoende av varandra. (a) Vad är sannolikheten - enligt dimensioneringen - att det sker en översvämning ett slumpmässigt valt år? (b) Vad är sannolikheten - enligt dimensioneringen - för minst 2 översvämningsår under en 15-årsperiod? (c) Dimensioneringen gjordes redan De senaste 20 åren tycker man att det har regnat mer än tidigare eftersom antalet år med översvämningar varit 5. Beräkna sannolikheten att man får minst 5 översvämningar under 20 år enligt den gamla dimensioneringen. Inför statistikdelen av kursen: Tyder detta på att det regnat mer de senaste decennierna så att sannolikheten för översvämning har ökat? 55. Du kastar en symmetrisk tärning 10 gånger. Beräkna sannolikheten att du får (a) precis 4 sexor (b) högst två femmor (c) precis 5 kast där antal prickar är fem eller sex (d) minst 1 kast med ett udda antal prickar 56. I en kvalitetskontroll av tillverkade enheter tas slumpmässigt 15 enheter ut och partiet avskiljs om mer än 1 enhet är felaktig. Vad är konsumentrisken om felandelen i partiet är 0.10, dvs vad är sannolikheten att ett så pass dåligt parti godkänns i kontrollen?

25 Diskreta fördelningar Ibland händer det att ett prov hanteras fel och måste slängas. Detta inträffar med sannolikheten 0.1 för ett prov och proven antas oberoende. Vad är sannolikheten att bland fyra prov finns det minst tre som kan användas? 58. I en preliminär studie anges designnivån för en bro sådan att 30 % anses som en acceptabel sannolikhet för att bron ska översvämmas av flod minst en gång under de närmsta 25 åren. (a) Om p betecknar sannolikheten att brons designnivå överskrids under 1 år, vilken värde på p uppfyller designkriteriet ovan? (b) Vad är återkomstiden för denna designflod. 59. En person uppskattar sannolikheten att det finns en ledig parkeringsplats utanför bostaden när hon kommer hem från jobbet till 0.7. (a) Beräkna sannolikheten att hon hittar en plats under minst 8 av totalt 10 dagar. (b) Med dator eller räknare: Beräkna sannolikheten att hon hittar en plats under minst 80 av totalt 100 dagar. 60. Vid en kvalitetskontroll av ett nyanlänt stort parti enheter väljer man slumpmässigt ut 10 enheter för kontroll. Om antalet felaktiga av de kontrollerade är 3 eller fler klagar man hos producenten. (a) Antag att felkvoten i partiet är p = Vad är sannolikheten att vi kommer att klaga hos producenten? (b) Antag att felkvoten i partiet är p = 0.1. Vad är sannolikheten att vi inte kommer att klaga hos producenten och därmed godkänner partiet? 61. Antal morgnar under en månad då trafikljuset i en livligt trafikerad korsning är trasigt är Poissonfördelat med λ = 1.4. Vad är sannolikheten att trafikljuset är helt alla morgnar under en tremånadersperiod? 62. Antalet döda eller svårt skadade i olyckor på gator och vägar i Lund antas vara Poissonfördelat med väntevärde λ. Statistik från några år från gatu- och trafikkontoret:

26 26 Diskreta fördelningar År Antal döda eller skadade Utifrån dessa data, uppskatta sannolikheten att det under år 2010 ska vara högst 32 döda eller skadade. 63. Antal fel i en tillverkningsprocess under en timme anses vara Poissonfördelad med väntevärde λ = 0.5. Beräkna sannolikheten att (a) under en timme sker precis 1 fel, (b) under en timme sker högst 3 fel, (c) under en timme sker minst 1 fel, (d) under en arbetspass om 8 timmar sker minst 5 fel men högst 10 fel. 64. Vid ett trafikljus vill man bestämma hur lång trafikfilen för vänstersvängande fordon ska vara. Man antar att antalet fordon som ska svänga vänster är Poissonfördelat och att det kommer i genomsnitt 160 sådana fordon per timme. Det är rött ljus i 50 sekunder vid trafikljuset. (a) Vad är det förväntade antalet bilar som väntar på att svänga åt vänster i slutet av perioden med rött ljus? (b) Vad är det troligaste antalet bilar som väntar på att svänga åt vänster i slutet av perioden med rött ljus? (c) Man vill att trafikfilen ska räcka till i minst 95% av alla perioder av rött ljus. Hur lång, utryckt i en multipel av medellängden hos ett fordon, ska man göra filen? 65. Med en 10-årsöversvämning menar man en översvämning som i genomsnitt inträffar vart 10:e år, d.v.s. sannolikheten för översvämning ett år är 0.1. Vad är sannolikheten att, under en femårsperiod, få precis två 10-årsöversvämningar? 66. För att kontrollera en tillverkningsprocess stoppar man bandet och väljer på måfå 15 enheter som man undersöker. Om fler än 2 av dessa är defekta justeras processen. Vad är sannolikheten att processen justeras om felsannolikheten för en tillverkad enhet är 0.05 och enheter blir defekta oberoende av varandra?

27 Diskreta fördelningar Mats går upp på tre tentor under en omtentamensperiod. Han klarar en slumpmässigt vald tenta med sannolikheten 0.7. Anta att tentorna är oberoende. Beräkna sannolikheten att han klarar minst en tentamen. 68. Teoridelen av ett körkortsprov består av 65 flervalsfrågor och man måste ha rätt på minst 52 frågor för att bli godkänd. När Pia gör testet är hon helt säker på 48 frågor medan hon har ingen aning på de övriga där hon bara gissar. Antag att samtliga frågor där hon gissar har 4 svarsalternativ. Vad är då sannolikheten att hon klarar provets teoridel? 69. Man uppskattar att ett läkemedel ger upphov till muntorrhet med sannolikhet 0.2. Man ger detta läkemedel till 30 patienter. (a) Ange sannolikhetsfunktionen för X = antalet patienter av de 30 som får muntorrhet. (b) Beräkna sannolikheten att ingen får muntorrhet, d.v.s. P(X=0) (c) Beräkna sannolikheten att minst en får muntorrhet, d.v.s. P(X >0) (d) Beräkna sannolikheten att precis två personer får muntorrhet. 70. Antalet jordskalv under ett år i ett område anses vara Poissonfördelat med parameter µ, dvs om X= antalet jordskalv under ett år gäller X P o(µ). (a) Gör en konkret tolkning av parametern µ. (b) Antag att µ=1.6. Vad är sannolikheten för högst 2 jordskalv under ett år? (c) Antag att µ=1.6. Vad är sannolikheten för ett jordskalvsfritt decennium i området? 71. Antal defekter på en producerad keramisk platta antas vara Poissonfördelat med väntevärde λ. Gör en uppskattning av λ då man vet att 90 % av de tillverkade plattorna är felfria. 72. Ett sätt att mäta radonkoncentrationen i inomhusluft är att hänga upp en film känslig för alfa-partiklar. När filmen träffas av en partikel uppstår efter framkallning ett hål i filmen. Om X är antalet hål i en film är det rimligt att anta att X är

28 28 Diskreta fördelningar poissonfördelat med ett väntevärde som är proportionellt mot radonkoncentrationen λ, dvs X P o(kλ). Då man gör mätningar i Wilmas hus är i denna mätsituation K = 0.1. (a) Gränsvärdet för radonkoncentrationen i nybyggda hus är λ = 200 Bq/m 3. Hur många hål i filmen förväntas då λ = 200? (b) I huset uppmätte man 27 hål. Beräkna sannolikheten att det finns 27 hål eller fler på en film om λ = 200. (c) Inför statistikdelen av kursen: Verkar det finnas fog för påståendet att gränsvärdet är överskridet i Wilmas hus? 73. För att uppskatta antalet fiskar i en sjö kan man använda sig av en metod med fångst och återfångst (capture/recapture). Antag att det finns N (okänt antal) fiskar i sjön. Fånga slumpmässigt M fiskar, märk dem och släpp i dem i sjön igen. Vänta ett tag så att märkta fiskar blandar sig med de omärkta. Av de N fiskarna i sjön är alltså M märkta. Återfånga slumpmässigt n fiskar och notera hur många av de n som är märkta. Antag att detta antal betecknas x. Antag att N är så stort i förhållande till n så att sannolikheten att en fisk är märkt kan anses vara lika stor för alla återfångade fiskar. (a) Låt p=p(en återfångad fisk är märkt), hur kan man skatta (dvs få en uppskattning av) p? (b) Vad är sannolikheten att det av n återfångade fiskarna finns inga märkta? (c) Vad är sannolikheten att det av n återfångade fiskarna finns minst en märkt? (d) (svårare och frivillig) Vad är sannolikheten att det av n återfångade fiskarna finns tre märkta? (e) Nu är det ju en skattning av N som är intressant. Vad är relationen mellan N (skattningen av N) och p (skattningen av p)? Väntevärde 74. I en fabrik har man under en längre tid studerat antal produktionsstopp som sker under en arbetsvecka: Antal stopp Sannolikhet

29 Diskreta fördelningar 29 Beräkna det förväntade antalet produktionsstopp under en arbetsvecka. 75. Jon spelar quizkampen. Av spelets 18 frågor, som alla har 4 svarsalternativ, brukar Jon kunna svaret på 6 frågor. På 4 frågor brukar han gissa mellan två alternativ medan han bara gissar på övriga 8. I spelet får man ett poäng för varje korrekt svar. Vad är Jons förväntade poängantal efter ett spel? 76. En fabrikant masstillverkar en vara där varje enhet med sannolikhet 0.10 blir defekt. En felfri vara ger en vinst på 60 kr medan en defekt ger en förlust på 40 kr. Beräkna väntevärdet på vinsten hos ett parti med 200 enheter. Varians och standardavvikelse 77. Beräkna varians och standardavvikelse för antalet produktionsstopp i uppgift 74. XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

30 30 Kontinuerliga fördelningar 3.2 Kontinuerliga fördelningar NYCKELBEGREPP: Begrepp Träna Täthets- och fördelningsfunktion FMS035 (M-kurs): Maple TA, slh19-slh23 Några standardfördelningar MASB11 (Biostat): Digkontford 1-14 Väntevärde, percentiler/kvantiler Varians och standardavvikelse Transformationer av s.v. LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel 4.3 Täthets- och fördelningsfunktion 78. Från en bushållplats går punktligt en buss var 10:e minut. Du kommer till busshållplatsen vid en slumpmässigt vald tidpunkt, låt X=din väntetid. En lämplig modell är att X är rektangelfördelad (likformigt fördelad) i intervallet (0,10). Det innebär att frekvensfunktionen (täthetsfunktionen) är f(x) = 1 då 0 x 10 och 0 för alla 10 andra värden på x. Nedan är frekvensfunktion och motsvarande fördelningsfunktion ritade.

31 Kontinuerliga fördelningar 31 (a) Vad är sannolikheten att du får vänta mindre än 2 minuter, d.v.s. vad är P(X 2)? Markera hur sannolikheten kan beräknas i de båda figurerna. (b) Vad är sannolikheten att du får vänta mer än 7 minuter, d.v.s. vad är P(X > 7)? Markera hur sannolikheten kan beräknas i de båda figurerna. (c) Vad är sannolikheten att du får vänta mellan 3 och 8 minuter, d.v.s. vad är P(3 X 8)? Markera hur sannolikheten kan beräknas i de båda figurerna. (d) Vad är den förväntade väntetiden, d.v.s hur länge får du vänta i genomsnitt? 79. Den kontinuerliga slumpvariabeln X har täthetsfunktionen 0 x < 2 f(x) = a x 2 2 x 3 0 x > 3 (a) Bestäm konstanten a. (b) Bestäm fördelningsfunktionen, F (x). (c) Beräkna P(X 2.5). Några kontinuerliga standardfördelningar 80. En rektangelfördelad slumpvariabel, R(a, b), har fördelningsfunktionen 0 x < a x a F (x) = b a a x b 1 x > b (a) Skissa fördelningsfunktionen F (x). (b) Bestäm frekvensfunktionen (täthetsfunktionen) f(x) och skissa den. (c) Beräkna slumpvariabelns väntevärde. 81. I ett distributionssystem är ledtiden, d.v.s. tiden från beställning till leverans från tillverkaren, inte konstant utan slumpmässig. Från en tidigare analys anser man att ledtiden kan modelleras med en exponentialfördelning med parameter λ där 1 λ 2.3 arbetsdagar.

32 32 Kontinuerliga fördelningar (a) Beräkna sannolikheten att ledtiden är kortare än 3 arbetsdagar. (b) Beräkna sannolikheten att ledtiden överstiger 5 arbetsdagar. (c) Vilken ledtid understigs med sannolikheten 0.95? (d) Vilken ledtid överstigs med sannolikheten 0.95? 82. I en kemisk industri mäts dagligen koncentrationen (mg/10 3 liter) av en viss substans i avloppsvattnet. På grundval av många tidigare mätningar anser man att koncentrationen en slumpmässigt vald dag kan beskrivas med en slumpvariabel X som är exponentialfördelad { 0.5e f(x) = 0.5x x 0 0 x < 0. (a) Skissa frekvensfunktionen (täthetsfunktionen) f(x). (b) Om koncentrationen överstiger 6 mg/10 3 liter anses vattnet vara förorenat. Vad är sannolikheten att detta inträffar en dag? Markera den beräknade sannolikheten som en area i din skiss. (c) Vad är den förväntade koncentrationen en slumpmässigt vald dag? (d) Vad är sannolikheten att man under de nästkommande fem dagarna får förorenat vatten vid högst en av dagarna. Antag att koncentrationen av ämnet är oberoende för olika dagar. 83. En viss typ av lager har livslängden X i år som är Weibullfördelad med fördelningsfunktion F (x) = 1 e (x/5)0.4 för x 0. Vad är sannolikheten att lagret fungerar efter 1 år? 84. Ett viss ämne, ämne A, är biologiskt nedbrytbart och man har upptäckt att tiden det tar, räknat i dagar, för att en enhet av ämnet ska vara helt nedbrutet kan beskrivas av en slumpvariabel som är exponentialfördelad med väntevärde 100 dagar. (a) Vad är sannolikheten att en enhet av ämnet A inte är helt nedbrutet efter 200 dagar? (b) För ett annat ämne, ämne B, har man samma modell för nedbrytningen men väntevärdet antas nu vara 75 dagar för en enhet. De två ämnena bryts ner oberoende av varandra. Vad är sannolikheten att det efter 200 dagar inte finns något kvar av de två ämnena?

33 Kontinuerliga fördelningar Olyckor på en väg sker oberoende av varandra och tidpunkten mellan olyckor antas vara exponentialfördelad med förväntat värde 0.5 (år). Beräkna sannolikheten att det dröjer mer än nio månader mellan två olyckor. 86. Livslängden (timmar) på en viss komponent som används i sjukhusutrustning anses vara Rayleighfördelad med fördelningsfunktion F(x)=1-e ( x a )2, x 0 där a=70.7. Beräkna sannolikheten att en komponent har en livslängd som överstiger 23 timmar. 87. Tiden mellan två översvämningar i ett flodområde anses vara exponentialfördelad med väntevärde 8 månader. Beräkna sannolikheten att det dröjer mer än ett år mellan två översvämningar. 88. Antalet stormar i Sverige under ett decennium där skadorna överstiger en million m 3 skog anses följa en Poissonfördelning med väntevärde λ = 2. (a) Vad är sannolikheten att vi under nästa decennium kommer att få minst två sådana svåra stormar i Sverige? Ange tre decimaler i svaret. (b) Tidsavståndet mellan två svåra stormar är exponentialfördelat med väntevärde 1 (år) där λ = 0.2. Stormen Gudrun förorsakade i januari 2005 stora skogsskador. Vad är sannolikheten att det dröjer mindre än ett år innan nästa svåra λ storm kommer? 89. Arbetet med att konstruera en bro över en flod är beräknat att ta 14 månader. Om vattenflödet i floden överstiger 100 m 3 /s vid något tillfälle under denna period kan det allvarligt skada eller fördröja bygget. Grundat på tidigare undersökningar anser man att tiden från byggstart till nästa gång vattenflödet överstiger den kritiska nivån är exponentialfördelad med väntevärde 5 år. Beräkna sannolikheten att bygget kommer att störas av för högt vattenflöde.

34 34 Kontinuerliga fördelningar Lägesmått: väntevärde och percentiler/kvantiler 90. Antag att arbetstiden (i månader) för ett konstruktionsprojekt modelleras med en kontinuerlig s.v. T med fördelningsfunktion t 2 2t + 1, 1 t 2 F T (t) = P(T t) = 0, t < 1 1, t > 2 (a) Bestäm motsvarande täthetsfunktion (frekvensfunktion) f(t). (b) Beräkna P(T > 1.5). (c) Beräkna medianen för T. (d) Beräkna väntevärdet för T, d.v.s. E(T ). 91. En stokastisk variabel, X, har frekvensfuktion f(x)=2e 2x, x 0. Beräkna dess median. 92. Den karakteristiska snölasten på ett tak motsvaras av det värde som med en sannolikhet av 98 % inte överskrids, det vill säga 2 % kvantilen i fördelningen som beskriver lasten. Bestäm den karakteristiska snölasten om lasten X är Weibullfördelad med fördelningsfunktion F (x) = 1 e (x/10)0.4 för x Det karakteristiska värdet för bärförmågan hos ett material innebär att 95 % av allt tillverkat material minst skall klara angivet värde. Ange det karakteristiska värdet för ett material där bärförmågan (kn/m 2 ) kan beskrivas av en slumpvariabel X med F (x) = 1 1 x 2, x Beteckna med X maximala snödjupet (enhet meter) under en vinter på en viss ort. Antag att X har täthetsfunktionen f(x) = 2xe x2, x 0. Beräkna medianen för snödjupet. 95. Årliga maximala vindstyrkan (m/s) på en plats beskrivs av en Gumbelfördelning x b e ( a med fördelningsfunktion F (x) = e ) där a = 3 och b = 17.

35 Kontinuerliga fördelningar 35 (a) Beräkna sannolikheten att årliga maximala vindstyrkan överstiger 30 m/s. (b) Beräkna medianen för den årliga maximala vindstyrkan. 96. Den maximala våghöjden (X) på ett visst ställe ett visst år är av intresse och studier visar att X kan anses vara Rayleighfördelad, dvs täthetsfunktionen ges av f(x) = { x a e x2 /(2a) för x 0, 0 för x < 0. där a är en okänd positiv parameter. Efter att ha observerat maximala våghöjder (i meter) under ett antal år anser man att a kan uppskattas till 2. Några av de mätningar man observerade var (i meter): I dessa sammanhang talar man ofta om den s.k årsvågen eller 100-årsvågen. Med en 100-årsvåg menas en våg som är så hög att den i genomsnitt bara inträffar en gång per 100 år, d.v.s. den har en återkomsttid på 100 år. (a) Om höjden på 100-årsvågen betecknas x 0.01, tolkas x 0.01 som 1% kvantilen i fördelningen (alternativt uttryck är 99% percentilen). Vad är alltså sannolikheten att den maximala våghöjden ett år överstiger x 0.01? Teckna denna sannolikhet med hjälp av täthetsfunktionen ovan. (b) Beräkna hur stor 100-årsvågen, x 0.01, är vid denna plats under förutsättning att a = 2. Tips vid integralberäkningen: Partialintegrera inte! (c) Beräkna också, under samma förutsättning, höjden på 1000-årsvågen. 97. Den s.v. X är gammafördelad, Γ(2, 1). Det innebär att täthetsfunktionen kan skrivas som f(x) = x e x, x 0. Beräkna E( 1 X ). Spridningsmått: varians och standardavvikelse 98. Beräkna varians och standardavvikelse för X=väntetiden i uppgift 78.

36 36 Kontinuerliga fördelningar Transformation av s.v. 99. INSPELAD LÖSNING: transformering. Slumpvariabeln X är rektangelfördelad (likformigt fördelad) i intervallet ( 1, 1). Man bildar Y = X+1. Vilken fördelning 2 har Y? Se uppgiften LÖSAS på en skärminspelning.

37 Summor, linjärkombinationer Summa, medelvärde och andra linjärkombinationer NYCKELBEGREPP: Begrepp Träna Räkneregler FMS035 (M-kurs): Maple TA, slh29-slh30 Summa och medelvärde MASB11 (Biostat): Diglinjkomb 1-5 Mätsituationen LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 5.5 Olsson, Englund och Engstrand Kapitel 4.5 Räkneregler 100. Antag att man har tre oberoende slumpvariabler X 1, X 2 och X 3. För samtliga gäller att väntevärdet är 3 och standardavvikelsen är 2, d.v.s. E(X i ) = 3 och D(X i ) = 2, i = 1, 2, 3. Beräkna väntevärde och standardavvikelse för (a) 34X 1 (b) 4X 1 (c) 16 (d) Y = X 1 5X 2 + 2X 3. (e) X = 1 3 (X 1 + X 2 + X 3 ) Vikten hos en alpin skidåkare med utrustning anses variera enligt en stokastisk variabel X med väntevärde E(X) = 80 kg och varians V (X) = 36 kg 2. Vad är väntevärde, varians och standardavvikelse för den totala vikten hos passagerarna i en liten liftkabin då (a) Eva och Johan åker själva i kabinen, d.v.s. total vikt är X 1 + X 2? (b) Eva, Johan och en låda som väger 50 kg åker i kabinen, d.v.s. total vikt är X 1 + X ?

38 38 Summor, linjärkombinationer 102. Du ska mäta upp 12 dl vätska och har till din hjälp 1 litermått graderat i deciliter och 1 decilitermått. Mätningar i litermåttet varierar enligt en slumpvariabel med standardavvikelse 0.1 dl medan mätningar med decilitermåttet har en standardavvikelse på 0.05 dl. Däremot finns inga systematiska fel i mätningarna. (a) Du väljer att mäta upp 10 dl i litermåttet och att använda decilitermåttet två gånger. Vilken standardavvikelse har din mätning? (b) Du väljer att mäta upp 6 dl i litermåttet två gånger och att inte använda decilitermåttet alls. Vilken standardavvikelse har din mätning? (c) Du väljer att mäta upp 10 dl och sedan 2 dl i litermåttet och att inte använda decilitermåttet alls. Vilken standardavvikelse har din mätning? Summa och medelvärde 103. Mjölkinnehållet i en enlitersförpackning varierar något men genomsnittsvolymen (väntevärdet) är 1 liter. Storleken på spridningen i mjölkmängd mellan olika förpackningar beskrivs av variansen σ 2. Du har fått i uppgift att mäta innehållet i fem slumpmässigt valda förpackningar. (a) Vad är väntevärdet för den totala mjölkmängden i de fem förpackningarna? (b) Vad bör variansen för den totala mjölkmängden bli - större eller mindre än σ 2? (c) Du bildar medelvärdet av dina fem mätningar. Vad bör väntevärdet för medelvärdet bli? (d) Vad bör variansen för medelvärdet bli - större eller mindre än σ 2? (e) Om X 1,..., X 5 betecknar mjölkmängden i de fem förpackningarna kan total mjölkmängd skrivas 5 i=1 X i och medelvärdet i=1 X i. Använd räknereglerna för att beräkna väntevärde och varians för total mjölkmängd respektive för medelvärdet. Stämmer resultaten med dina svar i (a)-(d)? (f) Vad är tolkningen av 5X 1? Hur skiljer det sig från 5 i=1 X i? 104. Man vill mäta upp ett 10 m långt band med så bra precision (dvs med så liten variation) som möjligt. Till sitt förfogande har man en mätsticka av längd 1 m. Då man mäter bandet har man ett visst mätfel så den verkliga längden av bandet varierar från mätning till mätning som en slumpvariabel X som har väntevärde 1 m

39 Summor, linjärkombinationer 39 och standardavvikelse 0.05 m. För att få ett 10 m långt band kan man välja mellan två strategier: I Den snabba metoden : Mät upp 1 m med mätstickan. Vik sedan över bandet ett antal gånger tills du har 10 m. II Den jobbiga metoden : Mät upp 1 m band med mätstickan, gör en ny mätning med stickan, osv. Man gör alltså totalt 10 st mätningar. (a) Vilken av slumpvariablerna 10X eller 10 i=1 X i representerar den snabba metoden? Vilken representerar den jobbiga metoden? (b) Beräkna väntevärde och varians för resultatet från de två metoderna, d.v.s. beräkna E(10X) och V (10X) samt E( 10 i=1 X i) och V ( 10 i=1 X i). Vilken metod är att föredra? 105. En student tillfrågas om hen har bilkörkort. et beskrivs av en slumpvariabel X 1 som är 0 med sannolikheten 1 p om personen saknar körkort och 1 med sannolikheten p om hen har. (a) Beräkna E(X 1 ) och V (X 1 ). (b) Man frågar 50 studenter vilket ger upphov till de 50 slumpvariablerna X 1,..., X 50, alla med samma sannolikhet p. Uttryck i ord vad X 1 + X X 50 står för. (c) Antag att studenters körkortsinnehav anses oberoende av varandra, beräkna väntevärde och varians för X 1 + X X 50. (d) Vilken standardfördelning har summan X 1 + X X 50? Kontrollera att väntevärdet och variansen i den fördelningen stämmer med dina resultat från föregående deluppgift. Mätsituationen 106. Man vill uppskatta ett avstånd mellan två punkter A och B och planerar att göra n längdmätningar och sedan bilda medelvärdet av dessa mätningar. Man har en viss uppfattning om mätinstrumentets precision och antar att en mätning har en standardavvikelse på 0.2 m. Hur många mätningar ska man göra om man vill att avståndsuppskattningen (d.v.s. medelvärdet) ska ha en standardavvikelse som är 0.1 m?

40 40 Summor, linjärkombinationer 107. Mätningar av det diastoliska blodtrycket hos en person varierar enligt en slumpvariabel X med D(X) = 5 mm Hg. Man avser att mäta n gånger på en person och bilda medelvärdet av mätningarna. Hur stort ska n vara om medelvärdet av mätningarna ska ha en standardavvikelse som inte får överstiga 2 mm Hg? 108. När vi mätte natriumhalten hade vi förutom det slumpmässiga felet ett systematiskt fel på 0.7. Vad innebär det systematiska felet konkret i denna situation? Hur kan man få en uppfattning om hur stort det slumpmässiga felet är? 109. (a) Surhetsgraden i ett vattendrag bestäms varje måndag med hjälp av en phmeter. Vid mätningen uppstår ett fel Y med väntevärdet δ och standardavvikelsen σ = Här bör δ vara 0 men på grund av att kalibrering ej gjorts är detta systematiska fel 0.4. Beräkna väntevärde och standardavvikelse för mätresultatet om det rätta ph-värdet är 5.8. (b) Antag att vattnets sanna surhetsgrad varierar från måndag till måndag som en s.v. X med väntevärdet 5.8 och standardavvikelsen 0.5. Beräkna väntevärde och standardavvikelse för mätresultatet, Z, en godtycklig måndag. (c) Antag att man varje måndag tar ett vattenprov ur ån. På detta vattenprov gör man sedan tre mätningar Z 1, Z 2 och Z 3 och bildar medelvärdet. Beräkna standardavvikelsen för detta medelvärde om de slumpmässiga felen vid de tre mätningarna är oberoende och X varierar från måndag till måndag som i (b). (d) Det finns tre källor till avvikelser från 5.8 hos värdet Z i (b). Vilka? Vilken/vilka av dessa går att påverka genom den medelvärdesbildning som sker i (c)?

41 Normalfördelningen Normalfördelningen NYCKELBEGREPP: Begrepp Träna Normalfördelning som modell FMS035 (M-kurs): Maple TA, slh?-slh? Beräkna sannolikheter/kvantiler MASB11 (Biostat): Dignormal 1-15 Lognormalfördelningen Linjärkombinationer av normalfördelade s.v. Centrala gränsvärdessatsen LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 6 Olsson, Englund och Engstrand Kapitel Normalfördelning som modell 110. Från en stor population av kvinnor mellan år valdes slumpmässigt 225 och deras serumkolesterolhalt (mmol/l) mättes: Man ville undersöka om man kunde beskriva serumkolesterolhalten i den ursprungliga populationen med en lämplig statistisk standardmodell. När man ritade de 225 värdena i ett histogram (översta grafen i figuren nedan) såg man att en normalfördelning förmodligen var en rimlig modell (mittersta grafen). I understa grafen är täthetsfunktionen, f(x), för denna normalfördelning ritad.

42 42 Normalfördelningen Ett annat sätt att beskriva fördelningen är att rita kumulativ relativ frekvens för de 225 värdena (översta grafen i figuren nedan). Underst är fördelningsfunktionen, F (x), för normalfördelningen uppritad. Från den angivna modellen: (a) Vad är väntevärdet (populationsmedelvärdet) µ? Markera det i figurernas båda understa grafer.

43 Normalfördelningen 43 (b) Uppskatta sannolikheten att serumkolesterolhalten understiger 6.5 mmol/l. Markera hur sannolikheten beräknas i figurernas båda understa grafer. (c) Uppskatta sannolikheten att serumkolesterolhalten överstiger 6 mmol/l. Markera hur sannolikheten beräknas i figurernas båda understa grafer. (d) Uppskatta den serumkolesterolhalt som överstigs av 20 % av populationen. Markera halten i figurernas båda understa grafer. (e) Uppskatta standardavvikelsen, σ, i normalfördelningen Illustrera med figurer i Matlab. Antag att du har en våg som har ett visst mätfel som vi betecknar X. Som modell antar vi att mätfelet är normalfördelat, N (0, 2) (enhet g). I genomsnitt visar alltså vågen rätt eftersom väntevärdet i normalfördelningen är 0, men för en enskild mätning kan utslaget bli för lågt eller för högt. Om du på vågen ställer en vikt på 30 g, kommer vågens utslag, Y att kunna skrivas som summan av vikten och vågens mätfel, d.v.s. Y = 30 + X. Eftersom X är normalfördelad kommer Y också att vara normalfördelad men dess fördelning är N (30, 2). (a) Rita upp frekvensfunktionen (täthetsfunktionen) för vågens utslag, Y, i intervallet (20, 40) g. Rita också upp fördelningsfunktionen för Y. >> x=[20:0.05:40]; % (skapa x-värden i intervallet (20,40) med steget 0.05) >> subplot(2,1,1) % (dela plottfönstret i två figurer) >> plot(x,normpdf(x,30,2)) % (rita normalfördelningens frekvensfunktion) >> subplot(2,1,2) % (placera ritmarkören i andra figuren) >> plot(x,normcdf(x,30,2)) % (rita normalfördelningens fördelningsfunktion) Enligt de uppritade graferna, mellan vilka värden kan du förvänta dig att vågens utslag ska vara? (b) Använd kommandot normcdf för att ta reda på hur stor är sannolikheten att vågen visar mindre än 26 g. (c) Beräkna sannolikheten att vågen visar mer än 33 g. (d) Beräkna sannolikheten att vågen visar i intervallet (29, 31) g. Kontrollera att du förstår vad sannolikhetsberäkningarna innebär grafiskt i frekvens- respektive fördelningsfunktionen.

44 44 Normalfördelningen (e) För just normalfördelningen kan man i Matlab beräkna ovanstående sannolikheter med kommandot normspec och samtidigt få illustrativa grafer. Pröva följande kommandon och jämför med dina tidigare beräkningar. normspec([-inf 26],30,2) normspec([33 Inf ],30,2) normspec([29 31],30,2) OBS! Kommandot normspec kan vara bra i ett inledande skede för att illustrera sannolikheterna. Däremot är det ett bökigt kommando att använda generellt. Undvik det alltså framöver och använd normcdf i stället. Beräkna sannolikheter/kvantiler 112. Den s.v. X är normalfördelad med väntevärde 0 och standardavvikelse 1 (standardiserad normalfördelning). Skissa gärna figurer när du gör nedanstående uppgifter så du får en uppfattning om vilka areor som är aktuella. Beräkna (a) P (X 1.3) (b) P (X 1.5) (c) P ( 1.5 X 1.3) 113. Den s.v. X är normalfördelad med väntevärde 0 och standardavvikelse 1 (standardiserad normalfördelning). Skissa gärna figurer när du gör nedanstående uppgifter så du får en uppfattning om vilka areor som är aktuella. Beräkna (a) det värde c så att P (X c) = 0.05 (b) det värde c så att P (X c) = (c) det värde c så att P ( c X c) = Låt X N (5, 2). Beräkna (a) P(X 6.24), (b) P(X > 0), (c) P(1.8 < X < 7), (d) c så att P(X > c) = 0.05.

45 Normalfördelningen Vid bestämning av kvicksilverhalten i ett reningsverks avloppsvatten används en metod som anses ge upphov till ett mätfel som är normalfördelat med väntevärde 0 och en varians Antag att kvicksilverhalten är 0.35, vad är sannolikheten att den avlästa mätningen blir negativ? 116. Vikten hos en slumpmässigt vald 10-årig flicka i Sverige anses vara normalfördelad med väntevärde 34.5 kg och standardavvikelse 3.75 kg. (a) Hur stor andel av de 10-åriga flickorna väger över 42 kg? (b) Antag att vi är intresserade av att undersöka flickor med de allra högsta vikterna, nämligen de som ligger över 99:e percentilen. Vilken vikt bör dessa flickor minst ha? Skissa gärna normalfördelningens täthetsfunktion och markera den eftersökta percentilen I en studie ingick en stor grupp män där man mätte kolesterolhalten. Man såg att de kunde beskrivas av en normalfördelning med väntevärde µ A =244 mg/100 ml och standardavvikelse σ A =51 mg/100 ml. Antag att en kolesterolhalt på 260 mg/100 ml eller mer används för att förutsäga en kommande hjärt- och kärlsjukdom. Utifrån värdet på kolesterolhalten, hur stor andel av männen ligger i riskzonen för denna sjukdom? 118. En maskin fyller på foder i säckar märkta 100 kg. Den verkliga vikten, X, i säckarna anses variera enligt en normalfördelning med väntevärde 100 kg och variationskoefficient Variationskoefficienten för en slumpvariabel X, definieras som D(X) E(X). (a) Beräkna standardavvikelsen för X. (b) Mellan vilka värden ligger i stort sett alla säckarnas vikter? (c) Beräkna P(X 99). (d) Beräkna sannolikheten att en säcks vikt understiger 101 kg men överstiger 99.5 kg. (e) Hur stor andel av säckarna har en vikt som överstiger 101 kg? (f) Vilken vikt överstigs av 1 % av säckarna?

46 46 Normalfördelningen 119. Längden för en 8-årig flicka anses variera enligt en normalfördelning med väntevärde 128 cm och standardavvikelse 2.5 cm. Beräkna sannolikheten att en slumpmässigt vald 8-årig flicka får åka med tivoliattraktionen Upp och Ner där deltagaren måste ha en längd på minst 130 cm? 120. Diametern för axlar som tillverkas är normalfördelad med väntevärde 1 mm och standardavvikelse mm. Vid kvalitetskontroll sorterar man bort de axlar som är tjockare än 1.01 mm och smalare än 0.99 mm. Hur stor andel av de tillverkade axlarna kommer att sorteras bort? 121. Vikten hos fullgångna nyfödda barn anses vara normalfördelad med väntevärde 3.5 kg och standardavvikelse 0.5 kg. Barn med en födelsevikt under 2.5 kg eller över 4.5 kg anses av vissa forskare ha en större risk för plötslig spädbarnsdöd. Hur stor andel av de fullgångna nyfödda barnen ligger i denna riskgrupp? 122. Om bakteriehalten i dricksvatten överstiger 60 enheter anses det otjänligt. Bakteriehalten en slumpmässigt vald dag kan modelleras med hjälp av en normalfördelning med väntevärde µ och standardavvikelse 7 enheter. Man tar ett vattenprov och bedömmer vattnets kvalitet efter detta. (a) Antag att µ är 50, vad är sannolikheten att dricksvattnet bedöms otjänligt? (b) Genom olika åtgärder kan man påverka den genomsnittliga bakteriehalten µ. Om sannolikheten att vattnet är otjänligt inte får överstiga 0.05, vad ger detta för villkor på µ? Lognormalfördelningen 123. Baslognormalfördelning ; biotillämp? 124. Från ett område som tidigare tjänstgjort som avstjälpningsplats för en kemisk industri togs 31 jordprover och halten av trikloretylen µg/kg uppmättes: 730, 800, 810,..., Man plottade data, x 1,..., x 31 respektive logaritmen av data, ln(x 1 ),..., ln(x 31 ), i normalfördelningsdiagram, se figur.

47 Normalfördelningen 47 Dessutom fick man följande resultat från ett beräkningsprogram: x = i=1 x i = samt s x = i=1 (x i x) 2 = Motsvarande beräkningar för logaritmerade data blev: ln(x) = och s ln(x) = (a) Ange en lämplig modell för data och skatta modellens parametrar. (b) Intressant är att studera sannolikheten att trikloretylenhalten i ett prov överstiger µg/kg. Använd skattningarna i (a) för att göra en uppskattning av denna sannolikhet. (6p) (c) Om man skulle ta 20 nya jordprover på samma plats, vad är sannolikheten att minst en av dessa prover har en halt av trikloretylen som överstiger µg/kg? 125. DATAMATERIAL: stare Mätningar av pcb-halten i starar har gjorts under de senaste decennierna inom Naturvårdverkets miljö- och övervakningssystem. I filen stare.mat finns finns pcb-halten (mg/kg) i musklerna hos 120 fåglar infångade i området kring Krankesjön. (a) Ange, utifrån data, en lämplig modell för hur pcb-halten i stare varierar. (b) Utgående från din modell i (a), uppskatta sannolikheten att pcb-halten i musklerna hos en stare överstiger 1.0 mg/kg. (c) Ett år fångar man 10 starar. Vad är sannolikheten att minst 2 av dessa fåglar har en pcb-halt som överstiger 1.0 mg/kg?

48 48 Normalfördelningen 126. DATAMATERIAL: lava. Med hjälp av spektografiska metoder har man mätt mängden niobium (ppm) i 30 prover från alkalisk lava. Data finns i filen lava. Wilma har fått i uppgift att studera hur troligt det är att halten niobium i denna typ av lava överstiger 350 ppm. Från provtagaren hör hon att för denna typ av mätningar brukar det passa bra med en lognormalfördelning. (a) Har provtagaren rätt? Motivera, t ex med hjälp av lämpliga figurer. (b) Hjälp Wilma att uppskatta sannolikheten att niobiumhalten överstiger 350 ppm genom att utnyttja den antagna fördelningen för niobiumhalten. (c) Kan Wilma uppskatta den sökta sannolikheten utan att utnyttja niobiumhaltens fördelning? Ange skattningen i så fall. Linjärkombinationer av normalfördelade s.v Årliga mängden regn i ett avrinningsområde varierar enligt en normalfördelning med väntevärde 1000 mm och standardavvikelse 200 mm. Antag att regnmängderna olika år är oberoende. Som en approximativ modell för relationen mellan regnmängd, X och avrinningen, Y, antar man att Y = X. (a) Vad är sannolikheten att regnmängden ett år understiger 900 mm? (b) Vilken regnmängd överstigs i 5% av åren? (c) Vad är sannolikheten att avrinningen ett år överstiger 600 mm? 128. Den mängd godis en slumpmässigt vald student äter under en påskhelg anses vara normalfördelad med väntevärde 1100 g och standardavvikelse 200 g. Beräkna sannolikheten att (a) en student äter mer än 1300 g godis (b) medelvärdet av fyra studenters godiskonsumtion överstiger 1300 g 129. Vid tester av styrkan hos betong anser man att styrkan (N/mm 2 ) vid en mätning är normalfördelad med väntevärde 60 och standardavvikelse 5. Vad är sannolikheten att medelvärdet av 10 mätningar ligger mellan 56 och 64 N/mm 2?

49 Normalfördelningen Om bakteriehalten i dricksvatten överstiger 60 enheter anses det otjänligt. Halten en slumpmässigt vald dag modelleras med hjälp av en normalfördelning med väntevärde 50 och standardavvikelse 7 enheter. (a) Man tar ett vattenprov, vad är sannolikheten att dricksvattnet bedöms otjänligt? (b) Man överväger att ändra provtagningen genom att basera bedömningen på medelvärdet av tre oberoende prover av bakteriehalten. Beräkna sannolikheten att medelvärdet överstiger 60 enheter om ett prov kan modelleras enligt N (50, 7). (c) Vad har man vunnit på att ta medelvärdet? 131. Under regniga dagar i maj månad i Staden antas regnmängden per dag beskrivas av en stokastisk variabel som är normalfördelad med väntevärde 6 mm och standardavvikelse 1.3 mm. (a) Vad är sannolikheten att det en regnig majdag kommer mer än 9 mm? (b) I föregående uppgift antas regnmängden olika dagar i maj vara oberoende av varandra. Vad är sannolikheten att den totala regnmängden under maj månad (31 dagar) i Staden överstiger 200 mm? 132. Vid en processkontroll vid tillverkning av metallcylindrar tar man slumpmässigt ut 5 tillverkade enheter från dagens produktion. Eftersom det är viktigt att diametern inte avviker för mycket från målvärdet 8.3 mm så slår man larm och justerar processen om medelvärdet av de 5 diametrarna understiger 8.27 mm eller överstiger 8.33 mm. (a) Antag att diametern varierar enligt N (8.3, 0.05), d.v.s. processen är under kontroll med rätt målvärde. Vad är sannolikheten att man ändå felaktigt slår larm? (b) Hur många enheter, n, ska man ta ut ur produktionen om man vill att risken för falskt alarm ska vara högst 0.05 då processen har rätt målvärde 8.3? 133. En grov modell för fosforhalten i den östra delen av en sjö är att den är normalfördelad med väntevärde 6 och varians 9. Fosforhalten i den västra delen antas också normalfördelad men med väntevärde 2 och varians 4.

50 50 Normalfördelningen (a) Vad är sannolikheten att fosforhalten i ett prov från den östra delen understiger fosforhalten i ett prov från den västra delen? (b) Vad är sannolikheten att medelvärdet av fyra prov från den östra delen överstiger 8? 134. Vattentillgången (miljoner liter) i en stad anses variera under sommarmånaderna enligt en normalfördelning med väntevärde 45 och varians 25. (a) Vad är sannolikheten att vattentillgången understiger 36 miljoner liter? (b) Efterfrågan på vatten i staden varierar under sommarmånaderna enligt en normalfördelning, N (35, 4) och anses vara oberoende av vattentillgång. Vad är sannolikheten att vattenbrist ska uppstå i staden under sommaren? 135. Man studerade hur mycket energi som ett vindkraftverk alstrar genom att notera den dagliga energiproduktionen (kwh). En lämplig modell ansågs vara en normalfördelning med väntevärde 4000 kwh och standardavvikelse 900 kwh. (a) På fältet står 10 vindkraftverk. Uppskatta sannolikheten att total energimängd under ett dygn överstiger kwh. (b) Hur många vindkraftverk behövs minst på fältet för att total energimängd under ett dygn ska överstiga kwh med sannolikheten 0.95? 136. Vid bestämning av kvicksilverhalten i ett reningsverks avloppsvatten har man traditionellt använt sig av en standardmetod. Den anses ge upphov till ett mätfel som är normalfördelat med en varians Om ξ är mätningen på ett vattenprov med kvicksilverhalt µ gäller alltså att ξ N (µ, 0.09). (a) Halten av kvicksilver i vattnet är ofta liten vilket får till följd att metoden ofta ger negativa mätvärden. För vilka värden på µ ger metoden ett negativt mätvärde med minst sannolikheten 0.05? (b) För att minska mätfelets variationen i noterade resultat överväger man att göra tre bestämningar med metoden och ange medelvärdet av de tre mätningarna. Antag att µ är 0.35, vad är sannolikheten att medelvärdet blir negativt?

51 Normalfördelningen Vid mätningar av fordonshastigheter på Södra Esplanaden följde hastigheterna väl en normalfördelning med väntevärde 38 km/h och standardavvikelse 5 km/h, dvs om X=hastighet, modellerar vi X N(38, 5). (a) Hur stor är sannolikheten att en hastighet ligger mellan 35 km/h och 41 km/h? (b) Hur stor är sannolikheten att medelvärdet av fyra oberoende hastighetsmätningar ligger mellan 35 km/h och 41 km/h? (c) Hur stor är sannolikheten att, om två personer utför fyra mätningar var, skillnaden mellan deras medelvärden (frånsett tecken) överstiger 2 km/h? 138. Till en liftkabin står ett stort antal människor i kö och kabinskötaren Frans funderar på hur många skidåkare han ska våga pressa in i kabinen. Av erfarenhet vet han att skidturister kan packas mycket tätt. På kabinväggen står ett plakat Max 8.2 ton och Frans, som själv åker med kabinen, vet att han väger 75 kg. Frans antar att skidåkares vikt inklusive skidutrustning är oberoende normalfördelade slumpvariabler med väntevärde 80 (kg) och standardavvikelse 5 (kg). Beräkna sannolikheten att kabinen belastas med mer än den tål om Frans pressar in 100 skidåkare i kabinen. Observera att Frans också åker med i kabinen För att bekämpa snatteri har en affär i södra Tyskland infört att kunderna vägs på en våg vid affärens ingång och på en annan våg strax före utgången. Om vikten vid utgången överstiger ingångsvikten med mer än 20 g uppmanas kunden att återvända till affären för att lätta på sin vikt. Om däremot differensen i vikt (utgångsvikt ingångsvikt) understiger 20 g släpps kunden fram till kassan. Antag att vågen har ett slumpmässigt fel som är normalfördelat med väntevärde 0 och med standardavvikelse 6 (g) samt att felen vid olika vägningar är oberoende. (a) Vad är sannolikheten att en oskyldig kund, som inte har snattat något, ändå får en viktdifferens som överstiger 20 g? (b) Vad är sannolikheten att bland 110 oskyldiga kunder minst en får en viktdifferens som överstiger 20 g? 140. (a) Antag att slumpvariablerna X och Y är oberoende med X N (2, 2) och Y N (5, 3). Vad har summan 5X + 2Y för fördelning? (b) Illustrera med figurer i Matlab. Visa i Matlab att ditt svar i föregående deluppgift är rimligt genom att simulera slumptal från X och Y.

52 52 Normalfördelningen 141. Illustrera i figurer i Matlab: Mäta upp 10 m långt band. Denna uppgift illustrerar skillnaden mellan 10X och 10 i=1 X i där alla slumpvariabler X, X 1,..., X 10 har samma fördelning. Man vill mäta upp ett 10 m långt band med så bra precision (dvs med så liten variation) som möjligt. Till sitt förfogande har man en mätsticka av längd 1 m. Då man mäter bandet har man ett visst mätfel så den verkliga längden av bandet varierar från mätning till mätning som en slumpvariabel X som har väntevärde 1 m och standardavvikelse 0.05 m. För att få ett 10 m långt band kan man välja mellan två strategier: I Den snabba metoden : Mät upp 1 m med mätstickan. Vik sedan över bandet ett antal gånger tills du har 10 m. II Den jobbiga metoden : Mät upp 1 m band med mätstickan, gör en ny mätning med stickan, osv. Man gör alltså totalt 10 st mätningar. (a) Vilken av slumpvariablerna 10X eller 10 i=1 X i representerar den snabba metoden? Vilken representerar den jobbiga metoden? (b) Beräkna väntevärde och varians för resultatet från de två metoderna, d.v.s. beräkna E(10X) och V (10X) samt E( 10 i=1 X i) och V ( 10 i=1 X i). Vilken metod är att föredra? (c) Illustrera resultatet genom att anta att 100 personer använde den snabba metoden medan 100 andra använde den jobbiga metoden. Simulera deras mätningar och gör histogram för resultatet i de två grupperna. För enkelhets skull antar vi att fördelningen är normalfördelad men detta är ej nödvändigt för resultatet. Stöder histogrammen den slutsats du kom fram till? Med kommandot >> X=normrnd(1,0.05,10,100); får man en (10 x 100) matris med slumptal från en normalfördelning med väntevärde 1 och standardavvikelse Genom >> sum(x); adderas för varje kolonn de 10 raderna vilket ger en (1 x 100) matris där varje element är summan av 10 slumptal från den aktuella normalfördelningen, dvs du har gjort 100 simuleringar av X 1 + X X 10. För att rita upp histogrammet: >> subplot(2,1,1) >> hist(sum(x)) >> title( Den jobbiga metoden )

53 Normalfördelningen 53 För att simulera 10X kan du bilda en (1 x 100) matris av normalfördelade slumptal och multiplicera den med 10. >> X1=10*normrnd(1,0.05,1,100); >> subplot(2,1,2) >> hist(x1) >> title( Den snabba metoden ) (d) Tänk ut - genom att använda satser om normalfördelningen - vad fördelningen är för längden av det uppmätta bandet med den snabba metoden? Vad är fördelningen för längden av det uppmätta bandet med den jobbiga metoden? (e) För båda metoder, använd normcdf för att beräkna sannolikheten att det uppmätta bandets längd understiger 9.7 m. Centrala gränsvärdessatsen 142. De 50 oberoende slumpvariablerna X 1,..., X 50 är alla lognormalfördelade med väntevärde 0.9 och varians Uppskatta sannolikheten att medelvärdet av de 50 variablerna överstiger När man tillverkar pappersgem utgår man ifrån en rulle metalltråd av längd 1.6 m. Tråden rullas upp, kapas av, böjs till i traditionell form och samtliga gem förpackas sedan i en kartong med texten 100 gem. Om det på slutet återstår en liten trådbit som inte räcker till ett gem slängs denna bit. Längden på metalltråden hos ett gem ska vara 15.9 mm men kan emellertid variera något. Antag att längden varierar enligt en stokastisk variabel med standardavvikelse σ där σ = 0.5 mm. Beräkna sannolikheten att kartongen innehåller minst 100 gem Ett distributionssystem består av ett centrallager med 25 försäljningskontor. Kunderna efterfrågar varor på försäljningskontoren. Antag att antalet enheter som efterfrågas vid ett försäljningskontor av vara V under en vecka är Poissonfördelat med väntevärde 3.6. Antag också oberoende mellan försäljningskontor. Leveranser från tillverkaren till centrallagret sker enbart en gång i veckan, nämligen varje måndag morgon. (a) Vad är sannolikheten att efterfrågan från kontor 1 överstiger 10 enheter av vara V en vecka?

54 54 Normalfördelningen (b) I början av veckan, efter tillverkarens leverans, finns 100 enheter av V i centrallagret och ingen påfyllnad sker under veckans gång. Vad är sannolikheten att totala efterfrågan på V överstiger tillgången i centrallagret den veckan? 145. En laboratorieassistent utför en viss rutinmätning ett stort antal gånger under en arbetsdag. Han har noterat att 50 % av mätningarna tar 1 minut att genomföra, 40 % tar 2 minuter medan resten tar 3 minuter. Han tror inte att arbetet under dagens lopp påverkas av inlärningseffekter eller förtröttningseffekter. Låt X=antal minuter att genomföra en mätning. (a) Vad är sannolikhetsfunktionen för X? (b) Bestäm E(X) och V (X). (c) Vad är sannolikheten att han hinner med 100 mätningar på mindre än 170 arbetsminuter? 146. I en bostadskö står 1500 familjer. Enligt tidigare undersökningar uppskattar man sannolikheten för k personer i en familj till följande: k - antal personer i en familj Sannolikhet Beräkna sannolikheten att det i bostadskön finns minst 2500 personer som vill ha ny bostad Arsenik finns i små men mätbara mängder i avloppsvattnet från hushållen och man funderar på hur mycket arsenik som släpps ut från samhället Wik som består av 67 hushåll. Från tidigare undersökningar på områden med likartad struktur beträffande befolkning, berggrund, jordmån osv. har man antagit en ganska grov modell där X= As-mängden i avloppsvattnet från ett slumpmässigt valt hushåll följer en lognormalfördelning med parametrar µ och σ. Det innebär alltså att ln(x) N (µ, σ). Från denna undersökning gjorde man uppskattningarna att µ 3 och σ 0.3. Man tänkte sig också att As-mängden mellan olika hushåll var oberoende. Antag att samma lognormalfördelning även gäller för As-mängden hos hushåll i Wik. Om X är lognormalfördelad med parametrar µ och σ gäller E(X) = e (µ+ σ2 2 ) och V (X) = e (2µ+σ2) (e (σ2) 1). Med de angivna skattningarna på µ och σ innebär det att om X i =As-mängden från hushåll i, gäller det att E(X i ) = och V (X i ) =

55 Normalfördelningen 55 Vad är då sannolikheten att den totala As-mängden från Wik överstiger 3.7 (µg)? 148. Den tid som behövs för att betjäna en kund som anländer till lager A kan betraktas som en s.v. W som anses vara exponentialfördelad med väntevärde E(W ) = 10 minuter.betjäningstiden för olika kunder är oberoende. (a) Beräkna sannolikheten att det tar mer än 1050 minuter att betjäna 100 kunder vid lager A. (b) Hur många kunder får det högst komma om sannolikheten att man inte ska hinna med samtliga på 1200 minuter ska vara högst 0.1? (c) Betjäningstiden vid lager B anses vara summan av tre oberoende s.v. X 1, X 2 och X 3 som är exponentialfördelade med E(X 1 ) = 2, E(X 2 ) = 3 respektive E(X 3 ) = 5. Beräkna sannolikheten att det går snabbare att betjäna 100 kunder vid lager A än det gör att betjäna 100 kunder vid lager B En färja som transporterar passagerare tvärs över ett sund avgår från punkt A en gång i timmen. Färjan är dimensionerad för 30 passagerare. Under rusningstid kommer passagerare till A enligt en Poissonprocess med i genomsnitt 2 personer var femte minut. Det innebär att antalet passagerare som kommer till A under en femminutersperiod är Poissonfördelat med väntevärde 2 samt att passagerarna anländer oberoende av varandra. (a) Hur många passagerare förväntar man sig ska komma till A under en timme vid rusningstid? (b) Beräkna sannolikheten att det väntar fler än det tillåtna 30 vid A när färjan ska gå? Antag att passagerarna tåligt väntar kvar vid A även om väntetiden är lång. (c) Vikten på färjans passagerare får högst vara 2500 kg. Man antar att vikten hos en slumpmässigt vald passagerare är en stokastisk variabel med väntevärde 75 kg och standardavvikelse 25 kg. Vad är sannolikheten att 30 passagerares vikt överstiger 2500 kg? 150. I en undersökning mätte man mängden koldioxid (g/km) hos personbilar i trafik. Den mängd en bil släpper ut varierar enligt en slumpvariabel som har väntevärde µ och varians σ 2. Från undersökningen uppskattade man att µ var ungefär 12.8 (g/km) och att σ 2 var ungefär 71.6.

56 56 Normalfördelningen Vid en 1 km lång sträcka i ett bostadsområde har man satt ett gränsvärde på 1.2 kg för den totala mängd koldioxid som kommer från bilars avgaser under en timme. (a) Om det kommer 80 bilar under en timme, vad är sannolikheten att gränsvärdet överskrids? Beräkna sannolikheten under antagandet att koldioxidmängden är normalfördelad. (b) Hur många bilar kan man acceptera om sannolikheten att gränsvärdet överstigs får högst vara 0.05? Antag att koldioxidmängden är normalfördelad. (c) Antag nu att man inte anser sig veta något om hur koldioxidmängden är fördelad. Hur görs då beräkningarna i (a) och (b)? 151. Erfarenhetsmässigt vet man att antalet lampor som måste bytas ut på en fabrik per dag har följande fördelning: Antal trasiga lampor en dag Sannolikhet Antag att lampbehovet olika dagar är oberoende stokastiska variabler. (a) Beräkna väntevärde och varians för antalet lampor som behöver bytas en dag. (b) Beräkna approximativt sannolikheten att 300 lampor räcker för ett års (365 dagar) förbrukning. (c) Vaktmästaren, som är den ende som har nyckel till lampförrådet, åkte på 5 dagars semester och fick av misstag med sig nyckeln. Beräkna sannolikheten att behovet av lampor från lampförrådet är 0 under denna period. Det finns inga extra lampor utanför förrådet. (d) Samma fråga som i (c) fast nu hade du en extra lampa i skrivbordet och kan alltså klara av det första (eventuella) lampbytet Illustrera med figurer i Matlab och R: Centrala gränsvärdessatsen. Adderar man (eller tar medelvärdet) av flera oberoende normalfördelade slumpvariabler är summan också normalfördelad. Men vad händer om man lägger ihop flera variabler som alla är rektangelfördelade? Vilken fördelning fås om man adderar exponentialfördelade variabler? Centrala gränsvärdessatsen säger att om man adderar man ett stort antal variabler från en godtycklig fördelning blir summan (eller medelvärdet) normalfördelad. Detta märkliga faktum ska du i denna uppgift undersöka med hjälp av den interaktiva guiden Gcgs.

57 Normalfördelningen 57 Konkret kan vi tänka oss att du gör ett antal mätningar av en intressant (miljö)variabel, du bildar medelvärdet av mätningarna (eller summerar dem). Det du ska undersöka är hur medelvärde (summa) kommer att variera från mätserie till mätserie? Beror det på fördelningen hos miljövariabeln? Mera matematiskt beskrivet: Om X 1,..., X antal är oberoende med den fördelning du valt, vad är då fördelningen för antal i=1 X i respektive X? Så här använder du Gcgs i Matlab: Skriv Gcgs. I guiden har du möjlighet att välja mellan några olika fördelningar. Välj fördelning och värden på fördelningens parameter(ar). Guiden har förvalt parametervärden, som du kan ändra. Du får en figur med täthetsfunktion eller sannolikhetsfunktion för din valda fördelning. Välj nu hur många mätningar, N du ska göra från denna fördelning och mata in detta antal. Välj om du vill studera summan eller medelvärdet av dina N mätningar. Guiden visar ett histogram över summa/medelvärde då man upprepat proceduren 1000 gånger. Du kan välja att anpassa en normalfördelning till histogrammet. För att bättre kunna avgöra om normalfördelning är en bra approximation visas samtidigt de 1000 summorna/medelvärdena i en normalfördelningsdiagram. Genom att trycka på knappen animera kan du se hur fördelningen ändrar sig för värdena 2 upp till N i summan/medelvärdet. (a) Normalfördelning: i. Välj N = 2. Vilken fördelning har summan/medelvärdet av två oberoende normalfördelade slumpvariabler? Kontrollera att de angivna väntevärde och standardavvikelse stämmer med räknereglerna. ii. Teorin säger att fördelningen för summa/medelvärde blir normalfördelad för alla värden på N. Kontrollera att detta verkar rimligt genom att använda animeringsknappen då du valt N ganska stort. (b) Rektangelfördelning: i. Välj rektangelfördelning och N = 2. Vilka värden kan summan av två mätningar ligga mellan? Vilka värden kan medelvärdet ligga mellan? Verkar histogrammen rimliga? ii. Öka antalet mätningar i rektangelfördelningen. Vad händer om du tar antalet mätningar till 5? Eller ökar till 10? iii. Kontrollera att de angivna väntevärde och standardavvikelse stämmer med räknereglerna. Ledning: I formelsamlingen står att om ξ är rektangelfördelad mellan a och b gäller att E(ξ) = a+b och V (ξ) = (b a)

58 58 Normalfördelningen (c) Exponentialfördelning: Gör motsvarande för exponentialfördelningen. Hur många mätningar behöver ni ta innan ni tycker att summa/medelvärde är ungefär normalfördelat? Varför tror ni att det behövs så många fler mätningar än vid rektangelfördelningen? (d) Undersök på motsvarande sätt vad som händer då man bildar summa/medelvärde från binomial- eller poissonfördelningen. (e) Konkret problem: Du har gjort 25 oberoende mätningar av niobiumhalten i lava. När du gör ett histogram över dessa mätningar och ritar dem i ett normalfördelningspapper slås du av att fördelningen inte alls verkar normalfördelad.den fortsatta statistiska analysen tänker du basera på medelvärdet av de 25 mätningarna, t.ex. då du ska jämföra med mätresultat vid en annan lokal. Behöver den icke-normala fördelningen hos dina mätningar oroa dig?

59 Fördelningsanpassning Fördelningsanpassning NYCKELBEGREPP: Begrepp Träna Finns det en standardfördelning till mina data? MASB11 (Biostat): Digfordanpass 1-4 LÄS I KURSLITTERATUREN: Litteratur Blom et al. Olsson, Englund och Engstrand Avsnitt Finns det en standardfördelning till mina data? 153. DATAMATERIAL: jordprov. I skogsområdet ASA försökspark i Småland är 94 olika gropar grävda i marken och från varje grop är jordprover tagna där bland mycket annat aluminiumhalt och calciumhalt är uppmätta (mg/g). Data finns i filen jordprov och variablerna heter al och ca. Nu vill vi, med grafiska metoder, undersöka om dessa två dataset kan modelleras med någon standardfördelning, i vårt fall ska vi pröva med normalfördelning och lognormalfördelning. För att illustrera metoderna ska vi också använda dem på ett datamaterial som vi verkligen vet är normalfördelat, vi simulerar slumptal från en normalfördelning: >> normalvariabel=normrnd(70,10,1,94) %skapar 94 slumptal från N(70,10) Vi ska använda tre tekniker för att pröva om normalfördelning kan passa som modell för de tre variablerna al, ca och normalvariabel: (a) Jämför histogram med teoretisk täthetsfunktion. Om data är normalfördelade bör motsvarande histogram ha den typiska klockformen. Testa detta på de tre materialen genom kommandot histfit, som skattar µ och σ utifrån data och anpassar en normalfördelning till histogrammet. >> histfit(normalvariabel), figure, histfit(al), figure, histfit(ca) Verkar aluminiumhalterna eller calciumhalterna vara normalfördelade? Observera hur histfit fungerar på variabeln normalvariabel som är normalfördelad.

60 60 Fördelningsanpassning (b) Bättre är att jämföra empirisk fördelningsfunktion med teoretisk fördelningsfunktion. Den empiriska fördelningsfunktionen är ett kumulativt histogram över relativa frekvenser, i varje datapunkt ökar funktionen med storheten 1 där n är antalet mätningar i materialet. n >> cdfplot(normalvariabel) Uppskatta, utifrån figuren hur stor andel av data i normalvariabel som ligger under värdet 70, eller som ligger över 80. Lägg sedan in normalfördelningens fördelningsfunktion i samma figur: >> hold on >> x=[min(normalvariabel)-5:0.01:max(normalvariabel)+5] %skapar ett lämpligt intervall på x-axeln >> plot(x,normcdf(x,mean(normalvariabel),std(normalvariabel))) %skattar mu och sigma utifrån data >> hold off Eftersom data i normalvariabel verkligen är normalfördelade är anpassningen förstås god. Testa hur det ser ut för aluminiumvärdena och calciumvärdena genom att byta ut variabeln normalvariabel mot al och ca i kommandona ovan. Kommentar: I ovanstående kommando skulle vi kunna ha använt att µ = 70 och σ = 10 för normalvariabel i stället för att skatta dessa parametrar. (c) Bäst är att plotta data i ett fördelningspapper. Denna metod är en mycket använd standardmetod i olika tillämpningar och i industrin. Ett fördelningspapper är ett diagram med en skala som är specifik för den speciella fördelning som vi vill jämföra med. Det finns exempelvis normalfördelningspapper, Weibullpapper och Gumbel- eller extremvärdespapper. Kortfattat kan man säga att det fotfarande är en graf av en fördelningsfunktion F (x). Dock är skalan på y-axeln på ett sådant papper är avpassat så fördelningsfunktionen blir en rät linje. Det betyder att den enpiriska fördelningsfunktionen ska ligga längst denna raka linje. Omvänt gäller alltså att om den empiriska fördelningsfunktionen avviker allt för mycket från en rät linje drar vi slutsatsen att denna fördelning inte passar till våra data. I Matlab kan man direkt plotta ett stickprov i normalfördelningspapper med kommandot normplot, >> normplot(normalvariabel) Observera att även om data är normalfördelade kan de avvika en del från den räta linjen, ett faktum av att vi arbetar med slumptal. Använd normplot för att undersöka om aluminumhalterna respektive calciumhalterna är normalfördelade.

61 Fördelningsanpassning 61 (d) En annan standardfördelning som är vanlig för miljödata är lognormalfördelningen. Mätningar kan modelleras med en lognormalfördelning om de logaritmerade mätningarna passar bra till en normalfördelning. Det innebär att det inte behövs något speciellt fördelningspapper för denna fördelning, man kan använda normplot(log(data)). Pröva om calciummätningarna verkar vara lognormalfördelade DATAMATERIAL: vatten. Fortsättning från uppgift 5 om värmeväxlare i ett hyreshus. I syfte att dimensionera en värmeväxlare som genererar varmvatten till bostadshus mäts flödet av varmvatten (l/s) var 30:e sek under ett dygn i en fastighet med 20 lägenheter. Data ligger i filen vatten där variabeln flode anger flödet av varmvatten (l/s) under de senaste 30 sekunderna. (a) Låt X vara en slumpvariabel som beskriver flödet (l/s) under 30 s. Är X en diskret eller kontinuerlig slumpvariabel? (b) Rita data i olika fördelningspapper. Undersök om X beskrivs bra av en normalfördelning genom att rita ut data i ett normalfördelningspapper (normplot). Med kommandot probplot kan ni testa ett par olika standardfördelningar. För att pröva med en Gumbelfördelning, använd det specialskrivna kommadot wgumbplot (c) Skatta parametrarna i fördelningen. När man tror sig ha hittat en fördelning som passar bra till data ska fördelningens parametrar skattas. Detta kan göras med -fit till standardfördelningar, t.ex. normfit om en normalfördelning verkar vara en lämplig modell. (d) Skriv upp den fullständiga modellen. Om du t.ex. kommit fram till att X kan modelleras som en normalfördelning, skriver du X: beskrivning i ord av vad X är, X N(värdet på parameter 1, värdet på parameter 2 ). (e) Använd modellen för dimensionering. Antag att man funderar på att sätta in en ny värmeväxlare som maximalt kan klara av ett flöde på 0.4 l/s. Använd din modell för att beräkna sannolikheten att flödet i huset överstiger detta värde, d.v.s. beräkna P (X > 0.4). För standardfördelningar kan du beräkna värden i fördelningsfunktionen med -cdf, t.ex. normcdf i normalfördelningsfallet. (f) Man har som önskan att sannolikheten att värmeväxlaren inte kommer kunna leverera efterfrågad kapacitet då det rinner vatten i ledningarna ska vara högst Vad innebär det för krav på värmeväxlarens maxkapacitet? Matlabtips: för att beräkna kvantiler kan du använda -inv i en standardfördelning.

62 62 Fo rdelningsanpassning 155. Vindela lven a r en av va ra fa oreglerade a lvar. Vattenfo ringen (m3 /s) ma ts vid ett antal stationer utmed a lven, bl.a. i Sorsele och fra n SMHI kan man fa a rsmax vid denna station under perioden 1979 till 2008, se nedansta ende figur. (a) Vera bo rjade med att underso ka om en standardfo rdelning kunde anpassas till data och producerade fo ljande figurer o ver olika probability plots (fo rdelningsdiagram). Lognormalfo rdelning a r en rimlig modell att anpassa sa ger Vera. Ha ller du med henne och varfo r i sa fall? (b) Na gra enkla ma tt bera knades ocksa fra n de 30 va rdena pa a rsmax, x1,..., x30 : P 1 x = 30 = i q xp 1 sx = 29 (xi x )2 = Motsvarande ma tt bera knades ocksa fo r logaritmerade a rsmaxva rden, d.v.s. om yi = ln(xi ) fick Vera

63 Fördelningsanpassning 63 ȳ = 1 yi = s y = (yi ȳ) 29 2 = Utgå från att lognormalfördelning anpassas till data och utnyttja lämpliga delar av de beräknade måtten ovan för att uppskatta sannolikheten att vattenföringens årsmax överstiger 1000 m 3 /s. (c) Utgående från lognormalfördelningen som modell, vad är 100-årsflödet i Sorsele? Hundraårsflöde är det flöde som överstigs med sannolikheten 0.01 ett år. (d) Den 8 juni 1995 var det ett extremt högt flöde i Sorsele då man uppmätte en vattenföring på m 3 /s. Omfattande översvämningar och en massiv (och dyr) räddningsinsats blev följden. Utgående från lognormalfördelningen som modell, beräkna sannolikheten att man kommer få en vattenföring som överstiger detta värde minst en gång under de närmaste 100 åren. (e) Vad är sannolikheten att få minst två 100-årsflöden under 50 år? Antag att årsmax olika år är oberoende. Observera att denna sannolikhet kan beräknas oavsett beräkningar och svar i föregående deluppgifter DATAMATERIAL: jordbävningar. I filen jordbavning finns data från så kallade kraftiga jordbävningar som antingen har en magnitud på minst 7.5 på Richterskalan eller som har orsakat minst 1000 dödsoffer. Data är insamlade under perioden 16 december 1902 till 4 mars Noterat är antal dagar mellan allvarliga jordbävningar. Eftersom det fanns 63 sådana händelser under tidsperioden består data av 62 tidsmellanrum (enhet dagar). Tidsavstånden finns i variabeln q. (a) Översikt av materialet. Börja med att rita ut data. Gör histogram och beräkna diverse läges- och spridningsmått. Verkar det troligt att kan gå mer än 5 år mellan kraftiga jordbävningar (hist, mean). (b) Poissonprocessen - en modell för när jordbävningar sker. Antag att vi studerar händelser A som inträffar slumpmässigt i tiden. A kan beteckna händelsen att en kraftig jordbävning kommer, att en trafikolycka inträffar på en viss väg eller att en partikel sönderfaller i ett radioaktivt preparat. Händelserna A utgör en så kallad Poissonprocess om vissa villkor är uppfyllda: två eller flera händelser inträffar inte samtidigt, d.v.s. inte exakt samtidigt antalet händelser som sker i icke överlappande tidsintervall är oberoende händelserna inträffar med en konstant intensitet, så att λ händelser inträffar i genomsnitt per tidsenhet, d.v.s. λt händelser i genomsnitt under en tidsperiod av längden t i. Verkar det rimligt att händelsen kraftig jordbävning uppfyller villkoren ovan?

64 64 Fördelningsanpassning ii. Intensiteten λ tolkas som det genomsnittliga antalet kraftiga jordbävningar per tidsenhet. Vad är en rimlig skattning av λ om tidsenheten är en dag? Ledning: I datamaterialet anges tidsavstånden mellan de 63 händelserna. Hur många dagar dröjde det mellan jordbävning nr 1 och jordbävning nr 63? iii. Hur många kraftiga jordbävningar förväntas på 1 år? Hur många förväntas på 5 år? (c) Fördelningsresultat från modellen. Om händelserna uppfyller villkoren för en Poissonprocess kan man uttala sig om en mängd saker. För en Poissonprocess gäller nämligen (d) X=antal händelser i intervallet [s, s+t] är Poissonfördelat med väntevärde λ t, d.v.s. X Po(λ t) Förväntad tid mellan händelserna, d.v.s. återkomststiden T = 1 λ Y =tiden mellan två händelser är exponentialfördelad med väntevärde 1 λ i. Enligt modellen, vilken Poissonfördelning gäller för X=antal kraftiga jordbävningar under ett år? ii. Hur stor är sannolikheten att det kommer minst två kraftiga jordbävningar nästa år? Hur skulle sannolikheten beräknas med papper och penna. I matlab används poisscdf för att beräkna fördelningsfunktionen i en Poissonfördelning. iii. Antag att man under en framtida femårsperiod noterar hela nio kraftiga jordbävningar. Tyder det på att det blivit seismologiskt oroligare eller är det en helt normal siffra? Försök resonera kring frågan genom att beräkna sannolikheten att få minst nio jordbävningar under en femårsperiod. Är tiden mellan jordbävningar exponentialfördelad? Enligt resultatet ovan bör alltså tiden mellan två kraftiga jordbävningar vara exponentialfördelat och därmed är det rimligt att kraftiga jordbävningar kommer slumpmässigt i tiden. Undersök om detta verkar att stämma på data. i. Det finns inget speciellt fördelningspapper för exponentialfördelningen. Orsaken är att exponentialfördelningen är ett specialfall av den mer generella Weibullfördelningen. Ta reda på hur sambandet är mellan Weibull- och exponentialfördelningen. ii. Rita först ut data i ett fördelningspapper för Weibullfördelningen (wblplot). Verkar Weibullfördelning vara en rimlig fördelning för data? iii. Låt sedan Matlab skatta Weibullfördelningens två parametrar, skalparametern α och formparametern β, med hjälp av wblfit. Verkar en exponentialfördelning passa till data? iv. Beräkna sannolikheten att det dröjer mer än ett år mellan två jordbävningar, d.v.s. P (Y > 5 365)? Hur skulle sannolikheten beräknas med papper

65 Fördelningsanpassning 65 och penna. Skissa gärna frekvensfunktionen. I matlab används -cdf för att beräkna fördelningsfunktionen i en standardfördelning Uppgift om hastighet vid vägarbete?

66 66 Skattningar 4.1 Punktskattningar NYCKELBEGREPP: Begrepp Träna Slumpmässiga stickprov FMS035 (M-kurs): Maple TA, inf1-inf4 Skattningars egenskaper MASB11 (Biostat): Digskattning 1-10 Kombination av σ-skattningar Hur hittar vi lämpliga skattningar? LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel Slumpmässiga stickprov 158. I en kursomgång några år tillbaka mättes längden (mm) på 17 kvinnliga M-teknologer som kom till ett övningstillfälle genom att använda ett mätinstrument som var uppsatt i dörren på övningslokalen: (a) Fundera över om det kan finnas något systematiskt fel eller med ett annat ord bias i mätningarna. Systematiskt fel är något som gör att mätningarna i medel visar fel. Kan du tänka ut några anledningar till systematiskt fel i mätningarna för längd? (b) Det vore önskvärt om du med mätningar för längder på KVINNA kunde dra generella slutsatser för en större population utöver de som finns i klassrummet. Tror du att datamaterialet är representativt för exempelvis Sveriges kvinnliga befolknings längd? Sveriges vuxna kvinnliga befolkning? Om ni tycker det, motivera. Om inte, vilken population kan ni tänka att datamaterialet kan beskriva? Bestäm en. (c) Är ert data för KVINNA taget som slumpmässiga stickprov ur den population ni sagt att den ska beskriva? Om inte, tänk ut hur ni skulle valt personer för att få data taget som slumpmässiga stickprov. (d) I materialet ovan finns det några värden som avviker mycket från vad ni skulle förvänta er i den population som datamaterialet beskriver, så kallade outliers.

67 Skattningar 67 För att komma runt detta, skulle det vara bättre att istället för att mäta alla som är i klassrummet, välja ut några själva som man tror passar som urval till populationen? Varför är ett slumpmässigt stickprov ett bra sätt att välja ut sina element som ska representera populationen? 159. DATAMATERIAL: hastigheter. I en kurs Trafikteknik fick hela studentgruppen mäta hastigheten på fordon som färdades på Södra Esplanaden i Lund. Varje student mätte hastigheten hos tre fordon med laserpistol. Några mätningar, med respektive medelvärde, anges nedan, resten hittar du i filen hastighet. Student nr Medelvärde (a) Varje student fick sedan, utifrån sina egna mätningar, uppskatta genomsnittlig hastighet hos ett fordon. Illustrera med ett histogram hur de 100 olika skattningarna varierar. (b) En student, student 3, har en skattning som avviker kraftigt från de övrigas. Har du någon tänkbar förklaring? (c) Man hade enbart tillgång till ett fåtal laserpistoler så mätningarna drog ut på tiden. De första studenterna började mäta 8.30 och de sista samma dag. En student föreslår att man ska bilda medelvärdet av samtliga mätningar och därmed få en pålitlig skattning av genomsnittlig hastighet. Håller du med? Vad är det då man skattar? (d) Några studenter klagade över att de var ovana vid instrumentet. Student A är väl bekant med laserpistoler medan student B använder det för första gången. Vilken eller vilka följder verkar rimliga för de båda studenternas mätningar? i. Student A har en större spridning i sina mätdata än student B. ii. Student B har en större spridning i sina mätdata än student A. iii. Om någon av studenterna har ett systematisk fel är det troligen A. iv. Om någon av studenterna har ett systematisk fel är det troligen B. v. B:s skattning av genomsnittlig hastighet är tillförlitligare än A:s. vi. A:s skattning av genomsnittlig hastighet är tillförlitligare än B:s.

68 68 Skattningar Skattningars egenskaper 160. För att undersöka halten av järn i mossa tar person A 5 mätningar från en lokal och får observationerna x 1,..., x 5. Person B tar 10 mätningar från samma plats och får y 1,... y 10. De vill nu skatta µ, genomsnittlig Fe-halt, och bildar därför medelvärdet av sina respektive mätningar. (a) Väntevärdesriktighet: Man vill att skattningen i genomsnitt ska ge det värde som den ska skatta, d.v.s. µ. Kommer A:s skattning att göra det, m.a.o. är A:s skattning väntevärdesriktig? (b) Effektivitet: Vems skattning, A:s eller B:s, skulle du tro mest på, m.a.o. vilken av de två skattningarna har minst varians och är effektivast? (c) Om A och B ska kombinera sina skattningar till en gemensam skattning av µ, hur bör de göra det? 161. Man gör två oberoende bestämningar x 1 och x 2 av ph-värdet µ. Dessa antas vara ett slumpmässigt stickprov från N (µ, σ). Som skattning av µ tar man medelvärdet x = (x 1 + x 2 )/2. Denna skattning, µ obs = x = (x 1 + x 2 )/2, anses som en observation av stickprovsvariabeln µ = X = (X 1 + X 2 )/2 där både X 1 och X 2 är N (µ, σ). (a) Vad är variansen för µ = X = (X 1 + X 2 )/2? (b) Vad är fördelningen för µ = X = (X 1 + X 2 )/2? (c) Om σ 2 är okänd kan den skattas med s 2. Vad är då medelfelet för skattningen µ, d.v.s. vad är d(µ )? 162. Vid en undersökning av vattenkvaliteten i Italien gjordes mätningar av ett visst bekämpningsmedel, som man visste använts i jordbruket. Följande värden (ppm) erhölls: Mätresultaten kan betraktas som observationer från oberoende s.v. X 1,..., X 5 där E(X i ) = µ och V (X i ) = σ 2. (a) Skatta µ och σ (använd din räknares inbyggda funktioner). (b) Beräkna väntevärde, varians och standardavvikelse för µ, d.v.s. för X = i=1 X i. (c) Ange medelfelet för µ, d.v.s. d(µ ).

69 Skattningar Man vill skatta en okänd parameter θ med hjälp av ett stickprov x 1,..., x n och bildar därför θ obs (θ i Bloms bok) som en funktion av värdena i stickprovet. Ange om följande påståenden är sanna eller falska. (i) Om skattningen θobs i genomsnitt ger värdet θ säger man att skattningen är väntevärdesriktig. (ii) Om E(θ ) = θ är skattningen väntevärdesriktig. (iii) Om V (θ ) = θ är skattningen väntevärdesriktig. (iv) En skattning som inte är väntevärdesriktig blir det om man ökar n tillräckligt mycket Man studerar vikten hos 10-åriga flickor i Lund och antar att vikterna kan beskrivas av en N (µ, σ). För att skatta väntevärdet µ, väljer person A slumpmässigt ut 20 flickor, väger dem och beräknar sedan medelvärdet x. Person B väljer ut 40 flickor och motsvarande medelvärde betecknas ȳ. Båda personerna har då gjort var sin skattning av µ. (a) Vad är standardavvikelsen för A:s skattning, d.v.s. teckna V ( X). (b) Vad är standardavvikelsen för B:s skattning? Vem av de två har den effektivaste estimatorn, d.v.s. den skattning som har minst varians? (c) A säger till B: Om vi ska kombinera våra skattningar till en gemensam, väntevärdesriktig skattning kan vi ta uttrycket c 1 x + c 2 ȳ, men då bör vi ha ett villkor på konstanterna c 1 och c 2, nämligen att c 1 + c 2 = 1. Har A rätt? 165. Tre personer, A, B och C, ska bestämma vikterna µ 1 och µ 2 på två brev, brev1 och brev2. Till sin hjälp har de två vågar, våg1 och våg2. A väger brev1 5 gånger på våg1, B väger brev1 3 gånger på våg2 och C väger brev2 4 gånger på våg1. När de avslutat sina mätningar fick de veta att våg2 hade ett systematiskt fel λ. Tabellen visar mätresultat (g) och förväntat mätresultat för respektive mätserie. Person Våg Förväntad vikt A våg µ 1 B våg µ 1 + λ C våg µ 2 (a) Ge en lämplig skattning av µ 1. (b) Ge en lämplig skattning av det systematiska felet λ.

70 70 Skattningar (c) Gör en lämplig skattning av σ 2, standardavvikelsen hos våg2. Hur många frihetsgrader har denna skattning? (d) Gör en lämplig skattning av σ 1, standardavvikelsen hos våg1. Hur många frihetsgrader har denna skattning? 166. Illustrera med figurer i Matlab eller R hur skattningar av µ varierar. Använd rutinen skattningar för att undersöka hur skattningar av väntevärdet µ i en normalfördelning varierar och hur variationen beror av stickprovsstorleken. Så här fungerar rutinen: Med kommandot skattningar(mu, sigma, n1, n2, ngt ) simuleras 1000 stickprov om n 1 respektive n 2 observationer från N (µ, σ). För samtliga stickprov beräknas sedan µ obs = x och σ obs = s. Om du som sista inparameter i rutinen väljer muskatt får du histogram över µ obs medan om du väljer sigmaskatt ser du hur skattningarna av σ 2 varierar. (a) Utgå från en normalfördelning N (3, 2). Antag att väntevärdet 3 är okänt för oss och att vi vill skatta det genom att ta ett stickprov, x 1,..., x n, om n observationer och bilda x Hur nära kommer skattningarna det sanna värdet om stickprovsstorleken är n 1 respektive n 2? µ Om du t.ex. väljer att ta 5 respektive 25 mätningar från N (3, 2) är kommandot skattningar(3, 2, 5, 25, muskatt ). Vilken av de två skattningarna är bäst - den baserad på 5 observationer eller den på 25 observationer? (b) Använd rutinen igen men välj ett annat (lägre) värde på σ. Hur påverkar variansen, σ 2, fördelningen för µ? (c) Vilken typ av fördelning verkar µ = 1 n n i=1 X i följa? Vad säger teorin att fördelningen ska vara när vi utgår från normalfördelade observationer och skattar µ med medelvärdet av n mätningar? (d) Använd era resultat från föregående deluppgift för att beräkna sannolikheten att skattningen avviker mer än 1 enhet från det sanna värdet µ=3 då ni använder 5 värden i stickprovet respektive 25 värden i stickprovet. I formler söker vi alltså P (2 µ 4) för de två olika stickprovsstorlekarna. Anta att σ är 2 och utnyttja Matlabs normcdf Illustrera med figurer i Matlab eller R hur skattningar av σ 2 varierar. I denna uppgift, som är en fortsättning från uppgift 166, använder du rutinen skattningar för att undersöka hur skattningarna σobs 2 = s2 varierar. Med kommandot skattningar(3, 2, 5, 25, sigmaskatt ) tar du 5 respektive 25 mätningar från N (3, 2), hur nära ligger s 2 det sanna värdet 2 2 = 4?

71 Skattningar 71 (a) Jämför de två histogrammen över σobs 2 som rutiner ger. Vilken av de två skattningarna är bäst - den baserad på 5 observationer eller den på 25 observationer? Observera hur stor avvikelsen kan vara mellan skattningen och det sanna värdet om du har få mätningar. (b) En kommentar till fördelningen för s 2 = σobs 2 (n 1)s2 : Man kan visa att är χ 2 - σ 2 fördelad med n 1 frihetsgrader. Vill du beräkna hur sannolikt det är att s 2 = σobs 2 avviker med en viss storhet från det sanna σ2 är det alltså en χ 2 - fördelning som ska användas. I matlab finns kommandot chi2cdf för fördelningsfunktionen. Om antalet mätningar n är stort är skattningen s 2 = σobs 2 approximativt normalfördelad, vilket du också kan se i rutinen om du väljer t.ex. n 2 till ett stort tal. Skattning av σ 2 baserat på flera stickprov 168. Den relativa fuktigheten (enhet %) mättes upprepade gånger med en elektronisk kapacativ mätare på två olika utborrade träprover, prov A och prov B. Nedan anges n=antal mätningar, medelvärde och standardavvikelse för de två provserierna. Prov medelvärde std n A B Man antar att standardavvikelsen för de båda mätserierna är σ, som då blir ett mått på instrumentets precision. Gör en lämplig skattning av σ, baserad på båda provserierna Kemiska analyser på mineralet hornblende kan användas bl a för åldersbestämning. Från ett stenbrott i nord-tröndelag i mellersta Norge tog man från 4 olika lokaler prover av hornblende och analyserade bl a den relativa vikten av Al 2 O 3. Hornblendematerialet är ca 600 miljoner år gammalt och data är hämtade från Leif Johansson på avd. för mineralogi och petrologi i Lund. Data finns i filen hornblende.mat. lokal modell N (µ 1, σ) N (µ 2, σ) N (µ 3, σ) N (µ 4, σ)

72 72 Skattningar Modell: För y ij som är observation nr j från lokal i; i = 1,..., 4 och j = 1,..., n i, gäller y ij = µ i + ɛ ij, där ɛ ij är oberoende slumpvariabler och normalfördelade N (0, σ). En kortare variant av modellen finns i tabellen. (a) Man vill skatta σ 2 i modellen. Varför blir det fel att betrakta hela materialet som ett stickprov bestående av 20 värden och beräkna s 2 på vanligt sätt? (b) Skatta σ 2 på ett lämpligt sätt. (c) Om hornblendematerialet vid någon lokal visar sig mindre homogent kan det få till följd att Al 2 O 3 -värdena vid denna lokal uppvisar större spridning än vid andra lokaler. Vad är då fel i ovanstående modell och hur bör den ändras? Hur hittar vi lämpliga skattningar? 170. Du kastar en tärning 100 gånger och noterar antalet femmor, antag att det blev 19 femmor. Då gäller att X=antal femmor på 100 kast Bin(100, p) där p=p(femma i ett kast). Vi säger att x=19 är en observation av slumpvariabeln X. (a) Ange en skattning av p. (b) Vad är variansen av denna skattning, d.v.s. V (p )? (c) Vad är skattningens medelfel? (d) Härled ML-skattningen för p och jämför med resultatet i (a) I ett stort parti enheter är felkvoten p. För att skatta p tas slumpmässigt en enhet i taget tills man för första gången stöter på en felaktig. Antalet utplockade enheter, inklusive den felaktiga, noteras. Denna procedur görs sex gånger och man erhåller följande antal enheter: 4, 5, 4, 6, 4, 1. Man funderar på hur man utifrån dessa data lämpligast ska skatta felkvoten p. I mer matematisk form kan situationen beskrivas så här: Den diskreta s.v. X är ffg-fördelad, d.v.s. har sannolikhetsfunktionen p X (k) = p(1 p) k 1 för k = 1, 2, 3,..., där 0 < p < 1. Man har observationer 4, 5, 4, 6, 4, 1 från denna fördelning. Använd ML-metoden för att hitta en skattning av p De tre observationerna 1.7, 1.1, 2.0 anses vara hämtade från en exponentialfördelning med täthetsfunktion f(x) = λ e λx ; x 0. Ange ML-skattningen för parametern λ.

73 Skattningar Antag att maximala våghöjden (H) på ett visst ställe ett visst år kan anses vara Rayleighfördelad, dvs täthetsfunktionen ges av f H (x) = { x a e x2 /(2a) för x 0, 0 för x < 0. där a är en okänd positiv parameter. Man har under 8 år observerat följande maximala våghöjder (i meter): (a) Beräkna ML-skattningen av a under förutsättning att de åtta observationerna kan anses vara oberoende observationer av H. (b) Beräkna med hjälp av skattningen av a, en skattning av 1000-årsvågen, med vilket menas en våg som är så hög att den i genomsnitt bara inträffar en gång per 1000 år Vid tillverkning av förpackningsmaskiner används en viss typ av elektroniska komponenter. Livslängden (timmar) hos dessa får inte vara för kort eftersom de då blir oanvändbara. Man vill göra en uppskattning av den livslängd som överstigs av 90% av komponenterna. Från produktionen valdes slumpmässigt ut 53 komponenter på vilka man mätte livslängden. Lite data från materialet: x = 60.99; 53 i=1 x2 i = ; i=1 (x i x) 2 = ; minsta värde är 4.43 och största värde är Man tittar på de 53 observationerna i ett histogram samt i tre olika fördelningspapper, se figur. De tre fördelningarna är: Fördelning frekvensfunktion för X E(X) E(X 2 ) V (X) Normal- f(x) = 1 (x µ)2 e 2σ 2 2πσ 2 µ σ 2 µ σ 2 fördelning Lognormal- f(x) = 1 x 2πσ fördelning (ln(x) µ) 2 e 2 2σ 2, x > 0 e µ+ σ2 2 e 2µ+2σ2 e 2µ+2σ2 e 2µ+σ2 Rayleighfördelning f(x) = x x2 e 2a, x > 0 (a > 0) a a π 2 2a 4 π 2 a

74 74 Skattningar (a) Vilken av de tre fördelningarna passar bäst att ansätta som modell för hur livslängden varierar? (b) Din valda fördelning i (a) har en okänd parameter (ev. flera okända parametrar beroende vilken fördelning du valt). Bestäm ML-skattningen av parametern (parametrarna). (c) Använd resultatet i (b) för att uppskatta den livslängd som överstigs av 90% av komponenterna. (d) Undersök om ML-skattningen i (b) är väntevärdesriktig.

75 Konfidensintervall Konfidensintervall NYCKELBEGREPP: Begrepp Konfidensintervall för µ Träna FMS035 (M-kurs): Maple TA, inf5-inf12 MASB11 (Biostat): Digkonfint 1-9 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel 6.5 Konfidensintervall för µ i N (µ, σ) 175. På ett ämne gjordes 5 bestämningar av smältpunkten ( C) där mätningarna anses vara normalfördelade N (µ, 2.5) (a) Beräkna ett 95% konfidensintervall för µ. (b) Är det troligt att ämnet är ren aluminum som har smältpunkt 660 C? 176. För att bestämma kvicksilverhalten hos gäddor i en viss sjö lades ett antal nät ut. Genom tidigare studier i liknande sjöar anser man sig veta att kvicksilverhalten är N (µ, σ) med σ=0.2 mg/kg. (a) Man fångade 10 gäddor och medelvärdet av kvicksilverhalten var 1.2 mg/kg. Beräkna ett 95 % konfidensintervall för µ. (b) Vilket är det minsta antalet gäddor man måste få om man vill göra ett 95% konfidensintervall för µ som är högst 0.05 mg/kg brett? 177. Illustrera med figurer i Matlab eller R. Rutinen Konfgui illustrerar hur ett konfidensintervall för µ i en normalfördelning bildas. Skriv Konfgui. Välj µ och σ i normalfördelningen, välj också antal mätningar n samt konfidensgraden 1 α på intervallet. Antag nu att µ är okänt för dig och att du vill göra ett konfidensintervall för denna okända parameter.

76 76 Konfidensintervall Den översta figuren visar dina observationer, markerade som kryss, hämtade från din angivna normalfördelning. Medelvärdet, x, av mätningarna är illustrerat med en ring. Den undre figuren visar fördelningen för µ, d.v.s. medelvärdet, och ringen visar var just ditt x hamnade. I fördelningen är också kvantiler markerade och sannolikheten att medelvärdet hamnar mellan dessa är din valda konfidensgrad. Du kan behöva kryssa i knappen scale för att få en lämplig figur. Under figuren är konfidensintervallet markerat. Observera att det utgår från medelvärdet som placeras i mitten av intervallet. Bredden på intervallet är den samma som avståndet mellan kvantilerna. Härledningen av intervallet utnyttjar att µ = X ( ) σ är normalfördelad N µ, n och därmed 1 α = P ( λ α/2 < X µ σ < λ α/2 ) = P ( X λ α/2 n σ < µ < X + λ α/2 n σ ). n σ Konfidensintervallet för µ, med konfidensgrad 1 α är då I µ = ( x λ α/2 n, x + σ λ α/2 n ). (a) Utgå från rutinen Konfgui. Var ska medelvärdet hamna för att intervallet ska missa µ? (b) Om du t.ex. valt en konfidensgrad på 0.95, hur stor andel av intervallen kommer att missa i det långa loppet? Testa genom att trycka på knappen plot ett antal gånger för att se hur intervallen varierar. (c) Vad händer med fördelningen för µ-skattningen och vad händer med intervallen då du ökar n antalet mätningar? (d) Vad händer med fördelningen för µ-skattningen och vad händer med intervallen då du ändrar på σ? 178. Illustrera med figurer i Matlab eller R hur intervallen varierar. Vi använder rutinen skattningar igen för att simulera konfidensintervall för µ i en N (µ, σ). Genom att skriva skattningar(mu,sigma,n1,n2, konfint ) simuleras 1000 stickprov om n 1 respektive n 2 observationer och konfidensintervall beräknas. Rutinen ger två figurer där 100 st 95% konfidensintervall för µ är markerade. (a) Använd rutinen skattningar, välj själv värden på µ, σ, n 1 och n 2 (t.ex. n 1 = 5 och n 2 = 25). Betrakta de 100 st 95% konfidensintervallen för µ som är baserade på n 1 = 5 observationer. Hur många intervall missar det sanna värdet på µ? Verkar resultatet rimligt? (b) Studera den andra figuren och fundera på vad som händer om man istället tar n 2 = 25 observationer när man gör intervall för µ. Hur skiljer sig dessa intervall

77 Konfidensintervall 77 från de som baserades på n 1 = 5 observationer? Är det fler eller färre intervall som missar µ? Vad säger teorin att det bör vara? 179. I uppgift 162 angavs 5 bestämningar av halten (ppm) av ett visst bekämpningsmedel i en å och från data beräknades x = 0.16 och s = Gör ett tvåsidigt 95% konfidensintervall för µ, den genomsnittliga halten av det undersökta bekämpningsmedlet i ån Fortsättning från uppgifterna 162 och 179. Gör man ett tvåsidigt 95% konfidensintervall för µ, den förväntade halten av det undersökta bekämpningsmedlet i ån blir det I µ =(0.14, 0.18). Vilka av följande påståenden är sanna och vilka är falska? (a) Gör jag en ny mätning av halten bekämpningsmedel i vattendraget kommer denna halt att ligga i intervallet med sannolikheten (b) Om jag vill halvera bredden på intervallet måste jag ta ungefär dubbelt så många mätningar. (c) Om jag vill göra ett 99% konfidensintervall för µ, baserat på samma mätningar, blir det bredare än det angivna intervallet. (d) Om jag gjorde många mätningar av halten skulle ca 95% av mätningarna ligga i intervallet Helt oberoende av varandra, gör 20 personer mätningar på en stokastisk variabel som är N (µ, σ). Sedan använder var och en av de 20 personerna sina egna mätningar för att göra ett 95% konfidensintervall för µ. (a) Vad är sannolikheten att samtliga 20 intervall kommer att täcka över, µ? (b) Vilket är det troligaste värdet på det antal intervall som kommer att missa µ? 182. Illustrera med Matlab eller R hur känt respektive okänt σ påverkar intervallet för µ. När σ är okänt används en skattning av standardavvikelsen i konfidensintervallet för µ. Samtidigt byts λ-kvantilen ut mot en t-kvantil. Hur stor är skillnaden mellan kvantilerna och hur påverkas intervallet? Rutinen kvantilintervall(sigma,1-alpha) visar avvikelsen mellan t α/2 (n 1) och λ α/2 för olika värden på n. Du får också en uppfattning om hur bredden på konfidensintervallen för µ påverkas av om vi antar att σ är känt respektive okänt. Välj värde på σ och konfidensgraden 1 α, utskriften blir följande tabell:

78 78 Konfidensintervall n σ s λ α/2 t α/2 (n 1) σ λ α/2 n Observera följande: t α/2 (n 1) s n (a) När du jämför t α/2 (n 1) med λ α/2 gäller att t α/2 (n 1) > λ α/2 för alla n. Avvikelsen minskar då n växer, d.v.s. för stora n är t α/2 (n 1) λ α/2. (b) Då n är litet kan skattningen av s = σ skilja sig mycket från det verkliga värdet på σ medan avvikelsen mellan skattning och verkligt värde tenderar att vara liten då n är stort. (c) De två sista kolumnerna i tabellen anger intervallets bredd då vi antar σ är känd, respektive då σ är okänd. Notera hur stor skillnaden kan vara för låga värden på n, en följd av att s en osäker skattning av σ samtidigt som t α/2 (n 1) är större än λ α/2. Med ökande värde på n blir däremot intervallens bredd ungefär de samma oavsett om vi antar att σ är känt eller inte Illustrera ensidiga intervall för µ med figurer i Matlab eller R. För att illustrera ensidiga intervall kan du använda rutinen konfgui. Välj ett uppåt begränsat intervall. Observera hur det motsvaras av att studera kvantiler i den nedre svansen av fördelningen för µ = X. Härledningen ( av) ett uppåt begränsat intervall utnyttjar att µ = X är normalfördelad N µ, n och därmed 1 α = P ( λ α < X µ σ σ ) = P (µ < X + λ α/2 n σ ). n σ Konfidensintervallet för µ, med konfidensgrad 1 α är då I µ = (, x + λ α/2 n ). Härled på motsvarande sätt ett nedåt begräsat intervall för µ Asbest är förbjudet sedan länge, men finns framförallt kvar i äldre byggnader och är en risk för de som arbetar i byggbranschen. På en rivningsarbetsplats gjordes 5 mätningar av mängden fibrer (fibrer/cm 3 ) som är tunnare än tre mikrometer i diameter. Från mätningarna fick man: x = 0.09 och s = Antag att för mätningarna på fiberhalten gäller en normalfördelning med väntevärde µ och standardavvikelse σ. (a) Beräkna ett tvåsidigt 95 % konfidensintervall för µ. (b) För arbetarna är ett ensidigt intervall av större intresse. Vilken typ av intervall är det? Beräkna det intressanta ensidiga intervallet.

79 Konfidensintervall 79 (c) Om gränsvärdet för asbest är 0.1 fibrer/cm 3, vilken slutsats drar du från ditt ensidiga intervall? Välj rätt(a) alternativ: i. Genomsnittlig asbetshalt är troligen för hög på arbetsplatsen. ii. Med dessa data har vi inte kunnat påvisa att genomsnittlig asbetshalt understiger gränsvärdet. iii. Genomsnittlig asbetshalt är troligen under gränsvärdet på arbetsplatsen. iv. Gränsvärdet är understiget eftersom x = 0.09 < 0.1.

80 80 Hypotestest 4.3 Hypotestest NYCKELBEGREPP: Begrepp Film Träna Grundläggande begrepp Hypotes1 FMS035 (M-kurs): Maple TA, inf13-inf22 Styrkefunktion Hypotes2 MASB11 (Biostat): Digtest 1-17 Direktmetoden Hypotes3 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel Grundläggande begrepp 185. En av de första uppgifterna en grupp laborationsovana studenter i en kurs fick var att mäta mängden koppar i impregnerat trä med hjälp av atomabsorbtionsspektrofotometri. Injicerat var en kopparstandard med koncentration 100 ng/l. När laborationsgrupp 3 ska göra sina mätningar hanterar de instrumentet på ett sådant sätt att man misstänker att de introducerar ett systematiskt fel och får för låga värden. I en serie på 9 mätningar fick de följande resultat (ng/l) Som modell ansätter man att mätningarna är normalfördelade, dvs x 1,..., x 9 är observationer av X N (µ, σ). Här tolkas µ som väntevärdet av gruppens mätningar medan σ är ett mått på gruppens mätprecision. Antag (något orealistiskt) att vi anser oss känna att σ = 6 (ng/l). (a) Du ska undersöka om laborationsgruppen har ett systematiskt fel i sina mätningar, dvs att µ inte är 100 utan ett lägre värde. Om du ska göra detta med ett hypotestest, hur ser då nollhypotes (H 0 ) och mothypotes (H 1 ) ut? (b) Det verkar rimligt att jämföra medelvärdet av gruppens mätningar, x, med nollhypotesens värde 100. Vilket är testets kritiska område, d.v.s. vid vilket av följande alternativ bör man förkasta H 0? 1. När x ligger en bra bit under 100, t.ex. då x k, där k är mindre än När x ligger en bra bit över 100, t.ex. då x k, där k är större än 100. (c) Illustrera testet med figur i Matlab eller R. Använd rutinen hypotes för att illustrera det kritiska området i figur. I rutinen ska förutom värdet på σ,

81 Hypotestest 81 antal mätningar, µ 0 och riktningen på H 1 även anges testets signifikansnivå α. Kommandot är hypotes(sigma,n,mu0,alpha, H1-riktning ). Om α = 0.05 blir kommandot i detta exempel hypotes(6,9,100,0.05, < ). Vad är det kritiska området? Vad är tolkningen av α i figuren. (d) Beräkna värdet på k eller, om du har det angivet i figur, fundera ut hur det beräknats. Beräkna x utifrån data och utför testet på signifikansnivå α = Vad är slutsatsen, kan H 0 förkastas på denna nivå? Tyder data på att gruppen har ett systematiskt fel i sina mätningar så att de avläser ett för lågt värde? (e) Utför testet på signifikansnivå α = Vad är slutsatserna du drar från detta test? 186. Illustrera testets styrka med figurer i Matlab eller R. Fortsättning från uppgift 185. Om gruppen har ett systematiskt fel på 5, d.v.s. de mäter alltid 5 enheter för lågt, innebär det att sanna värdet på µ är 95. Vad är då sannolikheten att vi med vårt test kommer upptäcka att H 0 : µ = 100 är falsk, d.v.s. att vi förkastar H 0? Denna sannolikhet är testets styrka i punkten 95. (a) Utvidga inparametrarna i rutinen hypotes med en sjätte parameter: hypotes(6,9,100,0.05, <, sant värde på mu) och se hur styrkan kan illustreras i figur. För µ = 95 är alltså kommandot hypotes(6,9,100,0.05, <,95). Uttryck i ord vad beta, sannolikheten för fel av typ 2, står för i detta exempel. Vad är testets styrka i punkten µ = 95? (b) Hur stor är testets styrka om gruppen har ett systematiskt fel på 1 enhet? Hur stor är sannolikheten att upptäcka att gruppen har ett systematiskt fel om de i genomsnitt mäter 3 enheter för lågt? (c) Genom att studera styrkan som en funktion av µ har man testets styrkefunktion, denna funktion ritas upp med hjälp av rutinen styrkefkn(sigma,n,mu0,alpha,h1-riktning). Skapa ett nytt fönster (figure), använd kommandot styrkefkn(6,9,100,0.05, <,95) och jämför resultaten som de båda rutinerna ger. (d) Hur påverkas testets styrka av antalet mätningar? Antag att gruppen har ett systematiskt fel på 3. Hur stor är sannolikheten att vi ska upptäcka att H 0 är falsk om testet baserar sig på t.ex. 15 mätningar i stället för 9? Använd styrkefkn för att undersöka hur värdet på n påverkar styrkan för ett fixt µ. Observera att testeta styrka inte baserar sig på våra mätresultat! Övervägningar av det här slaget kan man alltså göra innan man samlar in data. (e) Undersök på motsvarande sätt hur värdet på σ påverkar testets egenskaper. Notera speciellt, t.ex. genom rutinen hypotes, att ju mindre värdet på σ är,

82 82 Hypotestest desto lättare är det att separera fördelningen centrerad kring µ 0 från den som är centrerad kring µ. (f) Undersök hur styrkan påverkas när du ändrar signifikansnivån α men håller de andra parametrarna fixa. Använd t.ex. rutinen styrkefkn och illustrera i två separata fönster situationen då gruppen har ett sant värde på µ = 95, n = 9, σ = 6 men vi använder α = 0.05 (styrkefkn(6,9,100,0.05, <,95)) respektive α = 0.01 (styrkefkn(6,9,100,0.01, <,95)) Enligt antidopningsbyrån Wada är en koncentration som överstiger 150 mikrogram per milliliter av pseudoefedrin i urinen att betrakta som dopning. På en manlig ishockeyspelare gjordes tre mätningar: 160, 155, 150 (mikrogram per milliliter). Antag att en normalfördelning med väntevärde µ och standardavvikelse σ där σ = 5 är en rimlig modell. (a) Ställ upp lämpliga hypoteser och undersök om data tyder på att ishockeyspelaren är dopad enligt Wadas regler. Gör testet på signifikansnivå 5 %. (b) Illustrera med figur i Matlab eller R. Rita upp den styrkefunktion som hör ihop med testet i (a) genom att använda rutinen styrkefkn. Kommandot är styrkefkn(5,3,150,0.05, > ). Antag att ishockeyspelaren är dopad så att hans verkliga µ är 155 mikrogram per milliliter. Avläs från figuren, hur stor sannolikheten är att han inte åker fast i dopningskontrollen? (c) Beräkna, eller avläs i rutinen styrkefkn, sannolikheten att han inte åker fast i dopningskontrollen då hans verkliga µ är 160 mikrogram per milliliter Läkemedel kan ge en nedsatt salivkörtelproduktion, vilket är en riskfaktor för karies och andra sjukdomar i munhålan. På 7 slumpmässigt valda patienter som alla fick samma medicin mätte man under 5 minuter den så kallade tuggstimulerade saliven Normal mängd saliv under dessa förhållanden är 1 ml/min och muntorrhet anses föreligga när mängden saliv understiger 0.7 ml/min. Som modell antog man att salivmängden är normalfördelad med väntevärde mu och standardavvikelse sigma, där sigma anses vara 0.4 ml/min. (a) Stöder data vår misstanke att medicinen sänker salivproduktionen? (b) Om medicinen ger upphov till en genomsnittlig salivproduktion på 0.8 ml/min, hur troligt är det att vi kommer att missa den nedsatta salivproduktionen med vårt test? Gör en exakt beräkning eller använd någon av rutinerna hypotes eller styrkefkn.

83 Hypotestest 83 (c) Hur många patienter ska vi mäta på om vi vill att testet ska upptäcka en nedsatt salivproduktion på 0.7 ml/min med sannolikheten 0.95? Gör en exakt beräkning eller använd någon av rutinerna hypotes eller styrkefkn Antag att du har n observationer från N (µ, σ) och vill testa att µ=6. För att göra det konkret, anta att du vid en längdmätning vill pröva om längden av en sträcka kan vara 6 genom att göra n mätningar. Antag vidare, att man gjort upprepade bestämningar tidigare med samma instrument och därför anser att man känner dess variation på denna typ av längdmätningar och att σ 2 är 0.6. Du har alltså ett stickprov x 1,..., x n från N ( µ, 0.6 ) och vill testa H 0 : µ = 6 mot H 1 : µ 6 på signifikansnivå α. Hur bra är detta test? Intressanta frågor kan t.ex. vara: Om den verkliga längden inte är 6 utan 5.5 kommer vi då att upptäcka att H 0 är falsk med detta test? Hur många bestämningar måste jag göra för att med sannolikheten 0.90 upptäcka att H 0 är falsk då µ i själva verket är 7? Denna typ av frågor kan besvaras med hjälp av testets styrkefunktion som definieras som S(µ) =P(H 0 förkastas det sanna ph-värdet är µ). (a) Illustrera med figurer i Matlab eller R. Använd styrkefkn för att se hur styrkefunktionen ser ut då testets signifikansnivå α är 0.05, σ 2 =0.6 och stickprovsstorleken n är 5. Kommandot är styrkefkn(0.6,5,6,0.05,!= ). i. Hur stor är sannolikheten att förkasta H 0 att µ = 6 när µ i själva verket är 5.5? ii. Hur många mätningar måste du göra för att med sannolikheten 0.90 upptäcka att H 0 är falsk då µ i själva verket är 7. Antag att α = (b) Hur skulle en ideal styrkefunktion se ut i det här exemplet? Skissa den på papper! Ni vill naturligtvis att sannolikheten att förkasta H 0 ska vara liten om µ verkligen är 6, men att sannolikheten ska vara stor så fort µ avviker från 6 (dvs om H 0 inte är sann). (c) Styrkefunktionen beror på felrisken α, variansen σ 2 och stickprovsstorleken n. För att förbättra styrkefunktionen, d.v.s. få den att bli mer lik den ideala har du olika strategier till ditt förfogande. Avgör vilka av följande åtgärder som ökar styrkan i en fix punkt µ: (i) öka α (ii) minska α (iii) öka σ 2 (iv) minska σ 2 (v) öka n (vi) minska n

84 84 Hypotestest Vilken strategi tror du är enklast att genomföra i praktiken då man t.ex. gör längdmätningar? 190. För att undersöka om en ny stållegering ökar sträckgränsen gör man 9 mätningar och testar nollhypotesen µ 190 (N/mm) mot mothypotesen µ > 190 på signifikansnivån Man önskar studera testets styrka. Ange om följande påståenden är sanna eller falska. (i) Om den okända sträckgränsen µ är 200 vill man att testets styrka ska vara stor. (ii) Testets styrka då den okända sträckgränsen µ är 190 är (iii) Om den okända sträckgränsen µ är 180 vill man att testets styrka ska vara stor. (iv) Testets styrka bör minska med ökande värde på µ. Samband med konfidensintervall 191. I en laboration i kursen Cellbiologi kalibrerades en Gilsonpipett med pipettinställningen 200 (µl). Vid fem mätningar användes en analysvåg för att registrera vikten av vattnet som kom från pipetten. Eftersom vattnets densitet vid 20 C är (g/ml) kunde man med en enkel division, för varje försök, bestämma volymen vatten från pipetten. Resultat: Pipettinställning (µl) Volymmätning (µl) (a) Ange medelvärde och standardavvikelse för de fem mätningarna. (b) Antag att mätningarna varierar enligt en normalfördelning som är centrerad kring µ, där µ tolkas som den förväntade volymen hos pipetten när den är inställd på 200 (µl). Bestäm ett 95 % konfidensintervall för µ. (c) Man vill avgöra om pipetten verkar vara felinställd. Sätt upp lämpliga hypoteser H 0 och H 1. (d) Använd resultatet i (b) för att utföra testet på signifikansnivå 5 % Våra 10 mätningar antas vara normalfördelade N (µ, 0.4). Vi vill testa H 0 : µ = 3; H 1 : µ > 3 på nivå 5 % och vill göra det med hjälp av ett konfidensintervall.

85 Hypotestest 85 (a) Illustrera med figurer i Matlab eller R. Använd rutinen Konfgui för att illustrera sambandet mellan hypotestest och konfidensintervall. Vilket typ av intervall ska användas vid testet, uppåt eller nedåt begränsat intervall? Vad gäller för intervallet då H 0 förkastas? (b) Sambandet mellan hypotestest och konfidensintervall i detta fall kan härledas: σ H 0 förkastas på nivå α om x > µ 0 + λ α n σ, d.v.s. om µ 0 < x λ α n. Men σ eftersom x λ α n är gränsen i ett nedre begränsat intervall för µ med konfidensgrad 1 α innebär det att H 0 ska förkastas om µ 0 ligger utanför (under) intervallet. Härled själv motsvarande koppling mellan hypotestest och konfidensintervall för hypoteserna H 0 : µ = µ 0 ; H 1 : µ < µ 0 samt för hypoteserna H 0 : µ = µ 0 ; H 1 : µ µ I uppgift 185 gjorde en laborationsgrupp 9 mätningar av Cu-halten i en träbit där en kopparstandard med koncentration 100 ng/l var injicerad. Mätningarna anses vara normalfördelade N (µ, 6) och medelvärdet av deras mätningar var ng/l. (a) Gör ett 95 % konfidensintervall för µ, gruppens förväntade värde, och undersök om H 0 : µ = 100 (inget systematisk fel i mätningarna) kan förkastas på nivå 5 % till förmån för mothyptesen H 1 : µ < 100 (gruppen mäter systematisk för låga värden). (b) Utför testet även på nivå 1 % genom att beräkna ett konfidensintervall. Direktmetoden 194. I denna fortsättning från uppgifterna 185 och 193 ska du utföra testet med direktmetoden. Medelvärdet av gruppens mätningar blev x = Ovan såg du att H 0 : µ = 100 kunde förkastas på nivå 0.05 men inte på nivå I direktmetoden fixeras inte en signifikansnivå α utan det beräknas direkt utifrån mätningarnas medelvärde: P-värde=P( att få det värde man observerade eller något mer extremt H 0 gäller)=p( X X ( 6 N 100, 9 )). (a) Beräkna testets P-värde genom att utgå från uttrycket ovan. (b) Illustrera med figurer i Matlab eller R. Rutinen Pvarde(sigma,n,mu0,alfa,H1-riktning,medel) illustrerar skillnaden och likheterna mellan att utföra testet med direktmetoden eller att testa utifrån ett fixt α-värde. Skriv kommandot Pvarde(6,9,100,0.05, <, ) där

86 86 Hypotestest sista inparametern anger medelvärdet på gruppens mätningar. I den övre figuren är medelvärdet utritat och testet utfört på nivå alfa. I den undre figuren beräknas P-värdet (benämns ibland α 0 ) och slutsatser dras direkt från detta värde. Testa vad som händer då α i rutinen byts ut mot Fortsättning från uppgift 188 där salivmängden hos 7 patienter som tar ett visst läkemedel anses vara N (µ, 0.4). Man vill testa H 0 : µ = 1 (normal salivmängd) mot H 1 : µ < 1 (minskad salivmängd). Medelvärdet av de 7 salivmätningarna var ml/min. Beräkna testets P-värde. Finns det anledning att misstänka att läkemedlet sänker salivproduktionen? 196. Fortsättning från uppgift 195. I testet blev P-värdet Vilken eller vilka påstånden är en korrekt slutsats från testet? (a) Sannolikheten att läkemedlet leder till minskad salivmängd är 0.03 (b) Sannolikheten att läkemedlet inte leder till minskad salivmängd är 0.03 (c) Det är 3 % av patienterna som får sänkt salivproduktion (d) Talet 0.03 motsvarar sannolikheten att medelvärdet från 7 patienter är eller lägre för ett läkemedel som inte ger upphov till muntorrhet (e) Det är 3 % risk att vi påstår felaktigt att läkemedlet sänker salivproduktionen när det i själva verket inte gör det (f) Det är 3 % risk att vi påstår felaktigt att läkemedlet inte sänker salivproduktionen när det i själva verket gör det

87 Vanliga statistiska modeller Inferens i några vanliga statistiska modeller NYCKELBEGREPP: Begrepp Inferens för väntevärdet i ett normalfördelat stickprov Jämförelse av två väntevärden Inferens för diskreta data Inferens för kategoridata Träna FMS035 (M-kurs): Maple TA, inf23-inf25 MASB11 (Biostat): Digmodell LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel , , Olsson, Englund och Engstrand Kapitel Inferens för väntevärdet i ett normalfördelat stickprov 197. Vid 10 mätningar av fukthalt av ett visst trämaterial fick man ett medelvärde x = 0.54 och en standardavvikelse s = Mätningarna kan anses vara observationer från en normalfördelad stokastisk variabel med fukthalt µ och med okänd varians. (a) Bestäm ett 95% konfidensintervall för fukthalten. (b) Vid ett annat tillfälle mättes fukthalten vid 20 mätningar och ett 95% konfidensintervall för den okända fukthalten µ blev I µ = (0.60, 0.69). Ange om följande påståenden är sanna eller falska. (i) 95% av de 20 observationerna (d.v.s. 19 st) ligger mellan 0.60 och (ii) Från intervallet kan vi dra slutsatsen att H 0 : µ = 0.65 kan förkastas på signifikansnivå (iii) Från intervallet kan vi dra slutsatsen att x = 0.63 med sannolikheten (iv) Ju större variation vi har i de 20 mätningarna desto smalare blir intervallet Hur mycket energi producerar landbaserade vindkraftverk? Under 31 månader gjordes mätningar av producerad energi (kwh) från ett vindkraftverk som var placerat i närheten av ett skogsområde. Betrakta de 31 mätningarna x 1,..., x 31 som oberoende. Några enkla statistiska mått beräknades för de 31 mätningarna: x =

88 88 Vanliga statistiska modeller 1 kwh, s = i=1 (x i x) 2 = kwh. Man vill med 99 % säkerhet kunna säga att förväntad energiproduktion från detta vindkraft en månad överstiger kwh. Kan man det? Besvara frågan genom att göra ett lämpligt konfidensintervall för µ, väntevärdet för en månads energiproduktion DATAMATERIAL: kamin. Skorstenslösa kaminer som eldas med bioetanol är ett alternativ för den som inte har möjlighet att installera öppen spis. Rent teoretiskt bildas vid förbränningen enbart koldioxid och vatten men, beroende på bränslets sammansättning och vilken förbränningstemperatur som uppnås, kan även en rad giftiga ämnen bildas och spridas i rummet. Vid en undersökning av 15 kaminer av en viss typ mätte man mängden kväveoxid (mg/m 3 ) i rummet där kaminen stod. Resultatet finns i filen kamin. (a) Gränsvärdet för kväveoxid inomhus är 0.35 mg/m 3. Undersök om data tyder på att den förväntade kväveoxidhalten hos denna typ av kamin överstiger gränsvärdet. (b) Antag att förväntad kväveoxidhalt för denna typ av kamin är 0.4 mg/m 3. Hur många kaminer ska vi mäta på för att med sannolikheten 0.99 upptäcka att gränsvärdet är överskridet när vi gör ett test på signifikansnivå 0.05? Antag att normalfördelning är en lämplig modell och att skattad standardavvikelse i materialet är en bra skattning av det sanna värdet på σ i fördelningen DATAMATERIAL: abborre. Mätningar av kvicksilverhalten i abborre görs regelbundet inom Naturvårdsverkets miljö- och övervakningsprogram. I filen abborre finns Hg-halten (mg/kg) i muskel hos 44 abborrar fångade i Brunnsjön i Emmaboda kommun. Om µ betecknar väntevärdet för Hg-halten hos en slumpmässigt vald abborre så vill man med stor säkerhet kunna säga att µ understiger 0.5 mg/kg. Kan man det? 201. Man har gjort ett 95 % konfidensintervall, baserat på 9 mätningar, för µ i en normalfördelning med okänt σ. Detta intervall blev (4.5, 6.2). Nu vill man använda samma data för att göra ett intervall för µ som har konfidensgrad 99 %. Hur kommer det nya intervallet att se ut? 202. Man vill undersöka halten av bly på en viss arbetsplats. Vid mätning av halten uppkommer ett analysfel varför ett mätresultat kan anses vara ett utfall av en slumpvariabel som är N (m, σ) där m är den verkliga halten (i ppm) och standardavvikelsen

89 Vanliga statistiska modeller 89 σ är ett mått på analysmetodens precision. Vid en undersökning görs fem oberoende mätningar och man får följande resultat (a) Gör ett tvåsidigt 95 % konfidensintervall för m. (b) Ur de anställdas synpunkt är det mer intressant att studera ett ensidigt konfidensintervall. Vilken typ av intervall är det? Beräkna intervallet En förpackningsmaskin fyller på kaffe i förpackningar. Mängden kaffe i en förpackning varierar enligt en normalfördelning N(µ, σ) där man anser sig veta att standardavvikelsen σ är 20 g. I förpackningarna ska den genomsnittliga kaffemängden vara minst 500 g och nu vill man kontrollera att maskinen inte är felinställd så att den i genomsnitt förpackar för liten mängd kaffe. Nio förpackningar valdes ut slumpmässigt och kaffeinnehållet vägdes (enhet g): (a) Tyder data på att maskinen är felinställd och förpackar i genomsnitt för lite kaffe? Ange lämpliga hypoteser och utför ett test på signifikansnivån 1%. (b) Antag att maskinen är felinställd så att den förpackar i genomsnitt enbart 490 g kaffe. Beräkna sannolikheten att vi inte kommer att upptäcka felinställningen? 204. I en rapport står följande: Vi mätte upprepade gånger avståndet med vårt egenhändigt konstruerade instrument. Vi anser oss veta att mätfelen är normalfördelade med standardavvikelse σ = Ett 99% konfidensintervall för avståndet blev (1.042, 1.178). Hur många mätningar hade man gjort? 205. Vi vill undersöka om fluorhalten i vattenprov från en gårdbrunn understiger gränsvärdet 0.2 (ppm). Om flourhalten är för låg bör man nämligen, av tandhälsoskäl, tillsätta fluor till vattnet. Låt µ (ppm) vara den verkliga fluorhalten i vattnet. Ange om följande påståenden är sanna eller falska. (a) Nollhypotesen H 0 : µ = 0.2 respektive mothypotesen H 1 : µ < 0.2 är lämpliga. (b) Om ett ensidigt 95 % konfidensintervall för µ beräknats till I µ = (0, 0.22) så kan vi säga att fluorhalten är signifikant för låg. (c) Om nollhypotesen H 0 : µ = 0.2 inte kan förkastas så betyder det att vi kan vara ganska säkra på att fluorhalten verkligen är 0.2 (ppm).

90 90 Vanliga statistiska modeller (d) Eftersom vi fått att x = 0.19 kan vi dra slutsatsen att fluorhalten är signifikant lägre än DATAMATERIAL: aluminium. Driftsledningen vid ett vattenverk misstänker att aluminiumhalten i det dricksvatten som de producerar kan vara för hög på grund av driftsstörningar. Halten ska normalt vara mycket låg, ungefär 30 ppb. Ungefär en gång i veckan under några månader togs ett vattenprov och Al-halten bestämdes, data finns i filen aluminium.mat. Undersök om driftsledningens misstanke är befogad. Du får anta att aluminiumhalterna är oberoende och normalfördelade Ett konfidensintervall för den förväntade verkningsgraden hos en kamin anges till ± 2.05 procent. Detta intervall är baserat på ett stickprov om 10 kaminer där stickprovsstandardavvikelsen beräknades till s = procent. Vad är intervallets konfidensgrad? 208. Surhetsgraden i ett vattendrag bestäms varje fredag med hjälp av en ph-meter. Vid bestämningen uppstår ett fel η som antas vara normalfördelat med väntevärde och standardavvikelse σ 1 =0.05. Här bör (= systematiska felet) vara 0 men på grund av feljustering av ph-metern misstänker man att är 0.3. För att undersöka phmeterns feljustering gör man i ett laboratorium 5 oberoende bestämningar av phvärdet på en lösning med känt ph-värde = 7, varvid medelvärdet av bestämningarna blev Gör ett 95% konfidensintervall för det systematiska felet. Motsäger ditt resultat den tidigare misstanken att det systematiska felet skulle vara 0.3? 209. Brottgränsen för en viss typ av betong anses vara N (µ, 1.2). Tillverkaren påstår att µ = 5.5 men Leo misstänker att det är lägre. Han testar hypotesen H 0 : µ = 5.5 mot H 1 : µ < 5.5 och använder följande testregel: Tag slumpmässigt 9 provstycken betong, mät brottgränsen och förkasta H 0 om medelvärdet av de 9 provstyckenas brottgräns understiger (a) Vad har han för felrisk i detta test? (b) Antag att brottgränsen i själva verket är 5.2. Vad är sannolikheten att Leo kommer att förkasta H 0, dvs upptäcka att µ inte är 5.5? (c) Leo blir inte alls nöjd med svaret i (b) då han anser att denna sannolikhet är alldeles för låg. Ge honom tips hur han kan öka styrkan (d.v.s. sannolikheten) i punkten 5.2 men samtidigt bibehålla den felrisk som du beräknade i (a).

91 Vanliga statistiska modeller Vid arbete på vägbanan sätts skyltar upp som begränsar hastigheten men vägarbetarna klagar ofta på att bilisterna visar för lite hänsyn och kör för fort. Vid ett tillfälle mätte man hastigheten (km/h) hos ett antal bilar som passerade ett vägarbetsområde. Man noterade följande från datamaterialet: Antal medelvärde median standardavvikelse varians maxvärde minvärde (a) I figuren nedan visas ett histogram över hastigheterna (övre till vänster). Man ville fördjupa analysen genom att anpassa en standardfördelning till data och prövade därför att rita ut observationerna i olika fördelningspapper: normalfördelning (övre höger), lognormalfördelning (undre vänster) samt Weibullfördelning (undre höger). Vad är din slutsats angående fördelningen för hastigheterna? (b) Man vill göra ett konfidensintervall för µ, den förväntade hastigheten hos en bil. Gör ett sådant intervall med hjälp av en lämplig approximation. Använd den approximativa konfidensgraden 95% i intervallet. (c) En av vägarbetarna säger: I genomsnitt kör de i 30 km/h förbi arbetsområdet. Har hen rätt? 211. Man mätte calciumhalten i 35 jordprov, beräknade medelvärde och standardavvikelse för dessa mätningar och fick (enhet mg) x = 17.4 samt s = 8.7. Ett normalfördelningsdiagram visade att calciumhalterna definitivt inte var normalfördelade. Kan man i alla fall få en uppfattning om hur stor den förväntade calciumhalten i jordprovsområdet är?

92 92 Vanliga statistiska modeller 212. DATAMATERIAL: maxhastighet. Man frågade 124 slumpmässigt utvalda ungdomar hur fort de kört en bil när de kört som fortast. Data finns i filen maxhastighet. (a) Undersök om hastigheterna verkar kunna modelleras med någon standardfördelning. (b) Man är intresserad av, p, sannolikheten att en ung förare har en maxhastighet som överstiger 170 km/h. Gör en uppskattning av denna sannolikhet genom att använda den anpassade fördelningen från (a). (c) Gör ett konfidensintervall för förväntad maxhastighet hos ungdomar i allmänhet? 213. DATAMATERIAL: dricksvatten. Vid vissa sorters gruvdrift får man avfallsprodukter som är svagt radioaktiva. Under olyckliga omständigheter kan dessa via spillvatten läcka ut i grundvattnet och nå någon dricksvattentäckt. För dricksvatten är det rekommenderade gränsvärdet 5 picocurie per liter vatten. Från staden Wiks dricksvattentäckt tog Wilma 10 prover och mätte strålningen, data finns i filen dricksvatten.mat. När hon tittar på data tycker hon att en modell där strålningen beskrivs av en normalfördelning inte verkar orimlig. Från vattenbolagets ledning har man uttalat policyn: Vi måste med stor säkerhet kunna visa att strålningen understiger gränsvärdet på 5 picocurie. Kan Wilma det? 214. Vid tillverkning av tabletter vill läkemedelsföretaget att tabletterna ska ha en bestämd ythårdhet och denna egenskap följs kontinuerligt i tillverkningsprocessen. Man antar att hårdheten mellan olika tabletter varierar enligt en normalfördelning med standardavvikelse 0.2 enheter. Målvärdet för den förväntade hårdheten, µ, är 11.5 enheter men man misstänker att det kan bli lägre än den nivån. För att övervaka ythårdheten väljer man slumpmässigt ut n enheter ur produktionen och använder medelvärdet som testvariabel. (a) Ställ upp lämpliga hypoteser. (b) Antag att n = 9 och att medelvärdet blev Är misstanken om att förväntad ythårdhet understiger 11.5 befogad om risken för falsklarm får högst vara 5%? (c) Antag att n = 9 och att ythårdheten i själva verket är 11.3 enheter. Beräkna sannolikheten att man inte slår larm? (d) Avgör om följande påståenden är sanna eller falska.

93 Vanliga statistiska modeller 93 i. Om vi vill förbättra proceduren för övervakning eftersträvar vi att det värde som beräknades i (c) ska bli lägre. ii. Om vi minskar risken för falsklarm (men behåller n och σ konstant) kommer testets styrka i 11.3 att öka. iii. Om vi ökar n (men behåller risken för falsklarm och σ konstant) kommer testets styrka i 11.3 att öka. iv. Om vi lyckas minska standardavvikelsen σ (men behåller risken för falsklarm och n konstant) kommer testets styrka i 11.3 att öka Wilma har på ett projektarbete fått i uppgift att åka runt till olika gårdar och mäta olika vattenkvalitetsvariabler i gårdarnas vattenbrunnar (de flesta har eget vatten). Bland annat ska hon mäta och analysera fluorhalten i vattnet för att sedan kunna ge riktlinjer om halten är tillräcklig hög. (a) Fluorhalten i dricksvattnet bör ej understiga 0.2 (ppm). Vid en gård gör Wilma tre mätningar och får 0.19, 0.17 respektive Vilka slutsatser ska hon dra om hon vill uttala sig med en signifikansnivå på 0.05? Använd ett lämpligt test, ange hypoteser och slutsatser. (b) Vi har inte råd att ta mer än dubbelprovningar av vattnet säger Wilmas projektledare. Wilma funderar på hur detta kommer att påverka testets styrka. Hon antar, efter att noga ha studerat gamla mätningar, att fluorhaltsmätningarna är observationer från en N (µ, σ) där σ kan uppskattas till och där µ kan tolkas som verklig fluorhalt i brunnen. Antag att Wilma har som önskan att med minst sannolikheten 0.90 upptäcka att fluorhalten understiger 0.2 då hon gör ett test på signifikansnivå För vilka värden på den verkliga fluorhalten µ är detta uppfyllt då man endast får ta två prover? 216. DATAMATERIAL: mossa. Halten av järn (mg/kg) i mossa mättes på 51 olika platser i Skåne och data finns i filen mossa. (a) Undersök om en rimlig modell är att de 51 mätningarna kommer från en normalfördelad slumpvariabel. (b) Gör ett 95% konfidensintervall för µ, den genomsnittliga Fe-halten. Ange den modell du använder samt hur intervallet ser ut. (c) När Wilma får se intervallet reagerar hon över att det är så brett fastän det är baserat på så många mätningar, vad är din förklaring? (d) Finns det något annat rimligt lägesmått för Fe-halten än medelvärdet i detta fall? Ange det i så fall.

94 94 Vanliga statistiska modeller 217. Dubbelbestämningar av klorhalten i dricksvatten under 5 olika dagar gav följande resultat: Dag Klorhalt Antag att värdena är normalfördelade med standardavvikelsen σ konstant för olika dagar medan den sanna klorhalten varierar med dagen. Beräkna ett tvåsidigt 95 %- igt konfidensintervall för den sanna klorhalten dag På två olika fiskarter i Mississippifloden mättes mängden kvicksilver (ppm) hos 5 respektive 6 exemplar av arterna. Fiskart 1: Fiskart 2: Eftersom de studerade fiskarna har ungefär samma vikt och eftersom samma mätinstrument används vid alla mätningar antas följande modell: De n i mätningarna på fiskart i, x i1,..., x ini, är observationer från N (µ i, σ). (a) Skatta σ 2, vad är frihetsgraderna för denna skattning? (b) Gör en skattning av medelmängden kvicksilver i fiskart 1. (c) Beräkna standardavvikelsen och medelfelet för denna skattning. (d) Använd principen för normalbaserade konfidensintervall för att konstruera ett 95 % konfidensintervall för medelmängden kvicksilver i fiskart 1. (Ledning: Man vill även utnyttja mätningarna från fiskart 2.) (e) På en tredje fiskart kunde man endast fånga ett exemplar så endast en kvicksilvermätning, 3.13 (ppm), kunde noteras. Gör ett 95% konfidensintervall för medelmängd kvicksilver hos denna fiskart Halten av bly får vara högst 50 ppm på en viss arbetsplats. Vid mätning av halten uppkommer ett analysfel varför ett mätresultat kan anses vara ett utfall av en slumpvariabel som är N(m, 1.3) där m är den verkliga halten (i ppm) och standardavvikelsen σ=1.3 är ett mått på analysmetodens precision. Vid en undersökning görs fem oberoende mätningar och arbetsmiljön anses vara betryggande (ur blysynpunkt!) om ett uppåt begränsat 95% konfidensintervall för m ligger helt till vänster om värdet 50. Vad är sannolikheten för detta om den verkliga halten m är 49 ppm?

95 Vanliga statistiska modeller Du gör mätningar av alkoholhalten i blodet hos en person med ett instrument vars avlästa värden kan anses vara normalfördelade med µ (verklig alkoholhalt) som väntevärde och standardavvikelse (a) Antag att du vill, med ett ensidigt test pröva hypotesen att µ=0.2 på signifikansnivå Vad menas då med testets styrka? (b) Illustrera med figur i Matlab eller R. Använd rutinen styrkefunktion i Matlab eller R för att undersöka hur många mätningar av alkoholhalten man behöver göra för att en person med µ=0.3 ska fällas med sannolikheten I tidningen kunde man läsa apropå dioxinhalten i fisk i Östersjön: Myndigheterna tror att halten är för hög i fet fisk fångad i Östersjön, men proverna är för få och för gamla för att man ska vara säker. Därför har regeringen nu beslutat tilldela Statens livsmedelsverk 1,4 miljoner kronor för att ta reda på hur höga halter av dioxin och dioxinliknande gifter som fisken i våra svenska vattendrag verkligen har i dag. Antag att de mätningar av dioxinhalt (pikogram) på Östersjölax som man har sedan tidigare är samt att dioxinhalten kan beskrivas med en normalfördelning. (a) Tyder data på att genomsnittlig dioxinhalt överskrider värdet 5? (b) Livsmedelsverket funderar på hur många observationer som ska tas i den nya undersökningen. Antag att för dioxinhalten ξ anses att ξ N ( µ, 0.8 ). Man ska på nivå 0.05 testa om genomsnittlig dioxinhalt överskrider 5 och sätter därför upp hypoteserna H 0 : µ 5 mot H 1 : µ > 5. Hur många observationer ska man ta om man vill att när verklig genomsnittlig dioxinhalt är 5.5 (dvs när µ är 5.5) så ska man, med sannolikheten 0.99, upptäcka att H 0 är falsk. Gör beräkningen på papper eller använd rutinen styrkefunktion Vid tillverkning av ett visst läkemedel är det viktigt att viktandelen av ett visst ämne inte ligger allt för långt under 18%. Vid en processkontroll tar man med jämna mellanrum slumpmässigt ut 5 prov ur produktionen och bestämmer viktprocenten av ämnet, x 1,..., x 5. Om x understiger 18% alltför mycket, d.v.s. om x < k, anser man att processen är ur kontroll och slår larm. Eftersom man studerat tillverkningsprocessen en längre tid ansåg man att x 1,..., x 5 är observationer från en

96 96 Vanliga statistiska modeller normalfördelning med väntevärde µ (som alltså är 18 då processen är under kontroll) och en standardavvikelse 1.1. (a) I processkontrollen löper man en viss risk att slå larm även om processen är under kontroll. Bestäm k så att sannolikheten för falskt larm är (b) Om man använder den alarmgräns som du bestämt i (a), vad är sannolikheten att upptäcka att processen är ur kontroll då den verkliga viktprocenten är 17%? 223. Man valde slumpmässigt ut 50 stycken 10-åriga flickor i Skåne och mätte deras vikt. Undersökningen gav x = 35.3 kg och s = 3.75 kg. (a) Gör ett 95 % konfidensintervall för förväntad vikt (populationsmedelvärde) hos 10-åriga skåneflickor. Normalfördelade vikter är ett rimligt antagande. (b) Antag att för 10-åriga flickor i Sverige gäller att förväntad vikt är 33.5 kg. Kan man anse att skåneflickor väger annorlunda än populationsmedelvikten? (c) Under samma förutsättningar som i (b), kan man anse att skåneflickor väger mer än populationsmedelvikten? 224. Vid en kvalitetskontroll av ett stort parti mäter man på n enheter en storhet som inte bör understiga 15. Man testar H 0 : µ 15 mot H 1 : µ < 15 och om H 0 förkastas anses partiet dåligt och skickas tillbaka. Man utförde testet med direktmetoden och beräknade därmed P-värdet (den exakta felrisken), vilken blev Ange om följande påstående är sanna eller falska. (a) Sannolikheten att partiet är ok är (b) Det är 2.1 % risk att vi skickar tillbaka ett part som är ok (c) H 0 kan ej förkastas på nivå 1 % (d) Det är 2.1 % risk att vi accepterar ett parti som är dåligt 5.2 Jämförelse av två väntevärden 225. En kemist undersöker föroreningarna i ett vattendrag. Bland annat är hon intresserad av föroreningarna från en viss industri längs ån. Hon tar därför under 20 olika dagar prover uppströms och under 25 andra dagar prover nedströms räknat från

97 Vanliga statistiska modeller 97 den aktuella industrin och mäter storleken av en viss förorening i samtliga prov. Följande data erhölls: Medelvärde Standardavvikelse Antal prover Uppströms Nedströms Som modell antar hon att mätningarna uppströms kommer från en normalfördelning med väntevärde µ upp och varians σ 2, medan mätningarna nedströms beskrivs av en normalfördelning med väntevärde µ ned och samma varians σ 2. (a) Hon vill använda båda mätserierna när hon ska skatta σ, hur blir skattningen? (b) Hur bör hon skatta den förväntade nedsmutsningen från industrin, d.v.s. µ ned µ upp? (c) Vad är variansen för denna skattning, d.v.s. vad är V (µ ned µ upp)? (d) Vad är standardavvikelsen för denna skattning, d.v.s. vad är D(µ ned µ upp)? (e) Ange medelfelet för denna skattning, d.v.s. vad är d(µ ned µ upp)? (f) Kombinera dina resultat från (b) och (e) för att göra ett 95% konfidensintervall för µ ned µ upp. (g) Utifrån intervallet i föregående deluppgift, tyder data på att förväntad halt av föroreningen skiljer sig vid de två mätplatserna? (h) Föreslå en bättre försöksplan för kemisten, d.v.s. ge henne tips hur hon borde utföra sina mätningar för att mäta industrins nedsmutsning. (i) Jämför din försöksplan i (d) med kemistens ursprungliga. Vilken av dem ger upphov till modellen två oberoende stickprov och vilken till modellen stickprov i par? 226. I kursen Trafikteknik gjorde en grupp studenter mätningar av fordonshastigheter (km/h) på Södra Esplanaden i Lund. För att undersöka vilken effekt en hastighetskylt har mätte man hastigheten (y i ) på ett fordon i 50-område och sedan samma fordons hastighet (x i ) i 30-område. Totalt gjorde man dessa mätningar på 41 fordon. n 50-sträcka 30-sträcka differens 41 yi = 1548 s y = (yi ȳ) 2 40 = s x = xi = 1313 (xi x) 2 40 = s z = Vilken effekt har övergången till 30-område på fordonens hastighet? (yi x i ) = z i = 235 (zi z) 2 =

98 98 Vanliga statistiska modeller 227. Industrier, sjukhus och andra organisationer som är beroende av provresultat från olika laboratorier, utför ofta undersökningar för att testa om laboratorierna mäter likvärdigt. Vid en sådan undersökning sändes ett prov till två laboratorier som vart och ett fick göra 5 oberoende mätningar på provet. Man kan anse att provresultaten kan beskrivas som oberoende observationer på normalfördelade stokastiska variabler. Resultat för proven, i kodade enheter: Lab 1: Lab 2: (a) Bestäm ett 99 % konfidensintervall för den förväntade skillnaden i mätresultat mellan laboratorierna. (b) Finns det någon anledning att oroa sig över att de två laboratorierna inte skulle mäta likvärdigt? 228. På nyfödda barn tas blodprov för att bl.a. bestämma barnets hemoglobinhalt. Traditionellt görs en kemisk bestämning av hemoglobinhalt på laboratorium men ett sjukhus ville prova en ny maskin HemoCuesom använder optiska sensorer. HemoCue kan användas direkt på avdelningen och ger, med tanke på olika blodburna sjukdomar, större säkerhet vid blodprovstester. På 10 slumpmässigt utvalda barn gjordes hemoglobinbestämning (g/dl) med båda metoderna. Barn (i): Lab (x i ): HemoCue (y i ): På data beräknades några sammanfattande mått på x i, y i samt z i = y i x i : Medelvärde Standardavvikelse Antal mätningar x = s x = n x = 10 ȳ = s y = n y = 10 z = 0.67 s z = n z = 10

99 Vanliga statistiska modeller 99 (a) Undersök om det finns det en systematisk skillnad mellan metoderna genom att beräkna ett konfidensintervall. Antag lämpliga normalfördelningar. (b) Din uppgift är att bedöma storleken på det systematiska skillnaden (om det finns någon), vad är ditt svar? Verkar maskinen och labbet ge olika resultat? 229. DATAMATERIAL: vindkraft. Landbaserade vindkraftverk sätts helst upp på helt öppna slätter så nära havet som möjligt. På grund av konkurrerande intressen tvingas företag som etablerar vindkraftverk att utnyttja områden som kanske inte producerar lika bra som i öppen terräng. I filen vindkraft finns producerad energi (kwh) från två vindkraftverk i Halland som båda är placerade intill ett skogsparti. Mätningarna är månatlig energiproduktion under perioden februari augusti 2006.Man misstänker att vindkraftverk syd producerar mindre energi än vindkraft mitt eftersom syd ligger närmast skogen. Undersök om misstankarna är befogade Det genomsnittliga diastoliska blodtrycket hos friska kvinnor i åldern 30 till 34 anses vara 74.4 mm Hg i landet A-land. Bland gruppen kvinnliga diabetiker i samma åldersgrupp i A-land valde man slumpmässigt ut 16 kvinnor och mätte deras diastoliska blodtryck. Medelvärdet x av de 16 mätningarna blev 84 mm Hg och standardavvikelsen s i materialet beräknades till 9.1 mm Hg. Normalfördelningar anses, av erfarenhet, vara en lämplig fördelning för mätningar av diastoliskt blodtryck. (a) Sätt upp lämpliga hypoteser och undersök om de kvinnliga diabetikerna i A- land skiljer sig från den friska normalbefolkningen i detta land beträffande förväntat diastoliskt blodtryck.

100 100 Vanliga statistiska modeller (b) I B-land gjorde man motsvarande undersökning på 16 kvinnliga diabetikeroch fick medelvärde 92 mm Hg och standardavvikelse 8.5 mm Hg. Sätt upp lämpliga hypoteser och undersök om det finns skillnad mellan länderna beträffande förväntad diastoliskt blodtryck hos kvinnliga diabetiker Arsenik finns i små men mätbara mängder i avloppsvattnet från hushållen. Inför introduktionen av ett övervakningsprogram, där bl.a. halten av As ska mätas, ville man undersöka om man behövde skilja på hushåll med egen brunn och på hushåll med kommunalt vatten. Halten av As (µg/l) i avloppsvattnet mättes därför hos separata hushåll av de olika slagen: As-halt hos hushåll med egen brunn As-halt hos hushåll med kommunalt vatten Utgående från dessa data, behöver man ta hänsyn till att hushållen får sitt vatten på olika sätt när man lägger upp sitt övervakningsprogram? Från tidigare mätningar är normalfördelningsantaganden inte orimligt DATAMATERIAL: sot. Under en mätningskampanj som utfördes av Kärnfysik i Lund mätte man bl a koncentrationen av sot (ng/m 3 ) i luften vid mätstationen Svenska Högarna utanför Stockholm. Samtidigt som en mätning i en luftmassa gjordes tog man reda på luftmassans ursprungsområde. Data finns i filen luftdata där variabeln Asot ger sotkoncentrationen i luftmassor som ansågs ha sitt ursprung från Atlanten medan variabeln Usot ger sotkoncentrationen i luftmassor som ansågs ha sitt ursprung från Ukraina. (a) Undersök om det finns några standardfördelningar som passar bra till data. (b) Beräkna ett approximativt 95% konfidensintervall för den genomsnittliga skillnaden i sotkoncentration mellan de två ursprungsområdena. Ange modellen för data samt eventuella approximationer. Skriv också ut hur intervallet ser ut Läkemedel kan ge en nedsatt salivkörtelproduktion, vilket är en riskfaktor för karies och andra sjukdomar i munhålan. På 7 slumpmässigt valda patienter som alla fick samma medicin mätte man den så kallade tuggstimulerade saliven (ml/min): Person

101 Vanliga statistiska modeller 101 (a) Tuggumi A påstås påverka salivproduktionen och man lät de sju personerna få tugga på ett sådant samtidigt som salivmängden mättes: Person Med Tuggumi A Utifrån dessa data, vilken effekt har Tuggumi A på salivproduktionen hos de som använder det aktuella läkemedlet? Lämplig(a) normalfördelningar får antas. (b) På 6 slumpmässigt utvalda friska (dvs ej läkemedelsberoende) personer undersökte man hur produktionen av saliv ökades då man använde Tuggumi A. Person Ökning av salivproduktion Undersök om Tuggumi A påverkar salivproduktionen hos friska på samma sätt som hos dem som får det aktuella läkemedlet I en studie ville man undersöka om en låg dos av aspirin påverkar blodtrycket hos gravida kvinnor som fått högt blodtryck under graviditeten. Ett slumpmässigt urval av 23 kvinnor fick en medicin med aspirin medan 24 andra slumpmässigt utvalda kvinnor fick ett placebo. Efter en tids medicinering mättes blodtrycket hos samtliga. Resultat (mm Hg): medelvärde standardavvikelse antal Aspirin Placebo (a) Hur stor är skillnaden i förväntat blodtryck mellan de två grupperna? Gör ett konfidensintervall. Du kan anta att blodtrycket är approximativt normalfördelat i de två grupperna. (b) Undersök om det förväntade blodtrycket skiljer sig åt i de två grupperna. (c) Kommentera kring studiens försöksupplägg, kan du föreslå ett bättre upplägg när man vill undersöka om aspirin påverkar blodtrycket? 235. I en undersökning av metaller i biota mätte man ett år halten Cd (mg/kg) i lever och njure på 13 älgar i Kronobergs län. Samtidigt bedömdes älgens ålder. Resultat för Cd-halt i lever: Älg nr Ålder (år) Cd-halt Hur stor är skillnaden i förväntad Cd-halt i lever mellan älgar av ålder 0.5 år och

102 102 Vanliga statistiska modeller 1.5 år? a i form av ett lämpligt konfidensintervall. Du får anta lämplig(a) normalfördelningar Hösten 2005 och våren 2006 utfördes det så kallade Stockholmsförsöket, då trängselskatt för bilism i innerstan infördes. Efter avslutat försök gjordes en rad en utvärderingar. En av många aspekter som man betraktade var att undersöka hur kölängder och medelhastigheter på vissa gator i Stockholm förändrades. Från en av rapporternakan man hitta följande information om medelhastigheten på Sveavägen mellan Sergels torg och Sveaplan, i nordlig riktning: Tidpunkt medelhastighet antal obs 95% konfidensintervall (km/h) Mätning,april (16.1, 20.1) Jämförelsemätning, april (14.5, 16.6) Antag i de följande uppgifterna att normalfördelning för bilarnas hastighet är en lämplig modell (vilket ej är helt självklart). (a) Vad är den skattade standardavvikelsen för de 18 mätningarna gjorda i april 2005? (b) Har det skett en signifikant förändring av genomsnittlig hastighet på den observerade sträckan? 237. DATAMATERIAL: mbuluzi. Mbuluzi-floden rinner från Swaziland via Moçambique ut till Indiska oceanen. Man har mätningar av fosfater (mg/l) från två platser utmed floden: från Mnjoli i Swaziland och från Maphiveni som ligger nedströms och nära gränsen till Moçambique. Data finns i filen mbuluzi och mätningarna började i januari 1987 och avslutades i juni Varibeln manad är antalet månader efter undersökningens start. Man misstänker att sockerrörsodlandet eller andra föroreningskällor i Swaziland påverkar vattenkvaliten i Moçambique så att fosfathalten skulle öka. Använd data från Mnjoli och Maphiveni för att undersöka detta Hopklumpning av blodplättar är en av de faktorer som påverkar förloppet vid bildandet av blodproppar. För att studera hopklumpning av blodplättar och om detta påverkas av rökning gjordes en undersökning bland en grupp friska personer (normalgrupp). På ett antal slumpmässigt utvalda personer tog man blodprov före och efter att de rökt en cigarett. I följande sammanställning ges resultatet från undersökningen: Normalgrupp:

103 Vanliga statistiska modeller 103 Person Före Efter Siffrorna anger maximala andelen hopklumpning före och efter cigarett och denna andel kan antas vara normalfördelad. Antag också att de utvalda försökspersonerna från denna normalgrupp har valts ut oberoende av varandra. (a) Ger dessa siffror belägg för att det föreligger någon statistisk påvisbar skillnad i genomsnittlig hopklumpning av blodplättar före och efter man rökt en cigarett? (b) Motsvarande undersökning gjordes på 8 andra personer som samtliga tillhörde en riskgrupp för blodpropp. Här noterades förändringen av andelen blodplättar efter en cigarett. Verkar personerna i riskgruppen ha en större tendens till hopklumpning av blodplättar när de rökt en cigarett än de i normalgruppen? Riskgrupp: Person förändring (efter-före) DATAMATERIAL: hornblende. Kemiska analyser på mineralet hornblende kan användas bl a för åldersbestämning. Från ett stenbrott i nord-tröndelag i mellersta Norge tog man från 4 olika lokaler prover av hornblende och analyserade bl a den relativa vikten av Al 2 O 3. Hornblendematerialet är ca 600 miljoner år gammalt och data är hämtade från Leif Johansson på avd. för mineralogi och petrologi i Lund. Data finns i filen hornblende.mat. lokal Modell: För y ij som är observation nr j från lokal i; i = 1,..., 4 och j = 1,..., n i, gäller y ij = µ i + ɛ ij, där ɛ ij är oberoende slumpvariabler och normalfördelade N (0, σ). (a) Skatta σ 2. (b) Använd hela datamaterialet för att undersöka om det finns någon signifikant skillnad mellan lokalerna 1 och 2 beträffande den relativa vikten av Al 2 O 3.

104 104 Vanliga statistiska modeller (c) Använd enbart data från lokal 1 och 2 för att undersöka om det finns någon signifikant skillnad mellan dessa två lokaler beträffande den relativa vikten av Al 2 O 3. Vilket av de två intervallen är att föredra? (d) Om hornblendematerialet vid någon lokal visar sig mindre homogent kan det få till följd att Al 2 O 3 -värdena vid denna lokal uppvisar större spridning än vid andra lokaler. Vad är då fel i ovanstående modell och hur bör den ändras? 240. I ett miljöövervakningssystem studeras övergödningen av våra vattendrag. I en viss å har man under en längre period gjort mätningar av bl a total fosforhalt. Under denna period införde man i avrinningsområdet en kemisk-biologisk rening av hushållens och industriernas avloppsvatten. För att undersöka vilken effekt dessa åtgärder haft på fosformängden i vattendraget beräknas årsmedelvärdena av total fosforhalt (mg/l) före och efter införandet av ny rening: Fosforhalt (mg/l) före införandet: Fosforhalt (mg/l) efter införandet: (a) Gör ett 95 %-konfidensintervall för den genomsnittliga effekten av den nya reningen. Redogör för dina modellantaganden. (b) Gav åtgärderna upphov till en signifikant förändring av total fosforhalt i vattendraget? Motivera ditt svar! 241. Man jämför årsmax av vattenflödet (m 3 /s) i ett vattendrag under en period då inga regleringar hade skett med en period med kraftiga regleringar: Medelvärde Skattad n standardavvikelse Ej reglerat Reglerat (a) Då man tittar närmare på data ser man att årsmax av vattenflödet approximativt kan modelleras med normalfördelningar. Undersök om det är rimligt att anta samma varians i de två fördelningarna, d.v.s. testa H 0 : σ 2 1 = σ 2 2. (b) Gör ett approximativt 95 % konfidensintervall för skillnaden i förväntad årsmax mellan de två perioderna, d.v.s. testa H 0 : µ 1 = µ 2. (c) Antag att antagandet om normalfördelade mätningar inte håller. Behöver detta bekymra dig i analysen?

105 Vanliga statistiska modeller Två tillverkare av pumpar (Pump A och Pump B) levererar båda med specifikationen 500 timmars livslängd. Man installerade 60 pumpar från vardera tillverkaren och noterade pumparnas livslängd (timmar) samt sammanställde data i en tabell: Skattad Medelvärde standardavvikelse Antal Pump A Pump B Man ritade också ut de två datamaterialen i normalfördelningspapper. (a) Undersök om den genomsnittliga livslängden för Pump A är kortare än för Pump B. Glöm inte att motivera dina fördelningsantaganden. (b) Man såg av datamaterialet att 32 pumpar av B-typ hade en livslängd under 500 timmar. Gör ett konfidensintervall för andelen B-pumpar som inte klarar tillverkarens specifikation. (c) Man såg dessutom att 51 pumpar av A-typ hade en livslängd under 500 timmar. Undersök om andelen pumpar som inte klarar tillverkarens specifikation är högre för Pump A än för Pump B I ett reningsverk mättes BOD-värdet på avfallsvattnet vid sju olika tillfällen: Tillfälle BOD (mg/l)

106 106 Vanliga statistiska modeller (a) Ligger det förväntade BOD-värdet under gränsvärdet 10 mg/l? Antag lämplig(a) normalfördelningar. (b) För att förbättra reningsverkets kapacitet prövar man en ny typ av rening. Vid ett test låter man en del av dagens avfallsvatten renas med den gamla metoden medan resten renas med den nya, varefter man mäter BOD-värdet. Dessa tester utfördes ungefär en gång varannan vecka i några månaders tid och gjordes då på den aktuella dagens avfallsvatten. Tyvärr gick det inte att få något BOD-värde för den nya reningstekniken den 24/2. Testdag 3/2 17/2 24/2 3/3 14/3 21/3 BOD (mg/l) med gammal metod BOD (mg/l) med ny metod Ger den nya tekniken en signifikant förbättring av reningen så att förväntad BOD-värde blir lägre? Antag lämplig(a) normalfördelningar DATAMATERIAL: sjodata1. I två olika sjöar, Sjö 1 och Sjö 2, har man en klar sommardag på ett flertal olika platser i sjöarna gjort mätningar av ett visst näringsämne. Data finns i filen sjodata1. (a) Skatta medelvärden och standardavvikelse för respektive sjö. (b) Undersök om det finns någon signifikant skillnad mellan sjöarna beträffande genomsnittlig näringshalt denna dag. (c) Undersök om den genomsnittliga näringshalten i Sjö 1 överskrider 8 enheter Skiljer sig den kemiska sammansättningen av avloppsvattnet åt vid Östra Torn och Källby (vilka är två olika punkter i Lunds avloppssystem)? En forskare mätte mängden fosfor i avloppsvattnet en längre period, nedan ges ett utdrag från mätningarna: Mätdatum 3/1 10/1 17/1 24/1 1/2 8/2 Östra Torn (mg/l) Källby (mg/l) Mätdatum 15/2 22/2 26/2 4/3 11/3 18/3 Östra Torn (mg/l) Källby (mg/l) Den 4/3 och 11/3 var det stopp i mätutrustningen i Östra Torn och inga mätningar kunde erhållas. Gör en lämplig analys av data för att undersöka om koncentrationen av fosfor skiljer sig åt vid de två platserna. Ange de antaganden du gör i analysen.

107 Vanliga statistiska modeller 107 Ledning: Man vet sedan tidigare att fosforhalten vid en mätpunkt kan variera mycket mellan olika mättidpunkter En geokemist undersöker halterna av järn (mg/g) i skogsmark och gräver därför 10 st gropar. Hon är speciellt intresserad att undersöka om det finns skillnader i järnhalt mellan olika nivåer i groparna och tar därför från varje grop ett prov på A-nivå (nära ytan och därmed påverkat av mänskliga aktiviteter) och ett prov på C-nivå (ca 1 meter djupt och troligen inte så mycket påverkat av människan). Området av skogsmark är av mycket heterogen karaktär, dvs det är troligt att genomsnittlig järnhalt varierar mellan olika gropar. Grop nr: Nivå A: Nivå C: Ange en lämplig modell som beskriver data och undersök, genom att göra ett hypotestest eller genom att dra slutsatser från ett konfidensintervall, om det finns skillnader i genomsnittlig järnhalt mellan A- och C-nivåer i groparna Två markägare, A och B, har under perioden mätt grundvattennivån (m.ö.h) i sina brunnar. Data, som finns nedan, anger medelvärden av sommarmånadsmätningarna. År 1990 fick en nystartad fabrik tillstånd att ta betydande mägd vatten från en grundvattenborra i trakten. Vattenuttaget kan tänkas påverka vattennivån i brunn A medan vattennivån i brunn B kommer att vara relativt opåverkad. (a) Undersök om data från brunn A tyder på att fabrikens vattenuttag påverkat brunn A så att förväntad vattennivå sjunkit efter Du får anta lämplig(a) normalfördelningar i din analys. (b) Wilma konstaterar att grundvattennivån naturligtvis påverkas av en mängd faktorer, en av de viktigaste är nederbördsmängd. De två brunnarna A och B ligger i samma geologiska område och har fått ungefär samma nederbördsmängd de olika åren, alltså bör förändringarna kring respektive brunns medelvattennivå vara ungefär den samma ett specifikt år. Wilma antar t.ex. att ett ovanligt torrt år ger en ungefär lika stor sänkning av vattennivån i de båda brunnarna, och det omvända för ett blött år. Under dessa antaganden inser hon att man kan även utnyttja data från brunn B i analysen av hur fabrikens vattenuttag påverkar brunn A. Utför analysen! Du får anta lämplig(a) normalfördelningar.

108 108 Vanliga statistiska modeller Nedan anges mätningarna från de två brunnarna, tillsammans med några sammanfattande mått. I figuren är resultaten av mätningarna plottade mot år, den lodräta linjen markerar tidpunkten då fabriken startade sitt vattenuttag. Data från perioden , före fabrikens vattenuttag: År Brunn A Brunn B År Brunn A Brunn B Sammanfattning av dessa mätningar från perioden : Brunn antal mätningar medelvärde standardavvikelse (s) Brunn A Brunn B Data från perioden , efter fabrikens vattenuttag: År Brunn A Brunn B År Brunn A Brunn B Sammanfattning av dessa mätningar från perioden :

109 Vanliga statistiska modeller 109 Brunn antal mätningar medelvärde standardavvikelse (s) Brunn A Brunn B DATAMATERIAL: avloppsvatten. Avloppet från en industri mynnar ut i ett vattendrag. Avloppsvattnet innehåller små men mätbara mängder av koppar. Under en period mätte man under samma dag både uppströms och nedströms industrin för att undersöka hur stort tillskottet av Cu var från industrin. I december 1994 gjordes en förbättring av avloppsvattnets reningsprocess och under följande vår gjordes under en period mätningar nedströms (men ej uppströms) för att undersöka om den nya reningstekniken hade medfört en signifikant förbättring av vattenkvaliteten. Data finns i filen avloppsvatten. Mätningar före åtgärden: Mätdatum (1994) 5/6 13/6 30/6 10/7 31/7 17/8 28/8 16/9 29/9 5/10 uppströms (µg/l) nedströms (µg/l) Mätningar efter åtgärden: Mätdatum (1995) 3/4 15/4 26/4 3/5 12/5 23/5 4/6 15/6 24/6 nedströms (µg/l) (a) Använd mätningarna före åtgärden för att undersöka om industrins utsläpp av koppar signifikant bidrog till att höja halten av Cu i vattendraget. Ange tydligt din modell och vilka slutsatser du drar av analysen. (b) Undersök, genom att göra ett lämpligt test eller beräkna ett konfidensintervall, om åtgärden förbättrade vattenkvaliteten så att Cu-halten i vattendraget blev lägre. Ange vilken modell du använder samt ge formler för hur testet eller konfidensintervallet beräknas DATAMATERIAL: skogsforsok Vid skogsvårdsarbete ingår att göra regelbundna gallringar men bör kvistar och mindre grenar lämnas kvar i markerna? Om resterna avlägsnas kan detta eventuellt medföra en förändring i marken beträffande surhetsgrad, jonkoncentration, kvävehalt, fosforhalt o.s.v. För att ta reda på om så är fallet inledes en studie vid Sveriges Lantbruksuniversitet på 1950-talet. Trettiotvå försöksytor 10x15 m valdes slumpmässigt i ett försöksområde. Av dessa ytor lottades 16 till behandlingen att riset skulle ligga kvar medan på de övriga 16 avlägsnades riset. En första gallring gjordes 1961 och en andra år År 1991 undersöktes försöksytorna med en speciell provtagningsborr och markproverna analyserades beträffande en mängd variabler. I filen skogsforsok finns redovisat genomsnittlig

110 110 Vanliga statistiska modeller mängd organiskt material i förnaskiktet (g/m 2 ) för de 32 olika försöksytorna. Finns det någon skillnad mellan att ha riset kvar eller att avlägsna det? 5.3 Inferens för diskreta data 250. Leo och hans syster äter mackor med honungspålägg. Hon påstår att om man tappar en sådan macka på golvet tenderar den att oftast lägga sig med påläggssidan nedåt. Leo utför därför 20 slumpmässiga försök där han i varje försök låter en macka falla mot golvet. Han finner att i 14 fall kom honungssidan nedåt. Vad är testets felrisk? Verkar Leos syster ha rätt? 251. Vid en kvalitetskontroll av ett nyanlänt parti av komponent B543 valde man slumpmässigt ut 50 komponenter och såg att 17 av dessa måste gå vidare till en extra kontroll för att där avgöra om de är felaktiga eller inte. Gör ett approximativt 95 % konfidensintervall för andelen komponenter som måste göra extrakontrollen En helg spelade Valter fia med sin lillebror. Han observerade att av 10 kast med tärningen fick han inte någon sexa. Valter beslöt att testa om tärningen kunde vara sned så att den gav sexa för sällan. Beräkna testets exakta felrisk α 0. Vad är hans slutsats utifrån denna undersökning? 253. En lärare vid LTH funderar över hur Lundakarnevalen påverkar tentamensresultatet på den kurs som varje år tenteras i månadsskiftet maj/juni. Läraren vet av erfarenhet att 10 % av studenterna som är registrerade på kursen går ej upp på den ordinarie tentamen i maj/juni. Karnevalsåret var det 110 av de 130 registrerade som kom till ordinarie tenta. Tyder detta på att karnevalsår skiljer sig från icke karnevalsår så att det är färre som tenterar den ordinarie tentan? 254. DATAMATERIAL: regndata. Vid mätningar i Malmö har man under en längre period mätt regnmängderna för regnväder av olika varaktighet. Regnmängden (mm) för de 214 kraftigaste regnovädren med en varaktighet på 1 timme anges i filen regndata. Allt för stora regnmängder kan orsaka problem i Malmös avloppssystem och leda till översvämningar. Antag att 15 mm är en kritisk gräns. (a) Skatta sannolikheten att kraftiga regnväder överstiger denna gräns

111 Vanliga statistiska modeller 111 (b) Gör ett konfidensintervall för denna sannolikhet Flygbolaget Up We Go tar en kalkylerad risk att ett fåtal passagerare inte dyker upp till flygningarna. Ett flygplan tar 115 passagerare och flygbolaget bokar 120 passagerare på en flygning. Sannolikheten att en passagerare uteblir anses vara 5%. Antag oberoende mellan passagerare. Under en dag gör Up We Go 10 flygningar, med flygplan av denna storlek, där alla flygningarna är överbokade enligt ovan. (a) Vad är sannolikheten att inte samtliga passagerare får plats under en flygning? (b) Vad är sannolikheten att inte alla passagerarna får plats på minst två av de tio flygningarna? (c) Vera betvivlar att sannolikheten att en passagerare uteblir verkligen är 5%, hon tror att passagerarna passar sina bokade flygtider bättre än så. Hon noterar att av 1000 bokade passagerare dök faktiskt 966 upp. Sätt upp lämpliga hypoteser och undersök om dessa data tyder på att Vera har rätt i sin misstanke? 256. En fabrik är ålagd att kontrollera sin reningsprocess av avloppsvattnet och använder ett dyrbart och känsligt instrument. Varje gång en dos vatten från en av fabrikens produktionsdelar släpps ut avläser instrument bl.a. kadmiumhalten och reagerar om halten Cd överstiger en viss gräns. Kravet på fabriken är emellertid inte nolltolerans utan 6% av vattendoserna får innehålla måttliga halter över gränsen. (a) Efter ett längre produktionsstopp visade det sig att av 150 vattendoser var det 17 som hade lite för hög Cd-halt. Undersök, med ett lämpligt test, om detta tyder på att fabriken för ofta har höga halter av Cd i vattnet. (b) Under en mer normal produktion har man följande regel: Ta 20 vattenprov. Slå larm om antal prov med för hög Cd-halt överstiger 3. Antag att Cd-halten verkligen är för hög i avloppsvattnet så att 10% av proverna skulle visa för högt värde. Vad är sannolikheten att man då kommer att slå larm? 257. Man vet av erfarenhet, när det gäller blodgrupper, att av svenskar är ca 15 % s.k. Rh-negativa. I ett stickprov om 75 personer med en viss blodsjukdom var 20 % Rh-negativa. (a) Konstruera ett 95 % konfidensintervall för andelen Rh-negativa med blodsjukdomen och tolka intervallet.

112 112 Vanliga statistiska modeller (b) Var andelen Rh-negativa annorlunda bland personer med sjukdomen än bland friska personer? 258. I en industri tillverkar man enheter som vid kontroll klassificeras som antingen korrekta eller defekta. Högsta acceptabla felfrekvens är 1%. För att kontrollera kvaliteten i ett stort parti har man följande kontrollplan: Tag ut 300 enheter och avskilj partiet om antalet defekta enheter överstiger acceptansgränsen 7. (a) Antag att det kommer in ett acceptabelt parti med den låga felfrekvensen 1%, beräkna producentrisken, d.v.s. sannolikheten att partiet avskiljs. (b) Antag att det kommer in ett dåligt parti med den höga felfrekvensen 5%, beräkna konsumentrisken, d.v.s. sannolikheten att partiet godkänns. (c) Antag att felfrekvensen är större än 5%, hur ändras konsumentrisken i förhållande till ditt beräknade värde i (b)? 259. Sedan länge har man använt det smärtstillande medlet A efter operation och noterat att det fungerade bra för 80 % av patienterna. Nu vill man pröva medlet B som anses vara bättre. Av de 200 patienter som fick B kände 170 en lindring av smärta. Är det från dessa data motiverat att byta smärtlindringsmedel? 260. I Sydsvenskan den 14 september 2006 kunde man under rubriken Cancerfall fördubblade vid raffinaderi bl.a. läsa. Det är inför en planerad utökad verksamhet och miljöprövning vid Preemraff som forskarna har studerat samtliga cancerfall under åren i Lysekil. Lyse och Brastad ligger närmast i Preemraffs vindriktning. Under hela perioden inträffade 1.5 gånger så många leukemifall i de båda församlingarna jämfört med vad som kunde förväntas och under perioden skedde mer än en fördubbling. Då inträffade det 19 fall jämfört med förväntade 9 fall. (a) Om du studerar perioden , tyder redovisade data på att de två församlingarna Lyse och Brastad är mer drabbade än andra områden? Ledning: För en ovanlig sjukdom kan ofta variationen i antalet sjukdomsfall i ett område beskrivas med en poissonfördelning.

113 Vanliga statistiska modeller 113 (b) En tidningsläsare kommenterar: Om det bara hade varit några få fall färre under den här perioden hade inte forskarna slagit larm utan sjukdomsförekomsten hade betraktats som normal. Antag att forskarna strikt använder sig av ett test med 5% felrisk när de överväger om de ska slå larm eller inte. Hur många sjukdomsfall hade de då kunnat acceptera i Lyse och Brastad? (c) Antag att forskarna tittar på två geografiska områden som båda är normala i den meningen att sjukdomsförekomsten inte är förhöjd och att de gör två separata test, båda på signifikansnivå 5%. Vad är sannolikheten att minst ett av testen ger ett signifikant utslag, d.v.s. påstår att sjukdomsförekomsten är förhöjd i området? 261. Vid en statistisk kvalitetskontroll tas 250 enheter ur ett parti ut för kontroll. Antal fel på en enhet är Poissonfördelat med väntevärde m och antal fel på olika enheter är oberoende av varandra. Sammanlagda antalet fel på de 250 enheterna räknas (s.k. felantalskontroll). Partiet accepteras direkt om högst 90 fel finns, annars kontrolleras även de resterande enheterna i partiet (s.k. allkontroll). Antag att m=0.3. (a) Beräkna sannolikheten att en enhet inte har några fel. (b) Beräkna det förväntade antalet fel hos de 250 kontrollerade enheterna. (c) Beräkna sannolikheten att partiet accepteras efter första kontrollen. (d) Den statistiska kontrollen kostar 100 kronor men om partiet allkontrolleras tillkommer en extra kontrollkostnad på 1300 kronor. Beräkna förväntad total kontrollkostnad för ett mottaget parti. (e) Antag nu att m är okänt. För vilka värden på m gäller att sannolikheten att man måste göra en allkontroll överstiger 0.05? 262. Inom det europeiska samarbetsprojektet EMEP (European Monitoring and Evaluation Programme) görs mätningar av luftkvaliteten på flera platser i landet, bl a i Rörvik på Västkusten och i Hoburg på Gotland. Vissa provtagningar i Rörvik görs med en automatisk provtagningsapparat som dock visat sig inte vara helt tillförlitlig utan måste kontrolleras dagligen. Under en 10-årsperiod har apparaten justerats 42 gånger. Med hoburgsapparaten görs liknande mätningar men med en något annorlunda apparat. På denna gotlandsapparat behövdes endast göras 31 justeringar under samma period. (a) Gör ett approximativt 95% konfidensintervall för sannolikheten att en justering behöver göras på apparaten i Rörvik.

114 114 Vanliga statistiska modeller (b) Gör ett approximativt 95% konfidensintervall för medelantalet justeringar under en 10-årsperiod på apparaten som används i Rörvik. (c) Undersök om det är någon signifikant skillnad mellan apparaterna beträffande hur ofta justeringar måste göras I en undersökning från 1980 ville man studera mängden koloxid i bilavgaser hos personbilar i trafik. Om en bil släpper ut mer än 30 g CO per km anses den vara en oacceptabel nedsmutsare. Från en livligt trafikerad väg valdes slumpmässigt 26 bilar ut och på dessa mättes mängden CO (g/km). Av de 26 bilarna i denna undersökning var 2 st nedsmutsare. (a) Låt X vara antalet bilar av de 26 som är nedsmutsare. Är X en diskret eller kontinuerlig s.v.? (b) Låt p vara P(en slumpmässigt vald bil är nedsmutsare). Vilken fördelning har X? (c) Myndigheterna har satt mottot högst 1 av 150 bilar ska vara nedsmutsare och ni ska undersöka om denna undersökning tyder på att mottot ej är uppfyllt. Vilka hypoteser rörande p bör du då ställa upp? (d) Utför testet med direktmetoden genom att beräkna P-värdet (α 0 ), vad är din slutsats? 264. I ett land har under en längre period födelsetalen bland gravida kvinnor varit att det föds 106 pojkar på 100 flickor. I en större undersökning specialstuderade man kvinnor som var vegetarianer och fann att bland dessa 386 kvinnor föddes det 180 pojkar. Tyder dessa data på att kvinnliga vegetarianer tenderar att få färre pojkar? Bortse från flerbarnsfödslar. (a) Lös uppgiften genom att först hitta en lämplig fördelning för X=antalet pojkar som de 386 kvinnliga vegetarianerna föder. (b) Sätt upp lämpliga hypoteser för p=p(en kvinnlig vegetarian föder en son). (c) Gör testet genom att beräkna ett lämpligt intervall. (d) Gör testet genom att använda direktmetoden Den månatliga regnmängden på en ort anses vara normalfördelad med väntevärde 20 cm och varians 12 cm 2. Regnmängden olika månader är oberoende.

115 Vanliga statistiska modeller 115 (a) Vad är sannolikheten att minst 140 cm regn faller på orten under en sexmånadersperiod? (b) Under en sexmånadersperiod regnade det mindre än 18 cm varje månad. Tyder detta på att den förväntade regnmängden under en månad minskat? 266. Precision Livestock Farming (ungefär precisionsdjurhållning) är ett ganska nytt begrepp inom jordbruket och innebär bl.a. att man använder avancerad teknologi för att optimera varje djurs produktion. Inom mjölkproduktionen kan det t.ex. innebära användning av olika robotar i lösdjurshallar. (a) En teori är att en gödselrobot i lösdjurshallen skulle minska olika klövsjukdomar hos korna eftersom golvet i hallen blir renare. En forskare noterar att före introduktion av robot fick i genomsnitt 7 % av korna klövsjukdomar under ett år. Ett år efter installationen av gödselrobot var det 15 djur av 250 som hade (eller hade under året haft) detta besvär. Kan forskaren hävda att roboten minskar klövsjukdomar? (b) En mjölkrobot underlättar betydligt för jordbrukaren men det är inte ovanligt att roboten signalerar falska felmeddelande. Vid ett felmeddelande rings skötaren upp och onödiga telefonsamtal (dag som natt) upplevs förstås störande. Forskaren har noterat att med mjölkrobot av typ A är antalet falska felmeddelanden under en vecka poissonfördelat med i genomsnitt 8.3 samtal. Hon vill nu testa en ny mjölkrobot av typ B i en likvärdig lösdjurshall och beslutar sig för att notera x= antalet falska felmeddelande för denna nya robot under en vecka. Wilma säger: Antag att forskaren får att x = 7. Eftersom 7 ligger klart under 8.3 har vi med stor säkerhet visat att den nya roboten ger färre falska felmeddelanden. Har Wilma rätt? Motivera tydligt ditt svar och beskriv hur forskaren bör tänka utifrån sitt observerade värde på x Det neurologiska tillståndet stiff person syndrome (svenskt namn tycks saknas) kännetecknas av fortskridande muskelstelhet, smärtsamma kramper och ibland ofrivilliga muskelryckningar. För att undersöka om förekomsten av detta syndrom är kopplat till förekomsten av anti-gad-autoantikroppar (GAD är en förkortning av glutaminsyredekarboxylas) gjordes en undersökning på totalt 550 personer varav 370 hade syndromet.

116 116 Vanliga statistiska modeller Har anti-gad- Har ej anti-gadautoantikroppar autoantikroppar Normal Stiff person syndrome Finns det ett signifikant skillnad mellan grupperna då det gäller förekomst av anti- GAD-autoantikroppar? Lös uppgiften genom att undersöka om andelen som har anti-gad-autoantikroppar är den samma i de två grupperna Ibland påstås det att Bilförare som kör bilmärke B är mer vårdslösa än övriga bilförare. Vid en vägsträcka markerat med skylt 30 km valde man slumpmässigt ut 100 bilar av märke B och noterade att 45 av bilförarna överskred hastighetsgränsen. När man observerade 100 andra slumpvis utvalda bilar, ej av märke B, var det 38 av bilförarna som körde för fort. (a) Gör ett konfidensintervall, med approximativ konfidensgrad 95%, för andelen bilförare av märke B som kör för fort vid den aktuella bilsträckan. (b) Tyder data på att en större andel av bilförare av märke B kör fortare på den aktuella vägsträckan än andelen andra bilförare? Ställ upp lämpliga hypoteser och utför ett test I en tillverkningsindustri använder man sig av en metod som kallas work sampling för att uppskatta hur mycket tid som läggs på värdeskapande aktiviteter respektive icke-värdeskapande aktiviteter. Icke-värdeskapande aktiviteter delas in i ett antal underkategorier som t.ex. transport, väntetid och förberedelser. Vid station A i tillverkningsprocessen noterade man vilka aktiviteter en arbetare sysselsatte sig med vid 95 olika tidpunkter: Station A Värdeskapande Icke-värdeskapande aktiviteter Totalt aktiviteter Transport Väntetid Förberedelser Övrigt Antal observationer (a) Ledningen vill ha information om hur stor andel av arbetstiden som ägnas åt värdeskapande aktiviteter. Uppskatta denna storhet och gör ett lämpligt konfidensintervall. (b) Konfidensintervallet från (a) anses vara för brett och ledningen vill ha ett intervall med halva bredden. Hur många observationer måste du göra då?

117 Vanliga statistiska modeller 117 (c) Vid Station B gjordes också 95 observationer varav 47 visade värdeskapande aktiviteter. Tyder detta på att det finns en skillnad mellan stationerna beträffande hur stor andel av arbetstiden som ägnas åt värdeskapande aktiviteter? 270. För ett antal år sedan slog en lundaläkare larm i en brett upplagd tidningsartikel om att i ett område i Lund, beläget i närheten av en kemisk industri, var antalet fall av en sällsynt cancersjukdom ovanligt stort. I det aktuella området hade nio personer (sex kvinnor och tre män) drabbats av sjukdomen under en femårsperiod. Då läkaren studerade det rikstäckande cancerregistret såg han att i en population lika stor som den i det aktuella området borde man under denna femårsperiod förväntat sig att antalet sjukdomsfall skulle vara fyra. (a) Undersök om det aktuella lundaområdet är speciellt drabbat av cancersjukdomen genom att göra ett test på 5%-nivån. Du får anta att antalet cancerfall under tidsperioden är poissonfördelat. (b) Läkaren förvånades över att företrädesvis kvinnor drabbades av sjukdomen men presenterade i tidningen en medicinsk teori. Vad är din reaktion? Ger denna undersökning stöd för att kvinnor är mer drabbade än män? Motivera tydligt ditt svar genom att t ex göra ett lämpligt test. Ange tydligt noll- och mothypotes Inför en eventuell bebyggelse i ett kustområde vill man studera förekomsten av höga vågor eftersom dessa kan orsaka erosion samt skador på vägar och byggnader. Med lite detektivarbete, genom utnyttjande av lokala tidningar och intervjuer med personer som bott i området, kunde man rekonstruera antalet perioder med höga vågor varje år under tidsperioden Resultat: Antal perioder med höga vågor Antal år Som modell antog man att antalet perioder med höga vågor under ett år var Poissonfördelat med parameter λ där λ tolkas som det genomsnittliga antalet perioder per år. (a) Gör en lämplig skattning av parametern λ. (b) Använd skattningen i (a) för att beräkna sannolikheten att få minst en period med höga vågor under ett år.

118 118 Vanliga statistiska modeller (c) Planerarna är oroliga för att det blivit vanligare med perioder av höga vågor i det aktuella området. De två senaste åren har man specialstuderat området och under denna period noterat 4 perioder med höga vågor. Har de, utifrån redovisade data, fog för sin oro? (d) Hur många perioder med höga vågor kan planerarna acceptera under en tvåårsperiod innan man på signifikansnivå påstår att det förväntade antalet perioder med höga vågor ökat? 272. Vid ett försök med en viss medicinsk behandling registreras för varje patient hurvida patienten förbättras eller inte efter behandlingen. När data om n = 10 patienter insamlats visar det sig att åtta av dem förbättrats. Tyder dessa data på att behandlingen är effektiv, d.v.s. kan vi anta att p > 0.5 där p = P (en patient förbättras)? 273. Det statistiska uppförandet hos radioaktivt sönderfall beskrivs väl av Poissonfördelningen eftersom sannolikheten för sönderfall per kärna är liten och konstant samtidigt som antalet kärnor är mycket stort. Den naturliga bakgrundsstrålningen (uttryckt som antalet registrerade pulser per sekund) vid en viss mätpunkt har en intensitet av λ=1 sek 1, dvs antalet registrerade pulser under en slumpmässigt vald sekund är poissonfördelat med väntevärde 1. På grund av en olycka i ett mycket avlägset land misstänker man att intensiteten har ökat. Antag att man mäter 15 sekunder och därvid registrerar 20 partiklar. (a) Ställ upp lämpliga noll- och mothypoteser. (b) Utför testet på nivå 5%, redovisa tydligt din slutsats Nollvisionen inom trafiksäkerhet innebär att man vill sträva efter 0 trafikdödade. Dithän är det långt, och även om säkerheten i medeltal ökar så kommer slumpmässiga variationer att ske både uppåt och nedåt. För ett tiotal år sedan kunde man läsa i tidningen att den svarta trafikmånaden juni bryter en nedåtgående trend. Enligt tidningen omkom 100 personer i trafikolyckor under den junimånaden. Antag att antalet omkomna i trafiken under en normal månad är ξ P o(m) där m är olika för olika månader. (a) För 10 år sedan var m = 80 ett normalt värde för juni. Testa med ett statistiskt test hypotesen att under det aktuella året H 0 : m = 80 mot att m > 80 med ett test på den ungefärliga signifikansnivån 0.05.

119 Vanliga statistiska modeller 119 (b) För samma år antogs m = 50 är normalt för juli.i själva verket omkom 60 personer under den aktuella julimånaden. Gör ett liknande test som i (a). (c) Antag att året är ett helt normalt år. Om man gör 12 oberoende test liknande det i (a) under år, ett för varje månad, hur stor är sannolikheten att man får minst ett signifikant utslag för ökat antal omkomna? 275. Antalet jordskalv under ett år i ett område anses vara poissonfördelat med parametern µ, dvs om X= antal jordskalv under ett år gäller X Po(µ). Antalet jordskalv olika år anses vara oberoende. Den seismologiska aktiviteten har under en längre period varit ganska konstant med ett µ som anses vara 1.6. Under perioden uppmättes emellertid 25 jordskalv i området. Tyder detta på att området blivit seismologiskt oroligt så att µ ökat? 276. Antal fel under en vecka i en produktionsprocess anses vara poissonfördelat med väntevärde λ. Din uppgift är att ge ledningen information om hur stort detta λ är och därför vill du göra ett 95 % konfidensintervall för storheten. Gör det under förutsättning att (a) du noterat 17 fel under en vecka (b) du under tre veckor noterat 17, 20 och 23 fel i processen 277. I ett område antar man att antalet motorcykelolyckor under en månad är Poissonfördelat, Po(µ), där µ varierar från månad till månad. För maj månad brukar µ vara 15. I och med att allt fler kör motorcykel befarar man att antalet olyckor också kommer att öka. Det senaste året noterade man 22 olyckor under maj månad och tidningarna skrev att Nu har det skett en ökning av antalet motorcykelolyckor. (a) För att undersöka om man fog för detta påstående vill man testa H 0 : µ = 15 mot H 1 : µ > 15 och testet görs med hjälp av direktmetoden. Ange testets exakta felrisk, α 0 (P-värde). (b) Ange om följande påstående är falska eller sanna. i. Om testets exakta felrisk α 0 (P-värdet) är 0.06 kan vi dra slutsatsen att nollhypotesen kan förkastas på nivå 5%. ii. Ju mindre testets exakta felrisk α 0 (P-värdet) är, desto större fog har tidningen för sitt påstående. iii. Om testets signifikansnivå är 0.01 betyder det att vi har 1% risk att felaktigt påstå att majmånaden är mer drabbad av mc-olyckor.

120 120 Vanliga statistiska modeller iv. Om H 0 ej kan förkastas på nivå 0.05 betyder det att med 95% säkerhet är H 0 sann Driftstopp i ett produktionsföretag inträffar vid slumpmässiga tidpunkter. Antalet driftstopp under en månad är Poissonfördelat med väntevärde µ, och kvalitetschefen vid företaget tror sig veta att under normala förhållanden är µ = 4. (a) Hon misstänker dock att att antal driftstopp ökar i december. Mycket riktigt, antal stopp denna månad var hela 11. Kan det höga antalet driftstopp under december skyllas på slumpen, eller finns det någon anledning att tro att luciafirandet (eller annan säsongsberoende aktivitet) har haft inverkan? (b) Produktionen sker vid två likvärdiga avdelningar, A och B. Kvalitetschefen har också en misstanke att avdelning A är mer drabbad av driftstopp än avdelning B. Hon tittar på siffrorna och finner att av årets 62 driftstopp skedde 40 vid avdelning A. Har hon skäl för sin misstanke? 279. I Sydsvenska Dagbladet den 5 januari 2014 fanns en artikel om motorcykelolyckor. Från texten: Under 2013 steg antalet omkomna motorcyklister. Fram till och med november förra året dog 40 personer jämfört med 31 personer under hela 2012, enligt preliminär statistik från Transportstyrelsen. Jesper Christensen, generalsekreterare för Sveriges motorcyklister, pekar på vad som kan vara början på en ny trend. Vi har noterat att en ökande del av de motorcykelförare som omkommer inte har något körkort, säger han. Tidigare har omkring 25 procent av dem som omkommer inte haft något körkort, men för 2012 låg den siffran på 35 procent och i fjol var det 40 procent. (a) Antag att antalet döda motorcyklister per år följer en poissonfördelning, Po(λ) där λ är 31 (d.v.s års värde får vara sant tidigare värde ). Siffran 40 döda gällde under perioden jan-nov 2013, antag att det inte dog några under december Har man då fog för påståendet att förväntade antalet omkomna motorcyklister ökat. (b) Tyvärr håller nog inte antagandet om noll döda under december Hur många motorcyklister måste dö under denna månad för att man med 1 % felrisk ska kunna säga att förväntat antalet omkomna motorcyklister ökat?

121 Vanliga statistiska modeller 121 (c) Fundera på den sista meningen i citatet. Baserat på den högre procentsiffran på 35 procent under 2012 i jämförelse med tidigare 25 procent, kan man påstå att bland de som omkommer har andelen som inte har körkort ökat? 280. Man är intresserad av att minska antalet olyckor vid ett olycksdrabbat vägavsnitt genom att försöka få ner antalet fortkörare. Vid en kontroll visade det sig att 43 av 137 kontrollerade förare körde för fort. Kontrollen utfördes på ett sådant sätt att man kan anta att de olika förarna kör för fort oberoende av varandra. (a) Skatta sannolikheten att en slumpvis vald förare kör för fort, samt beräkna ett konfidensintervall för denna sannolikhet. (b) Efter att man infört ett antal åtgärder för att sänka hastigheten noterades det att 37 av 152 kontrollerade fordon färdades för fort. Avgör med ett approximativt test på nivå 0.05 om det blivit en signifikant minskning av andelen fortkörare För att uppskatta antalet fiskar i en sjö kan man använda sig av en metod med fångst och återfångst (capture/recapture). Antag att det finns N (okänt antal) fiskar i sjön. Fånga slumpmässigt M fiskar, märk dem och släpp i dem i sjön igen. Vänta ett tag så att märkta fiskar blandar sig med de omärkta. Av de N fiskarna i sjön är alltså M märkta. Återfånga slumpmässigt n fiskar och notera hur många av de n som är märkta. Antag att detta antal betecknas x. Antag att N är så stort i förhållande till n så att sannolikheten att en fisk är märkt kan anses vara lika stor för alla återfångade fiskar. (a) Hur skattas sannolikheten p=p(en återfångad fisk är märkt)? (b) Om X är antalet återfångade fiskar som är märkta, vilken fördelning har då X? (c) Hur ska ett approximativt 95% intervall för p se ut? (d) Nu är det ju en skattning av N som är intressant. Vad är relationen mellan N (skattningen av N) och p (skattningen av p)? (e) Utnyttja intervallet för p samt relationen mellan de två skattningarna för att få ett approximativt 95% intervall för N.

122 122 Vanliga statistiska modeller 5.4 Inferens för kategoridata 282. Varje individ i en viss population hör i genetiskt hänseende till en av fyra kategorier K 1, K 2, K 3, K 4. Teoretiskt skall de fyra kategoriernas storlekar förhålla sig som 9 : 3 : 3 : 1. Vid en undersökning av 160 slumpmässigt utvalda ur populationen fick man följande resultat: kategori K 1 K 2 K 3 K 4 frekvens Hur många individer skulle man vänta sig att få i respektive kategori om teorin är riktig? Hur stor blir den testkvantitet med vars hjälp man kan testa om (med lättbegripliga beteckningar) H 0 : p 1 = 9/16, p 2 = p 3 = 3/16, p 4 = 1/16 är sann? Utför testet på nivån Samma frågeställning som i uppgift 267 men med en alternativ lösning. Det neurologiska tillståndet stiff person syndrome kännetecknas av fortskridande muskelstelhet, smärtsamma kramper och ibland ofrivilliga muskelryckningar. För att undersöka om förekomsten av detta syndrom är kopplat till förekomsten av anti-gadautoantikroppar (GAD är en förkortning av glutaminsyredekarboxylas) gjordes en undersökning på totalt 550 personer varav 370 hade syndromet. Har anti-gad- Har ej anti-gadautoantikroppar autoantikroppar Normal Stiff person syndrome Finns det ett signifikant skillnad mellan grupperna då det gäller förekomst av anti- GAD-autoantikroppar? Lös uppgiften genom att göra ett χ 2 -test En tandläkare studerade sambandet mellan kariesfrekvens hos barn och flourhalten i dricksvatten. Han noterade bl.a. följande siffror för totalt 1161 familjer (som inte fått något extra flourtillskott): Hög kariesfrekvens Låg kariesfrekvens bland familjens barn bland familjens barn Låg flourhalt i dricksvatten Hög flourhalt i dricksvatten (a) Tyder dessa siffror på att det finns ett samband mellan flourhalten i dricksvatten och kariesfrekvensen?

123 Vanliga statistiska modeller 123 (b) Det fanns totalt 2926 barn i de 1161 familjerna. Varför bör man ej basera analysen ovan på de separata barnen? 285. Ankyloserande spondylit (AS) leder typiskt till förbeningar i bäckenleder och i ryggens kotpelare. På ett antal gravida kvinnor, med och utan denna diagnos, undersökte man hur många av förlossningarna som slutade i akut kejsarsnitt: AS Ej AS Kejsarsnitt Ej kejsarsnitt (a) Verkar det finnas ett samband mellan AS och kejsarsnitt? (b) Gör ett konfidensintervall för andelen graviditeter i AS-gruppen som slutar med kejsarsnitt. (c) Gör ett konfidensintervall för förväntade antalet graviditeter, som slutar med kejsarsnitt, i en AS-grupp bestående av 200 kvinnor Från ett register över trafikolyckor noterade man om olyckan hade dödlig utgång eller inte samtidigt som man undersökte om den skadade använt bilbälte vid olyckstillfället: Dödlig Ej dödlig Använt bälte Ej använt bälte Verkar de två faktorerna använda bilbälte och olyckan är dödlig vara statistiskt oberoende? 287. Högt blodtryck är en känd riskfaktor för olika typer av hjärtskjukdomar. En studie gjordes för att undersöka om det fanns ett signifikant samband mellan blodtrycket hos barn och deras fäder. Om ett sådant samband finns var tanken att genom att undersöka blodtrycket på individer i ena gruppen kunna finna högriskindivider i den andra gruppen. På 90 elever i klass 9 och på deras fäder mättes därför blodtrycket. För samtliga individer klassificerades blodtrycket som tillhörande den undre, mellersta eller övre tredjedelen i respektive grupp.

124 124 Vanliga statistiska modeller Barnens blodtryck Undre Mellersta Övre tredjedelen tredjedelen tredjedelen Fädernas Undre tredjedelen blod- Mellersta tredjedelen tryck Övre tredjedelen (a) Undersök, med ett lämpligt test, om blodtrycken hos barn och fäder kan anses vara oberoende av varandra. (b) Ebbe påpekar att man kan använda de ursprungliga blodtrycksmätningarna (och alltså inte göra en klassificering i grupper) för att undersöka om det finns ett samband mellan barns och fäders blodtryck. Antag alltså att de ursprungliga mätningarna betecknas Barnens blodtryck: x 1,..., x 90 Fädernas blodtryck: y 1,..., y 90 Beskriv hur ett test skulle gå till. Ange dina modellantaganden, hypoteser, testkvantitet och när nollhypotesen ska förkastas.

125 Sambandsanalys - regression och korrelation Sambandsanalys NYCKELBEGREPP: Begrepp Träna Regression FMS035 (M-kurs): Maple TA, reg1-reg8 Korrelation MASB11 (Biostat): DigUppg 1-8 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Kompendiet Sambandsanalys avsnitt 1-4 Blom et al. Kapitel 14 Olsson, Englund och Engstrand Kapitel Regressionsanalys 288. Illustrera med figurer i Matlab. I denna uppgift ska ni bekanta er med några Matlabrutiner som är användbara vid regressionsanalys. Ni ska också med ett simuleringsexperiment undersöka hur värdet på σ påverkar modellen och de slutsatser man kan dra från data. (a) Skapa en vektor x med värden 1, 2,..., 10 och en variabel y som erhålls genom det teoretiska linjära sambandet y=α+βx, där α och β är kända. Välj t ex y=10+2x. Addera till variabeln y två uppsättningar av normalfördelade mätfel N (0, σ) med olika värden på σ, förslagsvis σ=1 och σ=5. >> x=[1:10] >> y1=10+2*x+normrnd(0,1,10,1) >> y2=10+2*x+normrnd(0,5,10,1) Vektorn y1 består alltså nu av 10 observationer från N (10 + 2x, 1) medan y2 består av 10 observationer från N (10 + 2x, 5). Titta på data i samma diagram och jämför. Hur påverkar värdet på σ era y-värden? >> plot(x,10+2*x) >> hold on >> plot(x,y1, x ) >> plot(x,y2, o )

126 126 Sambandsanalys - regression och korrelation (b) För att enkelt skatta regressionslinjen, beräkna konfidensintervall, undersöka residualer m.m. utnyttjar vi den specialskrivna filen reggui, se help reggui. >> reggui(x,y1) >> reggui(x,y2) Bekanta dig med utskrifterna och figurerna som reggui alstrar. Var hittar ni skattningarna av α, β och σ? Var återfinns konfidensintervallen för α och β? (c) Vilken av de två skattade linjerna ligger närmast den sanna linjen x? Kontrollera att intervallen för α och β täcker över de sanna värdena. (d) Titta på residualerna för de båda linjerna. Hur påverkas de av värdet på σ? Jämför skattningen av σ med de sanna värdena. (e) Reggui är en specialskriven funktion för våra grundkurser i matematisk statistik vid LTH. Den fungerar emellertid endast för enkel linjär regression eller polynomregression. I Matlab finns en inbyggd funktion för regressionsanalys, regress. Pröva hjälpkommandot help regress för att ta reda på hur in- och utargumenten ser ut. För att använda regress måste vi bilda matrisen X som är en (10 x 2) matris med första kolumnen enbart ettor och andra kolumnen bestående av x-värdena. Använd regress för att skatta en av de två regressionslinjerna ovan. >> X=[ones(10,1) x] >> [b bint r]=regress(y1,x,0.05) Utargumentet bint ger konfidensintervall för parametrarna α och β (med konfidensgrad 0.95 här ovan). Jämför de erhållna skattningarna och intervallen med de värden du fick med kommandot reggui I ett stickprov om 22 barn studerades sambandet mellan barnets födelsevikt och den procentuella viktökningen t.o.m. den 3:e levnadsmånaden. Resultat: Födelsevikt (kg) Viktökning (%) Födelsevikt (kg) Viktökning (%) Födelsevikt (kg) Viktökning (%) Räknehjälp: Om x i =födelsevikt hos barn i och y i =viktökning hos barn i gäller x = ; ȳ = ; s 2 x = 1 (xi x) 2 = ; s y = 1 (yi ȳ) 2 =

127 Sambandsanalys - regression och korrelation 127 Dessutom är SS x = (x i x) 2 = ; SP xy = (x i x)(y i ȳ) = ; SS y = (yi ȳ) 2 = (a) Från bilden verkar det rimligt att viktökningen kan beskrivas linjärt av födelsevikten. Skatta regressionslinjen. (b) Lille Axel vägde 2.3 kg vid födseln. Gör ett intervall som visar var hans viktökning, med 95% sannolikhet, kommer att ligga mellan. (c) För vilka födelsevikter tillåter materialet, att vi gör en prediktion vad avser viktförändringen? 290. Som en del i det svenska miljöövervakningssystemet PMK ( mäts kvävehalten i en rad svenska vattendraget. Nedan ges medelvärdet av sommarmånadernas kvävehalt för en viss å ett antal år: År: Kvävehalt (mg/l): Antag att kvävehalten ändras linjärt under den studerade perioden. (a) Ange den linjära regressionsmodellen. (b) Vad är den skattade regressionslinjen? (c) Vad är skattningen av σ 2, dvs variationen kring linjen? (d) Gör ett 95 % konfidensintervall för den årliga förändringen av kvävehalt i vattendraget. Har det skett en signifikant förändring i kvävehalt under den studerade perioden?

128 128 Sambandsanalys - regression och korrelation (e) Gör ett 95 % konfidensintervall för genomsnittlig kvävehalt år (f) Gör ett 95 % konfidensintervall för genomsnittlig kvävehalt år DATAMATERIAL: Bradford. Från laboration Proteinbestämning enligt Bradfordmetoden i kursen cellbiologi. I laborationen undersöktes absorbansen hos prov med olika spädningar av Bovint Serum Albumin (BSA)-standard. En laborationsgrupp uppmätte följande värden: Konc (mg/l) Absorbans Enligt Lambert-Beers lag gäller att absorbansen (A) kan beskrivas som en linjär funktion av koncentrationen (c): A = k c där konstanten k beror på ämnets molära absorptionskoefficient vid en viss våglängd samt kyvettens längd. Vid mätningar får man naturligtvis räkna med en viss slumpmässig variation, en rimlig modell är att absorbansen vid mätning nr i, A i, beskrivs linjärt av koncentrationen c i plus ett slumpmässigt fel: A i = β 0 + β 1 c i + e i där e i är oberoende och e i N (0, σ 2 ). Här motsvaras konstanten β 1 av den tidigare k medan β 0 är absorbansen i den lösning som BSA:n är löst, (buffert eller vatten). (a) Undersök om den linjära regressionsmodellen ovan är rimlig att anpassa till data. (b) Om värdet på β 0 är signifikant skilt från noll, hur ska vi tolka detta? (c) Hur mycket ökar absorbansen då man ökar koncentrationen en enhet? Ange ett 95% konfidensintervall för denna storhet. (d) Vad är genomsnittlig absorbans för prov med koncentration 50 (mg/l)? Ange ett 95 % konfidensintervall för denna storhet. (e) Vi har ett prov med koncentration 50 (mg/l). Ange ett 95 % prediktionsintervall för absorbansen i just detta prov.

129 Sambandsanalys - regression och korrelation 129 (f) Huvudsyftet med mätningarna var att erhålla en standardkurva för hur absorbansen påverkas av koncentrationen. Anta att vi på ett prov med okänd koncentration c 0 uppmätte absorbansen Ange ett 95 % kalibreringsintervall för c I en undersökning fick 20 slumpmässigt utvalda kvinnor mellan 17 och 19 år blåsa i en spirometer för att undersöka sin lungkapacitet (liter). Samtidigt noterades kvinnornas vikt och man var intresserad om det fanns något samband mellan de två variablerna. Person Vikt (kg) Lungkap. (l) Person Vikt (kg) Lungkap. (l) Räknehjälp: SP xy = ; SS x = ; SS y = ; x = ; ȳ = (a) Beräkna korrelationskoefficienten r och testa om det finns ett samband mellan vikt och lungkapacitet. (b) Antag en linjär regressionsmodell och skatta linjen. Testa om det finns ett samband mellan vikt och lungkapacitet. Hur mycket förändras lungkapaciteten om en kvinna ökar sin vikt med ett kilo?

130 130 Sambandsanalys - regression och korrelation 293. För de n talparen (x 1, y 1 ),..., (x n, y n ) ansätter man en enkel linjär regressionsmodell: y i = α + βx i + ɛ i där ɛ i är oberoende och normalfördelade. I en analys beräknas följande 95% intervall: I α = ( 0.4, 0.7), I β = ( 0.7, 0.4). Avgör om följande påståenden är sanna eller falska. (a) Modellen y i = α + ɛ i är att föredra (b) Modellen y i = βx i + ɛ i är att föredra (c) Det finns en positiv korrelation mellan x och y (d) Från den skattade modellen ser vi att en ökning i x med 10 enheter innebär att y minskar i genomsnitt med 5.5 enheter 294. DATAMATERIAL: avlopp. Avloppet från en industri mynnar ut i ett vattendrag. För att undersöka hur exempelvis halten av järn späds ut i vattnet mäts Fe-halten vid ett antal punkter nedströms om utsläppspunkten. Data finns också i filen avlopp. Antal meter från utsläppspunkten Fe-halt (mg/l) (a) Skriv upp en modell för data under antagandet att Fe-halten avtar linjärt med avståndet från utsläppspunkten samt att avvikelserna från linjen kan antas vara normalfördelade med konstant varians. (b) Undersök om antagandena i (a) är rimliga. (c) Hur mycket minskar Fe-halten per 100 m? Gör ett konfidensintervall för minskningen. (d) Wilma ska i morgon mäta Fe-halten vid badbryggan som ligger 500 m nedströms utsläppspunkten. Utgående från den linjära regressionsmodellen, vad kan hon säga om Fe-halten i provet? (e) Hon vill också veta hur långt nedströms från utsläppspunkten man har en Fe-halt på 35 mg/l, gör ett lämpligt intervall som ger Wilma information om detta.

131 Sambandsanalys - regression och korrelation DATAMATERIAL: kalibrering. För att kalibrera ett high pressure liquid chromotography (HPLC) instrument avlästes instrumentet för en rad kända koncentrationer. Data finns i fil kalibrering. Dye conc HPLC peak area Dye conc HPLC peak area Använd den specialskrivna Matlabrutinen reggui för att analysera data. Bekanta dig med alla de finesser som denna rutin erbjuder (vilka intervall den kan rita ut, hur man kan identifiera outliers osv.) (a) Verkar data kunna beskrivas väl av ett linjärt samband? Titta på residualerna, uppvisar de någon trend? är de normalfördelade? om normalfördelning vad skattar du väntevärdet till i denna fördelning? (b) Vad är den skattade regressionslinjen? Hur stor är den skattade standardavvikelsen kring linjen? (c) Då koncentrationen är 0 borde HPLC instrumentet ge utslag 0. Motsäger data detta? (d) Om man har koncentrationen 0.22, vad är det 95 % konfidensintervallet för genomsnittligt HPCL värde? (e) Om man har koncentrationen 0.22, vad är det 95 % prediktionsintervallet för ett enstaka HPCL värde? (f) Eftersom man vill använda den skattade linjen som en kalibreringskurva: antag att HPCL instrumentet på ett prov med okänd koncentration visar 22.1 enheter, vad kan du säga om koncentrationen i provet? vilken osäkerhet har du i din utsaga? 296. Vid en kolorimetrisk bestämning av Fe 3+ -halten i en lösning får man, bortsett från normalfördelade mätfel, ett linjärt samband mellan koncentration, x och ljusintensiteten y, y = α + βx. Från 13 oberoende experiment där ljusintensiteten mättes för olika koncentrationer finns följande mätvärden: x: y:

132 132 Sambandsanalys - regression och korrelation (a) Ange skattningar av modellens parametrar. Verkar modellen rimlig? (b) Oavsett ditt svar i (a), antag att modellen är rimlig och gör ett 95% konfidensintervall för den genomsnittliga ljusintensiteten då koncentrationen är 4. (c) Wilma säger att eftersom man för koncentrationen x = 4 har hela fyra observationer av ljusintensiteten borde man göra det sökta intervallet i (b) genom att enbart utnyttja dessa fyra mätningar. Håller du med Wilma? Motivera noga ditt svar! (d) Lite senare gjorde man ytterligare mätningar och fick då x: 7 8 y: Willy säger att nu kan man använda samtliga 18 mätningar för att få det önskade intervallet i (b). Håller du med honom? Motivera noga ditt svar! 297. I ett försök mätte man hur värmeutvecklingen i stelnad cement påverkas av viktprocenten av trikalciumsilikat. För 13 olika cementblock, med varierande viktprocent trikalciumsilikat, noterade man värmeutvecklingen (enhet: kalorier per gram cement). Resultat: viktprocent värmeutveckling Man ansatte en modell där värmeutvecklingen (y) berodde linjärt på viktprocenten (x): y i = α + β x i + ɛ i, i = 1,..., 13 där ɛ 1,..., ɛ 13 är oberoende och N (0, σ). Man analyserade data med ett beräkningsprogram och fick följande resultat: Koefficient Skattning Konfidensintervall (95%) α (38.74, 76.11) β (0.42, 1.16) Vidare fick man skattningen av σ till 9.08 och förklaringsgraden R 2 =0.67. Man ritade också ut några figurer, se nedan.

133 Sambandsanalys - regression och korrelation Linear Regression 120 varmeutv Residuals viktprocent Normplot of Residuals

Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens. Lena Zetterqvist och Johan Lindström

Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens. Lena Zetterqvist och Johan Lindström Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens Lena Zetterqvist och Johan Lindström 23 oktober 2015 Innehåll 1 Beskrivning av data 5 2 Grundläggande sannolikhetsteori 13

Läs mer

Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015

Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015 Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015 Innehåll 1. Beskrivning av data 2. Grundläggande sannolikhetsberäkningar 3. Fördelningar 3.1 Diskreta fördelningar

Läs mer

Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens. Lena Zetterqvist och Johan Lindström

Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens. Lena Zetterqvist och Johan Lindström Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens Lena Zetterqvist och Johan Lindström 22 oktober 2015 Innehåll 1 Beskrivning av data 5 2 Grundläggande sannolikhetsteori 15

Läs mer

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF25: MATEMATISK STATISTIK KOMPLETTERANDE PROJEKT DATORLABORATION 1, 14 NOVEMBER 2017 Syfte Syftet med dagens laboration är att du ska träna

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4 LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, 216-4-6 OCH INFÖR ÖVNING 4 Övningens mål: Du ska förstå begreppet slumpvariabel och skilja

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Resultatet läggs in i ladok senast 13 juni 2014.

Resultatet läggs in i ladok senast 13 juni 2014. Matematisk statistik Tentamen: 214 6 2 kl 14 19 FMS 35 Matematisk statistik AK för M, 7.5 hp Till Del A skall endast svar lämnas. Samtliga svar skall skrivas på ett och samma papper. Övriga uppgifter fordrar

Läs mer

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Lunds tekniska högskola Matematikcentrum Matematisk statistik Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS035: MATEMATISK STATISTIK FÖR M DATORLABORATION 1 Syfte Syftet med dagens laboration är att du ska träna på att hantera olika numeriska

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, OCH ÖVNING 2, SAMT INFÖR ÖVNING 3

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, OCH ÖVNING 2, SAMT INFÖR ÖVNING 3 LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, 2016-04-01 OCH ÖVNING 2, 2016-04-04 SAMT INFÖR ÖVNING 3 Övningarnas mål: Du ska förstå grundläggande

Läs mer

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge Lunds tekniska högskola Matematikcentrum Matematisk statistik Matematisk statistik AK för ekosystemteknik, FMSF75 OH-bilder 28-9-3 Normalfördelningen, X N(µ, σ) f(x) = e (x µ)2 2σ 2, < x < 2π σ.4 N(2,).35.3.25.2.5..5

Läs mer

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Lunds tekniska högskola Matematikcentrum Matematisk statistik Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS035: MATEMATISK STATISTIK FÖR M DATORLABORATION 1, 2012-03-30 Syfte Syftet med dagens laboration är att du ska träna på att hantera olika

Läs mer

Veckoblad 3. Kapitel 3 i Matematisk statistik, Blomqvist U.

Veckoblad 3. Kapitel 3 i Matematisk statistik, Blomqvist U. Veckoblad 3 Kapitel 3 i Matematisk statistik, Blomqvist U. ya begrepp: likformig fördelning, hypergeometerisk fördelning, Hyp(, n, p), binomialfördelningen, Bin(n, p), och Poissonfördelningen, Po(λ). Standardfördelningarna

Läs mer

4.1 Grundläggande sannolikhetslära

4.1 Grundläggande sannolikhetslära 4.1 Grundläggande sannolikhetslära När osäkerhet förekommer kan man aldrig uttala sig tvärsäkert. Istället använder vi sannolikheter, väntevärden, standardavvikelser osv. Sannolikhet är ett tal mellan

Läs mer

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 1, 1 APRIL 215 FÖRDELNINGAR, SIMULERING OCH FÖRDELNINGSANPASSNING Syfte Syftet med dagens laboration är att du ska

Läs mer

Några extra övningsuppgifter i Statistisk teori

Några extra övningsuppgifter i Statistisk teori Statistiska institutionen Några extra övningsuppgifter i Statistisk teori 23 JANUARI 2009 2 Sannolikhetsteorins grunder 1. Tre vanliga symmetriska tärningar kastas. Om inte alla tre tärningarna visar sexa,

Läs mer

TMS136. Föreläsning 4

TMS136. Föreläsning 4 TMS136 Föreläsning 4 Kontinuerliga stokastiska variabler Kontinuerliga stokastiska variabler är stokastiska variabler som tar värden i intervall av den reella axeln Det kan handla om längder, temperaturer,

Läs mer

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08 Laboration 2: Om väntevärden och fördelningar 1 Syfte I denna laboration skall vi försöka

Läs mer

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler. LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03 Syfte: Syftet med dagens laborationen är att du skall: få förståelse

Läs mer

Datorövning 1: Fördelningar

Datorövning 1: Fördelningar Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS012/MASB03: MATEMATISK STATISTIK, 9 HP, VT-17 Datorövning 1: Fördelningar I denna datorövning ska du utforska begreppen sannolikhet och

Läs mer

bli bekant med summor av stokastiska variabler.

bli bekant med summor av stokastiska variabler. LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORÖVNING 2 MATEMATISK STATISTIK FÖR E FMSF20 Syfte: Syftet med dagens laborationen är att du skall: få förståelse för diskreta, bivariate

Läs mer

Mer om slumpvariabler

Mer om slumpvariabler 1/20 Mer om slumpvariabler Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/2 2013 2/20 Dagens föreläsning Diskreta slumpvariabler Vilket kretskort ska man välja? Väntevärde

Läs mer

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar Lunds tekniska högskola Matematikcentrum Matematisk statistik Laboration 3 Matematisk statistik AK för CDIFysiker, FMS012/MASB03, HT15 Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

Gamla tentauppgifter i kursen Statistik och sannolikhetslära (LMA120)

Gamla tentauppgifter i kursen Statistik och sannolikhetslära (LMA120) Gamla tentauppgifter i kursen Statistik och sannolikhetslära (LMA120) Lärandemål I uppgiftena nedan anger L1, L2 respektive L3 vilket lärandemål de olika uppgifterna testar: L1 Ta risker som i förväg är

Läs mer

Räkna med variation - Digitala uppgifter Studiematerial i sannolikhetslära och statistisk inferens. Lena Zetterqvist och Johan Lindström

Räkna med variation - Digitala uppgifter Studiematerial i sannolikhetslära och statistisk inferens. Lena Zetterqvist och Johan Lindström Räkna med variation - Digitala uppgifter Studiematerial i sannolikhetslära och statistisk inferens Lena Zetterqvist och Johan Lindström 29 oktober 25 Innehåll Beskrivning av data 5 2 Grundläggande sannolikhetsteori

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i

Läs mer

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel Matematisk statistik 9hp Föreläsning 2: Slumpvariabel Anna Lindgren 6+7 september 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F2: Slumpvariabel 1/23 Begrepp Samband Grundläggande begrepp Utfall

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB ÖVNING 7 (25-4-29) OCH INFÖR ÖVNING 8 (25-5-4) Aktuella avsnitt i boken: 6.6 6.8. Lektionens mål: Du ska kunna sätta

Läs mer

FÖRELÄSNING 3:

FÖRELÄSNING 3: FÖRELÄSNING 3: 26-4-3 LÄRANDEMÅL Fördelningsfunktion Empirisk fördelningsfunktion Likformig fördelning Bernoullifördelning Binomialfördelning Varför alla dessa fördelningar? Samla in data Sammanställ data

Läs mer

>> load sjodata1 %(ladda in datafilen) >> whos %(visar vilka variabler som ligger i filen) >> lake1 %(visar de 12 mätningarna från denna sjö)

>> load sjodata1 %(ladda in datafilen) >> whos %(visar vilka variabler som ligger i filen) >> lake1 %(visar de 12 mätningarna från denna sjö) Övningsuppgifter Sannolikhetsteori 1. Sjödata1 (Matlab) I två olika sjöar, Sjö 1 och Sjö 2, har man en klar sommardag på olika platser i sjöarna gjort ett antal mätningar av ett visst näringsämne. (a)

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17 Matematisk statistik slumpens matematik

Läs mer

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR I, FMS 01, HT-07 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen, enkla punktskattningar

Läs mer

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN): Lunds tekniska högskola Matematikcentrum Matematisk statistik Matematisk statistik AK för ekosystemteknik, FMSF75 OH-bilder 2018-09-19 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Läs mer

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng Matematisk statistik Provmoment: Ladokkod: Tentamen ges för: TT091A, TVJ22A, NVJA02 Pu, Ti 7,5 högskolepoäng Namn: (Ifylles av student) Personnummer: (Ifylles av student) Tentamensdatum: 2012-05-29 Tid:

Läs mer

SF1901: Övningshäfte

SF1901: Övningshäfte SF1901: Övningshäfte 5 september 2013 Uppgifterna under rubriken Övning kommer att gås igenom under övningstillfällena. Uppgifterna under rubriken Hemtal är starkt rekommenderade och motsvarar nivån på

Läs mer

Föreläsning 2, FMSF45 Slumpvariabel

Föreläsning 2, FMSF45 Slumpvariabel Föreläsning 2, FMSF45 Slumpvariabel Stas Volkov 2017-09-05 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F2: Slumpvariabel 1/23 Begrepp Samband Grundläggande begrepp och beteckningar Utfall resultatet

Läs mer

Datorövning 1 Fördelningar

Datorövning 1 Fördelningar Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF20: MATEMATISK STATISTIK, ALLMÄN KURS, 7.5HP FÖR E, HT-15 Datorövning 1 Fördelningar I denna datorövning ska du utforska begreppen sannolikhet

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010 Avd. Matematisk statistik SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010 0 Allmänna anvisningar Arbeta med handledningen, och skriv rapport, i grupper om två eller tre personer. Närvaro vid laborationstiden

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) Aktuella avsnitt i boken: Kap 61 65 Lektionens mål: Du ska

Läs mer

Statistiska metoder för säkerhetsanalys

Statistiska metoder för säkerhetsanalys F3: Slumpvariaber och fördelningar Diskret Kontinuerlig Slumpvariabler Slumpvariabler = stokastiska variabler = random variables = s.v. Heter ofta X, Y, T. Diskreta kan anta ändligt eller uppräkneligt

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2017-08-22 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Jourhavande lärare: Mykola

Läs mer

4.2.1 Binomialfördelning

4.2.1 Binomialfördelning Ex. Kasta en tärning. 1. Vad är sannolikheten att få en 6:a? 2. Vad är sannolikheten att inte få en 6:a? 3. Vad är sannolikheten att få en 5:a eller 6:a? 4. Om vi kastar två gånger, vad är då sannolikheten

Läs mer

Statistiska metoder för säkerhetsanalys

Statistiska metoder för säkerhetsanalys Anna Lindgren Matematisk statistik 2 september 2013 Formalia Syfte och Mål Om kursen Kursen ger 7.5 hp och är obligatorisk på Riskhantering. Förutsätter en grundläggande kurs i statistik/matematisk statistik.

Läs mer

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6. Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, 28-4-6 EXEMPEL (max och min): Ett instrument består av tre komponenter.

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 4 7 november 2017 1 / 29 Idag Förra gången Viktiga kontinuerliga fördelningar (Kap. 3.6) Fördelningsfunktion (Kap. 3.7) Funktioner av stokastiska

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare Stockholms universitet November 2011 Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram För kvalitativa data som nominal- och ordinaldata infördes stapeldiagram. För kvantitativa data

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik

Läs mer

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12 LINKÖPINGS UNIVERSITET MAI Johan Thim Tentamen i matematisk statistik (9MA21/9MA31, STN2) 212-8-2 kl 8-12 Hjälpmedel är: miniräknare med tömda minnen och formelbladet bifogat. Varje uppgift är värd 6 poäng.

Läs mer

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3 Laboration 2 Fördelningar och simulering Introduktion 2014-02-06 Syftet med laborationen är dels

Läs mer

Kap 3: Diskreta fördelningar

Kap 3: Diskreta fördelningar Kap 3: Diskreta fördelningar Sannolikhetsfördelningar Slumpvariabler Fördelningsfunktion Diskreta fördelningar Likformiga fördelningen Binomialfördelningen Hypergeometriska fördelningen Poisson fördelningen

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan 08.15-13.15

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan 08.15-13.15 Karlstads universitet Institutionen för informationsteknologi Avdelningen för Statistik Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 6 april 004, klockan 08.15-13.15 Tillåtna hjälpmedel: Bifogad

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2019-06-07 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Adam Jonsson Jourhavande

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 3 4 november 2016 1 / 28 Idag Förra gången Stokastiska variabler (Kap. 3.2) Diskret stokastisk variabel (Kap. 3.3 3.4) Kontinuerlig stokastisk

Läs mer

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift Exempel: Väljarbarometern Föreläsning 1: Introduktion Matematisk statistik Det som typiskt karakteriserar ett statistiskt problem är att vi har en stor grupp (population) som vi vill analysera. Vi kan

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6): EM-fotboll 2012 några grafer Sport är en verksamhet som genererar mängder av numerisk information som följs med stort intresse EM i fotboll är inget undantag och detta dokument visar några grafer med kommentarer

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1 Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF5: Matematisk statistik för L och V OH-bilder på föreläsning 4, 27--8 EXEMPEL: buss. Från en busshållplats avgår en buss var 2 min (inga

Läs mer

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018 SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 3 DISKRETA STOKASTISKA VARIABLER Tatjana Pavlenko 23 mars, 2018 PLAN FÖR DAGENSFÖRELÄSNING Repetition av betingade sannolikheter, användbara satser

Läs mer

Blandade problem från elektro- och datateknik

Blandade problem från elektro- och datateknik Blandade problem från elektro- och datateknik Sannolikhetsteori (Kapitel 1-10) E1. En viss typ av elektroniska komponenter anses ha exponentialfördelade livslängder. Efter 3000 timmar brukar 90 % av komponenterna

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.). STOKASTISKA VARIABLER Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.). Definition 1. En reellvärd funktion definierad på ett utfallsrum Ω kallas en (endimensionell)

Läs mer

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS012/MASB03: MATEMATISK STATISTIK, 9 HP, HT-16 Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen Syftet med den här laborationen

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

Problemlösning. Måns Thulin. Uppsala universitet Statistik för ingenjörer 30/ /16

Problemlösning. Måns Thulin. Uppsala universitet Statistik för ingenjörer 30/ /16 1/16 Problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 30/1 2013 Kursinformation: diskussionsuppgifter Under kursens gång kommer vi att ha 12 diskussionsproblem

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk

Läs mer

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4) Stat. teori gk, ht 006, JW F5 STOKASTISKA VARIABLER (NCT 5.1-5.3, samt del av 5.4) Ordlista till NCT Random variable Discrete Continuous Probability distribution Probability distribution function Cumulative

Läs mer

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF20 Syfte: Syftet med dagens laborationen är att du skall: få förståelse för punkt- och intervallskattningar.

Läs mer

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2 Matematisk Statistik SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2 1 Introduktion Denna laboration är inte poänggivande utan är till för den som vill bekanta sig med MATLAB. Fokusera

Läs mer

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 3 MATEMATISK STATISTIK AK FÖR CDIFYSIKER, FMS012/MASB03, HT12 Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla

Läs mer

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M Tentamen i Sannolikhetslära och statistik Kurskod S0008M Poäng totalt för del 1: 25 (9 uppgifter) Tentamensdatum 2011-06-04 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson,

Läs mer

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler Jörgen Säve-Söderbergh Stokastisk variabel Singla en slant två gånger. Ω = {Kr Kr, Kr Kl, Kl Kr, Kl Kl}

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Föreläsning 2, Matematisk statistik för M

Föreläsning 2, Matematisk statistik för M Repetition Stok. Var. Diskret Kont. Fördelningsfnk. Föreläsning 2, Matematisk statistik för M Erik Lindström 25 mars 2015 Erik Lindström - erikl@maths.lth.se FMS012 F2 1/16 Repetition Stok. Var. Diskret

Läs mer

Föreläsning 1: Introduktion

Föreläsning 1: Introduktion Föreläsning 1: Introduktion Matematisk statistik David Bolin Chalmers University of Technology March 22, 2014 Lärare och kurslitteratur David Bolin: Rum: E-mail: Fredrik Boulund: Rum: E-mail: Kursansvarig,

Läs mer

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp LÖSNINGAR TILL Matematisk statistik, Tentamen: 011 10 1 kl 14 00 19 00 Matematikcentrum FMS 086, Matematisk statistik för K och B, 7.5 hp Lunds tekniska högskola MASB0, Matematisk statistik kemister, 7.5

Läs mer

FÖRELÄSNING 4:

FÖRELÄSNING 4: FÖRELÄSNING 4: 26-4-9 LÄRANDEMÅL Poissonfördelning Kontinuerliga slumpvariabler Kontinuerlig uniform fördelning Exponentialfördelning Samla in data Sammanställ data Gissa modell för datan Testa modellen

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2019-01-18 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Adam Jonsson, Mykola

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer

Diskussionsproblem för Statistik för ingenjörer

Diskussionsproblem för Statistik för ingenjörer Diskussionsproblem för Statistik för ingenjörer Måns Thulin thulin@math.uu.se Senast uppdaterad 20 februari 2013 Diskussionsproblem till Lektion 3 1. En projektledare i ett byggföretaget ska undersöka

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Diskreta fördelningar Uwe Menzel, 2018 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN): Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF50: Matematisk statistik för L och V OH-bilder på föreläsning 7, 2017-11-20 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Läs mer

1 10 e 1 10 x dx = 0.08 1 e 1 10 T = 0.08. p = P(ξ < 3) = 1 e 1 10 3 0.259. P(η 2) = 1 P(η = 0) P(η = 1) = 1 (1 p) 7 7p(1 p) 6 0.

1 10 e 1 10 x dx = 0.08 1 e 1 10 T = 0.08. p = P(ξ < 3) = 1 e 1 10 3 0.259. P(η 2) = 1 P(η = 0) P(η = 1) = 1 (1 p) 7 7p(1 p) 6 0. Tentamen TMSB18 Matematisk statistik IL 091015 Tid: 08.00-13.00 Telefon: 036-10160 (Abrahamsson, Examinator: F Abrahamsson 1. Livslängden för en viss tvättmaskin är exponentialfördelad med en genomsnittlig

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2017-06-02 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Mikael Stenlund Examinator:

Läs mer

Extrauppgifter i matematisk statistik

Extrauppgifter i matematisk statistik Extrauppgifter i matematisk statistik BT 2014 1. Mängden A är dubbelt så sannolik som B. Hur förhåller sig P(A B) till P(B A)? 2. Två händelser A och B har sannolikheter skilda från noll. (a) A och B är

Läs mer

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola. Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola. Tid: Måndagen den 2015-06-01, 8.30-12.30. Examinator och Jour: Olle Nerman, tel. 7723565, rum 3056, MV, Chalmers. Hjälpmedel: Valfri

Läs mer

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,

Läs mer

Föreläsning 12: Repetition

Föreläsning 12: Repetition Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse

Läs mer

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 4, 28-3-27 EXEMPEL: buss. Från en busshållplats avgår en buss var 2 min (inga

Läs mer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer Lunds universitet Matematikcentrum Matematisk statistik Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer Information om laborationerna I andra halvan av MASA01 kursen ingår två laborationer.

Läs mer

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M Tentamen i Sannolikhetslära och statistik Kurskod S0008M Poäng totalt för del 1: 25 (12 uppgifter) Tentamensdatum 2012-12-19 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Statistikens grunder HT, dagtid Statistiska institutionen

Statistikens grunder HT, dagtid Statistiska institutionen Statistikens grunder 1 2013 HT, dagtid Statistiska institutionen Orsak och verkan N Kap 2 forts. Annat ord: kausalitet Något av det viktigaste för varje vetenskap. Varför? Orsakssamband ger oss möjlighet

Läs mer