Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015

Storlek: px
Starta visningen från sidan:

Download "Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015"

Transkript

1 Räkna med variation Studiematerial i sannolikhetslära och statistisk inferens mars 2015 Innehåll 1. Beskrivning av data 2. Grundläggande sannolikhetsberäkningar 3. Fördelningar 3.1 Diskreta fördelningar 3.2 Kontinuerliga fördelningar 3.3 Summa, medelvärde och andra linjärkombinationer 3.4 Normalfördelningen 3.5 Fördelningsanpassning 4. Grundläggande inferens att dra slutsatser från data 4.1 Punktskattningar 4.2 Konfidensintervall 4.3 Hypotestest 5. Inferens i några vanliga statististiska modeller 5.1 Inferens för väntevärdet 5.2 Jämförelse av två väntevärden 5.3 Inferens för diskreta data 5.4 Inferens för kategoridata 6. Sambandsanalys 6.1 Regressionsanalys 6.2 Korrelationsanalys 7 Miniprojekt 8 och lösningar till vissa uppgifter

2 2 Datahantering 1. Beskrivning av data NYCKELBEGREPP: Begrepp Träna Sammanfattande numeriska mått MASB11 (Biostat): Empirisk fördelningsfunktion Digdatabeskr 1-5 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 10 Olsson, Englund och Engstrand Kapitel 2 Sammanfattande numeriska mått 1. DATAMATERIAL: sjodata1. I två olika sjöar, Sjö 1 och Sjö 2, har man en klar sommardag på olika platser i sjöarna gjort ett antal mätningar av ett visst näringsämne. (a) Data finns i filen sjodata1 där variablerna heter lake1 respektive lake2. Nedan ges lämpliga Matlabkommandon (texten efter tecknet % kommenterar vad som görs i kommandot). >> load sjodata1 %(ladda in datafilen) >> whos %(visar vilka variabler som ligger i filen) >> lake1 %(visar de 12 mätningarna från denna sjö) Nu vill vi titta på data genom att göra histogram över mätningarna från respektive sjö. Med >> hist(lake1) gör Matlab en egen klassindelning på mätningarna från Sjö 1. Om ni vill ha två histogram i samma figur (en för varje sjö) och själv bestämma antalet staplar i histogrammen, t.ex. till 10, kan man få det genom följande matlabkommandon >> subplot 211 %(delar fönstret i 2x1 figurer och gör redo att rita i position 1) >> hist(lake1,10) >> subplot 212 %(redo att rita i position 2)

3 Datahantering 3 >> hist(lake2,10) (b) Då man gör histogram över båda datamaterialen får man följande figur. I undersökningen vill man bl.a. veta koncentrationsnivån av näringsämnet, hur mycket koncentrationen varierar från mätning till mätning samt om det finns någon skillnad mellan sjöarna beträffande genomsnittlig koncentration av näringsämnet. Två sammanfattande numeriska mått av data som ni kan ha till hjälp i studien är medelvärdet x = 1 n n i=1 x i och standardavvikelsen 1 s = n n 1 i=1 (x i x) 2. Hur beräknas dessa m.h.a. Matlab? (c) När mätningarna var gjorda upptäckte man att mätproceduren denna dag hela tiden gav ca 0.6 enheter för högt värde (man hade alltså introducerat ett så kallat systematiskt fel i mätningarna på 0.6). Hur kommer histogrammen att förändras när man ska korrigera för detta systematiska fel? Hur kommer de mått ni beräknat i föregående deluppgift att förändras? (d) Kan ni uttala dig någonting om nivån av detta näringsämne i Sjö 1? Eller om eventuella skillnader i näringsnivå mellan sjöarna? 2. Det maximala årliga avrinningsflödet för Feather River i Californien har uppmätts för åren 1902 till I tabellen är flödena ordnade i storleksordning.

4 4 Datahantering År Flöde År Flöde År Flöde (10 3 ft 3 /s) (10 3 ft 3 /s) (10 3 ft 3 /s) xi = , x 2 i = (a) Beräkna medianen för materialet och jämför med medelvärdet. Observera att de två måtten skiljer sig åt! (b) Beräkna standardavvikelsen (s), variationskoefficienten ( ), variationsbredden s x (x max x min ) och variationsintervallet (x min, x max ) för materialet. 3. Man gjorde 7 längdbestämningar med ett instrument och fick medelvärdet x = 3.25 (m) och standardavvikelsen s = 0.08 (m). Därefter upptäckte man att instrumentet var felinställt och hade ett systematiskt fel på 0.05 m. Vad är de korrigerade värdena på medelvärde och standardavvikelse? a med två decimaler i båda fallen.

5 Datahantering 5 Empirisk fördelningsfunktion 4. Hur mycket energi producerar landbaserade vindkraftverk? Under 31 månader gjordes mätningar av producerad energi (kwh) från ett vindkraftverk som var placerat i närheten av ett skogsområde. Betrakta de 31 mätningarna x 1,..., x 31 som oberoende. Några enkla statistiska mått beräknades för de 31 mätningarna: x = kwh, s = i=1 (x i x) 2 = kwh. Man ritade ut data i ett empiriskt fördelningsdiagram. (a) Hur stor andel av månaderna produceras en energimängd som understiger kwh? (b) Hur stor andel av månaderna produceras en energimängd som överstiger kwh? (c) Vilken lägsta energimängd produceras i minst hälften av de noterade nånaderna? 5. DATAMATERIAL: vatten. I syfte att dimensionera en värmeväxlare som genererar varmvatten till bostadshus mäts flödet av varmvatten (l/s) var 30:e sek under ett dygn i en fastighet med 20 lägenheter. Data ligger i filen vatten där variabeln flode anger flödet av varmvatten (l/s) under de senaste 30 sekunderna. Varibeln tid anger tidpunkten (h) för mätningen, som ett decimaltal mellan 0 och 24. (a) Skaffa översikt av data. Läs in filen och plotta varmvattenflödet mot tiden.

6 6 Datahantering >> load vatten >> plot(tid,flode, * ) >> xlabel( timme ) >> ylabel( flöde (l/s) ) (b) Då vi vill använda mätningarna för att dimensionera en värmeväxlare är det intressant att titta på den tiden då det verkligen rinner vatten i kranarna, dvs då flödet är större än noll. Tag ut dessa flöden och tider. >> tid=tid(flode>0) %sorterar ut de värden ur tidsvektorn %där flödet är >0 >> flode=flode(flode>0) För att få en bättre översikt över flödesfördelningen kan man rita ett histogram. Skapa en ny figur i MATLAB och plotta ut ett histogram hist över flödena för att få en uppfattning om fördelningen av olika värden. >> figure >> help hist >> hist(flode) Antalet klasser i histogrammet kan du få till m genom kommandot hist(flode,m). (c) Empirisk fördelningsfunktion. Använd kommandot cdfplot för att få den informativa empiriska fördelningsfunktionen för data. Figuren visar ett kumulativt histogram över relativa frekvenser, i varje datapunkt ökar funktionen med storheten 1 där n är antalet mätningar i materialet. Empiriska fördelningsfunktionen kan användas för att avläsa kvantilerna i ett datamaterial eftersom n värdet på y-axeln för ett visst x ger oss andelen flöden som understiger x l/s. i. Hur stor andel av flödena understiger?? l/s? ii. Vilket flöde överstigs i 5 % av mätningarna? (d) Dimensioneringsproblemet. Antag att man funderar på att sätta in en ny värmeväxlare som maximalt kan klara av ett flöde på 0.4 l/s. i. Baserat på data, hur stor andel av flödesmätningarna överstiger detta värde? ii. För att kunna uttala sig om framtida flöden behövs däremot en modell för hur flödena varierar. Modellen kan t.ex. användas för att uttala sig om hur sannolikt det är att flödet överstiger 0.4 l/s. I uppgift 154 ska du fundera mer på detta problem och försöka anpassa en standardfördelning till dessa flödesdata. (e) Vi vill undersöka om vattenanvändningen i huset skiljer sig markant åt mellan morgon (klockan 7-9) och kväll (klockan 18-20). Genom att i Matlab skriva

7 Datahantering 7 >> morgon=flode(7<=tid & tid<=9); plockas de flödesmätningar ut som är gjorda mellan kl 7 och 9 och läggs i vektorn morgon. Här används en av MATLABs användbara logiska operatorer (& betecknar och, betecknar eller ), semikolon efter satsen gör att du inte får hela vektorn utskriven på skärmen. i. Plocka på motsvarande sätt ut kvällsflödena. ii. Beräkna medelvärde (mean) och standardavvikelse (std) i de två materialen och jämför. iii. Plotta också de två empiriska fördelningsfunktionerna baserade på morgon respektive kvällsmätningar. Använder du kommandot hold kan du få dem i samma figur. 6. DATAMATERIAL: ljungby Myndigheter (Naturvårdsverk, länstyrelser, kommuner osv) har under de senaste åren genomfört omfattande övervakningsprogram av mark, luft och vatten i Sverige. En rad kvalitetsvariabler mäts med jämna mellanrum, i bästa fall går mätningarna tillbaka till 1960-talet. Numera kan många av mätningarna hittas på internet, vi ska titta på mätningar av vattenkvalitet i vattendrag. Institutionen för vatten och miljö vid Statens Lantbruksuniversitet har skapat en databank för en rad mätningar i vatten, data kan nås på info1.ma.slu.se/db.html. I figuren nedan gäller det mätningar av totalt fosfor från station Ljungbyholm vid mynningen av Ljungbyån i sydöstra Småland, söder om Kalmar där man mätt en gång i månaden sedan 1965.

8 8 Datahantering (a) Den översta grafen visar samtliga mätningar under den 35 år långa tidsperioden ( Graf över analysvärden ). Vad kännetecknar dessa data? Ser de homogena ut under hela tidsperioden? Via databanken kan man ladda ner data till sin egen dator. I filen ljungby.mat finns samtliga mätningar av total fosforhalt och kiselhalt. Läs in data, plotta fosforhalten som en tidsserie och förvissa dig om att det är samma data som i figuren. >> load ljungby >> whos >> plot(p) (b) Då man har mätningar, x 1, x 2,..., x n, fås mycket information genom att rita upp den s.k. empiriska fördelningsfunktionen som betecknas F n (x). Datapunkterna, x i sorteras från minsta till största. Andelen datapunkter som är mindre eller lika med x i plottas sedan mot x i. Det blir en växande trappstegsfunktion som tar ett skutt med höjd 1/n för varje datapunkt. I Matlab kan kommandot cdfplot användas för att rita upp den empiriska fördelningsfuntionen F n (x). Den andra grafen visar den empiriska fördelningsfunktionen ( Fördelningsfunk-

9 Datahantering 9 tion för stickprov ) för dessa data. Hur ska man tolka den? Vad har du på x-axel respektive y-axel? Vad innebär det t.ex. att funktionen vid 100 har värdet 0.9? För att få den empiriska fördelningsfunktionen i matlab skriv >> cdfplot(p) (c) Beräkna median och medelvärde för data. I grafen över den empiriska fördelningsfunktionen motsvarar den streckade lodräta linjen medelvärdet, vad innebär det om data att medelvärdet inte har värdet 0.5 i den empiriska fördelningsfunktionen? (d) När du tittar på tidsserien (dvs samtliga data utritade i tidsföljd) över fosforvärden kan du nog urskilja två tidsperioder där fosformätningarna inte riktigt beter sig på samma sätt. I den understa grafen har man gjort en jämförelse mellan tidsperioderna och och gjort separata plottar över de två empiriska fördelningsfunktionerna. Tolkning? Vilken av de två empiriska fördelningsfunktionerna hör till den senare tidsperioden? (Orsaken till skillnaden i fosforhalt mellan tidsperioderna är att under början av 1970-talet förbättrades reningstekniken avsevärt vid det största reningsverket i avrinningsområdet.) (e) Vill du själv dela in fosformätningarna i de två tidsperioderna kan du göra på följande sätt: >> t=(1:432) %(skapa en tidsvariabel) >> pfore=p(t<=108) %(plocka ut de 108 första mätningarna) >> pefter=p(109:432) %(så här kan man också ta ut en delserie) Rita upp de två empiriska fördelningsfunktionerna för pfore och för pefter i samma figur. >> cdfplot(pfore) >> hold on >> cdfplot(pefter) (f) I en fortsatt analys vill man anpassa fördelningar till data. Detta kan t.ex. göra genom att rita ut data i olika fördelningspapper. Om denna teknik kan du läsa i uppgiften Finns det en lämplig standardfördelning till mina mätningar?.

10 10 Grundläggande sannolikhetsteori 2. Grundläggande sannolikhetsteori NYCKELBEGREPP: Begrepp Träna Grunderna FMS035 (M-kurs): Maple TA, slh1-slh8 Betingade sannolikheter MASB11 (Biostat): Digslh 1-9 Total slh och Bayes LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 2 Olsson, Englund och Engstrand Kapitel 3 Grunderna 7. Avfallsvattnet från en industri genomgår rening i två på varandra följande steg, steg I och steg II. Resultatet i steg i, i = 1, 2, kan betecknas som D i = dåligt i steg i, M i = medelgott i steg i, B i = bra i steg i. (a) Ange utfallsrummet för reningen, d.v.s. mängden av alla tänkbara utfall. (b) Vilka element ingår i händelsen E= minst ett steg har bra rening? (c) Antag att alla utfall i utfallsrummet har lika stor sannolikhet att inträffa. Vad är då P(E)? 8. För de två händelserna A och B gäller att P (A) = 0.7 och P (A B) = Dessutom är A och B disjunkta händelser (andra benämningar är oförenliga, uteslutande eller icke överlappande händelser). Beräkna P (B c ), där B c betecknar komplementet till B. 9. I en population röker 20 % och 15 % använder snus. Dessutom är det 5 % som både röker och snusar. Vi väljer en person slumpmässigt, vad är sannolikheten att personen gör minst en av aktiviteterna röker/snusar? Rita gärna ett Venndiagram. 10. I en stor befolkning har 4 % diabetes. Vi väljer två personer, A och B, slumpmässigt.

11 Grundläggande sannolikhetsteori 11 (a) Vad är sannolikheten att både A och B har diabetes? (b) Vad är sannolikheten att minst en av dem har diabetes? (c) Vad är sannolikheten att ingen av dem har diabetes? (d) Vad är sannolikheten att precis en av dem har diabetes? 11. För en viss bilmodell vet man att vid första kontrollen vid bilbesiktningen är felen F1 och F2 inte ovanliga. Man uppskattar att 1 % av bilarna har fel F1, 3 % har fel F2 medan 0.5 % har båda felen. Beräkna sannolikheten att en bil har (a) åtminstone ett av felen (b) fel F1 men ej fel F2 (c) precis ett av felen (d) inget av de två felen 12. Två pumpstationer förser ett fritidsområde med vatten. Pumparna går sönder med sannolikheten 0.1 vardera och sannolikheten att båda går sönder samtidigt är Vad är sannolikheten att båda fungerar? 13. Två servicestationer betjänar kunder. För vardera av de två stationerna gäller att sannolikheten att det ska uppstå kö är 0.1 medan sannolikheten att det är kö vid båda samtidigt är (a) Blir det kö vid de två stationerna oberoende av varandra? (b) Beräkna sannolikheten att ingen av stationerna har kö. (c) Beräkna sannolikheten att det är kö vid minst en av stationerna. 14. I en dal finns två fabriker som båda, oberoende av varandra, vissa dagar använder en kemisk process som ger upphov till att toxiska föroreningar sprids i luften. Användandet beror inte på veckodag eller säsong. Fabrik A använder den kemiska processen 150 dagar av de totalt 260 arbetsdagarna under ett år medan fabrik B gör det under 30 dagar. (a) Vad är sannolikheten att fabrik A sprider föroreningen i dalen en given arbetsdag?

12 12 Grundläggande sannolikhetsteori (b) Vad är sannolikheten att den toxiska föroreningen sprids i dalen en given arbetsdag? (c) Vad är sannolikheten att föroreningen inte sprids i dalen under en arbetsvecka om fem dagar? (d) Vad är sannolikheten att den toxiska föroreningen sprids i dalen minst en dag under en arbetsvecka om fem dagar? (e) En viss dag visar mätningar att den toxiska föroreningen finns i dalen, vad är sannolikheten att det var fabrik A som gjorde utsläppet? 15. Inom flera kustfiskprojekt undersöks vilka sorters fiskar som fås i näten för att kunna övervaka populationer och upptäcka förändringar. Från dessa vet man att på ett ställe är sannolikheten att det i nätet finns minst en braxen 0.9, medan motsvarande siffra för löja är 0.3 och för gädda 0.1. Förekomsten av de olika fisksorterna antas vara oberoende av varandra. (a) Beräkna sannolikheten att det i ett nät finns alla tre sorternas fiskar. (b) Beräkna sannolikheten att det i ett nät finns minst två av de tre sorterna. 16. I en viss befolkningsgrupp är 60% bilägare och 45% är fastighetsägare. I gruppen är det 35% som äger både bil och fastighet. Man väljer en person slumpmässigt från gruppen, beräkna sannolikheten att man valt en person som varken äger bil eller fastighet. 17. I en ny bilmodell installerar man en apparat som ska avläsa utsläppen av en viss förorening och apparaten kontrolleras årligen (vid bilprovningen?). Om apparaten fungerade vid en testning är sannolikheten 0.4 att den kommer att gå sönder under följande år. Dessutom är händelserna att den går sönder oberoende mellan åren. (a) Vad är sannolikheten att apparaten går sönder år 3? (b) Vad är sannolikheten att apparaten går sönder år k. (c) Vad är sannolikheten att apparaten går sönder före år 3? (d) Om apparattypen installeras i 100 bilar, hur många i genomsnitt kommer att ha hela apparater efter 4 år?

13 Grundläggande sannolikhetsteori Avloppen i en stad är dimensionerade efter regnmängder med en återkomstid på 10 år. Antag att händelserna regnmängd år i är oberoende. (a) Tolka återkomstid på 10 år i termer av sannolikheter. (b) Vad är sannolikheten att avloppen kommer att översvämmas för första gången på det 3:e året efter färdigställandet? (c) Vad är sannolikheten för minst en översvämning de första 3 åren? (d) Vad är sannolikheten för precis en översvämning inom 3 år? (e) (svårare och frivillig) Vad är sannolikheten för översvämning i 3 av de första 5 åren? 19. Vid en kurs på LTH finns 7 obligatoriska labbar. Efter varje labbtillfälle sätts ett kryss i en av tre pärmar. Antag att vid vart och ett av de 7 tillfällena väljs en pärm slumpmässigt då Leo ska bockas av. Beräkna sannolikheten att Leos samtliga 7 kryss hamnar i samma pärm. a med fyra decimaler. 20. I en notis i en dagstidning i slutet av september kunde man läsa angående halterna av bekämpningsmedel i frukt och grönt: Livsmedelsverket har analyserat 1836 prov. 18 prover överskred gränsvärdena. Du inhandlar 10 portioner av frukt/grönt, uppskatta sannolikheten att i minst ett av dina inköp överskrids gränsvärdet. Antag att såväl livsmedelsverkets prov som dina inköp är slumpmässigt utvalda och att det finns oberoende mellan olika frukt/grönt portioner. 21. Mia har funnit att sannolikheten att en bil som passerar i korsningen Tornavägen/Sölvegatan är röd är När hon står vid övergångsstället börjar hon notera bilarnas färg. Beräkna sannolikheten att det är först den femte bilen hon observerar som är röd. 22. Malte cyklar varje studiedag till LTH. Han bedömer att risken att råka ut för en allvarlig trafikincident en dag är Vad är risken att han råkar ut för minst en incident av allvarligt slag under sin studietid på 800 dagar? 23. Efter en operation inträffar en viss typ av komplikation med sannolikheten Man utför operationen på 50 patienter.

14 14 Grundläggande sannolikhetsteori (a) Vad är sannolikheten att minst en patient får komplikationen? (b) Vad är det förväntade antalet patienter som får komplikationen? Betingade sannolikheter 24. S:t Lars-parken i Lund är förbjuden för genomfartstrafik. Däremot finns det ett antal arbetsplatser och skolor i området så morgontrafiken kan vara ganska betydande då många föräldrar skjutsar sina barn till skolan. För ett tag sedan var det en artikel i Sydsvenskan med rubriken Stressade föräldrar fast i fartkontroll. I texten kunde man bl.a. läsa följande: Lärare och föräldrar i S:t Larsparken har klagat på att många struntar i 30-gränsen. Igår morse slog polisen till mot fartsyndarna. Vid kontrollen togs 45 bilister för fortkörning. 26 av dem var föräldrar som skulle lämna eller hade lämnat sina barn i skolan. Polisassistent Patriks slutsats är enkel och tydlig: Det är föräldrarna själva som kör fortast. Har polismannen rätt i sin slutsats? 25. På vägverkets hemsida kan följande läsas: År 2008 inträffade 355 olyckor i vägtrafiken med dödlig utgång. 20 procent var alkoholrelaterade. Om bara 20% av de som dog var alkoholpåverkade, betyder det att det är säkrare att köra alkoholpåverkad? (a) Börja med att teckna lämpliga händelser. Försök sedan med begreppet betingad sannolikhet förstå vilken händelse som man har fått sannolikheten för. (b) Vilken händelses sannolikhet berättar om det är farligt att köra alkoholpåverkad? 26. I en stor undersökning konstaterade man att 20 % i en viss population hade kärlsjukdom medan 60 % var rökare. Det var 15 % i gruppen som både rökte och var kärlsjuka. (a) Beräkna sannolikheten att en rökare är kärlsjuk. (b) Beräkna sannolikheten att en kärlsjuk är rökare. (c) Verkar de två faktorerna kärlsjuk och rökare vara oberoende?

15 Grundläggande sannolikhetsteori En slumpmässigt utvald grupp bilförare fick uppskatta sin egen risk för att råka ut för en allvarlig trafikolycka på väg till jobbet. Efter att ha jämfört med objektivt värderade risker delas personerna in efter kön och efter om de övervärderat eller undervärderat sin egen risk. Ö= Övervärderat U= Undervärderat Antal K= Kvinna M= Man Antal (a) Uppskatta P(K U). (b) Uppskatta sannolikheten att en man undervärderar sin risk, d.v.s. P(U M). (c) Uppskatta sannolikheten att en kvinna övervärderar sin risk, d.v.s. P(Ö K). (d) Verkar det finnas skillnad mellan könen beträffande denna typ av riskbedömning? 28. I en viss befolkningsgrupp har 70 % körkort för bil och 20 % körkort för mc. Det är 15 % som har körkort för båda trafikslagen. Vi väljer en person slumpmässigt och finner att personen ej har bil-körkort, vad är den betingade sannolikheten att personen inte har mc-körkort heller? 29. I ett system gäller att komponent A går sönder med sannolikhet 0.10 och komponent B med sannolikhet Om B redan gått sönder kommer A också att göra det med sannolikhet 0.8. Du finner att A är trasig, vad är sannolikheten att B också är det? 30. I en tätort eldar 25 % av hushållen i kamin/kakelugn. 3 % av hushållen i tätorten klagar till kommunen på sina grannars ovarsamma eldning, varav en tiondel av klagomålen kommer från hushåll som eldar själv. Beräkna sannolikheten ett hushåll som själv eldar klagar på sina grannarna för deras eldning. 31. Sannolikheten att ett försök lyckas är 0.8. Fem oberoende sådana försök utförs. Beräkna den betingade sannolikheten att försök nr 4 och nr 5 båda misslyckas när man vet att de tre första lyckades.

16 16 Grundläggande sannolikhetsteori 32. En låda innehåller två mynt, ett vanligt med krona på ena sidan och klave på den andra samt ett med krona på båda sidorna. Ett mynt väljs slumpvis och kastas varvid krona kommer upp. Med vilken sannolikhet är den andra sidan på myntet också krona? Total slh och Bayes 33. I en viss population är 35 % män. Av männen cyklar 40 % till sitt arbete medan motsvarande siffra för kvinnorna är 55 %. (a) Vi väljer slumpmässigt en person, vad är sannolikheten att vi valt en som cyklar till arbetet? (b) Vi väljer en cyklist slumpmässigt, vad är sannolikheten att det är kvinna? 34. Du ber en granne vattna din sjukliga krukväxt när du ska på semester. Utan vatten kommer den att dö med sannolikheten 0.8, med vatten dör den med sannolikheten Du är 90% säker att grannen kommer ihåg sitt vattningsuppdrag. Beräkna sannolikheten att krukväxten lever när du kommer hem. 35. I en viss befolkningsgrupp är 60% bilägare och 45% är fastighetsägare. I gruppen är det 35% som äger både bil och fastighet. Man väljer en person slumpmässigt från gruppen, beräkna sannolikheten att man valt en person som varken äger bil eller fastighet. 36. För att upptäcka livmoderscancer i ett tidigt stadium undersöker man regelbundet cellprov från livmodershalsen. Vid ett sådant test vet man att sannolikheten att P(test positivt cancer)= och P(test positivt ingen cancer)= Antag att det är 8.3 kvinnor på som har denna typ av cancer. (a) Vad är sannolikheten att om vi slumpmässigt väljer en kvinna, testet visar positivt? (b) Antag att tre på varandra följande test betraktas oberoende. Vad är sannolikheten att en kvinna som inte har cancer kommer att ha minst ett positivt resultat under de tre undersökningarna?

17 Grundläggande sannolikhetsteori Av de bosatta i en stad är 20 % studenter och 2 % av dessa är bilägare. Bland icke-studenterna i staden är däremot 55 % bilägare. (a) Beräkna sannolikheten att en slumpmässigt vald person är bilägare. (b) Beräkna sannolikheten att en slumpmässigt vald bilägare är student. 38. I en skola är 55% tjejer. Enligt en enkätundersökning använder 35% av tjejerna cykelhjälm medan motsvarande siffra för killarna är 43%. Vi väljer slumpmässigt en elev, vad är sannolikheten att vi valt en hjälmbärare? 39. Vera ställer ofta en cykel utanför affären. Hon har noterat att en låst cykel blir stulen med sannolikhet 0.05 medan en olåst blir stulen med sannolikhet 0.4. Vera är disträ och glömmer att låsa sin cykel vid i genomsnitt vart femte affärsbesök. En dag finner hon cykeln stulen, vad är sannolikheten att hon glömt låsa den? 40. Vid en högskola studerar studenterna på en femårig utbildning. I en enkät undersökte man bl.a. hur stor procentandel i varje årskurs som var missnöjda med utbildningen: åk 1 åk 2 åk 3 åk 4 åk 5 summa Andel av studenterna på skolan (%) Andel missnöjda i varje årskurs (%) (a) Om man slumpmässigt väljer en student från skolan, vad är sannolikheten att personen är missnöjd med utbildningen? (b) Man finner en missnöjd student, vad är slh att hen går första året? 41. Från en ö kan man ta flyget eller färjan till orten A på fastlandet. Man vill i första hand ta flyget men det går inte vid dimma. Om det är dimmigt på morgonen är chansen 30% att man kan ta ett senare flyg den dagen. Kan man inte flyga från ön tar man färjan. Har man tagit färjan är det enbart 5% chans att man hinner med samma dags flygförbindelse från A till Köpenhamn medan motsvarande siffra för flyget är 98%. (a) Vad är sannolikheten att man en dimmig morgon på ön hinner till Köpenhamn samma dag?

18 18 Grundläggande sannolikhetsteori (b) En dimmig morgon hann man ej till Köpenhamn samma dag. Vad är sannolikheten att man tog flyget från ön? 42. En maskin drivs av en generator A men har även en (något svagare) reservgenerator B som startar då A går sönder. Denna reservgenerator får driva maskinen tills A byts ut. Sannolikheten att A går sönder är Sannolikheten att B går sönder är 0.30 när det används men 0 när den är som reserv. (a) Beräkna sannolikheten att båda generatorerna går sönder. (b) Om maskinen fungerar, vad är sannolikheten att ingen av generatorna har gått sönder? 43. INSPELAD LÖSNING: Sjukdomsdiagnostik. I befolkningen har 2 % sjukdomen S. Det diagnostiska test som används för att avgöra om en person har S är dock inte perfekt utan man har följande felklassificeringar: En frisk person klassas som sjuk i S med sannolikheten En person med sjukdomen S klassas som frisk med sannolikheten (a) Vi väljer en person slumpmässigt ur befolkningen. Vad är sannolikheten att testet visar att personen har S? (b) Max har just genomgått testet och testresultatet var positivt, dvs enligt testet har han S. Vad är sannolikheten att han verkligen har sjukdomen? Se uppgiften LÖSAS på en skärminspelning.

19 Diskreta fördelningar Diskreta fördelningar NYCKELBEGREPP: Begrepp Träna Sannolikhets- och fördelningsfunktion FMS035 (M-kurs): Maple TA, slh9-slh18 Några standardfördelningar MASB11 (Biostat): DigUppg ? Väntevärde Varians och standardavvikelse LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel Sannolikhets- och fördelningsfunktion 44. Vid ett tärningsspel får man flytta en spelpjäs det antal steg tärningen visar, utom då den visar 1, då får man flytta sex steg. Låt X vara det antal steg man får flytta spelpjäsen. (a) Vilka värden, x, kan X anta? (b) Vad är sannolikheten att man får flytta precis tre steg, d.v.s. vad är p(3) = P (X = 3)? (c) Vad är sannolikheten att man får flytta precis sex steg, d.v.s. vad är p(6) = P (X = 6)? (d) Ange hela sannolikhetsfunktionen, p(x) = P (X = x) för X, d.v.s. p(x) för de värden på x som X antar. Skissa funktionen! (e) Vad är sannolikheten att man får flytta högst tre steg, d.v.s. vad är P (X 3)? (f) Ange fördelningsfunktionen F (x) = P (X x) för X. Försök att skissa den i ett koordinatsystem! (g) Vad är det förväntade värdet för X, d.v.s. vad är E(X)? 45. Man noterade antalet förarprov som en person gjorde innan hen fick sitt körkort för bil. Om X står för antalet förarprov för en slumpmässigt vald person, uppskattade man dess sannolikhetsfunktion:

20 20 Diskreta fördelningar x p(x) (a) Vad är sannolikheten att en person kuggas vid första förarprovet? (b) Beräkna P(X 3), d.v.s. sannolikheten att en person får göra minst 3 förarprov? (c) Beräkna P(X = 2 X 2), d.v.s. den betingade sannolikheten att en person som missade första förarprovet kommer att klara det i andra försöket. Några diskreta standardfördelningar 46. En diskret slumpvariabel X är Poissonfördelad med parameter 4, vilket innebär att X, har sannolikhetsfunktionen Det gäller att λ = 4. p(x) = P (X = x) = e (a) Beräkna P(1 X 2) och P(X > 2). λ λx, x = 0, 1, 2,.... x! (b) Beräkna fördelningsfunktionen F (x) = P (X x) för följande värden på x: x = 0.5, x = 0, x = 0.3, x = 1, x = 1.6, x = 2. Skissera sedan F (x) då 1 x < Illustrera i Matlab, DATAMATERIAL: Rutherford. Vid ett berömt experiment räknade Ernest Rutherford, tillsammans med Hans Geiger, antalet alfa-partiklar som under korta tidsperioder emitteras från ett radioaktivt preparat. De räknade in totalt alfa-partiklar under 2608 tidsintervall. I varje intervall kunde de räkna från 0 och upp till ett tiotal alfa-partiklar. I följande tabell är angivet antalet intervall som innehöll 0, 1,..., 14 antal partiklar. antal partiklar per intervall antal intervall antal partiklar per intervall antal intervall Tabellen skall tolkas så att man har gjort 2608 försök av vilka 57 gett resultatet 0 (partiklar per intervall), 203 har gett resultatet 1, etc. Data finns i filen Rutherford.mat.

21 Diskreta fördelningar 21 (a) Ladda in datafilen och se efter vilka variabler som ligger i filen. >> load Rutherford >> whos (b) Låt X beteckna antalet partiklar på ett tidsintervall. Eftersom X en diskret slumpvariabel är det lämligt att beskriva data med ett stolpdiagram. Det görs i Matlab med bar (se help bar). >> bar(antalpartiklar,antalintervall) >> xlabel( antal partiklar per intervall ) >> ylabel( antal intervall ) >> title( Rutherford-Geigers experiment ) (c) Antag att du vill beräkna medelantalet partiklar per intervall. Medelvärdet i ett datamaterial beräknas normalt med mean (se help mean) men eftersom data här är givna i en frekvenstabell kan den inte användas direkt. Enklast är att summera alla 2608 observationer och sedan dividera med Eftersom av de 2608 observationerna är 57 st 0, 203 st 1, osv kan summan beräknas som >> antalintervall.*antalpartiklar %(observera.*) >> medel=sum(antalintervall.*antalpartiklar)/2608 (d) I nästa steg kan man fundera på om dessa data kan beskrivas med hjälp av någon statistisk standardfördelning. En sådan är Poissonfördelningen, Po(µ) där µ är det genomsnittliga antalet partiklar per intervall, dvs det som du beräknade i föregående deluppgift. Sannolikhetsfunktionen för en Po(µ) ges av p(x) = P (X = x) = e µ µ x för x = 0,.... Använd Matlabs poisspdf (se help x! poisspdf) för att beräkna sannolikhetsfunktionen för olika värden på x och rita (i en ny figur) funktionen. >> k=[0:14] %(skapar heltalen 0, 1,..., 14) >> poisspdf(k,medel) >> figure >> plot(k,poisspdf(k,medel)) %(heldragen linje ej lyckat!) >> plot(k,poisspdf(k,medel), * ) Stanna upp och tänk efter så att du verkligen kan tolka denna bild. Vad anges på de två axlarna? Enligt denna modell, vad är sannolikheten att antalet emitterade partiklar i ett försök (ett tidsintervall) är 1? Vad är sannolikheten att antalet emitterade partiklar i ett försök är högst 2?

22 22 Diskreta fördelningar Den sista frågan kan också uttryckas som P (X 2) dvs det är F (2), fördelningsfunktionen för den Poissonfördelade variabeln i punkten 2. I Matlab kan detta beräknas via poisscdf (se help poisscdf) Plotta också upp fördelningsfunktionen för denna variabel. >> poisscdf(2,medel) >> x=[-1:0.01:15]; %(skapa en x-variabel i intervallet (-1,15)) >> plot(x,poisscdf(x,medel),. ) Hur ska du beräkna sannolikheten att antalet emitterade partiklar är minst 2, dvs P (X 2)? (e) Om denna modell om Poissonfördelning stämmer, i hur många av de 2608 intervallen som Rutherford och Geiger betraktade skulle man förvänta sig att det blev 0 partiklar? 1 partikel? osv. Jämför dessa förväntade antal med Rutherfords observerade utfall, t ex genom att plotta i samma figur. >> figure(1) %(om det är i figur 1 du har Rutherfords data) >> hold on >> plot(k,2608*poisspdf(k,medel), * ) >> hold off Verkar det rimligt att anta att X = antalet partiklar per intervall i experimentet är Poissonfördelat? 48. I en fabrik är antalet strömavbrott under 1 timme en stokastisk variabel X, där X Po(µ). Från tidigare undersökningar antog man att µ = 1. Beräkna sannolikheten 36 att få mer än ett strömavbrott under 18 timmars produktion. 49. Ett distributionssystem består av ett centrallager med 25 försäljningskontor. Kunderna efterfrågar varor på försäljningskontoren. Antag att antalet enheter som efterfrågas vid ett försäljningskontor av vara V under en vecka är Poissonfördelat med väntevärde 3.6. Antag också oberoende mellan försäljningskontor. Leveranser från tillverkaren till centrallagret sker enbart en gång i veckan, nämligen varje måndag morgon. (a) Vad är sannolikheten att efterfrågan från kontor 1 överstiger 10 enheter av vara V en vecka?

23 Diskreta fördelningar 23 (b) I början av veckan, efter tillverkarens leverans, finns 100 enheter av V i centrallagret och ingen påfyllnad sker under veckans gång. Vad är sannolikheten att totala efterfrågan på V överstiger tillgången i centrallagret den veckan? 50. I ett stort parti enheter är felkvoten 5 %, d.v.s. tar vi en enhet slumpmässigt är den felaktig med sannolikheten I en kvalitetskontroll kontrolleras en enhet i taget och man slutar då man fått den första felaktiga. Låt X vara antalet enheter som kontrolleras (inklusive den som är felaktig). (a) Beräkna P(X = 3), d.v.s. sannolikheten att de två första kontrollerade är felfria medan den tredje är felaktig. (b) Beräkna P(X = 5). (c) Teckna sannolikhetsfunktionen för X, d.v.s. P(X = x), då x = 1, 2, Avfallsvattnet från en industri genomgår rening i två, på varandra följande, steg: steg I och steg II. Resultatet i de båda stegen kan värderas som dåligt eller bra. De tillhörande sannolikheterna för var och en av de fyra möjliga händelserna ges i följande tabell: Bra rening Dålig rening Steg I Steg II Antag att resultatet från de två stegen är oberoende. (a) Vad är sannolikheten att en omgång vatten blir bra behandlat i båda stegen? (b) Om precis ett av stegen ger en bra rening (och det andra en dålig) benämner man detta som acceptabel rening. Vad är sannolikheten för denna händelse? (c) En oacceptabel rening har man om reningen är dålig i båda stegen. Om man studerar 10 omgångar avfallsvatten, vad är sannolikheten att minst 2 omgångar har en oacceptabel rening? 52. Per spelar Fia med sina kompisar. Enligt reglerna får han flytta ut sin spelpjäs från boet då tärningen visar etta eller sexa. Teckna sannolikheten att detta sker först i spelomgång nr x, x = 1, 2,....

24 24 Diskreta fördelningar 53. Antalet fall av leukemi i en befolkning kan ofta modelleras med hjälp av en Poissonfördelning. Genom att jämföra med nationella cancerregistret förväntar man sig, under en viss tidsperiod, 9 fall i ett område. (a) Vad är sannolikheten att man observerar exakt 9 fall i området? (b) Vad är sannolikheten att man observerar minst 9 fall i området? (c) Inför statistikdelen i kursen: I området observerade man 19 fall. Tyder detta på att området är mer drabbat av leukemi än resten av landet? 54. Avloppen i en stad är dimensionerade efter regnmängder med en återkomsttid på 10 år. Antag att översvämningar olika år inträffar oberoende av varandra. (a) Vad är sannolikheten - enligt dimensioneringen - att det sker en översvämning ett slumpmässigt valt år? (b) Vad är sannolikheten - enligt dimensioneringen - för minst 2 översvämningsår under en 15-årsperiod? (c) Dimensioneringen gjordes redan De senaste 20 åren tycker man att det har regnat mer än tidigare eftersom antalet år med översvämningar varit 5. Beräkna sannolikheten att man får minst 5 översvämningar under 20 år enligt den gamla dimensioneringen. Inför statistikdelen av kursen: Tyder detta på att det regnat mer de senaste decennierna så att sannolikheten för översvämning har ökat? 55. Du kastar en symmetrisk tärning 10 gånger. Beräkna sannolikheten att du får (a) precis 4 sexor (b) högst två femmor (c) precis 5 kast där antal prickar är fem eller sex (d) minst 1 kast med ett udda antal prickar 56. I en kvalitetskontroll av tillverkade enheter tas slumpmässigt 15 enheter ut och partiet avskiljs om mer än 1 enhet är felaktig. Vad är konsumentrisken om felandelen i partiet är 0.10, dvs vad är sannolikheten att ett så pass dåligt parti godkänns i kontrollen?

25 Diskreta fördelningar Ibland händer det att ett prov hanteras fel och måste slängas. Detta inträffar med sannolikheten 0.1 för ett prov och proven antas oberoende. Vad är sannolikheten att bland fyra prov finns det minst tre som kan användas? 58. I en preliminär studie anges designnivån för en bro sådan att 30 % anses som en acceptabel sannolikhet för att bron ska översvämmas av flod minst en gång under de närmsta 25 åren. (a) Om p betecknar sannolikheten att brons designnivå överskrids under 1 år, vilken värde på p uppfyller designkriteriet ovan? (b) Vad är återkomstiden för denna designflod. 59. En person uppskattar sannolikheten att det finns en ledig parkeringsplats utanför bostaden när hon kommer hem från jobbet till 0.7. (a) Beräkna sannolikheten att hon hittar en plats under minst 8 av totalt 10 dagar. (b) Med dator eller räknare: Beräkna sannolikheten att hon hittar en plats under minst 80 av totalt 100 dagar. 60. Vid en kvalitetskontroll av ett nyanlänt stort parti enheter väljer man slumpmässigt ut 10 enheter för kontroll. Om antalet felaktiga av de kontrollerade är 3 eller fler klagar man hos producenten. (a) Antag att felkvoten i partiet är p = Vad är sannolikheten att vi kommer att klaga hos producenten? (b) Antag att felkvoten i partiet är p = 0.1. Vad är sannolikheten att vi inte kommer att klaga hos producenten och därmed godkänner partiet? 61. Antal morgnar under en månad då trafikljuset i en livligt trafikerad korsning är trasigt är Poissonfördelat med λ = 1.4. Vad är sannolikheten att trafikljuset är helt alla morgnar under en tremånadersperiod? 62. Antalet döda eller svårt skadade i olyckor på gator och vägar i Lund antas vara Poissonfördelat med väntevärde λ. Statistik från några år från gatu- och trafikkontoret:

26 26 Diskreta fördelningar År Antal döda eller skadade Utifrån dessa data, uppskatta sannolikheten att det under år 2010 ska vara högst 32 döda eller skadade. 63. Antal fel i en tillverkningsprocess under en timme anses vara Poissonfördelad med väntevärde λ = 0.5. Beräkna sannolikheten att (a) under en timme sker precis 1 fel, (b) under en timme sker högst 3 fel, (c) under en timme sker minst 1 fel, (d) under en arbetspass om 8 timmar sker minst 5 fel men högst 10 fel. 64. Vid ett trafikljus vill man bestämma hur lång trafikfilen för vänstersvängande fordon ska vara. Man antar att antalet fordon som ska svänga vänster är Poissonfördelat och att det kommer i genomsnitt 160 sådana fordon per timme. Det är rött ljus i 50 sekunder vid trafikljuset. (a) Vad är det förväntade antalet bilar som väntar på att svänga åt vänster i slutet av perioden med rött ljus? (b) Vad är det troligaste antalet bilar som väntar på att svänga åt vänster i slutet av perioden med rött ljus? (c) Man vill att trafikfilen ska räcka till i minst 95% av alla perioder av rött ljus. Hur lång, utryckt i en multipel av medellängden hos ett fordon, ska man göra filen? 65. Med en 10-årsöversvämning menar man en översvämning som i genomsnitt inträffar vart 10:e år, d.v.s. sannolikheten för översvämning ett år är 0.1. Vad är sannolikheten att, under en femårsperiod, få precis två 10-årsöversvämningar? 66. För att kontrollera en tillverkningsprocess stoppar man bandet och väljer på måfå 15 enheter som man undersöker. Om fler än 2 av dessa är defekta justeras processen. Vad är sannolikheten att processen justeras om felsannolikheten för en tillverkad enhet är 0.05 och enheter blir defekta oberoende av varandra?

27 Diskreta fördelningar Mats går upp på tre tentor under en omtentamensperiod. Han klarar en slumpmässigt vald tenta med sannolikheten 0.7. Anta att tentorna är oberoende. Beräkna sannolikheten att han klarar minst en tentamen. 68. Teoridelen av ett körkortsprov består av 65 flervalsfrågor och man måste ha rätt på minst 52 frågor för att bli godkänd. När Pia gör testet är hon helt säker på 48 frågor medan hon har ingen aning på de övriga där hon bara gissar. Antag att samtliga frågor där hon gissar har 4 svarsalternativ. Vad är då sannolikheten att hon klarar provets teoridel? 69. Man uppskattar att ett läkemedel ger upphov till muntorrhet med sannolikhet 0.2. Man ger detta läkemedel till 30 patienter. (a) Ange sannolikhetsfunktionen för X = antalet patienter av de 30 som får muntorrhet. (b) Beräkna sannolikheten att ingen får muntorrhet, d.v.s. P(X=0) (c) Beräkna sannolikheten att minst en får muntorrhet, d.v.s. P(X >0) (d) Beräkna sannolikheten att precis två personer får muntorrhet. 70. Antalet jordskalv under ett år i ett område anses vara Poissonfördelat med parameter µ, dvs om X= antalet jordskalv under ett år gäller X P o(µ). (a) Gör en konkret tolkning av parametern µ. (b) Antag att µ=1.6. Vad är sannolikheten för högst 2 jordskalv under ett år? (c) Antag att µ=1.6. Vad är sannolikheten för ett jordskalvsfritt decennium i området? 71. Antal defekter på en producerad keramisk platta antas vara Poissonfördelat med väntevärde λ. Gör en uppskattning av λ då man vet att 90 % av de tillverkade plattorna är felfria. 72. Ett sätt att mäta radonkoncentrationen i inomhusluft är att hänga upp en film känslig för alfa-partiklar. När filmen träffas av en partikel uppstår efter framkallning ett hål i filmen. Om X är antalet hål i en film är det rimligt att anta att X är

28 28 Diskreta fördelningar poissonfördelat med ett väntevärde som är proportionellt mot radonkoncentrationen λ, dvs X P o(kλ). Då man gör mätningar i Wilmas hus är i denna mätsituation K = 0.1. (a) Gränsvärdet för radonkoncentrationen i nybyggda hus är λ = 200 Bq/m 3. Hur många hål i filmen förväntas då λ = 200? (b) I huset uppmätte man 27 hål. Beräkna sannolikheten att det finns 27 hål eller fler på en film om λ = 200. (c) Inför statistikdelen av kursen: Verkar det finnas fog för påståendet att gränsvärdet är överskridet i Wilmas hus? 73. För att uppskatta antalet fiskar i en sjö kan man använda sig av en metod med fångst och återfångst (capture/recapture). Antag att det finns N (okänt antal) fiskar i sjön. Fånga slumpmässigt M fiskar, märk dem och släpp i dem i sjön igen. Vänta ett tag så att märkta fiskar blandar sig med de omärkta. Av de N fiskarna i sjön är alltså M märkta. Återfånga slumpmässigt n fiskar och notera hur många av de n som är märkta. Antag att detta antal betecknas x. Antag att N är så stort i förhållande till n så att sannolikheten att en fisk är märkt kan anses vara lika stor för alla återfångade fiskar. (a) Låt p=p(en återfångad fisk är märkt), hur kan man skatta (dvs få en uppskattning av) p? (b) Vad är sannolikheten att det av n återfångade fiskarna finns inga märkta? (c) Vad är sannolikheten att det av n återfångade fiskarna finns minst en märkt? (d) (svårare och frivillig) Vad är sannolikheten att det av n återfångade fiskarna finns tre märkta? (e) Nu är det ju en skattning av N som är intressant. Vad är relationen mellan N (skattningen av N) och p (skattningen av p)? Väntevärde 74. I en fabrik har man under en längre tid studerat antal produktionsstopp som sker under en arbetsvecka: Antal stopp Sannolikhet

29 Diskreta fördelningar 29 Beräkna det förväntade antalet produktionsstopp under en arbetsvecka. 75. Jon spelar quizkampen. Av spelets 18 frågor, som alla har 4 svarsalternativ, brukar Jon kunna svaret på 6 frågor. På 4 frågor brukar han gissa mellan två alternativ medan han bara gissar på övriga 8. I spelet får man ett poäng för varje korrekt svar. Vad är Jons förväntade poängantal efter ett spel? 76. En fabrikant masstillverkar en vara där varje enhet med sannolikhet 0.10 blir defekt. En felfri vara ger en vinst på 60 kr medan en defekt ger en förlust på 40 kr. Beräkna väntevärdet på vinsten hos ett parti med 200 enheter. Varians och standardavvikelse 77. Beräkna varians och standardavvikelse för antalet produktionsstopp i uppgift 74. XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

30 30 Kontinuerliga fördelningar 3.2 Kontinuerliga fördelningar NYCKELBEGREPP: Begrepp Träna Täthets- och fördelningsfunktion FMS035 (M-kurs): Maple TA, slh19-slh23 Några standardfördelningar MASB11 (Biostat): Digkontford 1-14 Väntevärde, percentiler/kvantiler Varians och standardavvikelse Transformationer av s.v. LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel 4.3 Täthets- och fördelningsfunktion 78. Från en bushållplats går punktligt en buss var 10:e minut. Du kommer till busshållplatsen vid en slumpmässigt vald tidpunkt, låt X=din väntetid. En lämplig modell är att X är rektangelfördelad (likformigt fördelad) i intervallet (0,10). Det innebär att frekvensfunktionen (täthetsfunktionen) är f(x) = 1 då 0 x 10 och 0 för alla 10 andra värden på x. Nedan är frekvensfunktion och motsvarande fördelningsfunktion ritade.

31 Kontinuerliga fördelningar 31 (a) Vad är sannolikheten att du får vänta mindre än 2 minuter, d.v.s. vad är P(X 2)? Markera hur sannolikheten kan beräknas i de båda figurerna. (b) Vad är sannolikheten att du får vänta mer än 7 minuter, d.v.s. vad är P(X > 7)? Markera hur sannolikheten kan beräknas i de båda figurerna. (c) Vad är sannolikheten att du får vänta mellan 3 och 8 minuter, d.v.s. vad är P(3 X 8)? Markera hur sannolikheten kan beräknas i de båda figurerna. (d) Vad är den förväntade väntetiden, d.v.s hur länge får du vänta i genomsnitt? 79. Den kontinuerliga slumpvariabeln X har täthetsfunktionen 0 x < 2 f(x) = a x 2 2 x 3 0 x > 3 (a) Bestäm konstanten a. (b) Bestäm fördelningsfunktionen, F (x). (c) Beräkna P(X 2.5). Några kontinuerliga standardfördelningar 80. En rektangelfördelad slumpvariabel, R(a, b), har fördelningsfunktionen 0 x < a x a F (x) = b a a x b 1 x > b (a) Skissa fördelningsfunktionen F (x). (b) Bestäm frekvensfunktionen (täthetsfunktionen) f(x) och skissa den. (c) Beräkna slumpvariabelns väntevärde. 81. I ett distributionssystem är ledtiden, d.v.s. tiden från beställning till leverans från tillverkaren, inte konstant utan slumpmässig. Från en tidigare analys anser man att ledtiden kan modelleras med en exponentialfördelning med parameter λ där 1 λ 2.3 arbetsdagar.

32 32 Kontinuerliga fördelningar (a) Beräkna sannolikheten att ledtiden är kortare än 3 arbetsdagar. (b) Beräkna sannolikheten att ledtiden överstiger 5 arbetsdagar. (c) Vilken ledtid understigs med sannolikheten 0.95? (d) Vilken ledtid överstigs med sannolikheten 0.95? 82. I en kemisk industri mäts dagligen koncentrationen (mg/10 3 liter) av en viss substans i avloppsvattnet. På grundval av många tidigare mätningar anser man att koncentrationen en slumpmässigt vald dag kan beskrivas med en slumpvariabel X som är exponentialfördelad { 0.5e f(x) = 0.5x x 0 0 x < 0. (a) Skissa frekvensfunktionen (täthetsfunktionen) f(x). (b) Om koncentrationen överstiger 6 mg/10 3 liter anses vattnet vara förorenat. Vad är sannolikheten att detta inträffar en dag? Markera den beräknade sannolikheten som en area i din skiss. (c) Vad är den förväntade koncentrationen en slumpmässigt vald dag? (d) Vad är sannolikheten att man under de nästkommande fem dagarna får förorenat vatten vid högst en av dagarna. Antag att koncentrationen av ämnet är oberoende för olika dagar. 83. En viss typ av lager har livslängden X i år som är Weibullfördelad med fördelningsfunktion F (x) = 1 e (x/5)0.4 för x 0. Vad är sannolikheten att lagret fungerar efter 1 år? 84. Ett viss ämne, ämne A, är biologiskt nedbrytbart och man har upptäckt att tiden det tar, räknat i dagar, för att en enhet av ämnet ska vara helt nedbrutet kan beskrivas av en slumpvariabel som är exponentialfördelad med väntevärde 100 dagar. (a) Vad är sannolikheten att en enhet av ämnet A inte är helt nedbrutet efter 200 dagar? (b) För ett annat ämne, ämne B, har man samma modell för nedbrytningen men väntevärdet antas nu vara 75 dagar för en enhet. De två ämnena bryts ner oberoende av varandra. Vad är sannolikheten att det efter 200 dagar inte finns något kvar av de två ämnena?

33 Kontinuerliga fördelningar Olyckor på en väg sker oberoende av varandra och tidpunkten mellan olyckor antas vara exponentialfördelad med förväntat värde 0.5 (år). Beräkna sannolikheten att det dröjer mer än nio månader mellan två olyckor. 86. Livslängden (timmar) på en viss komponent som används i sjukhusutrustning anses vara Rayleighfördelad med fördelningsfunktion F(x)=1-e ( x a )2, x 0 där a=70.7. Beräkna sannolikheten att en komponent har en livslängd som överstiger 23 timmar. 87. Tiden mellan två översvämningar i ett flodområde anses vara exponentialfördelad med väntevärde 8 månader. Beräkna sannolikheten att det dröjer mer än ett år mellan två översvämningar. 88. Antalet stormar i Sverige under ett decennium där skadorna överstiger en million m 3 skog anses följa en Poissonfördelning med väntevärde λ = 2. (a) Vad är sannolikheten att vi under nästa decennium kommer att få minst två sådana svåra stormar i Sverige? Ange tre decimaler i svaret. (b) Tidsavståndet mellan två svåra stormar är exponentialfördelat med väntevärde 1 (år) där λ = 0.2. Stormen Gudrun förorsakade i januari 2005 stora skogsskador. Vad är sannolikheten att det dröjer mindre än ett år innan nästa svåra λ storm kommer? 89. Arbetet med att konstruera en bro över en flod är beräknat att ta 14 månader. Om vattenflödet i floden överstiger 100 m 3 /s vid något tillfälle under denna period kan det allvarligt skada eller fördröja bygget. Grundat på tidigare undersökningar anser man att tiden från byggstart till nästa gång vattenflödet överstiger den kritiska nivån är exponentialfördelad med väntevärde 5 år. Beräkna sannolikheten att bygget kommer att störas av för högt vattenflöde.

34 34 Kontinuerliga fördelningar Lägesmått: väntevärde och percentiler/kvantiler 90. Antag att arbetstiden (i månader) för ett konstruktionsprojekt modelleras med en kontinuerlig s.v. T med fördelningsfunktion t 2 2t + 1, 1 t 2 F T (t) = P(T t) = 0, t < 1 1, t > 2 (a) Bestäm motsvarande täthetsfunktion (frekvensfunktion) f(t). (b) Beräkna P(T > 1.5). (c) Beräkna medianen för T. (d) Beräkna väntevärdet för T, d.v.s. E(T ). 91. En stokastisk variabel, X, har frekvensfuktion f(x)=2e 2x, x 0. Beräkna dess median. 92. Den karakteristiska snölasten på ett tak motsvaras av det värde som med en sannolikhet av 98 % inte överskrids, det vill säga 2 % kvantilen i fördelningen som beskriver lasten. Bestäm den karakteristiska snölasten om lasten X är Weibullfördelad med fördelningsfunktion F (x) = 1 e (x/10)0.4 för x Det karakteristiska värdet för bärförmågan hos ett material innebär att 95 % av allt tillverkat material minst skall klara angivet värde. Ange det karakteristiska värdet för ett material där bärförmågan (kn/m 2 ) kan beskrivas av en slumpvariabel X med F (x) = 1 1 x 2, x Beteckna med X maximala snödjupet (enhet meter) under en vinter på en viss ort. Antag att X har täthetsfunktionen f(x) = 2xe x2, x 0. Beräkna medianen för snödjupet. 95. Årliga maximala vindstyrkan (m/s) på en plats beskrivs av en Gumbelfördelning x b e ( a med fördelningsfunktion F (x) = e ) där a = 3 och b = 17.

35 Kontinuerliga fördelningar 35 (a) Beräkna sannolikheten att årliga maximala vindstyrkan överstiger 30 m/s. (b) Beräkna medianen för den årliga maximala vindstyrkan. 96. Den maximala våghöjden (X) på ett visst ställe ett visst år är av intresse och studier visar att X kan anses vara Rayleighfördelad, dvs täthetsfunktionen ges av f(x) = { x a e x2 /(2a) för x 0, 0 för x < 0. där a är en okänd positiv parameter. Efter att ha observerat maximala våghöjder (i meter) under ett antal år anser man att a kan uppskattas till 2. Några av de mätningar man observerade var (i meter): I dessa sammanhang talar man ofta om den s.k årsvågen eller 100-årsvågen. Med en 100-årsvåg menas en våg som är så hög att den i genomsnitt bara inträffar en gång per 100 år, d.v.s. den har en återkomsttid på 100 år. (a) Om höjden på 100-årsvågen betecknas x 0.01, tolkas x 0.01 som 1% kvantilen i fördelningen (alternativt uttryck är 99% percentilen). Vad är alltså sannolikheten att den maximala våghöjden ett år överstiger x 0.01? Teckna denna sannolikhet med hjälp av täthetsfunktionen ovan. (b) Beräkna hur stor 100-årsvågen, x 0.01, är vid denna plats under förutsättning att a = 2. Tips vid integralberäkningen: Partialintegrera inte! (c) Beräkna också, under samma förutsättning, höjden på 1000-årsvågen. 97. Den s.v. X är gammafördelad, Γ(2, 1). Det innebär att täthetsfunktionen kan skrivas som f(x) = x e x, x 0. Beräkna E( 1 X ). Spridningsmått: varians och standardavvikelse 98. Beräkna varians och standardavvikelse för X=väntetiden i uppgift 78.

36 36 Kontinuerliga fördelningar Transformation av s.v. 99. INSPELAD LÖSNING: transformering. Slumpvariabeln X är rektangelfördelad (likformigt fördelad) i intervallet ( 1, 1). Man bildar Y = X+1. Vilken fördelning 2 har Y? Se uppgiften LÖSAS på en skärminspelning.

37 Summor, linjärkombinationer Summa, medelvärde och andra linjärkombinationer NYCKELBEGREPP: Begrepp Träna Räkneregler FMS035 (M-kurs): Maple TA, slh29-slh30 Summa och medelvärde MASB11 (Biostat): Diglinjkomb 1-5 Mätsituationen LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 5.5 Olsson, Englund och Engstrand Kapitel 4.5 Räkneregler 100. Antag att man har tre oberoende slumpvariabler X 1, X 2 och X 3. För samtliga gäller att väntevärdet är 3 och standardavvikelsen är 2, d.v.s. E(X i ) = 3 och D(X i ) = 2, i = 1, 2, 3. Beräkna väntevärde och standardavvikelse för (a) 34X 1 (b) 4X 1 (c) 16 (d) Y = X 1 5X 2 + 2X 3. (e) X = 1 3 (X 1 + X 2 + X 3 ) Vikten hos en alpin skidåkare med utrustning anses variera enligt en stokastisk variabel X med väntevärde E(X) = 80 kg och varians V (X) = 36 kg 2. Vad är väntevärde, varians och standardavvikelse för den totala vikten hos passagerarna i en liten liftkabin då (a) Eva och Johan åker själva i kabinen, d.v.s. total vikt är X 1 + X 2? (b) Eva, Johan och en låda som väger 50 kg åker i kabinen, d.v.s. total vikt är X 1 + X ?

38 38 Summor, linjärkombinationer 102. Du ska mäta upp 12 dl vätska och har till din hjälp 1 litermått graderat i deciliter och 1 decilitermått. Mätningar i litermåttet varierar enligt en slumpvariabel med standardavvikelse 0.1 dl medan mätningar med decilitermåttet har en standardavvikelse på 0.05 dl. Däremot finns inga systematiska fel i mätningarna. (a) Du väljer att mäta upp 10 dl i litermåttet och att använda decilitermåttet två gånger. Vilken standardavvikelse har din mätning? (b) Du väljer att mäta upp 6 dl i litermåttet två gånger och att inte använda decilitermåttet alls. Vilken standardavvikelse har din mätning? (c) Du väljer att mäta upp 10 dl och sedan 2 dl i litermåttet och att inte använda decilitermåttet alls. Vilken standardavvikelse har din mätning? Summa och medelvärde 103. Mjölkinnehållet i en enlitersförpackning varierar något men genomsnittsvolymen (väntevärdet) är 1 liter. Storleken på spridningen i mjölkmängd mellan olika förpackningar beskrivs av variansen σ 2. Du har fått i uppgift att mäta innehållet i fem slumpmässigt valda förpackningar. (a) Vad är väntevärdet för den totala mjölkmängden i de fem förpackningarna? (b) Vad bör variansen för den totala mjölkmängden bli - större eller mindre än σ 2? (c) Du bildar medelvärdet av dina fem mätningar. Vad bör väntevärdet för medelvärdet bli? (d) Vad bör variansen för medelvärdet bli - större eller mindre än σ 2? (e) Om X 1,..., X 5 betecknar mjölkmängden i de fem förpackningarna kan total mjölkmängd skrivas 5 i=1 X i och medelvärdet i=1 X i. Använd räknereglerna för att beräkna väntevärde och varians för total mjölkmängd respektive för medelvärdet. Stämmer resultaten med dina svar i (a)-(d)? (f) Vad är tolkningen av 5X 1? Hur skiljer det sig från 5 i=1 X i? 104. Man vill mäta upp ett 10 m långt band med så bra precision (dvs med så liten variation) som möjligt. Till sitt förfogande har man en mätsticka av längd 1 m. Då man mäter bandet har man ett visst mätfel så den verkliga längden av bandet varierar från mätning till mätning som en slumpvariabel X som har väntevärde 1 m

39 Summor, linjärkombinationer 39 och standardavvikelse 0.05 m. För att få ett 10 m långt band kan man välja mellan två strategier: I Den snabba metoden : Mät upp 1 m med mätstickan. Vik sedan över bandet ett antal gånger tills du har 10 m. II Den jobbiga metoden : Mät upp 1 m band med mätstickan, gör en ny mätning med stickan, osv. Man gör alltså totalt 10 st mätningar. (a) Vilken av slumpvariablerna 10X eller 10 i=1 X i representerar den snabba metoden? Vilken representerar den jobbiga metoden? (b) Beräkna väntevärde och varians för resultatet från de två metoderna, d.v.s. beräkna E(10X) och V (10X) samt E( 10 i=1 X i) och V ( 10 i=1 X i). Vilken metod är att föredra? 105. En student tillfrågas om hen har bilkörkort. et beskrivs av en slumpvariabel X 1 som är 0 med sannolikheten 1 p om personen saknar körkort och 1 med sannolikheten p om hen har. (a) Beräkna E(X 1 ) och V (X 1 ). (b) Man frågar 50 studenter vilket ger upphov till de 50 slumpvariablerna X 1,..., X 50, alla med samma sannolikhet p. Uttryck i ord vad X 1 + X X 50 står för. (c) Antag att studenters körkortsinnehav anses oberoende av varandra, beräkna väntevärde och varians för X 1 + X X 50. (d) Vilken standardfördelning har summan X 1 + X X 50? Kontrollera att väntevärdet och variansen i den fördelningen stämmer med dina resultat från föregående deluppgift. Mätsituationen 106. Man vill uppskatta ett avstånd mellan två punkter A och B och planerar att göra n längdmätningar och sedan bilda medelvärdet av dessa mätningar. Man har en viss uppfattning om mätinstrumentets precision och antar att en mätning har en standardavvikelse på 0.2 m. Hur många mätningar ska man göra om man vill att avståndsuppskattningen (d.v.s. medelvärdet) ska ha en standardavvikelse som är 0.1 m?

40 40 Summor, linjärkombinationer 107. Mätningar av det diastoliska blodtrycket hos en person varierar enligt en slumpvariabel X med D(X) = 5 mm Hg. Man avser att mäta n gånger på en person och bilda medelvärdet av mätningarna. Hur stort ska n vara om medelvärdet av mätningarna ska ha en standardavvikelse som inte får överstiga 2 mm Hg? 108. När vi mätte natriumhalten hade vi förutom det slumpmässiga felet ett systematiskt fel på 0.7. Vad innebär det systematiska felet konkret i denna situation? Hur kan man få en uppfattning om hur stort det slumpmässiga felet är? 109. (a) Surhetsgraden i ett vattendrag bestäms varje måndag med hjälp av en phmeter. Vid mätningen uppstår ett fel Y med väntevärdet δ och standardavvikelsen σ = Här bör δ vara 0 men på grund av att kalibrering ej gjorts är detta systematiska fel 0.4. Beräkna väntevärde och standardavvikelse för mätresultatet om det rätta ph-värdet är 5.8. (b) Antag att vattnets sanna surhetsgrad varierar från måndag till måndag som en s.v. X med väntevärdet 5.8 och standardavvikelsen 0.5. Beräkna väntevärde och standardavvikelse för mätresultatet, Z, en godtycklig måndag. (c) Antag att man varje måndag tar ett vattenprov ur ån. På detta vattenprov gör man sedan tre mätningar Z 1, Z 2 och Z 3 och bildar medelvärdet. Beräkna standardavvikelsen för detta medelvärde om de slumpmässiga felen vid de tre mätningarna är oberoende och X varierar från måndag till måndag som i (b). (d) Det finns tre källor till avvikelser från 5.8 hos värdet Z i (b). Vilka? Vilken/vilka av dessa går att påverka genom den medelvärdesbildning som sker i (c)?

41 Normalfördelningen Normalfördelningen NYCKELBEGREPP: Begrepp Träna Normalfördelning som modell FMS035 (M-kurs): Maple TA, slh?-slh? Beräkna sannolikheter/kvantiler MASB11 (Biostat): Dignormal 1-15 Lognormalfördelningen Linjärkombinationer av normalfördelade s.v. Centrala gränsvärdessatsen LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel 6 Olsson, Englund och Engstrand Kapitel Normalfördelning som modell 110. Från en stor population av kvinnor mellan år valdes slumpmässigt 225 och deras serumkolesterolhalt (mmol/l) mättes: Man ville undersöka om man kunde beskriva serumkolesterolhalten i den ursprungliga populationen med en lämplig statistisk standardmodell. När man ritade de 225 värdena i ett histogram (översta grafen i figuren nedan) såg man att en normalfördelning förmodligen var en rimlig modell (mittersta grafen). I understa grafen är täthetsfunktionen, f(x), för denna normalfördelning ritad.

42 42 Normalfördelningen Ett annat sätt att beskriva fördelningen är att rita kumulativ relativ frekvens för de 225 värdena (översta grafen i figuren nedan). Underst är fördelningsfunktionen, F (x), för normalfördelningen uppritad. Från den angivna modellen: (a) Vad är väntevärdet (populationsmedelvärdet) µ? Markera det i figurernas båda understa grafer.

43 Normalfördelningen 43 (b) Uppskatta sannolikheten att serumkolesterolhalten understiger 6.5 mmol/l. Markera hur sannolikheten beräknas i figurernas båda understa grafer. (c) Uppskatta sannolikheten att serumkolesterolhalten överstiger 6 mmol/l. Markera hur sannolikheten beräknas i figurernas båda understa grafer. (d) Uppskatta den serumkolesterolhalt som överstigs av 20 % av populationen. Markera halten i figurernas båda understa grafer. (e) Uppskatta standardavvikelsen, σ, i normalfördelningen Illustrera med figurer i Matlab. Antag att du har en våg som har ett visst mätfel som vi betecknar X. Som modell antar vi att mätfelet är normalfördelat, N (0, 2) (enhet g). I genomsnitt visar alltså vågen rätt eftersom väntevärdet i normalfördelningen är 0, men för en enskild mätning kan utslaget bli för lågt eller för högt. Om du på vågen ställer en vikt på 30 g, kommer vågens utslag, Y att kunna skrivas som summan av vikten och vågens mätfel, d.v.s. Y = 30 + X. Eftersom X är normalfördelad kommer Y också att vara normalfördelad men dess fördelning är N (30, 2). (a) Rita upp frekvensfunktionen (täthetsfunktionen) för vågens utslag, Y, i intervallet (20, 40) g. Rita också upp fördelningsfunktionen för Y. >> x=[20:0.05:40]; % (skapa x-värden i intervallet (20,40) med steget 0.05) >> subplot(2,1,1) % (dela plottfönstret i två figurer) >> plot(x,normpdf(x,30,2)) % (rita normalfördelningens frekvensfunktion) >> subplot(2,1,2) % (placera ritmarkören i andra figuren) >> plot(x,normcdf(x,30,2)) % (rita normalfördelningens fördelningsfunktion) Enligt de uppritade graferna, mellan vilka värden kan du förvänta dig att vågens utslag ska vara? (b) Använd kommandot normcdf för att ta reda på hur stor är sannolikheten att vågen visar mindre än 26 g. (c) Beräkna sannolikheten att vågen visar mer än 33 g. (d) Beräkna sannolikheten att vågen visar i intervallet (29, 31) g. Kontrollera att du förstår vad sannolikhetsberäkningarna innebär grafiskt i frekvens- respektive fördelningsfunktionen.

44 44 Normalfördelningen (e) För just normalfördelningen kan man i Matlab beräkna ovanstående sannolikheter med kommandot normspec och samtidigt få illustrativa grafer. Pröva följande kommandon och jämför med dina tidigare beräkningar. normspec([-inf 26],30,2) normspec([33 Inf ],30,2) normspec([29 31],30,2) OBS! Kommandot normspec kan vara bra i ett inledande skede för att illustrera sannolikheterna. Däremot är det ett bökigt kommando att använda generellt. Undvik det alltså framöver och använd normcdf i stället. Beräkna sannolikheter/kvantiler 112. Den s.v. X är normalfördelad med väntevärde 0 och standardavvikelse 1 (standardiserad normalfördelning). Skissa gärna figurer när du gör nedanstående uppgifter så du får en uppfattning om vilka areor som är aktuella. Beräkna (a) P (X 1.3) (b) P (X 1.5) (c) P ( 1.5 X 1.3) 113. Den s.v. X är normalfördelad med väntevärde 0 och standardavvikelse 1 (standardiserad normalfördelning). Skissa gärna figurer när du gör nedanstående uppgifter så du får en uppfattning om vilka areor som är aktuella. Beräkna (a) det värde c så att P (X c) = 0.05 (b) det värde c så att P (X c) = (c) det värde c så att P ( c X c) = Låt X N (5, 2). Beräkna (a) P(X 6.24), (b) P(X > 0), (c) P(1.8 < X < 7), (d) c så att P(X > c) = 0.05.

45 Normalfördelningen Vid bestämning av kvicksilverhalten i ett reningsverks avloppsvatten används en metod som anses ge upphov till ett mätfel som är normalfördelat med väntevärde 0 och en varians Antag att kvicksilverhalten är 0.35, vad är sannolikheten att den avlästa mätningen blir negativ? 116. Vikten hos en slumpmässigt vald 10-årig flicka i Sverige anses vara normalfördelad med väntevärde 34.5 kg och standardavvikelse 3.75 kg. (a) Hur stor andel av de 10-åriga flickorna väger över 42 kg? (b) Antag att vi är intresserade av att undersöka flickor med de allra högsta vikterna, nämligen de som ligger över 99:e percentilen. Vilken vikt bör dessa flickor minst ha? Skissa gärna normalfördelningens täthetsfunktion och markera den eftersökta percentilen I en studie ingick en stor grupp män där man mätte kolesterolhalten. Man såg att de kunde beskrivas av en normalfördelning med väntevärde µ A =244 mg/100 ml och standardavvikelse σ A =51 mg/100 ml. Antag att en kolesterolhalt på 260 mg/100 ml eller mer används för att förutsäga en kommande hjärt- och kärlsjukdom. Utifrån värdet på kolesterolhalten, hur stor andel av männen ligger i riskzonen för denna sjukdom? 118. En maskin fyller på foder i säckar märkta 100 kg. Den verkliga vikten, X, i säckarna anses variera enligt en normalfördelning med väntevärde 100 kg och variationskoefficient Variationskoefficienten för en slumpvariabel X, definieras som D(X) E(X). (a) Beräkna standardavvikelsen för X. (b) Mellan vilka värden ligger i stort sett alla säckarnas vikter? (c) Beräkna P(X 99). (d) Beräkna sannolikheten att en säcks vikt understiger 101 kg men överstiger 99.5 kg. (e) Hur stor andel av säckarna har en vikt som överstiger 101 kg? (f) Vilken vikt överstigs av 1 % av säckarna?

46 46 Normalfördelningen 119. Längden för en 8-årig flicka anses variera enligt en normalfördelning med väntevärde 128 cm och standardavvikelse 2.5 cm. Beräkna sannolikheten att en slumpmässigt vald 8-årig flicka får åka med tivoliattraktionen Upp och Ner där deltagaren måste ha en längd på minst 130 cm? 120. Diametern för axlar som tillverkas är normalfördelad med väntevärde 1 mm och standardavvikelse mm. Vid kvalitetskontroll sorterar man bort de axlar som är tjockare än 1.01 mm och smalare än 0.99 mm. Hur stor andel av de tillverkade axlarna kommer att sorteras bort? 121. Vikten hos fullgångna nyfödda barn anses vara normalfördelad med väntevärde 3.5 kg och standardavvikelse 0.5 kg. Barn med en födelsevikt under 2.5 kg eller över 4.5 kg anses av vissa forskare ha en större risk för plötslig spädbarnsdöd. Hur stor andel av de fullgångna nyfödda barnen ligger i denna riskgrupp? 122. Om bakteriehalten i dricksvatten överstiger 60 enheter anses det otjänligt. Bakteriehalten en slumpmässigt vald dag kan modelleras med hjälp av en normalfördelning med väntevärde µ och standardavvikelse 7 enheter. Man tar ett vattenprov och bedömmer vattnets kvalitet efter detta. (a) Antag att µ är 50, vad är sannolikheten att dricksvattnet bedöms otjänligt? (b) Genom olika åtgärder kan man påverka den genomsnittliga bakteriehalten µ. Om sannolikheten att vattnet är otjänligt inte får överstiga 0.05, vad ger detta för villkor på µ? Lognormalfördelningen 123. Baslognormalfördelning ; biotillämp? 124. Från ett område som tidigare tjänstgjort som avstjälpningsplats för en kemisk industri togs 31 jordprover och halten av trikloretylen µg/kg uppmättes: 730, 800, 810,..., Man plottade data, x 1,..., x 31 respektive logaritmen av data, ln(x 1 ),..., ln(x 31 ), i normalfördelningsdiagram, se figur.

47 Normalfördelningen 47 Dessutom fick man följande resultat från ett beräkningsprogram: x = i=1 x i = samt s x = i=1 (x i x) 2 = Motsvarande beräkningar för logaritmerade data blev: ln(x) = och s ln(x) = (a) Ange en lämplig modell för data och skatta modellens parametrar. (b) Intressant är att studera sannolikheten att trikloretylenhalten i ett prov överstiger µg/kg. Använd skattningarna i (a) för att göra en uppskattning av denna sannolikhet. (6p) (c) Om man skulle ta 20 nya jordprover på samma plats, vad är sannolikheten att minst en av dessa prover har en halt av trikloretylen som överstiger µg/kg? 125. DATAMATERIAL: stare Mätningar av pcb-halten i starar har gjorts under de senaste decennierna inom Naturvårdverkets miljö- och övervakningssystem. I filen stare.mat finns finns pcb-halten (mg/kg) i musklerna hos 120 fåglar infångade i området kring Krankesjön. (a) Ange, utifrån data, en lämplig modell för hur pcb-halten i stare varierar. (b) Utgående från din modell i (a), uppskatta sannolikheten att pcb-halten i musklerna hos en stare överstiger 1.0 mg/kg. (c) Ett år fångar man 10 starar. Vad är sannolikheten att minst 2 av dessa fåglar har en pcb-halt som överstiger 1.0 mg/kg?

48 48 Normalfördelningen 126. DATAMATERIAL: lava. Med hjälp av spektografiska metoder har man mätt mängden niobium (ppm) i 30 prover från alkalisk lava. Data finns i filen lava. Wilma har fått i uppgift att studera hur troligt det är att halten niobium i denna typ av lava överstiger 350 ppm. Från provtagaren hör hon att för denna typ av mätningar brukar det passa bra med en lognormalfördelning. (a) Har provtagaren rätt? Motivera, t ex med hjälp av lämpliga figurer. (b) Hjälp Wilma att uppskatta sannolikheten att niobiumhalten överstiger 350 ppm genom att utnyttja den antagna fördelningen för niobiumhalten. (c) Kan Wilma uppskatta den sökta sannolikheten utan att utnyttja niobiumhaltens fördelning? Ange skattningen i så fall. Linjärkombinationer av normalfördelade s.v Årliga mängden regn i ett avrinningsområde varierar enligt en normalfördelning med väntevärde 1000 mm och standardavvikelse 200 mm. Antag att regnmängderna olika år är oberoende. Som en approximativ modell för relationen mellan regnmängd, X och avrinningen, Y, antar man att Y = X. (a) Vad är sannolikheten att regnmängden ett år understiger 900 mm? (b) Vilken regnmängd överstigs i 5% av åren? (c) Vad är sannolikheten att avrinningen ett år överstiger 600 mm? 128. Den mängd godis en slumpmässigt vald student äter under en påskhelg anses vara normalfördelad med väntevärde 1100 g och standardavvikelse 200 g. Beräkna sannolikheten att (a) en student äter mer än 1300 g godis (b) medelvärdet av fyra studenters godiskonsumtion överstiger 1300 g 129. Vid tester av styrkan hos betong anser man att styrkan (N/mm 2 ) vid en mätning är normalfördelad med väntevärde 60 och standardavvikelse 5. Vad är sannolikheten att medelvärdet av 10 mätningar ligger mellan 56 och 64 N/mm 2?

49 Normalfördelningen Om bakteriehalten i dricksvatten överstiger 60 enheter anses det otjänligt. Halten en slumpmässigt vald dag modelleras med hjälp av en normalfördelning med väntevärde 50 och standardavvikelse 7 enheter. (a) Man tar ett vattenprov, vad är sannolikheten att dricksvattnet bedöms otjänligt? (b) Man överväger att ändra provtagningen genom att basera bedömningen på medelvärdet av tre oberoende prover av bakteriehalten. Beräkna sannolikheten att medelvärdet överstiger 60 enheter om ett prov kan modelleras enligt N (50, 7). (c) Vad har man vunnit på att ta medelvärdet? 131. Under regniga dagar i maj månad i Staden antas regnmängden per dag beskrivas av en stokastisk variabel som är normalfördelad med väntevärde 6 mm och standardavvikelse 1.3 mm. (a) Vad är sannolikheten att det en regnig majdag kommer mer än 9 mm? (b) I föregående uppgift antas regnmängden olika dagar i maj vara oberoende av varandra. Vad är sannolikheten att den totala regnmängden under maj månad (31 dagar) i Staden överstiger 200 mm? 132. Vid en processkontroll vid tillverkning av metallcylindrar tar man slumpmässigt ut 5 tillverkade enheter från dagens produktion. Eftersom det är viktigt att diametern inte avviker för mycket från målvärdet 8.3 mm så slår man larm och justerar processen om medelvärdet av de 5 diametrarna understiger 8.27 mm eller överstiger 8.33 mm. (a) Antag att diametern varierar enligt N (8.3, 0.05), d.v.s. processen är under kontroll med rätt målvärde. Vad är sannolikheten att man ändå felaktigt slår larm? (b) Hur många enheter, n, ska man ta ut ur produktionen om man vill att risken för falskt alarm ska vara högst 0.05 då processen har rätt målvärde 8.3? 133. En grov modell för fosforhalten i den östra delen av en sjö är att den är normalfördelad med väntevärde 6 och varians 9. Fosforhalten i den västra delen antas också normalfördelad men med väntevärde 2 och varians 4.

50 50 Normalfördelningen (a) Vad är sannolikheten att fosforhalten i ett prov från den östra delen understiger fosforhalten i ett prov från den västra delen? (b) Vad är sannolikheten att medelvärdet av fyra prov från den östra delen överstiger 8? 134. Vattentillgången (miljoner liter) i en stad anses variera under sommarmånaderna enligt en normalfördelning med väntevärde 45 och varians 25. (a) Vad är sannolikheten att vattentillgången understiger 36 miljoner liter? (b) Efterfrågan på vatten i staden varierar under sommarmånaderna enligt en normalfördelning, N (35, 4) och anses vara oberoende av vattentillgång. Vad är sannolikheten att vattenbrist ska uppstå i staden under sommaren? 135. Man studerade hur mycket energi som ett vindkraftverk alstrar genom att notera den dagliga energiproduktionen (kwh). En lämplig modell ansågs vara en normalfördelning med väntevärde 4000 kwh och standardavvikelse 900 kwh. (a) På fältet står 10 vindkraftverk. Uppskatta sannolikheten att total energimängd under ett dygn överstiger kwh. (b) Hur många vindkraftverk behövs minst på fältet för att total energimängd under ett dygn ska överstiga kwh med sannolikheten 0.95? 136. Vid bestämning av kvicksilverhalten i ett reningsverks avloppsvatten har man traditionellt använt sig av en standardmetod. Den anses ge upphov till ett mätfel som är normalfördelat med en varians Om ξ är mätningen på ett vattenprov med kvicksilverhalt µ gäller alltså att ξ N (µ, 0.09). (a) Halten av kvicksilver i vattnet är ofta liten vilket får till följd att metoden ofta ger negativa mätvärden. För vilka värden på µ ger metoden ett negativt mätvärde med minst sannolikheten 0.05? (b) För att minska mätfelets variationen i noterade resultat överväger man att göra tre bestämningar med metoden och ange medelvärdet av de tre mätningarna. Antag att µ är 0.35, vad är sannolikheten att medelvärdet blir negativt?

51 Normalfördelningen Vid mätningar av fordonshastigheter på Södra Esplanaden följde hastigheterna väl en normalfördelning med väntevärde 38 km/h och standardavvikelse 5 km/h, dvs om X=hastighet, modellerar vi X N(38, 5). (a) Hur stor är sannolikheten att en hastighet ligger mellan 35 km/h och 41 km/h? (b) Hur stor är sannolikheten att medelvärdet av fyra oberoende hastighetsmätningar ligger mellan 35 km/h och 41 km/h? (c) Hur stor är sannolikheten att, om två personer utför fyra mätningar var, skillnaden mellan deras medelvärden (frånsett tecken) överstiger 2 km/h? 138. Till en liftkabin står ett stort antal människor i kö och kabinskötaren Frans funderar på hur många skidåkare han ska våga pressa in i kabinen. Av erfarenhet vet han att skidturister kan packas mycket tätt. På kabinväggen står ett plakat Max 8.2 ton och Frans, som själv åker med kabinen, vet att han väger 75 kg. Frans antar att skidåkares vikt inklusive skidutrustning är oberoende normalfördelade slumpvariabler med väntevärde 80 (kg) och standardavvikelse 5 (kg). Beräkna sannolikheten att kabinen belastas med mer än den tål om Frans pressar in 100 skidåkare i kabinen. Observera att Frans också åker med i kabinen För att bekämpa snatteri har en affär i södra Tyskland infört att kunderna vägs på en våg vid affärens ingång och på en annan våg strax före utgången. Om vikten vid utgången överstiger ingångsvikten med mer än 20 g uppmanas kunden att återvända till affären för att lätta på sin vikt. Om däremot differensen i vikt (utgångsvikt ingångsvikt) understiger 20 g släpps kunden fram till kassan. Antag att vågen har ett slumpmässigt fel som är normalfördelat med väntevärde 0 och med standardavvikelse 6 (g) samt att felen vid olika vägningar är oberoende. (a) Vad är sannolikheten att en oskyldig kund, som inte har snattat något, ändå får en viktdifferens som överstiger 20 g? (b) Vad är sannolikheten att bland 110 oskyldiga kunder minst en får en viktdifferens som överstiger 20 g? 140. (a) Antag att slumpvariablerna X och Y är oberoende med X N (2, 2) och Y N (5, 3). Vad har summan 5X + 2Y för fördelning? (b) Illustrera med figurer i Matlab. Visa i Matlab att ditt svar i föregående deluppgift är rimligt genom att simulera slumptal från X och Y.

52 52 Normalfördelningen 141. Illustrera i figurer i Matlab: Mäta upp 10 m långt band. Denna uppgift illustrerar skillnaden mellan 10X och 10 i=1 X i där alla slumpvariabler X, X 1,..., X 10 har samma fördelning. Man vill mäta upp ett 10 m långt band med så bra precision (dvs med så liten variation) som möjligt. Till sitt förfogande har man en mätsticka av längd 1 m. Då man mäter bandet har man ett visst mätfel så den verkliga längden av bandet varierar från mätning till mätning som en slumpvariabel X som har väntevärde 1 m och standardavvikelse 0.05 m. För att få ett 10 m långt band kan man välja mellan två strategier: I Den snabba metoden : Mät upp 1 m med mätstickan. Vik sedan över bandet ett antal gånger tills du har 10 m. II Den jobbiga metoden : Mät upp 1 m band med mätstickan, gör en ny mätning med stickan, osv. Man gör alltså totalt 10 st mätningar. (a) Vilken av slumpvariablerna 10X eller 10 i=1 X i representerar den snabba metoden? Vilken representerar den jobbiga metoden? (b) Beräkna väntevärde och varians för resultatet från de två metoderna, d.v.s. beräkna E(10X) och V (10X) samt E( 10 i=1 X i) och V ( 10 i=1 X i). Vilken metod är att föredra? (c) Illustrera resultatet genom att anta att 100 personer använde den snabba metoden medan 100 andra använde den jobbiga metoden. Simulera deras mätningar och gör histogram för resultatet i de två grupperna. För enkelhets skull antar vi att fördelningen är normalfördelad men detta är ej nödvändigt för resultatet. Stöder histogrammen den slutsats du kom fram till? Med kommandot >> X=normrnd(1,0.05,10,100); får man en (10 x 100) matris med slumptal från en normalfördelning med väntevärde 1 och standardavvikelse Genom >> sum(x); adderas för varje kolonn de 10 raderna vilket ger en (1 x 100) matris där varje element är summan av 10 slumptal från den aktuella normalfördelningen, dvs du har gjort 100 simuleringar av X 1 + X X 10. För att rita upp histogrammet: >> subplot(2,1,1) >> hist(sum(x)) >> title( Den jobbiga metoden )

53 Normalfördelningen 53 För att simulera 10X kan du bilda en (1 x 100) matris av normalfördelade slumptal och multiplicera den med 10. >> X1=10*normrnd(1,0.05,1,100); >> subplot(2,1,2) >> hist(x1) >> title( Den snabba metoden ) (d) Tänk ut - genom att använda satser om normalfördelningen - vad fördelningen är för längden av det uppmätta bandet med den snabba metoden? Vad är fördelningen för längden av det uppmätta bandet med den jobbiga metoden? (e) För båda metoder, använd normcdf för att beräkna sannolikheten att det uppmätta bandets längd understiger 9.7 m. Centrala gränsvärdessatsen 142. De 50 oberoende slumpvariablerna X 1,..., X 50 är alla lognormalfördelade med väntevärde 0.9 och varians Uppskatta sannolikheten att medelvärdet av de 50 variablerna överstiger När man tillverkar pappersgem utgår man ifrån en rulle metalltråd av längd 1.6 m. Tråden rullas upp, kapas av, böjs till i traditionell form och samtliga gem förpackas sedan i en kartong med texten 100 gem. Om det på slutet återstår en liten trådbit som inte räcker till ett gem slängs denna bit. Längden på metalltråden hos ett gem ska vara 15.9 mm men kan emellertid variera något. Antag att längden varierar enligt en stokastisk variabel med standardavvikelse σ där σ = 0.5 mm. Beräkna sannolikheten att kartongen innehåller minst 100 gem Ett distributionssystem består av ett centrallager med 25 försäljningskontor. Kunderna efterfrågar varor på försäljningskontoren. Antag att antalet enheter som efterfrågas vid ett försäljningskontor av vara V under en vecka är Poissonfördelat med väntevärde 3.6. Antag också oberoende mellan försäljningskontor. Leveranser från tillverkaren till centrallagret sker enbart en gång i veckan, nämligen varje måndag morgon. (a) Vad är sannolikheten att efterfrågan från kontor 1 överstiger 10 enheter av vara V en vecka?

54 54 Normalfördelningen (b) I början av veckan, efter tillverkarens leverans, finns 100 enheter av V i centrallagret och ingen påfyllnad sker under veckans gång. Vad är sannolikheten att totala efterfrågan på V överstiger tillgången i centrallagret den veckan? 145. En laboratorieassistent utför en viss rutinmätning ett stort antal gånger under en arbetsdag. Han har noterat att 50 % av mätningarna tar 1 minut att genomföra, 40 % tar 2 minuter medan resten tar 3 minuter. Han tror inte att arbetet under dagens lopp påverkas av inlärningseffekter eller förtröttningseffekter. Låt X=antal minuter att genomföra en mätning. (a) Vad är sannolikhetsfunktionen för X? (b) Bestäm E(X) och V (X). (c) Vad är sannolikheten att han hinner med 100 mätningar på mindre än 170 arbetsminuter? 146. I en bostadskö står 1500 familjer. Enligt tidigare undersökningar uppskattar man sannolikheten för k personer i en familj till följande: k - antal personer i en familj Sannolikhet Beräkna sannolikheten att det i bostadskön finns minst 2500 personer som vill ha ny bostad Arsenik finns i små men mätbara mängder i avloppsvattnet från hushållen och man funderar på hur mycket arsenik som släpps ut från samhället Wik som består av 67 hushåll. Från tidigare undersökningar på områden med likartad struktur beträffande befolkning, berggrund, jordmån osv. har man antagit en ganska grov modell där X= As-mängden i avloppsvattnet från ett slumpmässigt valt hushåll följer en lognormalfördelning med parametrar µ och σ. Det innebär alltså att ln(x) N (µ, σ). Från denna undersökning gjorde man uppskattningarna att µ 3 och σ 0.3. Man tänkte sig också att As-mängden mellan olika hushåll var oberoende. Antag att samma lognormalfördelning även gäller för As-mängden hos hushåll i Wik. Om X är lognormalfördelad med parametrar µ och σ gäller E(X) = e (µ+ σ2 2 ) och V (X) = e (2µ+σ2) (e (σ2) 1). Med de angivna skattningarna på µ och σ innebär det att om X i =As-mängden från hushåll i, gäller det att E(X i ) = och V (X i ) =

55 Normalfördelningen 55 Vad är då sannolikheten att den totala As-mängden från Wik överstiger 3.7 (µg)? 148. Den tid som behövs för att betjäna en kund som anländer till lager A kan betraktas som en s.v. W som anses vara exponentialfördelad med väntevärde E(W ) = 10 minuter.betjäningstiden för olika kunder är oberoende. (a) Beräkna sannolikheten att det tar mer än 1050 minuter att betjäna 100 kunder vid lager A. (b) Hur många kunder får det högst komma om sannolikheten att man inte ska hinna med samtliga på 1200 minuter ska vara högst 0.1? (c) Betjäningstiden vid lager B anses vara summan av tre oberoende s.v. X 1, X 2 och X 3 som är exponentialfördelade med E(X 1 ) = 2, E(X 2 ) = 3 respektive E(X 3 ) = 5. Beräkna sannolikheten att det går snabbare att betjäna 100 kunder vid lager A än det gör att betjäna 100 kunder vid lager B En färja som transporterar passagerare tvärs över ett sund avgår från punkt A en gång i timmen. Färjan är dimensionerad för 30 passagerare. Under rusningstid kommer passagerare till A enligt en Poissonprocess med i genomsnitt 2 personer var femte minut. Det innebär att antalet passagerare som kommer till A under en femminutersperiod är Poissonfördelat med väntevärde 2 samt att passagerarna anländer oberoende av varandra. (a) Hur många passagerare förväntar man sig ska komma till A under en timme vid rusningstid? (b) Beräkna sannolikheten att det väntar fler än det tillåtna 30 vid A när färjan ska gå? Antag att passagerarna tåligt väntar kvar vid A även om väntetiden är lång. (c) Vikten på färjans passagerare får högst vara 2500 kg. Man antar att vikten hos en slumpmässigt vald passagerare är en stokastisk variabel med väntevärde 75 kg och standardavvikelse 25 kg. Vad är sannolikheten att 30 passagerares vikt överstiger 2500 kg? 150. I en undersökning mätte man mängden koldioxid (g/km) hos personbilar i trafik. Den mängd en bil släpper ut varierar enligt en slumpvariabel som har väntevärde µ och varians σ 2. Från undersökningen uppskattade man att µ var ungefär 12.8 (g/km) och att σ 2 var ungefär 71.6.

56 56 Normalfördelningen Vid en 1 km lång sträcka i ett bostadsområde har man satt ett gränsvärde på 1.2 kg för den totala mängd koldioxid som kommer från bilars avgaser under en timme. (a) Om det kommer 80 bilar under en timme, vad är sannolikheten att gränsvärdet överskrids? Beräkna sannolikheten under antagandet att koldioxidmängden är normalfördelad. (b) Hur många bilar kan man acceptera om sannolikheten att gränsvärdet överstigs får högst vara 0.05? Antag att koldioxidmängden är normalfördelad. (c) Antag nu att man inte anser sig veta något om hur koldioxidmängden är fördelad. Hur görs då beräkningarna i (a) och (b)? 151. Erfarenhetsmässigt vet man att antalet lampor som måste bytas ut på en fabrik per dag har följande fördelning: Antal trasiga lampor en dag Sannolikhet Antag att lampbehovet olika dagar är oberoende stokastiska variabler. (a) Beräkna väntevärde och varians för antalet lampor som behöver bytas en dag. (b) Beräkna approximativt sannolikheten att 300 lampor räcker för ett års (365 dagar) förbrukning. (c) Vaktmästaren, som är den ende som har nyckel till lampförrådet, åkte på 5 dagars semester och fick av misstag med sig nyckeln. Beräkna sannolikheten att behovet av lampor från lampförrådet är 0 under denna period. Det finns inga extra lampor utanför förrådet. (d) Samma fråga som i (c) fast nu hade du en extra lampa i skrivbordet och kan alltså klara av det första (eventuella) lampbytet Illustrera med figurer i Matlab och R: Centrala gränsvärdessatsen. Adderar man (eller tar medelvärdet) av flera oberoende normalfördelade slumpvariabler är summan också normalfördelad. Men vad händer om man lägger ihop flera variabler som alla är rektangelfördelade? Vilken fördelning fås om man adderar exponentialfördelade variabler? Centrala gränsvärdessatsen säger att om man adderar man ett stort antal variabler från en godtycklig fördelning blir summan (eller medelvärdet) normalfördelad. Detta märkliga faktum ska du i denna uppgift undersöka med hjälp av den interaktiva guiden Gcgs.

57 Normalfördelningen 57 Konkret kan vi tänka oss att du gör ett antal mätningar av en intressant (miljö)variabel, du bildar medelvärdet av mätningarna (eller summerar dem). Det du ska undersöka är hur medelvärde (summa) kommer att variera från mätserie till mätserie? Beror det på fördelningen hos miljövariabeln? Mera matematiskt beskrivet: Om X 1,..., X antal är oberoende med den fördelning du valt, vad är då fördelningen för antal i=1 X i respektive X? Så här använder du Gcgs i Matlab: Skriv Gcgs. I guiden har du möjlighet att välja mellan några olika fördelningar. Välj fördelning och värden på fördelningens parameter(ar). Guiden har förvalt parametervärden, som du kan ändra. Du får en figur med täthetsfunktion eller sannolikhetsfunktion för din valda fördelning. Välj nu hur många mätningar, N du ska göra från denna fördelning och mata in detta antal. Välj om du vill studera summan eller medelvärdet av dina N mätningar. Guiden visar ett histogram över summa/medelvärde då man upprepat proceduren 1000 gånger. Du kan välja att anpassa en normalfördelning till histogrammet. För att bättre kunna avgöra om normalfördelning är en bra approximation visas samtidigt de 1000 summorna/medelvärdena i en normalfördelningsdiagram. Genom att trycka på knappen animera kan du se hur fördelningen ändrar sig för värdena 2 upp till N i summan/medelvärdet. (a) Normalfördelning: i. Välj N = 2. Vilken fördelning har summan/medelvärdet av två oberoende normalfördelade slumpvariabler? Kontrollera att de angivna väntevärde och standardavvikelse stämmer med räknereglerna. ii. Teorin säger att fördelningen för summa/medelvärde blir normalfördelad för alla värden på N. Kontrollera att detta verkar rimligt genom att använda animeringsknappen då du valt N ganska stort. (b) Rektangelfördelning: i. Välj rektangelfördelning och N = 2. Vilka värden kan summan av två mätningar ligga mellan? Vilka värden kan medelvärdet ligga mellan? Verkar histogrammen rimliga? ii. Öka antalet mätningar i rektangelfördelningen. Vad händer om du tar antalet mätningar till 5? Eller ökar till 10? iii. Kontrollera att de angivna väntevärde och standardavvikelse stämmer med räknereglerna. Ledning: I formelsamlingen står att om ξ är rektangelfördelad mellan a och b gäller att E(ξ) = a+b och V (ξ) = (b a)

58 58 Normalfördelningen (c) Exponentialfördelning: Gör motsvarande för exponentialfördelningen. Hur många mätningar behöver ni ta innan ni tycker att summa/medelvärde är ungefär normalfördelat? Varför tror ni att det behövs så många fler mätningar än vid rektangelfördelningen? (d) Undersök på motsvarande sätt vad som händer då man bildar summa/medelvärde från binomial- eller poissonfördelningen. (e) Konkret problem: Du har gjort 25 oberoende mätningar av niobiumhalten i lava. När du gör ett histogram över dessa mätningar och ritar dem i ett normalfördelningspapper slås du av att fördelningen inte alls verkar normalfördelad.den fortsatta statistiska analysen tänker du basera på medelvärdet av de 25 mätningarna, t.ex. då du ska jämföra med mätresultat vid en annan lokal. Behöver den icke-normala fördelningen hos dina mätningar oroa dig?

59 Fördelningsanpassning Fördelningsanpassning NYCKELBEGREPP: Begrepp Träna Finns det en standardfördelning till mina data? MASB11 (Biostat): Digfordanpass 1-4 LÄS I KURSLITTERATUREN: Litteratur Blom et al. Olsson, Englund och Engstrand Avsnitt Finns det en standardfördelning till mina data? 153. DATAMATERIAL: jordprov. I skogsområdet ASA försökspark i Småland är 94 olika gropar grävda i marken och från varje grop är jordprover tagna där bland mycket annat aluminiumhalt och calciumhalt är uppmätta (mg/g). Data finns i filen jordprov och variablerna heter al och ca. Nu vill vi, med grafiska metoder, undersöka om dessa två dataset kan modelleras med någon standardfördelning, i vårt fall ska vi pröva med normalfördelning och lognormalfördelning. För att illustrera metoderna ska vi också använda dem på ett datamaterial som vi verkligen vet är normalfördelat, vi simulerar slumptal från en normalfördelning: >> normalvariabel=normrnd(70,10,1,94) %skapar 94 slumptal från N(70,10) Vi ska använda tre tekniker för att pröva om normalfördelning kan passa som modell för de tre variablerna al, ca och normalvariabel: (a) Jämför histogram med teoretisk täthetsfunktion. Om data är normalfördelade bör motsvarande histogram ha den typiska klockformen. Testa detta på de tre materialen genom kommandot histfit, som skattar µ och σ utifrån data och anpassar en normalfördelning till histogrammet. >> histfit(normalvariabel), figure, histfit(al), figure, histfit(ca) Verkar aluminiumhalterna eller calciumhalterna vara normalfördelade? Observera hur histfit fungerar på variabeln normalvariabel som är normalfördelad.

60 60 Fördelningsanpassning (b) Bättre är att jämföra empirisk fördelningsfunktion med teoretisk fördelningsfunktion. Den empiriska fördelningsfunktionen är ett kumulativt histogram över relativa frekvenser, i varje datapunkt ökar funktionen med storheten 1 där n är antalet mätningar i materialet. n >> cdfplot(normalvariabel) Uppskatta, utifrån figuren hur stor andel av data i normalvariabel som ligger under värdet 70, eller som ligger över 80. Lägg sedan in normalfördelningens fördelningsfunktion i samma figur: >> hold on >> x=[min(normalvariabel)-5:0.01:max(normalvariabel)+5] %skapar ett lämpligt intervall på x-axeln >> plot(x,normcdf(x,mean(normalvariabel),std(normalvariabel))) %skattar mu och sigma utifrån data >> hold off Eftersom data i normalvariabel verkligen är normalfördelade är anpassningen förstås god. Testa hur det ser ut för aluminiumvärdena och calciumvärdena genom att byta ut variabeln normalvariabel mot al och ca i kommandona ovan. Kommentar: I ovanstående kommando skulle vi kunna ha använt att µ = 70 och σ = 10 för normalvariabel i stället för att skatta dessa parametrar. (c) Bäst är att plotta data i ett fördelningspapper. Denna metod är en mycket använd standardmetod i olika tillämpningar och i industrin. Ett fördelningspapper är ett diagram med en skala som är specifik för den speciella fördelning som vi vill jämföra med. Det finns exempelvis normalfördelningspapper, Weibullpapper och Gumbel- eller extremvärdespapper. Kortfattat kan man säga att det fotfarande är en graf av en fördelningsfunktion F (x). Dock är skalan på y-axeln på ett sådant papper är avpassat så fördelningsfunktionen blir en rät linje. Det betyder att den enpiriska fördelningsfunktionen ska ligga längst denna raka linje. Omvänt gäller alltså att om den empiriska fördelningsfunktionen avviker allt för mycket från en rät linje drar vi slutsatsen att denna fördelning inte passar till våra data. I Matlab kan man direkt plotta ett stickprov i normalfördelningspapper med kommandot normplot, >> normplot(normalvariabel) Observera att även om data är normalfördelade kan de avvika en del från den räta linjen, ett faktum av att vi arbetar med slumptal. Använd normplot för att undersöka om aluminumhalterna respektive calciumhalterna är normalfördelade.

61 Fördelningsanpassning 61 (d) En annan standardfördelning som är vanlig för miljödata är lognormalfördelningen. Mätningar kan modelleras med en lognormalfördelning om de logaritmerade mätningarna passar bra till en normalfördelning. Det innebär att det inte behövs något speciellt fördelningspapper för denna fördelning, man kan använda normplot(log(data)). Pröva om calciummätningarna verkar vara lognormalfördelade DATAMATERIAL: vatten. Fortsättning från uppgift 5 om värmeväxlare i ett hyreshus. I syfte att dimensionera en värmeväxlare som genererar varmvatten till bostadshus mäts flödet av varmvatten (l/s) var 30:e sek under ett dygn i en fastighet med 20 lägenheter. Data ligger i filen vatten där variabeln flode anger flödet av varmvatten (l/s) under de senaste 30 sekunderna. (a) Låt X vara en slumpvariabel som beskriver flödet (l/s) under 30 s. Är X en diskret eller kontinuerlig slumpvariabel? (b) Rita data i olika fördelningspapper. Undersök om X beskrivs bra av en normalfördelning genom att rita ut data i ett normalfördelningspapper (normplot). Med kommandot probplot kan ni testa ett par olika standardfördelningar. För att pröva med en Gumbelfördelning, använd det specialskrivna kommadot wgumbplot (c) Skatta parametrarna i fördelningen. När man tror sig ha hittat en fördelning som passar bra till data ska fördelningens parametrar skattas. Detta kan göras med -fit till standardfördelningar, t.ex. normfit om en normalfördelning verkar vara en lämplig modell. (d) Skriv upp den fullständiga modellen. Om du t.ex. kommit fram till att X kan modelleras som en normalfördelning, skriver du X: beskrivning i ord av vad X är, X N(värdet på parameter 1, värdet på parameter 2 ). (e) Använd modellen för dimensionering. Antag att man funderar på att sätta in en ny värmeväxlare som maximalt kan klara av ett flöde på 0.4 l/s. Använd din modell för att beräkna sannolikheten att flödet i huset överstiger detta värde, d.v.s. beräkna P (X > 0.4). För standardfördelningar kan du beräkna värden i fördelningsfunktionen med -cdf, t.ex. normcdf i normalfördelningsfallet. (f) Man har som önskan att sannolikheten att värmeväxlaren inte kommer kunna leverera efterfrågad kapacitet då det rinner vatten i ledningarna ska vara högst Vad innebär det för krav på värmeväxlarens maxkapacitet? Matlabtips: för att beräkna kvantiler kan du använda -inv i en standardfördelning.

62 Fördelningsanpassning 63 ȳ = 1 yi = s y = (yi ȳ) 29 2 = Utgå från att lognormalfördelning anpassas till data och utnyttja lämpliga delar av de beräknade måtten ovan för att uppskatta sannolikheten att vattenföringens årsmax överstiger 1000 m 3 /s. (c) Utgående från lognormalfördelningen som modell, vad är 100-årsflödet i Sorsele? Hundraårsflöde är det flöde som överstigs med sannolikheten 0.01 ett år. (d) Den 8 juni 1995 var det ett extremt högt flöde i Sorsele då man uppmätte en vattenföring på m 3 /s. Omfattande översvämningar och en massiv (och dyr) räddningsinsats blev följden. Utgående från lognormalfördelningen som modell, beräkna sannolikheten att man kommer få en vattenföring som överstiger detta värde minst en gång under de närmaste 100 åren. (e) Vad är sannolikheten att få minst två 100-årsflöden under 50 år? Antag att årsmax olika år är oberoende. Observera att denna sannolikhet kan beräknas oavsett beräkningar och svar i föregående deluppgifter DATAMATERIAL: jordbävningar. I filen jordbavning finns data från så kallade kraftiga jordbävningar som antingen har en magnitud på minst 7.5 på Richterskalan eller som har orsakat minst 1000 dödsoffer. Data är insamlade under perioden 16 december 1902 till 4 mars Noterat är antal dagar mellan allvarliga jordbävningar. Eftersom det fanns 63 sådana händelser under tidsperioden består data av 62 tidsmellanrum (enhet dagar). Tidsavstånden finns i variabeln q. (a) Översikt av materialet. Börja med att rita ut data. Gör histogram och beräkna diverse läges- och spridningsmått. Verkar det troligt att kan gå mer än 5 år mellan kraftiga jordbävningar (hist, mean). (b) Poissonprocessen - en modell för när jordbävningar sker. Antag att vi studerar händelser A som inträffar slumpmässigt i tiden. A kan beteckna händelsen att en kraftig jordbävning kommer, att en trafikolycka inträffar på en viss väg eller att en partikel sönderfaller i ett radioaktivt preparat. Händelserna A utgör en så kallad Poissonprocess om vissa villkor är uppfyllda: två eller flera händelser inträffar inte samtidigt, d.v.s. inte exakt samtidigt antalet händelser som sker i icke överlappande tidsintervall är oberoende händelserna inträffar med en konstant intensitet, så att λ händelser inträffar i genomsnitt per tidsenhet, d.v.s. λt händelser i genomsnitt under en tidsperiod av längden t i. Verkar det rimligt att händelsen kraftig jordbävning uppfyller villkoren ovan?

63 64 Fördelningsanpassning ii. Intensiteten λ tolkas som det genomsnittliga antalet kraftiga jordbävningar per tidsenhet. Vad är en rimlig skattning av λ om tidsenheten är en dag? Ledning: I datamaterialet anges tidsavstånden mellan de 63 händelserna. Hur många dagar dröjde det mellan jordbävning nr 1 och jordbävning nr 63? iii. Hur många kraftiga jordbävningar förväntas på 1 år? Hur många förväntas på 5 år? (c) Fördelningsresultat från modellen. Om händelserna uppfyller villkoren för en Poissonprocess kan man uttala sig om en mängd saker. För en Poissonprocess gäller nämligen (d) X=antal händelser i intervallet [s, s+t] är Poissonfördelat med väntevärde λ t, d.v.s. X Po(λ t) Förväntad tid mellan händelserna, d.v.s. återkomststiden T = 1 λ Y =tiden mellan två händelser är exponentialfördelad med väntevärde 1 λ i. Enligt modellen, vilken Poissonfördelning gäller för X=antal kraftiga jordbävningar under ett år? ii. Hur stor är sannolikheten att det kommer minst två kraftiga jordbävningar nästa år? Hur skulle sannolikheten beräknas med papper och penna. I matlab används poisscdf för att beräkna fördelningsfunktionen i en Poissonfördelning. iii. Antag att man under en framtida femårsperiod noterar hela nio kraftiga jordbävningar. Tyder det på att det blivit seismologiskt oroligare eller är det en helt normal siffra? Försök resonera kring frågan genom att beräkna sannolikheten att få minst nio jordbävningar under en femårsperiod. Är tiden mellan jordbävningar exponentialfördelad? Enligt resultatet ovan bör alltså tiden mellan två kraftiga jordbävningar vara exponentialfördelat och därmed är det rimligt att kraftiga jordbävningar kommer slumpmässigt i tiden. Undersök om detta verkar att stämma på data. i. Det finns inget speciellt fördelningspapper för exponentialfördelningen. Orsaken är att exponentialfördelningen är ett specialfall av den mer generella Weibullfördelningen. Ta reda på hur sambandet är mellan Weibull- och exponentialfördelningen. ii. Rita först ut data i ett fördelningspapper för Weibullfördelningen (wblplot). Verkar Weibullfördelning vara en rimlig fördelning för data? iii. Låt sedan Matlab skatta Weibullfördelningens två parametrar, skalparametern α och formparametern β, med hjälp av wblfit. Verkar en exponentialfördelning passa till data? iv. Beräkna sannolikheten att det dröjer mer än ett år mellan två jordbävningar, d.v.s. P (Y > 5 365)? Hur skulle sannolikheten beräknas med papper

64 Fördelningsanpassning 65 och penna. Skissa gärna frekvensfunktionen. I matlab används -cdf för att beräkna fördelningsfunktionen i en standardfördelning Uppgift om hastighet vid vägarbete?

65 66 Skattningar 4.1 Punktskattningar NYCKELBEGREPP: Begrepp Träna Slumpmässiga stickprov FMS035 (M-kurs): Maple TA, inf1-inf4 Skattningars egenskaper MASB11 (Biostat): Digskattning 1-10 Kombination av σ-skattningar Hur hittar vi lämpliga skattningar? LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel Slumpmässiga stickprov 158. I en kursomgång några år tillbaka mättes längden (mm) på 17 kvinnliga M-teknologer som kom till ett övningstillfälle genom att använda ett mätinstrument som var uppsatt i dörren på övningslokalen: (a) Fundera över om det kan finnas något systematiskt fel eller med ett annat ord bias i mätningarna. Systematiskt fel är något som gör att mätningarna i medel visar fel. Kan du tänka ut några anledningar till systematiskt fel i mätningarna för längd? (b) Det vore önskvärt om du med mätningar för längder på KVINNA kunde dra generella slutsatser för en större population utöver de som finns i klassrummet. Tror du att datamaterialet är representativt för exempelvis Sveriges kvinnliga befolknings längd? Sveriges vuxna kvinnliga befolkning? Om ni tycker det, motivera. Om inte, vilken population kan ni tänka att datamaterialet kan beskriva? Bestäm en. (c) Är ert data för KVINNA taget som slumpmässiga stickprov ur den population ni sagt att den ska beskriva? Om inte, tänk ut hur ni skulle valt personer för att få data taget som slumpmässiga stickprov. (d) I materialet ovan finns det några värden som avviker mycket från vad ni skulle förvänta er i den population som datamaterialet beskriver, så kallade outliers.

66 Skattningar 67 För att komma runt detta, skulle det vara bättre att istället för att mäta alla som är i klassrummet, välja ut några själva som man tror passar som urval till populationen? Varför är ett slumpmässigt stickprov ett bra sätt att välja ut sina element som ska representera populationen? 159. DATAMATERIAL: hastigheter. I en kurs Trafikteknik fick hela studentgruppen mäta hastigheten på fordon som färdades på Södra Esplanaden i Lund. Varje student mätte hastigheten hos tre fordon med laserpistol. Några mätningar, med respektive medelvärde, anges nedan, resten hittar du i filen hastighet. Student nr Medelvärde (a) Varje student fick sedan, utifrån sina egna mätningar, uppskatta genomsnittlig hastighet hos ett fordon. Illustrera med ett histogram hur de 100 olika skattningarna varierar. (b) En student, student 3, har en skattning som avviker kraftigt från de övrigas. Har du någon tänkbar förklaring? (c) Man hade enbart tillgång till ett fåtal laserpistoler så mätningarna drog ut på tiden. De första studenterna började mäta 8.30 och de sista samma dag. En student föreslår att man ska bilda medelvärdet av samtliga mätningar och därmed få en pålitlig skattning av genomsnittlig hastighet. Håller du med? Vad är det då man skattar? (d) Några studenter klagade över att de var ovana vid instrumentet. Student A är väl bekant med laserpistoler medan student B använder det för första gången. Vilken eller vilka följder verkar rimliga för de båda studenternas mätningar? i. Student A har en större spridning i sina mätdata än student B. ii. Student B har en större spridning i sina mätdata än student A. iii. Om någon av studenterna har ett systematisk fel är det troligen A. iv. Om någon av studenterna har ett systematisk fel är det troligen B. v. B:s skattning av genomsnittlig hastighet är tillförlitligare än A:s. vi. A:s skattning av genomsnittlig hastighet är tillförlitligare än B:s.

67 68 Skattningar Skattningars egenskaper 160. För att undersöka halten av järn i mossa tar person A 5 mätningar från en lokal och får observationerna x 1,..., x 5. Person B tar 10 mätningar från samma plats och får y 1,... y 10. De vill nu skatta µ, genomsnittlig Fe-halt, och bildar därför medelvärdet av sina respektive mätningar. (a) Väntevärdesriktighet: Man vill att skattningen i genomsnitt ska ge det värde som den ska skatta, d.v.s. µ. Kommer A:s skattning att göra det, m.a.o. är A:s skattning väntevärdesriktig? (b) Effektivitet: Vems skattning, A:s eller B:s, skulle du tro mest på, m.a.o. vilken av de två skattningarna har minst varians och är effektivast? (c) Om A och B ska kombinera sina skattningar till en gemensam skattning av µ, hur bör de göra det? 161. Man gör två oberoende bestämningar x 1 och x 2 av ph-värdet µ. Dessa antas vara ett slumpmässigt stickprov från N (µ, σ). Som skattning av µ tar man medelvärdet x = (x 1 + x 2 )/2. Denna skattning, µ obs = x = (x 1 + x 2 )/2, anses som en observation av stickprovsvariabeln µ = X = (X 1 + X 2 )/2 där både X 1 och X 2 är N (µ, σ). (a) Vad är variansen för µ = X = (X 1 + X 2 )/2? (b) Vad är fördelningen för µ = X = (X 1 + X 2 )/2? (c) Om σ 2 är okänd kan den skattas med s 2. Vad är då medelfelet för skattningen µ, d.v.s. vad är d(µ )? 162. Vid en undersökning av vattenkvaliteten i Italien gjordes mätningar av ett visst bekämpningsmedel, som man visste använts i jordbruket. Följande värden (ppm) erhölls: Mätresultaten kan betraktas som observationer från oberoende s.v. X 1,..., X 5 där E(X i ) = µ och V (X i ) = σ 2. (a) Skatta µ och σ (använd din räknares inbyggda funktioner). (b) Beräkna väntevärde, varians och standardavvikelse för µ, d.v.s. för X = i=1 X i. (c) Ange medelfelet för µ, d.v.s. d(µ ).

68 Skattningar Man vill skatta en okänd parameter θ med hjälp av ett stickprov x 1,..., x n och bildar därför θ obs (θ i Bloms bok) som en funktion av värdena i stickprovet. Ange om följande påståenden är sanna eller falska. (i) Om skattningen θobs i genomsnitt ger värdet θ säger man att skattningen är väntevärdesriktig. (ii) Om E(θ ) = θ är skattningen väntevärdesriktig. (iii) Om V (θ ) = θ är skattningen väntevärdesriktig. (iv) En skattning som inte är väntevärdesriktig blir det om man ökar n tillräckligt mycket Man studerar vikten hos 10-åriga flickor i Lund och antar att vikterna kan beskrivas av en N (µ, σ). För att skatta väntevärdet µ, väljer person A slumpmässigt ut 20 flickor, väger dem och beräknar sedan medelvärdet x. Person B väljer ut 40 flickor och motsvarande medelvärde betecknas ȳ. Båda personerna har då gjort var sin skattning av µ. (a) Vad är standardavvikelsen för A:s skattning, d.v.s. teckna V ( X). (b) Vad är standardavvikelsen för B:s skattning? Vem av de två har den effektivaste estimatorn, d.v.s. den skattning som har minst varians? (c) A säger till B: Om vi ska kombinera våra skattningar till en gemensam, väntevärdesriktig skattning kan vi ta uttrycket c 1 x + c 2 ȳ, men då bör vi ha ett villkor på konstanterna c 1 och c 2, nämligen att c 1 + c 2 = 1. Har A rätt? 165. Tre personer, A, B och C, ska bestämma vikterna µ 1 och µ 2 på två brev, brev1 och brev2. Till sin hjälp har de två vågar, våg1 och våg2. A väger brev1 5 gånger på våg1, B väger brev1 3 gånger på våg2 och C väger brev2 4 gånger på våg1. När de avslutat sina mätningar fick de veta att våg2 hade ett systematiskt fel λ. Tabellen visar mätresultat (g) och förväntat mätresultat för respektive mätserie. Person Våg Förväntad vikt A våg µ 1 B våg µ 1 + λ C våg µ 2 (a) Ge en lämplig skattning av µ 1. (b) Ge en lämplig skattning av det systematiska felet λ.

69 70 Skattningar (c) Gör en lämplig skattning av σ 2, standardavvikelsen hos våg2. Hur många frihetsgrader har denna skattning? (d) Gör en lämplig skattning av σ 1, standardavvikelsen hos våg1. Hur många frihetsgrader har denna skattning? 166. Illustrera med figurer i Matlab eller R hur skattningar av µ varierar. Använd rutinen skattningar för att undersöka hur skattningar av väntevärdet µ i en normalfördelning varierar och hur variationen beror av stickprovsstorleken. Så här fungerar rutinen: Med kommandot skattningar(mu, sigma, n1, n2, ngt ) simuleras 1000 stickprov om n 1 respektive n 2 observationer från N (µ, σ). För samtliga stickprov beräknas sedan µ obs = x och σ obs = s. Om du som sista inparameter i rutinen väljer muskatt får du histogram över µ obs medan om du väljer sigmaskatt ser du hur skattningarna av σ 2 varierar. (a) Utgå från en normalfördelning N (3, 2). Antag att väntevärdet 3 är okänt för oss och att vi vill skatta det genom att ta ett stickprov, x 1,..., x n, om n observationer och bilda x Hur nära kommer skattningarna det sanna värdet om stickprovsstorleken är n 1 respektive n 2? µ Om du t.ex. väljer att ta 5 respektive 25 mätningar från N (3, 2) är kommandot skattningar(3, 2, 5, 25, muskatt ). Vilken av de två skattningarna är bäst - den baserad på 5 observationer eller den på 25 observationer? (b) Använd rutinen igen men välj ett annat (lägre) värde på σ. Hur påverkar variansen, σ 2, fördelningen för µ? (c) Vilken typ av fördelning verkar µ = 1 n n i=1 X i följa? Vad säger teorin att fördelningen ska vara när vi utgår från normalfördelade observationer och skattar µ med medelvärdet av n mätningar? (d) Använd era resultat från föregående deluppgift för att beräkna sannolikheten att skattningen avviker mer än 1 enhet från det sanna värdet µ=3 då ni använder 5 värden i stickprovet respektive 25 värden i stickprovet. I formler söker vi alltså P (2 µ 4) för de två olika stickprovsstorlekarna. Anta att σ är 2 och utnyttja Matlabs normcdf Illustrera med figurer i Matlab eller R hur skattningar av σ 2 varierar. I denna uppgift, som är en fortsättning från uppgift 166, använder du rutinen skattningar för att undersöka hur skattningarna σobs 2 = s2 varierar. Med kommandot skattningar(3, 2, 5, 25, sigmaskatt ) tar du 5 respektive 25 mätningar från N (3, 2), hur nära ligger s 2 det sanna värdet 2 2 = 4?

70 Skattningar 71 (a) Jämför de två histogrammen över σobs 2 som rutiner ger. Vilken av de två skattningarna är bäst - den baserad på 5 observationer eller den på 25 observationer? Observera hur stor avvikelsen kan vara mellan skattningen och det sanna värdet om du har få mätningar. (b) En kommentar till fördelningen för s 2 = σobs 2 (n 1)s2 : Man kan visa att är χ 2 - σ 2 fördelad med n 1 frihetsgrader. Vill du beräkna hur sannolikt det är att s 2 = σobs 2 avviker med en viss storhet från det sanna σ2 är det alltså en χ 2 - fördelning som ska användas. I matlab finns kommandot chi2cdf för fördelningsfunktionen. Om antalet mätningar n är stort är skattningen s 2 = σobs 2 approximativt normalfördelad, vilket du också kan se i rutinen om du väljer t.ex. n 2 till ett stort tal. Skattning av σ 2 baserat på flera stickprov 168. Den relativa fuktigheten (enhet %) mättes upprepade gånger med en elektronisk kapacativ mätare på två olika utborrade träprover, prov A och prov B. Nedan anges n=antal mätningar, medelvärde och standardavvikelse för de två provserierna. Prov medelvärde std n A B Man antar att standardavvikelsen för de båda mätserierna är σ, som då blir ett mått på instrumentets precision. Gör en lämplig skattning av σ, baserad på båda provserierna Kemiska analyser på mineralet hornblende kan användas bl a för åldersbestämning. Från ett stenbrott i nord-tröndelag i mellersta Norge tog man från 4 olika lokaler prover av hornblende och analyserade bl a den relativa vikten av Al 2 O 3. Hornblendematerialet är ca 600 miljoner år gammalt och data är hämtade från Leif Johansson på avd. för mineralogi och petrologi i Lund. Data finns i filen hornblende.mat. lokal modell N (µ 1, σ) N (µ 2, σ) N (µ 3, σ) N (µ 4, σ)

71 72 Skattningar Modell: För y ij som är observation nr j från lokal i; i = 1,..., 4 och j = 1,..., n i, gäller y ij = µ i + ɛ ij, där ɛ ij är oberoende slumpvariabler och normalfördelade N (0, σ). En kortare variant av modellen finns i tabellen. (a) Man vill skatta σ 2 i modellen. Varför blir det fel att betrakta hela materialet som ett stickprov bestående av 20 värden och beräkna s 2 på vanligt sätt? (b) Skatta σ 2 på ett lämpligt sätt. (c) Om hornblendematerialet vid någon lokal visar sig mindre homogent kan det få till följd att Al 2 O 3 -värdena vid denna lokal uppvisar större spridning än vid andra lokaler. Vad är då fel i ovanstående modell och hur bör den ändras? Hur hittar vi lämpliga skattningar? 170. Du kastar en tärning 100 gånger och noterar antalet femmor, antag att det blev 19 femmor. Då gäller att X=antal femmor på 100 kast Bin(100, p) där p=p(femma i ett kast). Vi säger att x=19 är en observation av slumpvariabeln X. (a) Ange en skattning av p. (b) Vad är variansen av denna skattning, d.v.s. V (p )? (c) Vad är skattningens medelfel? (d) Härled ML-skattningen för p och jämför med resultatet i (a) I ett stort parti enheter är felkvoten p. För att skatta p tas slumpmässigt en enhet i taget tills man för första gången stöter på en felaktig. Antalet utplockade enheter, inklusive den felaktiga, noteras. Denna procedur görs sex gånger och man erhåller följande antal enheter: 4, 5, 4, 6, 4, 1. Man funderar på hur man utifrån dessa data lämpligast ska skatta felkvoten p. I mer matematisk form kan situationen beskrivas så här: Den diskreta s.v. X är ffg-fördelad, d.v.s. har sannolikhetsfunktionen p X (k) = p(1 p) k 1 för k = 1, 2, 3,..., där 0 < p < 1. Man har observationer 4, 5, 4, 6, 4, 1 från denna fördelning. Använd ML-metoden för att hitta en skattning av p De tre observationerna 1.7, 1.1, 2.0 anses vara hämtade från en exponentialfördelning med täthetsfunktion f(x) = λ e λx ; x 0. Ange ML-skattningen för parametern λ.

72 Skattningar Antag att maximala våghöjden (H) på ett visst ställe ett visst år kan anses vara Rayleighfördelad, dvs täthetsfunktionen ges av f H (x) = { x a e x2 /(2a) för x 0, 0 för x < 0. där a är en okänd positiv parameter. Man har under 8 år observerat följande maximala våghöjder (i meter): (a) Beräkna ML-skattningen av a under förutsättning att de åtta observationerna kan anses vara oberoende observationer av H. (b) Beräkna med hjälp av skattningen av a, en skattning av 1000-årsvågen, med vilket menas en våg som är så hög att den i genomsnitt bara inträffar en gång per 1000 år Vid tillverkning av förpackningsmaskiner används en viss typ av elektroniska komponenter. Livslängden (timmar) hos dessa får inte vara för kort eftersom de då blir oanvändbara. Man vill göra en uppskattning av den livslängd som överstigs av 90% av komponenterna. Från produktionen valdes slumpmässigt ut 53 komponenter på vilka man mätte livslängden. Lite data från materialet: x = 60.99; 53 i=1 x2 i = ; i=1 (x i x) 2 = ; minsta värde är 4.43 och största värde är Man tittar på de 53 observationerna i ett histogram samt i tre olika fördelningspapper, se figur. De tre fördelningarna är: Fördelning frekvensfunktion för X E(X) E(X 2 ) V (X) Normal- f(x) = 1 (x µ)2 e 2σ 2 2πσ 2 µ σ 2 µ σ 2 fördelning Lognormal- f(x) = 1 x 2πσ fördelning (ln(x) µ) 2 e 2 2σ 2, x > 0 e µ+ σ2 2 e 2µ+2σ2 e 2µ+2σ2 e 2µ+σ2 Rayleighfördelning f(x) = x x2 e 2a, x > 0 (a > 0) a a π 2 2a 4 π 2 a

73 74 Skattningar (a) Vilken av de tre fördelningarna passar bäst att ansätta som modell för hur livslängden varierar? (b) Din valda fördelning i (a) har en okänd parameter (ev. flera okända parametrar beroende vilken fördelning du valt). Bestäm ML-skattningen av parametern (parametrarna). (c) Använd resultatet i (b) för att uppskatta den livslängd som överstigs av 90% av komponenterna. (d) Undersök om ML-skattningen i (b) är väntevärdesriktig.

74 Konfidensintervall Konfidensintervall NYCKELBEGREPP: Begrepp Konfidensintervall för µ Träna FMS035 (M-kurs): Maple TA, inf5-inf12 MASB11 (Biostat): Digkonfint 1-9 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel 6.5 Konfidensintervall för µ i N (µ, σ) 175. På ett ämne gjordes 5 bestämningar av smältpunkten ( C) där mätningarna anses vara normalfördelade N (µ, 2.5) (a) Beräkna ett 95% konfidensintervall för µ. (b) Är det troligt att ämnet är ren aluminum som har smältpunkt 660 C? 176. För att bestämma kvicksilverhalten hos gäddor i en viss sjö lades ett antal nät ut. Genom tidigare studier i liknande sjöar anser man sig veta att kvicksilverhalten är N (µ, σ) med σ=0.2 mg/kg. (a) Man fångade 10 gäddor och medelvärdet av kvicksilverhalten var 1.2 mg/kg. Beräkna ett 95 % konfidensintervall för µ. (b) Vilket är det minsta antalet gäddor man måste få om man vill göra ett 95% konfidensintervall för µ som är högst 0.05 mg/kg brett? 177. Illustrera med figurer i Matlab eller R. Rutinen Konfgui illustrerar hur ett konfidensintervall för µ i en normalfördelning bildas. Skriv Konfgui. Välj µ och σ i normalfördelningen, välj också antal mätningar n samt konfidensgraden 1 α på intervallet. Antag nu att µ är okänt för dig och att du vill göra ett konfidensintervall för denna okända parameter.

75 76 Konfidensintervall Den översta figuren visar dina observationer, markerade som kryss, hämtade från din angivna normalfördelning. Medelvärdet, x, av mätningarna är illustrerat med en ring. Den undre figuren visar fördelningen för µ, d.v.s. medelvärdet, och ringen visar var just ditt x hamnade. I fördelningen är också kvantiler markerade och sannolikheten att medelvärdet hamnar mellan dessa är din valda konfidensgrad. Du kan behöva kryssa i knappen scale för att få en lämplig figur. Under figuren är konfidensintervallet markerat. Observera att det utgår från medelvärdet som placeras i mitten av intervallet. Bredden på intervallet är den samma som avståndet mellan kvantilerna. Härledningen av intervallet utnyttjar att µ = X ( ) σ är normalfördelad N µ, n och därmed 1 α = P ( λ α/2 < X µ σ < λ α/2 ) = P ( X λ α/2 n σ < µ < X + λ α/2 n σ ). n σ Konfidensintervallet för µ, med konfidensgrad 1 α är då I µ = ( x λ α/2 n, x + σ λ α/2 n ). (a) Utgå från rutinen Konfgui. Var ska medelvärdet hamna för att intervallet ska missa µ? (b) Om du t.ex. valt en konfidensgrad på 0.95, hur stor andel av intervallen kommer att missa i det långa loppet? Testa genom att trycka på knappen plot ett antal gånger för att se hur intervallen varierar. (c) Vad händer med fördelningen för µ-skattningen och vad händer med intervallen då du ökar n antalet mätningar? (d) Vad händer med fördelningen för µ-skattningen och vad händer med intervallen då du ändrar på σ? 178. Illustrera med figurer i Matlab eller R hur intervallen varierar. Vi använder rutinen skattningar igen för att simulera konfidensintervall för µ i en N (µ, σ). Genom att skriva skattningar(mu,sigma,n1,n2, konfint ) simuleras 1000 stickprov om n 1 respektive n 2 observationer och konfidensintervall beräknas. Rutinen ger två figurer där 100 st 95% konfidensintervall för µ är markerade. (a) Använd rutinen skattningar, välj själv värden på µ, σ, n 1 och n 2 (t.ex. n 1 = 5 och n 2 = 25). Betrakta de 100 st 95% konfidensintervallen för µ som är baserade på n 1 = 5 observationer. Hur många intervall missar det sanna värdet på µ? Verkar resultatet rimligt? (b) Studera den andra figuren och fundera på vad som händer om man istället tar n 2 = 25 observationer när man gör intervall för µ. Hur skiljer sig dessa intervall

76 Konfidensintervall 77 från de som baserades på n 1 = 5 observationer? Är det fler eller färre intervall som missar µ? Vad säger teorin att det bör vara? 179. I uppgift 162 angavs 5 bestämningar av halten (ppm) av ett visst bekämpningsmedel i en å och från data beräknades x = 0.16 och s = Gör ett tvåsidigt 95% konfidensintervall för µ, den genomsnittliga halten av det undersökta bekämpningsmedlet i ån Fortsättning från uppgifterna 162 och 179. Gör man ett tvåsidigt 95% konfidensintervall för µ, den förväntade halten av det undersökta bekämpningsmedlet i ån blir det I µ =(0.14, 0.18). Vilka av följande påståenden är sanna och vilka är falska? (a) Gör jag en ny mätning av halten bekämpningsmedel i vattendraget kommer denna halt att ligga i intervallet med sannolikheten (b) Om jag vill halvera bredden på intervallet måste jag ta ungefär dubbelt så många mätningar. (c) Om jag vill göra ett 99% konfidensintervall för µ, baserat på samma mätningar, blir det bredare än det angivna intervallet. (d) Om jag gjorde många mätningar av halten skulle ca 95% av mätningarna ligga i intervallet Helt oberoende av varandra, gör 20 personer mätningar på en stokastisk variabel som är N (µ, σ). Sedan använder var och en av de 20 personerna sina egna mätningar för att göra ett 95% konfidensintervall för µ. (a) Vad är sannolikheten att samtliga 20 intervall kommer att täcka över, µ? (b) Vilket är det troligaste värdet på det antal intervall som kommer att missa µ? 182. Illustrera med Matlab eller R hur känt respektive okänt σ påverkar intervallet för µ. När σ är okänt används en skattning av standardavvikelsen i konfidensintervallet för µ. Samtidigt byts λ-kvantilen ut mot en t-kvantil. Hur stor är skillnaden mellan kvantilerna och hur påverkas intervallet? Rutinen kvantilintervall(sigma,1-alpha) visar avvikelsen mellan t α/2 (n 1) och λ α/2 för olika värden på n. Du får också en uppfattning om hur bredden på konfidensintervallen för µ påverkas av om vi antar att σ är känt respektive okänt. Välj värde på σ och konfidensgraden 1 α, utskriften blir följande tabell:

77 78 Konfidensintervall n σ s λ α/2 t α/2 (n 1) σ λ α/2 n Observera följande: t α/2 (n 1) s n (a) När du jämför t α/2 (n 1) med λ α/2 gäller att t α/2 (n 1) > λ α/2 för alla n. Avvikelsen minskar då n växer, d.v.s. för stora n är t α/2 (n 1) λ α/2. (b) Då n är litet kan skattningen av s = σ skilja sig mycket från det verkliga värdet på σ medan avvikelsen mellan skattning och verkligt värde tenderar att vara liten då n är stort. (c) De två sista kolumnerna i tabellen anger intervallets bredd då vi antar σ är känd, respektive då σ är okänd. Notera hur stor skillnaden kan vara för låga värden på n, en följd av att s en osäker skattning av σ samtidigt som t α/2 (n 1) är större än λ α/2. Med ökande värde på n blir däremot intervallens bredd ungefär de samma oavsett om vi antar att σ är känt eller inte Illustrera ensidiga intervall för µ med figurer i Matlab eller R. För att illustrera ensidiga intervall kan du använda rutinen konfgui. Välj ett uppåt begränsat intervall. Observera hur det motsvaras av att studera kvantiler i den nedre svansen av fördelningen för µ = X. Härledningen ( av) ett uppåt begränsat intervall utnyttjar att µ = X är normalfördelad N µ, n och därmed 1 α = P ( λ α < X µ σ σ ) = P (µ < X + λ α/2 n σ ). n σ Konfidensintervallet för µ, med konfidensgrad 1 α är då I µ = (, x + λ α/2 n ). Härled på motsvarande sätt ett nedåt begräsat intervall för µ Asbest är förbjudet sedan länge, men finns framförallt kvar i äldre byggnader och är en risk för de som arbetar i byggbranschen. På en rivningsarbetsplats gjordes 5 mätningar av mängden fibrer (fibrer/cm 3 ) som är tunnare än tre mikrometer i diameter. Från mätningarna fick man: x = 0.09 och s = Antag att för mätningarna på fiberhalten gäller en normalfördelning med väntevärde µ och standardavvikelse σ. (a) Beräkna ett tvåsidigt 95 % konfidensintervall för µ. (b) För arbetarna är ett ensidigt intervall av större intresse. Vilken typ av intervall är det? Beräkna det intressanta ensidiga intervallet.

78 Konfidensintervall 79 (c) Om gränsvärdet för asbest är 0.1 fibrer/cm 3, vilken slutsats drar du från ditt ensidiga intervall? Välj rätt(a) alternativ: i. Genomsnittlig asbetshalt är troligen för hög på arbetsplatsen. ii. Med dessa data har vi inte kunnat påvisa att genomsnittlig asbetshalt understiger gränsvärdet. iii. Genomsnittlig asbetshalt är troligen under gränsvärdet på arbetsplatsen. iv. Gränsvärdet är understiget eftersom x = 0.09 < 0.1.

79 80 Hypotestest 4.3 Hypotestest NYCKELBEGREPP: Begrepp Film Träna Grundläggande begrepp Hypotes1 FMS035 (M-kurs): Maple TA, inf13-inf22 Styrkefunktion Hypotes2 MASB11 (Biostat): Digtest 1-17 Direktmetoden Hypotes3 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel Olsson, Englund och Engstrand Kapitel Grundläggande begrepp 185. En av de första uppgifterna en grupp laborationsovana studenter i en kurs fick var att mäta mängden koppar i impregnerat trä med hjälp av atomabsorbtionsspektrofotometri. Injicerat var en kopparstandard med koncentration 100 ng/l. När laborationsgrupp 3 ska göra sina mätningar hanterar de instrumentet på ett sådant sätt att man misstänker att de introducerar ett systematiskt fel och får för låga värden. I en serie på 9 mätningar fick de följande resultat (ng/l) Som modell ansätter man att mätningarna är normalfördelade, dvs x 1,..., x 9 är observationer av X N (µ, σ). Här tolkas µ som väntevärdet av gruppens mätningar medan σ är ett mått på gruppens mätprecision. Antag (något orealistiskt) att vi anser oss känna att σ = 6 (ng/l). (a) Du ska undersöka om laborationsgruppen har ett systematiskt fel i sina mätningar, dvs att µ inte är 100 utan ett lägre värde. Om du ska göra detta med ett hypotestest, hur ser då nollhypotes (H 0 ) och mothypotes (H 1 ) ut? (b) Det verkar rimligt att jämföra medelvärdet av gruppens mätningar, x, med nollhypotesens värde 100. Vilket är testets kritiska område, d.v.s. vid vilket av följande alternativ bör man förkasta H 0? 1. När x ligger en bra bit under 100, t.ex. då x k, där k är mindre än När x ligger en bra bit över 100, t.ex. då x k, där k är större än 100. (c) Illustrera testet med figur i Matlab eller R. Använd rutinen hypotes för att illustrera det kritiska området i figur. I rutinen ska förutom värdet på σ,

80 Hypotestest 81 antal mätningar, µ 0 och riktningen på H 1 även anges testets signifikansnivå α. Kommandot är hypotes(sigma,n,mu0,alpha, H1-riktning ). Om α = 0.05 blir kommandot i detta exempel hypotes(6,9,100,0.05, < ). Vad är det kritiska området? Vad är tolkningen av α i figuren. (d) Beräkna värdet på k eller, om du har det angivet i figur, fundera ut hur det beräknats. Beräkna x utifrån data och utför testet på signifikansnivå α = Vad är slutsatsen, kan H 0 förkastas på denna nivå? Tyder data på att gruppen har ett systematiskt fel i sina mätningar så att de avläser ett för lågt värde? (e) Utför testet på signifikansnivå α = Vad är slutsatserna du drar från detta test? 186. Illustrera testets styrka med figurer i Matlab eller R. Fortsättning från uppgift 185. Om gruppen har ett systematiskt fel på 5, d.v.s. de mäter alltid 5 enheter för lågt, innebär det att sanna värdet på µ är 95. Vad är då sannolikheten att vi med vårt test kommer upptäcka att H 0 : µ = 100 är falsk, d.v.s. att vi förkastar H 0? Denna sannolikhet är testets styrka i punkten 95. (a) Utvidga inparametrarna i rutinen hypotes med en sjätte parameter: hypotes(6,9,100,0.05, <, sant värde på mu) och se hur styrkan kan illustreras i figur. För µ = 95 är alltså kommandot hypotes(6,9,100,0.05, <,95). Uttryck i ord vad beta, sannolikheten för fel av typ 2, står för i detta exempel. Vad är testets styrka i punkten µ = 95? (b) Hur stor är testets styrka om gruppen har ett systematiskt fel på 1 enhet? Hur stor är sannolikheten att upptäcka att gruppen har ett systematiskt fel om de i genomsnitt mäter 3 enheter för lågt? (c) Genom att studera styrkan som en funktion av µ har man testets styrkefunktion, denna funktion ritas upp med hjälp av rutinen styrkefkn(sigma,n,mu0,alpha,h1-riktning). Skapa ett nytt fönster (figure), använd kommandot styrkefkn(6,9,100,0.05, <,95) och jämför resultaten som de båda rutinerna ger. (d) Hur påverkas testets styrka av antalet mätningar? Antag att gruppen har ett systematiskt fel på 3. Hur stor är sannolikheten att vi ska upptäcka att H 0 är falsk om testet baserar sig på t.ex. 15 mätningar i stället för 9? Använd styrkefkn för att undersöka hur värdet på n påverkar styrkan för ett fixt µ. Observera att testeta styrka inte baserar sig på våra mätresultat! Övervägningar av det här slaget kan man alltså göra innan man samlar in data. (e) Undersök på motsvarande sätt hur värdet på σ påverkar testets egenskaper. Notera speciellt, t.ex. genom rutinen hypotes, att ju mindre värdet på σ är,

81 82 Hypotestest desto lättare är det att separera fördelningen centrerad kring µ 0 från den som är centrerad kring µ. (f) Undersök hur styrkan påverkas när du ändrar signifikansnivån α men håller de andra parametrarna fixa. Använd t.ex. rutinen styrkefkn och illustrera i två separata fönster situationen då gruppen har ett sant värde på µ = 95, n = 9, σ = 6 men vi använder α = 0.05 (styrkefkn(6,9,100,0.05, <,95)) respektive α = 0.01 (styrkefkn(6,9,100,0.01, <,95)) Enligt antidopningsbyrån Wada är en koncentration som överstiger 150 mikrogram per milliliter av pseudoefedrin i urinen att betrakta som dopning. På en manlig ishockeyspelare gjordes tre mätningar: 160, 155, 150 (mikrogram per milliliter). Antag att en normalfördelning med väntevärde µ och standardavvikelse σ där σ = 5 är en rimlig modell. (a) Ställ upp lämpliga hypoteser och undersök om data tyder på att ishockeyspelaren är dopad enligt Wadas regler. Gör testet på signifikansnivå 5 %. (b) Illustrera med figur i Matlab eller R. Rita upp den styrkefunktion som hör ihop med testet i (a) genom att använda rutinen styrkefkn. Kommandot är styrkefkn(5,3,150,0.05, > ). Antag att ishockeyspelaren är dopad så att hans verkliga µ är 155 mikrogram per milliliter. Avläs från figuren, hur stor sannolikheten är att han inte åker fast i dopningskontrollen? (c) Beräkna, eller avläs i rutinen styrkefkn, sannolikheten att han inte åker fast i dopningskontrollen då hans verkliga µ är 160 mikrogram per milliliter Läkemedel kan ge en nedsatt salivkörtelproduktion, vilket är en riskfaktor för karies och andra sjukdomar i munhålan. På 7 slumpmässigt valda patienter som alla fick samma medicin mätte man under 5 minuter den så kallade tuggstimulerade saliven Normal mängd saliv under dessa förhållanden är 1 ml/min och muntorrhet anses föreligga när mängden saliv understiger 0.7 ml/min. Som modell antog man att salivmängden är normalfördelad med väntevärde mu och standardavvikelse sigma, där sigma anses vara 0.4 ml/min. (a) Stöder data vår misstanke att medicinen sänker salivproduktionen? (b) Om medicinen ger upphov till en genomsnittlig salivproduktion på 0.8 ml/min, hur troligt är det att vi kommer att missa den nedsatta salivproduktionen med vårt test? Gör en exakt beräkning eller använd någon av rutinerna hypotes eller styrkefkn.

82 Hypotestest 83 (c) Hur många patienter ska vi mäta på om vi vill att testet ska upptäcka en nedsatt salivproduktion på 0.7 ml/min med sannolikheten 0.95? Gör en exakt beräkning eller använd någon av rutinerna hypotes eller styrkefkn Antag att du har n observationer från N (µ, σ) och vill testa att µ=6. För att göra det konkret, anta att du vid en längdmätning vill pröva om längden av en sträcka kan vara 6 genom att göra n mätningar. Antag vidare, att man gjort upprepade bestämningar tidigare med samma instrument och därför anser att man känner dess variation på denna typ av längdmätningar och att σ 2 är 0.6. Du har alltså ett stickprov x 1,..., x n från N ( µ, 0.6 ) och vill testa H 0 : µ = 6 mot H 1 : µ 6 på signifikansnivå α. Hur bra är detta test? Intressanta frågor kan t.ex. vara: Om den verkliga längden inte är 6 utan 5.5 kommer vi då att upptäcka att H 0 är falsk med detta test? Hur många bestämningar måste jag göra för att med sannolikheten 0.90 upptäcka att H 0 är falsk då µ i själva verket är 7? Denna typ av frågor kan besvaras med hjälp av testets styrkefunktion som definieras som S(µ) =P(H 0 förkastas det sanna ph-värdet är µ). (a) Illustrera med figurer i Matlab eller R. Använd styrkefkn för att se hur styrkefunktionen ser ut då testets signifikansnivå α är 0.05, σ 2 =0.6 och stickprovsstorleken n är 5. Kommandot är styrkefkn(0.6,5,6,0.05,!= ). i. Hur stor är sannolikheten att förkasta H 0 att µ = 6 när µ i själva verket är 5.5? ii. Hur många mätningar måste du göra för att med sannolikheten 0.90 upptäcka att H 0 är falsk då µ i själva verket är 7. Antag att α = (b) Hur skulle en ideal styrkefunktion se ut i det här exemplet? Skissa den på papper! Ni vill naturligtvis att sannolikheten att förkasta H 0 ska vara liten om µ verkligen är 6, men att sannolikheten ska vara stor så fort µ avviker från 6 (dvs om H 0 inte är sann). (c) Styrkefunktionen beror på felrisken α, variansen σ 2 och stickprovsstorleken n. För att förbättra styrkefunktionen, d.v.s. få den att bli mer lik den ideala har du olika strategier till ditt förfogande. Avgör vilka av följande åtgärder som ökar styrkan i en fix punkt µ: (i) öka α (ii) minska α (iii) öka σ 2 (iv) minska σ 2 (v) öka n (vi) minska n

83 84 Hypotestest Vilken strategi tror du är enklast att genomföra i praktiken då man t.ex. gör längdmätningar? 190. För att undersöka om en ny stållegering ökar sträckgränsen gör man 9 mätningar och testar nollhypotesen µ 190 (N/mm) mot mothypotesen µ > 190 på signifikansnivån Man önskar studera testets styrka. Ange om följande påståenden är sanna eller falska. (i) Om den okända sträckgränsen µ är 200 vill man att testets styrka ska vara stor. (ii) Testets styrka då den okända sträckgränsen µ är 190 är (iii) Om den okända sträckgränsen µ är 180 vill man att testets styrka ska vara stor. (iv) Testets styrka bör minska med ökande värde på µ. Samband med konfidensintervall 191. I en laboration i kursen Cellbiologi kalibrerades en Gilsonpipett med pipettinställningen 200 (µl). Vid fem mätningar användes en analysvåg för att registrera vikten av vattnet som kom från pipetten. Eftersom vattnets densitet vid 20 C är (g/ml) kunde man med en enkel division, för varje försök, bestämma volymen vatten från pipetten. Resultat: Pipettinställning (µl) Volymmätning (µl) (a) Ange medelvärde och standardavvikelse för de fem mätningarna. (b) Antag att mätningarna varierar enligt en normalfördelning som är centrerad kring µ, där µ tolkas som den förväntade volymen hos pipetten när den är inställd på 200 (µl). Bestäm ett 95 % konfidensintervall för µ. (c) Man vill avgöra om pipetten verkar vara felinställd. Sätt upp lämpliga hypoteser H 0 och H 1. (d) Använd resultatet i (b) för att utföra testet på signifikansnivå 5 % Våra 10 mätningar antas vara normalfördelade N (µ, 0.4). Vi vill testa H 0 : µ = 3; H 1 : µ > 3 på nivå 5 % och vill göra det med hjälp av ett konfidensintervall.

84 Hypotestest 85 (a) Illustrera med figurer i Matlab eller R. Använd rutinen Konfgui för att illustrera sambandet mellan hypotestest och konfidensintervall. Vilket typ av intervall ska användas vid testet, uppåt eller nedåt begränsat intervall? Vad gäller för intervallet då H 0 förkastas? (b) Sambandet mellan hypotestest och konfidensintervall i detta fall kan härledas: σ H 0 förkastas på nivå α om x > µ 0 + λ α n σ, d.v.s. om µ 0 < x λ α n. Men σ eftersom x λ α n är gränsen i ett nedre begränsat intervall för µ med konfidensgrad 1 α innebär det att H 0 ska förkastas om µ 0 ligger utanför (under) intervallet. Härled själv motsvarande koppling mellan hypotestest och konfidensintervall för hypoteserna H 0 : µ = µ 0 ; H 1 : µ < µ 0 samt för hypoteserna H 0 : µ = µ 0 ; H 1 : µ µ I uppgift 185 gjorde en laborationsgrupp 9 mätningar av Cu-halten i en träbit där en kopparstandard med koncentration 100 ng/l var injicerad. Mätningarna anses vara normalfördelade N (µ, 6) och medelvärdet av deras mätningar var ng/l. (a) Gör ett 95 % konfidensintervall för µ, gruppens förväntade värde, och undersök om H 0 : µ = 100 (inget systematisk fel i mätningarna) kan förkastas på nivå 5 % till förmån för mothyptesen H 1 : µ < 100 (gruppen mäter systematisk för låga värden). (b) Utför testet även på nivå 1 % genom att beräkna ett konfidensintervall. Direktmetoden 194. I denna fortsättning från uppgifterna 185 och 193 ska du utföra testet med direktmetoden. Medelvärdet av gruppens mätningar blev x = Ovan såg du att H 0 : µ = 100 kunde förkastas på nivå 0.05 men inte på nivå I direktmetoden fixeras inte en signifikansnivå α utan det beräknas direkt utifrån mätningarnas medelvärde: P-värde=P( att få det värde man observerade eller något mer extremt H 0 gäller)=p( X X ( 6 N 100, 9 )). (a) Beräkna testets P-värde genom att utgå från uttrycket ovan. (b) Illustrera med figurer i Matlab eller R. Rutinen Pvarde(sigma,n,mu0,alfa,H1-riktning,medel) illustrerar skillnaden och likheterna mellan att utföra testet med direktmetoden eller att testa utifrån ett fixt α-värde. Skriv kommandot Pvarde(6,9,100,0.05, <, ) där

85 86 Hypotestest sista inparametern anger medelvärdet på gruppens mätningar. I den övre figuren är medelvärdet utritat och testet utfört på nivå alfa. I den undre figuren beräknas P-värdet (benämns ibland α 0 ) och slutsatser dras direkt från detta värde. Testa vad som händer då α i rutinen byts ut mot Fortsättning från uppgift 188 där salivmängden hos 7 patienter som tar ett visst läkemedel anses vara N (µ, 0.4). Man vill testa H 0 : µ = 1 (normal salivmängd) mot H 1 : µ < 1 (minskad salivmängd). Medelvärdet av de 7 salivmätningarna var ml/min. Beräkna testets P-värde. Finns det anledning att misstänka att läkemedlet sänker salivproduktionen? 196. Fortsättning från uppgift 195. I testet blev P-värdet Vilken eller vilka påstånden är en korrekt slutsats från testet? (a) Sannolikheten att läkemedlet leder till minskad salivmängd är 0.03 (b) Sannolikheten att läkemedlet inte leder till minskad salivmängd är 0.03 (c) Det är 3 % av patienterna som får sänkt salivproduktion (d) Talet 0.03 motsvarar sannolikheten att medelvärdet från 7 patienter är eller lägre för ett läkemedel som inte ger upphov till muntorrhet (e) Det är 3 % risk att vi påstår felaktigt att läkemedlet sänker salivproduktionen när det i själva verket inte gör det (f) Det är 3 % risk att vi påstår felaktigt att läkemedlet inte sänker salivproduktionen när det i själva verket gör det

86 Vanliga statistiska modeller Inferens i några vanliga statistiska modeller NYCKELBEGREPP: Begrepp Inferens för väntevärdet i ett normalfördelat stickprov Jämförelse av två väntevärden Inferens för diskreta data Inferens för kategoridata Träna FMS035 (M-kurs): Maple TA, inf23-inf25 MASB11 (Biostat): Digmodell LÄS I KURSLITTERATUREN: Litteratur Avsnitt Blom et al. Kapitel , , Olsson, Englund och Engstrand Kapitel Inferens för väntevärdet i ett normalfördelat stickprov 197. Vid 10 mätningar av fukthalt av ett visst trämaterial fick man ett medelvärde x = 0.54 och en standardavvikelse s = Mätningarna kan anses vara observationer från en normalfördelad stokastisk variabel med fukthalt µ och med okänd varians. (a) Bestäm ett 95% konfidensintervall för fukthalten. (b) Vid ett annat tillfälle mättes fukthalten vid 20 mätningar och ett 95% konfidensintervall för den okända fukthalten µ blev I µ = (0.60, 0.69). Ange om följande påståenden är sanna eller falska. (i) 95% av de 20 observationerna (d.v.s. 19 st) ligger mellan 0.60 och (ii) Från intervallet kan vi dra slutsatsen att H 0 : µ = 0.65 kan förkastas på signifikansnivå (iii) Från intervallet kan vi dra slutsatsen att x = 0.63 med sannolikheten (iv) Ju större variation vi har i de 20 mätningarna desto smalare blir intervallet Hur mycket energi producerar landbaserade vindkraftverk? Under 31 månader gjordes mätningar av producerad energi (kwh) från ett vindkraftverk som var placerat i närheten av ett skogsområde. Betrakta de 31 mätningarna x 1,..., x 31 som oberoende. Några enkla statistiska mått beräknades för de 31 mätningarna: x =

87 88 Vanliga statistiska modeller 1 kwh, s = i=1 (x i x) 2 = kwh. Man vill med 99 % säkerhet kunna säga att förväntad energiproduktion från detta vindkraft en månad överstiger kwh. Kan man det? Besvara frågan genom att göra ett lämpligt konfidensintervall för µ, väntevärdet för en månads energiproduktion DATAMATERIAL: kamin. Skorstenslösa kaminer som eldas med bioetanol är ett alternativ för den som inte har möjlighet att installera öppen spis. Rent teoretiskt bildas vid förbränningen enbart koldioxid och vatten men, beroende på bränslets sammansättning och vilken förbränningstemperatur som uppnås, kan även en rad giftiga ämnen bildas och spridas i rummet. Vid en undersökning av 15 kaminer av en viss typ mätte man mängden kväveoxid (mg/m 3 ) i rummet där kaminen stod. Resultatet finns i filen kamin. (a) Gränsvärdet för kväveoxid inomhus är 0.35 mg/m 3. Undersök om data tyder på att den förväntade kväveoxidhalten hos denna typ av kamin överstiger gränsvärdet. (b) Antag att förväntad kväveoxidhalt för denna typ av kamin är 0.4 mg/m 3. Hur många kaminer ska vi mäta på för att med sannolikheten 0.99 upptäcka att gränsvärdet är överskridet när vi gör ett test på signifikansnivå 0.05? Antag att normalfördelning är en lämplig modell och att skattad standardavvikelse i materialet är en bra skattning av det sanna värdet på σ i fördelningen DATAMATERIAL: abborre. Mätningar av kvicksilverhalten i abborre görs regelbundet inom Naturvårdsverkets miljö- och övervakningsprogram. I filen abborre finns Hg-halten (mg/kg) i muskel hos 44 abborrar fångade i Brunnsjön i Emmaboda kommun. Om µ betecknar väntevärdet för Hg-halten hos en slumpmässigt vald abborre så vill man med stor säkerhet kunna säga att µ understiger 0.5 mg/kg. Kan man det? 201. Man har gjort ett 95 % konfidensintervall, baserat på 9 mätningar, för µ i en normalfördelning med okänt σ. Detta intervall blev (4.5, 6.2). Nu vill man använda samma data för att göra ett intervall för µ som har konfidensgrad 99 %. Hur kommer det nya intervallet att se ut? 202. Man vill undersöka halten av bly på en viss arbetsplats. Vid mätning av halten uppkommer ett analysfel varför ett mätresultat kan anses vara ett utfall av en slumpvariabel som är N (m, σ) där m är den verkliga halten (i ppm) och standardavvikelsen

88 Vanliga statistiska modeller 89 σ är ett mått på analysmetodens precision. Vid en undersökning görs fem oberoende mätningar och man får följande resultat (a) Gör ett tvåsidigt 95 % konfidensintervall för m. (b) Ur de anställdas synpunkt är det mer intressant att studera ett ensidigt konfidensintervall. Vilken typ av intervall är det? Beräkna intervallet En förpackningsmaskin fyller på kaffe i förpackningar. Mängden kaffe i en förpackning varierar enligt en normalfördelning N(µ, σ) där man anser sig veta att standardavvikelsen σ är 20 g. I förpackningarna ska den genomsnittliga kaffemängden vara minst 500 g och nu vill man kontrollera att maskinen inte är felinställd så att den i genomsnitt förpackar för liten mängd kaffe. Nio förpackningar valdes ut slumpmässigt och kaffeinnehållet vägdes (enhet g): (a) Tyder data på att maskinen är felinställd och förpackar i genomsnitt för lite kaffe? Ange lämpliga hypoteser och utför ett test på signifikansnivån 1%. (b) Antag att maskinen är felinställd så att den förpackar i genomsnitt enbart 490 g kaffe. Beräkna sannolikheten att vi inte kommer att upptäcka felinställningen? 204. I en rapport står följande: Vi mätte upprepade gånger avståndet med vårt egenhändigt konstruerade instrument. Vi anser oss veta att mätfelen är normalfördelade med standardavvikelse σ = Ett 99% konfidensintervall för avståndet blev (1.042, 1.178). Hur många mätningar hade man gjort? 205. Vi vill undersöka om fluorhalten i vattenprov från en gårdbrunn understiger gränsvärdet 0.2 (ppm). Om flourhalten är för låg bör man nämligen, av tandhälsoskäl, tillsätta fluor till vattnet. Låt µ (ppm) vara den verkliga fluorhalten i vattnet. Ange om följande påståenden är sanna eller falska. (a) Nollhypotesen H 0 : µ = 0.2 respektive mothypotesen H 1 : µ < 0.2 är lämpliga. (b) Om ett ensidigt 95 % konfidensintervall för µ beräknats till I µ = (0, 0.22) så kan vi säga att fluorhalten är signifikant för låg. (c) Om nollhypotesen H 0 : µ = 0.2 inte kan förkastas så betyder det att vi kan vara ganska säkra på att fluorhalten verkligen är 0.2 (ppm).

89 90 Vanliga statistiska modeller (d) Eftersom vi fått att x = 0.19 kan vi dra slutsatsen att fluorhalten är signifikant lägre än DATAMATERIAL: aluminium. Driftsledningen vid ett vattenverk misstänker att aluminiumhalten i det dricksvatten som de producerar kan vara för hög på grund av driftsstörningar. Halten ska normalt vara mycket låg, ungefär 30 ppb. Ungefär en gång i veckan under några månader togs ett vattenprov och Al-halten bestämdes, data finns i filen aluminium.mat. Undersök om driftsledningens misstanke är befogad. Du får anta att aluminiumhalterna är oberoende och normalfördelade Ett konfidensintervall för den förväntade verkningsgraden hos en kamin anges till ± 2.05 procent. Detta intervall är baserat på ett stickprov om 10 kaminer där stickprovsstandardavvikelsen beräknades till s = procent. Vad är intervallets konfidensgrad? 208. Surhetsgraden i ett vattendrag bestäms varje fredag med hjälp av en ph-meter. Vid bestämningen uppstår ett fel η som antas vara normalfördelat med väntevärde och standardavvikelse σ 1 =0.05. Här bör (= systematiska felet) vara 0 men på grund av feljustering av ph-metern misstänker man att är 0.3. För att undersöka phmeterns feljustering gör man i ett laboratorium 5 oberoende bestämningar av phvärdet på en lösning med känt ph-värde = 7, varvid medelvärdet av bestämningarna blev Gör ett 95% konfidensintervall för det systematiska felet. Motsäger ditt resultat den tidigare misstanken att det systematiska felet skulle vara 0.3? 209. Brottgränsen för en viss typ av betong anses vara N (µ, 1.2). Tillverkaren påstår att µ = 5.5 men Leo misstänker att det är lägre. Han testar hypotesen H 0 : µ = 5.5 mot H 1 : µ < 5.5 och använder följande testregel: Tag slumpmässigt 9 provstycken betong, mät brottgränsen och förkasta H 0 om medelvärdet av de 9 provstyckenas brottgräns understiger (a) Vad har han för felrisk i detta test? (b) Antag att brottgränsen i själva verket är 5.2. Vad är sannolikheten att Leo kommer att förkasta H 0, dvs upptäcka att µ inte är 5.5? (c) Leo blir inte alls nöjd med svaret i (b) då han anser att denna sannolikhet är alldeles för låg. Ge honom tips hur han kan öka styrkan (d.v.s. sannolikheten) i punkten 5.2 men samtidigt bibehålla den felrisk som du beräknade i (a).

90 Vanliga statistiska modeller Vid arbete på vägbanan sätts skyltar upp som begränsar hastigheten men vägarbetarna klagar ofta på att bilisterna visar för lite hänsyn och kör för fort. Vid ett tillfälle mätte man hastigheten (km/h) hos ett antal bilar som passerade ett vägarbetsområde. Man noterade följande från datamaterialet: Antal medelvärde median standardavvikelse varians maxvärde minvärde (a) I figuren nedan visas ett histogram över hastigheterna (övre till vänster). Man ville fördjupa analysen genom att anpassa en standardfördelning till data och prövade därför att rita ut observationerna i olika fördelningspapper: normalfördelning (övre höger), lognormalfördelning (undre vänster) samt Weibullfördelning (undre höger). Vad är din slutsats angående fördelningen för hastigheterna? (b) Man vill göra ett konfidensintervall för µ, den förväntade hastigheten hos en bil. Gör ett sådant intervall med hjälp av en lämplig approximation. Använd den approximativa konfidensgraden 95% i intervallet. (c) En av vägarbetarna säger: I genomsnitt kör de i 30 km/h förbi arbetsområdet. Har hen rätt? 211. Man mätte calciumhalten i 35 jordprov, beräknade medelvärde och standardavvikelse för dessa mätningar och fick (enhet mg) x = 17.4 samt s = 8.7. Ett normalfördelningsdiagram visade att calciumhalterna definitivt inte var normalfördelade. Kan man i alla fall få en uppfattning om hur stor den förväntade calciumhalten i jordprovsområdet är?

91 92 Vanliga statistiska modeller 212. DATAMATERIAL: maxhastighet. Man frågade 124 slumpmässigt utvalda ungdomar hur fort de kört en bil när de kört som fortast. Data finns i filen maxhastighet. (a) Undersök om hastigheterna verkar kunna modelleras med någon standardfördelning. (b) Man är intresserad av, p, sannolikheten att en ung förare har en maxhastighet som överstiger 170 km/h. Gör en uppskattning av denna sannolikhet genom att använda den anpassade fördelningen från (a). (c) Gör ett konfidensintervall för förväntad maxhastighet hos ungdomar i allmänhet? 213. DATAMATERIAL: dricksvatten. Vid vissa sorters gruvdrift får man avfallsprodukter som är svagt radioaktiva. Under olyckliga omständigheter kan dessa via spillvatten läcka ut i grundvattnet och nå någon dricksvattentäckt. För dricksvatten är det rekommenderade gränsvärdet 5 picocurie per liter vatten. Från staden Wiks dricksvattentäckt tog Wilma 10 prover och mätte strålningen, data finns i filen dricksvatten.mat. När hon tittar på data tycker hon att en modell där strålningen beskrivs av en normalfördelning inte verkar orimlig. Från vattenbolagets ledning har man uttalat policyn: Vi måste med stor säkerhet kunna visa att strålningen understiger gränsvärdet på 5 picocurie. Kan Wilma det? 214. Vid tillverkning av tabletter vill läkemedelsföretaget att tabletterna ska ha en bestämd ythårdhet och denna egenskap följs kontinuerligt i tillverkningsprocessen. Man antar att hårdheten mellan olika tabletter varierar enligt en normalfördelning med standardavvikelse 0.2 enheter. Målvärdet för den förväntade hårdheten, µ, är 11.5 enheter men man misstänker att det kan bli lägre än den nivån. För att övervaka ythårdheten väljer man slumpmässigt ut n enheter ur produktionen och använder medelvärdet som testvariabel. (a) Ställ upp lämpliga hypoteser. (b) Antag att n = 9 och att medelvärdet blev Är misstanken om att förväntad ythårdhet understiger 11.5 befogad om risken för falsklarm får högst vara 5%? (c) Antag att n = 9 och att ythårdheten i själva verket är 11.3 enheter. Beräkna sannolikheten att man inte slår larm? (d) Avgör om följande påståenden är sanna eller falska.

92 Vanliga statistiska modeller 93 i. Om vi vill förbättra proceduren för övervakning eftersträvar vi att det värde som beräknades i (c) ska bli lägre. ii. Om vi minskar risken för falsklarm (men behåller n och σ konstant) kommer testets styrka i 11.3 att öka. iii. Om vi ökar n (men behåller risken för falsklarm och σ konstant) kommer testets styrka i 11.3 att öka. iv. Om vi lyckas minska standardavvikelsen σ (men behåller risken för falsklarm och n konstant) kommer testets styrka i 11.3 att öka Wilma har på ett projektarbete fått i uppgift att åka runt till olika gårdar och mäta olika vattenkvalitetsvariabler i gårdarnas vattenbrunnar (de flesta har eget vatten). Bland annat ska hon mäta och analysera fluorhalten i vattnet för att sedan kunna ge riktlinjer om halten är tillräcklig hög. (a) Fluorhalten i dricksvattnet bör ej understiga 0.2 (ppm). Vid en gård gör Wilma tre mätningar och får 0.19, 0.17 respektive Vilka slutsatser ska hon dra om hon vill uttala sig med en signifikansnivå på 0.05? Använd ett lämpligt test, ange hypoteser och slutsatser. (b) Vi har inte råd att ta mer än dubbelprovningar av vattnet säger Wilmas projektledare. Wilma funderar på hur detta kommer att påverka testets styrka. Hon antar, efter att noga ha studerat gamla mätningar, att fluorhaltsmätningarna är observationer från en N (µ, σ) där σ kan uppskattas till och där µ kan tolkas som verklig fluorhalt i brunnen. Antag att Wilma har som önskan att med minst sannolikheten 0.90 upptäcka att fluorhalten understiger 0.2 då hon gör ett test på signifikansnivå För vilka värden på den verkliga fluorhalten µ är detta uppfyllt då man endast får ta två prover? 216. DATAMATERIAL: mossa. Halten av järn (mg/kg) i mossa mättes på 51 olika platser i Skåne och data finns i filen mossa. (a) Undersök om en rimlig modell är att de 51 mätningarna kommer från en normalfördelad slumpvariabel. (b) Gör ett 95% konfidensintervall för µ, den genomsnittliga Fe-halten. Ange den modell du använder samt hur intervallet ser ut. (c) När Wilma får se intervallet reagerar hon över att det är så brett fastän det är baserat på så många mätningar, vad är din förklaring? (d) Finns det något annat rimligt lägesmått för Fe-halten än medelvärdet i detta fall? Ange det i så fall.

93 94 Vanliga statistiska modeller 217. Dubbelbestämningar av klorhalten i dricksvatten under 5 olika dagar gav följande resultat: Dag Klorhalt Antag att värdena är normalfördelade med standardavvikelsen σ konstant för olika dagar medan den sanna klorhalten varierar med dagen. Beräkna ett tvåsidigt 95 %- igt konfidensintervall för den sanna klorhalten dag På två olika fiskarter i Mississippifloden mättes mängden kvicksilver (ppm) hos 5 respektive 6 exemplar av arterna. Fiskart 1: Fiskart 2: Eftersom de studerade fiskarna har ungefär samma vikt och eftersom samma mätinstrument används vid alla mätningar antas följande modell: De n i mätningarna på fiskart i, x i1,..., x ini, är observationer från N (µ i, σ). (a) Skatta σ 2, vad är frihetsgraderna för denna skattning? (b) Gör en skattning av medelmängden kvicksilver i fiskart 1. (c) Beräkna standardavvikelsen och medelfelet för denna skattning. (d) Använd principen för normalbaserade konfidensintervall för att konstruera ett 95 % konfidensintervall för medelmängden kvicksilver i fiskart 1. (Ledning: Man vill även utnyttja mätningarna från fiskart 2.) (e) På en tredje fiskart kunde man endast fånga ett exemplar så endast en kvicksilvermätning, 3.13 (ppm), kunde noteras. Gör ett 95% konfidensintervall för medelmängd kvicksilver hos denna fiskart Halten av bly får vara högst 50 ppm på en viss arbetsplats. Vid mätning av halten uppkommer ett analysfel varför ett mätresultat kan anses vara ett utfall av en slumpvariabel som är N(m, 1.3) där m är den verkliga halten (i ppm) och standardavvikelsen σ=1.3 är ett mått på analysmetodens precision. Vid en undersökning görs fem oberoende mätningar och arbetsmiljön anses vara betryggande (ur blysynpunkt!) om ett uppåt begränsat 95% konfidensintervall för m ligger helt till vänster om värdet 50. Vad är sannolikheten för detta om den verkliga halten m är 49 ppm?

94 Vanliga statistiska modeller Du gör mätningar av alkoholhalten i blodet hos en person med ett instrument vars avlästa värden kan anses vara normalfördelade med µ (verklig alkoholhalt) som väntevärde och standardavvikelse (a) Antag att du vill, med ett ensidigt test pröva hypotesen att µ=0.2 på signifikansnivå Vad menas då med testets styrka? (b) Illustrera med figur i Matlab eller R. Använd rutinen styrkefunktion i Matlab eller R för att undersöka hur många mätningar av alkoholhalten man behöver göra för att en person med µ=0.3 ska fällas med sannolikheten I tidningen kunde man läsa apropå dioxinhalten i fisk i Östersjön: Myndigheterna tror att halten är för hög i fet fisk fångad i Östersjön, men proverna är för få och för gamla för att man ska vara säker. Därför har regeringen nu beslutat tilldela Statens livsmedelsverk 1,4 miljoner kronor för att ta reda på hur höga halter av dioxin och dioxinliknande gifter som fisken i våra svenska vattendrag verkligen har i dag. Antag att de mätningar av dioxinhalt (pikogram) på Östersjölax som man har sedan tidigare är samt att dioxinhalten kan beskrivas med en normalfördelning. (a) Tyder data på att genomsnittlig dioxinhalt överskrider värdet 5? (b) Livsmedelsverket funderar på hur många observationer som ska tas i den nya undersökningen. Antag att för dioxinhalten ξ anses att ξ N ( µ, 0.8 ). Man ska på nivå 0.05 testa om genomsnittlig dioxinhalt överskrider 5 och sätter därför upp hypoteserna H 0 : µ 5 mot H 1 : µ > 5. Hur många observationer ska man ta om man vill att när verklig genomsnittlig dioxinhalt är 5.5 (dvs när µ är 5.5) så ska man, med sannolikheten 0.99, upptäcka att H 0 är falsk. Gör beräkningen på papper eller använd rutinen styrkefunktion Vid tillverkning av ett visst läkemedel är det viktigt att viktandelen av ett visst ämne inte ligger allt för långt under 18%. Vid en processkontroll tar man med jämna mellanrum slumpmässigt ut 5 prov ur produktionen och bestämmer viktprocenten av ämnet, x 1,..., x 5. Om x understiger 18% alltför mycket, d.v.s. om x < k, anser man att processen är ur kontroll och slår larm. Eftersom man studerat tillverkningsprocessen en längre tid ansåg man att x 1,..., x 5 är observationer från en

95 96 Vanliga statistiska modeller normalfördelning med väntevärde µ (som alltså är 18 då processen är under kontroll) och en standardavvikelse 1.1. (a) I processkontrollen löper man en viss risk att slå larm även om processen är under kontroll. Bestäm k så att sannolikheten för falskt larm är (b) Om man använder den alarmgräns som du bestämt i (a), vad är sannolikheten att upptäcka att processen är ur kontroll då den verkliga viktprocenten är 17%? 223. Man valde slumpmässigt ut 50 stycken 10-åriga flickor i Skåne och mätte deras vikt. Undersökningen gav x = 35.3 kg och s = 3.75 kg. (a) Gör ett 95 % konfidensintervall för förväntad vikt (populationsmedelvärde) hos 10-åriga skåneflickor. Normalfördelade vikter är ett rimligt antagande. (b) Antag att för 10-åriga flickor i Sverige gäller att förväntad vikt är 33.5 kg. Kan man anse att skåneflickor väger annorlunda än populationsmedelvikten? (c) Under samma förutsättningar som i (b), kan man anse att skåneflickor väger mer än populationsmedelvikten? 224. Vid en kvalitetskontroll av ett stort parti mäter man på n enheter en storhet som inte bör understiga 15. Man testar H 0 : µ 15 mot H 1 : µ < 15 och om H 0 förkastas anses partiet dåligt och skickas tillbaka. Man utförde testet med direktmetoden och beräknade därmed P-värdet (den exakta felrisken), vilken blev Ange om följande påstående är sanna eller falska. (a) Sannolikheten att partiet är ok är (b) Det är 2.1 % risk att vi skickar tillbaka ett part som är ok (c) H 0 kan ej förkastas på nivå 1 % (d) Det är 2.1 % risk att vi accepterar ett parti som är dåligt 5.2 Jämförelse av två väntevärden 225. En kemist undersöker föroreningarna i ett vattendrag. Bland annat är hon intresserad av föroreningarna från en viss industri längs ån. Hon tar därför under 20 olika dagar prover uppströms och under 25 andra dagar prover nedströms räknat från

96 Vanliga statistiska modeller 97 den aktuella industrin och mäter storleken av en viss förorening i samtliga prov. Följande data erhölls: Medelvärde Standardavvikelse Antal prover Uppströms Nedströms Som modell antar hon att mätningarna uppströms kommer från en normalfördelning med väntevärde µ upp och varians σ 2, medan mätningarna nedströms beskrivs av en normalfördelning med väntevärde µ ned och samma varians σ 2. (a) Hon vill använda båda mätserierna när hon ska skatta σ, hur blir skattningen? (b) Hur bör hon skatta den förväntade nedsmutsningen från industrin, d.v.s. µ ned µ upp? (c) Vad är variansen för denna skattning, d.v.s. vad är V (µ ned µ upp)? (d) Vad är standardavvikelsen för denna skattning, d.v.s. vad är D(µ ned µ upp)? (e) Ange medelfelet för denna skattning, d.v.s. vad är d(µ ned µ upp)? (f) Kombinera dina resultat från (b) och (e) för att göra ett 95% konfidensintervall för µ ned µ upp. (g) Utifrån intervallet i föregående deluppgift, tyder data på att förväntad halt av föroreningen skiljer sig vid de två mätplatserna? (h) Föreslå en bättre försöksplan för kemisten, d.v.s. ge henne tips hur hon borde utföra sina mätningar för att mäta industrins nedsmutsning. (i) Jämför din försöksplan i (d) med kemistens ursprungliga. Vilken av dem ger upphov till modellen två oberoende stickprov och vilken till modellen stickprov i par? 226. I kursen Trafikteknik gjorde en grupp studenter mätningar av fordonshastigheter (km/h) på Södra Esplanaden i Lund. För att undersöka vilken effekt en hastighetskylt har mätte man hastigheten (y i ) på ett fordon i 50-område och sedan samma fordons hastighet (x i ) i 30-område. Totalt gjorde man dessa mätningar på 41 fordon. n 50-sträcka 30-sträcka differens 41 yi = 1548 s y = (yi ȳ) 2 40 = s x = xi = 1313 (xi x) 2 40 = s z = Vilken effekt har övergången till 30-område på fordonens hastighet? (yi x i ) = z i = 235 (zi z) 2 =

97 98 Vanliga statistiska modeller 227. Industrier, sjukhus och andra organisationer som är beroende av provresultat från olika laboratorier, utför ofta undersökningar för att testa om laboratorierna mäter likvärdigt. Vid en sådan undersökning sändes ett prov till två laboratorier som vart och ett fick göra 5 oberoende mätningar på provet. Man kan anse att provresultaten kan beskrivas som oberoende observationer på normalfördelade stokastiska variabler. Resultat för proven, i kodade enheter: Lab 1: Lab 2: (a) Bestäm ett 99 % konfidensintervall för den förväntade skillnaden i mätresultat mellan laboratorierna. (b) Finns det någon anledning att oroa sig över att de två laboratorierna inte skulle mäta likvärdigt? 228. På nyfödda barn tas blodprov för att bl.a. bestämma barnets hemoglobinhalt. Traditionellt görs en kemisk bestämning av hemoglobinhalt på laboratorium men ett sjukhus ville prova en ny maskin HemoCuesom använder optiska sensorer. HemoCue kan användas direkt på avdelningen och ger, med tanke på olika blodburna sjukdomar, större säkerhet vid blodprovstester. På 10 slumpmässigt utvalda barn gjordes hemoglobinbestämning (g/dl) med båda metoderna. Barn (i): Lab (x i ): HemoCue (y i ): På data beräknades några sammanfattande mått på x i, y i samt z i = y i x i : Medelvärde Standardavvikelse Antal mätningar x = s x = n x = 10 ȳ = s y = n y = 10 z = 0.67 s z = n z = 10

98 Vanliga statistiska modeller 99 (a) Undersök om det finns det en systematisk skillnad mellan metoderna genom att beräkna ett konfidensintervall. Antag lämpliga normalfördelningar. (b) Din uppgift är att bedöma storleken på det systematiska skillnaden (om det finns någon), vad är ditt svar? Verkar maskinen och labbet ge olika resultat? 229. DATAMATERIAL: vindkraft. Landbaserade vindkraftverk sätts helst upp på helt öppna slätter så nära havet som möjligt. På grund av konkurrerande intressen tvingas företag som etablerar vindkraftverk att utnyttja områden som kanske inte producerar lika bra som i öppen terräng. I filen vindkraft finns producerad energi (kwh) från två vindkraftverk i Halland som båda är placerade intill ett skogsparti. Mätningarna är månatlig energiproduktion under perioden februari augusti 2006.Man misstänker att vindkraftverk syd producerar mindre energi än vindkraft mitt eftersom syd ligger närmast skogen. Undersök om misstankarna är befogade Det genomsnittliga diastoliska blodtrycket hos friska kvinnor i åldern 30 till 34 anses vara 74.4 mm Hg i landet A-land. Bland gruppen kvinnliga diabetiker i samma åldersgrupp i A-land valde man slumpmässigt ut 16 kvinnor och mätte deras diastoliska blodtryck. Medelvärdet x av de 16 mätningarna blev 84 mm Hg och standardavvikelsen s i materialet beräknades till 9.1 mm Hg. Normalfördelningar anses, av erfarenhet, vara en lämplig fördelning för mätningar av diastoliskt blodtryck. (a) Sätt upp lämpliga hypoteser och undersök om de kvinnliga diabetikerna i A- land skiljer sig från den friska normalbefolkningen i detta land beträffande förväntat diastoliskt blodtryck.

99 100 Vanliga statistiska modeller (b) I B-land gjorde man motsvarande undersökning på 16 kvinnliga diabetikeroch fick medelvärde 92 mm Hg och standardavvikelse 8.5 mm Hg. Sätt upp lämpliga hypoteser och undersök om det finns skillnad mellan länderna beträffande förväntad diastoliskt blodtryck hos kvinnliga diabetiker Arsenik finns i små men mätbara mängder i avloppsvattnet från hushållen. Inför introduktionen av ett övervakningsprogram, där bl.a. halten av As ska mätas, ville man undersöka om man behövde skilja på hushåll med egen brunn och på hushåll med kommunalt vatten. Halten av As (µg/l) i avloppsvattnet mättes därför hos separata hushåll av de olika slagen: As-halt hos hushåll med egen brunn As-halt hos hushåll med kommunalt vatten Utgående från dessa data, behöver man ta hänsyn till att hushållen får sitt vatten på olika sätt när man lägger upp sitt övervakningsprogram? Från tidigare mätningar är normalfördelningsantaganden inte orimligt DATAMATERIAL: sot. Under en mätningskampanj som utfördes av Kärnfysik i Lund mätte man bl a koncentrationen av sot (ng/m 3 ) i luften vid mätstationen Svenska Högarna utanför Stockholm. Samtidigt som en mätning i en luftmassa gjordes tog man reda på luftmassans ursprungsområde. Data finns i filen luftdata där variabeln Asot ger sotkoncentrationen i luftmassor som ansågs ha sitt ursprung från Atlanten medan variabeln Usot ger sotkoncentrationen i luftmassor som ansågs ha sitt ursprung från Ukraina. (a) Undersök om det finns några standardfördelningar som passar bra till data. (b) Beräkna ett approximativt 95% konfidensintervall för den genomsnittliga skillnaden i sotkoncentration mellan de två ursprungsområdena. Ange modellen för data samt eventuella approximationer. Skriv också ut hur intervallet ser ut Läkemedel kan ge en nedsatt salivkörtelproduktion, vilket är en riskfaktor för karies och andra sjukdomar i munhålan. På 7 slumpmässigt valda patienter som alla fick samma medicin mätte man den så kallade tuggstimulerade saliven (ml/min): Person

100 Vanliga statistiska modeller 101 (a) Tuggumi A påstås påverka salivproduktionen och man lät de sju personerna få tugga på ett sådant samtidigt som salivmängden mättes: Person Med Tuggumi A Utifrån dessa data, vilken effekt har Tuggumi A på salivproduktionen hos de som använder det aktuella läkemedlet? Lämplig(a) normalfördelningar får antas. (b) På 6 slumpmässigt utvalda friska (dvs ej läkemedelsberoende) personer undersökte man hur produktionen av saliv ökades då man använde Tuggumi A. Person Ökning av salivproduktion Undersök om Tuggumi A påverkar salivproduktionen hos friska på samma sätt som hos dem som får det aktuella läkemedlet I en studie ville man undersöka om en låg dos av aspirin påverkar blodtrycket hos gravida kvinnor som fått högt blodtryck under graviditeten. Ett slumpmässigt urval av 23 kvinnor fick en medicin med aspirin medan 24 andra slumpmässigt utvalda kvinnor fick ett placebo. Efter en tids medicinering mättes blodtrycket hos samtliga. Resultat (mm Hg): medelvärde standardavvikelse antal Aspirin Placebo (a) Hur stor är skillnaden i förväntat blodtryck mellan de två grupperna? Gör ett konfidensintervall. Du kan anta att blodtrycket är approximativt normalfördelat i de två grupperna. (b) Undersök om det förväntade blodtrycket skiljer sig åt i de två grupperna. (c) Kommentera kring studiens försöksupplägg, kan du föreslå ett bättre upplägg när man vill undersöka om aspirin påverkar blodtrycket? 235. I en undersökning av metaller i biota mätte man ett år halten Cd (mg/kg) i lever och njure på 13 älgar i Kronobergs län. Samtidigt bedömdes älgens ålder. Resultat för Cd-halt i lever: Älg nr Ålder (år) Cd-halt Hur stor är skillnaden i förväntad Cd-halt i lever mellan älgar av ålder 0.5 år och

101 102 Vanliga statistiska modeller 1.5 år? a i form av ett lämpligt konfidensintervall. Du får anta lämplig(a) normalfördelningar Hösten 2005 och våren 2006 utfördes det så kallade Stockholmsförsöket, då trängselskatt för bilism i innerstan infördes. Efter avslutat försök gjordes en rad en utvärderingar. En av många aspekter som man betraktade var att undersöka hur kölängder och medelhastigheter på vissa gator i Stockholm förändrades. Från en av rapporternakan man hitta följande information om medelhastigheten på Sveavägen mellan Sergels torg och Sveaplan, i nordlig riktning: Tidpunkt medelhastighet antal obs 95% konfidensintervall (km/h) Mätning,april (16.1, 20.1) Jämförelsemätning, april (14.5, 16.6) Antag i de följande uppgifterna att normalfördelning för bilarnas hastighet är en lämplig modell (vilket ej är helt självklart). (a) Vad är den skattade standardavvikelsen för de 18 mätningarna gjorda i april 2005? (b) Har det skett en signifikant förändring av genomsnittlig hastighet på den observerade sträckan? 237. DATAMATERIAL: mbuluzi. Mbuluzi-floden rinner från Swaziland via Moçambique ut till Indiska oceanen. Man har mätningar av fosfater (mg/l) från två platser utmed floden: från Mnjoli i Swaziland och från Maphiveni som ligger nedströms och nära gränsen till Moçambique. Data finns i filen mbuluzi och mätningarna började i januari 1987 och avslutades i juni Varibeln manad är antalet månader efter undersökningens start. Man misstänker att sockerrörsodlandet eller andra föroreningskällor i Swaziland påverkar vattenkvaliten i Moçambique så att fosfathalten skulle öka. Använd data från Mnjoli och Maphiveni för att undersöka detta Hopklumpning av blodplättar är en av de faktorer som påverkar förloppet vid bildandet av blodproppar. För att studera hopklumpning av blodplättar och om detta påverkas av rökning gjordes en undersökning bland en grupp friska personer (normalgrupp). På ett antal slumpmässigt utvalda personer tog man blodprov före och efter att de rökt en cigarett. I följande sammanställning ges resultatet från undersökningen: Normalgrupp:

102 Vanliga statistiska modeller 103 Person Före Efter Siffrorna anger maximala andelen hopklumpning före och efter cigarett och denna andel kan antas vara normalfördelad. Antag också att de utvalda försökspersonerna från denna normalgrupp har valts ut oberoende av varandra. (a) Ger dessa siffror belägg för att det föreligger någon statistisk påvisbar skillnad i genomsnittlig hopklumpning av blodplättar före och efter man rökt en cigarett? (b) Motsvarande undersökning gjordes på 8 andra personer som samtliga tillhörde en riskgrupp för blodpropp. Här noterades förändringen av andelen blodplättar efter en cigarett. Verkar personerna i riskgruppen ha en större tendens till hopklumpning av blodplättar när de rökt en cigarett än de i normalgruppen? Riskgrupp: Person förändring (efter-före) DATAMATERIAL: hornblende. Kemiska analyser på mineralet hornblende kan användas bl a för åldersbestämning. Från ett stenbrott i nord-tröndelag i mellersta Norge tog man från 4 olika lokaler prover av hornblende och analyserade bl a den relativa vikten av Al 2 O 3. Hornblendematerialet är ca 600 miljoner år gammalt och data är hämtade från Leif Johansson på avd. för mineralogi och petrologi i Lund. Data finns i filen hornblende.mat. lokal Modell: För y ij som är observation nr j från lokal i; i = 1,..., 4 och j = 1,..., n i, gäller y ij = µ i + ɛ ij, där ɛ ij är oberoende slumpvariabler och normalfördelade N (0, σ). (a) Skatta σ 2. (b) Använd hela datamaterialet för att undersöka om det finns någon signifikant skillnad mellan lokalerna 1 och 2 beträffande den relativa vikten av Al 2 O 3.

103 104 Vanliga statistiska modeller (c) Använd enbart data från lokal 1 och 2 för att undersöka om det finns någon signifikant skillnad mellan dessa två lokaler beträffande den relativa vikten av Al 2 O 3. Vilket av de två intervallen är att föredra? (d) Om hornblendematerialet vid någon lokal visar sig mindre homogent kan det få till följd att Al 2 O 3 -värdena vid denna lokal uppvisar större spridning än vid andra lokaler. Vad är då fel i ovanstående modell och hur bör den ändras? 240. I ett miljöövervakningssystem studeras övergödningen av våra vattendrag. I en viss å har man under en längre period gjort mätningar av bl a total fosforhalt. Under denna period införde man i avrinningsområdet en kemisk-biologisk rening av hushållens och industriernas avloppsvatten. För att undersöka vilken effekt dessa åtgärder haft på fosformängden i vattendraget beräknas årsmedelvärdena av total fosforhalt (mg/l) före och efter införandet av ny rening: Fosforhalt (mg/l) före införandet: Fosforhalt (mg/l) efter införandet: (a) Gör ett 95 %-konfidensintervall för den genomsnittliga effekten av den nya reningen. Redogör för dina modellantaganden. (b) Gav åtgärderna upphov till en signifikant förändring av total fosforhalt i vattendraget? Motivera ditt svar! 241. Man jämför årsmax av vattenflödet (m 3 /s) i ett vattendrag under en period då inga regleringar hade skett med en period med kraftiga regleringar: Medelvärde Skattad n standardavvikelse Ej reglerat Reglerat (a) Då man tittar närmare på data ser man att årsmax av vattenflödet approximativt kan modelleras med normalfördelningar. Undersök om det är rimligt att anta samma varians i de två fördelningarna, d.v.s. testa H 0 : σ 2 1 = σ 2 2. (b) Gör ett approximativt 95 % konfidensintervall för skillnaden i förväntad årsmax mellan de två perioderna, d.v.s. testa H 0 : µ 1 = µ 2. (c) Antag att antagandet om normalfördelade mätningar inte håller. Behöver detta bekymra dig i analysen?

104 Vanliga statistiska modeller Två tillverkare av pumpar (Pump A och Pump B) levererar båda med specifikationen 500 timmars livslängd. Man installerade 60 pumpar från vardera tillverkaren och noterade pumparnas livslängd (timmar) samt sammanställde data i en tabell: Skattad Medelvärde standardavvikelse Antal Pump A Pump B Man ritade också ut de två datamaterialen i normalfördelningspapper. (a) Undersök om den genomsnittliga livslängden för Pump A är kortare än för Pump B. Glöm inte att motivera dina fördelningsantaganden. (b) Man såg av datamaterialet att 32 pumpar av B-typ hade en livslängd under 500 timmar. Gör ett konfidensintervall för andelen B-pumpar som inte klarar tillverkarens specifikation. (c) Man såg dessutom att 51 pumpar av A-typ hade en livslängd under 500 timmar. Undersök om andelen pumpar som inte klarar tillverkarens specifikation är högre för Pump A än för Pump B I ett reningsverk mättes BOD-värdet på avfallsvattnet vid sju olika tillfällen: Tillfälle BOD (mg/l)

105 106 Vanliga statistiska modeller (a) Ligger det förväntade BOD-värdet under gränsvärdet 10 mg/l? Antag lämplig(a) normalfördelningar. (b) För att förbättra reningsverkets kapacitet prövar man en ny typ av rening. Vid ett test låter man en del av dagens avfallsvatten renas med den gamla metoden medan resten renas med den nya, varefter man mäter BOD-värdet. Dessa tester utfördes ungefär en gång varannan vecka i några månaders tid och gjordes då på den aktuella dagens avfallsvatten. Tyvärr gick det inte att få något BOD-värde för den nya reningstekniken den 24/2. Testdag 3/2 17/2 24/2 3/3 14/3 21/3 BOD (mg/l) med gammal metod BOD (mg/l) med ny metod Ger den nya tekniken en signifikant förbättring av reningen så att förväntad BOD-värde blir lägre? Antag lämplig(a) normalfördelningar DATAMATERIAL: sjodata1. I två olika sjöar, Sjö 1 och Sjö 2, har man en klar sommardag på ett flertal olika platser i sjöarna gjort mätningar av ett visst näringsämne. Data finns i filen sjodata1. (a) Skatta medelvärden och standardavvikelse för respektive sjö. (b) Undersök om det finns någon signifikant skillnad mellan sjöarna beträffande genomsnittlig näringshalt denna dag. (c) Undersök om den genomsnittliga näringshalten i Sjö 1 överskrider 8 enheter Skiljer sig den kemiska sammansättningen av avloppsvattnet åt vid Östra Torn och Källby (vilka är två olika punkter i Lunds avloppssystem)? En forskare mätte mängden fosfor i avloppsvattnet en längre period, nedan ges ett utdrag från mätningarna: Mätdatum 3/1 10/1 17/1 24/1 1/2 8/2 Östra Torn (mg/l) Källby (mg/l) Mätdatum 15/2 22/2 26/2 4/3 11/3 18/3 Östra Torn (mg/l) Källby (mg/l) Den 4/3 och 11/3 var det stopp i mätutrustningen i Östra Torn och inga mätningar kunde erhållas. Gör en lämplig analys av data för att undersöka om koncentrationen av fosfor skiljer sig åt vid de två platserna. Ange de antaganden du gör i analysen.

106 Vanliga statistiska modeller 107 Ledning: Man vet sedan tidigare att fosforhalten vid en mätpunkt kan variera mycket mellan olika mättidpunkter En geokemist undersöker halterna av järn (mg/g) i skogsmark och gräver därför 10 st gropar. Hon är speciellt intresserad att undersöka om det finns skillnader i järnhalt mellan olika nivåer i groparna och tar därför från varje grop ett prov på A-nivå (nära ytan och därmed påverkat av mänskliga aktiviteter) och ett prov på C-nivå (ca 1 meter djupt och troligen inte så mycket påverkat av människan). Området av skogsmark är av mycket heterogen karaktär, dvs det är troligt att genomsnittlig järnhalt varierar mellan olika gropar. Grop nr: Nivå A: Nivå C: Ange en lämplig modell som beskriver data och undersök, genom att göra ett hypotestest eller genom att dra slutsatser från ett konfidensintervall, om det finns skillnader i genomsnittlig järnhalt mellan A- och C-nivåer i groparna Två markägare, A och B, har under perioden mätt grundvattennivån (m.ö.h) i sina brunnar. Data, som finns nedan, anger medelvärden av sommarmånadsmätningarna. År 1990 fick en nystartad fabrik tillstånd att ta betydande mägd vatten från en grundvattenborra i trakten. Vattenuttaget kan tänkas påverka vattennivån i brunn A medan vattennivån i brunn B kommer att vara relativt opåverkad. (a) Undersök om data från brunn A tyder på att fabrikens vattenuttag påverkat brunn A så att förväntad vattennivå sjunkit efter Du får anta lämplig(a) normalfördelningar i din analys. (b) Wilma konstaterar att grundvattennivån naturligtvis påverkas av en mängd faktorer, en av de viktigaste är nederbördsmängd. De två brunnarna A och B ligger i samma geologiska område och har fått ungefär samma nederbördsmängd de olika åren, alltså bör förändringarna kring respektive brunns medelvattennivå vara ungefär den samma ett specifikt år. Wilma antar t.ex. att ett ovanligt torrt år ger en ungefär lika stor sänkning av vattennivån i de båda brunnarna, och det omvända för ett blött år. Under dessa antaganden inser hon att man kan även utnyttja data från brunn B i analysen av hur fabrikens vattenuttag påverkar brunn A. Utför analysen! Du får anta lämplig(a) normalfördelningar.

107 108 Vanliga statistiska modeller Nedan anges mätningarna från de två brunnarna, tillsammans med några sammanfattande mått. I figuren är resultaten av mätningarna plottade mot år, den lodräta linjen markerar tidpunkten då fabriken startade sitt vattenuttag. Data från perioden , före fabrikens vattenuttag: År Brunn A Brunn B År Brunn A Brunn B Sammanfattning av dessa mätningar från perioden : Brunn antal mätningar medelvärde standardavvikelse (s) Brunn A Brunn B Data från perioden , efter fabrikens vattenuttag: År Brunn A Brunn B År Brunn A Brunn B Sammanfattning av dessa mätningar från perioden :

108 Vanliga statistiska modeller 109 Brunn antal mätningar medelvärde standardavvikelse (s) Brunn A Brunn B DATAMATERIAL: avloppsvatten. Avloppet från en industri mynnar ut i ett vattendrag. Avloppsvattnet innehåller små men mätbara mängder av koppar. Under en period mätte man under samma dag både uppströms och nedströms industrin för att undersöka hur stort tillskottet av Cu var från industrin. I december 1994 gjordes en förbättring av avloppsvattnets reningsprocess och under följande vår gjordes under en period mätningar nedströms (men ej uppströms) för att undersöka om den nya reningstekniken hade medfört en signifikant förbättring av vattenkvaliteten. Data finns i filen avloppsvatten. Mätningar före åtgärden: Mätdatum (1994) 5/6 13/6 30/6 10/7 31/7 17/8 28/8 16/9 29/9 5/10 uppströms (µg/l) nedströms (µg/l) Mätningar efter åtgärden: Mätdatum (1995) 3/4 15/4 26/4 3/5 12/5 23/5 4/6 15/6 24/6 nedströms (µg/l) (a) Använd mätningarna före åtgärden för att undersöka om industrins utsläpp av koppar signifikant bidrog till att höja halten av Cu i vattendraget. Ange tydligt din modell och vilka slutsatser du drar av analysen. (b) Undersök, genom att göra ett lämpligt test eller beräkna ett konfidensintervall, om åtgärden förbättrade vattenkvaliteten så att Cu-halten i vattendraget blev lägre. Ange vilken modell du använder samt ge formler för hur testet eller konfidensintervallet beräknas DATAMATERIAL: skogsforsok Vid skogsvårdsarbete ingår att göra regelbundna gallringar men bör kvistar och mindre grenar lämnas kvar i markerna? Om resterna avlägsnas kan detta eventuellt medföra en förändring i marken beträffande surhetsgrad, jonkoncentration, kvävehalt, fosforhalt o.s.v. För att ta reda på om så är fallet inledes en studie vid Sveriges Lantbruksuniversitet på 1950-talet. Trettiotvå försöksytor 10x15 m valdes slumpmässigt i ett försöksområde. Av dessa ytor lottades 16 till behandlingen att riset skulle ligga kvar medan på de övriga 16 avlägsnades riset. En första gallring gjordes 1961 och en andra år År 1991 undersöktes försöksytorna med en speciell provtagningsborr och markproverna analyserades beträffande en mängd variabler. I filen skogsforsok finns redovisat genomsnittlig

109 110 Vanliga statistiska modeller mängd organiskt material i förnaskiktet (g/m 2 ) för de 32 olika försöksytorna. Finns det någon skillnad mellan att ha riset kvar eller att avlägsna det? 5.3 Inferens för diskreta data 250. Leo och hans syster äter mackor med honungspålägg. Hon påstår att om man tappar en sådan macka på golvet tenderar den att oftast lägga sig med påläggssidan nedåt. Leo utför därför 20 slumpmässiga försök där han i varje försök låter en macka falla mot golvet. Han finner att i 14 fall kom honungssidan nedåt. Vad är testets felrisk? Verkar Leos syster ha rätt? 251. Vid en kvalitetskontroll av ett nyanlänt parti av komponent B543 valde man slumpmässigt ut 50 komponenter och såg att 17 av dessa måste gå vidare till en extra kontroll för att där avgöra om de är felaktiga eller inte. Gör ett approximativt 95 % konfidensintervall för andelen komponenter som måste göra extrakontrollen En helg spelade Valter fia med sin lillebror. Han observerade att av 10 kast med tärningen fick han inte någon sexa. Valter beslöt att testa om tärningen kunde vara sned så att den gav sexa för sällan. Beräkna testets exakta felrisk α 0. Vad är hans slutsats utifrån denna undersökning? 253. En lärare vid LTH funderar över hur Lundakarnevalen påverkar tentamensresultatet på den kurs som varje år tenteras i månadsskiftet maj/juni. Läraren vet av erfarenhet att 10 % av studenterna som är registrerade på kursen går ej upp på den ordinarie tentamen i maj/juni. Karnevalsåret var det 110 av de 130 registrerade som kom till ordinarie tenta. Tyder detta på att karnevalsår skiljer sig från icke karnevalsår så att det är färre som tenterar den ordinarie tentan? 254. DATAMATERIAL: regndata. Vid mätningar i Malmö har man under en längre period mätt regnmängderna för regnväder av olika varaktighet. Regnmängden (mm) för de 214 kraftigaste regnovädren med en varaktighet på 1 timme anges i filen regndata. Allt för stora regnmängder kan orsaka problem i Malmös avloppssystem och leda till översvämningar. Antag att 15 mm är en kritisk gräns. (a) Skatta sannolikheten att kraftiga regnväder överstiger denna gräns

110 Vanliga statistiska modeller 111 (b) Gör ett konfidensintervall för denna sannolikhet Flygbolaget Up We Go tar en kalkylerad risk att ett fåtal passagerare inte dyker upp till flygningarna. Ett flygplan tar 115 passagerare och flygbolaget bokar 120 passagerare på en flygning. Sannolikheten att en passagerare uteblir anses vara 5%. Antag oberoende mellan passagerare. Under en dag gör Up We Go 10 flygningar, med flygplan av denna storlek, där alla flygningarna är överbokade enligt ovan. (a) Vad är sannolikheten att inte samtliga passagerare får plats under en flygning? (b) Vad är sannolikheten att inte alla passagerarna får plats på minst två av de tio flygningarna? (c) Vera betvivlar att sannolikheten att en passagerare uteblir verkligen är 5%, hon tror att passagerarna passar sina bokade flygtider bättre än så. Hon noterar att av 1000 bokade passagerare dök faktiskt 966 upp. Sätt upp lämpliga hypoteser och undersök om dessa data tyder på att Vera har rätt i sin misstanke? 256. En fabrik är ålagd att kontrollera sin reningsprocess av avloppsvattnet och använder ett dyrbart och känsligt instrument. Varje gång en dos vatten från en av fabrikens produktionsdelar släpps ut avläser instrument bl.a. kadmiumhalten och reagerar om halten Cd överstiger en viss gräns. Kravet på fabriken är emellertid inte nolltolerans utan 6% av vattendoserna får innehålla måttliga halter över gränsen. (a) Efter ett längre produktionsstopp visade det sig att av 150 vattendoser var det 17 som hade lite för hög Cd-halt. Undersök, med ett lämpligt test, om detta tyder på att fabriken för ofta har höga halter av Cd i vattnet. (b) Under en mer normal produktion har man följande regel: Ta 20 vattenprov. Slå larm om antal prov med för hög Cd-halt överstiger 3. Antag att Cd-halten verkligen är för hög i avloppsvattnet så att 10% av proverna skulle visa för högt värde. Vad är sannolikheten att man då kommer att slå larm? 257. Man vet av erfarenhet, när det gäller blodgrupper, att av svenskar är ca 15 % s.k. Rh-negativa. I ett stickprov om 75 personer med en viss blodsjukdom var 20 % Rh-negativa. (a) Konstruera ett 95 % konfidensintervall för andelen Rh-negativa med blodsjukdomen och tolka intervallet.

111 112 Vanliga statistiska modeller (b) Var andelen Rh-negativa annorlunda bland personer med sjukdomen än bland friska personer? 258. I en industri tillverkar man enheter som vid kontroll klassificeras som antingen korrekta eller defekta. Högsta acceptabla felfrekvens är 1%. För att kontrollera kvaliteten i ett stort parti har man följande kontrollplan: Tag ut 300 enheter och avskilj partiet om antalet defekta enheter överstiger acceptansgränsen 7. (a) Antag att det kommer in ett acceptabelt parti med den låga felfrekvensen 1%, beräkna producentrisken, d.v.s. sannolikheten att partiet avskiljs. (b) Antag att det kommer in ett dåligt parti med den höga felfrekvensen 5%, beräkna konsumentrisken, d.v.s. sannolikheten att partiet godkänns. (c) Antag att felfrekvensen är större än 5%, hur ändras konsumentrisken i förhållande till ditt beräknade värde i (b)? 259. Sedan länge har man använt det smärtstillande medlet A efter operation och noterat att det fungerade bra för 80 % av patienterna. Nu vill man pröva medlet B som anses vara bättre. Av de 200 patienter som fick B kände 170 en lindring av smärta. Är det från dessa data motiverat att byta smärtlindringsmedel? 260. I Sydsvenskan den 14 september 2006 kunde man under rubriken Cancerfall fördubblade vid raffinaderi bl.a. läsa. Det är inför en planerad utökad verksamhet och miljöprövning vid Preemraff som forskarna har studerat samtliga cancerfall under åren i Lysekil. Lyse och Brastad ligger närmast i Preemraffs vindriktning. Under hela perioden inträffade 1.5 gånger så många leukemifall i de båda församlingarna jämfört med vad som kunde förväntas och under perioden skedde mer än en fördubbling. Då inträffade det 19 fall jämfört med förväntade 9 fall. (a) Om du studerar perioden , tyder redovisade data på att de två församlingarna Lyse och Brastad är mer drabbade än andra områden? Ledning: För en ovanlig sjukdom kan ofta variationen i antalet sjukdomsfall i ett område beskrivas med en poissonfördelning.

112 Vanliga statistiska modeller 113 (b) En tidningsläsare kommenterar: Om det bara hade varit några få fall färre under den här perioden hade inte forskarna slagit larm utan sjukdomsförekomsten hade betraktats som normal. Antag att forskarna strikt använder sig av ett test med 5% felrisk när de överväger om de ska slå larm eller inte. Hur många sjukdomsfall hade de då kunnat acceptera i Lyse och Brastad? (c) Antag att forskarna tittar på två geografiska områden som båda är normala i den meningen att sjukdomsförekomsten inte är förhöjd och att de gör två separata test, båda på signifikansnivå 5%. Vad är sannolikheten att minst ett av testen ger ett signifikant utslag, d.v.s. påstår att sjukdomsförekomsten är förhöjd i området? 261. Vid en statistisk kvalitetskontroll tas 250 enheter ur ett parti ut för kontroll. Antal fel på en enhet är Poissonfördelat med väntevärde m och antal fel på olika enheter är oberoende av varandra. Sammanlagda antalet fel på de 250 enheterna räknas (s.k. felantalskontroll). Partiet accepteras direkt om högst 90 fel finns, annars kontrolleras även de resterande enheterna i partiet (s.k. allkontroll). Antag att m=0.3. (a) Beräkna sannolikheten att en enhet inte har några fel. (b) Beräkna det förväntade antalet fel hos de 250 kontrollerade enheterna. (c) Beräkna sannolikheten att partiet accepteras efter första kontrollen. (d) Den statistiska kontrollen kostar 100 kronor men om partiet allkontrolleras tillkommer en extra kontrollkostnad på 1300 kronor. Beräkna förväntad total kontrollkostnad för ett mottaget parti. (e) Antag nu att m är okänt. För vilka värden på m gäller att sannolikheten att man måste göra en allkontroll överstiger 0.05? 262. Inom det europeiska samarbetsprojektet EMEP (European Monitoring and Evaluation Programme) görs mätningar av luftkvaliteten på flera platser i landet, bl a i Rörvik på Västkusten och i Hoburg på Gotland. Vissa provtagningar i Rörvik görs med en automatisk provtagningsapparat som dock visat sig inte vara helt tillförlitlig utan måste kontrolleras dagligen. Under en 10-årsperiod har apparaten justerats 42 gånger. Med hoburgsapparaten görs liknande mätningar men med en något annorlunda apparat. På denna gotlandsapparat behövdes endast göras 31 justeringar under samma period. (a) Gör ett approximativt 95% konfidensintervall för sannolikheten att en justering behöver göras på apparaten i Rörvik.

113 114 Vanliga statistiska modeller (b) Gör ett approximativt 95% konfidensintervall för medelantalet justeringar under en 10-årsperiod på apparaten som används i Rörvik. (c) Undersök om det är någon signifikant skillnad mellan apparaterna beträffande hur ofta justeringar måste göras I en undersökning från 1980 ville man studera mängden koloxid i bilavgaser hos personbilar i trafik. Om en bil släpper ut mer än 30 g CO per km anses den vara en oacceptabel nedsmutsare. Från en livligt trafikerad väg valdes slumpmässigt 26 bilar ut och på dessa mättes mängden CO (g/km). Av de 26 bilarna i denna undersökning var 2 st nedsmutsare. (a) Låt X vara antalet bilar av de 26 som är nedsmutsare. Är X en diskret eller kontinuerlig s.v.? (b) Låt p vara P(en slumpmässigt vald bil är nedsmutsare). Vilken fördelning har ξ? (c) Myndigheterna har satt mottot högst 1 av 150 bilar ska vara nedsmutsare och ni ska undersöka om denna undersökning tyder på att mottot ej är uppfyllt. Vilka hypoteser rörande p bör du då ställa upp? (d) Utför testet med direktmetoden genom att beräkna P-värdet (α 0 ), vad är din slutsats? 264. I ett land har under en längre period födelsetalen bland gravida kvinnor varit att det föds 106 pojkar på 100 flickor. I en större undersökning specialstuderade man kvinnor som var vegetarianer och fann att bland dessa 386 kvinnor föddes det 180 pojkar. Tyder dessa data på att kvinnliga vegetarianer tenderar att få färre pojkar? Bortse från flerbarnsfödslar. (a) Lös uppgiften genom att först hitta en lämplig fördelning för ξ=antalet pojkar som de 386 kvinnliga vegetarianerna föder. (b) Sätt upp lämpliga hypoteser för p=p(en kvinnlig vegetarian föder en son). (c) Gör testet genom att beräkna ett lämpligt intervall. (d) Gör testet genom att använda direktmetoden Den månatliga regnmängden på en ort anses vara normalfördelad med väntevärde 20 cm och varians 12 cm 2. Regnmängden olika månader är oberoende.

114 Vanliga statistiska modeller 115 (a) Vad är sannolikheten att minst 140 cm regn faller på orten under en sexmånadersperiod? (b) Under en sexmånadersperiod regnade det mindre än 18 cm varje månad. Tyder detta på att den förväntade regnmängden under en månad minskat? 266. Precision Livestock Farming (ungefär precisionsdjurhållning) är ett ganska nytt begrepp inom jordbruket och innebär bl.a. att man använder avancerad teknologi för att optimera varje djurs produktion. Inom mjölkproduktionen kan det t.ex. innebära användning av olika robotar i lösdjurshallar. (a) En teori är att en gödselrobot i lösdjurshallen skulle minska olika klövsjukdomar hos korna eftersom golvet i hallen blir renare. En forskare noterar att före introduktion av robot fick i genomsnitt 7 % av korna klövsjukdomar under ett år. Ett år efter installationen av gödselrobot var det 15 djur av 250 som hade (eller hade under året haft) detta besvär. Kan forskaren hävda att roboten minskar klövsjukdomar? (b) En mjölkrobot underlättar betydligt för jordbrukaren men det är inte ovanligt att roboten signalerar falska felmeddelande. Vid ett felmeddelande rings skötaren upp och onödiga telefonsamtal (dag som natt) upplevs förstås störande. Forskaren har noterat att med mjölkrobot av typ A är antalet falska felmeddelanden under en vecka poissonfördelat med i genomsnitt 8.3 samtal. Hon vill nu testa en ny mjölkrobot av typ B i en likvärdig lösdjurshall och beslutar sig för att notera x= antalet falska felmeddelande för denna nya robot under en vecka. Wilma säger: Antag att forskaren får att x = 7. Eftersom 7 ligger klart under 8.3 har vi med stor säkerhet visat att den nya roboten ger färre falska felmeddelanden. Har Wilma rätt? Motivera tydligt ditt svar och beskriv hur forskaren bör tänka utifrån sitt observerade värde på x Det neurologiska tillståndet stiff person syndrome (svenskt namn tycks saknas) kännetecknas av fortskridande muskelstelhet, smärtsamma kramper och ibland ofrivilliga muskelryckningar. För att undersöka om förekomsten av detta syndrom är kopplat till förekomsten av anti-gad-autoantikroppar (GAD är en förkortning av glutaminsyredekarboxylas) gjordes en undersökning på totalt 550 personer varav 370 hade syndromet.

115 116 Vanliga statistiska modeller Har anti-gad- Har ej anti-gadautoantikroppar autoantikroppar Normal Stiff person syndrome Finns det ett signifikant skillnad mellan grupperna då det gäller förekomst av anti- GAD-autoantikroppar? Lös uppgiften genom att undersöka om andelen som har anti-gad-autoantikroppar är den samma i de två grupperna Ibland påstås det att Bilförare som kör bilmärke B är mer vårdslösa än övriga bilförare. Vid en vägsträcka markerat med skylt 30 km valde man slumpmässigt ut 100 bilar av märke B och noterade att 45 av bilförarna överskred hastighetsgränsen. När man observerade 100 andra slumpvis utvalda bilar, ej av märke B, var det 38 av bilförarna som körde för fort. (a) Gör ett konfidensintervall, med approximativ konfidensgrad 95%, för andelen bilförare av märke B som kör för fort vid den aktuella bilsträckan. (b) Tyder data på att en större andel av bilförare av märke B kör fortare på den aktuella vägsträckan än andelen andra bilförare? Ställ upp lämpliga hypoteser och utför ett test I en tillverkningsindustri använder man sig av en metod som kallas work sampling för att uppskatta hur mycket tid som läggs på värdeskapande aktiviteter respektive icke-värdeskapande aktiviteter. Icke-värdeskapande aktiviteter delas in i ett antal underkategorier som t.ex. transport, väntetid och förberedelser. Vid station A i tillverkningsprocessen noterade man vilka aktiviteter en arbetare sysselsatte sig med vid 95 olika tidpunkter: Station A Värdeskapande Icke-värdeskapande aktiviteter Totalt aktiviteter Transport Väntetid Förberedelser Övrigt Antal observationer (a) Ledningen vill ha information om hur stor andel av arbetstiden som ägnas åt värdeskapande aktiviteter. Uppskatta denna storhet och gör ett lämpligt konfidensintervall. (b) Konfidensintervallet från (a) anses vara för brett och ledningen vill ha ett intervall med halva bredden. Hur många observationer måste du göra då?

116 Vanliga statistiska modeller 117 (c) Vid Station B gjordes också 95 observationer varav 47 visade värdeskapande aktiviteter. Tyder detta på att det finns en skillnad mellan stationerna beträffande hur stor andel av arbetstiden som ägnas åt värdeskapande aktiviteter? 270. För ett antal år sedan slog en lundaläkare larm i en brett upplagd tidningsartikel om att i ett område i Lund, beläget i närheten av en kemisk industri, var antalet fall av en sällsynt cancersjukdom ovanligt stort. I det aktuella området hade nio personer (sex kvinnor och tre män) drabbats av sjukdomen under en femårsperiod. Då läkaren studerade det rikstäckande cancerregistret såg han att i en population lika stor som den i det aktuella området borde man under denna femårsperiod förväntat sig att antalet sjukdomsfall skulle vara fyra. (a) Undersök om det aktuella lundaområdet är speciellt drabbat av cancersjukdomen genom att göra ett test på 5%-nivån. Du får anta att antalet cancerfall under tidsperioden är poissonfördelat. (b) Läkaren förvånades över att företrädesvis kvinnor drabbades av sjukdomen men presenterade i tidningen en medicinsk teori. Vad är din reaktion? Ger denna undersökning stöd för att kvinnor är mer drabbade än män? Motivera tydligt ditt svar genom att t ex göra ett lämpligt test. Ange tydligt noll- och mothypotes Inför en eventuell bebyggelse i ett kustområde vill man studera förekomsten av höga vågor eftersom dessa kan orsaka erosion samt skador på vägar och byggnader. Med lite detektivarbete, genom utnyttjande av lokala tidningar och intervjuer med personer som bott i området, kunde man rekonstruera antalet perioder med höga vågor varje år under tidsperioden Resultat: Antal perioder med höga vågor Antal år Som modell antog man att antalet perioder med höga vågor under ett år var Poissonfördelat med parameter λ där λ tolkas som det genomsnittliga antalet perioder per år. (a) Gör en lämplig skattning av parametern λ. (b) Använd skattningen i (a) för att beräkna sannolikheten att få minst en period med höga vågor under ett år.

117 118 Vanliga statistiska modeller (c) Planerarna är oroliga för att det blivit vanligare med perioder av höga vågor i det aktuella området. De två senaste åren har man specialstuderat området och under denna period noterat 4 perioder med höga vågor. Har de, utifrån redovisade data, fog för sin oro? 272. Vid ett försök med en viss medicinsk behandling registreras för varje patient hurvida patienten förbättras eller inte efter behandlingen. När data om n = 10 patienter insamlats visar det sig att åtta av dem förbättrats. Tyder dessa data på att behandlingen är effektiv, d.v.s. kan vi anta att p > 0.5 där p = P (en patient förbättras)? 273. Det statistiska uppförandet hos radioaktivt sönderfall beskrivs väl av Poissonfördelningen eftersom sannolikheten för sönderfall per kärna är liten och konstant samtidigt som antalet kärnor är mycket stort. Den naturliga bakgrundsstrålningen (uttryckt som antalet registrerade pulser per sekund) vid en viss mätpunkt har en intensitet av λ=1 sek 1, dvs antalet registrerade pulser under en slumpmässigt vald sekund är poissonfördelat med väntevärde 1. På grund av en olycka i ett mycket avlägset land misstänker man att intensiteten har ökat. Antag att man mäter 15 sekunder och därvid registrerar 20 partiklar. (a) Ställ upp lämpliga noll- och mothypoteser. (b) Utför testet på nivå 5%, redovisa tydligt din slutsats Nollvisionen inom trafiksäkerhet innebär att man vill sträva efter 0 trafikdödade. Dithän är det långt, och även om säkerheten i medeltal ökar så kommer slumpmässiga variationer att ske både uppåt och nedåt. För ett tiotal år sedan kunde man läsa i tidningen att den svarta trafikmånaden juni bryter en nedåtgående trend. Enligt tidningen omkom 100 personer i trafikolyckor under den junimånaden. Antag att antalet omkomna i trafiken under en normal månad är ξ P o(m) där m är olika för olika månader. (a) För 10 år sedan var m = 80 ett normalt värde för juni. Testa med ett statistiskt test hypotesen att under det aktuella året H 0 : m = 80 mot att m > 80 med ett test på den ungefärliga signifikansnivån (b) För samma år antogs m = 50 är normalt för juli.i själva verket omkom 60 personer under den aktuella julimånaden. Gör ett liknande test som i (a).

118 Vanliga statistiska modeller 119 (c) Antag att året är ett helt normalt år. Om man gör 12 oberoende test liknande det i (a) under år, ett för varje månad, hur stor är sannolikheten att man får minst ett signifikant utslag för ökat antal omkomna? 275. Antalet jordskalv under ett år i ett område anses vara poissonfördelat med parametern µ, dvs om ξ= antal jordskalv under ett år gäller X Po(µ). Antalet jordskalv olika år anses vara oberoende. Den seismologiska aktiviteten har under en längre period varit ganska konstant med ett µ som anses vara 1.6. Under perioden uppmättes emellertid 25 jordskalv i området. Tyder detta på att området blivit seismologiskt oroligt så att µ ökat? 276. Antal fel under en vecka i en produktionsprocess anses vara poissonfördelat med väntevärde λ. Din uppgift är att ge ledningen information om hur stort detta λ är och därför vill du göra ett 95 % konfidensintervall för storheten. Gör det under förutsättning att (a) du noterat 17 fel under en vecka (b) du under tre veckor noterat 17, 20 och 23 fel i processen 277. I ett område antar man att antalet motorcykelolyckor under en månad är Poissonfördelat, Po(µ), där µ varierar från månad till månad. För maj månad brukar µ vara 15. I och med att allt fler kör motorcykel befarar man att antalet olyckor också kommer att öka. Det senaste året noterade man 22 olyckor under maj månad och tidningarna skrev att Nu har det skett en ökning av antalet motorcykelolyckor. (a) För att undersöka om man fog för detta påstående vill man testa H 0 : µ = 15 mot H 1 : µ > 15 och testet görs med hjälp av direktmetoden. Ange testets exakta felrisk, α 0 (P-värde). (b) Ange om följande påstående är falska eller sanna. i. Om testets exakta felrisk α 0 (P-värdet) är 0.06 kan vi dra slutsatsen att nollhypotesen kan förkastas på nivå 5%. ii. Ju mindre testets exakta felrisk α 0 (P-värdet) är, desto större fog har tidningen för sitt påstående. iii. Om testets signifikansnivå är 0.01 betyder det att vi har 1% risk att felaktigt påstå att majmånaden är mer drabbad av mc-olyckor. iv. Om H 0 ej kan förkastas på nivå 0.05 betyder det att med 95% säkerhet är H 0 sann.

119 120 Vanliga statistiska modeller 278. Driftstopp i ett produktionsföretag inträffar vid slumpmässiga tidpunkter. Antalet driftstopp under en månad är Poissonfördelat med väntevärde µ, och kvalitetschefen vid företaget tror sig veta att under normala förhållanden är µ = 4. (a) Hon misstänker dock att att antal driftstopp ökar i december. Mycket riktigt, antal stopp denna månad var hela 11. Kan det höga antalet driftstopp under december skyllas på slumpen, eller finns det någon anledning att tro att luciafirandet (eller annan säsongsberoende aktivitet) har haft inverkan? (b) Produktionen sker vid två likvärdiga avdelningar, A och B. Kvalitetschefen har också en misstanke att avdelning A är mer drabbad av driftstopp än avdelning B. Hon tittar på siffrorna och finner att av årets 62 driftstopp skedde 40 vid avdelning A. Har hon skäl för sin misstanke? 279. I Sydsvenska Dagbladet den 5 januari 2014 fanns en artikel om motorcykelolyckor. Från texten: Under 2013 steg antalet omkomna motorcyklister. Fram till och med november förra året dog 40 personer jämfört med 31 personer under hela 2012, enligt preliminär statistik från Transportstyrelsen. Jesper Christensen, generalsekreterare för Sveriges motorcyklister, pekar på vad som kan vara början på en ny trend. Vi har noterat att en ökande del av de motorcykelförare som omkommer inte har något körkort, säger han. Tidigare har omkring 25 procent av dem som omkommer inte haft något körkort, men för 2012 låg den siffran på 35 procent och i fjol var det 40 procent. (a) Antag att antalet döda motorcyklister per år följer en poissonfördelning, Po(λ) där λ är 31 (d.v.s års värde får vara sant tidigare värde ). Siffran 40 döda gällde under perioden jan-nov 2013, antag att det inte dog några under december Har man då fog för påståendet att förväntade antalet omkomna motorcyklister ökat. (b) Tyvärr håller nog inte antagandet om noll döda under december Hur många motorcyklister måste dö under denna månad för att man med 1 % felrisk ska kunna säga att förväntat antalet omkomna motorcyklister ökat? (c) Fundera på den sista meningen i citatet. Baserat på den högre procentsiffran på 35 procent under 2012 i jämförelse med tidigare 25 procent, kan man påstå att bland de som omkommer har andelen som inte har körkort ökat?

120 Vanliga statistiska modeller Man är intresserad av att minska antalet olyckor vid ett olycksdrabbat vägavsnitt genom att försöka få ner antalet fortkörare. Vid en kontroll visade det sig att 43 av 137 kontrollerade förare körde för fort. Kontrollen utfördes på ett sådant sätt att man kan anta att de olika förarna kör för fort oberoende av varandra. (a) Skatta sannolikheten att en slumpvis vald förare kör för fort, samt beräkna ett konfidensintervall för denna sannolikhet. (b) Efter att man infört ett antal åtgärder för att sänka hastigheten noterades det att 37 av 152 kontrollerade fordon färdades för fort. Avgör med ett approximativt test på nivå 0.05 om det blivit en signifikant minskning av andelen fortkörare För att uppskatta antalet fiskar i en sjö kan man använda sig av en metod med fångst och återfångst (capture/recapture). Antag att det finns N (okänt antal) fiskar i sjön. Fånga slumpmässigt M fiskar, märk dem och släpp i dem i sjön igen. Vänta ett tag så att märkta fiskar blandar sig med de omärkta. Av de N fiskarna i sjön är alltså M märkta. Återfånga slumpmässigt n fiskar och notera hur många av de n som är märkta. Antag att detta antal betecknas x. Antag att N är så stort i förhållande till n så att sannolikheten att en fisk är märkt kan anses vara lika stor för alla återfångade fiskar. (a) Hur skattas sannolikheten p=p(en återfångad fisk är märkt)? (b) Om X är antalet återfångade fiskar som är märkta, vilken fördelning har då X? (c) Hur ska ett approximativt 95% intervall för p se ut? (d) Nu är det ju en skattning av N som är intressant. Vad är relationen mellan N (skattningen av N) och p (skattningen av p)? (e) Utnyttja intervallet för p samt relationen mellan de två skattningarna för att få ett approximativt 95% intervall för N. 5.4 Inferens för kategoridata 282. av fyra kategorier K 1, K 2, K 3, K 4. Teoretiskt skall de fyra kategoriernas storlekar förhålla sig som 9 : 3 : 3 : 1. Vid en undersökning av 160 slumpmässigt utvalda ur populationen fick man följande resultat:

121 122 Vanliga statistiska modeller kategori K 1 K 2 K 3 K 4 frekvens Hur många individer skulle man vänta sig att få i respektive kategori om teorin är riktig? Hur stor blir den testkvantitet med vars hjälp man kan testa om (med lättbegripliga beteckningar) H 0 : p 1 = 9/16, p 2 = p 3 = 3/16, p 4 = 1/16 är sann? Utför testet på nivån Samma frågeställning som i uppgift 267 men med en alternativ lösning. Det neurologiska tillståndet stiff person syndrome kännetecknas av fortskridande muskelstelhet, smärtsamma kramper och ibland ofrivilliga muskelryckningar. För att undersöka om förekomsten av detta syndrom är kopplat till förekomsten av anti-gadautoantikroppar (GAD är en förkortning av glutaminsyredekarboxylas) gjordes en undersökning på totalt 550 personer varav 370 hade syndromet. Har anti-gad- Har ej anti-gadautoantikroppar autoantikroppar Normal Stiff person syndrome Finns det ett signifikant skillnad mellan grupperna då det gäller förekomst av anti- GAD-autoantikroppar? Lös uppgiften genom att göra ett χ 2 -test En tandläkare studerade sambandet mellan kariesfrekvens hos barn och flourhalten i dricksvatten. Han noterade bl.a. följande siffror för totalt 1161 familjer (som inte fått något extra flourtillskott): Hög kariesfrekvens Låg kariesfrekvens bland familjens barn bland familjens barn Låg flourhalt i dricksvatten Hög flourhalt i dricksvatten (a) Tyder dessa siffror på att det finns ett samband mellan flourhalten i dricksvatten och kariesfrekvensen? (b) Det fanns totalt 2926 barn i de 1161 familjerna. Varför bör man ej basera analysen ovan på de separata barnen?

122 Vanliga statistiska modeller Ankyloserande spondylit (AS) leder typiskt till förbeningar i bäckenleder och i ryggens kotpelare. På ett antal gravida kvinnor, med och utan denna diagnos, undersökte man hur många av förlossningarna som slutade i akut kejsarsnitt: AS Ej AS Kejsarsnitt Ej kejsarsnitt (a) Verkar det finnas ett samband mellan AS och kejsarsnitt? (b) Gör ett konfidensintervall för andelen graviditeter i AS-gruppen som slutar med kejsarsnitt. (c) Gör ett konfidensintervall för förväntade antalet graviditeter, som slutar med kejsarsnitt, i en AS-grupp bestående av 200 kvinnor Från ett register över trafikolyckor noterade man om olyckan hade dödlig utgång eller inte samtidigt som man undersökte om den skadade använt bilbälte vid olyckstillfället: Dödlig Ej dödlig Använt bälte Ej använt bälte Verkar de två faktorerna använda bilbälte och olyckan är dödlig vara statistiskt oberoende? 287. Högt blodtryck är en känd riskfaktor för olika typer av hjärtskjukdomar. En studie gjordes för att undersöka om det fanns ett signifikant samband mellan blodtrycket hos barn och deras fäder. Om ett sådant samband finns var tanken att genom att undersöka blodtrycket på individer i ena gruppen kunna finna högriskindivider i den andra gruppen. På 90 elever i klass 9 och på deras fäder mättes därför blodtrycket. För samtliga individer klassificerades blodtrycket som tillhörande den undre, mellersta eller övre tredjedelen i respektive grupp. Barnens blodtryck Undre Mellersta Övre tredjedelen tredjedelen tredjedelen Fädernas Undre tredjedelen blod- Mellersta tredjedelen tryck Övre tredjedelen

123 124 Vanliga statistiska modeller (a) Undersök, med ett lämpligt test, om blodtrycken hos barn och fäder kan anses vara oberoende av varandra. (b) Ebbe påpekar att man kan använda de ursprungliga blodtrycksmätningarna (och alltså inte göra en klassificering i grupper) för att undersöka om det finns ett samband mellan barns och fäders blodtryck. Antag alltså att de ursprungliga mätningarna betecknas Barnens blodtryck: x 1,..., x 90 Fädernas blodtryck: y 1,..., y 90 Beskriv hur ett test skulle gå till. Ange dina modellantaganden, hypoteser, testkvantitet och när nollhypotesen ska förkastas.

124 Sambandsanalys - regression och korrelation Sambandsanalys NYCKELBEGREPP: Begrepp Träna Regression FMS035 (M-kurs): Maple TA, reg1-reg8 Korrelation MASB11 (Biostat): DigUppg 1-8 LÄS I KURSLITTERATUREN: Litteratur Avsnitt Kompendiet Sambandsanalys avsnitt 1-4 Blom et al. Kapitel 14 Olsson, Englund och Engstrand Kapitel Regressionsanalys 288. Illustrera med figurer i Matlab. I denna uppgift ska ni bekanta er med några Matlabrutiner som är användbara vid regressionsanalys. Ni ska också med ett simuleringsexperiment undersöka hur värdet på σ påverkar modellen och de slutsatser man kan dra från data. (a) Skapa en vektor x med värden 1, 2,..., 10 och en variabel y som erhålls genom det teoretiska linjära sambandet y=α+βx, där α och β är kända. Välj t ex y=10+2x. Addera till variabeln y två uppsättningar av normalfördelade mätfel N (0, σ) med olika värden på σ, förslagsvis σ=1 och σ=5. >> x=[1:10] >> y1=10+2*x+normrnd(0,1,10,1) >> y2=10+2*x+normrnd(0,5,10,1) Vektorn y1 består alltså nu av 10 observationer från N (10 + 2x, 1) medan y2 består av 10 observationer från N (10 + 2x, 5). Titta på data i samma diagram och jämför. Hur påverkar värdet på σ era y-värden? >> plot(x,10+2*x) >> hold on >> plot(x,y1, x ) >> plot(x,y2, o )

125 126 Sambandsanalys - regression och korrelation (b) För att enkelt skatta regressionslinjen, beräkna konfidensintervall, undersöka residualer m.m. utnyttjar vi den specialskrivna filen reggui, se help reggui. >> reggui(x,y1) >> reggui(x,y2) Bekanta dig med utskrifterna och figurerna som reggui alstrar. Var hittar ni skattningarna av α, β och σ? Var återfinns konfidensintervallen för α och β? (c) Vilken av de två skattade linjerna ligger närmast den sanna linjen x? Kontrollera att intervallen för α och β täcker över de sanna värdena. (d) Titta på residualerna för de båda linjerna. Hur påverkas de av värdet på σ? Jämför skattningen av σ med de sanna värdena. (e) Reggui är en specialskriven funktion för våra grundkurser i matematisk statistik vid LTH. Den fungerar emellertid endast för enkel linjär regression eller polynomregression. I Matlab finns en inbyggd funktion för regressionsanalys, regress. Pröva hjälpkommandot help regress för att ta reda på hur in- och utargumenten ser ut. För att använda regress måste vi bilda matrisen X som är en (10 x 2) matris med första kolumnen enbart ettor och andra kolumnen bestående av x-värdena. Använd regress för att skatta en av de två regressionslinjerna ovan. >> X=[ones(10,1) x] >> [b bint r]=regress(y1,x,0.05) Utargumentet bint ger konfidensintervall för parametrarna α och β (med konfidensgrad 0.95 här ovan). Jämför de erhållna skattningarna och intervallen med de värden du fick med kommandot reggui I ett stickprov om 22 barn studerades sambandet mellan barnets födelsevikt och den procentuella viktökningen t.o.m. den 3:e levnadsmånaden. Resultat: Födelsevikt (kg) Viktökning (%) Födelsevikt (kg) Viktökning (%) Födelsevikt (kg) Viktökning (%) Räknehjälp: Om x i =födelsevikt hos barn i och y i =viktökning hos barn i gäller x = ; ȳ = ; s 2 x = 1 (xi x) 2 = ; s y = 1 (yi ȳ) 2 =

126 Sambandsanalys - regression och korrelation 127 Dessutom är SS x = (x i x) 2 = ; SP xy = (x i x)(y i ȳ) = ; SS y = (yi ȳ) 2 = (a) Från bilden verkar det rimligt att viktökningen kan beskrivas linjärt av födelsevikten. Skatta regressionslinjen. (b) Lille Axel vägde 2.3 kg vid födseln. Gör ett intervall som visar var hans viktökning, med 95% sannolikhet, kommer att ligga mellan. (c) För vilka födelsevikter tillåter materialet, att vi gör en prediktion vad avser viktförändringen? 290. Som en del i det svenska miljöövervakningssystemet PMK (www.naturvardsverket.se/) mäts kvävehalten i en rad svenska vattendraget. Nedan ges medelvärdet av sommarmånadernas kvävehalt för en viss å ett antal år: År: Kvävehalt (mg/l): Antag att kvävehalten ändras linjärt under den studerade perioden. (a) Ange den linjära regressionsmodellen. (b) Vad är den skattade regressionslinjen? (c) Vad är skattningen av σ 2, dvs variationen kring linjen? (d) Gör ett 95 % konfidensintervall för den årliga förändringen av kvävehalt i vattendraget. Har det skett en signifikant förändring i kvävehalt under den studerade perioden?

127 128 Sambandsanalys - regression och korrelation (e) Gör ett 95 % konfidensintervall för genomsnittlig kvävehalt år (f) Gör ett 95 % konfidensintervall för genomsnittlig kvävehalt år DATAMATERIAL: Bradford. Från laboration Proteinbestämning enligt Bradfordmetoden i kursen cellbiologi. I laborationen undersöktes absorbansen hos prov med olika spädningar av Bovint Serum Albumin (BSA)-standard. En laborationsgrupp uppmätte följande värden: Konc (mg/l) Absorbans Enligt Lambert-Beers lag gäller att absorbansen (A) kan beskrivas som en linjär funktion av koncentrationen (c): A = k c där konstanten k beror på ämnets molära absorptionskoefficient vid en viss våglängd samt kyvettens längd. Vid mätningar får man naturligtvis räkna med en viss slumpmässig variation, en rimlig modell är att absorbansen vid mätning nr i, A i, beskrivs linjärt av koncentrationen c i plus ett slumpmässigt fel: A i = β 0 + β 1 c i + e i där e i är oberoende och e i N (0, σ 2 ). Här motsvaras konstanten β 1 av den tidigare k medan β 0 är absorbansen i den lösning som BSA:n är löst, (buffert eller vatten). (a) Undersök om den linjära regressionsmodellen ovan är rimlig att anpassa till data. (b) Om värdet på β 0 är signifikant skilt från noll, hur ska vi tolka detta? (c) Hur mycket ökar absorbansen då man ökar koncentrationen en enhet? Ange ett 95% konfidensintervall för denna storhet. (d) Vad är genomsnittlig absorbans för prov med koncentration 50 (mg/l)? Ange ett 95 % konfidensintervall för denna storhet. (e) Vi har ett prov med koncentration 50 (mg/l). Ange ett 95 % prediktionsintervall för absorbansen i just detta prov.

128 Sambandsanalys - regression och korrelation 129 (f) Huvudsyftet med mätningarna var att erhålla en standardkurva för hur absorbansen påverkas av koncentrationen. Anta att vi på ett prov med okänd koncentration c 0 uppmätte absorbansen Ange ett 95 % kalibreringsintervall för c I en undersökning fick 20 slumpmässigt utvalda kvinnor mellan 17 och 19 år blåsa i en spirometer för att undersöka sin lungkapacitet (liter). Samtidigt noterades kvinnornas vikt och man var intresserad om det fanns något samband mellan de två variablerna. Person Vikt (kg) Lungkap. (l) Person Vikt (kg) Lungkap. (l) Räknehjälp: SP xy = ; SS x = ; SS y = ; x = ; ȳ = (a) Beräkna korrelationskoefficienten r och testa om det finns ett samband mellan vikt och lungkapacitet. (b) Antag en linjär regressionsmodell och skatta linjen. Testa om det finns ett samband mellan vikt och lungkapacitet. Hur mycket förändras lungkapaciteten om en kvinna ökar sin vikt med ett kilo?

129 130 Sambandsanalys - regression och korrelation 293. För de n talparen (x 1, y 1 ),..., (x n, y n ) ansätter man en enkel linjär regressionsmodell: y i = α + βx i + ɛ i där ɛ i är oberoende och normalfördelade. I en analys beräknas följande 95% intervall: I α = ( 0.4, 0.7), I β = ( 0.7, 0.4). Avgör om följande påståenden är sanna eller falska. (a) Modellen y i = α + ɛ i är att föredra (b) Modellen y i = βx i + ɛ i är att föredra (c) Det finns en positiv korrelation mellan x och y (d) Från den skattade modellen ser vi att en ökning i x med 10 enheter innebär att y minskar i genomsnitt med 5.5 enheter 294. DATAMATERIAL: avlopp. Avloppet från en industri mynnar ut i ett vattendrag. För att undersöka hur exempelvis halten av järn späds ut i vattnet mäts Fe-halten vid ett antal punkter nedströms om utsläppspunkten. Data finns också i filen avlopp. Antal meter från utsläppspunkten Fe-halt (mg/l) (a) Skriv upp en modell för data under antagandet att Fe-halten avtar linjärt med avståndet från utsläppspunkten samt att avvikelserna från linjen kan antas vara normalfördelade med konstant varians. (b) Undersök om antagandena i (a) är rimliga. (c) Hur mycket minskar Fe-halten per 100 m? Gör ett konfidensintervall för minskningen. (d) Wilma ska i morgon mäta Fe-halten vid badbryggan som ligger 500 m nedströms utsläppspunkten. Utgående från den linjära regressionsmodellen, vad kan hon säga om Fe-halten i provet? (e) Hon vill också veta hur långt nedströms från utsläppspunkten man har en Fe-halt på 35 mg/l, gör ett lämpligt intervall som ger Wilma information om detta.

130 Sambandsanalys - regression och korrelation DATAMATERIAL: kalibrering. För att kalibrera ett high pressure liquid chromotography (HPLC) instrument avlästes instrumentet för en rad kända koncentrationer. Data finns i fil kalibrering. Dye conc HPLC peak area Dye conc HPLC peak area Använd den specialskrivna Matlabrutinen reggui för att analysera data. Bekanta dig med alla de finesser som denna rutin erbjuder (vilka intervall den kan rita ut, hur man kan identifiera outliers osv.) (a) Verkar data kunna beskrivas väl av ett linjärt samband? Titta på residualerna, uppvisar de någon trend? är de normalfördelade? om normalfördelning vad skattar du väntevärdet till i denna fördelning? (b) Vad är den skattade regressionslinjen? Hur stor är den skattade standardavvikelsen kring linjen? (c) Då koncentrationen är 0 borde HPLC instrumentet ge utslag 0. Motsäger data detta? (d) Om man har koncentrationen 0.22, vad är det 95 % konfidensintervallet för genomsnittligt HPCL värde? (e) Om man har koncentrationen 0.22, vad är det 95 % prediktionsintervallet för ett enstaka HPCL värde? (f) Eftersom man vill använda den skattade linjen som en kalibreringskurva: antag att HPCL instrumentet på ett prov med okänd koncentration visar 22.1 enheter, vad kan du säga om koncentrationen i provet? vilken osäkerhet har du i din utsaga? 296. Vid en kolorimetrisk bestämning av Fe 3+ -halten i en lösning får man, bortsett från normalfördelade mätfel, ett linjärt samband mellan koncentration, x och ljusintensiteten y, y = α + βx. Från 13 oberoende experiment där ljusintensiteten mättes för olika koncentrationer finns följande mätvärden: x: y:

131 132 Sambandsanalys - regression och korrelation (a) Ange skattningar av modellens parametrar. Verkar modellen rimlig? (b) Oavsett ditt svar i (a), antag att modellen är rimlig och gör ett 95% konfidensintervall för den genomsnittliga ljusintensiteten då koncentrationen är 4. (c) Wilma säger att eftersom man för koncentrationen x = 4 har hela fyra observationer av ljusintensiteten borde man göra det sökta intervallet i (b) genom att enbart utnyttja dessa fyra mätningar. Håller du med Wilma? Motivera noga ditt svar! (d) Lite senare gjorde man ytterligare mätningar och fick då x: 7 8 y: Willy säger att nu kan man använda samtliga 18 mätningar för att få det önskade intervallet i (b). Håller du med honom? Motivera noga ditt svar! 297. I ett försök mätte man hur värmeutvecklingen i stelnad cement påverkas av viktprocenten av trikalciumsilikat. För 13 olika cementblock, med varierande viktprocent trikalciumsilikat, noterade man värmeutvecklingen (enhet: kalorier per gram cement). Resultat: viktprocent värmeutveckling Man ansatte en modell där värmeutvecklingen (y) berodde linjärt på viktprocenten (x): y i = α + β x i + ɛ i, i = 1,..., 13 där ɛ 1,..., ɛ 13 är oberoende och N (0, σ). Man analyserade data med ett beräkningsprogram och fick följande resultat: Koefficient Skattning Konfidensintervall (95%) α (38.74, 76.11) β (0.42, 1.16) Vidare fick man skattningen av σ till 9.08 och förklaringsgraden R 2 =0.67. Man ritade också ut några figurer, se nedan.

132 Sambandsanalys - regression och korrelation Linear Regression 120 varmeutv Residuals viktprocent Normplot of Residuals

133 134 Sambandsanalys - regression och korrelation (a) Är den antagna modellen lämlig att ansätta för data? (b) Påverkas värmutvecklingen av viktprocenten av trikalciumsilikat? Motivera ditt svar! (c) Man vill veta hur mycket värmeutvecklingen ändras då trikalciumsilikatinnehållet ökas med 10 viktprocent. Gör ett 95% konfidensintervall för denna förändring. (d) Avgör om följande påståenden är sanna eller falska. (i) Om vi ökar konfidensgraden från 95% till i 99% i intervallet för β kommer intervallet att bli bredare. (ii) I nästa vecka ska vi göra ett nytt experiment där viktprocenten trikalciumsilicat i cementblocket är 30. Med 95% säkerhet kommer värmeutvecklingen i detta cementblock att vara mellan ungefär 60 och 103 kalorier per gram cement. (iii) Från plotten över residualerna i figuren kan vi dra slutsatsen att värmeutvecklingen inte verkar påverkas av viktprocenten trikalciumsilicat. (iv) Det är det bredare bandet i den övre plotten som anger konfidensintervallet för linjens läge. (v) Om observationerna hade varit mer samlade kring den skattade linjen hade skattningen av σ varit lägre DATAMATERIAL: spillepengen. Vid Spillepengens avfallsstation i Lomma finns bassänger för specialavfall. I en s.k. öppen (aktiv) bassäng togs mätningar av en rad variabler varje årstid under tre år. I april 1994, efter vårens mätning, täcktes bassängen över men mätningarna fortsatte ett tag till med samma frekvens. Nedan är angivet mängden klorid (g/l) under den aktuella tidsperioden, de finns också i filen spillepengen. Årtal April Juni Sept Dec (a) Använd de angivna data för att skatta hur stor den årliga minskningen av klorid är då bassängen är täckt. Ange även ett 95% konfidensintervall för denna minskning. Var noga med att ange vilken modell du utgår från. (b) Uppskatta när genomsnittlig kloridhalt i bassängen kommer att vara nere på 20 g/l.

134 Sambandsanalys - regression och korrelation Volymen av blod som strömmar från hjärtat efter en hjärtmuskelsammandragning kallas slagvolymen. Vid en medicinisk undersökning av sambandet mellan slagvolym och ålder fick man följande data: Ålder: Slagvolym: Räknehjälp: Om x i är ålder för person i och y i slagvolymen för person i gäller att x = 45; ȳ = ; s 2 x = 1 (xi x) 2 = 275; s y = 1 (yi ȳ) 2 = Dessutom är SS x = (x i x) 2 = 2750; SP xy = (x i x)(y i ȳ) = 755; SS y = (yi ȳ) 2 = (a) Har åldern en signifikant inverkan på slagvolymen? (b) Hur stor är den genomsnittliga skillnaden i slagvolym mellan en 25-åring och en 55-åring? Gör ett lämpligt intervall. (c) Vad är den förväntade slagvolymen hos en 50-åring? Gör ett lämpligt intervall. (d) För en individ är slagvolymen cirka 75 ml. Gör en uppskattning av individens ålder DATAMATERIAL: gasforbr. I en undersökning i England lät man invånarna i 15 olika hus under en längre period notera skillnaden mellan innetemperatur och utetemperatur samtidigt som den dagliga gasförbrukningen (kwh) mättes. Följande är genomsnittsvärden för respektive hus, data finns också i filen gasforbr: Tempskillnad ( C) Gasförbrukning (kwh) Tempskillnad ( C) Gasförbrukning (kwh) Man antar att daglig gasförbrukning (y) beror linjärt på temperaturskillnaden (x) enligt y i = α + βx i + ɛ i där ɛ 1,..., ɛ 15 är oberoende normalfördelade slumpfel N (0, σ).

135 136 Sambandsanalys - regression och korrelation (a) Undersök om den antagna modellen är rimlig. (b) Hur mycket ökar gasförbrukningen då temperaturskillnaden ökar en grad? Gör ett lämpligt konfidensintervall. (c) Energimyndigheten vill att högst 5% av husen ska ha en daglig gasförbrukning som överstiger 100 kwh. Det kan uttryckas som att sannolikheten att gasförbrukningen vid en viss temperaturskillnad, x 0, överstiger 100 ska vara högst Vilken är då den högsta acceptabla temperaturskillnaden? 301. DATAMATERIAL: uppsala. Anders Celcius började göra dagliga mätningar av temperaturen i Uppsala redan år Allt sedan dess har mätningarna fortsatt och utgör nu en unik serie av temperaturnoteringar. I filen uppsala finns juli månads minimitemperaturer under perioden (a) Plotta minimitemperaturerna mot år och anpassa en linjär regressionsmodell. Vad är dina slutsatser från denna modellanpassning? (b) Då man tittar på data och på residualerna i den ovanstående modellen kan man ana att minimitemperaturerna ökat under de första decennierna för att sedan bli mera konstant. För att försöka fånga upp detta vill man anpassa ett angradspolynom till data. Ange vilka modellantaganden om data man gör då. (c) Anpassa ett andragradspolynom till temparaturmätningarna. Undersök om residualerna i denna modell verkar vara oberoende I en rapport där man undersökt halten av NO 2 under 15 vintersäsonger i en större stad kunde man läsa Den linjära regressionsanalysen visar att trenden för tidsserien är en årlig minskning med i genomsnitt 0.6 µg/m 3 (P-värde=0.03). (a) Dessa slutsatser utgår från en statistisk modell, ange den. (b) Det angivna P-värdet syftar på ett hypotestest angående en av modellens parametrar, ange hypoteserna DATAMATERIAL: kloridhalt. Vid en mätstation vid en sjö uppmättes kloridhalten (mg/l) i vattnet varje sommarmånad under en längre period. I filen kloridhalt finns mätningar från julimånaderna (variabel cljuli) och augustimånaderna (variabel claug) under åren (a) Använd mätningarna från augusti och undersök om en linjär regressionsmodell är rimlig att använda då man vill beskriva hur Cl-halten varierat under den studerade perioden. Om så är fallet, ange parametrarna i den skattade modellen.

136 Sambandsanalys - regression och korrelation 137 (b) Använd mätningarna från augusti och anta att modellen i (a) är rimlig. Undersök om det finns en signifikant trend i Cl-halt under den studerade perioden. (c) Wilma anser att när man ska svara på frågan i (b) borde man även använda juli månads mätningar i analysen och basera modellen i (a) på samtliga 20 talpar. Håller du med Wilma? Motivera ditt svar! (d) Vår erfarenhet är att kloridhalten här i sjön är i genomsnitt 0.5 mg/l högre i augusti än i juli säger en av provtagarna. Undersök om angivna data motsäger detta uttalande I en undersökning av metaller i biota mätte man ett år halten Cd (mg/kg) i lever och njure på 13 älgar i Kronobergs län. Samtidigt bedömdes älgens ålder. Resultat för Cd-halt i lever: Älg nr Ålder (år) Cd-halt (mg/kg) Älg nr Ålder (år) Cd-halt (mg/kg) Vilma detaljstuderar Cd-halten i njure hos de 13 älgarna och funderar på vilken Cd-halt en 3 år gammal älg kan ha. Hon plottar bl.a. Cd-halt mot ålder (se figuren nedan) och kommer på idén att skatta en regressionslinje, y = α + βx, vilket ger följande resultat i ett beräkningsprogram: Koefficient Skattning 95% konfidensintervall α (-0.551, 1.157) β (1.285, 2.222) (a) Utgående från denna tabell skattar Vilma Cd-halten hos en 3-årig älg. Vad får hon för resultat?

137 138 Sambandsanalys - regression och korrelation (b) Vad har Vilma för antagande om data när hon gör sin regressionsanalys? Kommentera också det lämpliga i att göra denna analys DATAMATERIAL: cyanid. Vid en kemisk industri ville man utveckla en metod för att undersöka mängden av cyanid (CN ) i avloppsvattnet. I litteraturen fann man en fotometrisk metod som verkade lämplig och nästa steg var att finna en lämplig kalibreringsfunktion. En cyanidlösning gjordes och spädes i olika koncentrationer varefter absorbansen mättes. Data finns i fil cyanid. (a) Finn en lämplig kalibreringskurva för data, dvs hitta en lämplig funktion som beskriver sambandet mellan absorbans och koncentration. (b) Vid ett tillfälle då man tagit ett prov från avloppsvattnet visade instrumentet på en absorbans på 0.8. Ange en skattning av motsvarande cyanidkoncentration i provet DATAMATERIAL: co2data I filen co2 finns koldioxidhalterna över en vulkan varje månad under en period av 32 år, dvs totalt finns = 384 mätvärden. (a) Titta på de 384 mätvärdena som ligger i vektorn co2data. Det finns uppenbarligen en kraftig periodicitet (årsvariation) i mätningarna, och en sådan låter sig inte så lätt fångas med en polynomiell regressionsfunktion. Detta problem kan lösas på flera sätt. Här har vi medelvärdesbildat över varje år och årsmedelvärdena finns i vektorn co2medel. (b) För att kunna använda regressionsmodeller behöver vi skapa en vektor med den förklarande variabeln (årtalet, räknat från lämplig nollpunkt). >> x=(1:32); Plotta årsmedelvärdena. >> plot(x,co2medel, o ) (c) Vi skall nu göra polynomregression på materialet, dvs vår modell är y i = β 0 + β 1 x i + β 2 x 2 i + + β k x k i + ɛ i, i = 1,..., 32, där ɛ i är oberoende likafördelade störningar med väntevärdet 0 och variansen σ 2. Börja med att anpassa en enkel linjär regressionsmodell till datamaterialet med hjälp av rutinen reggui, d.v.s. polynomets ordningsgrad k = 1. Verkar en rät linje vara en tillfredsställande regressionsmodell? Studera residualerna (ev trender, ev normalfördelade, ev beroende) samt konfidensintervallen för parametrarna.

138 Sambandsanalys - regression och korrelation 139 (d) Nästa steg är att försöka anpassa en kvadratisk funktion till mätvärdena, d.v.s. vi använder ordningstalet k = 2 för regressionspolynomet (observera att du kan göra detta enkelt m.h.a. knappen degree i reggui). Verkar den kvadratiska modellen vara bättre än den linjära? Verkar det rimligt att anta normalfördelade störningar? (e) Undersök vidare med polynom av högre gradtal. Gör en bedömning av figurerna och utskriften med de skattade parametrarna och konfidensintervallen och avgör vilken polynommodell som är mest adekvat. (f) Om ni är bekanta med begreppet autokorrelationsfunktion (kommer i avsnittet om tidsserier) kan ni undersöka om det tycks finnas något beroende hos residualerna genom att använda funktionen corrf. Så här kan kommandona se ut för den kvadratiska modellen: >> help corrf >> [b bint res2]=regress(co2medel,[ones(1,32) x x.^2]) (% vi vill ha ut residualerna från den kvadratiska modellen) >> r=corrf(res2-mean(res2),8) >> plot([0:7],r) 307. DATAMATERIAL: radioaktivitet. Det radioaktiva grundämnena americium (Am) och plutonium (Pu) bildas vid kärnreaktioner. Koncentrationen av isotopen 241 Am är relativt lätt och billig att bestämma noggrant med hjälp av en gammastrålningsspektrometer. Koncentrationbestämningar av isotopen 239,240 Pu (plutonium) är däremot svårare att göra noggrant och är dessutom mycket dyrbara. Man vill därför undersöka om sambandet mellan de två olika radioaktiva ämnena är så bra att man, då man vill uppskatta Pu-koncentrationen, kan använda sig av Am-koncentrationen i stället. Från ett område i Nevadaöknen, där kärnvapensprängningar utförts, togs jordprover från olika platser och koncentrationerna av 241 Am respektive 239,240 Pu mättes. Enheten är nci/m 2. koncentration av 241 Am: koncentration av 239,240 Pu: Data finns i filen radioaktivitet. Antag att koncentrationen av 239,240 Pu, y k, beskrivs linjärt av koncentrationen av 241 Am, x k, bortsett från en normalfördelad slumpmässig variation, dvs y k = α + βx k + ɛ k, k = 1,..., 5 där ɛ k är oberoende normalfördelade slumpfel med väntevärde 0 och varians σ 2. (a) Plotta data och skatta parametrarna i modellen. (b) Syftet med undersökningen var att undersöka om man kan använda Am-koncentrationen då Pu-koncentrationen söks och man funderar på vilka villkor som bör vara uppfyllda. Ange om följande påståenden kring modellen ovan är sanna eller falska.

139 140 Sambandsanalys - regression och korrelation i. Parametern α måste vara nära 0. ii. Parametern β måste vara nära 1. iii. Korrelationskoefficienten mellan x och y bör vara nära 1. (c) Antag att man i ett prov uppmäter koncentrationen av 241 Am till 1230 (nci/m 2 ), ange gränser mellan vilka koncentrationen av 239,240 Pu i detta prov befinner sig med 95% sannolikhet. (3p) (d) Antag att man i ett prov uppmäter koncentrationen av 241 Am till 2500 (nci/m 2 ), vad kan du dra för slutsatser om koncentrationen av 239,240 Pu i detta prov? 308. I en undersökning av sambandet mellan kokpunkt (enhet: grader Farenheit) och luftryck (enhet: tum kvicksilver) gjorde den skotske fysikern James D. Forbes en serie mätningar mellan 1840 och 1850, totalt 17 mätningar på olika platser i Skottland och Alperna. Vid en linjär regressionsanalys med lufttryck som förklarande variabel och kokpunkt som beroende variabel fick man följande resultat: Parameter skattning 95% konfidensintervall α (153.3, 157.3) β (1.82, 1.98) Har lufftrycket en signifikant effekt på kokpunten? Motivera ditt svar! 309. DATAMATERIAL: sjodata. Klorofyll-a används som ett mått på en sjös vattenkvalitet, ett högt värde på klorofyll-a tyder på att sjön är eutrofierad. Eftersom fosfor är ett ämne som stimulerar övergödningen var man intresserad av hur värdet på klorofyll-a kunde beskrivas med hjälp av koncentrationen av fosfor. I filen sjodata finns data från 25 sjöar i USA. (a) I litteraturen kan man finna argument för att logaritmerade klorofyll-a värden bör modelleras som linjärt beroende av logaritmerade värden på fosfor. Undersök om denna modell verkar vara lämplig för dessa data. Ange i så fall det skattade sambandet.(2p) (b) Antag att modellen i (a) är rimlig. Du är intresserad av att förutsäga vad sjön Lake med fosforhalt 300 har för värde på klorofyll-a. Uppskatta detta värde och svara med ett lämpligt intervall. (c) Som en alternativ modell kan man tänka sig att logaritmerad klorofyll-a kan beskrivas med ett lämpligt polonym av (ologaritmerad) fosforhalt. Hur ser då den ansatta modellen ut? Undersök om denna modell verkar rimlig för data. (d) Vilken av de två modellerna tycker du ger den bästa beskrivningen av sambandet mellan klorofyll-a och fosfor. Motivera ditt svar!

140 Sambandsanalys - regression och korrelation DATAMATERIAL: buss. Hur avgör man vilken som är den lämpligaste regressionsmodellen? I ett examensarbete vid LTH funderade man över vilka faktorer som påverkar hurvida en person tar bussen eller ett annat färdemedel i stadstrafik. Från ett antal städer i Västsverige studerar man hållplatser utmed vissa utvalda busslinjer. I detta material har vi 49 olika hållplatser. För varje hållplats har man lokaliserat ett närområde, d.v.s det bostadsområde som naturligt tillhör just denna hållplats. Uppmätta variabler för varje hållplats och närområde är: resandel= (antal resande från hållplatsen en viss tidsperiod)/ (totala antalet invånare i närområdet) avst= avstånd från hållplatsen till stadens centrumpunkt (d.v.s. en plats där många stiger av) restid= restiden med buss från hållplatsen till stadens centrumpunkt ink= medelinkomsten ( kr) hos invånarna i hållplatsens närområde bil= bilinnehav i närområdet ((antal bilar)/(antal invånare i närområdet)) Data finns i filen buss. (a) Vilka variabler samvarierar? Starta med att direkt lägga alla data i en matris och beräkna parvisa korrelationskoefficienter >> bussmatris=[resandel avst restid ink bil] >> corrcoeff(bussmatris) Tolkningen av den första raden i matrisen är att där visas ρ resandel,reasndel, ρ resandel,avst, ρ resandel,restid, ρ resandel,ink samt ρ resandel,bil. De övriga raderna tolkas på motsvarande sätt. Vi vill bygga en modell där andelen resande från en hållplats kan förklaras m.h.a. en eller flera av variablerna avst, restid, ink och bil. En stark samvariation mellan resandel (vår responsvariabel) och en annan variabel tyder på att denna variabel kanske kan användas som förklarande variabel i vår modell. En stark samvariation mellan två tänkbara förklarande varaibler är däremot oroväckande. Det tyder på att de i princip mäter samma sak och i modelltänkande innebär det att det kanske räcker med att ha en av de två variablerna med i modellen. Utifrån korrelationsmatrisen, vilka variabler tror ni påverkar andelen resande? Finns det någon variabel som verkar onödig? Resonera också utifrån vad variablerna mäter.

141 142 Sambandsanalys - regression och korrelation (b) Vilka variabler ska vi ta med i modellen? Lite förenklat arbetar vi enligt dessa kriterier när vi väljer modell. Vi eftersträvar en modell där: koefficienterna framför samtliga förklarande variabler ska vara signifikant skilda från 0 skattningen av modellens σ ska vara liten residualerna plottade mot de förklarande variablerna ska bete sig slumpmässigt (inga mönster) och helst kunna anpassas till en normalfördelning När man ska avgöra vilka variabler som bör vara med i modellen har man i princip två strategier att välja mellan: Ta med samtliga variabler från början och ta bort variabler efter hand som inte verkar påverka. Plocka in variabler i modellen en efter en. Vi gör en variant av den första strategin. Låt de förklarande variablerna vara avst, bil och ink och utför en multipel regression: >> [b I_b r rint stats]=regress(resandel, [ones(49,1) avst bil ink]); >> b >> I_b >> stats i. Titta på de skattade parametrarna i vektorn b, vad är tolkningen av dem? Är de rimliga (går på rätt håll)? ii. Titta på konfidensintervallen i vektorn I b. Vilka av de tre förklarande variablerna bör vara med i modellen och vilka kan ni ta bort? iii. Titta på resultatet i variabeln stats. Det första talet anger förklaringsgraden R 2, det sista skattningen av σ 2 (de båda andra behöver ni inte bry er om). Skriv ner de båda resultaten. Både värdet på förklaringsgraden och skattningen av σ 2 är bra att titta på när man väljer mellan två modeller med samma antal förklarande variabler. iv. Om ni beslöt att ta bort någon eller några variabler, pröva den nya regressionsmodellen. Kanske är det ytterligare någon modell ni vill testa? Jämför även förklaringsgrader och σ 2 -skattningar. Vad är ert slutliga förslag på förklarande variabler? v. Ni såg tidigare att det fanns en stark samvariation mellan avst och restid eftersom de i pricip mäter samma sak. Pröva vad som händer om ni även plockar in restid i modellen. (c) Ytterligare kontroll av modellen När ni bestämt er för vilka variabler som bör vara med ska ni kontrollera att modellens residualer beter sig som man förväntar sig. Avsluta därför med att plotta

142 Sambandsanalys - regression och korrelation 143 residualerna mot var och en av de förklarande variablerna. Undersök också om residualerna kan tänkas vara normalfördelade. Sammanfatta er analys genom att skriva upp er fullständiga modell! 311. Följande figur och tabell är hämtad från ett material skrivet av Institutet för Vatten och Luftvårdsforskning (IVL). Det beskriver en tillämpning av trendanalys baserat på regressionsanalys. (a) Tolka den information som ges i figur och tabell. Värdena i tabellen bygger naturligtvis på att man tänkt sig en bakomliggande modell för data, hur ser den ut? Hur är de angivna siffrorna kopplade till modellen? Vad är tolkningen av tabellens värden? (b) Kommentera om den modell du angivet i (a) passar till data. Om inte, vad är fel? Hur skulle du vilja göra i stället? 312. DATAMATERIAL: Ytvattenflöden. Vid en undersökning av hur antropogena föroreningar sprids och fördelar sig i naturen mätte man koncentrationerna av natrium och klorid i ytvattenflödena i centrala Rhode Island. För att beskriva och studera sambandet mellan kloridjonkoncentrationen, y i (mg/l), i floderna och graden av antropogen påverkan, x i (%), valde man att använda en regressionsmodell. I det här fallet mättes x i som andelen av arean i motsvarande avrinningsområde som utgörs av körbanor. Observationsparen finns i nedanstående tabell samt i filen ytvatten.mat. y x y x För att beskriva sambandet mellan kloridjonkoncentrationen och proportionen av körbanor kan man använda någon av följande regressionsmodeller, den linjära (modell 1): y i = α 1 + β 1 x i + ɛ i,

143 144 Sambandsanalys - regression och korrelation där ɛ i N (0, σ 1 ) eller den transformerade linjära (modell 2): där ɛ i N (0, σ 2). ln(y i ) = α 2 + β 2 x i + ɛ i, (a) Undersök vilken av modellerna som bör fungera bäst, det ska klart framgå vilka argument som ni baserar ert modellval på. (b) Skatta de tre parametrarna i den modell ni valt. (c) Om andelen körbanor x är uppmätt till 1.2 % i ett område, vilken koncentration y bör man då få i motsvarande vattendrag? a med ett lämpligt intervall. Använd den regressionsmodell ni valt i (a) DATAMATERIAL: Marianergraven. Vid en undersökning av biomassans djupfördelning i Marianergraven fick man följande resultat: vattendjup, x i (1000 m) biomassa, y i (g/m 3 ) För att beskriva sambandet mellan vattendjup och biomassa kan man använda någon av följande regressionsmodeller, den linjära (modell 1): där ɛ 1,..., ɛ 9 är oberoende och N (0, σ 1 ); eller den transformerade linjära (modell 2): y i = α 1 + β 1 x i + ɛ i, i = 1,..., 9 där e 1,..., e 9 är oberoende och N (0, σ 2 ). ln(y i ) = α 2 + β 2 x i + e i, i = 1,..., 9 (a) Betrakta resultatet från analysen av modell 1. Kan vi utifrån detta resultat påvisa ett samband mellan vattendjup och biomassa? Besvara frågan genom att sätta upp lämpliga hypoteser och utföra testet på 5% signifikansnivå. (b) Vilken av de två modellerna bör fungera bäst? I din motivering ska det klart framgå vilka egenskaper i plottarna och tabellerna du baserar ditt modellval på. Rätt val i denna deluppgift är en förutsättning för att kunna få full poäng på efterföljande deluppgifter. (c) Gör en skattning av den förväntade biomassan på 3000 meters djup uppskatta ett lämpligt 95% intervall för denna storhet. Det måste klart framgå hur uppskattningen är gjord.

Gamla tentauppgifter i kursen Statistik och sannolikhetslära (LMA120)

Gamla tentauppgifter i kursen Statistik och sannolikhetslära (LMA120) Gamla tentauppgifter i kursen Statistik och sannolikhetslära (LMA120) Lärandemål I uppgiftena nedan anger L1, L2 respektive L3 vilket lärandemål de olika uppgifterna testar: L1 Ta risker som i förväg är

Läs mer

Mer om slumpvariabler

Mer om slumpvariabler 1/20 Mer om slumpvariabler Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/2 2013 2/20 Dagens föreläsning Diskreta slumpvariabler Vilket kretskort ska man välja? Väntevärde

Läs mer

Veckoblad 3. Kapitel 3 i Matematisk statistik, Blomqvist U.

Veckoblad 3. Kapitel 3 i Matematisk statistik, Blomqvist U. Veckoblad 3 Kapitel 3 i Matematisk statistik, Blomqvist U. ya begrepp: likformig fördelning, hypergeometerisk fördelning, Hyp(, n, p), binomialfördelningen, Bin(n, p), och Poissonfördelningen, Po(λ). Standardfördelningarna

Läs mer

SF1901: Övningshäfte

SF1901: Övningshäfte SF1901: Övningshäfte 5 september 2013 Uppgifterna under rubriken Övning kommer att gås igenom under övningstillfällena. Uppgifterna under rubriken Hemtal är starkt rekommenderade och motsvarar nivån på

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB ÖVNING 7 (25-4-29) OCH INFÖR ÖVNING 8 (25-5-4) Aktuella avsnitt i boken: 6.6 6.8. Lektionens mål: Du ska kunna sätta

Läs mer

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng Matematisk statistik Provmoment: Ladokkod: Tentamen ges för: TT091A, TVJ22A, NVJA02 Pu, Ti 7,5 högskolepoäng Namn: (Ifylles av student) Personnummer: (Ifylles av student) Tentamensdatum: 2012-05-29 Tid:

Läs mer

Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning Lunds tekniska högskola Matematikcentrum Matematisk statistik Laboration 4 Matematisk statistik AK för CDIFysiker, FMS012/MASB03, HT14 Laboration 4: Intervallskattning och hypotesprövning Syftet med den

Läs mer

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6): EM-fotboll 2012 några grafer Sport är en verksamhet som genererar mängder av numerisk information som följs med stort intresse EM i fotboll är inget undantag och detta dokument visar några grafer med kommentarer

Läs mer

1 10 e 1 10 x dx = 0.08 1 e 1 10 T = 0.08. p = P(ξ < 3) = 1 e 1 10 3 0.259. P(η 2) = 1 P(η = 0) P(η = 1) = 1 (1 p) 7 7p(1 p) 6 0.

1 10 e 1 10 x dx = 0.08 1 e 1 10 T = 0.08. p = P(ξ < 3) = 1 e 1 10 3 0.259. P(η 2) = 1 P(η = 0) P(η = 1) = 1 (1 p) 7 7p(1 p) 6 0. Tentamen TMSB18 Matematisk statistik IL 091015 Tid: 08.00-13.00 Telefon: 036-10160 (Abrahamsson, Examinator: F Abrahamsson 1. Livslängden för en viss tvättmaskin är exponentialfördelad med en genomsnittlig

Läs mer

TENTAMEN I STATISTIKENS GRUNDER 2

TENTAMEN I STATISTIKENS GRUNDER 2 STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson HT2012 TENTAMEN I STATISTIKENS GRUNDER 2 2012-11-20 Skrivtid: kl 9.00-14.00 Godkända hjälpmedel: Miniräknare, språklexikon Bifogade hjälpmedel:

Läs mer

SF1901: Övningshäfte

SF1901: Övningshäfte SF1901: Övningshäfte 24 september 2013 Uppgifterna under rubriken Övning kommer att gås igenom under övningstillfällena. Uppgifterna under rubriken Hemtal är starkt rekommenderade och motsvarar nivån på

Läs mer

Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar

Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar Sannolikhetslära och inferens II Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar 1 Diskreta slumpvariabler En slumpvariabel tilldelar tal till samtliga utfall i ett slumpförsök. Vi

Läs mer

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL Matematisk Statistik SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL Introduktion Detta är handledningen till Laboration 1, ta med en en utskriven kopia av den till laborationen.

Läs mer

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I G. Gripenberg Aalto-universitetet 28 januari 2014 G. Gripenberg (Aalto-universitetet) MS-A0509 Grundkurs i sannolikhetskalkyl

Läs mer

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I G. Gripenberg Sannolikheter Slumpvariabler Centrala gränsvärdessatsen Aalto-universitetet 8 januari 04 3 Tvådimensionella slumpvariabler

Läs mer

Laboration 1. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Laboration 1. i 5B1512, Grundkurs i matematisk statistik för ekonomer Laboration 1 i 5B1512, Grundkurs i matematisk statistik för ekonomer Namn:........................................................ Elevnummer:.............. Laborationen syftar till ett ge information

Läs mer

SF1901: Övningshäfte

SF1901: Övningshäfte SF1901: Övningshäfte 13 oktober 2013 Uppgifterna under rubriken Övning kommer att gås igenom under övningstillfällena. Uppgifterna under rubriken Hemtal är starkt rekommenderade och motsvarar nivån på

Läs mer

Sannolikhetslära. 19 februari 2009. Vad är sannolikheten att vinna om jag köper en lott?

Sannolikhetslära. 19 februari 2009. Vad är sannolikheten att vinna om jag köper en lott? Sannolikhetslära 19 februari 009 Vad är en sannolikhet? I vardagen: Vad är sannolikheten att vinna om jag köper en lott? Borde jag ta paraply med mig till jobbet idag? Vad är sannolikheten att det kommer

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Intervallskattning och hypotesprövning LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 4 MATEMATISK STATISTIK AK FÖR CDIFYSIKER, FMS012/MASB03, HT12 Laboration 4: Intervallskattning och hypotesprövning Syftet med den

Läs mer

Lösningar till tentamen i Matematisk Statistik, 5p

Lösningar till tentamen i Matematisk Statistik, 5p Lösningar till tentamen i Matematisk Statistik, 5p LGR00 6 juni, 200 kl. 9.00 1.00 Kursansvarig: Eric Järpe Maxpoäng: 0 Betygsgränser: 12p: G, 21p: VG Hjälpmedel: Miniräknare samt tabell- och formelsamling

Läs mer

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum 2009-12-17 Skrivtid 0900 1400

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum 2009-12-17 Skrivtid 0900 1400 LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum 2009-12-17 Skrivtid 0900 1400 Tentamen i: Statistik A1, 15 hp Antal uppgifter: 6 Krav för G: 13 Lärare:

Läs mer

Fö relä sning 1, Kö system 2015

Fö relä sning 1, Kö system 2015 Fö relä sning 1, Kö system 2015 Här följer en kort sammanfattning av det viktigaste i Föreläsning 1. Kolla kursens hemsida minst en gång per vecka. Övningar kommer att läggas ut där, skriv ut dem och ha

Läs mer

Sannolikhet och statistik med Matlab. Måns Eriksson

Sannolikhet och statistik med Matlab. Måns Eriksson Sannolikhet och statistik med Matlab Måns Eriksson 1 Inledning Det här kompiet är tänkt att användas för självstudier under kursen Sannolikhet och statistik vid Uppsala universitet. Målet är att använda

Läs mer

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I MATEMATISK STATISTIK UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för Teknologer, 5 poäng MSTA33 Ingrid Svensson TENTAMEN 2004-01-13 TENTAMEN I MATEMATISK STATISTIK Statistik för Teknologer, 5 poäng Tillåtna

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt. Tentamen i Matematisk statistik, S0001M, del 1, 007-10-30 1. En viss typ av komponenter tillverkas av en maskin A med sannolikheten 60 % och av en maskin B med sannolikheten 40 %. För de komponenter som

Läs mer

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015 SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 12 oktober 2015 PLAN FÖR DAGENS FÖRELÄSNING Icke-parametsriska metoder. (Kap. 13.10) Det grundläggande

Läs mer

Tentamen i matematisk statistik för BI2 den 16 januari 2009

Tentamen i matematisk statistik för BI2 den 16 januari 2009 Tentamen i matematisk statistik för BI den 6 januari 9 Uppgift : Ett graviditetstest att använda i hemmet är inte helt tillförlitligt. Ett speciellt test visar positivt resultat för kvinnor, som inte är

Läs mer

LINKÖPINGS UNIVERSITET EXAM TAMS 79 / TEN 1

LINKÖPINGS UNIVERSITET EXAM TAMS 79 / TEN 1 LINKÖPINGS UNIVERSITET Matematiska institutionen EXAM TAMS 79 / TEN 1 augusti 14, klockan 8.00-12.00 Examinator: Jörg-Uwe Löbus Tel: 28-1474) Tillåtna hjälpmedel är en räknare, formelsamling i matematisk

Läs mer

7-2 Sammansatta händelser.

7-2 Sammansatta händelser. Namn: 7-2 Sammansatta händelser. Inledning Du vet nu vad som menas med sannolikhet. Det lärde du dig i kapitlet om just sannolikhet. Nu skall du tränga lite djupare i sannolikhetens underbara värld och

Läs mer

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II G. Gripenberg Aalto-universitetet 13 februari 2015 G. Gripenberg (Aalto-universitetet) MS-A0509 Grundkurs i sannolikhetskalkyl och

Läs mer

Stokastisk geometri. Lennart Råde. Chalmers Tekniska Högskola och Göteborgs Universitet

Stokastisk geometri. Lennart Råde. Chalmers Tekniska Högskola och Göteborgs Universitet Stokastisk geometri Lennart Råde Chalmers Tekniska Högskola och Göteborgs Universitet Inledning. I geometrin studerar man geometriska objekt och deras inbördes relationer. Exempel på geometriska objekt

Läs mer

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 13 november 2004, kl. 09.00-13.00

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 13 november 2004, kl. 09.00-13.00 Karlstads universitet Institutionen för informationsteknologi Avdelningen för statistik Tentamen i Statistik, STA A Deltentamen, 4p november 004, kl. 09.00-.00 Tillåtna hjälpmedel: Bifogad formel- och

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

1 Förberedelseuppgifter

1 Förberedelseuppgifter LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 2 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02 Syfte: Syftet med dagens laborationen är att du skall: bli

Läs mer

En introduktion till och första övning i @Risk5 for Excel

En introduktion till och första övning i @Risk5 for Excel LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg / Lars Wahlgren VT2012 En introduktion till och första övning i @Risk5 for Excel Vi har redan under kursen stiftat bekantskap med Minitab

Läs mer

Uppgift 1 (14p) lika stor eller mindre än den förväntade poängen som efterfrågades i deluppgift d? Endast svar krävs, ingen motivering.

Uppgift 1 (14p) lika stor eller mindre än den förväntade poängen som efterfrågades i deluppgift d? Endast svar krävs, ingen motivering. Uppgift 1 (14p) I en hockeymatch mellan lag A och lag B leder lag A med 4-3 när det är en kvart kvar av ordinarie matchtid. En oddssättare på ett spelbolag behöver bestämma sannolikheten för de tre matchutfallen

Läs mer

Linjär algebra med tillämpningar, lab 1

Linjär algebra med tillämpningar, lab 1 Linjär algebra med tillämpningar, lab 1 Innehåll Per Jönsson Fakulteten för Teknik och Samhälle, 2013 Uppgifterna i denna laboration täcker kapitel 1-3 i läroboken. Läs igenom motsvarande kapitel. Sitt

Läs mer

Stockholms Universitet Statistiska institutionen Termeh Shafie

Stockholms Universitet Statistiska institutionen Termeh Shafie Stockholms Universitet Statistiska institutionen Termeh Shafie TENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2011-10-28 Skrivtid: 9.00-14.00 Hjälpmedel: Miniräknare utan lagrade formler eller text, bifogade

Läs mer

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Histogram, pivottabeller och tabell med beskrivande statistik i Excel Histogram, pivottabeller och tabell med beskrivande statistik i Excel 1 Histogram är bra för att dem på ett visuellt sätt ger oss mycket information. Att göra ett histogram i Excel är dock rätt så bökigt.

Läs mer

5.3 Sannolikhet i flera steg

5.3 Sannolikhet i flera steg 5.3 Sannolikhet i flera steg När man singlar slant kan man få utfallen krona eller klave. Sannolikheten att få klave är - och krona ^. Vad är sannolikheten att fä krona två. kast i rad? Träddlagram För

Läs mer

MATEMATISK STATISTIK FÖR V OCH L ÖVNINGSMATERIAL CENTRUM SCIENTIARUM MATHEMATICARUM HT 2012. Matematikcentrum Matematisk statistik

MATEMATISK STATISTIK FÖR V OCH L ÖVNINGSMATERIAL CENTRUM SCIENTIARUM MATHEMATICARUM HT 2012. Matematikcentrum Matematisk statistik MATEMATISK STATISTIK FÖR V OCH L ÖVNINGSMATERIAL HT 2012 Matematikcentrum Matematisk statistik CENTRUM SCIENTIARUM MATHEMATICARUM Innehåll 1 Innehåll 1 Övningsuppgifter 3 2 Lösningar 35 2 Matematisk statistik

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare "Det finns inget så praktiskt som en bra teori" November 2011 Vad kursen handlar om Kurslitteratur Examination Betygssättning Betygskriterier Vad kursen handlar om är inte en sedvanlig introduktionskurs

Läs mer

Föreläsning 1, Matematisk statistik för M

Föreläsning 1, Matematisk statistik för M Föreläsning 1, Matematisk statistik för M Erik Lindström 23 mars 2015 Erik Lindström - erikl@maths.lth.se FMS035 F1 1/30 Tillämpningar Praktiska detaljer Matematisk statistik slumpens matematik Sannolikhetsteori:

Läs mer

Del A: Begrepp och grundläggande förståelse

Del A: Begrepp och grundläggande förståelse STOCKHOLMS UNIVERSITET FYSIKUM K.H./C.F./C.W. Tentamensskrivning i Experimentella metoder, 1p, för kandidatprogrammet i fysik, 18/6 013, 9-14. Införda beteckningar skall förklaras och uppställda ekvationer

Läs mer

Stockholms Universitet Statistiska Institutionen VT-2009. Kursbeskrivning. Statistisk Teori I, grundnivå, 15 högskolepoäng

Stockholms Universitet Statistiska Institutionen VT-2009. Kursbeskrivning. Statistisk Teori I, grundnivå, 15 högskolepoäng Stockholms Universitet Statistiska Institutionen VT-2009 Kursbeskrivning Statistisk Teori I, grundnivå, 15 högskolepoäng Allmänt Kursen består av två moment: Moment 1. Grundläggande statistisk teori, 12hp.

Läs mer

Studieplan och bedömningsgrunder i Matematik för åk 7 Moment Bedömningsgrunder för uppnåendemålen Begreppsbildning Tal och räkning

Studieplan och bedömningsgrunder i Matematik för åk 7 Moment Bedömningsgrunder för uppnåendemålen Begreppsbildning Tal och räkning Moment Begreppsbildning Mätningar och enheter Algebra och ekvationer Studieplan och bedömningsgrunder i Matematik för åk 7 Bedömningsgrunder för uppnåendemålen känna igen naturliga tal kunna positiva heltal:

Läs mer

MSG830 Statistisk analys och experimentplanering

MSG830 Statistisk analys och experimentplanering MSG830 Statistisk analys och experimentplanering Tentamen 16 April 2015, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel: Valfri

Läs mer

Del A: Begrepp och grundläggande förståelse

Del A: Begrepp och grundläggande förståelse STOCKHOLMS UNIVERSITET FYSIKUM KH/CW/SS Tentamensskrivning i Experimentella metoder, 1p, för kandidatprogrammet i fysik, /5 01, 9-14 Införda beteckningar skall förklaras och uppställda ekvationer motiveras

Läs mer

Algebra & Ekvationer. Svar: Sammanfattning Matematik 2

Algebra & Ekvationer. Svar: Sammanfattning Matematik 2 Algebra & Ekvationer Algebra & Ekvationer Parenteser En parentes När man multiplicerar en term med en parentes måste man multiplicera båda talen i parentesen. Förenkla uttrycket 42 9. 42 9 4 2 4 9 8 36

Läs mer

BIOSTATISTISK GRUNDKURS

BIOSTATISTISK GRUNDKURS BIOSTATISTISK GRUNDKURS ÖVNINGSMATERIAL VT 2011 Naturvetenskaplig fakultet Matematikcentrum Matematisk statistik CENTRUM SCIENTIARUM MATHEMATICARUM Övningsmaterial 1 Övningsuppgifter 1. I en stor befolkning

Läs mer

Lutande torn och kluriga konster!

Lutande torn och kluriga konster! Lutande torn och kluriga konster! Aktiviteter för barn under Vetenskapsfestivalens skolprogram 2001 Innehåll 1 Bygga lutande torn som inte faller 2 2 Om konsten att vinna betingat godis i spel 5 3 Den

Läs mer

Institutionen för beteendevetenskap Tel: 0733-633 266 013-27 45 57/28 21 03. Tentamen i kvantitativ metod Psykologi 2 HPSB05

Institutionen för beteendevetenskap Tel: 0733-633 266 013-27 45 57/28 21 03. Tentamen i kvantitativ metod Psykologi 2 HPSB05 Linköpings Universitet Jour; Ulf Andersson Institutionen för beteendevetenskap Tel: 0733-633 266 013-27 45 57/28 21 03 Tentamen i kvantitativ metod Psykologi 2 HPSB05 Torsdagen den 3/5 2007, kl. 14.00-18.00

Läs mer

F11 Två stickprov. Måns Thulin. Uppsala universitet thulin@math.uu.se. Statistik för ingenjörer 26/2 2013 1/11

F11 Två stickprov. Måns Thulin. Uppsala universitet thulin@math.uu.se. Statistik för ingenjörer 26/2 2013 1/11 1/11 F11 Två stickprov Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 26/2 2013 2/11 Dagens föreläsning Konfidensintervall när man har ihopparade stickprov Att väga samman skattningar

Läs mer

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1 STOCKHOLMS UNIVERSITET 2004-11-04 MATEMATISK STATISTIK Sannolikhetslära och statistik för lärare Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1 Programmet StarOffice Calc

Läs mer

Instruktioner till arbetet med miniprojekt II

Instruktioner till arbetet med miniprojekt II Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS035: Matematisk statistik för M Miniprojekt II ENERGIFÖRBRUKNING FÖRE OCH EFTER ISOLERING AV HUS Instruktioner till arbetet med miniprojekt

Läs mer

(a) Beräkna sannolikhetsfunktionen p X (x). (2p) (b) Beräkna väntevärdet för X. (1p) (c) Beräkna standardavvikelsen för X. (1p)

(a) Beräkna sannolikhetsfunktionen p X (x). (2p) (b) Beräkna väntevärdet för X. (1p) (c) Beräkna standardavvikelsen för X. (1p) Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik, 5p. Tid: Lördag den 14 april, 2007 kl 14.00-18.00 i V-huset. Examinator: Olle Nerman, tel 7723565. Jour: Alexandra Jauhiainen,

Läs mer

LABORATIONER. Det finns en introduktionsfilm till Minitab på http://www.screencast.com/t/izls2cuwl.

LABORATIONER. Det finns en introduktionsfilm till Minitab på http://www.screencast.com/t/izls2cuwl. UMEÅ UNIVERSITET Institutionen för Matematik och Matematisk Statistik Statistiska Metoder 5MS010, 7.5 hp Kadri Meister Rafael Björk LABORATIONER Detta dokument innehåller beskrivningar av de tre laborationerna

Läs mer

Föreläsning 4. 732G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Föreläsning 4. 732G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin Föreläsning 4 732G19 Utredningskunskap I Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin Dagens föreläsning Systematiskt urval Väntevärdesriktiga skattningar Jämförelse med OSU Stratifierat

Läs mer

Lunds tekniska högskola Matematikcentrum Matematisk statistik. Övningsuppgifter Matematisk statistik AK för M, FMS 035, VT-14. 1 Sannolikhetsteori 1

Lunds tekniska högskola Matematikcentrum Matematisk statistik. Övningsuppgifter Matematisk statistik AK för M, FMS 035, VT-14. 1 Sannolikhetsteori 1 Lunds tekniska högskola Matematikcentrum Matematisk statistik Övningsuppgifter Matematisk statistik AK för M, FMS 035, VT-14 Innehåll 1 Sannolikhetsteori 1 2 Inferensteori 19 3 41 4 Fullständiga lösningar

Läs mer

antal miljoner 3,0 2,5 2,0 1,5 1,0 0,5

antal miljoner 3,0 2,5 2,0 1,5 1,0 0,5 Tabeller och diagram Mål När eleverna studerat det här kapitlet ska de kunna: hämta fakta ur tabeller läsa av och tolka olika typer av diagram beräkna medelvärde bestämma median göra en enkel undersökning

Läs mer

TNIU66: Statistik och sannolikhetslära

TNIU66: Statistik och sannolikhetslära Institutionen för teknik och naturvetenskap TNIU66: Statistik och sannolikhetslära Kursinformation 2015 Kursens mål och förväntade läranderesultat Kursens mål är att ge en introduktion till matematisk

Läs mer

TAMS28 DATORÖVNING 1-2015 VT1

TAMS28 DATORÖVNING 1-2015 VT1 TAMS28 DATORÖVNING 1-2015 VT1 Datorövningen behandlar simulering av observationer från diskreta och kontinuerliga fördelningar med hjälp av dator, illustration av skattningars osäkerhet, analys vid parvisa

Läs mer

Matematik 1A 4 Potenser

Matematik 1A 4 Potenser Matematik 1A 4 Potenser förklara begrepp t ex. potens, bas, exponent och grundpotensform (Nivå E C) tolka, skriva och räkna med tal i grundpotensform (Nivå E A) helst kunna redogöra för räkneregler för

Läs mer

Del 2: Hantering och bedömning av data och osäkerheter

Del 2: Hantering och bedömning av data och osäkerheter Del 2: Hantering och bedömning av data och osäkerheter Praktikfall: Kv. Verkstaden 14 Teori: Representativ halt, referenshalt, stickprov & beskrivande statistik, konfidensintervall & UCLM95 Diskussion:

Läs mer

Bayesianska numeriska metoder I

Bayesianska numeriska metoder I Baesianska numeriska metoder I T. Olofsson Marginalisering En återkommende teknik inom Baesiansk inferens är det som kallas för marginalisering. I grund och botten rör det sig om tillämpning av ett specialfall

Läs mer

Laborationer i statistik för A:1, Lab 1

Laborationer i statistik för A:1, Lab 1 Mittuniversitetet 2006-08-31 1 Laborationer i statistik för A:1, Lab 1 Laborationsanvisningar Genomförande Gå igenom laborationen i basgruppen och diskutera vilka lärandemål ni eventuellt behöver tillföra

Läs mer

En aktuaries synpunkter på könsneutrala premier

En aktuaries synpunkter på könsneutrala premier En aktuaries synpunkter på könsneutrala premier Erland Ekheden erland@math.su.se och försäkringsmatematik Stockholms universitet Bakgrund Introduktion Vi aktuarier har levt i Sus och Dus de senaste åren...

Läs mer

Del I: Digitala verktyg är inte tillåtna. Endast svar krävs. Skriv dina svar direkt i provhäftet.

Del I: Digitala verktyg är inte tillåtna. Endast svar krävs. Skriv dina svar direkt i provhäftet. Del I: Digitala verktyg är inte tillåtna. Endast svar krävs. Skriv dina svar direkt i provhäftet. 1) a) Bestäm ekvationen för den räta linjen i figuren. (1/0/0) b) Rita i koordinatsystemet en rät linje

Läs mer

Mätning av fokallängd hos okänd lins

Mätning av fokallängd hos okänd lins Mätning av fokallängd hos okänd lins Syfte Labbens syfte är i första hand att lära sig hantera mätfel och uppnå god noggrannhet, även med systematiska fel. I andra hand är syftet att hantera linser och

Läs mer

Kvantitativa metoder och datainsamling

Kvantitativa metoder och datainsamling Kvantitativa metoder och datainsamling Kurs i forskningsmetodik med fokus på patientsäkerhet 2015-09-23, Peter Garvin FoU-enheten för närsjukvården Kvantitativ och kvalitativ metodik Diskborsten, enkronan

Läs mer

Barn- och ungdomsenkät i Kronobergs län Årskurs 5

Barn- och ungdomsenkät i Kronobergs län Årskurs 5 Barn- och ungdomsenkät i Kronobergs län Årskurs 5 Hur mår du? Anledningen till att vi gör den här undersökningen är att vi vill få kunskap om ungas hälsa och levnadsvanor. Alla elever i årskurserna 5,

Läs mer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng. 1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga

Läs mer

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS, Avd. Matematisk statistik TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS, TORSDAGEN DEN 7 JUNI 2012 KL 14.00 19.00 Examinator:Gunnar Englund, 073 3213745 Tillåtna hjälpmedel: Formel- och

Läs mer

FLÖDESMÄTNING I TULLBODEN

FLÖDESMÄTNING I TULLBODEN FLÖDESMÄTNING I TULLBODEN MÄTRAPPORT Figur 1: Mätpunkten i brunnen till höger i bild. Rapport Göteborg 2013-01-09 Uppdragsnummer 1351719000 SWECO Gullbergs strandgata 3 Box 2203, 403 14 Göteborg Telefon

Läs mer

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs Matematisk statistik KTH Formel- och tabellsamling i Matematisk statistik, grundkurs Varterminen 2005 . Kombinatorik ( ) n = k n! k!(n k)!. Tolkning: ( n k mängd med n element. 2. Stokastiska variabler

Läs mer

Gasverkstomten Västerås. Statistisk bearbetning av efterbehandlingsåtgärderna VARFÖR STATISTIK? STANDARDAVVIKELSE MEDELVÄRDE OCH MEDELHALT

Gasverkstomten Västerås. Statistisk bearbetning av efterbehandlingsåtgärderna VARFÖR STATISTIK? STANDARDAVVIKELSE MEDELVÄRDE OCH MEDELHALT Gasverkstomten Västerås VARFÖR STATISTIK? Underlag för riskbedömningar Ett mindre subjektivt beslutsunderlag Med vilken säkerhet är det vi tar bort över åtgärdskrav och det vi lämnar rent? Effektivare

Läs mer

GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

GRUNDLÄGGANDE STATISTIK FÖR EKONOMER Statistiska institutionen Annika Tillander TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2015-04-23 Skrivtid: 16.00-21.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller text, samt bifogade

Läs mer

5Chans och risk. Mål. Grunddel K 5. Ingressen

5Chans och risk. Mål. Grunddel K 5. Ingressen Chans och risk ål När eleverna har studerat det här kapitlet ska de kunna: förklara vad som menas med begreppet sannolikhet räkna ut sannolikheten för att en händelse ska inträffa känna till hur sannolikhet

Läs mer

Anna: Bertil: Cecilia:

Anna: Bertil: Cecilia: Marco Kuhlmann 1 Osäkerhet 1.01 1.02 1.03 1.04 1.05 Intelligenta agenter måste kunna hantera osäkerhet. Världen är endast delvist observerbar och stokastisk. (Jmf. Russell och Norvig, 2014, avsnitt 2.3.2.)

Läs mer

Sammanfattningar Matematikboken Y

Sammanfattningar Matematikboken Y Sammanfattningar Matematikboken Y KAPitel 1 TAL OCH RÄKNING Numeriska uttryck När man beräknar ett numeriskt uttryck utförs multiplikation och division före addition och subtraktion. Om uttrycket innehåller

Läs mer

Hur viktig är den? Kännetecken vad handlar miljö om?

Hur viktig är den? Kännetecken vad handlar miljö om? Fokusgrupp är en metod för att fördjupa sig i vissa frågor. I fokusgruppen får man fram vad som är viktigast för de som deltar. Politiker från demokratiberedningen och kommunfullmäktige har hållit i fokusgrupperna.

Läs mer

TNIU66: Statistik och sannolikhetslära

TNIU66: Statistik och sannolikhetslära Institutionen för teknik och naturvetenskap Michael Hörnquist, 1 februari 2013 TNIU66: Statistik och sannolikhetslära Kursinformation 2013 Mål och innehåll Kursens mål och förväntade läranderesultat enligt

Läs mer

Repetitionsuppgifter 1

Repetitionsuppgifter 1 Repetitionsuppgifter 1 1 Vilka tal pekar pilarna på? a) b) Skriv talen med siffror 2 a) trehundra sju b) femtontusen fyrtiofem c) tvåhundrafemtusen tre 3 a) fyra tiondelar b) 65 hundradelar c) 15 tiondelar

Läs mer

Övningstentamen i matematisk statistik

Övningstentamen i matematisk statistik Övningstentamen i matematisk statistik Uppgift : Från ett register över manliga patienter med diabetes fick man följande statistik i procent: Lindrigt fall Allvarligt fall Patientens Någon förälder med

Läs mer

Invånarnas uppfattning om hur gator, parker, vatten och avlopp samt avfallshantering sköts i Avesta kommun.

Invånarnas uppfattning om hur gator, parker, vatten och avlopp samt avfallshantering sköts i Avesta kommun. Invånarnas uppfattning om hur gator, parker, vatten och avlopp samt avfallshantering sköts i Avesta kommun. Sammanfattning av resultaten från en enkätundersökning våren 00 Avesta kommun Våren 00 genomförde

Läs mer

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 4 mars 2006, kl. 09.00-13.00

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 4 mars 2006, kl. 09.00-13.00 Karlstads universitet Avdelningen för statistik Tentamen i Statistik, STA A13 Deltentamen, 5p 4 mars 006, kl. 09.00-13.00 Tillåtna hjälpmedel: Bifogad formel- och tabellsamling (skall returneras) samt

Läs mer

Invånarnas uppfattning om hur gator, parker, vatten och avlopp samt avfallshantering sköts i Hagfors kommun.

Invånarnas uppfattning om hur gator, parker, vatten och avlopp samt avfallshantering sköts i Hagfors kommun. Invånarnas uppfattning om hur gator, parker, vatten och avlopp samt avfallshantering sköts i Hagfors kommun. Sammanfattning av resultaten från en enkätundersökning våren 2013 Hagfors kommun Våren 2013

Läs mer

MSG830 Statistisk analys och experimentplanering

MSG830 Statistisk analys och experimentplanering MSG830 Statistisk analys och experimentplanering Tentamen 20 Mars 2015, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel: Valfri

Läs mer

Mata in data i Excel och bearbeta i SPSS

Mata in data i Excel och bearbeta i SPSS Mata in data i Excel och bearbeta i SPSS I filen enkät.pdf finns svar från fyra män taget från en stor undersökning som gjordes i början av 70- talet. Ni skall mata in dessa uppgifter på att sätt som är

Läs mer

Aktivitetsuppgifter i kurs 602 Ekonomisk statistik, del 2, våren 2006

Aktivitetsuppgifter i kurs 602 Ekonomisk statistik, del 2, våren 2006 Handelshögskolan i Stockholm Anders Sjöqvist 2087@student.hhs.se Aktivitetsuppgifter i kurs 602 Ekonomisk statistik, del 2, våren 2006 Efter förra kursen hörde några av sig och ville gärna se mina aktivitetsuppgifter

Läs mer

Övningar till datorintroduktion

Övningar till datorintroduktion Institutionen för Fysik Umeå Universitet Ylva Lindgren Sammanfattning En samling uppgifter att göra i MATLAB, vilka ska utföras enskilt eller i grupp om två. Datorintroduktion Handledare: (it@tekniskfysik.se)

Läs mer

Datorövning 2 Fördelningar inom säkerhetsanalys

Datorövning 2 Fördelningar inom säkerhetsanalys Luds tekiska högskola Matematikcetrum Matematisk statistik STATISTISKA METODER FÖR SÄKERHETSANALYS FMS065, HT-15 Datorövig 2 Fördeligar iom säkerhetsaalys I dea datorövig ska vi studera ågra grudläggade

Läs mer

1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05

1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05 1(15) Bilaga 1 2(15) Neuronnätslaboration Räknare Denna laboration riktar sig till gymnasieelever som går en teknisk utbildning och som helst har läst digitalteknik samt någon form av styrteknik eller

Läs mer

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera

Läs mer

Eulercykel. Kinesiska brevbärarproblemet. Kinesiska brevbärarproblemet: Metod. Kinesiska brevbärarproblemet: Modell. Definition. Definition.

Eulercykel. Kinesiska brevbärarproblemet. Kinesiska brevbärarproblemet: Metod. Kinesiska brevbärarproblemet: Modell. Definition. Definition. Eulercykel Definition En Eulercykel är en cykel som använder varje båge exakt en gång. Definition En nods valens är antalet bågar som ansluter till noden. Kinesiska brevbärarproblemet En brevbärartur är

Läs mer

Matematisk statistik för B, K, N, BME och Kemister. Matematisk statistik slumpens matematik. Exempel: Utsläpp från Källby reningsverk.

Matematisk statistik för B, K, N, BME och Kemister. Matematisk statistik slumpens matematik. Exempel: Utsläpp från Källby reningsverk. Mtemtisk sttistik för B, K, N, BME och Kemister Föreläsning 1 John Lindström 1 september 2014 John Lindström - johnl@mths.lth.se FMS086/MASB02 F1 2/26 Exempel Tillämpningr Signlbehndling Mtemtisk sttistik

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

1) I följande studier a) och b) identifiera populationen, stickprovet, stickprovs egenskap, rådata och populationsegenskap.

1) I följande studier a) och b) identifiera populationen, stickprovet, stickprovs egenskap, rådata och populationsegenskap. 1) I följande studier a) och b) identifiera populationen, stickprovet, stickprovs egenskap, rådata och populationsegenskap. a) Astronomer bestämmer avståndet till en fjäran galax genom att mäta avståndet

Läs mer