1 Introduktion till projektuppgiften

Relevanta dokument
repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Datorövning 1: Fördelningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

bli bekant med summor av stokastiska variabler.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Laboration 3: Parameterskattning och Fördelningsanpassning

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 1 Fördelningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Lektionsanteckningar 11-12: Normalfördelningen

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Statistik 1 för biologer, logopeder och psykologer

Datorövning 1: Fördelningar

SF1901 Sannolikhetsteori och statistik I

Grundläggande matematisk statistik

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Föreläsning G60 Statistiska metoder

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Demonstration av laboration 2, SF1901

FÖRELÄSNING 7:

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Laboration 1: Beskrivande statistik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Projekt 1: Om fördelningar och risker

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Instruktioner till arbetet med projektuppgift

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Lunds tekniska högskola Matematikcentrum Matematisk statistik

TMS136. Föreläsning 7

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Mer om slumpvariabler

SF1901 Sannolikhetsteori och statistik I

Datorövning 1 Introduktion till Matlab Fördelningar

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

Introduktion till statistik för statsvetare

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 2: Styrkefunktion samt Regression

Kap 2. Sannolikhetsteorins grunder

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Formel- och tabellsamling i matematisk statistik

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Diskussionsproblem för Statistik för ingenjörer

F9 SAMPLINGFÖRDELNINGAR (NCT

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Hur måttsätta osäkerheter?

Föreläsning 12: Regression

F9 Konfidensintervall

SF1901 Sannolikhetsteori och statistik I

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

4 Diskret stokastisk variabel

Laboration 1: Mer om Matlab samt Deskriptiv statistik

F3 Introduktion Stickprov

Matematisk statistik för B, K, N, BME och Kemister

DATORÖVNING 2: STATISTISK INFERENS.

Statistiska metoder för säkerhetsanalys

SF1901 Sannolikhetsteori och statistik I

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

13.1 Matematisk statistik

Föreläsning 7. Statistikens grunder.

Föreläsning 8: Konfidensintervall

Föreläsning 7: Punktskattningar

Laboration 2: Sannolikhetsteori och simulering

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Sannolikhet och statistik med Matlab. Måns Eriksson

4.1 Grundläggande sannolikhetslära

Laboration med Minitab

FÖRELÄSNING 8:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Datorövning 3 Bootstrap och Bayesiansk analys

F13 Regression och problemlösning

Laboration 4: Lineär regression

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Summor av slumpvariabler

TMS136. Föreläsning 4

Introduktion till statistik för statsvetare

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Transkript:

Lunds tekniska högskola Matematikcentrum Matematisk statistik Datorlaborationer del I, HT-13 Matematisk statistik för B,K,N och MedTekn, fms086, masb02 För att få tillgång till de datafiler som hänvisas till i texten skriver du initstat Om initstat inte fungerar eller du använder datorer utanför KC (tex. sal MH:140) är det enklast att hämta ner datamaterial och filer från kursens hemsida www.maths.lth.se/matstat/kurser/fms086 när du startat Matlab 1 Introduktion till projektuppgiften I kursen ingår att ni, i grupper om två, ska göra en projektuppgift som rapporteras skriftligt. Ni ska arbeta med den kontinuerligt under kursens gång. Rapporten lämnas in en vecka före kursslut. I projekthandledningen kan du läsa mer om deadlines, vilka krav det finns på redovisningen samt vilka kriterier som används för bedömningen. I denna första datorövning ska du börja bekanta dig med projektets data. Övningens syfte: Att ge en introduktion till kursens projektuppgift Att illustrera olika sätt att beskriva ett datamaterial, såsom medelvärde, histogram, normalfördelningsplot Att illustrera elementär datahantering i Matlab Kurskompendium: Olbjer kap 1-2 Förberedelseuppgift: 1. Antag att du gör n upprepade mätningar av en variabel X och får då ett datamaterial x 1,..., x n. Vilka mått kan man använda för att sammanfatta materialet numeriskt? Hur kan man beskriva materialet grafiskt? Kväveoxider från en naturgaseldad värmepanna Under fem månader vintern 1987/88 mätte man halterna av kväveoxider kring avgasutsläppet från en värmepanna som eldats med naturgas. Mätplatsen var ett bostadsområde i Åkarp mellan Lund och Malmö. På fasaden av ett hus placerade man ut 21 mätpunkter på varierande avstånd från avgasutsläppet samt fyra mätpunkter framför och bakom huset. Vid varje mätpunkt avläste man sedan kväveoxidhalten med ca en halvtimmes mellanrum. I kursens projektuppgift ska ni bl.a. studera om halterna av kväveoxider runt avgasutsläppet är så höga att de är hälsofarliga för husets invånare. Bakgrund, mätuppställning, analysmetod och frågeställningar finns beskrivna i projekthandledningen men redan i denna laboration ska ni börja bekanta er med data från mätpunkt 25 som är placerad bakom huset.

1 INTRODUKTION TILL PROJEKTUPPGIFTEN Era data Du har blivit indelad i en projektgrupp (se annars till att bli det!). Varje grupp får en bit av det stora datamaterialet att analysera, ca 3000 mättillfällen från punkt 3 (på fasaden) och punkt 25 (bakom huset). Data som ni ska studera finns tillgängliga i fil noxgrxx där xx är ert gruppnummer (exempelvis hämtar grupp 3 sina data från noxgr03). Titta på data Börja med att ladda in data som ligger i filen noxgrxx. >> load noxgrxx >> whos % visar vilka variabler som finns Variabeln p25nox innehåller NO x -mätarens signal vid analys av luft från mätpunkt 25 angivna i tidsföljd (man har alltså mätt under totalt 3000 gånger). Eftersom analysatorn har en betydande drift tvingas man före varje NO x -mätning göra en kalibreringsmätning på ren kvävgas, dessa kalibreringsmätningar är givna i variabeln p25n2. Variabeln p25vind slutligen anger vindriktningen (0-360, medurs) vid mättillfället. Om p25vind är 0 blåser det rakt från norr medan en rakt östlig vind mot mätpunkten anges med 90. Observera att de tre vektorerna är kopplade på så sätt att element nr k i p25nox hör ihop med elementen nr k i p25n2 och p25vind eftersom de är gjorda så gott som samtidigt. Koncentrera dig till att börja på variabeln p25nox, mätarens NO x signal. Titta på datamaterialet. Det är alltid viktigt att plotta större datamaterial för att kunna upptäcka eventuella konstigheter. >> plot(p25nox) % sammanbinder mätningarna >> plot(p25nox, * ) >> xlabel( NOx-signal ) Här ser man att analysatorn är utsatt för en tydlig drift. Rita ut en bit av p25nox variabeln (t.ex mätningarna 1001-2000) samtidigt med motsvarande kalibreringsmätningar på kvävgas. >> plot(p25nox(1001:2000)) >> hold on >> plot(p25n2(1001:2000), r ) >> hold off Gör en korrigering av driften hos NO x -värdena genom att bilda differenserna mellan de två signalerna, de placeras i variabeln p25nox som nu alltså innehåller NO x -halter korrigerade för drift. >> nox=p25nox-p25n2; Plotta ut korrigerade kväveoxidhalter. Finns det några konstigheter i data eller tycks mätsituationen varit under kontroll hela tiden? Gör ett histogram (hist) över kväveoxidhalterna >> help hist >> hist(nox) Antalet klasser i histogrammet kan du få till m genom kommandot hist(nox,m) Använd funktionerna mean, std, min och max för att beräkna medelvärde, standardavvikelse, minsta och största värdet för nox. 2

1 INTRODUKTION TILL PROJEKTUPPGIFTEN Normalfördelning? För att kontrollera om ett stort datamaterial kan vara normalfördelat används ofta normalfördelningspapper. Nuförtiden är det namnet knappast passande längre eftersom ingen använder papper när det finns datorer. Ordet normalkvantilplot är nog bättre. Prova först hur ett datamaterial med samma storlek som nox ser ut om det verkligen är normalfördelat, genom att använda simulerade värden. Kommandot normrnd simulerar observationer från en normalfördelning, se help normrnd. Här simuleras en normalfördelning med väntevärde och standardavvikelse som är medelvärde respektive stickprovsstandardavvikelse av NO x mätningarna. >> n=length(nox); >> X = normrnd(mean(nox),std(nox),n,1); >> normplot(x) Pröva nu om nox kan vara normalfördelat. normalfördelning till histogrammet för nox.) (Med kommandona nedan anpassas också en >> subplot(2,1,1) >> normplot(nox) >> subplot(2,1,2) >> histfit(nox) Ofta kan man genom att transformera sina data, dvs genom att bilda en funktion av dem, få ett datamaterial som verkar vara bättre anpassat till en normalfördelning. Pröva om man enkelt kan hitta någon sådan transformation för nox, tex. ln(nox), Nox, Nox 1 eller liknande små justeringar. Dessa kan ur ett fördelningsmässigt perspektiv förenkla den statistiska behandlingen av ett datamaterial avsevärt. I kursens projektuppgift ska ni fundera vidare på hur fördelningen för NO x -mätningarna kan beskrivas. Hur påverkas kväveoxidhalten av vindriktning? Mätpunkt 25 är placerad i utkanten av villaområdet med åkermark åt norr och hus med naturgaseldade villapannor åt söder. Därför misstänker man att NO x halten beror på den aktuella vindriktningen. Genom att göra ett histogram över den variabel som angav vindriktningen får du en uppfattning vilka vindriktningar som varit vanligast under den studerade tidsperioden. >> hist(p25vind) Om du däremot ritar nox mot p25vind får du en uppfattning om hur halten av kväveoxider varierar med vindriktning. >> plot(p25vind,nox, * ) Figuren är svårtolkad, bl.a. därför att det finns så många observationer. Låt oss specialstudera kväveoxidmätningar som är gjorda då vinden blåser från söder. Plocka ur variabeln nox ut de kväveoxidmätningar där vindriktningen ligger mellan (135,225) (dvs vindarna kommer från söder) med hjälp av en av Matlabs användbara villkorssatser (se stencilen Användbara Matlabkommandon ). Här läggs de utplockade värdena i en fil som döps till noxs. (Tecknet & i en villkorssats betyder och medan står för eller.) 3

2 MÄTNINGAR PÅ EN VÅG >> noxs=nox(p25vind>135&p25vind<225); >> hist(noxs) >> mean(noxs) >> std(noxs) Jämför med kväveoxidmätningar då det blåser från norr. (Se nästa sida). >> noxn=nox(p25vind>315 p25vind<45); >> mean(noxn) >> std(noxn) >> subplot(2,1,1) >> hist(noxn,20) >> title( NOx då vind från norr ) >> subplot(2,1,2) >> hist(noxs,20) >> title( NOx då vind från söder ) Tycks det finnas någon skillnad i genomsnittlig NO x -halt i mätpunkt 25 mellan nordliga och sydliga vindar? I projektuppgiften ska du studera detta närmare och med hjälp av konfidensintervall eller hypotestest försöka verifiera en eventuell skillnad. 2 Mätningar på en våg Övningens syfte: Att illustrera begreppen fördelningsfunktion, täthets- och sannolikhetsfunktion samt sambandet mellan stickprov och population Att illustrera hur sannolikheter i normalfördelningen kan beräknas i Matlab Kurskompendium: Olbjer kap 3 Förberedelseuppgifter: 1. Slumpvariabler brukar delas in i två olika kategorier, diskreta respektive kontinuerliga slumpvariabler. Vad karaktäriserar de två olika typerna av variabler? Hur beskriver man variationen (fördelningen) för respektive variabel? 2. Hur definieras fördelningsfunktionen, F(x), för en slumpvariabel? Hur kan den beräknas då sannolikhetsfunktion, respektive täthetsfunktion, är given? 3. Skissera täthetsfunktionen för normalfördelningen N(μ, σ 2 ). Vad är tolkningen av μ och σ? Antag att du har en våg som har ett visst mätfel som vi betecknar X. Som en modell antar vi att mätfelet är normalfördelat, N(0, 4) (enhet g). I genomsnitt visar alltså vågen rätt eftersom väntevärdet i normalfördelningen är 0, men för en enskild mätning kan utslaget bli för lågt eller för högt. Om du på vågen ställer en vikt på 30 g, kommer vågens utslag, Y, att vara normalfördelad N(30, 4). (Det gäller naturligtvis att Y = 30 + X.) 4

2 MÄTNINGAR PÅ EN VÅG Rita upp täthetsfunktionen för vågens utslag, Y, i intervallet (20, 40) g. Rita också upp fördelningsfunktionen för Y. (Med kommandot subplot kan du få båda graferna i samma figur.) Täthetsfunktion och fördelningsfunktion för normalfördelningen fås genom normpdf respektive normcdf (använd help funktionen eller se stencilen om Användbara Matlabkommandon ). >> x=linspace(20,40,200) % x-variabel för täthets- och fördelningsfunktionen >> subplot(2,1,1) >> plot(x,normpdf(x,30,2)) >> subplot(2,1,2) >> plot(x,normcdf(x,30,2)) Enligt de uppritade graferna, mellan vilka värden visar vågen så gott som alltid sitt utslag? Använd kommandot normcdf eller normspec (testa båda!) för att ta reda på hur stor är sannolikheten att vågen visar ett för lågt värde, dvs under 30 g? Använd normcdf eller normspec för att beräkna sannolikheten att vågen visar a) mindre än 26 g b) mer än 33 g c) i intervallet (29, 31) g Kontrollera att du förstår vad sannolikhetsberäkningarna innebär grafiskt i täthets- respektive fördelningsfunktionen. Ovanstående modell är en beskrivning av hur vågens utslag varierar i den population som består av oändligt många mätningar av vikten 30 g. I praktiken, då man gör ett begränsat antal (n st) mätningar av vikten, betraktas de n mätningarna som ett slumpmässigt stickprov av den oändliga populationen. Om man vill veta hur de n värdena i stickprovet varierar är det naturligt att använda histogram eller alternativt kumulativt histogram. Simulera 200 mätningar från N(30, 4), rita ut histogram och jämför med täthetsfunktionen. >> z=normrnd(30,2,200,1); >> subplot(2,1,1) >> histfit(z) Rita också ut ett trappstegsdiagram för det kumulativa histogrammet och jämför med normalfördelningens fördelningsfunktion. (De två sista kommandona har du skrivit tidigare, använd piltangenten för att få fram dem.) >> subplot(2,1,2) >> [m,c]=hist(z,20); >> stairs(c,cumsum(m/200)) >> hold >> x=linspace(20,40,200); >> plot(x,normcdf(x,30,2)) 5

3 MÄTA UPP 10 M BAND Population Stickprov Slutsats: Täthetsfunktion i populationen (teoretiska fördelningen) motsvaras av histogram i stickprovsfördelningen. Histogrammet (lämpligt skalat) går mot täthetsfunktionen då stickprovsstorleken ökas. Fördelningsfunktionen i populationen (teoretiska fördelningen) motsvaras av kumulativt histogram i stickprovsfördelningen. Det kumulativa histogrammet (lämpligt skalat) går mot fördelningsfunktionen då stickprovsstorleken ökas. Anmärkning: Givet ett stickprov x 1,..., x n skattas fördelningsfunktionen med den empiriska fördelningsfunktionen F n (x) som definieras 0 x < x (1) i F n (x) = n x (i) x < x (i+1) 1 x (n) x där x (1), x (2),..., x (n) betecknar det ordnade stickprovet. 3 Mäta upp 10 m band Övningens syfte: Att illustrera fördelningar för summor av slumpvariabler, speciellt ska det illustrera skillnaden mellan 10X och 10 i=1 X i där alla slumpvariabler X, X 1,..., X 10 har samma fördelning. Kurskompendium: Olbjer kap 4 Förberedelseuppgifter: X 1 och X 2 är två oberoende slumpvariabler; E(X 1 ) = 5, E(X 2 ) = 7, V(X 1 ) = 3 och V(X 2 ) = 6. 1. Vad är E(3X 1 + 2X 2 )? 2. Vad är V(3X 1 + 2X 2 )? 3. Vad är fördelningen för 3X 1 + 2X 2 om både X 1 och X 2 är normalfördelade? 6

4 FÖRDELNINGEN FÖR SUMMOR AV SLUMPVARIABLER Man vill mäta upp ett 10 m långt band med så bra precision (dvs med så liten variation) som möjligt. Till sitt förfogande har man en mätsticka av längd 1 m. Då man mäter bandet har man ett visst mätfel så den verkliga längden av bandet varierar från mätning till mätning som en slumpvariabel X som har väntevärde 1 m och standardavvikelse 0.05 m. För att göra det mer illustrativt ska vi anta att fördelningen är normalfördelad men detta är ej nödvändigt för resultatet. För att få ett 10 m långt band kan man välja mellan två strategier: I Den snabba metoden : Mät upp 1 m med mätstickan. Vik sedan över bandet ett antal gånger tills du har 10 m. II Den jobbiga metoden : Mät upp 1 m band med mätstickan, gör en ny mätning med stickan, osv. Man gör alltså totalt 10 st mätningar. Vilken av slumpvariablerna 10X eller 10 i=1 X i representerar den snabba metoden? Vilken representerar den jobbiga metoden? 100 personer använde den snabba metoden medan 100 andra använde den jobbiga metoden. Simulera deras mätningar och gör histogram för resultatet i de två grupperna. Vilken metod är att föredra? Matlabtips: Med kommandot >> X=normrnd(1,0.05,10,100); får man en (10 100) matris med slumptal från en normalfördelning med μ=1 och σ=0.05. Genom >> sum(x); adderas för varje kolonn de 10 raderna vilket ger en (1 100) matris där varje element är summan av 10 slumptal från den aktuella normalfördelningen, dvs du har gjort 100 simuleringar av 10 i=1 X i. För att simulera 10X kan du bilda en (1 100) matris av normalfördelade slumptal och multiplicera den med 10. >> X1=10*normrnd(1,0.05,1,100); >> subplot(2,1,1) >> histfit(sum(x)) >> subplot(2,1,2) >> histfit(x1) Vad är fördelningen för längden av det uppmätta bandet med den snabba metoden? med den jobbiga metoden? För båda metoder, beräkna sannolikheten att det uppmätta bandets längd understiger 9.7 m (anv normcdf eller normspec). 4 Fördelningen för summor av slumpvariabler Övningens syfte: Att ge exempel på några kontinuerliga fördelningar Att illustrera centrala gränsvärdessatsen Kurskompendium: Olbjer kap 4 7

4 FÖRDELNINGEN FÖR SUMMOR AV SLUMPVARIABLER Förberedelseuppgifter: 1. Skissera täthetsfunktionerna för (a) Normalfördelning, N(μ, σ 2 ) (b) Rektangelfördelning, R(a, b) (c) Exponentialfördelning, Exp(a) med a = 1 2. Fördelningen för summor av slumpvariabler X 1, X 2,..., X n är oberoende slumpvariabler med E(X i ) = μ och V(X i ) = σ 2. Man bildar X = 1 n n i=1 X i. (a) Vad är E( X) och V( X)? (b) Variablerna har samma fördelning men man vet inget närmare om den. Vad är fördelningen för X om n är stort? Adderar man flera normalfördelade slumpvariabler är summan också normalfördelad. Men vad händer om man lägger ihop flera variabler som alla är rektangelfördelade? Simulera 1000 observationer från R(0,1) (rektangelfördelning eller likformig fördelning) och förvissa dig om att histogrammet för observationerna är en låda mellan 0 och 1. >> x=rand(1,1000); >> hist(x) Addera två uppsättningar av vardera 1000 observationer från R(0,1) och gör histogram för summan. Öka summan till att innehålla fyra, åtta respektive tolv variabler. Resultat!? Matlabtips: Vill du summera slumptal från m R(0,1) variabler bilda först en (m 1000) matris varefter du summerar raderna i varje kolonn, >>R=rand(m,1000); >>hist(sum(r)); Du har illustrerat centrala gränsvärdessatsen som säger att summan av oberoende, likafördelade slumpvariabler är normalfördelad, oavsett vilken fördelning man utgår från, enbart antalet variabler i summan är tillräckligt stort. Vad som är tillräckligt stort varierar från fördelning till fördelning. Pröva genom att addera simulerade observationer från en exponentialfördelning med väntevärde 1 (exprnd) om du behöver fler eller färre variabler i summan än vid rektangelfördelningen för att få en fördelning som liknar en normalfördelning.. Matlabtips: Vill du summera slumptal från m st. Exp(1)-variabler bilda först en (m 1000) matris varefter du summerar raderna i varje kolonn, >>E=exprnd(1,m,1000); >>hist(sum(e)); Om du betraktar rektangelfördelningens respektive exponentialfördelningens täthetsfunktioner kan du gissa på några egenskaper hos den ursprungliga fördelningen som skulle påverka konvergensen mot normalfördelning? 8

5 PARTIKELSTORLEKAR 5 Partikelstorlekar Övningens syfte: Att exemplifiera hur lognormalfördelningen är en rimlig modell då man betraktar partikelstorlekar Att illustrera att produkten av två lognormalfördelade variabler också är lognormalfördelad Kurskompendium: Olbjer kap 3.6 Partikelstorlekens variation är viktig Det finns många skäl till varför det är intressant att titta på fördelningen för partikelstorlekar: Hastigheten för en heterogen kemisk reaktion (mellan en fast fas och en vätskefas eller gasfas) beror ofta på partikelstorleken på den fasta fasen. Eftersom all massa ska passera partikelns yta är det i detta fallet inte så mycket antalsfördelningen av partiklarna som partiklarnas ytfördelning som är av intresse. På samma sätt är det viktigt att veta partikelstorleksfördelningen av en katalysator. I många fall konstrueras den kemiska reaktorn som en fluidiserad bädd. I denna fluidiseras partiklarna av en uppåtstigande gas- eller vätskeström. Finns det många små partiklar är det stor risk för att de följer med den uppåtstigande fasen uppåt ut ur reaktorn. Finns det däremot många stora partiklar kan det i stället hända att de stora partiklarna inte lyfts alls utan skapar en stillaliggande bädd med åtföljande låg reaktionshastighet. Partiklarna får alltså helst inte ha en för vid partikelstorleksfördelning. I samband med sedimentering avskiljer man partiklarna genom att de får sjunka till botten i en förtjockare. Finns det alltför många små partiklar finns det risk för att de inte hinner falla till botten i förtjockaren utan istället följer med utgående ström ut ur förtjockaren. Eftersom denna ström skall vara så ren att den kan släppas ut i recipienten finns det risk att små partiklar förorsakar ett oönskat utsläpp. Det är alltså viktigt hur partikelfördelningen ser ut när man dimensionerar sedimentationsbassänger. I många processer skall ett partikulärt material lösas upp. storleksberoende. Denna process är starkt Partikelbestämning I filen pstorlek finns resultatet av en partikelbestämning (diameter, μm) med standardiserade siktar. Ladda in materialet och titta på det. >> load pstorlek; >> whos >> [storlek procent] Rita ut storlekarna mot de relativa frekvenserna (dvs procent). Det är vanligt att man bestämmer storleken i form av en geometrisk serie. Standardiserade siktar har storleksförhållande mellan siktarna på 2, 2 1 2 eller 21/4. Det är då praktiskt att använda en logaritmisk storleksskala. Vitsen med att ha en geometrisk siktserie är att felet vid 9

5 PARTIKELSTORLEKAR storlekbestämningen blir konstant över hela området. Om noggrannheten för en siktöppning är bestämd med en osäkerhet på 1 μm kommer detta att påverka små storleksfraktioner (t.ex. 5-10 μm) väldigt mycket medan de stora storleksfraktionerna(50-100 μm) påverkas endast lite. Rita ut de logaritmerade partikelstorlekarna mot de relativa frekvenserna. Verkar fördelningen bekant? Om partikelstorlekarna sträcker sig över ett mycket stort intervall (som i detta exempel) är det ofta rimligt att beskriva logaritmerad partikelstorlek med hjälp av en normalfördelning. Lognormalfördelningen Antag att slumpvariabeln X beskriver partikelstorleken hos en slumpmässigt vald partikel. Om ln(x) är normalfördelad N(μ, σ 2 ) sägs X vara lognormalfördelad med parametrar μ och σ vilket betecknas Λ(μ, σ 2 ). Av exemplen ovan inser man att väntevärde (lägesmått) och varians (spridningsmått) för partikelstorleken är intressanta. Genom att använda definitionen på väntevärde och varians samt täthetsfunktionen för ln(x) kan man visa (ganska svår övning i sannolikhetsteori) att täthetsfunktionen för X ges av f(x) = 1 σx (ln(x) μ) 2 2π e 2σ 2, x > 0 σ2 μ+ samt att väntevärdet är E(X) = e 2, medianen Med(X) = e μ medan variansen ges av V(X) = e 2μ+σ2 [e σ2 1]. Observera att E(X) är alltid större än Med(X) och att differensen ökar ju större spridningen σ är. Rita i samma figur ut de två lognormalfördelningarna Λ(0.5, 2.25) och Λ(1, 0.25) då 0 x 10. Täthetsfunktionens värde för en lognormalfördelning fås genom kommandot lognpdf. Fördelningar vid ytbestämning och volymbestämning av partiklar Bestämningar av partikelstorlekar kan göras med många olika metoder och beroende på vilken princip mätmetoden arbetar med kommer typen av partikelstorleksfördelning att variera: Metoden LLS (laser light scattering) ger en ytfördelning eftersom det är partiklarnas yta som ger upphov till den ljusspridning man mäter. I en Coulter-Counter mäter man i stället en volymsfördelning medan vid siktning är det i stället den projicerade ytan (i idealfallet diametern) man mäter. Antag att X är partikelstorleken bestämd genom diametermått. För sfäriska partiklar kan ytan S och volymen V i princip bestämmas genom S = πx 2 och V = πx 3 /6. Ovan har vi sett att X kan beskrivas med en lognormalfördelning. Om storleken istället bestäms genom ytbestämningar eller volymsbestämningar, kan man då säga något om fördelningarna för S respektive V? Vi ska undersöka dess egenskaper genom ett simuleringsexperiment. Skapa en vektor bestående av 100 observationer från en lognormalfördelning, Λ(2, 0.25). >> x=lognrnd(2,0.5,100,1); Antag nu att vi gör en ytbestämning. Beräkna s = πx 2, gör ett histogram för s, respektive ln(s). Vilken typ av fördelning tror du s följer? Gör samma sak för volymbestämningen v = πx 3 /6. 10

5 PARTIKELSTORLEKAR Det verkar alltså som om s och v också är lognormalfördelade men naturligtvis med andra parametrar. Bevisa att detta är sant och beräkna parametrarna i de nya lognormalfördelningarna! Ledning: Använd att ln(x) tillhör N(μ, σ 2 ) samt att S = πx 2 = e ln π+2 ln(x) och V = πx 3 /6 = e ln(π/6)+3ln(x). Kontrollera att dina resultat stämmer genom att skatta medelvärde och standardavvikelse för ln(x) samt för ln(s) och ln(v). Blandning av olika partiklar Ett vanligt problem i läkemedelsindustrin är att blanda olika partikelslag så att en homogen blandning erhålles (aktiv substans, filler + övriga tillsatsmedel). Problemet försvåras av att de olika partiklarna har olika storlek. Dessutom är det viktigt att mängden aktiv substans i varje tablett är lika stor. Före tablettslagningen blandas de olika partikelslagen. För att utvärdera blandningapparatens funktion är man till mycket stor del hänvisad till att ta ut prover och analysera resultaten. Normalt menar man att ju längre man blandar komponenterna desto homogenare blandning. I vissa fall, speciellt med segregerande partiklar kan man råka ut för att blandningen i stället delar upp sig (segregerar) ju mer man blandar. En relativt vanlig processundersökning inom läkemedelsindustrin är alltså att bestämma den optimala blandningstiden. Analysen av processen kräver ett statistiskt angreppssätt. Här ska vi emellertid begränsa oss till problemet att identifiera två olika partikeltyper. En blandning består av två olika partiklar, partikel A och partikel B. Partikel A är lognormalfördelad med parametrar μ A och σ A medan partikel B är lognormalfördelad med parametrar μ B och σ B. Vi tar slumpmässiga prover från blandningen och mäter partikelstorleken i stickprovet. Kan vi upptäcka att det är två olika partikeltyper i blandningen? Svaret beror naturligtvis på värdena på parametrarna μ A, μ B, σ A och σ B. Pröva genom att skapa ett stickprov om totalt 200 partiklar som består av 100 partiklar från Λ(2, 0.25) (förslagsvis de du redan skapat i vektorn x) och 100 partiklar från Λ(3, 0.04). (Två vektorer x och y adderas efter varandra med kommandot [x y ]) Rita upp histogram för [x y ] och normalplottar för [lnx lny ]. Kan du se att det är från två olika fördelningar? Pröva samma sak då du har en blandning av 100 partiklar från Λ(2, 0.25) och 100 partiklar från Λ(3, 0.36). Kan du se att det är två sorters partiklar? Om du har lust, fortsätt gärna att pröva med olika värden på parametrarna μ A, μ B, σ A och σ B samt med olika proportioner av de två partikelsorterna i blandningen. TACK till Anders Axelsson vid Kemisk apparatteknik som hjälpt till med texten i avsnittet om partikelstorlekar. 11