Poisson Point Processes Edvin Listo Zec Maja Fahlén 2013 05 19 1
Innehåll 1 Introduktion 3 2 Inhomogena poisson-punktprocesser 3 3 Analys av riktig data 5 2
1 Introduktion I det här arbetet komer vi att diskutera inhomogena Poisson-punktprocesser (PPP), det vill säga processer med varierande intensitet. De homogena PPP (med konstant intensitet) har vi tidigare studerat i kursen, till exempel när vi kollade på data om platser där bomber slog ned i London under andra världskriget. I det exemplet undersökte vi hur vida platserna var slumpmässigt träffade enligt poissonfördelning med konstant intensitet eller inte. Hypotesen testades sedan via ett χ 2 -test. På liknande sätt har vi undersökt data och fösökt modellera den som en inhomogen PPP. Vi kommer först ge en närmare förklaring och fler exempel på inhomogena PPP för att därefter visa teoretiskt hur man kan analysera data. 2 Inhomogena poisson-punktprocesser Antag att vi har ett område W = [0,a] x [0,b] och att N w är antalet punkter på den ytan. Den stegvisa definitionen av en PPP är då: Steg 1: Anta vidare att N w P o(m) med positivt men ändligt medelvärde m. Steg 2: Välj en tvådimensionell pdf f(x,y) 0 för (x,y) W och annars 0. (X,Y ) är stokastiska variabler med pdf som f(x,y). Steg 3: Givet att N w = n > 0 så placerar man n punkter (x i,y i ) oberoende vilka man får genom oberoende repetera (X,Y ). Med andra ord är koordinaterna oberoende stokastiska variabler med en pdf f(x,y), 0 x a och 0 y b. I det homogena fallet är X uniformt fördelad på [0,a] medan Y är uniformt fördelad på [0,b]. De är dessutom oberoende. Den enklaste versionen av en inhomogen PP kan fås genom att ta X och Y oberoende, men inte uniformt fördelade. Generellt sett räknas intensiteten ut som λ(x,y) = m f(x,y) men då X och Y är oberoende fås λ(x,y) = m f(x) f(y). Observera att eftersom f(x,y)dxdy = 1 är λ = m. I princip kan vilken PP som helst med separabel intensitet fås genom den homogena PP fast med ändrad skala. Låt t.ex. X och Y N(0,1) och definiera: Z = a X W = b Y 2 Då fås F z = P (Z z) = P ( X z/a) = P (X (z/a) 2 ) = (z/a) 2 0 1dx = z 2 /a 2 3
Täthetsfunktionen blir då alltså: f z = F z = 2z/a 2 På samma sätt fås F w = P (W w) = P (by 2 w) = P (Y w/b) = w/b 0 1dy = w/b. Täthetsfunktionen blir då f w = F w = 1/2 wb. Observera att eftersom X och Y N(0,1) gäller att f z = 2z/a 2 då 0 < z < a och 0 för övrigt och f w = 1/2 wb då 0 < w < b och 0 för övrigt. Intensiteten kan nu enkelt beräknas som λ(x,y) = m fx fy. Här följer matlabkod för ovanstående modellering: m = 50; noevents = poissrnd(m); coords = rand(noevents,2); figure(1), hold on a=5;b=10; axis([0 a 0 b]); X=a*sqrt(coords(:,1)); Y=b*coords(:,2).^2; subplot(4,2,1) plot(x,y, * ) title( X och Y ) subplot(4,2,3) hist(x) title( Histogram av X ) subplot(4,2,4) hist(y) title( Histogram av Y ) subplot(4,2,5) x=0:0.1:a; fx=(2*x)./(a^2); plot(x,fx) title( f(x) ) subplot(4,2,6) t=0:0.2:b; fy=1./(2*sqrt(t)*b^(1/2)); plot(t,fy) lambda=@(x,t) m.*fx.*fy; title( f(y) ) subplot(4,2,7) plot3(x,t, lambda(x,t)) 4
3 Analys av riktig data Antag att X är positionen av en skada, X [0,125]cm (tex plats på korrosionsskada på en rörledning) och Y [0, ] är storleken på skadan mätt i en lämplig enhet. Här är resultatet av ett test utfört i ett laboratorium på försämringen hos materialet på en 1.25 lång rörledning. Om datan kan anses vara en PP med separabel intensitet så har man i princip n oberoende observationer av (X,Y ) och vi kan anta att X och Y är oberoende. För att säkerhetställa att antagandet om oberoende inte är helt galet gör vi ett χ 2 -test. Vi delar in datan enligt: v1=[50 48 39 57 44 38 14 290]; %vektor för X v2=[0 1 2 2 3 5 0 13]; %vektor för Y v3=[50 49 41 59 47 43 14 303]; %vektor för totala A=[v1;v2;v3]; E=[47.8548 46.8977 39.2409 56.4686 44.9835 41.1551 13.3993; 2.1452 2.1023 1.7591 2.5314 2.0165 1.8449 0.6007]; %Expected frequency E r,c = (n r n c )/n där E r,c är the expected frequency count för nivå r av variabel A och nivå c av variabel B, n r är totala antalet av observationerna vid nivå r av variabel A, n c är totala antalet av observationerna vid nivå c av variabel B och n är summan av de båda. 5
sum=0; for i=1:2 for j=1:7 sum=sum+((a(i,j)-e(i,j))^2)/e(i,j); %%Detta är formeln för chi2-testet. end end sum Vi får Q = 9.7627. Detta jämförs sedan med χ(d) där d är frihetsgraden, d = (7 1) (2 1) = 6. Enligt tabell är χ(6) 0.05 = 12.59 > 9.7627. Alltså kan vi inte förkasta teorin om att X och Y är oberoende. Vi fortsätter analysen av datan under förutsättningen att X och Y är oberoende vilket gör λ = m f x f y till en lämplig modell. För att få tag i f x och f y analyserar vi x och y för sig i Matlab och jämför med diverse olika fördelningar. Det visar sig att X weibull(ax,bx ) och Y weibull(ay,by ). Där ax = 693.9861, bx = 1.7012, ay = 411.2290 och by = 0.7897. 6
Antag att den riktiga rörledningen är 10m lång och risken för olyckor är hög om måttet på förstörelsen, y, överskrider 50000. Under förutsättningen att vår estimering av λ gäller även utanför intervallet [0,125] utökar vi då W = [0,1000] [50000, ]. Vidare antar vi naturligtvis att antalet skador N w P o(m). Alltså behöver vi beräkna m = λ(x,y)dxdy vilket vi försökt göra i Matlab utan framgång, men det borde vara teoretiskt möjligt. 7