TRE TYPER AV SPATIALA DATA

Relevanta dokument
STATISTISK ANALYS AV KOMPLEXA DATA SPATIALA DATA

TRE TYPER AV SPATIALA DATA

STATISTISK ANALYS AV KOMPLEXA DATA SPATIALA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA

Bayesiansk statistik, 732g43, 7.5 hp

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

F13 Regression och problemlösning

Stokastiska processer med diskret tid

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Enkel och multipel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

2.1 Mikromodul: stokastiska processer

TAMS65 - Seminarium 4 Regressionsanalys

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Kovarians och kriging

STATISTISK ANALYS AV KOMPLEXA DATA

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 26 november 2015 Sida 1 / 28

Stokastiska vektorer

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Stokastiska vektorer och multivariat normalfördelning

Laboration 3: Icke-parametrisk korrelations- och regressionsanalys

Matematisk statistik TMS064/TMS063 Tentamen

Examinationsuppgifter del 2

Härledning av Black-Littermans formel mha allmänna linjära modellen

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Föreläsning 7: Stokastiska vektorer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Diskussionsproblem för Statistik för ingenjörer

Stokastiska processer med diskret tid

SF1901 Sannolikhetsteori och statistik I

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TAMS79 / TAMS65 - vt TAMS79 / TAMS65 - vt Formel- och tabellsamling i matematisk statistik. TAMS79 / TAMS65 - vt 2013.

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Föreläsning 7: Punktskattningar

Dataanalys kopplat till undersökningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Grundläggande matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

b) Teknologen Osquarulda känner inte till ML-metoden, men kom på intuitiva grunder fram till att p borde skattas med p = x 1 + 2x 2

Föreläsning 7: Punktskattningar

F9 SAMPLINGFÖRDELNINGAR (NCT

TSRT09 Reglerteori. Sammanfattning av Föreläsning 1. Sammanfattning av Föreläsning 1, forts. Sammanfattning av Föreläsning 1, forts.

Regressions- och Tidsserieanalys - F8

Avd. Matematisk statistik

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Introduktion till statistik för statsvetare

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

LKT325/LMA521: Faktorförsök

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

732G71 Statistik B. Föreläsning 9. Bertil Wegmann. December 1, IDA, Linköpings universitet

GMM och Estimationsfunktioner

Tentamen för kursen. Linjära statistiska modeller. 14 januari

Reglerteori. Föreläsning 3. Torkel Glad

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

STATISTISK ANALYS AV KOMPLEXA DATA

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Matematisk statistik för D, I, Π och Fysiker

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson

Multipel linjär regression

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Statistisk försöksplanering

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1669 Matematisk och numerisk analys II Lösningsförslag till tentamen DEL A. r cos t + (r cos t) 2 + (r sin t) 2) rdrdt.

F9 Konfidensintervall

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 15: Faktorförsök

MVE051/MSG Föreläsning 14

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

LABORATION 1. Syfte: Syftet med laborationen är att

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

TSRT62 Modellbygge & Simulering

Var blåser vinden bäst? Statistiska undersökningar av vindförhållanden för vindkraft

Föreläsning 12: Linjär regression

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Föreläsning 12: Regression

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsning G60 Statistiska metoder

Lycka till!

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Transkript:

STATISTISK ANALYS AV KOMPLEXA DATA SPATIALA DATA Mattias Villani Statistik Institutionen för Datavetenskap Linköpings Universitet MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 1 / 21 TRE TYPER AV SPATIALA DATA Spatiala data: position och avstånd har betydelse. Tre typer av spatiala data: Geostatistiska data (Mätstationer) Areal data (Bildpixlar) Punktmönsterdata (Fågelskådning) Mer generellt: spatiala mätningar över tid: tempo-spatiala data. Ex: Meteorologiska mätningar. Inom delmomentet: Geostatistiska och lite areal data. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 3 / 21 MOMENTETS INNEHÅLL Introduktion till spatiala data Visualisering av spatiala data Geostatistiska data: Interpolation, Variogram och Kriging Areal data: Spatiala autoregressionsmodeller. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 2 / 21 GEOSTATISTISKA DATA Y (s) är en slumpmässig vektor observerad vid positionen s D. Positionerna s1, s2,..., sn är fixa. Mätningarna vid positionerna Y (s1), Y (s2),..., Y (sn) är slumpmässiga. D är ofta en delmängd av R 2. Longitud och latitud. Exempel 1: Temperatur och nederbörd i min trädgård vid en given tidpunkt. Exempel 2: Mängd olja vid olika borrningsstationer. Exempel 3: Huspriser. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 4 / 21

MEUSE RIVER DATA - ZINC CONCENTRATION MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 5 / 21 KOMMUNALSKATT 2012 MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 7 / 21 AREAL DATA D är fortfarande en fix delmängd, men partitionerad i arealenheter. En mätning i varje area. Exempel 1: Jordbruksexperiment. Exempel 2: Bildanalys. Röntgen. Exempel 3: Huspriser på kommunnivå. Areal data kallas också lattice data. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 6 / 21 FMRI BILDER AV HJÄRNAKTIVITET MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 8 / 21

PUNKTMÖNSTERDATA Positionerna s1, s2,..., sn är slumpmässiga. Punktprocesser. Y (s1), Y (s2),..., Y (sn) är fixa som indikerar att en viss händelse inträffat vid si. Exempel 1: Positioner av viss trädsort. Exempel 2: Sjukdomsutbrott. Exempel 3: Brottsplatser. Klustring ofta viktigt. Tenderar vissa djurarter att befinna sig inom samma område? Olika områden (revir)? Attraction/repulsion. Kovariatinformation vid de slumpmässiga positionerna: marked point pattern. Ex: brottsstyp, fågelstorlek, trädomkrets. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 9 / 21 INTERPOLATION AV SPATIALA DATA Vi har observerat Z (s1), Z (s2),..., Z (sn) vid n fixa positioner. Vi vill beräkna anpassningen Ẑ (s0) i en ny punkt s0. Interpolation viktat med inversa avståndet: Ẑ (s0) = n i=1 w(si, s0)z (si ) n i=1 w(si, s0) där w(si, s0) = si s0 p library(gstat); idwout <- idw(zinc ~ 1, meuse, meuse.grid, idp = 2) image(idwout) ritar upp den interpolerade ytan. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 11 / 21 SPATIALA DATA I R Paketet sp är baspaketet med spatiala datatyper. Objekt för att rita upp spatiala data: punkt, linje, polygon, grid och pixel. coordinates(datamatris) <- dinakoordinater [dinakoordinater är en matris med två kolumner innehållande longitud och latitud] datamatris blir ett objekt av typen SpatialPointsDataFrame. Alternativ: funktionen SpatialPointsDataFrame(). llcrs <- CRS("+proj=longlat +ellps=wgs84") definerar det traditionella longitud-latitude koordinatsystemet. library(maps); maps( world, sweden ) ritar upp en Sverigekarta. gridobjekt <- as(spatialdatamatris, "SpatialPixels") Gör om matrisen SpatialDataMatris med punkter till en grid/pixlar. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 10 / 21 INTERPOLATION MED INVERSA AVSTÅND - MEUSE DATA MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 12 / 21

VARIOGRAM Spatial utökning av tidsserieanalysens autokorrelationsfunktion. Stationäritet. Process Z (s) = m + e(s) där m är väntevärdet och e(s) är spatialt brus. Alternativt Z (s) = X β + e(s) Semivariogram γ(h) = 1 2 E [Z (s) Z (s + h)]2 där h är en vektor. Variogram = 2γ(h). Relation till kovariansfunktionen C (h)=cov[y (s + h), Y (s)]: γ(h)=2[c (0) C (h)] MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 13 / 21 SAMPELVARIOGRAMMET Problematiskt att skatta variogrammet eftersom vi kan ha inga eller få datapunkter som just har avståndet h. Låt I1 = [0, h1), I2 = [h1, h2),..., Im = [hm 1, hm) vara en partitionering av intervallet [0, hm) där hm är en övre gräns. Momentskattning av variogrammet: ˆγ(Ij) = 1 2Nh N h [Z (si ) Z (si + h)] i=1 för alla h Ij. library(gstat); plot(variogram(log(zinc) ~ 1, meuse)) library(gstat); plot(variogram(log(zinc) ~ sqrt(dist), meuse)) library(gstat); plot(variogram(log(zinc) ~ 1, meuse, alpha = c(0,45,90,135))) MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 15 / 21 VARIOGRAM, FORTS Spatial korrelation beror endast på avståndsvektorn h = si sj mellan två punkter och inte på punkternas positioner. Isotropisk korrelation: vektorn h kan ersättas med dess längd h = h. γ( h) = γ(h) och γ(0) = 0. Nugget: ofta antas att γ(0 + ) = lim h 0 + γ(h) = τ 2 > 0. Går dock inte att skatta utan upprepade observationer vid samma position. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 14 / 21 MODELLER FÖR ISOTROPISKA VARIOGRAM Linjär Sfärisk { τ 2 + σ 2 h om h > 0 0 om h = 0 { τ 2 + σ 2 } om h 1/φ τ 2 + σ 2 3φh 2 1 2 φ3 h 3 om 0 h 1/φ 0 Powered exponential 0 < p 2 (Exponential p = 1, Gaussisk p = 2) { τ 2 + σ 2 [1 exp( φh p )] om h > 0 0 om h = 0 Matérn { τ 2 + σ 2 [ 1 (2 νhφ) ν 2 ν 1 Γ(ν) K ν(2 νhφ) ] om h > 0 0 om h = 0 MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 16 / 21

NUGGET, SILL OCH RANGE Exempel: sfäriskt variogram } { τ 2 + σ 2 om h 1/φ τ 2 + σ 2 3φh 2 1 2 φ3 h 3 om 0 h 1/φ 0 Nugget: γ(0 + ) = lim h 0 + γ(h) = τ 2 > 0 Sill: limh γ(h) = τ 2 + σ 2 Partial sill: Sill - Nugget =σ 2 Range: h-värdet där γ(h) först når sitt maximum: 1/φ. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 17 / 21 SPATIAL PREDIKTION - KRIGING Vi har observationer Z (s1),..., Z (sn) och vill prediktera Z (s0), Z-värdet vid en ny position s0. Vi har kovariater vid varje position: X = (x(s1),..., x(sn)) och x(s0). Rimlig prediktor: Ẑ (s0) är ett viktat medelvärde av värdena vid närliggande positioner. Bästa linjära väntevärdesriktiga prediktorn Ẑ (s0) = x(s0) ˆβ + v V 1 ( Z (s) X ˆβ ) där Z (s) = (Z (s1),..., Z (sn)), V är kovariansmatrisen för Z (s) och v är kovariansvektorn innehållande kovarianserna mellan Z (s0) och Z (s), och ˆβ = ( X V 1 X ) 1 X V 1 Z (s) är den vanliga GLS-skattningen. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 19 / 21 SKATTNING AV PARAMETRISKA VARIOGRAM Ickelinjär viktad minsta kvadrat (startvärden viktiga) p wj [γ(h) ˆγ(h)] 2 j=1 Variogrammodeller i R: vgm(psill, model, range, nugget) Exempel: vgm(1, Sph, 300, 1) library(gstat); samplevariogram <- variogram(log(zinc) ~ sqrt(dist), meuse) fit.variogram(samplevariogram, vgm(1, "Sph", 800, 1)) Alternativt: eyeball statistics. Prova olika parametervärdet tills dess parametriskt variogram anpassar sampelvariogrammet. library(geor); varioeye <- eyefit(variog(as.geodata(meuse["zinc"]), max.dist = 1500)); variofit <- as.vgm.variomodel(varioeye[[1]]) Fungerar inte i RStudio. Kör vanlig R. MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 18 / 21 SPATIAL PREDIKTION - KRIGING, FORTS. Prediktionsvarians Var ( Ẑ (s0) ) = Var (Z (s0)) v V 1 v + ( x(s0) v V 1 X ) ( X V 1 X ) 1 ( x(s 0) v V 1 X ) Universal kriging. Ordinary kriging: endast intercept i regressionsytan. krige(log(zinc) ~ sqrt(dist), meuse, meuse.grid, fittedsphvariogram) MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 20 / 21

KRIGING - MEUSE DATA MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 21 / 21