Creating a Model for a Central Metadata Repository Klas Blomqvist EDDI 14, London 2014-12-02
Background Statistics Sweden - NSI > 200 statistical products Traditional stove-pipes production system Product oriented Decentralised organisation Relatively independent departments 50% financed by commissions solution for each customer Strategies (Decision by the Director General) Register system must be coordinated Data storage changed from accessing individual products to accessing the entire data warehouse
Content Register and data warehousing vision and strategy A central metadata repository Standards based GSBPM GSIM Testing in production systems
GSBPM - Generic Statistical Business Process Model
GSIM Conceptual model GSIM DDI Implementation standards Other relevant standards SDMX Geospatial standards
Strategy Support process oriented production Active Communication with suppliers Survey A Data store A Survey B Data store B Survey C Data store C Use of registers when possible Standardization Dissemination Publishing Dissemination Publishing Dissemination Publishing Survey A Survey B Survey C Input data warehouse Output data warehouse Dissemination Publishing Dissemination Publishing Dissemination Publishing
Direct data collection Specify needs Administrative data SCB s strategy on coordinated statistics production Design and plan Logical Evaluate storage and feed of back a variable Build and test The centre of a sphere of interest Owns the population Continuously updated Independent of other base registers Has links to the other base registers Contains mainly stock variables Input data Time stamped data Business sphere Collect Process Analyse Disseminate Business and communicate Support and infrastructure Platform / service layer Micro Data Base register Metadata Data Individuals Population sphere Macro Data Observation data Target data Presentation data Real property Real property sphere Publishing Dissemination Process data automatically provided Variable values checked Process individually Data or by comparisons Longitudinal editing and analysis supported Physical data transportation minimized No private versions
A Central Metadata Repository Evaluate and feed back Specify needs Design and plan Build and test Collect Process Analyse Disseminate and communicate Support and infrastructure Operations Support SCB.SE The Platform Rules Business Services Catalogue Process Methods Process Steps SCBDOK Tech info Metadata Store Business Processes Variables DoS Populations Unit es Value Domains Thesaurus Question Bank Process Metrics Statistical Data Production Data Data Store
Current Metadata Situation at SCB Local systems SCBDOK MetaPlus BaS SSD Input Raw data Throughput Micro data Output Macro data
Desired Metadata Situation Common vocabulary Metadata Repository SCBDOK BaS Process metadata Question Bank MetaCollect ETL rules MetaPlus Aggr. rules MacroMeta Input Raw data Throughput Micro data Output Macro data
Metadata Expectations More active metadata Documentation during the design phase Metadata driven production Enable tracing What was the question that led to this published figure? Ideally a two-stage tracing for NA More and better process data Who did what when and why? More comprehensive metadata Improved search mechanisms Unified terminology Thesaurus
Runs and feeds the processes input process Output/ input process output
Macro editing with drill-down MetaCollect ETL MetaPlus Aggr. Metadata repository MacroMeta rules rules Input Raw data Throughput Micro data Output Macro data Read Insert new generation Display source micro data Macro edit Micro data Display edit results Deemed as being incorrect Macro data Click suspect item
The Current Metadata Situation Evaluate and feed back Specify needs Design and plan Build and test Collect Process Analyse Disseminate and communicate Support and infrastructure Operations Support SCB.SE Metadata Local systems SCBDOK MetaPlus DoS SSD Input Raw data Throughput Micro data Data Output Macro data
MetaPlus Structure Register Object class Variable Conceptual value domain Register variant Population Object variable Value domain Register version Context Population Context variable Value Data base table Column
Central Metadata Store for efficient statistics production Business Design, Process, Process step, Activity, Method, Rule, Service, Round Exchange Statistics product, Supplier, User, Contract, Agreement Structures Dataset, Reference metadata, Data Structure, Dimension, Record Concepts Unit, Population, Variable, Value Domain, Classification
Common and specific metadata Specify needs Design and plan Process step Service catalogue Variable Classification Process step within a round Service within a round Value domain Instance variable Build and test Evaluate and feed back Collect Process Analyse Disseminate and communicate Support and infrastructure Common to the entire statistics production process Individual product implementation Common metadata definitions Definitions of occurrences specific to a production round Frame unit data Sample unit data Report unit data Observation unit data Statistical data collection Process data Data Store Actual occurrences
Metod struktureras av struktureras av struktureras av lagras i tar innebörd från grupperas i Designregel Designbeskrivning beskrivs av Sökväg implementerar Processindataspec bidrar till Processdesign bidrar till Processutdataspec är del av Processtyrningsregeldesign Omgång Versionshantering Presentationsspråk Tesaur specificeras av specificerar Processtyrningsregel Processtyrningsregel före efter specificeras av Omgångsprocessteg baseras på Processteg Processnummer Ordning inom nivån använder utför Tjänst Tjänstegränssnitt Fysisk plats Version Språk Begrepp instansierar används i Omgångsprocesstegstjänst använder Statistikprodukt Produktkod Benämning Officiell Statistik Utdatamottagare Adress ingår avtal ingår avtal Indataleverantör Adress Extern beskriver Processindata Processtegsavsnitt används av Avsnittstext Standardtext Processtegsinstans Processutdata skapas av Starttidpunkt Sluttidpunkt Starthändelse Referensmetadataavsnitt Avsnittsnummer Avsnittsnamn Obligatorisk Ordningsnummer inom nivå specificeras av används som input Referensmetadata Referensmetadatatyp används som output avser utgör grund för Fråga Frågetext Data in/ut Riktning styr Avtal Kontrakt baseras på Informationsset skapar Omgångsreferensmetadata Text Datapunkt använder Datum identifierare mått attribut Dataresurs Lagringsplats grupperar Dataset Lagringsplats Datakolumn Datatyp lagrar Instansvariabel Källa Roll Variabelroll Objekt Lagringsplats Tid observerar observerar hel/del förälder/barn Dimensionsdatapunkt Objektdatapunkt Identifierarkomponent Måttkomponent Attributkomponent Dimensionsdataset observerar Objektdataset Dimensionsdatastruktur Objektdatastruktur Dimensionsvariabler [1..n] Datastruktur Objektdatapost Logisk post är källan till är målet för grupperas struktureras av Postrelation grupperas av definieras av Representerad variabel mäter Dimensioner Tid Konceptuell variabel tar betydelse från Operationell regel Formel definieras av avser Värdemängd mäter mäter Objekttyp specificeras av hierarki innehåller Nod mappar källa tar betydelse från mappar mål Kategori Aggregation e Alias Not Kategorienhet Kodenhet Klassifikationsenhet (Värde?) Officiellt namn Beskrvining Kod Kod Innehållsbeskrivningar Aktuell Kategoriset Kodlista Population Klassifikation förälder/ Referensperiod barn Geografisk avgränsning Aktuell Populationstyp Ansvarig enhet/avdelning Delpopulation baseras på hämtar värden från Klassifikationsversion Klassifikationsvariant Mappning Giltig från och med Giltig till och med Nivå Klassifikationsenhet Kodstruktur Kodtyp Dummykod Nivånamn Nivånummer Antal Värden Nyckel Publikationer Källa Mål Källnivå Målnivå Relationstyp Flytande Datastrukturkomponent specificerar Beskriven värdemängd Kategorisk värdemängd förhåller sig till NodSet Måttenhet Datatyp Ömsesidigt uteslutande Version Organisation jämför
SCB s strategy on coordinated statistics production Evaluate and feed back Specify needs Design and plan Build and test Collect Process Analyse Disseminate and communicate Support and infrastructure Platform / service layer Metadata Direct data collection Data Micro Data Macro Data Publishing Administrative data Input data Observation data Target data Presentation data Dissemination Base register Process Data
A Central Metadata Repository Evaluate and feed back Specify needs Design and plan Build and test Collect Process Analyse Disseminate and communicate Support and infrastructure Operations Support SCB.SE The Platform Rules Business Services Catalogue Process Methods Process Steps SCBDOK Tech info Metadata Store Business Processes Variables DoS Populations Unit es Value Domains Thesaurus Question Bank Process Metrics Statistical Data Production Data Data Store
Metod struktureras av struktureras av struktureras av lagras i tar innebörd från grupperas i Designregel Designbeskrivning beskrivs av Sökväg implementerar Processindataspec bidrar till Processdesign bidrar till Processutdataspec är del av Processtyrningsregeldesign Omgång Versionshantering Presentationsspråk Tesaur specificeras av specificerar Processtyrningsregel Processtyrningsregel före efter specificeras av Omgångsprocessteg baseras på Processteg Processnummer Ordning inom nivån använder utför Tjänst Tjänstegränssnitt Fysisk plats Version Språk Begrepp instansierar används i Omgångsprocesstegstjänst använder Statistikprodukt Produktkod Benämning Officiell Statistik Utdatamottagare Adress ingår avtal ingår avtal Indataleverantör Adress Extern beskriver Processindata Processtegsavsnitt används av Avsnittstext Standardtext Processtegsinstans Processutdata skapas av Starttidpunkt Sluttidpunkt Starthändelse Referensmetadataavsnitt Avsnittsnummer Avsnittsnamn Obligatorisk Ordningsnummer inom nivå specificeras av används som input Referensmetadata Referensmetadatatyp används som output avser utgör grund för Fråga Frågetext Data in/ut Riktning styr Avtal Kontrakt baseras på Informationsset skapar Omgångsreferensmetadata Text Datapunkt använder Datum identifierare mått attribut Dataresurs Lagringsplats grupperar Dataset Lagringsplats Datakolumn Datatyp lagrar Instansvariabel Källa Roll Variabelroll Objekt Lagringsplats Tid observerar observerar hel/del förälder/barn Dimensionsdatapunkt Objektdatapunkt Identifierarkomponent Måttkomponent Attributkomponent Dimensionsdataset observerar Objektdataset Dimensionsdatastruktur Objektdatastruktur Dimensionsvariabler [1..n] Datastruktur Objektdatapost Logisk post är källan till är målet för grupperas struktureras av Postrelation grupperas av definieras av Representerad variabel mäter Dimensioner Tid Konceptuell variabel tar betydelse från Operationell regel Formel definieras av avser Värdemängd mäter mäter Objekttyp specificeras av hierarki innehåller Nod mappar källa tar betydelse från mappar mål Kategori Aggregation e Alias Not Kategorienhet Kodenhet Klassifikationsenhet (Värde?) Officiellt namn Beskrvining Kod Kod Innehållsbeskrivningar Aktuell Kategoriset Kodlista Population Klassifikation förälder/ Referensperiod barn Geografisk avgränsning Aktuell Populationstyp Ansvarig enhet/avdelning Delpopulation baseras på hämtar värden från Klassifikationsversion Klassifikationsvariant Mappning Giltig från och med Giltig till och med Nivå Klassifikationsenhet Kodstruktur Kodtyp Dummykod Nivånamn Nivånummer Antal Värden Nyckel Publikationer Källa Mål Källnivå Målnivå Relationstyp Flytande Datastrukturkomponent specificerar Beskriven värdemängd Kategorisk värdemängd förhåller sig till NodSet Måttenhet Datatyp Ömsesidigt uteslutande Version Organisation jämför
Ongoing Prototype - Access database Coordinating economic short term statistics (5 products) Testing in Structural business statistics and National accounts (Excessive Deficit Procedure - EDP) Case on sampling filling the blue part Version 1.1 Next step - Incorporating in/with the platform
giltig metod refererar till använder lagras i refererar till tar innebörd från grupperas grupperas i rollen avser struktureras av struktureras av struktureras av struktureras av baseras på Designregel giltig designregel Processindataspec Metod vald metod Processtegsdesign bidrar till utför Processutdataspec (Datastruktur) Undersökningsdesign utformar Undersökning Startdatum Slutdatum Status initierar Åtgärd beroende initierar Behov Båsenbergamodellen Konceptuell modell av SCB:s gemensamma metadatalager Version 1.1 2014-10-16 specificeras av (Datastruktur) Flödesregeldesign bidrar till Giltig tjänst Tjänst finns i vald tjänst möjliga tjänster Tjänstegränssnitt Fysisk plats är tillåten i specificerar Processflöde Flödesregel Omgångsprocessteg före Starthändelse efter Starttidpunkt Status Omloppstid Processtegsutförande instansierar specificeras av valt processteg utför är beroende av Processteg är Processnummer underordnat Ordning inom nivån Produktionsomgång kan förekomma i Startdatum Omgångstyp Slutdatum Omgång Startdatum Slutdatum specificeras av baseras på avser Statistikprodukt Produktkod Benämning Officiell Statistik Register Uppdrag Versionshantering Presentationsspråk Tesaur Giltig från Språk Begrepp Giltig till Noteringstid Noterat av Slutnoteringstid Slutnoterat av Utdatamottagare Adress Indataleverantör ingår avtal Postadress Data in/ut ingår avtal styr Telefon E-postadress Intern/Extern Riktning Frågor som modellen ska svara på A beskriver Processindata Starttidpunkt skapas av Processutdata används av Sluttidpunkt (Dataset) Starthändelse (Dataset) Status Referensmetadataavsnitt Processtegsavsnitt Avsnittstext Avsnittsnummer Standardtext Avsnittsnamn Obligatorisk Ordningsnummer inom nivå Referensmetadata Referensmetadatatyp lista över variabler Blankett Media Fråga Frågetext Avtal Avtalsägare Förordning Innehåll Kontrakt Leveranskanal Postbeskrivning Leveransschema baseras på Informationsset skapar använder Omgångsreferensmetadata Text Dataresurs grupperar Dataset (sökväg) Datapunkt identifierare mått attribut Kontextvariabel Datakolumn lagrar Datatyp Roll Källa Roll Variabelroll utgör grund för använder Datum Objekt Tid observerar observerar hel/del förälder/barn Identifierarkomponent Måttkomponent Attributkomponent Datastrukturkomponent Dimensionsdatapunkt Dimensionsdataset observerar Objektdataset Dimensionsdatastruktur Objektdatastruktur Dimensionsvariabler [1..n] Datastruktur specificerar Objektdatapunkt Objektdatapost Logisk post är källan till är målet för Postrelation grupperas av definieras av Representerad variabel mäter Dimensioner tar betydelse från Operationell regel Formel rollen Nod mäter tar betydelse från Kategori Aggregation e Alias Not Konceptuell variabel mäter Objekttyp Kategorienhet Kodenhet Beskrvining Kod specificeras av hierarki innehåller mappar källa mappar mål Klassifikationsenhet (Värde?) Officiellt namn Kod Innehållsbeskrivningar Aktuell definieras av Kategoriset Kodlista Population Klassifikation förälder/ Referensperiod barn Värdemängd Geografisk avgränsning Aktuell Populationstyp Ansvarig enhet/avdelning Delpopulation baseras hämtar värden från på Klassifikationsversion Klassifikationsvariant förhåller sig till Beskriven värdemängd Kategorisk värdemängd NodSet Version Måttenhet Ömsesidigt uteslutande Organisation Datatyp Mappning Giltig från och med Giltig till och med Nivå Klassifikationsenhet Kodstruktur Kodtyp Dummykod Nivånamn Nivånummer Antal Värden Nyckel Publikationer Källa Mål Källnivå Målnivå Relationstyp Flytande jämför består av
The end