openrgd Rikstäckande Genealogisk Databas (RGD) Sammanslagen släktforskning Sveriges historiska befolkning med släktrelationer



Relevanta dokument
Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Släktforskning på nätet. Björn Johansson

Nr Alla medlemmar och övriga läsare tillönskas en God Jul och ett Gott Nytt År!

Här lär du dig mer om att använda söklistor

Inloggningsuppgifter Ancestry. Kundtjänst för Ancestry.se

Länkservergenererade poster och mul-bib Sammanfattning

Hämta och installera Disgen 2016

Införande av Skolfederation. Erfarenheter i Sundsvalls kommun

Aktiviteter markeras som borttagna i databasen istället för att raderas

Hur man tar hand om sitt släktforskningsmaterial

Fyrklöververktyget Rapport

Digitala källor är sekundära källor

APL-plats: Period: 2014, vecka Specialpedagogik 2, 100 poäng

Användarhandbok StepStones Recruiters Space

Vad kan jag göra på biblioteket?

Symmetry: Bortsett från menyn har innehållet av sidan viss symmetri när det kommer till videoklippen som är upplagda på sidan.

Föreningen DIS. Dags för kontroll. KOMMA IGÅNG MED DISGEN MODUL 6 BLÅ Gör en antavla med bilder. Modul 6 Gör en antavla med bilder

Har du dubbletter i din databas?

Registrera forskningspublikation i DiVA

Allmänna riktlinjer för katalogisering av e-tidskrifter och e-böcker Antagna av Expertgruppen för LIBRIS Samkatalog,

Importera utskriftsinställningar och Tips och tricks för Disgen 8.2d

Att komma igång med Disgen

KGFs Databas Viktig information om CD:n KGFs databas.

Informationssystem för giftfritt byggande

DIS verksamhetsplan Att beslutas vid Dis årsmöte

F Secure Booster är ett verktyg för att snabba upp och städa upp i din pc eller

Vid problem med programmet kontakta alltid C/W Cadware AB på telefon

Översättningssprint Umeå

LEDNINGSÄGARMODUL. Användarhandledning

oneprintpdfinvoice :46

Granskning av införandet av lönesystemet Heroma

Release notes för RemoteX Applications Windowsklient version 4.4

Lathund. Fakturering via fil i Tandvårdsfönster

NYHETSBREV. Cumap webb 9. STOR NYHET på gång: Cumap LIVE en succé SUPPORT - Manualer på cumap.se Smått och gott, tips och trix

Kom Kom igång med Disgen

Felmeddelanden vid filvalidering

Google apps for education Classroom - Pedagoger. Lathund 2015 fritt omarbetad av Martin Andersson efter grund av Niklas Nord från Arvika kommun

Flytta, koppla eller koppla loss personer i din databas (del 1 av 2)

Nr Iakttagelse Risk Risknivå Pensionsmyndighetens svar till Riksrevisionen , dnr VER

Föreningen DIS verksamhetsberättelse 2014 Föreningens 34:e verksamhetsår

Från PCAXIS till Statistikatlasen

Föreningen DIS verksamhetsberättelse 2013 Föreningens 33:e verksamhetsår

Hela UR:s utbud, SLI Plusutbud, SLI fria utbudet kommer i sin helhet att finnas som adaptiv stream.

Hjälpmedel för ovana personer att släktforska inom Håbo kommun

Kom igång med Disgen 6

Inspektion Användarmanuel

Version September Utskriftsbeställning

Open access till artiklar 2018 Årlig uppföljning av öppen tillgång till artiklar registrerade i DiVA

Va lkommen till Delfis statistikportal

Kom igång med Disgen 2016

Artiklar via UB:s sö ktja nst

EasyParks Integritetspolicy

TMP Consulting - tjänster för företag

Handbok för registrering av diagnostiska standarddoser. April 2015

Användarhandledning DORUM

PKS5000PC hjälpmedel uppföljning

IT-system. BUP Användarmanual

iphone/ipad Snabbguide för anställda på HB

Lumbago - Förord. Välkommen till Journalprogrammet Lumbago.

Mamut Open Services. Mamut Kunskapsserie. Kom i gång med Mamut Online Survey

Registrera konferenspublikationer i DiVA

ATIVA Development AB. ATIVA-Mätdon. Produktinformation. Sidan 1 av 6

6. Nytt kalenderår. Nytt kalenderår i Access Nytt kalenderår i SQL

Handledning för publicering av avhandlingar och andra vetenskapliga publikationer i DiVA

Release Notes. Vad är nytt i Easy Planning Programmet nu Vistakompatibelt. Ny html hjälpfil anpassad för Vista

Genline: Kvartalsrapport för Genline Holding AB januari - september 2009

Software Translator 6.1 Manual

Hogia Personal version ( )

Tidigare "Månadens fråga"

Varumärkesutredning. Ryms information och tjänster från socialtjänsten inom 1177 Vårdguiden? Stockholm

Autogiro 3L Pro Autogiro. Copyright VITEC FASTIGHETSSYSTEM AB Sida 1 av 14

Innovationsledning i regioner utveckling av nya tja nster Delprojekt: Systemsto d fo r den regionala innovationsprocessen

Rumshantering i Resebyra -modulen

Frågor och svar om ArcGIS Pro Licensiering

Snabbguide till Cinahl

Användningsfall. UC-01.01B Anställd börjar, E-rekrytering. Lunds Universitet

Tomas Green. First Class. 1. Inställningar. För att lägga till en signatur i ett mail gör du så här: 1) Gå till menyn Redigera och välj Inställningar.

Importera och använda en textdatabas i Excel

Släktforskning med dator. Jakobstad

Sekretesspolicy. för MyLyconet Website

Version Juni Utskriftsbeställning

Doktorander vid forskarskolor för lärare hösten 2015

Funktionsbeskrivning

Uppstart Agda PS Hosting

Kartor i stort och smått. Björn Johansson bjorn.gustaf@telia.com

Så registrerar du namn

Utkast/Version (7) Användarhandledning - inrapportering i Indataportalen

Adra Match Accounts Användarmanual Förenklad

EXFLOW DYNAMICS NAV ELEKTRONISK FAKTURAHANTERING

Frågor och svar för Nationellt substansregister för läkemedel (NSL)

Uppstart. Agda Drift

MALL. Inventeringsrapport

Installera och konfigurera. Monitor ERP System AB

Nyheter i Norstedts Tidbok Mattias Claesson Produktchef

Föreningen DIS verksamhetsberättelse 2016 Föreningens 36:e verksamhetsår

Region Skåne Granskning av IT-kontroller

INTERN KONTROLL AV Regionstyrelsen (Regionstyrelsen/Regionala Utvecklingsnämnden/Personalnämnden) RAPPORT 2015

Administrera serier. Syfte. Innehåll. Guide Eventor

VILKA PERSONUPPGIFTER BEHANDLAR VI OCH HUR ANVÄNDER VI DEM?

Transkript:

openrgd Rikstäckande Genealogisk Databas Sammanslagen släktforskning Sveriges historiska befolkning med släktrelationer 2015-04-30 delprojekt openrgd Resultat Rikstäckande Genealogisk Databas (RGD) är ett samarbetsprojekt mellan DIS (www.dis.se) och EIT vid Lunds universitet (www.eit.lth.se)

Övergripande målsättning med en Rikstäckande Genealogisk Databas (RGD) är att skapa en databas över Sveriges historiska befolkning med släktrelationer och utan dubbletter baserat på släktforskares samlade forskningsresultat. RGD:s SYFTEN Stödja medlemmars släktforskning genom feedback Förbättra tillförlitlighetsnivån i släktrelationer och sakuppgifter genom sammanläggning av flera forskares uppgifter Att många forskare bidrar och granskar innehållet för att höja kvaliteten Utgöra en grund för en databas över Sveriges historiska befolkning med unika identitetsbegrepp Kunna länkas med annan forskning avseende svenskarnas liv och verksamhet 2 openrgd

openrgd DELPROJEKT openrgd är ett delprojektet inom RGD som avser att väsentligt bredda och förenkla möjligheterna för allmänheten att använda de verktyg som tas fram i huvudprojektet RGD genom att: Att utveckla och utvärdera en algoritm för fuzzy matchning (identifikation av gemensamma individer och familjer) mellan två släktträd. Fokus för algoritmen är noggrannhet och effektivitet. Utveckla fria Web-tjänster för access till RGD s verktyg. openrgd är ett samarbete mellan Föreningen för datorhjälp i släktforskningen (DIS) och Lunds universitet (Institutionen för Elektrooch Informationsteknik, EIT) och har stötts med ett finansiellt bidrag från Interfonden.SE under tiden 2014-06-01 2015-04-30. Utöver personella resurser bidrar EIT med sin kunskap inom informationsteknik vad gäller algoritmer och databasstruktur. Funktionerna i openrgd-web kan användas för att höja tillförlitligheten i relationer och sakuppgifter i den egna forskningen dels genom vissa formella kontroller av den ingående GEDCOM-filen och dels vid jämförelse av samma fil mot en annan GEDCOM-fil. Det är ambitionen att släktforskaren skall kunna höja kvaliteten i den egna forskningen. openrgd s Web-tjänster syftar till att med självbetjäning kunna göra ovanstående kvalitetsgranskning (indatavalidering) samt att i två GEDCOMfiler kunna identifiera matchande individer men även identifiera avvikelser i form av släktrelationer eller sakuppgifter för dessa individer. Eftersom databasen ej skall få innehålla dubblettposter på individer ställs mycket höga krav på identifiering av potentiellt matchande individer. RGD jämför hela familjebilder (ej enstaka individer) i en indatafil med motsvarande familjebilder i databasen för att i största möjlighet säkerställa en korrekt identifiering av gemensamma individer. Mer än 99.8 % av alla gemensamma individer upptäcks. openrgd 3

FORTSÄTTNING / VIDAREUTVECKLING Resultatet av arbetet som omfattades av Internetfondens stöd är mycket värdefullt för det fortsatta arbetet med RGD som grovt kan delas in i tre delar: 1. att granska kvaliteten i ett bidrag och föreslå åtgärder/förbättringar 2. fuzzy matchning och uppdatering av en RGD-databas med sammanslagna data 3. hur ska vi arbeta med RGD? För den första delen kommer vi att arbeta vidare med att realisera och underhålla databaser med personnamn, källor och orter. Vid en första anblick kan det verka trivialt men rymmer en del komplexitet, t.ex. i form av att bygga en ortsstruktur som starkt påminner om Ingår i / Består av för produkter och artiklar. Strukturen ska även inkludera en tidsdimension. Vidare behöver vi hitta en bra balans mellan de automatiserade och de manuella inslagen och skapa former för feedback till bidragsgivaren. För den andra delen bygger vi vidare på erfarenheterna och ser hur det går att trimma matchningen ytterligare. Sammanslagningen av personer, familjer och relationer kräver också en bra balans mellan de automatiserade och de manuella inslagen samt en värdering av olika källor. Vi ser framför oss att våra medlemmar kommer att hålla ett öga på innehållet så att felaktigheter och förbättringar rapporteras regelbundet. En variant på temat ständiga förbättringar, kanske inte lika öppet för egna åtgärder som Wikipedia men ändå samma grundtanke. För den tredje delen kommer vi att ta fram processer, rutiner, rollbeskrivningar och liknande som krävs. Tidplan: eftersom vi i stort sett bygger på enbart ideella krafter så måste det få ta den tid som krävs och i den takt vi finner rätt person för rätt uppgift. 4 openrgd

ÖPPET TEST-SYSTEM - openrgd Resultatet av Internetfond s projektet är ett antal öppna Web-tjänster som kan användas fritt av alla. Antingen med eget konto eller inloggad som guest. Enda skillnaden är att databaser sparas mellan sessioner för användare med konto. Implementeringen av openrgd bygger på tekniker och verktyg som Machine Learning, Information Retrieval, Python, MongoDB, Lucene, och SVM. Koden är fritt tillgänglig och kan laddas ner från GitHub.* UI: 1-3 UI: 4,5 UI: 6 UI: 7 UI: 8 Figur 1: Funktionsöversikt/dataflöde openrgd. * Mer information, URL:er, m.m. hittar du på sista sidan. openrgd 5

FUNKTIONALITET Indatavalidering / egenkontroll av GEDCOM-filer (UI:1-3) Namnkontroll, listar formella fel och möjliga felregistreringar av kön genom kontroll av alla namn i GEDCOM-filen mot DIS namndatabas (som är under utveckling). Programmet listar namn som saknas med personens angivna kön men som finns med motsatt kön. Dessa personer kan vara registrerade med fel kön. Ortkontroll, listar angivna platser som inte är svensk församling eller land. Programmet läser den angivna orten för händelserna född, död och vigd. Därefter jämför programmet detta mot generella tabeller för svenska församlingar och länder. De orter som då inte får träff listas tillsammans med ett urval av möjliga alternativa församlingar. Även länder kontrolleras mot en tabell med svensk stavning enligt ISOstandard. Dubblettkontroll, listar möjliga dubblettkandidater. Kontrollen avser att finna lika eller snarlika personer, som möjligen kan vara dubbletter. Programmet jämför alla personer i GEDCOM filen med varandra. Försöker att hitta och värdera likheter i individernas uppgifter. De personer, som har liknande uppgifter listas parvis. Slutligen skapas en databas i openrgd som används för fortsatt bearbetning. 6 openrgd

Funktionalitet Matchning av två GEDCOM filer (UI:4, 5) Släktforskare, med viss del av forskningen gemensam, kan analysera likheter/ skillnader genom att maskinellt matcha en databas mot någon av de andra databaser man har laddat upp. Här har man då möjlighet att familjevis hitta likheter och skillnader mellan de två maskinellt matchade databaserna. Den maskinella matchningen kan inte med tillräcklig säkerhet matcha alla personer mot varandra, utan lämnar tveksamma matchningar till manuell bedömning. openrgd 7

FUNKTIONALITET Avvikelser i matchad data (UI:6) Forskare som hittat gemensamma anor kan hitta detaljskillnader hos matchade personer. Matchade databaser innehåller troligen skillnader i data för enskilda matchade personer. Skillnader på så sätt att data finns i båda, men där uppgifterna avviker från varandra. Personer där differenser finns listas och skillnaderna synliggörs. FUNKTIONALITET Sammanslagning av matchad släktforskningsdata (UI:7) Efter att manuell matchning (UI: 5) har genomförts, kan två databaser slås samman enligt resultatet från matchningen, personer som identifierats i båda databaserna läggs samman till en person. Resultatet blir en ny databas med all information från de två sammanslagna fast utan dubbletter. Sammanslagning kan bl.a. användas om man fått GEDCOM data från annan släktforskare och vill inkluderas den i sin egen. 8 openrgd

FUNKTIONALITET Skapa GEDCOM-fil av sammanslagen släktforskningsdata (UI:8) Den databas, som skapats och bearbetats från de ursprungliga GEDCOM filerna, kan användas för att generera en ny GEDCOM fil. openrgd 9

USE CASES Kontrollera sina egna data Ladda upp GEDCOM-fil (UI:1-3) Gå igenom resultat-listorna RGDN.txt - Namnfel eller namn som saknas i namndatabasen, men finns med avvikande kön RGDO.txt - Ortnamn / Platser som ej kunnat identifieras som församlingar i GEDCOM filen RGDD.txt - Individer med lika eller snarlika uppgifter, som bör kontrolleras avseende dubblett eller felregistrering. Checklista - Andra fel och varningar Eventuellt kör alternativ dublettkontroll (UI:2A) Välj databas I som matchar den GEDCOM-fil som just laddades upp USE CASES Jämföra sin egen forskning (A) med en kollegas forskning (B) Ladda upp GEDCOM-fil A via (UI:1-3) Ladda upp GEDCOM-fil B via (UI:1-3) Kör maskinell matchning (UI:4) Välj den minsta av A och B som databas I och den andra som databas II Starta manuell matchning (UI:5) Välj databas I och II på samma sätt som ovan Jämför data för matchade individer Alternativt visa skillnaderna (UI:6) Välj databas I och II på samma sätt som ovan 10 openrgd

USE CASES Slå samman två personers forskning (A, B) till en GEDCOM-fil Ladda upp GEDCOM-fil A via (UI:1-3) Ladda upp GEDCOM-fil B via (UI:1-3) Kör maskinell matchning (UI:4) Välj den minsta av A och B som databas I och den andra som databas II Starta manuell matchning (UI:5) Välj databas I och II på samma sätt som ovan Gå igenom alla MultiMatch respektive alla med status Manuell och avgör vad som är korrekt. Slå samman databaserna (UI:7) Välj databas I och II på samma sätt som ovan Skapa en GEDCOM-fil av den sammanslagna databasen (UI:8) Välj databas som databas II ovan USE CASES Trimma din släktforskning Se artikel i Diskulogen med Släktforskarnytt nr 108, 2015-04, Rolf Carlsson: sid 36 -- 37 Släkttrim Trimma din släktforskning, och sid 38 Borås Släktforskare testar Släkttrim. http://www.dis.se/sv/publikationer/diskulogen/senaste-numren.html openrgd 11

KONTAKT Christer Gustavsson (DIS) christer.gustavsson@dis.se Anders Ardö (EIT, Lunds universitet) anders.ardo@eit.lth.se www.eit.lth.se/staff/anders.ardo INFORMATION DIS www.dis.se/sv/projekt/genealogisk-databas.html Internetfonden www.internetfonden.se/rikstackande-genealogisk-databas Testsystem http://rgd.eit.lth.se:8085/ (fram till 2015-06-01) http://rgd.dis.se/ Programkod https://github.com/andersardo/gedmerge.git Diskussioner på DisForum http://forum.dis.se/vb/forumdisplay.php?121-rikst%c3%a4ckande-genealogisk-databas-(rgd) Finansiellt stöd från