Entwicklung der Datenbank Historischer Adressbücher

Dass ich an einer neuen Software für die Datenbank Historischer Adressbücher arbeite, hatte ich vor einiger Zeit schon berichtet. An dieser Stelle möchte ich Informationen zu der Weiterentwicklung geben.

2 „Gefällt mir“

Als erstes soll es einen Einblick geben, wie die Daten in die Datenbank Historischer Adressbücher kommen. Wir haben zwei Quellen:

  1. die in den vergangenen Jahren offline mit Hilfe von Tabellen erfassten Einträge
  2. die laufende Adressbuch-Erfassung mit dem DES

In diesem Diagramm ist dargestellt, wie der Ablauf bei der Übernahme der Daten ist. Der Import der offline erfassten Daten muss nur einmalig passieren. Aus dem DES muss der Import nach Abschluss einer Adressbuch-Erfassung laufen.

Hallo Jesper,
bei solch einer Aufgabe würde ich auch einmal einen Blick auf Apache Airflow werfen. Das setze ich seit zwei Jahren erfolgreich im Beruf ein. Wir haben bei uns inzwischen über 200 ETL-Prozesse (Extraction, Transformation, Loading) aus den 90er und 2000er Jahren damit in eine auf Python Data-Science basierte Welt kontrollierter und moderner Datenprozesse gehoben, um unser „Excel-Universum“ zu ersetzen und unsere Insellösungen datentechnisch zu verbinden :smiley:

  • Scheduling und Kontrolle über eine Web-GUI inklusive
  • Daten-Pipeline as a Code,
  • Sehr viele „Lego“-Bausteine für Standardaufgaben und Schnittstelle,
  • Läuft wunderbar in Docker-Containern,
  • Open Source Lizenz,
  • lässt sich wunderbar in eine Gitlab Landschaft integrieren

Viele Grüße,
Clemens

Vielen Dank für den Hinweis. Wir verwenden bei der Arbeit Apache NiFi zur Automatisierung der Datenprozesse. In diesem Fall ist die Import-Logik aber schon komplett fertig und mit über 13 Millionen Einträgen getestet. Das Problem ist vielmehr die Datenqualität bei den mit dem DES erfassten Daten. Da gibt es einige bisher nicht bemerkte Lücken bei der Flächenerfassung.

Hallo Jesper,

kann man die Lücken „im Hintergrund“ (bearbeitend) schließen?
Um welche ABs geht es?

Viele Grüße

André

Da nur Personen, die im DES Projekte betreuen, das sinnvoll bearbeiten können, habe ich in der Kategorie des-projektbetreuer etwas dazu geschrieben: https://discourse.genealogy.net/t/fehlende-und-falsche-gov-kennung-in-den-adressbuechern/827326