Adressbücher bei CompGen

Hallo zusammen,

lange Zeit diente diese Liste ja vor allem der Ankündigung neuer DES Projekte. Jetzt soll sie auch mal wieder zur inhaltlichen Arbeit an der Datenbank historischer Adressbücher genutzt werden.

Wir haben bei CompGen mittlerweile zwei große Bestände von abgetippten
Adressbuch-Inhalten:

  • die offline in Tabellen erfassten Daten, die unter https://adressbuecher.genealogy.net/ zu finden sind. Das sind 4,5 Millionen Einträge aus vermutlich 469 Büchern.
  • die mit dem DES erfassten Daten in einem ständig wachsenden Bestand mit derzeit 5,2 Millionen Datensätzen

Das Ziel ist, diese beiden Bestände zu einem großen Bestand in gedbas4all zusammenzuführen.

Bei einem Teil der offline erfassten Büchern entspricht die Qualität der Daten nicht den mittlerweile bei uns üblichen Maßstäben. Daher muss eine Bereinigung der Daten vorgenommen werden. Das können wir nur im Team schaffen.

Wir haben zwei Themenfelder, die im Prinzip unabhängig voneinander bearbeitet werden können:

offline Erfasste Daten

  1. Anlegen von Einträgen für alle erfassten Adressbücher.
  2. Zuordnen der offline erfassten Tabellen zu diesen Einträgen. Der
    Schritt wurde prinzipiell schon gemacht, aber mir sind ein paar
    Unstimmigkeiten aufgefallen.
  3. Sichten der Datensätze, in welcher Qualität die Bücher bearbeitet
    wurden. Da es mittlerweile zahlreiche Bücher auch gescannt gibt, könnten
    z.B. Seitenzahlen nacherfasst werden.
  4. Korrektur systematischer Fehler
  5. Importieren der Daten

mit dem DES erfasste Daten

DES-Projekte durchsehen, mit welchem Stand der Editionsrichtlinien und welcher Datennormalisierung die Daten erfasst wurden. Dementsprechend müssen Algorithmen zum Importieren der Daten entwickelt werden.

Wer hat Lust, sich an dem Vorhaben zu beteiligen?

Schöne Grüße
Jesper (Zedlitz)