Qualität der offline erfassten Daten

Hallo,

aktuell stellt sich gerade so die Frage wie prüfen wir die Qualität der offline erfassten Daten?

  • Sollen wir Daten überhaupt vorher anschauen um Tippfehler zu verbessern oder nicht?
    Wenn dann würde ich nur eine normale Rechtschreibprüfung machen. Wenn jetzt ein Name falsch geschrieben wurde ist halt pech.

  • Im obigen Zusammehang gibt es im Ticketsystem einige Meldungen wo etwas nicht ganz stimmt. Gleich rein?
    Würde ich später machen, wenn die Bearbeitung dann wie bei den jetzigen Daten erfolgen kann.

  • Ab wann gilt ein Buch als komplett?
    Meiner Meinung nach wenn alle Orte eines Buches erfasst sind. Was wir jetzt nicht wirklich leisten können ist auch zu schauen ob jede Seite erfasst wurde. Irgendwelche Behörden- oder Straßenverzeichnisse gehören nicht dazu. Die wurden im DES auch erst später mit in die Erfassung aufgenommen.
    Ich würde da den Angaben im GenWiki Artikel vertrauen wenn dort steht komplett ist es eben komplett. Alles andere ist auch Pech.

  • Welche Daten werden überhaupt benötigt?
    Ich selbst habe bei der Erfassung einiges mehr mit genommen was urspünglich gedacht war. Was wird denn in der Regel beimn DES zur Zeit genommen?

  • Wie sieht den später überhaupt das Ergbenis der Suche aus und was wird dazu mindestens benötigt?
    Ist da auch das Bild dabei? Wenn ja wie gehen wir damit das wir nicht für alle Bücher ein Digitalisat haben.

Bei den Überlegungen sollte man ganz kurz berücksichten das nach der letzten Statistik es 4.402.826 Datensätze sind. Ich denke da müssen wir das pargmatisch angehen und nicht in klein klein verfallen.

Anregungen, Gedanken, Mithilfe willkommen.

Gerhard (Stoll)

Hallo Jesper, hallo Gerhard,

vor ein oder zwei Jahren hat Jesper mal in einer Zoom-Konferenz ein Programm bzgl. der Adressbücher vorgestellt, mit dem man Schreibweisen vereinheitlichen, Schreibfehler (in Titeln) und andere „Aufräum-“ und Fehlerbereinigungen machen konnte. Was ist daraus geworden?

Viele Grüße
Nicole (Hartmann)

Hi,

Nennt sich openReFine.

Workshop https://www.youtube.com/watch?v=-v6Ob6kPe-Y

Was meinst Du damit? Ist ne Möglichkeit das zu nutzen.

Gerhard (Stoll)

Hallo Gerhard, hallo Jesper,

ich wollte einfach wissen, ob das Programm genutzt wird oder wurde. Ich fand seine Möglichkeiten interessant um unsere Datenqualität zu verbessern.

Gruß
Nicole (Hartmann)

Moin, Gerhard und Jesper,

Jesper hat mal vor einiger Zeit geäußert, dass die Datenqualität der offline-erfassten Adressbücher teilweise sehr zu wünschen übrig lässt. Insofern würde ich auf Gerhards Anmerkung nicht in „klein klein“ zu verfallen mit einem „Jein“ antworten. Auf der einen Seite sehe ich die Arbeit, die eine solche Überprüfung und Korrektur der betroffenen Adressbücher und Datensätze macht. Auf der anderen Seite sehe ich aber auch das Problem von Qualitätsmängeln der Daten. Datenabfragen/Datensätze/Datenbanken auf die man sich nicht verlassen kann, werden auf Dauer nicht mehr genutzt und schädigen irgendwann auch den Ruf des Compgen.
Bei dieser Ambivalenz den richtigen „Mittelweg“ zu finden ist nicht einfach. Ich bin jemand, der Datenqualität vor schneller Abwicklung vorzieht.

Hier ein kleines Brainstorming, was mir noch einfällt. Ihr wisst ja, das ich nicht vom Fach bin und nicht abschätzen kann, ob möglich und wie aufwendig die Durchführung des Vorschlags wäre. Aber ihr könnt das ja :wink:

  • Wir haben doch einige der letzten DES-Projekte mal „automatisch“ lesen lassen und die Erfasser, die Einträge nur kontrollieren und verbessern lassen. Ist das realistisch: bei den offline-Adressbüchern, bei denen ein Digitalisat vorhanden ist, lässt man die Datensätze „automatisch“ erfassen und lässt dann mittels eines Macros/Apps/Programms das automatisch gelesene mit den vorhandene Erfasser-Datensätzen vergleichen. Als Ergebnis werden alle Datensätze ausgegeben, die voneinander abweichen oder bei denen entweder in der „automatisch“ bzw. der „händisch“ erfassten Datenbank eine Entsprechung fehlt. Und nur diese Datensätze werden kann kontrolliert, ergänzt bzw. zu viel Erfasstes gestrichen. Entweder von einem Adressbuch-Projektmitglied, oder falls es sich um größere Datensatzmengen handelt, als „Cold-case“-Projekt von den Adressbucherfassern mit einem dafür abgestellten Betreuer.
  • Das von Jesper vorgestellte openReFine-Programm fand ich interessant, ich weiß aber nicht ob es inzwischen genutzt wird/wurde.

Viele Grüße
Nicole

Hallo Gerhard,

Ich fange bei Deinen Fragen mal bei der letzten an:

Das wäre meiner Meinung nach die erste Aufgabe - die Bücher danach zu sichten, ob sie jeweils irgendwo digital vorliegen.
Denn davon hängt ganz entscheidend ab, wie wir dieses Buch weiter behandeln können.
Ich hatte vorgestern ein kurzes Gespräch mit @ undjzedlitz er wollte die Übersichts-Datei in Nextcloud um diese Information erweitern.

Dann zu Deiner ersten Frage:

Beim DES haben wir in aller Regel quellengetreu erfasst. Das heißt z. B., dass Setzfehler nicht „verbessert“ und Abkürzungen nicht aufgelöst wurden.
Da es sich auch bei Offline erfassten Adressbüchern ebenfalls um die Quellengattung „Adressbuch“ handelt, würde ich das dort genauso handhaben.
Ich erinnere mich da ebenfalls an einige Tickets, wo uns Fehler gemeldet wurden und wir zunächst geprüft haben, ob es sich um einen Setzfehler (der wurde nicht korrigiert) oder um einen Tippfehler (der wurde korrigiert) handelt.

Bei Meldungen zu Setzfehlern haben wir es bei den Verlustlisten des 1. Weltkrieges so gehandhabt, dass wir die Tickets in eine „Warteschlangen“-Queue verschoben haben.
Wenn die Daten dann eines Tages in einer gemeinsamen Datenbasis (Gedbas4all) liegen, können wir dort einen zusätzlichen Datensatz anlegen, dass - im Gegensatz zur Quelle Verlustlisten 1. WK - die Quelle „XYZ“ besagt, dass der Proband nicht in Kleinkleckersdorf sondern in Großkleckersdorf geboren sei.
Das wäre dann wissenschaftlich „sauber“.

Zu Deiner nächsten Frage:

Bei Offline erfassten Adressbüchern wurde meines Wissens nach nur das alphabetische Einwohnerverzeichnis erfasst. Straßenverzeichnis, Behördenverzeichnis und Gewerbeverzeichnis blieben außen vor. Ganz sicher bin ich mir hier jedoch nicht.

Ich gehe da mit Dir - würde es jedoch etwas anders formulieren:
Ein Adressbuch ist komplett erfasst, wenn das alphabetische Verzeichnis vollständig erfasst wurde.

Wenn gelegentlich eine Seite fehlt, wäre ich großzügig. Ich kann mir hier allerdings algorithmische Plausi-Kontrollen vorstellen, indem die ersten Buchstaben des Familiennamens analysiert werden.
Ich denke, darüber ließe sich ableiten, ob Lücken vorhanden sind.

Gibt es eine digitale Version des Buches, ließen sich solche Lücken verifizieren und ggf. schließen.
und da sind wir wieder bei Punkt 1.

Gibt es keine digitale Version des Buches, könnte im Genwiki-Artikel vermerkt werden, dass es möglicherweise Lücken gibt.

Zu Deiner Frage, welche Daten bei DES-Adressbüchern erfasst werden:
Es dürften wesentlich mehr sein, als bei den offline erfassten Adressbüchern.
Allein schon, weil seit Jahren - nicht ganz zu Anfang aber schon seit langem - aus den Straßenverzeichnissen die Hauseigentümer (die möglicherweise ganz woanders wohnen) mit ihren abweichenden Wohnorten erfasst werden.
Außerdem aus den Behördenverzeichnissen die Funktionen und Beschäftigungsverhältnisse, Vereinsmitgliedschaften etc.
Aus Gewerbeverzeichnissen lassen sich Eigentümer, Vorstände etc. ermitteln.
Gerade solche Daten sind es, die für Familienforscher das „Fleisch an den Knochen“ darstellen.

Auch hier wieder die Frage, ob das Buch als Digitalisat vorliegt: Solches „Fleisch an den Knochen“ könnte über DES sozusagen „nachgereicht“ werden.

Zu Deiner Frage nach der Suche:
In den Offline erfassten Büchern kann nur nach den Dingen gesucht werden, für die in der Excel-Tabelle eine eigene Spalte vorhanden ist. Was mir da noch fehlt, ist die Einschränkungsmöglichkeit auf einen Zeitraum.

Bei DES-erfassten Büchern geht wesentlich mehr, da dort, wie oben beschrieben, weitergehende Infos erfasst wurden.

Soviel aus meiner Sicht zur Thematik

Herzliche Grüße,
Susanne (Nicola)

Mit dieser Bearbeitung bin ich fertig. Alle Adressbücher, die im GenWiki einen Standort online verzeichnet haben, sind nun mit Digitalisat vorhanden markiert. Es gibt aber bestimmt bei uns noch Scans, die noch nicht im GenWiki verzeichnet sind.

Oder um gekehrt. Es gibt Bücher für die es einen Link gibt, dieser aber nicht mehr funktioniert.

Die Bücher von Wandsbek scheint es in wirklich gar nicht zu geben. Das sind wohl ehr Teilerfasste Dinge aus dem Hamburgerischen Büchern zu sein. Zumindest lässt das ein vergleich der Daten zu.

Ich gebe Dir da durchaus recht. Könnte jetzt aber den Einwand bringen das die Daten ja schon vorhanden sind und auch so durchsucht werden können. Zynisch könnte man schreiben da ist vielleicht schon der Ruf geschädigt. :wink:

Ich meinte ja auch Tippfehler. z.B. im Buch „Bütow 1925“ gibt es mindestens zwei Einträge mit „Haushehilfin“ und das steht so nicht im Buch drin.

Setzfehler sind zum Teil im GenWiki Artikel dokumentiert.

War so angedacht.

Das habe ich bei meinen offline erfassten ABs auch gemacht.

Die Sache ist doch die welche Felder nutzen wir bei den offline erfassten. Schauen wir uns jedes Buch an was erfasst wurde und Entscheidung uns dann welche nutzt werden oder machen wir es einheitlich?

Eben nachgereicht. So weit sind wir ja noch nicht.

Gerhard (Stoll)

Mein Ziel ist es, möglichst einen Link zur gescannten Seite anzubieten. Zumindest Seitenzahlen sollten dabei sein, damit man überhaupt eine Möglichkeit hat, die Daten zu überprüfen. Bei manchen Einträgen habe ich das Gefühl, dass dort Daten aufgeschrieben wurden, die gar nicht aus dem Adressbuch stammen. Und es gibt auch bei paar „Bücher“, bei denen fraglich ist, ob es sie überhaupt gibt.

Nach vielen Stunden Arbeit sind nun alle Daten in den .tsv.gz Dateien im Ordner https://nextcloud.team.genealogy.net/f/81924 zumindest in den Basisfeldern technisch korrekt. Es war schon ganz schön abenteuerlich, was manche Erfasser*innen uns da geliefert haben. Die Anzahl der offline erfassten Einträge beträgt nun 4,4 Millionen. Wir haben auf der einen Seite noch ein paar weitere gelieferte Tabellen gefunden. Auf der anderen Seite hat sich für manche Bücher die Zahl um tausende Einträge reduziert - es war offenbar ein beliebter Spaß, einfach mal eine Menge von Leerzeilen in die erfassten Daten einzufügen.

Da sich die Daten nun fehlerfrei laden lassen, kann man mit Programmen weitere Auswertungen machen. Eine erste kann z.B. sein, die Quote der mit Seitenangaben versehenen Einträge zu bestimmen. Ist die Quote hoch und ein Digitalisat vorhanden, dann lohnt sich dort eine Nachbearbeitung der Seitenangaben.

Hallo Gerhard,

Damit wir nicht aneinander vorbei reden:
Es gibt ja grundsätzlich zwei Arten, wie Hauseigentümer gekennzeichnet werden:
(1) im alphabetischen Verzeichnis wird ein Bewohner eines Hauses zugleich als dessen Eigentümer gekennzeichnet.
Dann müssen in der Datenbank zwei Einträge erzeugt werden:

  • Personen x wohnt in der Liegenschaft an der Adresse xyz
    und
  • Person x ist Eigentümer der Liegenschaft an der Adresse xyz

(2) In den Straßenverzeichnissen ist zusätzlich zu den Bewohnern der Hauseigentümer genannt. Dieser wohnt möglicherweise ganz woanders. -

Dann kommt folgende Info in die Datenbank

  • Person x ist Eigentümer der Liegenschaft an der Adresse xyz
    Ist zugleich ein abweichender Wohnort genannt und erfasst, dann kommt zusätzlich die Info:
  • die Person X wohnt (nicht in der Liegenschaft selbst, sondern) in der Ortschaft ABC

Wenn Du auch das erfasst hast, dann erklärt das, warum es bei manchen Adressbüchern Ortseinträge gibt, die auf den ersten Blick mit dem Buch selbst überhaupt nichts zu tun haben und zu denen es auch keine GOV-Kennung gibt.

Um solche Sachverhalte korrekt in die Datenbank zu übertragen, müssen solche Einträge beim Übertragen in die Datenbank anders behandelt werden. Dazu muss bekannt sein, bei welchen Büchern so erfasst wurde und um welche Seitenbereiche in diesem Buch es sich handelt.

Ich sag’s mal so: „Ausnahmen bestätigen die Regel“.
Sicherlich gibt es Links, die nicht mehr funktionieren.
Und möglicherweise gibt es Bücher, die mittlerweile - ohne dass wir es mitbekommen haben - online verfügbar sind. Unsere Doku im Genwiki ist nicht mehr und nicht weniger als eine Momentaufnahme.

Wenn ich in gut einer Woche wieder zu Hause bin, werde ich mir einige Bücher, bei denen die Angaben auf den ersten Blick unplausibel erscheinen, etwas genauer untersuchen.

Herzliche Grüße,

Susanne

Wie sollte das am besten gehen? Aktuell liegen die Daten gepackt vor. Wenn ich die mir nur auf den Rechner ziehe und Änderungen mache und dann zurückspiele könnte ich die Arbeit von jemanden anderem zerstören.

Was wäre den das beste Programm? Ich hatte mir die Daten mal in OpenOffice einegfügt. Würde mich aber irgendwie nicht trauen diese wieder zurück zuspielen so von wegen Umwandlungsfehler beim Einlesen.