Rohwerte aus dem DES

jzedlitz · 31. Januar 2021 um 10:26

Ich bin gerade dabei, ein Programm zu schreiben, das die Eingaben aus dem DES als Text in gedbas4all importiert. Das funktioniert auch soweit ganz gut bis auf eine Kleinigkeit: Für die Kirchenbücher haben wir im DES ein Feld mit Unterfeldern erfunden, das folgende vier Werte enthält:

Typ des Ereignisses
Datum des Ereignisses
Ort des Ereignisses
Alter der Person beim Ereignis

Im DES verwenden wir ein Trennzeichen, um die vier Informationen in einem String unterzubringen. Aber wie machen wir das am besten mit Wikibase? So wie im DES ist das bestimmt keine Idee. Mir fallen zwei Alternativen ein:

Aufteilung in mehrere Properties, die auf dem Typ des Ereignisses basieren:
- Geburtsdatum Datum
- Geburtsdatum Ort
- Geburtsdatum Alter
Verwendung von Qualifiern

Der bei der Variante mit Properties könnte das Problem auftreten, das es zwei Ereignisse mit dem gleichen Typ geben könnte. Dann könnte man nicht mehr erkennen, welches Datum zu welchem Ort gehört. Ob es diesen Fall gibt, habe ich im DES noch nicht nachgesehen.

Habt ihr Ideen und Vorschläge?

Wolfgang_Baumgartner · 31. Januar 2021 um 17:39

Mein Vorschlag insgesamt wäre, so nahe wie möglich bei Gedbas4all/Artikel – GenWiki zu bleiben:

es gibt eine Source, z.B. ein Kirchenbuch; Name in Wikisource „Taufbuch Waldkirchen 1“
darin eine Seite, z.B. „Taufbuch Waldkirchen 1 Seite 45“
darin einen Eintrag, z.B. „Taufbuch Waldkirchen 1 Seite 45 Nummer 5“ oder wenn nicht nummeriert „Taufbuch Waldkirchen 1 Seite 45 Anton Mayer“

Alle diese werden in Wikisource als Items erfasst, z.B. „Taufbuch“, „Seite“, „Eintrag“.

Ein solcher Eintrag enthält alle Informationen aus dem Quelleintrag in Originalschreibweise mit entsprechenden „Original“-Properties. Sind wir uns bis hierher einig?

Also für einen Trauungseintrag z.B.
Datum (Original)
Name des Bräutigams (Original)
Stand des Bräutigams (Original) , usw.

Beim ausgewerteten Ereignis dann würde ich auch ein eigenes Item anlegen gemäß Gedbas4all „EVENT“, z.B.
Name: „Kirchliche Hochzeit von Johann Mayer und Katharina Schulze“
Typ: Kirchliche Hochzeit (Itemverweis)
Qualifikator Religion: römisch-katholisch (Itemverweis)
Datum und Uhrzeit: 01.01.1970 12:30 MEZ (Datums/Zeitfeld)
Ort: Musterstadt (Itemverweis)
Kirche: St. Ulrich
Bräutigam: Johann Mayer (Itemverweis)
Qualifier Alter: 30
Qualifier Stand: ledig
Qualifier Beruf: Bauer
Qualifier Aufenthaltsort: München
weitere Qualifier denkbar
Braut: Katharina Schulze (Itemverweis)
Qualifier wie beim Bräutigam
Pfarrer: Josef Huber (Itemverweis)
Zeugen: Karl Müller (Itemverweis)
Qualifier: für den Bräutigam
Christian Groß (Itemverweis)
Qualifier: für die Braut

Bei allen Properties und Qualifiers kann der Quelleintrag als Quelle angegeben werden, wenn das zusammenpasst.

Auf der Personen-Itemseite würde ich auf jeden Fall mit Qualifikatoren arbeiten, falls man diese dann überhaupt dort noch möchte:
Name: Johann Mayer (String)
Ereignis: Kirchliche Hochzeit von Johann Mayer und Katharina Schulze (Itemverweis zum obigen)
verschiedene Qualifikatoren
Es könnte hier dann weitere Ereignisse geben, z.B. eine zweite Trauung:
Kirchliche Hochzeit von Johann Mayer und Maria Schuster

Oder man macht für die typischen Ereignisse eigene Properties, z.B.
Name: Johann Mayer (String)
Taufe: Taufe von Johann Mayer (Itemverweis)
Hochzeit: Kirchliche Hochzeit von Johann Mayer und Katharina Schulze (Itemverweis zum obigen)
Kirchliche Hochzeit von Johann Mayer und Maria Schuster

Ich hoffe, das ist einigermaßen verständlich.

PS: ich würde auch das GOV-Wikibase nicht von diesem trennen, wenn es denn kommen sollte, da es zu viele Überschneidungen geben würde.

jzedlitz · 3. Februar 2021 um 16:09

Ja, das denke ich.

Entsteht schon bei der Eingabe in DES ein ausgewertetes Ereignis? Wir haben z.B. folgende Informationen aus dem DES http://des.genealogy.net/search/show/15239473:

Item Kirchenbuch Bork St. Stephanus, Seite 30:

Property		Wert
Vorname (Original)		Eugenie
Nr. der Urkunde (Original)		13
Rolle		Verstorbener (Itemverweis)
Wohnort (Original)		Bork
Familienstand		verheiratet (Itemverweis)
Geschlecht		weiblich (Itemverweis)
Ereignis 1	Typ	Tod (Itemverweis)
	Datum (Original)	11.03.1880
	Alter beim Ereignis (Original)	28 J
Ereignis 2	Typ	Beerdigung (Itemverweis)
	Datum (Original)	15.03.1880
	Ort (Original)	Bork

Noch einfacher wäre die Übernahme aus dem DES, wenn an der Stelle noch gar keine Itemverweise sonder nur Strings verwendet würden. Würdest du beim Quelleneintrag schon eigene Items für Ereignisse anlegen?

jzedlitz · 3. Februar 2021 um 16:11

Auf Dauer ist es wohl besser, nur eine einzige Wikibase-Instanz zu haben. Bei der Darstellung müssen wir uns dann natürlich noch mehr Mühe geben. Wir hätten z.B. auch die Bibliographie der Adressbücher und die Informationen zu militärischen Rängen in gedbas4all.

Susanne.Nicola · 3. Februar 2021 um 16:34

Soweit ich es überblicke, haben wir das in DES bisher noch nicht. Ich könnte mir jedoch vorstellen, dass es so etwas geben wird.
z. B. bei Aufgeboten (1. Aufgebot, 2. Aufgebot, 3. Aufgebot)
Ich könnte mir das auch bei einer Quelle „Lebenslauf“ vorstellen, wenn jemand z. B. mehrere Doktortitel erworben hat.

Herzliche Grüße,
Susanne

jzedlitz · 6. Februar 2021 um 07:41

Zu diesem Eintrag habe ich ein (unvollständiges) Item angelegt: https://gedbas-test.genealogy.net/wiki/Item:Q264947
Um die Ereignisse zu unterscheiden habe ich einen Qualifikator eingesetzt. In der Ansicht von Wikibase sieht das jetzt allerdings nicht übersichtlich aus.

Als Alternative fällt mir ein, dass man auch Properties der Art

Ereignistyp 1
Ereignisdatum 1
Ereignistyp 2
Ereignisdatum 2
Ereignistype 3
Ereignisdatum 3

verwenden könnte. Das würde übersichtlicher aussehen, würde aber vermutlich eine SPARQL-Suche schon in den Quelleneinträgen komplizierter machen. Aber eigentlich soll ja sowieso in den ausgewerteten Daten gesucht werden.

Wolfgang_Baumgartner · 7. Februar 2021 um 09:15

Den Eintrag finde ich schon mal nicht schlecht. Ich würde aber nur eine Property „Ereignis (Original)“ machen, dort dann z.B. „Tod“ angeben und als Qualifier „Datum“, „Ort“, „Uhrzeit“, „Alter“ , usw.
oder alternativ vielleicht noch besser eine ganz flache Struktur, also für jede Information eine eigene Property: „Sterbeort (Original)“, „Sterbedatum (Original)“, „Sterbealter (Original)“, …
Das würde auch das Handling mit SPARQL enorm erleichtern.

Und natürlich immer bei „Strings“ bleiben.

jzedlitz · 11. Februar 2021 um 14:08

So habe ich das mal umgebaut. Sieht gut aus. So ist sichergestellt, dass die Informationen eines Ereignisses zusammen sind. So könnte man auch mit mehreren Ereignissen eines Typ (z.B. Wohnen) in einem Eintrag klarkommen.

Wolfgang_Baumgartner · 13. Februar 2021 um 14:22

Die Frage ist auch noch, wie man mit Bezugspersonen umgeht. Wenn wir das konsequent als Quelleintrag sehen, müssten auch diese Daten in diesen Datensatz, z.B. mittels einer Property „Bezugsperson“:

Bezugsperson (Original): Clemens Stucht und dann Qualifier Beruf = Schuster, Wohnort=Bork, Art=Ehefrau

Oder besser auch gleich:
Ehemann (Original): Clemens Stucht
Beruf des Ehemanns (Original): Schuster
Wohnort des Ehemanns (Original): Bork

Man muss das hier anders betrachten wie einen beschränkten Namensraum. Es müssen in Wikibase diesbezüglich keine Beschränkungen beachtet werden. Wird eine weitere Bezugspersonproperty benötigt wird sie eben angelegt. Ich sehe darin kein Problem.

Wolfgang_Baumgartner · 13. Februar 2021 um 14:38

Das Problem mit der Struktur mittels Qualifiern ist, dass man dann am Ende ist, wenn man da nochmal „echte“ Qualifier benötigen würde, z.B. wenn man kennzeichnen möchte, dass eine Angabe nachträglich ergänzt wurde. Auch für einfache Auswertungen/Abfragen wäre eine flachere Struktur besser. Ich präferiere deshalb immer noch:
„Sterbeort (Original)“, „Sterbedatum (Original)“, „Sterbealter (Original)“, …
dann kann eben auch sowas umsetzen:

Sterbeort (Original): Bork
** Lesbarkeit: sehr schlecht
** Chronologie: Nachtrag
** Bearbeitung: überschrieben
** Schrift: Antiqua
Sterbeort (Original): Selm
** Bearbeitung: durchgestrichen
** Schrift: deutsche Kurrent

Ich würde das für die Zukunft offen halten, gerade wenn man das auch wisenschaftlich betrachtet.

Nun habe ich auch ein Beispiel angelegt:
https://gedbas-test.genealogy.net/wiki/Item:Q264948

Grüße
Wolfgang

jzedlitz · 27. Februar 2021 um 07:38

Die Varianten mit dem Ereignistyp im Namen der Property habe ich umgesetzt. Jetzt lassen sich automatisch die Rohdaten aus dem DES nach gedbas4all übertragen. Hier seht ihr die ankommenden Daten: https://gedbas-test.genealogy.net/wiki/Special:RecentChanges
Kann man damit arbeiten?

Der schwierige Teil kommt natürlich noch, das Bauen der Personeneinträge aus diesen Rohdaten.

Wolfgang_Baumgartner · 3. März 2021 um 17:05

Ich sehe das erst mal nur aus Wikibase-Sicht und da scheint das Erzeugte vernünftig. Daraus Einträge zu bauen ist natürlich nicht ohne.
Es gibt verschiedene Ansätze:
Man könnte schon mal aus jeder Person in einem Eintrag einen Personeneintrag machen. Nachteil: man muss nachher manuell Duplikate verschmelzen - so ähnlich macht es familysearch, wobei das dann unterstützt gemacht wird.
Ein anderer Weg wäre, alle Einträge manuell anzulegen und dabei immer gleich zu schauen, ob die Person vermeintlich schon angelegt ist (=Vermutung), um keine Dopplungen zu erzeugen. Der Aufwand alle Personen in den Quelleinträgen in naher Zukunft manuell anzulegen, ist aber wohl nicht zu bewerkstelligen.
Jetzt gäbe es noch den Weg, die Einträge automatisiert anzulegen und dabei automatisiert nach bestimmten Regeln Dopplungen zu erkennen. Meiner Erfahrung nach funktioniert das aber nur sehr rudimentär und verursacht am Ende vielleicht mehr Arbeit als es nützt.

Ich plädiere für die erste Variante: alle Personeneinträge werden automatisiert angelegt, gegebenenfalls bereits mit Beziehungen zu anderen Personen (Eigenschaften Ehemann, Vater, usw.) und evtl. auch mit über Ereignissen verbundenen Personen (wenn das nicht zu kompliziert wird).
Dann müssen manuell, entweder direkt in Wikibase oder mittels des Clients (?) vermutete Personenidentitäten verschmolzen werden.

Prinzipielles Problem ist auch noch, dass am Anfang natürlich auch Items für z.B. Beruf, Stand, Ort, usw. aus den Rohdaten angelegt werden müssen und dabei Abkürzungen und Fehlschreibungen zu Problemen führen werden. Ich würde das aber auch erst mal in Kauf nehmen, aufgetretene Fehler und Dopplungen müssen dann nachträglich manuell behoben werden, was mit Tools wie QuickStatement oder pywikibot durchaus machbar ist.

Nur ein Beispiel:
Der „Beruf“ des Austragsbauern wird in Quellen unterschiedlichst bezeichnet, z.B. in meinem Forschungsgebiet als „Austragler“, „Austrägler“, „Ausnahmsbauer“, „Ausnehmer“, „Nahrungsmann“, „Nahrungsnießer“ mit teilweise auch haarsträubenden Abkürzungen und Schreibweisen („Außnamsb.“, „Außnahmer“, …).
Das Skript würde nun alle in den Einträgen vorhandene Schreibweisen als Item Typ Beruf anlegen. Danach ist es dann Aufgabe Einzelner Verschmelzungen dieser Items durchzuführen:

Ausnehmer/Außnähmer/Ausn. werden zu einem Eintrag mit dem Label „Ausnehmer“ verschmolzen. Alle anderen Schreibweisen werden ins Alias-Feld gesetzt.

Verschiedene Bezeichnungen z.B. Ausnehmer und Nahrungsmann sollten jedoch nicht so einfach verschmolzen werden, da es Bedeutungsunterschiede geben könnte, siehe z.B. Halbbauer/Huber und es auch möglich bleibt, Eigenschaften wie „Verbreitung der Bezeichnung“ bzw. „nachweisbar in“ oder „Start/Endzeitpunkt“ (für den zeitlichen Rahmen der Verwendung) zu verwenden. In Wikidata ist es dann üblich eine Eigenschaft „vielleicht identisch mit“ zwischen beiden Items zu setzen.

Das war jetzt viel Text. Ich hoffe, es hilft dir etwas weiter.