GeoVis Adressbuchdaten Bot

Hallo @Julche, hallo @Gerhard_Stoll,
moin zusammen,

für die Aktualisierung der Adressbuchdaten in GeoVis möchte ich ein Botskript (Issue #31) erstellen. Es wurden bereits mit dem noch in Erstellung befindlichen Pendant für die OFB-Datensammlung aus dem GenWiki (Issue #30) ein paar Erfahrungen gesammelt.

Neben der Erhöhung des Aktualisierungsrhythmus, ist mein Ziel auch weitere Anforderungen/Wünsche wie aus dem folgenden Beitrag mit zu berücksichtigen:

Ferner werden vermutlich auch in Richtung GenWiki Informationen für die Qualitätssicherung abfallen.

Meine Herangehensweise wäre folgende:

  • selektieren der Artikel, die die Vorlage:Info Adressbuch nutzen
  • Auswerten des Vorlagen-Parameters „Enthaltene Orte“ nach Links auf Ortsartikel oder GOV-Weiterleitungsseiten
  • die daraus ermittelten GOV-IDs für die Georeferenzierung nutzen
  • ggf. weitere Informationen extrahieren:
    1. Digitalisat online verfügbar: Entscheidet sich das über Kategorie-Zugehörigkeit („Online-Adressbuch“ oder „Adressbuch mit kommerziellem Standort“)
    2. Wie lassen sich die o.g. DES-Fragestellungen am besten beantworten?
    3. weitere zweckmäßige Daten?
    4. Lassen sich alle benötigten Daten ausschließlich aus dem GenWiki ziehen?

Vielleicht können mir hierbei die Bewanderten und Experten mit Ideen und Ratschlägen etwas helfen? Besten Dank im Voraus! :slight_smile:

LG Bernd

Vermutlich kannst du dir die Arbeit sparen, da es dieses Programm bereits gibt: https://gitlab.genealogy.net/utils/genwiki-export Die letzte Änderung ist schon ein paar Jahre her. Ich muss mal nachsehen, ob es auf meinem Rechner zu Hause (ich bin bis morgen noch im Urlaub) noch Änderungen gibt, die ich noch nicht ins Repo gepusht habe.

Hallo Jesper,

danke für die Info. Das schaue ich mir an. Würde ich mich dann entsprechend an den Ideen bedienen bzw. orientieren - meine Java-Kenntnisse reichen zum Nachvollziehen :upside_down_face:

pywikibot habe ich für Wiki-Belange mittlerweile recht lieb gewonnen, da es eine gute Unterstützung bietet.

LG Bernd

Hallo,

ich habe mir den Script von Jesper nicht angeschaut, deswegen allgemeines hier.

Wenn diese Vorlage genutzt wurde, dann ist das Buch automatisch in der Kategorie:Adressbuch

Ich nehme an letzteres soll [[GOV:xxx|yyy]] sein? Gut wäres wenn der Script eine Datei ausspuckt, in der aufgelistet wird welcher Ort er nicht auflösen konnte. Manche Links auf Ortsartikel gehen nämlich in wirklichkeit auf eine Begriffsklärungsseite. Die Datei könnte man dann abarbeiten.

Kann man machen, es findet sich aber nicht nur Digitalisat sondern auch anderes in der Kategorie wie z.B.: Rastatt/Adressbuch 1877.

Die Kategorie gibt es nicht.

Erfasst:
Adressbuch in der Online-Erfassung/fertig

offline erfasst:
Geht so wie ich das sehe, wenn in der Vorlage:Info Adressbuch „gedbas4all-ID“ etwas drin steht. Oder bei „Nummer in Datenbank“.

nicht erfasst:
Er gibt sich, wenn nichts von oben passt.

Aktuelle gibt es für jedes Jahr die Kategorie:Adressbuch nach Jahr. Ansonsten bekommt man die Information aus „Erscheinungsjahr“ oder „Erschlossenes Ersch.-Jahr“.

Gerhard

Hallo Gerhard,

danke für die Rückmeldung. Das hilft mir weiter.

Ich würde die verschiedenen Unstimmigkeiten mit protokollieren. Dann könnte man sie als CSV-Datei oder ggf. als Wiki-Seite abarbeiten.

Zumindest wurde sie nicht direkt an den AB-Artikeln gesetzt. Darin gibt es Unter-Kategorien für ancestry, adressbuch-service.deund lostbooks.chikano.net, die an Artikeln vergeben wurden.

Es handelt sich hier um zwei so benannte Parameter, wenn ich das richtig verstehe.
Hinweis: In der Doku zur Vorlage:Info Adressbuch gibt es keinen Parameter „Nummer in Datenbank“ (wird aber im Vorlagen-Quelltext erwähnt). In der Vorlage:Adressbuch wird der Parameter „gedbas4all-ID“ mit aufgeführt (und ist auch in der Vorlage:Info Adressbuch mit erwähnt). „Nummer in Datenbank“ gibt kommt nur im Quelltext der Info-Vorlage vor.

LG Bernd

Hallo Bernd,

Wiki-Seite wäre schön. Dann könnten mehrere daran Arbeiten und löschen was getan wurde.

OK, hatte ich nicht auf dem Schirm.

Damit stellt sich halt die Frage was will ich mit der Karte? Warum sollte ich extra wissen wollen, dass das Buch als Digitalisat bei einem kommerziellem Anbieter gibt?

Ja

Ja ich die Sachen sind etwas Inkonsistenz. Wenn man sieht wie viele unterschiedliche Varianten in den Artikel genutzt werden, dann kann man damit leben.

Gerhard

Hallo @jzedlitz, hallo @Gerhard_Stoll,

ich habe mal einen Bot-Lauf über die Adressbuch-Artikel durchgeführt - nachfolgend ein paar Zahlen und Bewertungen im Vergleich zur Datenlieferung aus 04/2024:

Bot-Lauf aktuell Lieferung 04/2024 Bewertung
AB-Artikel gelesen gesamt 13.432 ??? 2.397 Artikel haben keine Georef., davon waren 864 Artikel 04/2024 auch nicht dabei
AB-Artikel mit Georef. gesamt 11.035 12.568 1.533 weniger, 10.662 gemeinsam
AB-Artikel unterschiedlich 373 (neu) 1.906
valide Datensätze mit Georef. 46.878 46.198 680 mehr

Hierzu eine Frage: Stammten die Daten aus 04/2024 ausschließlich aus dem GenWiki oder wurden sie noch auf andere Weise angereichert?
In einigen Fällen wurde scheinbar im Wiki vorhandene Referenzen in AB-Artikeln zu einem Ort (bspw. Darmstadt) auf die anderen AB-Artikel übernommen. In anderen Fällen - bspw. Deutschland/Kolonialadressbuch oder Pinneberg - stammen die Informationen aus anderer Quelle.

Ansonsten sind bspw. folgende Dinge aufgefallen:

  • Ortsartikel ist Begriffsklärung: 1.034
  • AB-Artikel ist keiner ‚Kategorie:Adressbuch für…‘ zugeordnet: 241
  • In AB-Artikel wurde kein Erscheinungsjahr bzw. Erschlossenes Ersch.-Jahr zugeordnet: 136

Wie wollen wir hier weiter vorgehen? Die Tabelle wurde in die Cloud auf der Team-Website / Adressbuch-Portal eingestellt. Grds. ließen sich vorgenannte GOV-Links im Parameter „Enthaltene Orte“ der jeweiligen Artikel vermutlich auf Bot-gestützt nachpflegen.

Ich habe die GeoVis-AB-Daten noch nicht aktualisiert.

LG Bernd

Hallo,

Das muß Jesper beantworten ob noch andere Quellen genutzt wurden.

Ich weiß nur das ein paar wenige Bücher gibt bei dem die Ort nicht auf die Hauptseite des Artikel und es Unterseiten gibt wie z.B.: Herzogtum Schleswig-Holstein und Fürstenthum Lübeck/Adressbuch 1869. Müsste ich raussuchen.

Wenn das obige geklärt ist, dann sollten die Daten eingespielt werden. Die restlichen Fragen müssen halt abgearbeitet werden.

Dabei wäre die Information noch wichtig, was die einzelen Einträge bei Status in der Tabelle bedeuten:

  • !AB-Artikel enthält keine Angaben zu Orten:
    Das versthe ich noch.
  • !AB-Artikel enthält Parameter zu Orten, es konnte aber keine Referenz gefunden werden
  • !AB-Artikel ist möglicherweise nicht der richtigen/keiner ‚Kategorie:Adressbuch für…‘ zugeordnet

Das sind zumindest die, welche mir direkt auffallen.

Gerhard

  • AB-Artikel enthält keine Angaben zu Orten: In „Vorlage:Info Adressbuch“ Parameter „Enthaltene Orte“ wurden keine Links auf Ortsartikel oder GOV:-Seiten gefunden.

  • AB-Artikel enthält Parameter zu Orten, es konnte aber keine Referenz gefunden werden: Ist zugegebenermaßen etwas unglücklich formuliert: In „Vorlage:Info Adressbuch“ Parameter „Enthaltene Orte“ wurden zwar Links gefunden, es sind aber keine GOV:-Links oder im Ortsartikel sind keine GOV-IDs enthalten.

  • AB-Artikel ist möglicherweise nicht der richtigen/keiner ‚Kategorie:Adressbuch für…‘ zugeordnet: Die meisten Adressbuch-Artikel zu einer Hauptseite (bspw. Darmstadt) sind einer Sammelkategorie „Kategorie:Adressbuch für Darmstadt“ zugeordnet. Bei einigen Artikeln ist dies nicht der Fall, bei anderen heißt sie ggf. nur anders als die Hauptseite. Ist mehr ein Hinweis.

  • In AB-Artikel wurde kein Erscheinungsjahr bzw. Erschlossenes Ersch.-Jahr zugeordnet: Keiner der gleichnamigen Parameter der „Vorlage:Info Adressbuch“ wurde befüllt. Lässt sich i.d.R. aus dem Titel ableiten, aber ich meine, dass dann eine Zuweisung zu „Kategorie:Adressbuch [Jahr]“ fehlt.

  • Ortsartikel ist Begriffsklärung: Hier könnte der richtige Ortsartikel verlinkt werden. Habe ich teilweise schon einmal umgestellt, wo es sich anbietet mit einem Bot-Lauf.

  • OFB-Artikel (copy-paste-Fehler - AB-Artikel ist natürlich gemeint :slight_smile:)/Ortsartikel enthält syntaktisch ungültige GOVID: Musterprüfung, ob es sich grds. um eine nach den Namensregeln gültige ID handelt. Prüfung ist etwas zu pingelig was Leerzeichen angeht - im Wiki wird dies automatisch durch einen Unterstrich ersetzt und passt dann - kann man also getrost ignorieren. Habe mich um die meisten schon gekümmert.

  • Ortsartikel-Redirect: Die Ortsseite ist selber eine Weiterleitung - könnte ggf. aufgelöst werden.

  • Ortsartikel enthält mehrere GOVIDs: Nur ein Hinweis - ist ja grds. auf Ortsseiten so vorgesehen. Es wird immer die letzte GOV-ID der Seite genommen. Sollte dies nicht passen, müsste auf der Ortsseite ggf. umsortiert werden.

  • Positionsbestimmung von GOVID nicht möglich oder Georef nicht gesetzt: Vermutlich ein Fehler bei der API-Abfrage. Kommt selten vor.

  • Ansonsten wird auf Existenz der GOV-Seite oder der davon weitergeleiteten Seite sowie der Ortsseite geprüft

LG Bernd