Unterstützung der Transkription in webtrees

Auf der Mitgliederversammlung von CompGen am Wochenende hat mich @Mine angeregt einmal über die Unterstützung von Transkribus in webtrees nachzudenken. Die Idee ist nun ein neues webtrees-Erweiterungsmodul zu erstellen, das den Transkriptionsprozess unterstützt. Zu Beginn erst einmal mit zwei Methoden

  • manuelle Transkription direkt in webtrees
  • Transkription unter Nutzung von Transkribus

Die Verwaltung der Revisionen erfolgt in der webtrees-Datenbank, der jeweils letzte Stand ist in einer NOTE gespeichert, die der Quelle zugeordnet ist und per GEDCOM exportiert werden kann.

Ein erstes Konzept steht unter hh_source_transcription/README.md at main · hartenthaler/hh_source_transcription · GitHub

Ich bitte Euch um Kommentare zu diesem Konzept hier in Discourse. Und ja, ich weiß, dass ich erst noch andere Aufgaben erledigen muss. Aber weiterdenken kann man ja schon einmal.

Kennt ihr andere Genealogieprogramme, die den Transkriptionsprozess gut unterstützen (Best Practices) und gleichzeitig genealogische Datenstrukturen verwenden? Mein Ziel ist es, ein Digital Humanities Editionssystem mit einem genealogischen Datenmodell zu verknüpfen. Das langfristige Ziel ist also eine strukturierte Datenerfassung mit TEI-Parsing und integrierter GEDCOM-Generierung. Das heißt, dass im erweiterten Transkriptionsprozess am Ende webtrees-Objekte wie Personen, Orte und Ereignisse entstehen oder verknüpft werden sollen. Das wäre ein erster Einstieg um aus dem ergebnisorientierten webtrees ein Prozess- und evidenzbasiertes Programm zu machen.

3 „Gefällt mir“

Hallo Hermann,

sehr interessant. Ich nutze webtrees und speichere alle verfügbaren Kirchenbrucheinträge als Media Dateien. Ich habe keine Ahnung von der Programmierung, biete aber gerne meine Unterstützung an und sei auch nur, um Dein Modul an einer weiteren webtrees-Installation zu testen.

Viele Grüße,

Harald

2 „Gefällt mir“

@JMGoldberg wie könnte so ein webtrees-Modul zu Deinem Konzept passen?

Du hast ja einen thematischen Fokus auf eine Quellen-Gattung mit dem Anspruch einer umfassenden Erschließung, während ich alle Arten von Quellen sehe, die aber selektiv von den Nutzern nach dem individuellen Bedarf ausgewählt werden. Aber es gibt natürlich eine Schnittmenge und da könnten wir eventuell Informationen austauschbar machen.

@Hermann_Hartenthaler Danke für die Verlinkung! Ich hab da noch keine super gute Antwort drauf, behalte es aber mal im Hinterkopf.

Hallo Hermann,

ich habs jetzt endlich auch geschafft mir das readme endlich mal genau durchzulesen. Vielen Dank das du etwas das ich nur beiläufig erwähnt habe direkt so umsetzt! :smiling_face_with_three_hearts: :heart_eyes:

Wenn ich kann, helfe ich natürlich gerne mit meinen spärlichen Programmierkenntnissen, aber ich fürchte ich muss mir erst mal überhaupt den webtrees Code anschauen. Daher hab ich mir jetzt auch noch nicht euren bisherigen Programmcode genau angeschaut.

So ein Prozess- und Evidenzbasiertes Programm wäre meine absolute Traumsoftware!

Ich seh hier aber 2 voneinander unabhängige Projekte. Zum einen ein Modul das Transkriptionen verwalten kann und zum anderen eines das evidenzbasiertes Arbeiten ermöglicht. Letzteres sollte meiner Ansicht nach nicht an die Transkiption sondern an die Quelle selbst gebunden sein.

In der readme steht unter den offenen Punkten die Frage wie man die Positionsdaten für einzelne Zeilen im Bild speichert. Was ich dazu kenne sind PAGE XML und TEI XML (aber ich arbeite mich da auch gerade erste ein ins Thema), zumindest Transkribus macht das ja so. Das erscheint mir als Datenmodell als sinnvoll.
Rein für die Transkription würden theoretisch strukturierte Positionsdaten plus einen passende Viewer-( bzw Editor-)Komponente ja ausreichen.

Ich könnte mir das von der Struktur her aber eigentlich auch mit extrahierten/markierten Daten ganz gut als Schichtenmodell vorstellen:

  • PAGE XML für Bild-/Zeilen-/Layoutpositionen
  • TEI für semantische / editorische Anreicherung
  • NOTE als lesbarer Export-/Arbeitsstand in webtrees, wie du schon in der readme stehen hast
  • Modultabellen als interne, führende Struktur für Revisionen und Mapping von TEI-/PAGE-Strukturen auf webtrees-Objekte

Allerdings bräuchte man dafür irgendeine Viewer-/UI-Schicht.

Was ich auch sehr interessant finde sind die IIIF-Manuskripte die zB im TEI-Publisher version 9 jetzt Anwendung finden (den TEI-Publisher wollen wir uns mal als Option für die Weinkaufsbriefe anschauen, der kann nämlich genau das was Transkribus teuer anbietet als OpenSource).

Soweit ich es verstehe “kartografiert” das IIIF-Manuskript die unterschiedlichen Objekte wie Bild, Text, Kommentare oder Transkriptionen. Das könnte sich vllt aus ein saubere Verbindung zwischen Quelle - Daten - Events entpuppen.

Beim Thema Evidenzbasiertes Programm denke ich sofort an Evidentia. Damit kann man Quellen vorbildlichst evidenzbasiert bearbeiten, aber das hat keinen richtigen gedcom “Editor” und ist keine “normale” Genealogiesoftware wie man das so kennt.
Allerdings macht Evidentia genau diesen Übergang von Quelle zu gedcom-Datensatz:

  • es wird eine Quelle angelegt
  • aus der Quelle werden Daten als “Claims” extrahiert (zb. Geburtsdatum von ABC ist XY, etc)
  • jedes “Claim” wird als eigenständiges Objekt behandelt und einem Ereignistyp im gedcom Format und einer Person im Stammbaum zugeordnet.
  • Im nächsten Schritt kann man sich dann alle “Claims” (von unterschiedlichen Quellen) zu einem bestimmten Ereignis anzeigen lassen, kann zu jedem Claim eine “Analyse” schreiben
  • aus mehreren ausgewählten Claims wird dann ein “Proof Argument” erstellt, welches als Bericht exportiert oder als ein gedcom tag seiner Wahl an die gedcom Datei angehängt werden kann.

Ich wollte versuchen einen ähnlichen Workflow in webtrees zu modellieren indem ich die “Claims” als Shared Note an eine Quelle und eine entsprechende Forschungsaufgabe verlinke. Die “Analyse” kommst solange die Fragestellung noch in Bearbeitung ist in die Forschungsaufgabe. Das “Proof Argument” hätte ich dann später als Shared Note an die Quellen + das Event angehängt, und die Forschungsaufgabe dann gelöscht. (Zumindest hatte ich mir das so provisorisch ausgedacht, mein Stammbaum ist noch nicht komplett von TNG zu webtrees umgezogen)

Wenn man aber aus webtrees ein richtiges evidenzbasiertes System machen will, müsste man meiner Ansicht die aus der Quelle extrahierten Daten sowie deren Bewertung (aka “Claim” und “Analyse”) irgendwie in einem eigenen Objekt unterbringen.
Im TEI-Text könnte man Personen, Orte, Datum, Begriffe markieren und das als quellensemantische Auszeichnung nutzen.
Das IIIF könnte dann die Brücke zwischen allem sein und alle Teile miteinander verorten.

Liebe Grüße
Jasmin

2 „Gefällt mir“

Ich werde das Ziel umformulieren und auf zwei Erweiterungsmodule aufteilen.

  • Transkription von Quellen
  • Genealogische Schlussfolgerungen

Das zweite baut auf dem ersten auf, geht aber erheblich weiter. Und was mir beim Lesen deiner Ausführungen klar geworden ist: Quellen können multimedial sein, nicht nur Scans von Kirchenbuchseiten oder ähnlichen Dokumenten. Auch aus einem Interview kann man den Ton transkribieren, entweder manuell oder eben auch mit einer KI.

oder auch Übersetzungen, würde da auch gut dazu passen.

Das zu teilen macht auf jeden Fall Sinn.

Zu dem 2. Thema hatte ich mal überlegt irgendwann ein Plugin für TNG zu basteln, da hatte ich mir einiges dazu notiert und Überlegungen angestellt. Das könnte vllt am Freitag oder Sonntag raussuchen und mal schauen was man davon auch auf webtrees übertragen könnte :smiley:

1 „Gefällt mir“

Nun gibt es eine frühe Beta-Version: GitHub - hartenthaler/hh_source_transcription: webtrees custom module to transcribe sources · GitHub
Mit ihr kann man manuell transkribieren, kann Transkriptionen und Revisionen anlegen. Eine einfache Bedienoberfläche gibt es auch schon. In der Versionsplanung in der READme sieht man, was alles noch kommen soll. Ich mache jetzt ein paar Tage Pause und sammle inzwischen gerne Hinweise und Anmerkungen ein. Ich hatte drei KIs am Start, ohne diese Helfer hätte das Programmieren Monate gedauert, wenn ich es überhaupt geschafft hätte; so waren es vielleicht 25 meiner Stunden. Etwas frustrierend war es, wenn ich ein Problem schilderte und dafür eine Minute brauchte, und die KI dann meldete: „6 Sekunden nachgedacht“. Und schon präsentierte sie dann eine Lösung, nach der ich viele Stunden hätte suchen müssen. Macht echt Spaß!

@Harald_Maiweg1 : Wenn Du eine webtrees-Testumgebung hast, kannst Du mal versuchen das Modul zu installieren, den Hauptmenüpunkt aufzurufen, eine Transkription zu starten, eine Quelle und ein der Quelle zugeordnetes Medienobjekt mit einer Kirchenbuchseite auszuwählen. Dann kannst Du in der zuordneten NOTE Text erfassen, diesen speichern und bei einem erreichten Stand als Revision abspeichern.

Bitte gerne hier auch Screenshots mit Deinen Anregungen hochladen.

LG Hermann

1 „Gefällt mir“

Werds auch gleich morgen ausprobieren :grinning_cat_with_smiling_eyes:

1 „Gefällt mir“

huu i like that :star_struck: ich hab jetzt endlich mal getestet und hier sind meine Anregungen. Selbst ohne Anbindung an Transkribus oder andere finde ich das schon ziemlich cool.

bei mir kam nach dem Installieren ne ganze Ladung Fehlermeldungen aber funktioniert hats trotzdem, ich hab die Fehlermeldungen leider nicht sofort gespeichert und beim 2. Versuch zu installieren kamen sie dann nicht mehr. Kann aber auch einfach sein das ich Zeug mit installiert hatte das nicht mit reingehört, da ich kein release auf github gefunden hab. Oder irgendwas an webtrees 2.2.6 hat gezickt.

Was ich noch machen würde wäre die Notiz mit der Transkription mit dem entsprechenden Medienobjekt zu verknüpfen. Im Menüpunkt Transkriptionen wird es zwar wunderschön nebeneinander angezeigt aber wenn ich über die Mediendatei gehe ist die Shared Note dort nicht verlinkt.

Wenn ich die Quelle aufrufe dann wird die Shared Note dort angezeigt, wenn ich aber über Shared Note gehe und mir die dort anschaue dann ist dort weder eine Quelle noch ein Medienobjekt verlinkt. Funktioniert das über den TAG?

Bei genauerer Betrachtung steht von verlinken auch nichts in der Doku, ist das überhaupt geplant?

Ich persönlich bräuchte für die Transkriptionen wahrscheinlich keinen eigenen Punkt im Hauptmenü, mir würde es reichen wenn das mit im “Listen” Menüpunkt lebt. Praktisch fände ich wenn direkt bei der Quelle und bei den Medienobjekten ein “Add Transkription” Button wäre, da wird man das ja wohl am meisten brauchen.

Was ich evtl weglassen würde wäre die Revisionsnumer innerhalb der Note als Text. Dadurch das die Nummerierung nicht mit aktualisiert wird, entstehen da denke ich schnell Inkonsistenzen. Außer natürlich das würde sich aktualisieren, aber braucht man das an der Stelle? Steht ja in der Revisionshistorie.

Die Dropdownmenüs mit den Skripten und Sprachen finde ich cool, aber da müsste man entweder die Auswahl vergrößern oder die Liste bei den Einstellungen editierbar machen.

Das ist ein Bug. Im Moment hängt die Transkriptionsnotiz noch an der Quelle und nicht am Medienobjekt.

Man soll aber auch Quellen „transkribieren“ können zu denen es kein Medienobjekt gibt. Oder macht das keinen Sinn? Ich denke da etwa an ein Gedächtnisprotokoll eines Interviews mit einem Verwandten.

Derzeit muss man zum Testen die Entwicklerversion installieren, da es noch kein Release gibt. Da können schon mal Fehlermeldungen kommen. Es sollte helfen, wenn man in der Datenbank eine der neu angelegten Tabellen von Hand löscht. Dann werden alle Tabellen automatisch neu aufgesetzt und man kann von vorne beginnen. Bitte nur in einem Testbaum testen und nie im Produktivsystem!

Ja, der Rücklink fehlt noch, das ist ein Bug. Und ich arbeite als Nächstes daran, dass man bei der Quelle und beim Medienobjekt einen Hinweis bekommt, dass man eine Transkription dazu starten kann oder dass dazu bereits Transkriptionen gibt.

Darüber denke ich auch nach. Der Grund war, dass für mich Transkribieren ein unterstützter Prozess sein wird und keine Liste von Transkriptionen. So etwas gibt es bei webtrees bislang nicht. Aber im Hauptmenü ist der Platz kostbar, da muss man abwägen. Lass uns das nochmal diskutieren wenn etwas mehr vom unterstützten Prozess zu sehen sein wird.

Gehört dort nicht hin. Guter Punkt.

Ich erweitere diese Auswahllisten erst einmal. Ich hatte überlegt, die standardisierten Listen zu verwenden, aber die tausenden von Einträgen erschlagen einen und müssten ja auch in alle von webtrees unterstützten Sprachen übersetzt werden. Daher erst einmal eine kleinere Menge. Eine editierbare Liste geht nicht, da man so eine dynamische Liste nicht übersetzbar machen kann.

Vielen Dank für Deine Anregungen!

Hallo Hermann,

ich bereite meine abgestürzte Webseite mit Webtrees gerade neu auf. Sobald ich fertig bin, können wir Deine Programmentwicklung gerne testen. Ich wollte schon längst fertig sein, aber es zieht sich.

Ich melde mich, wenn ich soweit bin.

Viele Grüße,

Harald

1 „Gefällt mir“

Einmalig beim Installieren eines benutzerdefinierten Moduls kommt schon seit längerer Zeit eine Fehlermeldung mit diesem oder ähnlichem Wortlaut PDO error - There is no active transaction, wenn etwas am Datenbankschema geändert wird - Details siehe fisharebest/webtrees#3856 (auch wenn der Issue geschlossen wurde, Problem besteht noch).

Kann dann später natürlich wieder auftreten, wenn das Schema bei Modul-Updates angepasst wird.

Es wurde aber in der Regel alles ordnungsgemäß abgeschlossen und sollte dann beim Seiten-Reload nicht mehr auftauchen.

Ich habe nun die Bugs beseitigt und eine Version 1.0 zum Testen bereitgestellt. Bevor ich ein offizielles Release freigebe, habe ich noch ein paar ToDos in der Roadmap definiert. Als Wichtigstes hätte ich nun gerne Feedback, ob die Idee so für Euch funktioniert und ob die geplanten nächsten Schritte so von Euch auch gewünscht werden. Das Grundgerüst ist aus meiner Sicht weitgehend stabil und erlaubt dann diverse Transkriptions-Anbieter einzuhängen, etwa eine webtrees-interne Kollaboration mehrer Nutzer zum manuellen Transkribieren, eine Nutzung der Discourse-Gemeinschaft für Lesehilfe und dann eben auch Transkribus (die im Sommer ihre neue API veröffentlichen wollen).

Inzwischen gibt es weitere Releases. Der Medienviewer als Kernelement ist eingebaut. Er zeigt jpg, png, webp, txt, mp3, mp4, pdf und weitere Dateiformate (sowohl lokal als auch entfernt). Zoom und pan werden unterstützt. Damit sollte eine manuelle Transkription gut möglich sein. Auch die Zusammenarbeit zwischen verschiedenen webtrees-Nutzern wird unterstützt (Nutzung des internen Nachrichtendienstes). Nun fehlt noch die Anzeige direkt beim Medienobjekt, dass es Transkriptionen gibt. Derzeit gibt es Übersetzungen in fünf Sprachen.

Ich bin sehr interessiert an Eurem Feedback zum Stand, aber vor allem auch zur Roadmap.

Hallo Herr Hartenthaler,
auch mit meinen 85 Jahren finde ich Ihr Projekt sehr spannend, auch wenn ich vieles davon nicht verstehe. Wird es in absehbarer Zukunft eine Version für Laien geben (mit Bedienungsanleitung)?

Aus Bad Iburg grüßt
Manfred Sand

1 „Gefällt mir“