DjVu Testumgebung auf Thanatos

Hallo Wolfgang,

wieviele Dateien ich habe, kann ich nicht genau sagen. Es sind einige Dutzend Bücher und Adressbücher die ich aus den schlesischen Archiven auf meinem Rechner gespeichert habe. Sicher einige Tausend, da ja jede Buchseite eine eigene Datei ist. Auch heute noch werden diese von den Archiven in diesem Format zum Download angeboten. Daher ist das ein ständiges Problem, wenn ich etwas neues zum Download finde, was nur im djvu Format angeboten wird.

Mit einem Konvertierungsscript kann ich nicht umgehen Keine Ahnung, bin kein Programmierer. Ich habe einen Windowsrechner mit dem Djvu-viewer, der leider nicht mehr läuft. Es wird nur eine Fehlermeldung angezeigt.

Im Internet bieten sich verschiedene Konverter an, bei denen bin ich mir aber nicht sicher was da passiert, wenn ich da Dateien hochladen würde … Was bekomme ich da alles noch zusätzlich auf meinen Rechner zurück. Kostenlos ist halt nicht ganz so uneigennützig, von diesen Programmen.

Kennst du eine seriöse Windowssoftware mit der ich die Konvertierung bewerkstelligen kann?

Gruß

Rolf

Ich möchte noch einmal an die konkreten Rahmenbedingungen des djvu-Problems erinnern bzw. dieses in diesem Kreis darstellen:

  • In den ersten Jahren war die DigiBib (digitale Bibliothek) ganz bewusst als Teil des GenWiki realisiert worden.
  • In dieser Zeit sind etwa 4000 bis 5000 digitalisierte Bände in die „alte“ DigiBib (GenWiki) eingestellt worden.
  • Man hat sich damals für djvu als Speicherformat entschieden. Die Original-Scans liegen in vielen (den meisten? fast allen?) Fällen noch heute als JPG- oder PDF-Dateien auf internen Servern von CompGen
  • Vor einigen Jahren wurde die Entscheidung getroffen, eine neue Digibi auf der Basis der Goobi-Software (einer profeissionellen Software, die auch viele Bibliotheken nutzen) aufzusetzen: Startseite-DigiBib - Digibib
  • Neue Digitalisate werden seitdem in der neuen DigiBib (Goobi) eingestellt.
  • Die bestehenden Digitalisate konnten aber nicht kurzfristig migriert werden und liegen weiterhin in der „alten DigiBib“ (GenWiki) und konnten dort bis ca. 2022 problemlos betrachtet und durchblättert werden.
  • Nach einem Upgrade der Wikimedia-Software sind die Ladezeiten für die allermeisten Digitalisate (die ja meist als djvu eingebunden sind) unzumutbar langsam geworden.
  • Als Kompromiss wurde eine „eingefrorene“ Version des GenWiki von 2022, aber mit nutzbaren Digitalisaten, unter dem Namen „wiki-alt.genealogy.net“ weiterhin bereitgestellt.
  • Langfristig ist es das Ziel, die Werke aus der „alten Digibib“ in die neue Digibib (Goobi) zu migrieren.
  • Der Haken: Diese Migration erfordert eine Reihe von Schritten, die sich nur zu einem sehr geringen Teil automatisierbar sind, sondern „menschliche Intelligenz“ erfordern (dies näher zu erläutern, würde hier zuviel Platz beanspruchen). Selbst Personen, die in diesen Prozess eingearbeitet sind, benötigen ca. 1/2 bis 1 Stunde pro Band.
  • Es gibt noch einen weiteren Aspekt: Bei den Digitalisaten, die im GenWiki stehen, gibt es zum Teil enge Verzahnungen mit Transkriptionen, die im GenWiki begonnen oder erstellt wurden, und zwischen den Digitalisaten und dem eigentlichen GenWiki. Das könnten zwar sicher aufgelöst und an den neuen Standort Goobi angepasst werden. Das benötigt aber auch Zeit und eine individuelle Heransgehensweise an jedes digitalsierte Werk. Nur eins von zahllosen Beispielen: Die Kirchenbücher der evangelischen Kirchen in der Provinz Sachsen (1925)/1 – GenWiki

Fazit

  • Wir brauchen für die djvus für die nächsten Jahre (bis alles migriert ist) eine Übergangslösung, um die bisherigen Digitalisate in Compgen-adäquater Weise den Nutzern bereitzustellen.
  • Diese Übergangslösung sollte aber mit begrenztem Aufwand (entweder durch automaitisierte Skripte, durch Anpassung der Viewer-Software etc.) erstellt werden, da es sich (das ist Konsens bei CompGen) um eine Übergangslösung handeln wird.
2 „Gefällt mir“

Ein Importskript, dass die bestehenden Digitalisate ins Goobi schiebt, existiert m.W. mindestens im Entwurf, ich meine bei @jzedlitz. Das bloße Rüberschieben ins Goobi allein ist allerdings nur ein Teil der Arbeit. Es gehören auch Metadaten, Inhaltsverzeichnisse und mehr dazu. @Gerhard_Stoll und @Marie können Genaueres sagen.

Genau, stimmt. Die Angabe 1/2 bis 1 Stunde (die das automatisierte „Rüberschieben“ gar nicht berücksichtigt) stammt aus dem regelmäßigen GenWiki-Arbeitstreffen als Mittelwert aus den Schätzungen von Mitgliedern, die das schon mal gemacht haben. Die Schätzungen von @Gerhard_Stoll und @Marie die nicht dabei waren, wären sicher interessant. Vielleicht meldet Ihr Euch?

Ich habe gerade den Absatz „Es gibt noch einen weiteren Aspekt … Verzahnungen“ im Posting DjVu Testumgebung auf Thanatos - #22 von Christopher_Ernestus ergänzt,

Ich habe keine Ahnung wie man das Problem lösen kann, frage mich aber ob dies hier weiter hilft?

Welchen Viewer nutzt Du? Kannn mich aktuell nicht großartig beschweren.

Da gibt es ein paar Informationen, wenn auch nicht ganz aktuell:
https://wiki.genealogy.net/Portal:DigiBib/DjVu/Kurzinformation

Gerhard

PS: Können wir auch gerne per Persönliche Nachricht klären.

Wäre mir neu.

Alles erste möchte ich darum bitten auch @Woestenhoefer damit einzubeziehen, er hat gleichen Kenntnisstand wie ich. Bin nur in ein paar spezial Sachen tiefer drin.

Interessant findet ich das im obigen Zitat die eine Mehrzahl genannt wird. Da wäre ich schonmal gespannt wer das sein soll.

Da ist natürlich die Frage was wird zu dem Prozeß alles gezählt? Ein Abschätzung ist kann nur ein Mittelwert. Die angegeben Zeit mag so stimmen so halbwegs stimmen, wenn man nur die Metadaten damit meint. Ne knappe Stunde habe ich gestern für München 1953 benötigt. Und dazu aber nochmal ne knappe Stunde die Bilder zu kontrollieren und korrigieren. Mit dem restlichen Gedöns gehe ich da von drei Stunden aus.

Gerhard

Leider hat sich in diesem Thread noch niemand gemeldet, der die Interna der noch als genwiki-alt verfügbaren funktionierenden Art und Weise der djvu-Darstellung kennt.
Durch einen Hinweis @Gerhard_Stoll bin ich auf Portal:DigiBib/DjVu/Kurzinformation – GenWiki (Abschnitt " DjVu-Nutzung ohne PlugIn (in der DigiBib)"), dass man „inzwischen“ ohne Plugin die Inhalte aufrufen kann. Dieses „Inzwischen“ wurde am 24.02.2012 von MLCarl3 eingefügt. Unklar bleibt aus meiner Sicht, ob das auf Standard-Funktionalität der MediaWiki-Software oder auf einer 2012-2022 genutzten eventuellen Eigenentwicklung von CompGen beruht. Das kann nur entweder jemand sagen der/die damals beteiligt war oder jemand, der Zugriff auf alle Interna von http://wiki-alt.genealogy.net/ hat (werden dort Aufruf von djvu irgendwie „umgebogen“?).

Ich bin erst morgen wieder im „Arbeitsmodus“. Kannst du zwischen um 12 und 15 Uhr mal telefonieren oder noch besser dich über BBB mit mir treffen?

Heute (So.) zwischen 12 und 15 Uhr ist bei mir schlecht. E-Mail zwischendurch etc. geht aber, vor allem nach 15/16 Uhr.

Na gut, es waren zwei Leute. Und gemeint war nur der folgende Teil der Aktivitäten (und auch nur für jemand, der es kennt und schon ein paar mal gemacht hat):

  • Seitennumerierung (manuell erforderlich)
  • Metadaten im engeren Sinne (Verfasser, Titel …)
  • Kapitel/Abschnitte erzeugen
  • Verlinkungen aus Goobi zum GenWiki

Für alle Aktivitäten zusammen rund um ein Buchdürftest Du recht haben. Ich hatte ja auch jetzt ausdrücklich nach Deiner Meinung gefragt, weil Du das am besten kennst.

Morgen meine ich. Morgen, Montag, zwischen 12 und 15?

Das ginge. Aber am besten wäre, wenn Du mir vorher schon einmal den lange versprochenen Zugang zu dem devel-Server einrichten könntest.

https://genwiki2024.wikidata.dbis.rwth-aachen.de/djvu/Muenchen-AB-1929-1.djvu zeigt jetzt ein Beispiel. 95% aller DjVu Dateien aus dem Wiki stehen schon in dieser Weise zur Verfügung. Das sind alle Dateien mit weniger als 1125 Seiten. Etwa 700.000 der 1.000.000 Seiten stehen somit bereits zur Verfügung und ich kümmere mich als Nächstes um die Einbindung ins Wiki - das werde ich auf dem Thanatos zeigen und am Donnerstag die Werkzeuge dazu erklären. Die Umwandlung der restlichen 300.000 Seiten wird noch etwas Verarbeitungszeit dauern. Es werden ca. 15.000 Seiten pro Stunden verarbeitet.

Den kompletten Katalog kann man sich. mit genwiki2024 anschauen. Es stehen verschiedene Abfragen zur Verfügung. all_djvu zeigt z.B. die Übersicht:

dann kann man mit den Filtern suchen.

Der Link in der Wiki spalte führt dann zum Original z.B. https://wiki.genealogy.net/index.php?title=Datei%3AProvinz_Rheinland_1888.djvu

und der Link in der View Spalte zur konvertierten Datei: DjVu Viewer