Image Migration

Wie beim letzten Treffen besprochen kümmere ich mich jetzt erstmal um die Images.
Siehe auch Aktuelle Bilder im Testwiki

Eine 4 TB SSD ist beschafft und die Kopie gestartet. Die Transfer-Rate beträgt knapp über 1 MByte pro Sekunde. Die Kopie würde so also bis zu 5 Tage dauern. Mit 16 parallelen Prozessen komme ich immerhin auf ca. 7 MByte pro Sekunde - das hört sich schon besser an… siehe Sign in · GitLab
Hat dann knapp einen Tag gedauert:

0.log:total size is 32.790.990.378  speedup is 1,02
1.log:total size is 27.047.502.946  speedup is 1,00
2.log:total size is 30.255.613.360  speedup is 1,00
3.log:total size is 34.293.448.054  speedup is 1,00
4.log:total size is 37.757.063.579  speedup is 1,00
5.log:total size is 31.477.756.318  speedup is 1,00
6.log:total size is 30.795.931.450  speedup is 1,00
7.log:total size is 30.483.911.337  speedup is 1,00
8.log:total size is 39.995.180.028  speedup is 1,00
9.log:total size is 41.833.095.260  speedup is 1,00
a.log:total size is 23.936.258.637  speedup is 1,00
b.log:total size is 31.056.159.256  speedup is 1,00
c.log:total size is 29.400.018.800  speedup is 1,00
d.log:total size is 25.715.291.342  speedup is 1,00
e.log:total size is 32.052.440.127  speedup is 1,00
f.log:total size is 35.345.395.461  speedup is 1,00

Ein Paar Rechte Probleme bleiben noch

rsync: send_files failed to open "/mnt/images/0/0f/P_137_ARYS_Strzelniken.jpg": Permission denied (13)
ls -l /mnt/images/0/0f/P_137_ARYS_Strzelniken.jpg
-rw------- 1 www-data ssh 1084505 Oct 14  2015 /mnt/images/0/0f/P_137_ARYS_Strzelniken.jpg
wf@genwiki-prod:~$ sudo chmod g+r  /mnt/images/0/0f/P_137_ARYS_Strzelniken.jpg
wf@genwiki-prod:~$ ls -l /mnt/images/0/0f/P_137_ARYS_Strzelniken.jpg
-rw-r----- 1 www-data ssh 1084505 Oct 14  2015 /mnt/images/0/0f/P_137_ARYS_Strzelniken.jpg

Die Kopie der Thumbs läuft nach fast einer Woche immer noch - vermutlich wird es sich nicht lohnen, diese zu Ende zu kopieren. Eine 1 TB SSD werde ich jetzt dazu verwenden, eine Sicherheitskopie anzulegen. Aus dem SQL-Backup und den Daten lässt sich damit das genwiki komplettt wieder herstellen. Danach geht es daran die Bereinigung vorzunehmen, dazu braucht es einen Abgleich mehrerer Datenbanken das geht mit SPARQL besser als mit SQL daher

fsrdf --scan images --store images.ttl --serve --progress
2025-12-20 12:46:53,523 - INFO - Scanning directory: /hd/yuyu/genwiki/images
Indexing:   5%|██▌                                                   | 139742/2920520 [00:20<05:30, 8411.90file/s]

siehe genwiki2024/genwiki/filesystem_indexer.py at main · WolfgangFahl/genwiki2024 · GitHub unter Nutzung von GitHub - vemonet/rdflib-endpoint: 💫 Deploy SPARQL endpoints from RDFLib Graphs to serve RDF files, machine learning models, or any other logic implemented in Python

2025-12-20 12:48:27,240 - ERROR - Error reading /hd/yuyu/genwiki/images/c/ca/Bielefeld_Stadtbezirk_J\udcf6llenbeck.svg: ‚utf-8‘ codec can’t encode character ‚\udcf6‘ in position 52: surrogates not allowed

ist im Moment die einzige Bild-Datei die nicht bearbeitet werden kann. Auf welcher Seite wird die referenziert?

Das kann du hier selbst nachsehen: https://wiki.genealogy.net/Datei:Bielefeld_Stadtbezirk_Jöllenbeck.svg

Danke

echo $LANG
en_US.UTF-8
wf@genwiki-prod:/mnt/images/0/09$ ls -l Bielefeld_Stadtbezirk*
-rw-rw-r-- 1 www-data ssh 33639 Apr 23  2009 Bielefeld_Stadtbezirk_Jöllenbeck.svg

sieht aber ok aus

Der Kopiervorgang läuft jetzt seit 12 Tagen und ist heute morgen unterbrochen worden. Ich habe ihn neu gestartet. Das Problem sind ca. 1.5 Millionen thumb Dateien die wir wohl in Zukunft grösstenteils nicht mehr brauchen werden, die aber aufgeräumt werden müssen. Das komplette Löschen aller bisherigen Thumbs ist zur Zeit leider IMHO noch keine Option.

Das log steht bei thumb/e/ed/Koethen-AB-1947.djvu/page164-180px-Koethen-AB-1947.djvu.jpg

so dass nur noch das thumb/f Verzeichnis fehlt - sollte also bis morgen fertig sein.

Die Version 0.0.6 vom djvuviewer liegt jetzt vor. Siehe GitHub - WolfgangFahl/djvu-viewer: DjVu Viewer and tarball converter

Damit lassen sich sehr zuverlässig die im MediaWiki 1.39 nicht nutzbaren unbundled djvu Dateien in bundled konvertieren und somit wieder anzeigbar machen. Das Verfahren habe ich inzwischen zweimal bei den Treffen vorgeführt. Es benötigt Sysop-Rechte, um die Umwandlung zu starten. Beispiel https://genwiki39.genealogy.net/Datei:Berg-Kauf-AB-1804.djvu

Vor Umwandlung

Umwandler starten:

Und die Anzeige funktioniert wieder wie im MediaWiki 1.35

Bei Beginn der DjVu Aufgabe im letzten Jahr hatten wir ca. 4300 djvu Dateien im Wiki. Inzwischen sind einige gelöscht worden. Ich bitte darum, erstmal keine weitere Löschungen vorzunehmen, da dies zu Sonderfällen führt und die Lösung leider nur oberflächlich erfolgt. Hinter den Kulissen bleiben noch immer hunderte von „Leichen“-Dateien erhalten. Im obigen Umwandlungsverfahren erfolgt das Aufräumen halbwegs automatsiert. Bei bereits nur teilweise gelöschen unbundled/index DjVu ist der Aufwand leider deutlich höher. Bisher sind zum Test 45 Dateien umgewandelt worden. Die möglichst komplette Umwandlungsaktion wird auf der SSD Platte mit einer Kopie des Wikis erfolgen, da auf den cloud-Servern der Dateizugriff um viele Male langsamer ist. Beispiel: sucher aller Dateien auf der SSD: weniger Sekunden, rotierende Festplatte: 1/2 Minute, in der Cloud: 30 Minuten.

1 „Gefällt mir“

Was genau bedeutet das?

Klar es sollen keine DjVus gelöscht werden. Heißt das wir sollen uns jetzt notieren welche überflüssig sind oder wie soll mit nicht mehr benötigten Dateien umgegangen werden?

Es geht um die Datei-Seiten selbst wie z.B. https://wiki.genealogy.net/Datei:Gießen-AB-1939-Plan-Gießen-Klein-Linden.djvu. Die Löschung ist erstmal nicht erforderlich. Die Verweise können natürlich geändert werden. Die Vorlage Vorlage:DjVu – GenWiki

können wir auch ändern, so dass der online-Viewer angesteuert wird der hat ja inzwischen auch eine backlink-Möglichkeit. Die Vorlage kann ja auch einen Parmeter bekommen wohin die Migration erfolgt ist.

Die Seite kann ich doch garnicht löschen. Es geht nur das DjVu. Verstehe also nicht was jetzt meint ist.

Gerhard Stoll schrieb:

Die Seite kann ich doch garnicht löschen.

Das Missverständnis würde ich gerne aufklären. MediaWiki zeigt die Seite als gelöscht von GStoll an. Um diesen Löschvorgang geht es mir. Solche Löschungen würde ich gerne vermeiden, denn technisch passiert leider nicht das was sinnvoll wäre.