Hallo Stefan, liebe Mitleser,
ich schreibe hier als Programmnutzer, nicht als Programmautor - weil ich von der Listenbeschreibung auch davon ausgegangen bin, dass sich diese Liste an Nutzer richtet, nicht an Programmierer - dass diese hier auch präsent sind, ist sicher hilfreich.
Insofern geht es, lieber Hans Selbach, auch nicht ums Streiten, sondern um einen Austausch über Fragen im Zusammenhang mit genealogischer Software.
Offensichtlich gibt es unterschiedliche Auffassungen darüber - und das können wir nicht weiter klären, da scheint jeder seine Position zu haben -, ob die Spezifikationen von Gedcom 5.5 aus dem Jahr 1996 wörtlich zu lesen sind oder dem Sinn nach.
Mir ist durchaus bewusst, dass Unicode und UTF-8 nicht identisch sind, wobei aber "UTF-8 die am weitesten verbreitete Kodierung für Unicode-Zeichen" ist (UTF-8 – Wikipedia).
Im Jahr 1996 - da steckte ja selbst das Internet noch in den Kinderschuhen - war noch nicht absehbar, dass UTF-8 einmal eine Standard-Zeichencodierung sein würde.
Ja, in Gedcom 5.5 wird Unicode genannt und nicht UTF-8 - es erscheint mir aber aber einigermaßen einleuchtend, dass Programmierer dem Sinn der Festlegungen von 1996 nach auch UTF-8 als zulässig erachten. Es geht ja auch schlicht nicht anders, wenn man in einem Programm alle notwendigen Zeichen häufiger wie seltener Sprachen und Schriftsysteme zulassen will. Wie soll man codieren - wenn nicht in UTF-8?
Und natürlich kann man sich auf diesen Standpunkt stellen:
Wenn im Header also GEdcom 5.5 vorgegeben ist, aber CHAR UTF8 benutzt
wird, kann es sich nicht um eine korrekte Gedcomdatei handeln.
Aber ganz offensichtlich wird diese Auffassung nicht allgemein geteilt; TNG kombiniert 5.5 mit UTF-8, Heredis macht es auch so.
Peter Schulz schreibt gestern Abend in der gedcom-l: "Ein Blick auf eine Statistik bei genealogieonline.nl zeigt, dass bei annähernd 10.000 GEDCOM-Dateien sich 92% auf die GEDCOM-Version 5.5 beziehen und nur 4% auf die 5.5.1."
Ich nehme an, dass ein großer oder ganz überwiegender Teil dieser 10.000 Gedcom-Datei 5.5 gleichzeitig UTF-8 verwendet - also "nicht korrekt" wären im Sinne der buchstabengenauen Auslegung von Gedcom 5.5.
Aus meiner Sicht als Nutzer, dessen Interesse vor allem eins ist, nämlich dass sich Daten, die ich an Forscherkollegen weitergebe, problemlos exportieren und wieder importieren lasse, ist es allerdings sehr bedauerlich, wenn viele Programme in Deutschland (es scheint mir nach den Zahlen von Peter Schulz schon so etwas wie ein deutscher Sonderweg zu sein) eine Datei, die in der Struktur und Syntax Gedcom-5.5-konform ist, aber aus logischen Gründen UTF-8 verwendet, als "nicht korrekt" betrachten. Noch ärgerlicher ist es natürlich, wenn Spezifikationen von 5.5 nicht ordentlich eingelesen werden mit der Begründung, erwartet würde halt 5.5.1.
Ich würde hier davon ausgehen, dass der Entwickler Gedcom 5.5.1 kennt
(wegen UTF8) und dabei ist, seinen Export darauf umzustellen (warum
sonst sollte er UTF8 nutzen?).
Weil man viele Zeichen nur in UTF-8 darstellen kann.
Aber das mögen die Programmautoren entscheiden. Ich als Nutzer habe ein INteresse an einem reibungslosen Datenaustausch zwischen verschiedenen Programmen und würde mich wünschen, dass Kinkerlitzchen wie die Kombination von 5.5 und UTF-8 kein Hindernis darstellen würden.
Aber viel interessanter für mich ist die Frage nach der rein praktischen Erfassung von Quellentexten zu Ereignissen, wozu Du, Stefan, dankenswerterweise als einziger geantwortet hast. Vielleicht ist diese meine Frage etwas untergegangen.
Die Quellentexte in den Erläuterungen zu einer Quelle zu vergraben, erscheint mir für die Datenausgabe wenig hilfreich, wo ich doch die VOlltexte bei der Person stehen haben möchte. Aber vielleicht erfasst auch keiner außer mir solche umfassenderen Texte udn Erläuterungen.
Ich komme darauf gerne separat zurück, weil mir das schon eine zentrale Frage zu sein scheint.
Viele Grüße
TK