Einen freundlichen Gru� an alle!
In GEDCOM 5.5 ist bez�glich der Zeichens�tze festgelegt, dass nur ASCII, ANSEL und UNICODE verwender werden sollen. ASCII reicht uns schon wegen der fehlenden Umlaute nicht, ANSEL ist ein besonderes Thema und zu UNICODE fehlen in GEDCOM wesentliche Angaben.
W�hrend bei den meisten Zeichens�tzen die den Zeichen zugeordneten Codenummern auch gleich die Codierung angeben, ist das in UNICODE nicht unmittelbar der Fall. Hier gibt es mehrere Codierungsverfahren:
- UTF-32: hat noch kaum Bedeutung und wird es f�r uns auch kaum bekommen.
- UTF 16: hier geben die 2-Byte-Codenummern unmittelbar die Codierung an, es gibt aber 4 M�glichkeiten zur speziellen Anordnung: Es kann mit dem niederwertigen Byte voraus oder hinterher codiert werden, weiter k�nnen einer Datei Kennzeichnungen vorangestellt sein oder nicht.
- UTF-8: hier sind die Codierungen der ASCII-Zeichen auf ein Byte verk�rzt, die anderen Werte sind in festgelegter Weise umcodiert. In der Regel ist ein Kennzeichen vorangestellt.
In GEDCOM fehlen jegliche Angaben, welche der Codierungsm�glichkeiten verwendet werden soll oder darf.
Nun w�sste ich gern, wie die verschiedenen Programme, die GEDCOM-Dateien mit Zeichensatz UNICODE generieren k�nnen, damit umgehen. Dazu w�nsche ich mir Zusendungen von solchen Dateien. Der Inhalt spielt f�r diese Untersuchung keine Rolle, nur der Header (Datensatz 0 HEAD) sollte in Ordnung sein.
Bitte die GEDCOM-Dateien nicht �ber das Forum senden, da sie ja f�r die meisten Teilnehmer uninteressant sind. Jeder Einsender erh�lt eine R�ckmeldung.
Dieter Oechsle