Répondre

export gedcom ASCII en ANSI

thetienne
thetienne
Messages : 1170
Saisie : Geneweb
Voir son arbre
lardechois a écrit :
29 septembre 2018, 08:53
Si cela n'a pas d'importance pour les caractères accentués qui sont codés de la même manière dans ANSI et Latin 1 il n'en va pas de même la ligature æ. De plus ANSI code œ alors que Latin 1 ne le fait pas. C'est donc deux fois une contre-vérité !
Je me suis mal exprimé et introduit la confusion dans mes précédents posts. Quand Geneweb exporte en "ANSI", il doit produire un jeu de caractère Windows 1252;
Le jeu Windows 1252 "ANSI" ( https://fr.wikipedia.org/wiki/Windows-1252 ) incluant ISO 8859-1 et donc les caractères avec ligature codés dans la page 0x80-0x9F.

Je viens de vérifier avec ma version locale et avec la version de Geneanet les caractères de cette plage sont bien tous exportés dans le cas "ANSI/Windows 1252" :
DeltaANSI_ISO8859-1.png
DeltaANSI_ISO8859-1.png (3.33 Kio) Consulté 793 fois
Néanmoins il y a un bien bug Geneweb que je n'avais pas vu. Pour cette plage de caractères les caractères sont exportés en UTF-8. (mixage de caractères UTF-8 et ANSI/Windows 1252 dans le GEDCOM...). Il va falloir signaler une nouvelle "issue"


Cordialement
Thierry
Geneweb, Heredis 2021 Pro, Géneatique MX à 2021 sans limites
Windows 10 - Version 2004, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.

poarbre
poarbre
Administrateur
Messages : 2724
Saisie : Geneweb
Voir son arbre
Bonjour,

Merci pour vos retours, nous allons regarder cela.

Concernant l'ASCII/ANSI, quels sont vos usages ou logiciels nécessitant un fichier au format ASCII ou ANSI au lieu d'un fichier UTF-8 ?
Raphaël
chef de produit
Geneanet

thetienne
thetienne
Messages : 1170
Saisie : Geneweb
Voir son arbre
poarbre a écrit :
02 octobre 2018, 11:49
Concernant l'ASCII/ANSI, quels sont vos usages ou logiciels nécessitant un fichier au format ASCII ou ANSI au lieu d'un fichier UTF-8 ?
Bonjour,
Personnellement
- je ne pense pas que l'ASCII (comme l'ANSEL) soit encore beaucoup utilisé, l'"ANSI/Windows 1252" est utilisé principalement par les personnes qui ont un logiciel de Genealogie n'ayant pas d'import UTF-8 (il y en a de moins en moins)
- J'utilise ANSI sur Geneanet, seulement parce que l'export UTF-8 Geneweb est buggé sur les notes longues (dans la version utilisée par Geneanet)…
==> Bug Geneweb à corriger dans la version Geneanet, cf solution ici :
cf https://github.com/geneweb/geneweb/issues/164 et correctif final https://github.com/geneweb/geneweb/issues/631


Cordialement
Thierry
Geneweb, Heredis 2021 Pro, Géneatique MX à 2021 sans limites
Windows 10 - Version 2004, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.

poarbre
poarbre
Administrateur
Messages : 2724
Saisie : Geneweb
Voir son arbre
Merci c'est noté ! Une mise à jour technique de Geneweb est en effet en prévision, je note le problème des exports ASCII/ANSI/UTF-8 pour qu'on puisse y amener les corrections nécessaires dans la foulée.
Raphaël
chef de produit
Geneanet

forhanp
forhanp
Messages : 5051
Saisie : Geneweb
Voir son arbre
Bonjour,

Notez que la norme GEDCOM ne parle jamais d'ANSI mais d'ANSEL.
Je suis tombé sur ce très intéressant document récemment :
https://www.tamurajones.net/GEDCOM551AnnotatedEdition.xhtml

Je vous conseille les tables de caractères aux alentours de la page 100.

Cordialement,
Pascal Forhan

thetienne
thetienne
Messages : 1170
Saisie : Geneweb
Voir son arbre
forhanp a écrit :
03 octobre 2018, 16:41
Notez que la norme GEDCOM ne parle jamais d'ANSI mais d'ANSEL.
Bonjour,
Oui c'est exact; le CHARset ANSI (Jeu Windows 1252) est été utilisé/popularisé par quasi tous les logiciels de généalogie (LEGACY, HEREDIS, GENEATIQUE, … ) à partir du début des années 2000 avec la fin progressive des PC MSDOS. Pour certains même fin des années 1990. Il n'est pas défini par la norme GEDCOM 5.5. (pas plus que UTF-8 qui n'apparait qu'un 5.5.1) car la norme est antérieure a sa généralisation (début 2000)

Reste qu'il est reconnu et utilisé par une très grande majorité de logiciel aujourd'hui (l'UTF-8 est aussi quasi généralisé dans les dernières versions est supplante donc ANSI par son jeu de caractères plus large).

L'édition "GEDCOM 5.5.1 Annotated Edition" n'ayant pas pour but de lister les extensions post 5.5.1 elle ne liste pas ce jeu de caractère dans la syntaxe; pas plus que le jeu "MACINTOSH" introduit par les logiciels de généalogie pour MAC.
Cette édition "non-officielle" (puisque Family search a arrêté de soutenir le norme) identifie néanmoins à la page 44 et 86 les principaux CHARSET rencontrés (dont ANSI et MACINTOSH) en les qualifiant d'illegal (alors qu'il sont communément utilisés).

Thierry
Geneweb, Heredis 2021 Pro, Géneatique MX à 2021 sans limites
Windows 10 - Version 2004, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.

forhanp
forhanp
Messages : 5051
Saisie : Geneweb
Voir son arbre
Bonjour,

Pour être parfaitement précis, il y a des différences entre l'ANSI CP1252 et l'ANSEL (faites un tour sur Wikipedia).
Du coup je répète, ce n'est pas du 1252 (appelé classiquement ANSI) qu'il faudrait mettre mais de l'ANSEL.

Concernant le caractère "illégal" des jeux de caractère, ce n'est pas parce qu'un logiciel interprète librement une norme qu'il a raison de le faire.
Il en découle que les jeux de caractère peuvent être parfaitement en contradiction avec la norme et utilisés par certains logiciels du marché.
Après il faut se baser sur un référentiel commun, c'est ce à quoi servent les normes.
On peut penser que les extensions ont du bon, mais sur un format pivot de transfert de données, c'est toujours discutable.

Cordialement,
Pascal Forhan

thetienne
thetienne
Messages : 1170
Saisie : Geneweb
Voir son arbre
forhanp a écrit :
03 octobre 2018, 21:53
Du coup je répète, ce n'est pas du 1252 (appelé classiquement ANSI) qu'il faudrait mettre mais de l'ANSEL.
Pourquoi pas, mais l'ANSEL et l'ANSI sont dépassés tout les deux.
L'ANSI c'est juste pour permettre la compatibilité avec certains logiciels de moins en moins nombreux.

Le codage interne de Geneweb est maintenant en UTF-8 et donc pour ne pas perdre de caractères il faut que UTF-8 soit privilégié

En import geneweb 7 sur Geneanet reconnait : [ Ansel | Ascii | Msdos | Oem | MacIntosh | Utf8 ]
En export Geneweb sait déjà faire : [ Ansel | Ascii | Utf8 ]
(sachant que
- vu les bugs Geneweb "ASCII" n'est pas réellement ASCII-US mais fait à partir de ISO8859-1 et donc plus proche de l'ANSI (Windows 1252
- l'ANSEL n'est pas proposé par Geneanet, mais il pourrait le rajouter car geneweb est capable de le produire).

Geneanet (si il le voulait) pourrait rajouter un export ANSEL. Néanmoins je pense que cela ne sert strictement à rien car tous les logiciels ont soit ANSI, soit UTF-8 en import.
L'ANSEL est une norme obsolete (abandonnée par l'ANSI) dont le "character-set" n'existe pas nativement dans les languages de programmation modernes. Economiquement personne n'a d'intérêt à l'utiliser aujourd'hui.

Thierry
Geneweb, Heredis 2021 Pro, Géneatique MX à 2021 sans limites
Windows 10 - Version 2004, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.

forhanp
forhanp
Messages : 5051
Saisie : Geneweb
Voir son arbre
Bonjour,

Tout est dépassé à part l'UTF.
Les jeux de caractères basés sur l'ASCII (ISO, 1252, Latin,...) ne devraient plus être utilisés par aucun programme moderne.
Maintenant, il faut faire avec.
A minima, il faut que la sortie corresponde au contenu.
La norme dit ANSEL.
Les propositions peuvent être différentes, c'est à Geneanet de décider.

Cordialement,
Pascal Forhan

thetienne
thetienne
Messages : 1170
Saisie : Geneweb
Voir son arbre
forhanp a écrit :
04 octobre 2018, 00:02
La norme dit ANSEL.
Les propositions peuvent être différentes, c'est à Geneanet de décider.
Bonjour Pascal,
On s'est éloigné de l'objet de ce fil qui n'était que le problème de l'export en "ASCII" (qui n'est pas ASCII) par Geneanet/geneweb et qu'il faut corriger par souci d'interopérabilité en ANSI (car cet export est en fait l'ISO 8859-1 qui est un sous ensemble de Windows 1252 c'est à dire ANSI).

Le sujet d'ajouter un export en ANSEL (qui existe dans Geneweb 7) dans la sauvegarde de Geneanet est peut être un besoin (mais je ne le vois pas aujourd'hui). Geneanet pourrait effectivement aussi remplacer simplement ASCII par ANSEL. Mais il faudrait plutôt ajouter ANSEL et garder "ASCII (ANSI)" pour être compatible du maximum d'utilisateurs.
Une discussion sur la "norme" GEDCOM (aujourd'hui affublée de multiples dialectes, contenant n tags obsolètes et dont les spécifications ne sont plus maintenues/publiées par ses concepteurs -- car promotion de GEDCOM-X) serait un autre sujet.

Je m'arrête donc là pour ce sujet ASCII/ANSI pour ne pas le polluer plus; à bientôt sur un autre fil peut être. Cette discussion était intéressante.

Cordialement
Thierry
Geneweb, Heredis 2021 Pro, Géneatique MX à 2021 sans limites
Windows 10 - Version 2004, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.

thetienne
thetienne
Messages : 1170
Saisie : Geneweb
Voir son arbre
poarbre a écrit :
03 octobre 2018, 09:58
Merci c'est noté ! Une mise à jour technique de Geneweb est en effet en prévision, je note le problème des exports ASCII/ANSI/UTF-8 pour qu'on puisse y amener les corrections nécessaires dans la foulée.
Bonjour,
Juste pour completer les échanges de fin 2018.

J'avais oublié de repréciser (déjà dit par gquedeville ) : Pour HEREDIS, il n'y a de choix de forçage du jeu de caractère.
De fait pour HEREDIS l'import d'un arbre en ligne en ASCII sera considéré comme de l'ASCII-US et donc tous les caractères accentués du jeu ISO-8859-1 (sous ensemble de Windows 1252) seront non décodés correctement (? ou autre affiché).

L'utilisateur HEREDIS peut contourner le problème en modifiant "CHAR ASCII" par "CHAR ANSI" dans le GEDCOM mais cela ne résoudra pas la limitation à la plage ISO-8859-1 de geneweb.

En espérant une correction prochaine.

Cordialement
Thierry
Geneweb, Heredis 2021 Pro, Géneatique MX à 2021 sans limites
Windows 10 - Version 2004, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.

Répondre

Revenir à « Arbre en ligne »