Répondre

export gedcom ASCII en ANSI

Pour poser toutes les questions sur l'utilisation du module Arbre en ligne (envoi de gedcom ou saisie en ligne).
gquedeville
male
Messages : 209
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
bonjour,
L'export Gedcom par défaut est en ASCII
le fichier contient bien une ligne 1 CHAR ASCII
mais le codage des caractères est en réalité en ANSI
Il faudrait modifier la ligne 1 CHAR ASCII en 1 CHAR ANSI

Cordialement
--
Gilles
assistance
assistance
Administratrice
Messages : 41403
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Bonjour,

Nos exports Gedcom en ASCII nous paraissent tout à fait normaux. Pouvez-vous nous en dire plus ? De quoi parlez-vous exactement ?

Merci de votre aide.
Cordialement,
Sylvie, Responsable assistance Geneanet
-------------------------------
Foire aux questions : FAQ
Toute l'info généalogique est sur Le Blog Généalogie
Pour être informé des évolutions du site : newsletter
gquedeville
male
Messages : 209
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Bonjour,
Heredis 2017 ne reconnait pas les fichiers déclarés en ASCII
Si je modifie la ligne 1 CHAR ASCII en 1 CHAR ANSI avec FRHED un éditeur héxadécimal pour être sûr qu'aucun autre caractère n'est modifié, le fichier est lu par Heredis 2017 ce qui prouve que les caractères spéciaux (accents ou cédilles) sont codés en ANSI dans le gedcom issu de Geneweb

Geneweb 7.00-exp devrait mettre lui même 1 CHAR ANSI puisque les caractères sont codés sur 8 bits en ANSI et pas en ASCII sur 7 bits

Cordialement
--
Gilles
thetienne
thetienne
Messages : 2031
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
assistance a écrit : 04 août 2017, 14:50 Nos exports Gedcom en ASCII nous paraissent tout à fait normaux. Pouvez-vous nous en dire plus ? De quoi parlez-vous exactement ?
Bonjour,

Je n'avais pas remarqué (il faut dire qu'il vaut mieux utiliser l'UTF-8 pour ne pas perdre de caractères exotiques) mais je confirme ce que dit Gilles (gquedeville),

Un export "ASCII" donne pour le caractére é le code caractére 0xE9 donc formellement c'est de l'"ANSI" qui devrait être indiqué comme charset (1 CHAR ASCII --> 1 CHAR ANSI)

> é est codé en 0xE9 en "ANSI" (ie Windows 1252 - https://fr.wikipedia.org/wiki/Windows-1252)
> é est codé en 0x82 en "ASCII 8 bit US" (code page 437 - https://fr.wikipedia.org/wiki/Page_de_code_437) (*)

A noter que l'export UTF-8 est aussi "buggé" comme je l'avais déja signalé ( et pour lequel je n'avais pas réussi à faire entendre raison : http://www.geneanet.org/forum/?topic=504784.0 ) :(

ça fait longtemps que je n'avais pas fait d'archéologie informatique :)
Amicalement
Thierry ETIENNE
(*) : Pour rappel : au sens de la norme GEDCOM le Charset "ASCII" (CHAR ASCII) est de l'"ANSI 8 bits US" :
Chapitre 3 norme GECOM : When a language does not need diacritic characters or other special characters, and if you are not transmitting binary data, you will find it convenient to use ASCII (8-bit USA version) if your computer already supports it. This is a standard of the American National Standards Institute (ANSI). Most of the basic printable characters of ANSEL and ASCII (USA version—ANSI 8-Bit) are identical.

Par ailleurs le "CHAR ANSI" bien que non normalisé par la norme GEDCOM  est utilisé par beaucoup de logiciels. C'est un abus de langage introduit à l'époque de l'arrivée des PC sous Windows et  cela correspond au codage à "Windows 1252" très proche de ISO 8859-1 (Latin 1)
Dernière modification par thetienne le 29 septembre 2018, 08:39, modifié 3 fois.
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
lardechois
lardechois
Messages : 11
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
ASCII ou ANSI ?
Je me permet d'intervenir dans la discussion. L'ASCII est bien antérieur à l'ANSI !
Au sens strict ASCII est d'abord un codage à 7 bits puis un codage à 8 bits dont le bit de poids fort est nul. Donc ici ASCII ne peut signifier qu'ASCII étendu. L'ennui est qu'il y a de nombreux ASCII étendus incompatibles les uns avec les autres.

Je citerai en particulier
- Latin 1 (ISO 8859-1) très utilisé en Europe occidentale qui reconnait tous les caractères accentués donc é mais aussi la ligature æ et sa majuscule mais pas la ligature œ pourtant beaucoup plus fréquente en français,
- Latin 9 (ISO 8859--15) plus récent qui reconnait aussi tous les caractères accentués mais également æ œ et leurs majuscules,
- ANSI qui est une création Microsoft qui reconnait (mais avec un autre codage) les caractères reconnus par Latin 9.

À l'import des gedcoms codés en ANSI on constate que la ligature œ n'est pas reconnue par Geneanet, on peut donc penser qu'à l'export ASCII ne doit pas signifier ANSI ni Latin 9. La conclusion est donc que pour Geneanet ASCII signifie Latin 1.

Si ma conclusion est exacte pourquoi ne pas le préciser et si l'écriture CHAR Latin 1 est acceptable en grammaire gedcom pourquoi ne pas l'utiliser ?

Bien entendu il ne s'agit là que de réflexions sur le débat précédant mon intervention. Quant à moi pour les relations avec Geneanet je n'utilise plus que UTF-8 depuis plus de dix ans.

Bien cordialement,
Jean Costet (lardechois)
thetienne
thetienne
Messages : 2031
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
lardechois a écrit : 28 septembre 2018, 16:19 À l'import des gedcoms codés en ANSI on constate que la ligature œ n'est pas reconnue par Geneanet, on peut donc penser qu'à l'export ASCII ne doit pas signifier ANSI ni Latin 9. La conclusion est donc que pour Geneanet ASCII signifie Latin 1.
Bonjour,
Vous avez raison Geneweb (utilisé par GENEANET) utilise bien un codage Windows 1252 (incluant ISO 8859-1 (Latin 1)) très proche de "Windows 1252" (cf sources sur GitHub : https://github.com/geneweb/geneweb/blob/master/gwb2ged/gwb2ged.ml ) lorsque qu'il produit des GEDCOM en "CHAR ASCII".

Dans les années 1990; les caractères codés sous Windows étaient appelés par confusion « ANSI » - cf https://fr.wikipedia.org/wiki/Windows-1252 . Cela a fait que la majorité des logiciels de généalogie dénomment alors ANSI le CHARset "windows 1252" en GEDCOM (codé CHAR ANSI dans le fichier).

Il y a donc un bug geneweb à corriger (CHAR ASCII ---> CHAR ANSI). Cela n'est pas corrigé sur Geneanet mais sur la version de geneweb en cours de développement : cf https://github.com/geneweb/geneweb/issues/627. Une fois cette version publiée Geneweb produira des GEDCOM avec "CHAR ANSI" comme les autres logiciels de généalogie. (extension de la norme GEDCOM universellement reconnue)
lardechois a écrit : 28 septembre 2018, 16:19 Si ma conclusion est exacte pourquoi ne pas le préciser et si l'écriture CHAR Latin 1 est acceptable en grammaire gedcom pourquoi ne pas l'utiliser ?
ça pourra se faire mais n'aurait d'intérêt que si tous les logiciels reconnaissant "CHAR LATIN-1". Or comme la norme GEDCOM est figée (pas de LATIN-1 dans la norme) et non maintenue, personne n'a d'intérêt à le faire; D'autant plus que cela ferait double emploi avec "CHAR ANSI"

Par ailleurs GENEANET ferait bien de :
- supprimer l'option "Format d'exportation de votre logiciel" dans l'envoi d'un GEDCOM car Geneweb détecte automatiquement le format et supporte d'autres formats (par exemple : CHAR MACINTOSH qui correspond au MacRoman légèrement différent de l'ISO 8859-1)
- dans la sauvegarde d'un arbre, remplacer dans le texte affiché pour l'option "ASCII" qui est en fait ANSI
ASCII.png
ASCII.png (7.32 Kio) Consulté 1852 fois
Tout cela introduit la confusion pour les utilisateurs peu avertis

Cordialement
Thierry
Dernière modification par thetienne le 29 septembre 2018, 10:02, modifié 3 fois.
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
lardechois
lardechois
Messages : 11
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Merci pour ces précisions.
Je trouve simplement dommage que le projet de modification de Geneweb propose de remplacer la référence ASCII par ANSI.
Si cela n'a pas d'importance pour les caractères accentués qui sont codés de la même manière dans ANSI et Latin 1 il n'en va pas de même la ligature æ. De plus ANSI code œ alors que Latin 1 ne le fait pas. C'est donc deux fois une contre-vérité !

Mais j'ai peut-être mal compris la nature de la modification. Si l'on écrit maintenant ANSI au lieu de ASCII tout en modifiant le codage du gedcom sortant pour le coder en ANSI et non en Latin 1 tout va bien. Si l'on écrit CHAR ANSI tout en gardant le codage Latin 1 cela va faire mal.

Bien cordialement, Jean Costet
thetienne
thetienne
Messages : 2031
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
lardechois a écrit : 29 septembre 2018, 08:53 … Geneweb propose de remplacer la référence ASCII par ANSI….
Bonjour,
Ce n'est pas "remplacer ASCII par ANSI" mais rajouter la valeur ANSI (jeu Windows 1252) pour compatibilité avec tous les autres logiciels existants (LEGACY, GENEATIQUE, HEREDIS, … ) . La valeur ASCII continuant à exister en import/export au sens défini dans la norme GEDCOM.

Sachant que toutes façons l'UTF-8 est a privilégier car le format interne à Geneweb est dorénavant UTF-8. Mais il reste encore des logiciels de généalogie qui ne savent pas générer de l'UTF-8 (Geneatique, …)

et comme dit dans mon précédent post il faudrait que Geneanet corrige l'interface WEB pour éviter la confusion ASCII/ANSI.

Cordialement
Thierry
Dernière modification par thetienne le 29 septembre 2018, 09:57, modifié 1 fois.
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
thetienne
thetienne
Messages : 2031
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
lardechois a écrit : 29 septembre 2018, 08:53 Si cela n'a pas d'importance pour les caractères accentués qui sont codés de la même manière dans ANSI et Latin 1 il n'en va pas de même la ligature æ. De plus ANSI code œ alors que Latin 1 ne le fait pas. C'est donc deux fois une contre-vérité !
Je me suis mal exprimé et introduit la confusion dans mes précédents posts. Quand Geneweb exporte en "ANSI", il doit produire un jeu de caractère Windows 1252;
Le jeu Windows 1252 "ANSI" ( https://fr.wikipedia.org/wiki/Windows-1252 ) incluant ISO 8859-1 et donc les caractères avec ligature codés dans la page 0x80-0x9F.

Je viens de vérifier avec ma version locale et avec la version de Geneanet les caractères de cette plage sont bien tous exportés dans le cas "ANSI/Windows 1252" :
DeltaANSI_ISO8859-1.png
DeltaANSI_ISO8859-1.png (3.33 Kio) Consulté 1899 fois
Néanmoins il y a un bien bug Geneweb que je n'avais pas vu. Pour cette plage de caractères les caractères sont exportés en UTF-8. (mixage de caractères UTF-8 et ANSI/Windows 1252 dans le GEDCOM...). Il va falloir signaler une nouvelle "issue"


Cordialement
Thierry
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
poarbre
poarbre
Administrateur
Messages : 3144
Saisie : Standard
Navigation : Arbre
Voir son arbre
Bonjour,

Merci pour vos retours, nous allons regarder cela.

Concernant l'ASCII/ANSI, quels sont vos usages ou logiciels nécessitant un fichier au format ASCII ou ANSI au lieu d'un fichier UTF-8 ?
Raphaël
chef de produit
Geneanet
thetienne
thetienne
Messages : 2031
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
poarbre a écrit : 02 octobre 2018, 11:49 Concernant l'ASCII/ANSI, quels sont vos usages ou logiciels nécessitant un fichier au format ASCII ou ANSI au lieu d'un fichier UTF-8 ?
Bonjour,
Personnellement
- je ne pense pas que l'ASCII (comme l'ANSEL) soit encore beaucoup utilisé, l'"ANSI/Windows 1252" est utilisé principalement par les personnes qui ont un logiciel de Genealogie n'ayant pas d'import UTF-8 (il y en a de moins en moins)
- J'utilise ANSI sur Geneanet, seulement parce que l'export UTF-8 Geneweb est buggé sur les notes longues (dans la version utilisée par Geneanet)…
==> Bug Geneweb à corriger dans la version Geneanet, cf solution ici :
cf https://github.com/geneweb/geneweb/issues/164 et correctif final https://github.com/geneweb/geneweb/issues/631


Cordialement
Thierry
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
poarbre
poarbre
Administrateur
Messages : 3144
Saisie : Standard
Navigation : Arbre
Voir son arbre
Merci c'est noté ! Une mise à jour technique de Geneweb est en effet en prévision, je note le problème des exports ASCII/ANSI/UTF-8 pour qu'on puisse y amener les corrections nécessaires dans la foulée.
Raphaël
chef de produit
Geneanet
forhanp
forhanp
Messages : 14034
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Bonjour,

Notez que la norme GEDCOM ne parle jamais d'ANSI mais d'ANSEL.
Je suis tombé sur ce très intéressant document récemment :
https://www.tamurajones.net/GEDCOM551AnnotatedEdition.xhtml

Je vous conseille les tables de caractères aux alentours de la page 100.

Cordialement,
Pascal Forhan
thetienne
thetienne
Messages : 2031
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
forhanp a écrit : 03 octobre 2018, 16:41 Notez que la norme GEDCOM ne parle jamais d'ANSI mais d'ANSEL.
Bonjour,
Oui c'est exact; le CHARset ANSI (Jeu Windows 1252) est été utilisé/popularisé par quasi tous les logiciels de généalogie (LEGACY, HEREDIS, GENEATIQUE, … ) à partir du début des années 2000 avec la fin progressive des PC MSDOS. Pour certains même fin des années 1990. Il n'est pas défini par la norme GEDCOM 5.5. (pas plus que UTF-8 qui n'apparait qu'un 5.5.1) car la norme est antérieure a sa généralisation (début 2000)

Reste qu'il est reconnu et utilisé par une très grande majorité de logiciel aujourd'hui (l'UTF-8 est aussi quasi généralisé dans les dernières versions est supplante donc ANSI par son jeu de caractères plus large).

L'édition "GEDCOM 5.5.1 Annotated Edition" n'ayant pas pour but de lister les extensions post 5.5.1 elle ne liste pas ce jeu de caractère dans la syntaxe; pas plus que le jeu "MACINTOSH" introduit par les logiciels de généalogie pour MAC.
Cette édition "non-officielle" (puisque Family search a arrêté de soutenir le norme) identifie néanmoins à la page 44 et 86 les principaux CHARSET rencontrés (dont ANSI et MACINTOSH) en les qualifiant d'illegal (alors qu'il sont communément utilisés).

Thierry
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
forhanp
forhanp
Messages : 14034
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Bonjour,

Pour être parfaitement précis, il y a des différences entre l'ANSI CP1252 et l'ANSEL (faites un tour sur Wikipedia).
Du coup je répète, ce n'est pas du 1252 (appelé classiquement ANSI) qu'il faudrait mettre mais de l'ANSEL.

Concernant le caractère "illégal" des jeux de caractère, ce n'est pas parce qu'un logiciel interprète librement une norme qu'il a raison de le faire.
Il en découle que les jeux de caractère peuvent être parfaitement en contradiction avec la norme et utilisés par certains logiciels du marché.
Après il faut se baser sur un référentiel commun, c'est ce à quoi servent les normes.
On peut penser que les extensions ont du bon, mais sur un format pivot de transfert de données, c'est toujours discutable.

Cordialement,
Pascal Forhan
Répondre

Revenir à « Arbre en ligne »