Répondre

Données Brutes MyHeritage - Chromosome Y

Forum sur la généalogie génétique
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Bonjour,
Je suis à la recherche de volontaires "MyHeritage" qui pourraient me fournir le copier/coller des lignes Y présentes dans leur fichier de données brutes fournies par MyHeritage à mon adresse email figurant sur ma page de contact geneanet.

J'ai constaté que MyHeritage fournissait 489 lignes de marqueurs SNPs pour le chromosome Y, or à la comparaison de 3 fichiers de provenance différentes, j'ai constaté de troublantes similitudes, c'est la raison qui me pousse à analyser d'autres données pour confirmer ou infirmer mon hypothèse de travail. (rsid min : rs3894, rsid max : rs36028121)

Merci aux volontaires "MyHeritage".

Cordialement
Patrice
olgaget
olgaget
Messages : 87
Saisie : Standard
Navigation : Arbre
Voir son arbre
Bonjour Patrice,

Bon, en ce qui me concerne, j'ai déjà donné :lol:
Mais alors, te serais-tu trompé sur mon compte, donc sur mon haplogroupe ?

cordialement,
Olivier
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
olgaget a écrit : 04 septembre 2018, 19:00 Bonjour Patrice,
Bon, en ce qui me concerne, j'ai déjà donné :lol:
Mais alors, te serais-tu trompé sur mon compte, donc sur mon haplogroupe ?
cordialement,
Olivier
Bonjour Olivier,
Mon constat est ce qui est écrit en premier à savoir qu'en comparant plusieurs fichiers de données brutes Y, c'est à dire les 2 tiens et un troisième, d'étranges similitudes m'inquiètes.
Pour ce qui te concerne, rien d'étonnant à ce que tes données brutes Y soient presque mais pas tout fait identiques à celle de ton géniteur, mais il en va autrement d'une tierce personne, c'est pourquoi je souhaite visualiser d'autres fichiers pour me confirmer ou infirmer mon hypothèse.
Je parle là, des données brutes initiales n'ayant subie aucun traitement, pas des comparaisons postérieures.
Si tes données sont correctes, tu es donc bien ce que l'ISOGG précise dans ses bases.
Le problème existerait si tes données Y sont fausses, c'est ce que je veux vérifier en comparant les données brutes d'une dizaine de personnes sans rapport les unes avec les autres pour me faire une idée..
Dernière modification par pthobie le 04 septembre 2018, 20:00, modifié 1 fois.
olgaget
olgaget
Messages : 87
Saisie : Standard
Navigation : Arbre
Voir son arbre
bien compris :D

cordialement,
Olivier
bricor
bricor
Modératrice bénévole
Messages : 42829
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
pthobie a écrit : 04 septembre 2018, 15:40 Bonjour,
...................... à mon adresse email figurant sur ma page de contact geneanet.

Cordialement
Patrice
Bonsoir,

Il n'y a plus votre adresse mail sur votre page contact. Généanet les a supprimées il y a plusieurs mois.

Si vous l'écrivez sur le forum écrivez arobase en toutes lettres pour éviter les robots spameurs.

Cordialement

Brigitte
Modératrice bénévole sans lien de subordination avec généanet.

Mes relevés des Vaudois du Luberon :
https://gw.geneanet.org/essaisbrigitte
________________________________________________________________
"A l'an que vèn, e se sian pas mai que siguen pas mens"
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
bricor a écrit : 04 septembre 2018, 20:14
pthobie a écrit : 04 septembre 2018, 15:40 Bonjour,
...................... à mon adresse email figurant sur ma page de contact geneanet.
Cordialement
Patrice
Bonsoir,
Il n'y a plus votre adresse mail sur votre page contact. Généanet les a supprimées il y a plusieurs mois.
Si vous l'écrivez sur le forum écrivez arobase en toutes lettres pour éviter les robots spameurs.
Cordialement
Brigitte
Bonsoir Brigitte et grand merci pour cette précision, je n'avais pas remarqué ce point...en bon Saint-Thomas puisque travaillant ma généalogie sur Saint-Thomas-de-Conac, je viens effectivement de constater l'absence de ce sésame... bigre fichtre z'et palsembleu ! Mordious !!!
Voici donc mon adresse : gandalf.osteirsson arrowbase laposte.net
Cordialement
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Ce qui me pousse à m'interroger sur les données brutes du chromosome Y fournies par MyHeritage, c'est ceci :
les 3 fichiers analysés comprennent tous 489 marqueurs SNPs,
Notons A le premier individu, A' le second individu père de A, et B le troisième individu étranger aux deux premiers.
- A et A' possèdent 9 différences sur 489 marqueurs soit une différence de 1,8405%
- A et B possèdent 4 différences sur 489 marqueurs soit une différence de 0,8180%
comparatif.jpg
Sur l'image de ci-dessus (cliquer dessus pour grossir), vous pouvez voir les différences entre lignes de marqueurs, la barre verticale représente l'échantillon de 489 lignes, les petits traits horizontaux jaunes représentent les différences. Le logiciel utilisé pour la comparaison de fichiers textes est WinMerge que j'utilise habituellement pour comparer mes configurations de routeurs. Je rappelle qu'il ne s'agit ici que des données brutes sans aucun traitement, juste celles que MyHeritage vous à fournies si vous êtes un Homme pour votre chromosome Y.

Dans le premier cas, A et A' étant fils et père, la faible différence ne me paraît pas anormale,
Dans le second cas, A et B étant étrangers, là, la faible différence m'étonne et me pousse à mener d'autres investigations.

Toutefois, il faut relativiser la faible différence, car nous disposons ici de très peu de marqueurs, ce qui est un choix fait par MyHeritage d'un point de vu technique, en comparaison, 23andMe m'a fourni 3734 marqueurs Y, donc, il faut considérer que MyHeritage n'a focalisé son analyse que sur 489 marqueurs qu'il a considéré comme suffisamment spécifiques, considérons que la base de l'ISOGG me donne 34037 marqueurs tout haplogroupes confondus disposant d'un rsid, il y en a bien plus mais sans rsid spécifiés.

Admettons que nous n'ayons que 4 ou 5 marqueurs précis du groupe I, dans le cas présent, les 3 personnes sont des I1, il est donc tout à fait normal que les 489 lignes soient similaires. Si j'avais un 4ème candidat d'un groupe fort différent, cela me permettrait d'infirmer ou de confirmer mon hypothèse.

Voilà pourquoi j'ai besoin d'autres données brutes du chromosome Y de MyHeritage, afin de voir si cela est le pur fruit du hasard, ou si l'ensemble des fichiers produits sur la partie Y seraient en quelques sortes génériques et par conséquent non-exploitables, ce qui serait une des raisons du pourquoi MyHeritage ne vous fourni pas votre Haplogroupe Y, mais tout ceci n'est qu'une hypothèse de travail qu'il convient d'infirmer ou de confirmer par l'analyse d'autres fichiers.

En conclusion, Messieurs qui avez fait un test chez MyHeritage, vous pouvez contribuez à lever le doute en me fournissant, si vous le désirez, vos 489 lignes Y de votre fichier de données brutes. ( Pour Mesdames, je suis désolé, comme vous n'avez pas de chromosome Y, celui présent dans vos données brutes clairement indiqué en "Y" est en fait le n°24 soit votre second X, à moins qu'il ne s'agisse encore que d'une fraction générique venant combler un vide dans le fichier final)

Mon adresse email : gandalf.osteirsson arrowbase laposte.net, pensez à remplacer le mot arrowbase par le caractère qu'il désigne.
Cordialement
Patrice
jerome4
male
Messages : 9767
Ce qui m'étonne, c'est l'énorme différence entre A et A'!
Normalement, il devrait être identique, voir à la limite qu'une seule une mutation de différente!
cai000040
cai000040
Messages : 2118
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Tout à fait. A mon avis, c'est complètement incohérent. Ou le père n'est pas le père biologique ou il y a un eu problème de lecture.
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Bonjour Jérôme et cai000040,

Vous comprenez pourquoi j'ai besoin d'un panel de fichiers originaires de MyHeritage concernant les 489 lignes de marqueurs fournies pour le chromosome Y afin d'aller plus loin dans l'analyse.

Concernant les différences, relativisons mes hypothèses de travail.... dans ce que j'ai nommé "différences", il existe deux cas :
1 - la forme est indéterminée ("--")
2 - la forme est déterminée mais différente pour un génotype sur les deux fourni (exemple "TA" <>"AA")
Je comptabilise les deux formes comme négatives pour mes calculs et ne tiens compte que des formes déterminées identiques.

Ainsi concernant les individus A et A', ayant 9 différences, 7 sont de forme indéterminée chez A' mais déterminée chez A, il en reste donc 2 dont la forme déterminée est différente entre A et A' sur un seul des deux génotype fournis.

A noter la différence entre 23andMe et MyHeritage quand à la structure de données brutes fournies pour Y :
23andMe présente un seul génotype pour Y
MyHeritage présente un doublet de génotype pour Y

Sur 489 lignes de marqueurs Y, il faut noter 121 formes indéterminées pour A, 128 formes indéterminées pour A', et 120 formes indéterminées pour B, en en tirant une moyenne de (121+128+120)/3 = 123, cela donne un taux d'indétermination moyen pour MyHeritage sur le chromosome Y de 25,15% ce qui est élevé à mon sens.

Concernant 23andMe, sur les 3734 lignes de marqueurs Y, il y a 319 lignes indéterminées, soit (319/3734)*100 = 8,54% d'indétermination. D'où une hypothèse : la méthodologie, ou le matériel utilisé par 23andMe est de meilleur qualité que MyHeritage.

Si l'on se place au niveau global du fichier de données brutes tout chromosomes confondus :
Sur les 638469 lignes de marqueurs fournis (1 à 22, X, Y, MT), il y a 11840 lignes indéterminées soit (11840/638469)*100 = 1,85% d'indétermination.pour mon fichier 23andMe, évidement sur un échantillon d'une centaine de fichiers, nous aurions une meilleur vue statistique.
Sur les 720922 lignes de marqueurs fournis (1 à 22, X, Y), il y a 30562 lignes indéterminées soit (30562/720922)*100 = 4,24% d'indétermination pour l'individu A chez MyHeritage.

SI effectivement, les 489 marqueurs choisi par MyHeritage dans son analyse du chromosome Y devraient être identiques entre A et A', il devrait donc être encore plus différents entre A et B qu'il ne le sont, ainsi les données brutes fournies par MyHeritage sont-elles étranges.
treb15
male
Modérateur bénévole
Messages : 8077
Patrice,

Vos messages de ce fil m'interpellent fortement...

En parcourant la toile, j'ai donc récupéré quelques échantillons raw data de MyHeritage pour comparer un peu de mon côté ;)

Soit trois fichiers de personnes totalement au hasard MyH1, MyH2 et MyH3 extrait pour deux en 2017 et un en 2018.

Ils contiennent tout les trois 720816 lignes de données (soit hors lignes de commentaires et la ligne des titres).
MyH1 totalise 16779 lignes en non déterminées.
MyH2 totalise 18928 lignes en non déterminées.
MyH3 totalise 16304 lignes en non déterminées.

Ils comptabilisent chacun 482 lignes pour le chromosome Y.
MyH1 lui a 140 lignes en non déterminées sur Y.
MyH2 lui a 140 lignes en non déterminées sur Y.
MyH3 lui a 139 lignes en non déterminées sur Y.

MyH1 a 39 valeurs différentes vis à vis de MyH2 pour le chromosome Y dont 2 non déterminées.
MyH2 a 39 valeurs différentes vis à vis de MyH1 pour le chromosome Y dont 2 non déterminées.
MyH1 a 16 valeurs différentes vis à vis de MyH3 pour le chromosome Y dont 1 non déterminée.
MyH3 a 16 valeurs différentes vis à vis de MyH1 pour le chromosome Y toutes déterminées.
MyH2 a 27 valeurs différentes vis à vis de MyH3 pour le chromosome Y dont 2 non déterminées.
MyH3 a 27 valeurs différentes vis à vis de MyH2 pour le chromosome Y dont 1 non déterminée.

Voila pour mes premières recherches, à suivre....


Je rejoins jerome4 et cai000040 sur le fait que c'est plutôt le manque de similitudes pour le chromosome Y entre les deux fichiers bruts extraits de MyHeritage d'olgaget qui m'interpelle :o
Mais à la lecture de votre importante précision :
pthobie a écrit : 05 septembre 2018, 15:14 ...
Ainsi concernant les individus A et A', ayant 9 différences, 7 sont de forme indéterminée chez A' mais déterminée chez A, il en reste donc 2 dont la forme déterminée est différente entre A et A' sur un seul des deux génotype fournis.
Il en ressort qu'il n'y ai à priori que 2 vrais différences pour le chromosome Y entre les deux fichiers bruts extraits de MyHeritage d'olgaget :?:


P.S. : Votre méthode de calcul d'origine des différences ne me paraissait ainsi pas correcte car deux valeurs non déterminées ne sont PAS une différence prouvée et aussi une valeur non déterminée si elle est comparée à une valeur déterminée n'est qu'une potentielle différence ;)
Modérateur bénévole

:idea: Vous avez besoin d'aide, la réponse est peut-être disponible à la page :arrow: https://www.geneanet.org/aide/

:idea: Découvrir aussi le Blog, avec des articles d'aide, l'actualité du site et des projets... :arrow: https://www.geneanet.org/blog

:idea: Concernant la généalogie génétique :arrow: voir le forum ou le blog
.
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
treb15 a écrit : 05 septembre 2018, 17:36 P.S. : Votre méthode de calcul d'origine des différences ne me paraissait ainsi pas correcte car deux valeurs non déterminées ne sont PAS une différence prouvée et aussi une valeur non déterminée si elle est comparée à une valeur déterminée n'est qu'une potentielle différence ;)
Si vous lisez clairement mon document, je n'ai pas dis autre chose que ce que vous dites.
Indéterminée, donc non lue, donc potentiellement 50/50, c'est pourquoi je préfère la mettre de coté en négatif plutôt que d'en tenir compte, c'est le seul point pris en hypothèse, rien d'autre.
Je suis intéressé par vos échantillons anonymes, en avez vous les urls ? merci d'avance
Je rappelle que seules les lignes Y m'intéressent.

Cordialement
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Grâce à un aimable contributeur que je remercie vivement, un nouveau fichier de 489 marqueurs MyHeritage concernant le chromosome Y m'a été transmis.
Ce fichier m'apporte l'éclairage que je cherchais, il est quand à lui complètement différent des trois premiers, ce qui infirme mon hypothèse d'un remplissage de complaisance. On peut suivre correctement la progression depuis l'haplogroupe A vers BT et ainsi de suite jusqu’au dernier marqueur disponible, ce qui donne une bonne piste pour procéder à des tests complémentaires si l'on souhaite en savoir plus.
treb15
male
Modérateur bénévole
Messages : 8077
Patrice, désolé de vous le dire de nouveau, mais vous indiquiez dans votre exemple très particulier plus de différences entre A et A' que entre A et B :o
Ceci n'est pas un reproche, mais une conséquence soit d'une mauvaise analyse ou d'un sacré lièvre pour le membre vous ayant fournit A et A'

Par ailleurs WinMerge et le graphique qui en est issu sont inadaptés pour ce type d'étude de ce genre de fichiers ;)

Et effectivement, vous aviez corrigé vous-même dans l'exemple où je vous cite.

Je vous dis cela car il est plaisant d'échanger sur ces sujets qui ont aussi un côté technique fort intéressant :D

pthobie a écrit : 05 septembre 2018, 20:29Grâce à un aimable contributeur que je remercie vivement, un nouveau fichier de 489 marqueurs MyHeritage concernant le chromosome Y m'a été transmis.
Ce fichier m'apporte l'éclairage que je cherchais, il est quand à lui complètement différent des trois premiers, ce qui infirme mon hypothèse d'un remplissage de complaisance. On peut suivre correctement la progression depuis l'haplogroupe A vers BT et ainsi de suite jusqu’au dernier marqueur disponible, ce qui donne une bonne piste pour procéder à des tests complémentaires si l'on souhaite en savoir plus.
Si vous pourriez préciser vos dernières recherches, merci par avance.

édit : suppression fichier
Dernière modification par treb15 le 05 septembre 2018, 23:38, modifié 1 fois.
Modérateur bénévole

:idea: Vous avez besoin d'aide, la réponse est peut-être disponible à la page :arrow: https://www.geneanet.org/aide/

:idea: Découvrir aussi le Blog, avec des articles d'aide, l'actualité du site et des projets... :arrow: https://www.geneanet.org/blog

:idea: Concernant la généalogie génétique :arrow: voir le forum ou le blog
.
pthobie
pthobie
Messages : 215
Saisie : Geneweb
Navigation : Fiche
Voir son arbre
Bonsoir Treb15,
Je suis fortement désolé de te contredire concernant WinMerge pour l'utiliser au quotidien dans un tout autre domaine.
WinMerge n'est qu'un logiciel permettant de comparer code à code deux fichiers textes à priori identiques pour en vérifier les différences.
Il met donc en jaune les lignes où apparaissent des codes ASCII différents, or les deux fichiers de données comparés l'un à l'autre sont tout simplement des fichiers textes comprenant le même nombre de lignes soit 489.

Exemple concret hypothètique :
Fichier n°1 toto.txt contenant 3 lignes
rs4582,Y,45824586,CC
rs12458245,Y,6582452,TT
rs78458,Y,45824525,AA

Fichier n°2 titi.txt contenant aussi 3 lignes
rs4582,Y,45824586,CC
rs12458245,Y,6582452,GG
rs78458,Y,45824525,AA

Si tu compare les 2 fichiers textes toto.txt et titi.txt à l'aide de WinMerge, tu obtiendra une visualisation en jaune de la ligne n°2 les deux autres restant en blanc, c'est aussi simple que cela, je rappelle que le seul but de cette opération est de repérer les lignes entre deux fichiers ayant des différences, c'est tout, cela permet de gagner pas mal de temps en comparant 2 fichiers pour ne focaliser que sur les différences, rien de plus..
wilnmerge_exemple.jpg
Je vais analyser ton fichier dont je te remercie grandement la fourniture.
Concernant mes dernières recherches, ce que j'ai déjà dis est que le quatrième fichier obtenu contient aussi comme les trois premiers, 489 lignes des mêmes marqueurs, choix de MyHeritage, et que ce dernier étant tout à fait singulier et différent des trois premier infirme donc mon hypothèse initiale, car en effet la grande similitude des trous premier me laissait penser à une sorte de remplissage à l'aide de données sans rapport avec l'individu analysé, or je sais maintenant que les fichiers sont divers et variés, ton fichier contient 482 lignes, est tu bien sûr de ne pas en avoir oublié quelques unes lors de ta sélection ?
Répondre

Revenir à « ADN (généalogie génétique) »