Comment la surreprésentation des ADN d’origine européenne dans les bases de données biaise la recherche en génomique humaine

Les cohortes sur lesquelles se fonde la recherche génétique mondiale manquent de diversité. Cela accentue les disparités de santé et implique que les diagnostics, la prévention et les médicaments sont moins efficaces pour les autres populations. L’OMS a appelé à y remédier pour que la recherche profite à tous.

kassataya

Il y'a 4 mois

Le Monde – Arrêter le sport, avoir peur au moindre effort, enchaîner les rendez-vous médicaux, tout cela pour rien. C’est probablement ce qu’ont dû traverser cinq Afro-Américains victimes d’une erreur de diagnostic génétique. Ils font partie des 2 000 patients à s’être fait tester dans un laboratoire de Boston, entre 2004 et 2014, pour confirmer des soupçons de cardiomyopathie hypertrophique – une maladie du cœur, souvent d’origine génétique, pouvant entraîner la mort subite. Alors qu’ils n’étaient pas malades, ils ont été identifiés comme tels.

Ce sont des chercheurs de l’université Harvard (Cambridge, Massachusetts) qui ont révélé en 2016 cette erreur médicale, dans un article du New England Journal of Medicine. Ils démontrent alors qu’elle est due à des cohortes de témoins biaisées, principalement composées d’Américains d’origine européenne. Des variations génétiques courantes dans la population afro-américaine saine et présentes chez ces cinq patients ont été interprétées comme anormales et responsables de la maladie, en raison du manque de représentativité des échantillons standards auxquels elles ont été comparées. Il aurait suffi, pour éviter l’erreur, d’inclure, même en faible nombre, des personnes d’origines variées dans les études.

Cette histoire, bien connue dans la littérature scientifique, est un cas d’école des conséquences du manque de diversité dans la recherche en génétique (un problème qui concerne aussi d’autres domaines de la recherche médicale). Dans la Genome Aggregation Database (gnomAD), l’une des bases de données génétiques les plus utilisées pour le diagnostic des maladies rares, 77 % des individus sont originaires d’Europe, contre notamment 6 % pour l’Asie du Sud, 5 % pour l’Afrique et 3 % pour l’Asie de l’Est. On retrouve aussi cette surreprésentation des Européens dans les études scientifiques. D’après le GWAS Diversity Monitor, un indicateur interactif créé par l’université d’Oxford (Royaume-Uni), 90 % des travaux sur les facteurs de risque génétiques dans les maladies communes portent sur des participants d’ascendance génétique européenne. Et, dans le domaine de la pharmacogénétique, qui étudie l’influence des variations génétiques sur la réponse du corps aux médicaments, c’est 64 %.

Cela inquiète jusqu’à l’Organisation mondiale de la santé (OMS). Dans une série de recommandations sur la collecte et l’utilisation des données génétiques, publiée en novembre 2024, elle appelle à « des efforts ciblés pour remédier aux disparités dans la recherche génomique » et demande de « veiller à ce que [s]es bénéfices profitent à toutes les populations dans leur diversité », notamment aux habitants des pays en développement et à ceux qui en sont originaires.

« Au-delà des considérations éthiques, cela soulève des questions scientifiques, déclare, dans l’un de ses cours au Collège de France, Lluis Quintana-Murci, chercheur en génétique des populations à l’Institut Pasteur. En étudiant principalement l’impact de la diversité génétique européenne sur les maladies, nous n’observons qu’une petite fenêtre de la biologie. »

La race, notion inopérante chez l’humain

C’est en 2004, pour la première fois, que des scientifiques parviennent à lire la quasi-totalité des lettres qui constituent le génome humain. Il aura fallu plus de dix ans, près de 3 milliards de dollars et une rude compétition entre un consortium international et l’entreprise Celera, dirigée par Craig Venter, pour en venir à bout. Ce projet pionnier donne cependant peu d’informations sur la diversité génétique humaine, puisque seuls quelques volontaires (dont Craig Venter, le seul participant dont l’identité soit connue), ont cédé leur ADN.

Grâce à la baisse des coûts et des temps de séquençage, les collectes se multiplient à partir des années 2010. Ainsi voient le jour les projets Hap Map (2010), 1000 Genomes (2015), Human Diversity (2020) puis Human pangenome (2023), qui s’intéressent à des populations de différentes régions du monde. Aujourd’hui, un séquençage de l’ADN peut être réalisé en quelques semaines, pour environ 500 dollars.

On sait désormais que, parmi les 3 milliards de paires de bases (A, G, C ou T) qui composent notre ADN, de 3 à 4 millions en moyenne varient fréquemment d’une personne à l’autre. Il peut s’agir de l’ajout, de la suppression ou du remplacement d’une ou de plusieurs bases par d’autres.

« Prayer Hands » (2017). Photo extraite d’une série réalisée suite à la Marche des femmes, à Washington, organisée en réaction à la première élection de Donald Trump.

Une diversité qu’il ne faudrait pas interpréter comme une question de race, notion inopérante chez l’humain. « Si vous prenez 1 000 Sénégalais de Dakar et 1 000 Français de Brest, vous trouverez beaucoup de différences au sein de chaque groupe et peu de différences entre les deux, explique Lluis Quintana-Murci. Chez les chiens, où la notion de race est pertinente, c’est l’inverse : les bergers allemands se ressemblent beaucoup entre eux, tout comme les caniches, mais les deux groupes diffèrent fortement sur le plan génétique. »

La fréquence des variations fluctue ainsi de façon continue, en fonction de la distance et des barrières naturelles (montagnes, océans, etc.) qui séparent les populations. « En France, par exemple, on peut distinguer les personnes originaires du nord de la Loire de celles originaires du sud, car ce fleuve est resté pendant de longues générations une barrière géographique », illustre Emmanuelle Génin, directrice de l’équipe Génétique, génomique fonctionnelle et biotechnologies à l’université de Bretagne occidentale (Brest).

Même s’il n’existe pas de séparation nette entre les populations, les généticiens utilisent, pour des raisons pratiques, des catégories pour les décrire. Le plus adéquat, selon un rapport de l’Académie des sciences américaine, serait de les caractériser en fonction de leur similarité avec un panel de références (comme le 1000 Genomes Project). Mais l’organisme constate, dans les faits, un recours abusif à des catégories sociales sans fondement génétique (« Noir », « Blanc », « Latino ») ou basées sur le continent (« Africains », « Européens », « Asiatiques »), alors que ces territoires sont bien trop vastes pour constituer des groupes pertinents.

Diagnostic moins efficace pour les autres populations

C’est particulièrement le cas pour l’Afrique, dont sont issus tous les Homo sapiens que nous sommes. Le continent détient le record de la plus grande diversité génétique et chaque population qui l’a quitté pour migrer sur le reste de la planète en constitue un sous-ensemble.

Se focaliser sur les Européens revient donc à n’étudier qu’une infime partie de la diversité génétique, avec le risque d’accentuer les disparités de santé et de produire des médicaments et des méthodes de prévention et de diagnostic moins efficaces pour les autres populations. « C’est un peu comme avec les algorithmes d’apprentissage automatique, explique Hanna Julienne, chercheuse en génétique statistique à l’Institut Pasteur. Si l’algorithme apprend à partir d’une population qui n’est pas représentative, alors il va moins bien marcher quand on va l’appliquer à une autre population. »

Samia Hanachi

Source : Le Monde – (Le 21 avril 2025)

Diffusion partielle ou totale interdite sans la mention : Source www.kassataya.com