Le séquençage de l’ADN est aujourd’hui une technique bien maîtrisée par les laboratoires de biologie. Cependant, l’ADN cache encore de nombreux secrets que l’IA pourrait permettre de dévoiler dans le secteur médical.
Un code génétique particulièrement complexe
L’ADN contient toute l’information génétique d’un être vivant, en passant par la couleur des cheveux, des yeux, de la peau ainsi que des risques de prédisposition à certaines maladies. Ces traits héréditaires sont transmis d’une génération à une autre par l’intermédiaire de gènes qui se dénombrent à 25.000 en moyenne chez l’humain.
L’ADN peut être modélisée comme une phrase où une lettre est assignée à chaque nucléotide (A, C, G, T) que le traitement automatique du langage naturel (NLP) peut analyser1. Toutefois, à la différence d’un texte classique, le génome humain est composé de plus de six milliards de lettres2. Dans ce long texte, les gènes représentent des « mots » intéressants, car ce sont eux qui codent des effets sur les individus.
Cependant, les récentes recherches tendent à démontrer le rôle inattendu des régions non codantes du génome dans l’émergence de maladies génétiques héréditaires. Les régions non codantes forment la majeure partie des séquences du génome (environ 98 % du génome) sans pour autant être traduites en protéines. Les généticiens pensaient, à tort, que ces dernières n’étaient pas porteuses d’informations utiles car n’étant pas traduit en protéines. Mais il s’avère que celles-ci pourraient être la principale cause de l’altération de l’expression de gènes, ce qui peut entraîner des maladies comme par exemple des cancers3.
L’impact de ces régions dans le génome est encore floue et l’étude de celles-ci est difficile pour plusieurs raisons. Les caractéristiques des régions non codantes comme leurs tailles ou leurs emplacements dans le code génétique sont très variés. Dans certains cas, l’action des régions non codantes reste locale et se borne à impacter les gènes voisins. Mais dans d’autres cas, ils peuvent cibler des gènes très éloignés4.
En cela, il est difficile d’examiner l’intégralité du génome et d’identifier simplement les parties ayant une réelle influence dans l’apparition de maladies génétiques. Pour y arriver, il est nécessaire d’automatiser cette analyse par l’emploi d’algorithmes. Dans ce contexte, l’IA est utile, car elle peut d’une part, traiter le vaste volume de données que représente l’ADN. Et d’autre part, l’IA est en capacité de distinguer des motifs parfois imperceptibles issues des régions non codantes qui peuvent causer, à terme, des maladies génétiques.
Applications et limites de l’IA
Pour Pierre Tambourin, ancien directeur du Génopole, les possibilités qu’offre l’IA sont importantes pour analyser le rapport entre l’hérédité et l’apparition de maladies génétiques. Ces apports pourraient aider plusieurs domaines scientifiques, notamment celui de la paléo pathologie. Ce champ d’études examine entre autres, les évolutions dégénératives issues des bactéries observées chez les anciennes populations et qui se retrouvent encore aujourd’hui chez certains individus.
Par exemple, une équipe de chercheurs de l’université Paris-Saclay, utilisent un réseau de neurones pour retracer « l’histoire démographique » des populations bactériennes. Pour cela le réseau de neurones s’appuie sur un échantillon regroupant les différences génétiques, qui peuvent exister entre les membres d’une population5.
Si nous retrouvons certaines similarités entre deux populations on peut déterminer que des bactéries ont pu être diffusées de l’une à l’autre. Cela peut être dû au fait des différentes migrations ou colonisations qui ont pu avoir lieu. De cette manière, nous serions potentiellement à même de comprendre davantage la génétique des populations humaines à partir de l’histoire des migrations des peuples et des sélections naturelles successives.
En étudiant les évolutions des maladies génétiques à travers l’Histoire, il serait possible d’en dégager des signes avant-coureurs. L’emploi d’algorithmes permettrait de prédire les dispositions de certaines personnes à développer ces maladies. Tout l’enjeu de l’application de l’IA dans l’analyse de l’ADN, est alors de perfectionner et d’automatiser ces méthodes de prédiction de maladies génétiques. Néanmoins, à mesure que les technologies se développent, des défis nouveaux apparaissent également.
En effet, des problèmes liés au séquençage des génomes peuvent survenir, par exemple, à cause, de la mauvaise qualité de l’échantillon. Cela peut être dû à son ancienneté, mais aussi du fait de possibles erreurs de séquençage. Les algorithmes d’IA devront donc prendre en compte des échantillons hétéroclites comprenant des génomes de diverses qualités.
Enfin, l’apparition de maladies génétiques n’est pas uniquement liée à des traits génétiques héréditaires. Par exemple, les caractères phénotypiques d’un individu sont le résultat de l’interaction complexe entre des facteurs génétiques héréditaires et l’exposition à un environnement particulier. Ces caractères mais également le comportement des individus sont significatifs dans l’augmentation des risques de maladies6.
En cela, prédire la pathologie d’un individu en prenant seulement en compte les risques génétiques héréditaires n’est pas suffisant. Il faudra alors être en mesure de préciser quels facteurs l’IA doit prendre en compte dans son analyse afin de perfectionner ses prédictions.
Conclusion
L’emploi de l’IA correspond à une prochaine étape dans l’avancé des méthodes d’analyse du génome. Cette dernière constitue un outil intéressant pour l’étude de l’évolution de notre ADN et du caractère héréditaire de certaines maladies génétiques. À terme, l’IA offrirait la possibilité d’étudier les prédispositions de populations à certaines maladies génétiques.
Toutefois, cette méthode a encore besoin de se perfectionner notamment pour être capable de prendre en compte à la fois des critères génétiques et non génétiques dans son analyse.
Sources
- The language of proteins: NLP, machine learning & protein sequences – ScienceDirect ↩︎
- Quand les algorithmes font parler l’ADN | larecherche.fr ↩︎
- Predicting cancer type from tumour DNA signatures | Genome Medicine | Full Text ↩︎
- Rôle des longs ARN non codants dans le développement normal et pathologique | médecine/sciences ↩︎
- Génomique et IA : les liaisons fructueuses ↩︎
- Grand Challenges for Artificial Intelligence in Molecular Medicine ↩︎