Publications

L’ADN décrypté grâce à l’IA

09 juin 2022

Le séquençage de l’ADN est aujourd'hui une technique bien maîtrisée par les laboratoires de biologie. Cependant, l'ADN cache encore de nombreux secrets que l'IA pourrait permettre de dévoiler.

1 Un code génétique particulièrement complexe

L'ADN contient toute l'information génétique d'un être vivant, en passant par la couleur des cheveux, des yeux, de la peau ainsi que des risques de prédisposition à certaines maladies. Ces traits héréditaires sont transmis d'une génération à une autre par l'intermédiaire de gènes qui se dénombrent à 25.000 en moyenne chez l’humain.

L'ADN peut être modélisée comme une phrase où une lettre est assignée à chaque nucléotide (A, C, G, T) que le traitement automatique du langage naturel (NLP) peut analyser {1}.

Toutefois, à la différence d'un texte classique, le génome humain est composé de plus de six milliards de lettres {2}. Dans ce long texte, les gènes représentent des « mots » intéressants, car ce sont eux qui codent des effets sur les individus.

 

Cependant, les récentes recherches tendent à démontrer le rôle inattendu des régions non codantes du génome dans l'émergence de maladies génétiques héréditaires. Les régions non codantes forment la majeure partie des séquences du génome (environ 98 % du génome) sans pour autant être traduites en protéines. Les généticiens pensaient, à tort, que ces dernières n'étaient pas porteuses d'informations utiles car n'étant pas traduites en protéines..

Mais il s'avère que celles-ci pourraient être la principale cause de l'altération de l'expression de gènes, ce qui peut entraîner des maladies comme par exemple des cancers {3}.

L'impact de ces régions dans le génome est encore floue et l'étude de celles-ci est difficile pour plusieurs raisons. Les caractéristiques des régions non codantes comme leurs tailles ou leurs emplacements dans le code génétique sont très variées.

 
 

Dans certains cas, l’action des régions non codantes reste locale et se borne à impacter les gènes voisins. Mais dans d’autres cas, ces régions peuvent cibler des gènes très éloignés {4}.

 

En cela, il est difficile d’examiner l’intégralité du génome et d’identifier simplement les parties ayant une réelle influence dans l’apparition de maladies génétiques. Pour y arriver, il est nécessaire d’automatiser cette analyse par l'emploi d'algorithmes.

Dans ce contexte, l’IA est utile, car elle peut d’une part, traiter le vaste volume de données que représente l’ADN. Et d’autre part, l’IA est en capacité de distinguer des motifs parfois imperceptibles issus des régions non codantes qui peuvent causer, à terme, des maladies génétiques.

2 Applications et limites de l’IA

Pour Pierre Tambourin, ancien directeur du Génopole, les possibilités qu'offre l'IA sont importantes pour analyser le rapport entre l’hérédité et l’apparition de maladies génétiques. Ces apports pourraient aider plusieurs domaines scientifiques, notamment celui de la paléo pathologie. Ce champ d’études examine entre autres, les évolutions dégénératives issues des bactéries observées chez les anciennes populations et qui se retrouvent encore aujourd'hui chez certains individus.

Par exemple, une équipe de chercheurs de l'université Paris-Saclay, utilise un réseau de neurones pour retracer « l'histoire démographique » des populations bactériennes. Pour cela le réseau de neurones s’appuie sur un échantillon regroupant les différences génétiques, qui peuvent exister entre les membres d'une population {5}.

Si nous retrouvons certaines similarités entre deux populations on peut déterminer que des bactéries ont pu être diffusées de l’une à l’autre. Cela peut être dû au fait des différentes migrations ou colonisations qui ont pu avoir lieu. De cette manière, nous serions potentiellement à même de comprendre davantage la génétique des populations humaines à partir de l'histoire des migrations des peuples et des sélections naturelles successives.

 

En étudiant les évolutions des maladies génétiques à travers l’Histoire, il serait possible d’en dégager des signes avant-coureurs. L’emploi d’algorithmes permettrait de prédire les dispositions de certaines personnes à développer ces maladies. Tout l’enjeu de l’application de l’IA dans l’analyse de l’ADN, est alors de perfectionner et d’automatiser ces méthodes de prédiction de maladies génétiques. Néanmoins, à mesure que les technologies se développent, des défis nouveaux apparaissent également.

 

En effet, des problèmes liés au séquençage des génomes peuvent survenir, par exemple, à cause, de la mauvaise qualité de l’échantillon. Cela peut être dû à son ancienneté, mais aussi du fait de possibles erreurs de séquençage. Les algorithmes d’IA devront donc prendre en compte des échantillons hétéroclites comprenant des génomes de diverses qualités.

Enfin, l’apparition de maladies génétiques n’est pas uniquement liée à des traits génétiques héréditaires. Par exemple, les caractères phénotypiques d’un individu sont le résultat de l’interaction complexe entre des facteurs génétiques héréditaires et l’exposition à un environnement particulier. Ces caractères mais également le comportement des individus sont significatifs dans l’augmentation des risques de maladies {6}.

En cela, prédire la pathologie d’un individu en prenant seulement en compte les risques génétiques héréditaires n’est pas suffisant. Il faudra alors être en mesure de préciser quels facteurs l’IA doit prendre en compte dans son analyse afin de perfectionner ses prédictions.

Conclusion

L’emploi de l’IA correspond à une prochaine étape dans l’avancé des méthodes d’analyse du génome. Cette dernière constitue un outil intéressant pour l’étude de l’évolution de notre ADN et du caractère héréditaire de certaines maladies génétiques. À terme, l’IA offrirait la possibilité d’étudier les prédispositions de populations à certaines maladies génétiques.

Toutefois, cette méthode a encore besoin de se perfectionner notamment pour être capable de prendre en compte à la fois des critères génétiques et non génétiques dans son analyse.

 

 

 

Retrouvez tous nos articles sur : https://numalis.com/publications.php

Auteurs

Écrit par Arnault Ioualalen & Quentin Guisti

 

Crédits images :

 

Image Bannière : TheDigitalArtist (Pixabay)

 

Image texte 1 : ANIRUDH (unsplash)

 

Image texte 2 : CDC (unsplash)

 

Numalis

We are a French innovative software editor company providing tools and services to make your neural networks reliable and explainable.

Contact us

Follow us