Ouvrir la boîte noire pour découvrir les règles du code de régulation du génome – Technoguide

Des chercheurs du Stowers Institute for Medical Research, en collaboration avec des collègues de l’Université de Stanford et de l’Université technique de Munich, ont développé une intelligence artificielle (IA) explicable avancée dans le cadre d’un tour de force technique pour déchiffrer les instructions réglementaires codées dans l’ADN. Dans un rapport publié en ligne le 18 février 2021 dans Nature Genetics, l’équipe a découvert qu’un réseau de neurones formé sur des cartes à haute résolution des interactions protéine-ADN peut découvrir des modèles de séquence d’ADN subtils dans tout le génome et fournir une compréhension plus approfondie de la façon dont ces séquences sont organisés pour réguler les gènes.

Les réseaux de neurones sont de puissants modèles d’IA qui peuvent apprendre des modèles complexes à partir de divers types de données tels que des images, des signaux vocaux ou du texte pour prédire les propriétés associées avec une précision impressionnante. Cependant, beaucoup considèrent ces modèles comme ininterprétables car les modèles prédictifs appris sont difficiles à extraire du modèle. Cette nature de boîte noire a entravé la large application des réseaux de neurones à la biologie, où l’interprétation des modèles prédictifs est primordiale.

L’un des gros problèmes non résolus en biologie est le deuxième code du génome – son code réglementaire. Les bases d’ADN (généralement représentées par les lettres A, C, G et T) codent non seulement pour les instructions sur la façon de construire des protéines, mais aussi quand et où fabriquer ces protéines dans un organisme. Le code de régulation est lu par des protéines appelées facteurs de transcription qui se lient à de courts segments d’ADN appelés motifs. Cependant, la manière dont des combinaisons et des arrangements particuliers de motifs spécifient l’activité de régulation est un problème extrêmement complexe qui a été difficile à cerner.

Maintenant, une équipe interdisciplinaire de biologistes et de chercheurs en informatique dirigée par la chercheuse Stowers Julia Zeitlinger, PhD, et Anshul Kundaje, PhD, de l’Université de Stanford, ont conçu un réseau neuronal – appelé BPNet pour Base Pair Network – qui peut être interprété comme révélant code de régulation en prédisant la liaison du facteur de transcription à partir de séquences d’ADN avec une précision sans précédent. L’essentiel était de réaliser des expériences de liaison entre le facteur de transcription et l’ADN et la modélisation informatique à la résolution la plus élevée possible, jusqu’au niveau des bases d’ADN individuelles. Cette résolution accrue leur a permis de développer de nouveaux outils d’interprétation pour extraire les modèles de séquences élémentaires clés tels que les motifs de liaison aux facteurs de transcription et les règles combinatoires par lesquelles les motifs fonctionnent ensemble comme un code de régulation.

«C’était extrêmement satisfaisant», dit Zeitlinger, «car les résultats s’accordent parfaitement avec les résultats expérimentaux existants et ont également révélé de nouvelles idées qui nous ont surpris.

Par exemple, les modèles de réseaux neuronaux ont permis aux chercheurs de découvrir une règle frappante qui régit la liaison du facteur de transcription bien étudié appelé Nanog. Ils ont découvert que Nanog se lie de manière coopérative à l’ADN lorsque des multiples de son motif sont présents de manière périodique de sorte qu’ils apparaissent du même côté de l’hélice d’ADN en spirale.

«Il y a eu une longue traînée de preuves expérimentales qu’une telle périodicité de motif existe parfois dans le code de réglementation», dit Zeitlinger. “Cependant, les circonstances exactes étaient insaisissables, et Nanog n’avait pas été un suspect. Découvrir que Nanog a un tel modèle, et voir des détails supplémentaires sur ses interactions, était surprenant parce que nous n’avons pas spécifiquement recherché ce modèle.”

«C’est le principal avantage de l’utilisation de réseaux de neurones pour cette tâche», déclare? Iga Avsec, PhD, premier auteur de l’article. Avsec et Kundaje ont créé la première version du modèle lorsque Avsec a visité Stanford pendant ses études de doctorat dans le laboratoire de Julien Gagneur, PhD, à l’Université technique de Munich, en Allemagne.

«Les approches bioinformatiques plus traditionnelles modélisent les données en utilisant des règles rigides prédéfinies basées sur les connaissances existantes. Cependant, la biologie est extrêmement riche et compliquée», déclare Avsec. “En utilisant des réseaux de neurones, nous pouvons former des modèles beaucoup plus flexibles et nuancés qui apprennent des modèles complexes à partir de zéro sans connaissances préalables, permettant ainsi de nouvelles découvertes.”

L’architecture réseau de BPNet est similaire à celle des réseaux de neurones utilisés pour la reconnaissance faciale dans les images. Par exemple, le réseau neuronal détecte d’abord les bords dans les pixels, puis apprend comment les bords forment des éléments faciaux comme l’œil, le nez ou la bouche, et enfin détecte comment les éléments faciaux forment ensemble un visage. Au lieu d’apprendre à partir des pixels, BPNet apprend à partir de la séquence d’ADN brute et apprend à détecter les motifs de séquence et éventuellement les règles d’ordre supérieur par lesquelles les éléments prédisent les données de liaison de résolution de base.

Une fois que le modèle est formé pour être très précis, les modèles appris sont extraits avec des outils d’interprétation. Le signal de sortie est retracé jusqu’aux séquences d’entrée pour révéler les motifs de séquence. La dernière étape consiste à utiliser le modèle comme un oracle et à l’interroger systématiquement avec des conceptions de séquences d’ADN spécifiques, similaires à ce que l’on ferait pour tester des hypothèses expérimentalement, pour révéler les règles par lesquelles les motifs de séquence fonctionnent de manière combinatoire.

«La beauté est que le modèle peut prédire beaucoup plus de conceptions de séquences que nous pourrions tester expérimentalement», déclare Zeitlinger. “De plus, en prédisant le résultat des perturbations expérimentales, nous pouvons identifier les expériences les plus informatives pour valider le modèle.” En effet, à l’aide des techniques d’édition de gènes CRISPR, les chercheurs ont confirmé expérimentalement que les prédictions du modèle étaient très précises.

Étant donné que l’approche est flexible et applicable à une variété de types de données et de types de cellules différents, elle promet de conduire à une compréhension de plus en plus rapide du code de réglementation et de l’impact de la variation génétique sur la régulation des gènes. Le Zeitlinger Lab et le Kundaje Lab utilisent déjà BPNet pour identifier de manière fiable des motifs de liaison pour d’autres types de cellules, associer des motifs à des paramètres biophysiques et apprendre d’autres caractéristiques structurelles du génome telles que celles associées à l’empaquetage de l’ADN. Pour permettre à d’autres scientifiques d’utiliser BPNet et de l’adapter à leurs propres besoins, les chercheurs ont rendu l’ensemble du cadre logiciel disponible avec de la documentation et des tutoriels.

.

Lire plus

A propos Technoguide

Voir aussi

Changer le régime alimentaire du ver à soie pour filer une soie plus forte – Technoguide

Des chercheurs de l’Université de Tohoku ont produit naturellement de la soie synthétisée en nanofibres …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Défiler vers le haut