Google Deepmind vient de lever le voile sur une nouvelle version d’AlphaFold, leur modèle d’apprentissage machine transformationnel qui permet de prédire la forme et le comportement des protéines. AlphaFold 3 n’est pas seulement plus précise, elle prédit également les interactions avec d’autres biomolécules, la rendant ainsi un outil de recherche beaucoup plus polyvalent. De plus, l’entreprise met à disposition une version limitée du modèle gratuitement en ligne. Depuis le lancement de la première version d’AlphaFold en 2018, le modèle est resté la méthode de prédiction de la structure des protéines à partir de la séquence des acides aminés qui les compose. Bien que cela puisse sembler une tâche plutôt restreinte, c’est essentiel pour presque toute la biologie de comprendre les protéines, qui accomplissent une multitude de tâches dans nos corps, au niveau moléculaire.
Au cours des dernières années, des techniques de modélisation informatique comme AlphaFold et RoseTTaFold ont remplacé les méthodes coûteuses basées sur des laboratoires, accélérant le travail de milliers de chercheurs dans autant de domaines. Mais la technologie est encore très largement en cours de développement, avec chaque modèle n’étant “qu’une étape du chemin”, comme le soulignait le fondateur de Deepmind, Demis Hassabis, lors d’une conférence de presse sur le nouveau système. L’entreprise avait annoncé la sortie de cette nouvelle version à la fin de l’année dernière, mais c’est aujourd’hui qu’elle fait officiellement ses débuts.
“La biologie est un système dynamique, et il faut comprendre comment les propriétés de la biologie émergent à travers les interactions entre différentes molécules dans la cellule. Et vous pouvez considérer AlphaFold 3 comme notre premier grand pas vers cela”, a déclaré Hassabis.
Je laisserai les blogs scientifiques rentrer dans le détail de la façon dont le nouveau modèle améliore les résultats, mais il convient de dire ici qu’une série d’améliorations et de techniques de modélisation ont rendu AlphaFold 3 non seulement plus précis, mais également plus largement applicable. L’une des limites de la modélisation des protéines est que même si vous savez comment une séquence d’acides aminés va se former, cela ne signifie pas nécessairement que vous savez à quelles autres molécules elle va se lier, et comment. Et si vous voulez réellement faire quelque chose de ces molécules, ce que la plupart des personnes veulent, vous deviez le découvrir par des modélisations et des tests plus laborieux.
AlphaFold 3 permet de simuler plusieurs molécules à la fois – par exemple, un brin d’ADN, des molécules liant l’ADN et peut-être quelques ions pour épicier les choses. Voilà ce que vous obtenez pour une telle combinaison spécifique, avec les rubans d’ADN qui montent au milieu, les protéines qui se greffent sur le côté, et je pense que ce sont les ions qui sont nichés au milieu comme de petits œufs. Bien sûr, ce n’est pas une découverte scientifique en soi. Mais même pour découvrir qu’une protéine expérimentale se lierait du tout, ou de cette façon, ou se contorsionnerait à cette forme, était généralement l’œuvre de plusieurs jours au minimum, ou peut-être de plusieurs semaines à plusieurs mois.
Pendant qu’il est difficile de trop insister sur l’excitation dans ce domaine au cours des dernières années, les chercheurs ont été largement entravés par le manque de modélisation des interactions (dont la nouvelle version propose une forme) et la difficulté à déployer le modèle. Ce deuxième problème est peut-être le plus important des deux, car tandis que les nouvelles techniques de modélisation étaient “ouvertes” en un sens, elles ne sont pas nécessairement simples à déployer et à exécuter.