Retour aux articles
15 MIN READ

AlphaGenome : le modèle fondationnel génomique révolutionnaire de DeepMind pour 1 million de paires de bases

By Learnia AI Research Team

AlphaGenome : le modèle fondationnel génomique révolutionnaire de DeepMind

En mai 2025, Google DeepMind a publié l'une des avancées les plus significatives en génomique computationnelle : AlphaGenome, un modèle fondationnel capable de traiter 1 million de paires de bases d'ADN à résolution nucléotidique. Cette percée permet une précision sans précédent dans la prédiction de l'expression génique, de l'accessibilité de la chromatine, de la structure 3D du génome et des effets des variants génétiques.

Pourquoi c'est important pour l'IA et la biologie

Le génome humain contient environ 3 milliards de paires de bases, mais seulement 1 à 2 % codent pour des protéines. Les 98 % restants — autrefois appelés « ADN poubelle » — contiennent des éléments régulateurs qui contrôlent quand, où et comment les gènes sont exprimés. Comprendre ces régions non codantes est crucial pour :

  • La médecine de précision : identifier les variants pathogènes en dehors des gènes codant pour des protéines
  • La découverte de médicaments : trouver de nouvelles cibles thérapeutiques dans les régions régulatrices
  • La thérapie génique : concevoir des stratégies optimales d'édition génique
  • La compréhension de l'évolution : décoder comment les changements régulateurs entraînent les différences entre espèces

Les modèles précédents comme Enformer ne pouvaient voir que 200 000 paires de bases à une résolution de 128 pb — comme lire un livre où chaque groupe de 128 lettres est flou. AlphaGenome lit 1 million de paires de bases avec chaque lettre individuelle nette et claire.

Innovation architecturale : l'encodeur-décodeur U-Net

AlphaGenome utilise une architecture U-Net — un design emprunté à la segmentation d'images qui excelle dans les tâches nécessitant à la fois un contexte global et une précision locale.

Fonctionnement de l'architecture

Performances benchmark : état de l'art sur toute la ligne

AlphaGenome ne se contente pas d'améliorer marginalement les modèles précédents — il établit de nouveaux records sur presque tous les benchmarks.

Ce que signifient ces chiffres

Étude de cas : l'oncogène TAL1

L'article démontre le potentiel clinique d'AlphaGenome à travers une étude de cas convaincante : une mutation somatique qui cause une leucémie aiguë lymphoblastique T (LAL-T) en créant un nouveau site de liaison pour l'oncogène TAL1.

Stratégie d'entraînement : apprentissage en deux phases

L'entraînement d'AlphaGenome implique deux phases distinctes, chacune contribuant à des capacités différentes.

Phase 1 : pré-entraînement sur les données expérimentales

Le modèle est d'abord entraîné sur un vaste corpus de données génomiques expérimentales :

  • 5 930 pistes sur le génome humain
  • 1 128 pistes sur le génome de la souris
  • Données provenant de 791 types cellulaires humains
  • Multiples modalités expérimentales (CAGE, ATAC, ChIP-seq, Hi-C)

Phase 2 : distillation pour les effets des variants

Efficacité computationnelle

Malgré le traitement de 5× plus d'entrées qu'Enformer, AlphaGenome maintient des temps d'inférence pratiques.

Limites et perspectives

Malgré ses capacités impressionnantes, AlphaGenome présente des limites importantes :

  1. Plafond de contexte : 1 Mpb ne peut toujours pas capturer les interactions à ultra-longue distance (certains enhancers agissent sur plus de 2 Mpb)

  2. Biais des données d'entraînement : les modèles apprennent les motifs présents dans les types cellulaires existants ; les états cellulaires rares peuvent être sous-représentés

  3. Prédictions statiques : le modèle prédit les signaux à l'état stable, pas les réponses dynamiques aux perturbations

  4. Transfert inter-espèces : bien qu'entraîné sur l'humain et la souris, la généralisation à d'autres espèces est limitée

  5. Interprétabilité : malgré la visualisation de l'attention, le modèle reste largement une boîte noire

Testez vos connaissances

Conclusion : une nouvelle ère pour la génomique computationnelle

AlphaGenome représente un saut qualitatif dans notre capacité à lire le génome humain de manière computationnelle. En traitant des contextes d'un million de paires de bases à résolution nucléotidique, il capture toute la complexité de la régulation génique — des motifs de séquence locaux aux interactions 3D à l'échelle chromosomique.

Pour les chercheurs, cela ouvre de nouvelles possibilités pour l'interprétation des variants, la découverte de cibles thérapeutiques et la compréhension du génome non codant. Pour la communauté IA, cela démontre que les innovations architecturales (comme l'encodeur-décodeur U-Net) combinées à un apprentissage multitâche massif peuvent débloquer des capacités qui semblaient impossibles il y a seulement quelques années.

La révolution génomique s'accélère, et des modèles comme AlphaGenome nous aident à décoder le manuel d'instructions de la vie.


Envie de découvrir comment l'IA transforme la découverte scientifique ? Consultez nos modules sur les Agents IA et le Raisonnement avancé pour comprendre les techniques qui alimentent des outils comme AlphaGenome.


Cet article est basé sur « AlphaGenome: A genome foundation model for molecular biology » publié dans Nature (2025) par Google DeepMind. Toutes les métriques de performance et les détails architecturaux sont issus de la publication originale.

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Qu'est-ce qu'AlphaGenome ?+

AlphaGenome est le modèle fondationnel génomique de Google DeepMind qui peut traiter des séquences d'ADN jusqu'à 1 million de paires de bases à résolution nucléotidique (1pb), prédisant l'expression des gènes, les marques épigénétiques, la structure 3D de la chromatine et les effets des variants avec une précision à l'état de l'art.

En quoi AlphaGenome diffère-t-il des modèles génomiques précédents ?+

AlphaGenome traite des séquences 10 fois plus longues que les modèles précédents (1 Mpb vs 200 kpb), fonctionne à une véritable résolution nucléotidique plutôt que par bins de 128 pb, et unifie plusieurs tâches de prédiction génomique dans un seul modèle.

Sur quels benchmarks AlphaGenome atteint-il l'état de l'art ?+

AlphaGenome atteint l'état de l'art sur 22 des 24 pistes de prédiction d'éléments fonctionnels et 25 des 26 benchmarks d'effet de variants, avec des améliorations majeures en expression génique (+14,7 %), structure 3D (+42,3 %) et prédiction eQTL (+25,5 %).

Quelle architecture AlphaGenome utilise-t-il ?+

AlphaGenome utilise une architecture U-Net encodeur-décodeur avec des blocs transformer, traitant 1 million de nucléotides d'entrée via un sous-échantillonnage progressif vers 4 096 tokens au goulot d'étranglement, puis un sur-échantillonnage vers la résolution nucléotidique.

Comment AlphaGenome peut-il aider la recherche sur les maladies ?+

AlphaGenome peut prédire l'impact fonctionnel des variants génétiques, identifier les mutations pathogènes dans les régions non codantes et aider à prioriser les cibles thérapeutiques. L'article le démontre avec l'étude de cas de l'oncogène TAL1 dans la leucémie à cellules T.