Retour aux articles
9 MIN READ

Les modèles de diffusion : comment l'IA crée des images à

By Dorian Laurenceau

📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.

Les modèles de diffusion : comment l'IA crée des images à partir de bruit

DALL-E, Midjourney, Stable Diffusion, ils créent tous des images à partir de texte grâce à une technique appelée diffusion. Le concept est d'une élégante contre-intuitivité : partir de bruit pur et révéler progressivement une image.


<!-- manual-insight -->

Pourquoi le cadrage « partir de bruit » sous-vend ce que la diffusion fait vraiment

L'intro habituelle aux modèles de diffusion, « partir de bruit, débruiter progressivement », est exacte mais cache le saut conceptuel qui a fait marcher ces modèles. Les threads sur r/MachineLearning qui reviennent sur le papier DDPM et la ligne de travail sur le score-based generative modeling soulignent régulièrement que le cadrage bruit est la bonne intuition seulement une fois qu'on a compris l'objectif d'apprentissage.

L'insight qui fait que la diffusion clique :

  • Entraîner un modèle à débruiter, c'est vraiment l'entraîner à estimer le gradient de la distribution de données. Cette connexion, remontée dans le score-based generative modeling de Song et al., est pourquoi la diffusion marche si bien : au lieu d'apprendre la distribution directement (ce que les GANs ont tenté avec l'entraînement adversarial et sont devenus fragiles), vous apprenez à faire de petits pas dans la direction de données plus-réalistes. À n'importe quel niveau de bruit, le modèle n'a besoin que de faire une étape de débruitage locale correctement, un problème d'apprentissage plus facile que de générer une image complète d'un coup.
  • Le processus itératif est ce qui permet le conditionnement haute qualité. À chaque étape, le modèle peut incorporer le prompt textuel comme guidage sur « quelle direction est plus réaliste ». Ce mécanisme de classifier-free guidance (Ho et al.) est pourquoi les modèles de diffusion sont bien plus contrôlables que les modèles d'images autorégressifs ne se sont avérés l'être.
  • La diffusion latente (Stable Diffusion, Flux) est la percée pratique. Travailler dans l'espace latent du VAE plutôt que dans l'espace pixel réduit le coût de compute d'environ 50x avec une perte de qualité minimale. C'est le choix architectural qui a mis la diffusion sur des GPUs grand public et permis tout l'écosystème open-source.

Ce qui est plus dur que les tutoriels ne l'admettent :

  • La qualité d'entraînement est énormément sensible au filtrage des données et aux noise schedules. La différence entre un modèle open médiocre et Midjourney n'est pas l'architecture ; c'est des données curées et du tuning soigneux. Les threads Reddit de trainers de LoRAs confirment ça, les outils sont open, l'art est dans les données.
  • Le narratif « raffinement itératif » s'étend parfois en claims trompeurs sur l'interprétabilité. Les modèles de diffusion ne sont pas signifiamment plus interprétables que les autres réseaux neuronaux. Chaque étape est une fonction apprise sans handle conceptuel propre.

La compréhension à terre : la diffusion est un framework génératif élégant dont le succès vient de la combinaison du denoising score matching, de l'entraînement en espace latent et de datasets curés massifs. Chacun de ceux-là fait un vrai travail. Aucun d'eux seul n'aurait produit DALL-E.


Learn AI — From Prompts to Agents

10 Free Interactive Guides120+ Hands-On Exercises100% Free

Que sont les modèles de diffusion ?

Les modèles de diffusion génèrent des images en apprenant à inverser un processus d'ajout de bruit. Ils sont entraînés à supprimer le bruit et, en appliquant cette opération de manière répétée sur du bruit aléatoire, ils créent des images cohérentes.

L'idée fondamentale

Entraînement : Apprendre à supprimer le bruit des images
Génération : Partir du bruit, le supprimer étape par étape

C'est comme un sculpteur révélant une statue dans un bloc de marbre —
sauf que le marbre est de la neige aléatoire.

Les deux directions

Processus direct (entraînement)

Prendre une image réelle et ajouter progressivement du bruit jusqu'à la rendre méconnaissable :

Étape 0 :   🖼️ Photo nette d'un chat
Étape 20 :  📷 Légèrement bruitée
Étape 40 :  📺 Assez bruitée
Étape 60 :  📻 Très bruitée
Étape 80 :  ⬜ Presque du bruit
Étape 100 : ▪️▫️▪️ Bruit aléatoire pur

Le modèle observe ce processus.

Processus inverse (génération)

Apprendre à aller en sens inverse, prédire et supprimer le bruit à chaque étape :

Étape 100 : ▪️▫️▪️ Bruit aléatoire pur
Étape 80 :  ⬜ « Je crois qu'il y a quelque chose ici... »
Étape 60 :  📻 « Une forme apparaît... »
Étape 40 :  📺 « On dirait un animal... »
Étape 20 :  📷 « C'est un chat ! »
Étape 0 :   🖼️ Image nette d'un chat

Pourquoi ça fonctionne

Reconnaissance de patterns à grande échelle

Le modèle est entraîné sur des milliards de paires image-texte :

« Un golden retriever sur une plage » + [image]
« Coucher de soleil sur des montagnes » + [image]
« Intérieur de bureau moderne » + [image]
... des milliards d'autres

À chaque niveau de bruit, il apprend :
« Étant donné ce pattern de bruit + ce prompt textuel,
à quoi devrait ressembler la version légèrement moins bruitée ? »

Guidé par le texte

Votre prompt guide la direction du débruitage :

Même bruit de départ + « chat » → révèle un chat
Même bruit de départ + « chien » → révèle un chien

Le texte indique au modèle quels patterns découvrir.

Le processus de génération

Étape par étape

1. Partir de bruit aléatoire (neige pure)
2. Le prompt textuel est encodé en signal de guidage
3. Le modèle prédit : « Quel bruit supprimer pour correspondre à ce prompt ? »
4. Supprimer le bruit prédit
5. Répéter 20 à 50 fois
6. Résultat final : image cohérente

Pourquoi plusieurs étapes ?

Débruitage en une étape : Trop de conjecture, qualité médiocre
Nombreuses étapes : Affinement progressif, meilleurs détails

C'est comme dessiner :
Étape 1 : Formes grossières
Étape 2 : Formes de base
Étape 3 : Détails
Étape 4 : Affinement
Étape 5 : Touches finales

Concepts clés

Espace latent

La diffusion moderne fonctionne dans l'« espace latent », une représentation compressée :

Image : 512×512×3 = 786 432 nombres
Latent : 64×64×4 = 16 384 nombres

~50× plus compact → traitement beaucoup plus rapide

C'est pourquoi on parle de « Latent Diffusion » (utilisé par Stable Diffusion).

CFG (Classifier-Free Guidance)

Contrôle la fidélité du modèle à votre prompt :

CFG = 1 : Interprétation très libre
CFG = 7 : Équilibré (valeur par défaut typique)
CFG = 15 : Adhérence très stricte
CFG = 20+ : Sur-contraint, artefacts

Étapes

Nombre d'itérations de débruitage :

10 étapes : Rapide mais grossier
20-30 étapes : Bon équilibre
50+ étapes : Rendements décroissants

Pourquoi certaines choses échouent

Mains et texte

Problème : Doigts en trop, texte illisible

Pourquoi :
- Les mains apparaissent en positions variées dans l'entraînement
- Pas de « structure de main » cohérente apprise
- Le texte nécessite un placement précis des caractères
- Le modèle voit le texte comme des formes, pas des symboles

Nombres précis

Prompt : « Trois pommes »
Résultat : 2 ou 4 pommes

Pourquoi : Le modèle ne « compte » pas vraiment — il associe
« trois » à des patterns visuels, pas aux mathématiques.

Compositions inhabituelles

Prompt : « Un astronaute chevauchant un cheval sous l'eau »
Résultat : Peut avoir du mal ou sembler irréaliste

Pourquoi : Les données d'entraînement contiennent rarement de telles combinaisons.
Le modèle interpole à partir de ce qu'il connaît.

Modèles de diffusion populaires (2025)

ModèleCréateurPoint fort
DALL-E 3OpenAIGestion du texte, intégration ChatGPT
Imagen 3/4GoogleVitesse, typographie, qualité
Midjourney v6MidjourneyQualité artistique, esthétique
Stable Diffusion 3Stability AIOpen source, personnalisable
FLUXBlack Forest LabsQualité, fine-tunes communautaires

Diffusion vs autres approches

GAN (approche ancienne)

GAN : Deux réseaux en compétition (générateur vs discriminateur)
Avantages : Génération rapide
Inconvénients : Instabilité d'entraînement, effondrement modal

Diffusion : Un seul réseau, débruitage progressif
Avantages : Entraînement stable, sorties diversifiées
Inconvénients : Génération plus lente

Pourquoi la diffusion a gagné

2020 : Les GAN dominaient la génération d'images
2022 : DALL-E 2, Stable Diffusion changent la donne
2025 : La diffusion est le standard

Avantage clé : Plus stable, plus contrôlable, meilleure qualité

La suite ?

Génération plus rapide

Consistency Models : Haute qualité en 1-4 étapes
Distillation : Modèles plus petits, même qualité

Meilleur contrôle

ControlNet : Guidage par pose, contours, profondeur
IP-Adapter : Transfert de style à partir d'images
Inpainting : Édition de régions spécifiques

Vidéo et au-delà

Sora (OpenAI) : Diffusion pour la vidéo
Veo (Google) : Texte-vers-vidéo avec audio
3D : Diffusion émergente pour les modèles 3D

Points clés à retenir

  1. Les modèles de diffusion génèrent en supprimant le bruit de la neige aléatoire
  2. Entraînement : apprendre à débruiter des images à chaque niveau de bruit
  3. Génération : partir du bruit, débruiter étape par étape
  4. Le texte guide les patterns à révéler
  5. Difficultés avec les mains, le texte, le comptage, pas des défauts, juste leur fonctionnement

Prêt à maîtriser la génération d'images par IA ?

Cet article a couvert le quoi et le pourquoi des modèles de diffusion. Mais un prompting d'image efficace nécessite de comprendre les forces et techniques de chaque outil.

Dans notre Module 7, Prompts créatifs et multimodaux, vous apprendrez :

  • Les structures de prompt pour chaque outil majeur
  • Le contrôle du style, de la composition et de l'ambiance
  • Comment contourner les limitations courantes
  • La cohérence de marque dans les images IA
  • La génération vidéo avec Sora et Veo

Explorer le Module 7 : Prompts créatifs

GO DEEPER — FREE GUIDE

Module 7 — Multimodal & Creative Prompting

Generate images and work across text, vision, and audio.

D

Dorian Laurenceau

Full-Stack Developer & Learning Designer

Full-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.

Prompt EngineeringLLMsFull-Stack DevelopmentLearning DesignReact
Published: January 30, 2026Updated: April 24, 2026
Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Que sont les modèles de diffusion ?+

Les modèles de diffusion génèrent des images en apprenant à inverser un processus d'ajout de bruit. Pendant l'entraînement, ils apprennent à supprimer le bruit. Pendant la génération, ils partent de bruit pur et le débruitent progressivement pour obtenir une image cohérente.

Comment les modèles de diffusion créent-ils des images à partir de texte ?+

Les prompts textuels sont encodés en embeddings qui guident le processus de débruitage. À chaque étape, le modèle prédit le bruit conditionné par le texte, orientant l'image pour qu'elle corresponde à votre description.

Quelle est la différence entre DALL-E, Midjourney et Stable Diffusion ?+

Tous utilisent la diffusion, mais diffèrent par leurs données d'entraînement, leur architecture et leur accessibilité. DALL-E est le produit API/ChatGPT d'OpenAI. Midjourney fonctionne via Discord. Stable Diffusion est open source et peut tourner localement.

Pourquoi les modèles de diffusion produisent-ils des images de si haute qualité ?+

Le processus itératif de débruitage permet un contrôle fin à chaque étape. Contrairement aux GAN, les modèles de diffusion ne souffrent pas de l'effondrement modal et peuvent générer des images plus diversifiées et détaillées.