Retour aux articles
7 MIN READ

Les modèles de diffusion : comment l'IA crée des images à partir de bruit

By Learnia Team

Les modèles de diffusion : comment l'IA crée des images à partir de bruit

DALL-E, Midjourney, Stable Diffusion — ils créent tous des images à partir de texte grâce à une technique appelée diffusion. Le concept est d'une élégante contre-intuitivité : partir de bruit pur et révéler progressivement une image.


Que sont les modèles de diffusion ?

Les modèles de diffusion génèrent des images en apprenant à inverser un processus d'ajout de bruit. Ils sont entraînés à supprimer le bruit et, en appliquant cette opération de manière répétée sur du bruit aléatoire, ils créent des images cohérentes.

L'idée fondamentale

Entraînement : Apprendre à supprimer le bruit des images
Génération : Partir du bruit, le supprimer étape par étape

C'est comme un sculpteur révélant une statue dans un bloc de marbre —
sauf que le marbre est de la neige aléatoire.

Learn AI — From Prompts to Agents

10 Free Interactive Guides120+ Hands-On Exercises100% Free

Les deux directions

Processus direct (entraînement)

Prendre une image réelle et ajouter progressivement du bruit jusqu'à la rendre méconnaissable :

Étape 0 :   🖼️ Photo nette d'un chat
Étape 20 :  📷 Légèrement bruitée
Étape 40 :  📺 Assez bruitée
Étape 60 :  📻 Très bruitée
Étape 80 :  ⬜ Presque du bruit
Étape 100 : ▪️▫️▪️ Bruit aléatoire pur

Le modèle observe ce processus.

Processus inverse (génération)

Apprendre à aller en sens inverse — prédire et supprimer le bruit à chaque étape :

Étape 100 : ▪️▫️▪️ Bruit aléatoire pur
Étape 80 :  ⬜ « Je crois qu'il y a quelque chose ici... »
Étape 60 :  📻 « Une forme apparaît... »
Étape 40 :  📺 « On dirait un animal... »
Étape 20 :  📷 « C'est un chat ! »
Étape 0 :   🖼️ Image nette d'un chat

Pourquoi ça fonctionne

Reconnaissance de patterns à grande échelle

Le modèle est entraîné sur des milliards de paires image-texte :

« Un golden retriever sur une plage » + [image]
« Coucher de soleil sur des montagnes » + [image]
« Intérieur de bureau moderne » + [image]
... des milliards d'autres

À chaque niveau de bruit, il apprend :
« Étant donné ce pattern de bruit + ce prompt textuel,
à quoi devrait ressembler la version légèrement moins bruitée ? »

Guidé par le texte

Votre prompt guide la direction du débruitage :

Même bruit de départ + « chat » → révèle un chat
Même bruit de départ + « chien » → révèle un chien

Le texte indique au modèle quels patterns découvrir.

Le processus de génération

Étape par étape

1. Partir de bruit aléatoire (neige pure)
2. Le prompt textuel est encodé en signal de guidage
3. Le modèle prédit : « Quel bruit supprimer pour correspondre à ce prompt ? »
4. Supprimer le bruit prédit
5. Répéter 20 à 50 fois
6. Résultat final : image cohérente

Pourquoi plusieurs étapes ?

Débruitage en une étape : Trop de conjecture, qualité médiocre
Nombreuses étapes : Affinement progressif, meilleurs détails

C'est comme dessiner :
Étape 1 : Formes grossières
Étape 2 : Formes de base
Étape 3 : Détails
Étape 4 : Affinement
Étape 5 : Touches finales

Concepts clés

Espace latent

La diffusion moderne fonctionne dans l'« espace latent » — une représentation compressée :

Image : 512×512×3 = 786 432 nombres
Latent : 64×64×4 = 16 384 nombres

~50× plus compact → traitement beaucoup plus rapide

C'est pourquoi on parle de « Latent Diffusion » (utilisé par Stable Diffusion).

CFG (Classifier-Free Guidance)

Contrôle la fidélité du modèle à votre prompt :

CFG = 1 : Interprétation très libre
CFG = 7 : Équilibré (valeur par défaut typique)
CFG = 15 : Adhérence très stricte
CFG = 20+ : Sur-contraint, artefacts

Étapes

Nombre d'itérations de débruitage :

10 étapes : Rapide mais grossier
20-30 étapes : Bon équilibre
50+ étapes : Rendements décroissants

Pourquoi certaines choses échouent

Mains et texte

Problème : Doigts en trop, texte illisible

Pourquoi :
- Les mains apparaissent en positions variées dans l'entraînement
- Pas de « structure de main » cohérente apprise
- Le texte nécessite un placement précis des caractères
- Le modèle voit le texte comme des formes, pas des symboles

Nombres précis

Prompt : « Trois pommes »
Résultat : 2 ou 4 pommes

Pourquoi : Le modèle ne « compte » pas vraiment — il associe
« trois » à des patterns visuels, pas aux mathématiques.

Compositions inhabituelles

Prompt : « Un astronaute chevauchant un cheval sous l'eau »
Résultat : Peut avoir du mal ou sembler irréaliste

Pourquoi : Les données d'entraînement contiennent rarement de telles combinaisons.
Le modèle interpole à partir de ce qu'il connaît.

Modèles de diffusion populaires (2025)

ModèleCréateurPoint fort
DALL-E 3OpenAIGestion du texte, intégration ChatGPT
Imagen 3/4GoogleVitesse, typographie, qualité
Midjourney v6MidjourneyQualité artistique, esthétique
Stable Diffusion 3Stability AIOpen source, personnalisable
FLUXBlack Forest LabsQualité, fine-tunes communautaires

Diffusion vs autres approches

GAN (approche ancienne)

GAN : Deux réseaux en compétition (générateur vs discriminateur)
Avantages : Génération rapide
Inconvénients : Instabilité d'entraînement, effondrement modal

Diffusion : Un seul réseau, débruitage progressif
Avantages : Entraînement stable, sorties diversifiées
Inconvénients : Génération plus lente

Pourquoi la diffusion a gagné

2020 : Les GAN dominaient la génération d'images
2022 : DALL-E 2, Stable Diffusion changent la donne
2025 : La diffusion est le standard

Avantage clé : Plus stable, plus contrôlable, meilleure qualité

La suite ?

Génération plus rapide

Consistency Models : Haute qualité en 1-4 étapes
Distillation : Modèles plus petits, même qualité

Meilleur contrôle

ControlNet : Guidage par pose, contours, profondeur
IP-Adapter : Transfert de style à partir d'images
Inpainting : Édition de régions spécifiques

Vidéo et au-delà

Sora (OpenAI) : Diffusion pour la vidéo
Veo (Google) : Texte-vers-vidéo avec audio
3D : Diffusion émergente pour les modèles 3D

Points clés à retenir

  1. Les modèles de diffusion génèrent en supprimant le bruit de la neige aléatoire
  2. Entraînement : apprendre à débruiter des images à chaque niveau de bruit
  3. Génération : partir du bruit, débruiter étape par étape
  4. Le texte guide les patterns à révéler
  5. Difficultés avec les mains, le texte, le comptage — pas des défauts, juste leur fonctionnement

Prêt à maîtriser la génération d'images par IA ?

Cet article a couvert le quoi et le pourquoi des modèles de diffusion. Mais un prompting d'image efficace nécessite de comprendre les forces et techniques de chaque outil.

Dans notre Module 7 — Prompts créatifs et multimodaux, vous apprendrez :

  • Les structures de prompt pour chaque outil majeur
  • Le contrôle du style, de la composition et de l'ambiance
  • Comment contourner les limitations courantes
  • La cohérence de marque dans les images IA
  • La génération vidéo avec Sora et Veo

Explorer le Module 7 : Prompts créatifs

GO DEEPER — FREE GUIDE

Module 7 — Multimodal & Creative Prompting

Generate images and work across text, vision, and audio.

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Que sont les modèles de diffusion ?+

Les modèles de diffusion génèrent des images en apprenant à inverser un processus d'ajout de bruit. Pendant l'entraînement, ils apprennent à supprimer le bruit. Pendant la génération, ils partent de bruit pur et le débruitent progressivement pour obtenir une image cohérente.

Comment les modèles de diffusion créent-ils des images à partir de texte ?+

Les prompts textuels sont encodés en embeddings qui guident le processus de débruitage. À chaque étape, le modèle prédit le bruit conditionné par le texte, orientant l'image pour qu'elle corresponde à votre description.

Quelle est la différence entre DALL-E, Midjourney et Stable Diffusion ?+

Tous utilisent la diffusion, mais diffèrent par leurs données d'entraînement, leur architecture et leur accessibilité. DALL-E est le produit API/ChatGPT d'OpenAI. Midjourney fonctionne via Discord. Stable Diffusion est open source et peut tourner localement.

Pourquoi les modèles de diffusion produisent-ils des images de si haute qualité ?+

Le processus itératif de débruitage permet un contrôle fin à chaque étape. Contrairement aux GAN, les modèles de diffusion ne souffrent pas de l'effondrement modal et peuvent générer des images plus diversifiées et détaillées.