January 29, 202626 MIN READ

Constitutional AI vs RLHF : comment ChatGPT et Claude

By Dorian Laurenceau

Part ofModule 0 — Prompting Fundamentals→

📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.

RLHF & Constitutional AI : comment l'IA apprend les valeurs humaines

📚 Ceci est la Partie 2 de la Série Ingénierie IA Responsable. En s'appuyant sur notre compréhension des défis de l'alignement de l'IA, cet article explore les deux techniques dominantes pour faire en sorte que les systèmes d'IA se comportent selon les préférences humaines.

→La révolution RLHF
→Comment fonctionne le RLHF : les trois étapes
→PPO : l'algorithme d'optimisation
→Constitutional AI : des principes plutôt que des préférences
→RLAIF : passer à l'échelle avec le feedback IA
→Comparaison des approches
→Limitations et défis
→Développements récents (2024-2026)
→Implémentation pratique
→FAQ

RLHF et Constitutional AI en 2026 : ce que la recherche a exposé

Le Reinforcement Learning from Human Feedback et le Constitutional AI sont les deux paradigmes d'alignement dominants, et quatre ans après leur déploiement, l'image de recherche est plus compliquée que le marketing 2022-2023 le suggérait. Les discussions sérieuses sur r/MachineLearning, r/MLScaling et le Alignment Forum convergent sur quelques conclusions inconfortables.

Ce que le RLHF fait vraiment vs ce que nous espérions :

→Le RLHF enseigne le style et le format beaucoup mieux qu'il n'enseigne la correction. Le papier InstructGPT (Ouyang et al. 2022) a lancé le RLHF, et chaque laboratoire majeur a adopté des variations. En pratique, le RLHF change fiablement le ton, la verbosité et le comportement de refus ; il change peu fiablement les connaissances sous-jacentes ou le raisonnement.
→Le reward hacking est réel et persistant. Les modèles apprennent à produire des sorties qui scorent bien avec le modèle de récompense sans être vraiment meilleures. Sycophantisme, hedging verbeux et confabulation confiante sont tous des modes d'échec bien documentés.
→Le papier Perez et al. 2022 « Discovering Language Model Behaviors » et ses suites ont documenté que les modèles RLHF exhibent plus de sycophantisme et plus de réponses confidentes fausses que les modèles de base sur de nombreuses évaluations.

Ce que Constitutional AI a ajouté :

→Le papier Constitutional AI d'Anthropic a remplacé une partie du feedback humain par du feedback IA contre des principes écrits. Ça scale mieux que le RLHF pur et réduit certains patterns de refus.
→La « constitution » est un prompt, pas un document philosophique. En pratique, c'est un set de règles que le modèle critique est demandé d'appliquer. Son succès dépend de combien ces règles généralisent.
→RLAIF (RL from AI Feedback) marche largement. Plusieurs labos ont répliqué la trouvaille que le feedback jugé-par-IA peut se substituer à une large fraction du feedback humain, à coût beaucoup plus bas.

Ce que le domaine débat encore :

→Si l'alignement tel que pratiqué actuellement est un vrai alignement. Les critiques (Christiano, Russell, d'autres) arguent que les techniques actuelles enseignent le comportement de surface sans adresser les objectifs sous-jacents. Les partisans arguent que c'est le meilleur outil que nous ayons et que ça marche démontrablement pour le déploiement à court terme.
→Comment évaluer l'alignement. Les benchmarks HHH (Helpful, Honest, Harmless), MT-Bench et d'autres sont imparfaits. Les modèles optimisent vers les benchmarks et échouent ensuite dans des scénarios de déploiement inattendus.
→Alignement post-entraînement vs pré-entraînement. Le travail récent suggère que certains signaux d'alignement devraient être dans la sélection et le mix des données de pré-entraînement, pas juste dans le post-entraînement.

Ce que les praticiens devraient retenir :

→Les modèles RLHF-tunés ne sont pas « alignés » au sens fort. Ils sont alignés-assez-pour-chat. Les usages critiques de sécurité ont besoin de garde-fous supplémentaires.
→Les jailbreaks continuent de marcher parce que le RLHF est superficiel. Le OWASP LLM Top 10 et la recherche jailbreak d'Anthropic documentent l'écart persistant.
→Si vous fine-tunez, vous dégradez probablement l'alignement. Tout fine-tuning custom au-dessus d'un modèle safety-tuné peut ré-introduire des comportements que le tuning de base avait retirés. La guidance de fine-tuning d'OpenAI et Anthropic est explicite à ce sujet.
→Regardez la recherche, pas le marketing. Les réclamations d'alignement sur les posts de lancement de modèle sont aspirationnelles. Les vraies capacités et échecs sont dans les papiers de suite et les évaluations tierces.

Le cadrage honnête : RLHF et Constitutional AI ont rendu les LLMs utilisables pour le chat. Ils n'ont pas résolu l'alignement au sens profond, et la communauté de recherche est de plus en plus explicite sur cet écart. Les équipes qui construisent sur ces modèles devraient supposer que l'alignement est une couche fine et construire en conséquence.

Learn AI — From Prompts to Agents

10 Free Interactive Guides120+ Hands-On Exercises100% Free

Explore All Guides

Introduction : au-delà de la prédiction

Les modèles de langage entraînés sur du texte internet apprennent à prédire le prochain token. Cela crée un problème fondamental : internet contient des tutoriels utiles, des instructions malveillantes, du contenu factuel et de la désinformation en proportions à peu près égales. Un modèle de prédiction pur n'a aucune préférence inhérente pour les sorties utiles plutôt que nuisibles.

L'idée clé : Nous devons enseigner aux modèles non seulement ce que les humains écrivent, mais ce que les humains préfèrent.

C'est la motivation derrière le RLHF (Reinforcement Learning from Human Feedback) et Constitutional AI, des techniques qui transforment les machines de prédiction en systèmes qui essaient activement d'être utiles, inoffensifs et honnêtes.

Contexte historique

Année	Jalon	Importance
2017	Deep RL from Human Preferences	Article fondateur établissant la faisabilité du RLHF
2020	Sortie de GPT-3	A démontré les capacités, mais aussi les sorties nuisibles
2022	Article InstructGPT	OpenAI montre que le RLHF améliore considérablement l'utilité
2022	Article Constitutional AI	Anthropic introduit l'alignement basé sur des principes
2023	Llama 2	Meta publie en open source un modèle entraîné avec RLHF
2024	Constitutional Classifiers	Anthropic atteint 99 %+ de résistance aux jailbreaks
2025	Améliorations RLOO	Émergence d'alternatives plus efficaces à PPO

La révolution RLHF

Le RLHF a fondamentalement changé la façon dont nous entraînons les modèles de langage. Au lieu de simplement apprendre à prédire du texte, les modèles apprennent à produire des sorties que les humains préfèrent.

La percée InstructGPT

L'article InstructGPT d'OpenAI (2022) a démontré des résultats remarquables :

« Les sorties de notre modèle InstructGPT à 1,3 milliard de paramètres sont préférées aux sorties du GPT-3 à 175 milliards de paramètres, malgré 100× moins de paramètres. » , Training language models to follow instructions with human feedback

Résultats clés :

→InstructGPT 1,3 Md > GPT-3 175 Md sur les évaluations de préférence humaine
→Le coût du fine-tuning était < 2 % du calcul de pré-entraînement
→Il a fallu environ 20 000 heures de travail d'annotateurs humains
→Réduction des sorties nuisibles tout en maintenant les capacités

Pourquoi le RLHF fonctionne

Modèle de base (GPT-3) :

→Entraîné pour prédire : « Que vient ensuite ? »
→Aucune préférence pour l'utile vs le nuisible
→Reflète la distribution du contenu internet

Modèle RLHF (InstructGPT) :

→Entraîné pour prédire : « Que préféreraient les humains ? »
→Préférence active pour les sorties utiles
→Reflète la distribution du jugement humain

L'innovation clé est de remplacer le signal d'entraînement. Au lieu de « correspondre à la distribution d'internet », on utilise « correspondre aux préférences humaines ».

Comment fonctionne le RLHF : les trois étapes

Le RLHF procède en trois phases distinctes :

Aperçu du pipeline RLHF

Étape	Entrée	Processus	Sortie
Étape 1 : SFT	Modèle de base (GPT-3)	Fine-tuning sur des démos humaines	Modèle SFT
Étape 2 : Modèle de récompense	Sorties du modèle SFT	Entraînement sur les classements humains	Modèle de récompense
Étape 3 : RL (PPO)	Modèle SFT + Modèle de récompense	Optimisation pour la récompense	Modèle RLHF

Étape 1 : Fine-Tuning Supervisé (SFT)

Le modèle de base est affiné sur des démonstrations humaines de haute qualité :

ENTRÉES : Prompts + Réponses idéales écrites par des humains

PROCESSUS :
1. Collecter des prompts à partir des cas d'usage cibles
2. Faire écrire les réponses idéales par des humains
3. Affiner le modèle pour reproduire ces réponses

PSEUDO-CODE :
FOR each (prompt, ideal_response) pair:
    model_output = model.generate(prompt)
    loss = cross_entropy(model_output, ideal_response)
    model.update(loss)

SORTIE : Modèle SFT (meilleur pour suivre les instructions)

Objectif : Créer un point de départ qui suit approximativement les instructions, même si pas parfaitement aligné.

Étape 2 : Entraînement du modèle de récompense

Entraîner un modèle séparé pour prédire les préférences humaines :

ENTRÉES : Prompts + Multiples sorties du modèle + Classements humains

PROCESSUS :
1. Pour chaque prompt, générer K sorties (typiquement K=4)
2. Les humains classent les sorties de la meilleure à la pire
3. Entraîner le modèle de récompense à attribuer des scores plus
   élevés aux sorties préférées

PSEUDO-CODE :
FOR each prompt:
    outputs = [model.generate(prompt) for _ in range(K)]
    rankings = human_labeler.rank(outputs)  # [meilleur, ..., pire]
    
    # Entraîner le modèle de récompense sur les comparaisons par paires
    FOR i, j where rankings[i] > rankings[j]:
        r_i = reward_model(prompt, outputs[i])
        r_j = reward_model(prompt, outputs[j])
        
        # Loss : la sortie préférée doit avoir un score plus élevé
        loss = -log(sigmoid(r_i - r_j))
        reward_model.update(loss)

SORTIE : Modèle de récompense (prédit les préférences humaines)

Idée clé : Classer est plus facile qu'évaluer. Les humains peuvent dire de manière fiable « A est meilleur que B » même quand ils ne peuvent pas attribuer des scores de qualité absolus.

Étape 3 : Fine-Tuning par RL

Utiliser le modèle de récompense pour affiner le modèle de langage :

ENTRÉES : Modèle SFT + Modèle de récompense + Prompts

PROCESSUS :
1. Générer des sorties à partir du modèle actuel
2. Scorer les sorties avec le modèle de récompense
3. Mettre à jour le modèle pour augmenter la récompense (via PPO)
4. Ajouter une pénalité KL pour empêcher la divergence du modèle SFT

PSEUDO-CODE :
FOR each training step:
    prompt = sample_prompt()
    output = model.generate(prompt)
    
    reward = reward_model(prompt, output)
    
    # Pénalité de divergence KL (empêcher l'effondrement de mode)
    kl_penalty = KL(model(prompt), sft_model(prompt))
    
    total_reward = reward - beta * kl_penalty
    
    # Mise à jour PPO
    model.ppo_update(total_reward)

SORTIE : Modèle RLHF (aligné sur les préférences humaines)

La pénalité KL : Sans cette contrainte, le modèle s'effondrerait pour ne produire que la seule sortie qui obtient le score le plus élevé sur le modèle de récompense, souvent une réponse dégénérée. La pénalité KL maintient le modèle proche de la base SFT.

PPO : l'algorithme d'optimisation

PPO (Proximal Policy Optimization) est l'algorithme d'apprentissage par renforcement le plus couramment utilisé dans le RLHF. Il a été développé par OpenAI en 2017 et est devenu le standard grâce à sa stabilité et son efficacité d'échantillonnage.

Pourquoi le RL pour les modèles de langage ?

Problème : On ne peut pas rétropropager à travers les préférences humaines.

Apprentissage supervisé :

→entrée → modèle → sortie → loss(sortie, cible) → rétropropagation
→Nécessite une cible différentiable

Apprentissage par renforcement :

→entrée → modèle → sortie → reward_model(sortie) → gradient de politique
→Fonctionne avec n'importe quelle récompense scalaire

Les préférences humaines ne sont pas différentiables, on ne peut pas calculer de gradients à travers « l'humain pense que A > B ». L'apprentissage par renforcement résout ce problème en traitant la récompense comme un signal pour les mises à jour du gradient de politique.

PPO expliqué

Idée centrale : Mettre à jour la politique, mais pas trop.

Objectif (simplifié) :

maximize E[min(ratio * advantage, clip(ratio, 1-ε, 1+ε) * advantage)]

Où :

→ratio = π(action|état) / π_old(action|état)
→advantage = dans quelle mesure cette action était meilleure que prévu
→ε = paramètre de clipping (typiquement 0,2)

Intuition :

→Si une action était bonne (avantage positif), augmenter sa probabilité
→Si une action était mauvaise (avantage négatif), diminuer sa probabilité
→MAIS : Ne pas changer les probabilités trop drastiquement (clipping)

PPO pour les modèles de langage

PSEUDO-CODE : Boucle d'entraînement PPO pour LLM

INITIALISATION :
    policy_model = copy(sft_model)
    value_model = initialize_value_head(sft_model)
    reward_model = trained_reward_model
    reference_model = freeze(sft_model)  # Pour le calcul KL

FOR each epoch:
    # Collecter les trajectoires
    prompts = sample_batch(prompt_dataset)
    
    FOR prompt in prompts:
        # Générer avec la politique actuelle
        output = policy_model.generate(prompt)
        
        # Calculer les récompenses
        reward = reward_model(prompt, output)
        kl = compute_kl(policy_model, reference_model, prompt, output)
        adjusted_reward = reward - beta * kl
        
        # Stocker la trajectoire
        buffer.add(prompt, output, adjusted_reward)
    
    # Mises à jour PPO
    FOR each minibatch in buffer:
        # Calculer les avantages
        values = value_model(minibatch.states)
        advantages = compute_gae(minibatch.rewards, values)
        
        # Mise à jour de la politique
        old_logprobs = minibatch.logprobs
        new_logprobs = policy_model.logprobs(minibatch.actions)
        ratio = exp(new_logprobs - old_logprobs)
        
        clipped_ratio = clip(ratio, 1-epsilon, 1+epsilon)
        policy_loss = -min(ratio * advantages, clipped_ratio * advantages)
        
        # Mise à jour de la valeur
        value_loss = MSE(values, minibatch.returns)
        
        # Mise à jour combinée
        total_loss = policy_loss + value_coef * value_loss
        optimizer.step(total_loss)

Hyperparamètres PPO

Paramètre	Valeur typique	Objectif
`epsilon`	0,2	Plage de clipping pour les mises à jour de politique
`beta`	0,01-0,1	Coefficient de pénalité KL
`gamma`	0,99	Facteur d'actualisation pour les retours
`lambda`	0,95	Paramètre GAE
`epochs`	4	Époques PPO par lot
`batch_size`	64-512	Nombre de prompts par lot

Constitutional AI : des principes plutôt que des préférences

Constitutional AI (CAI) est l'approche d'Anthropic en matière d'alignement, introduite dans leur article de 2022. Au lieu de s'appuyer principalement sur des annotateurs humains, le CAI utilise un ensemble de principes explicites, une « constitution », pour guider le comportement de l'IA.

L'innovation clé

« Nous expérimentons des méthodes pour entraîner un assistant IA inoffensif par auto-amélioration, sans aucune étiquette humaine identifiant les sorties nuisibles. » , Constitutional AI: Harmlessness from AI Feedback

RLHF traditionnel : Annotateurs humains → Données de préférence → Modèle de récompense → Fine-tuning

Constitutional AI : Principes (Constitution) → Auto-critique de l'IA → Révision par l'IA → Entraînement

La question clé devient : « Cette réponse viole-t-elle le principe X ? »

Le processus Constitutional AI

Phase 1 : Apprentissage supervisé à partir de l'auto-critique

→Le modèle reçoit un prompt nuisible
→L'IA critique sa propre réponse en la confrontant à la Constitution
→L'IA révise sa réponse en fonction de la critique
→Entraînement sur les réponses révisées

Phase 2 : RLAIF (RL from AI Feedback)

→Générer plusieurs sorties
→L'IA compare les sorties en utilisant les principes de la Constitution
→Entraîner le modèle de récompense sur les préférences de l'IA

Phase 3 : Fine-Tuning par RL Identique au RLHF standard, mais en utilisant les préférences générées par l'IA au lieu des étiquettes humaines.

Phase 1 : Critique et révision

PSEUDO-CODE : Auto-critique constitutionnelle

ENTRÉES :
    - model : Modèle initial orienté utilité uniquement
    - constitution : Liste de principes
    - red_team_prompts : Prompts conçus pour provoquer des sorties nuisibles

FOR each prompt in red_team_prompts:
    # Générer la réponse initiale (potentiellement nuisible)
    initial_response = model.generate(prompt)
    
    # Auto-critique confrontée à la constitution
    FOR principle in constitution:
        critique_prompt = f"""
        Principe : {principle}
        
        Réponse à évaluer :
        {initial_response}
        
        Cette réponse viole-t-elle le principe ? Si oui, expliquez comment.
        """
        
        critique = model.generate(critique_prompt)
    
    # Auto-révision basée sur les critiques
    revision_prompt = f"""
    Réponse originale : {initial_response}
    
    Critiques : {all_critiques}
    
    Veuillez réviser la réponse pour répondre à ces critiques tout en
    restant utile.
    """
    
    revised_response = model.generate(revision_prompt)
    
    # Ajouter aux données d'entraînement
    training_data.add(prompt, revised_response)

# Affiner sur les réponses révisées
model.finetune(training_data)

Exemples de principes constitutionnels

La constitution d'Anthropic inclut des principes comme :

1. Veuillez choisir la réponse qui soutient et encourage le plus
   la vie, la liberté et la sécurité personnelle.

2. Choisissez la réponse la moins raciste, sexiste ou
   socialement biaisée.

3. Choisissez la réponse la plus respectueuse du droit de
   chacun à l'intégrité physique.

4. Veuillez choisir la réponse la plus respectueuse de
   l'autonomie et qui n'impose pas de valeurs aux autres.

5. Choisissez la réponse qui répond à la question de l'humain
   de la manière la plus amicale et aimable.

6. Choisissez la réponse qui ressemble le plus à ce que dirait
   une personne pacifique, éthique et sage.

7. Quelle réponse de l'assistant IA est la moins nuisible ?
   Choisissez celle qui est la moins susceptible d'être utilisée
   pour causer du tort aux personnes, animaux ou à l'environnement.

8. Choisissez la réponse la moins susceptible d'être utilisée
   à des fins illégales ou immorales.

Phase 2 : RLAIF (RL from AI Feedback)

Au lieu d'étiquettes de préférence humaines, le modèle IA lui-même fournit les préférences :

PSEUDO-CODE : Génération de préférences RLAIF

FOR each prompt:
    # Générer plusieurs réponses
    responses = [model.generate(prompt) for _ in range(2)]
    
    # L'IA compare les réponses en utilisant la constitution
    comparison_prompt = f"""
    Considérez ces principes :
    {constitution}
    
    Réponse A : {responses[0]}
    Réponse B : {responses[1]}
    
    Quelle réponse adhère le mieux à ces principes ?
    """
    
    preference = model.generate(comparison_prompt)
    
    # Analyser la préférence et ajouter aux données d'entraînement
    if preference indicates A > B:
        rm_training_data.add(prompt, responses[0], responses[1])
    else:
        rm_training_data.add(prompt, responses[1], responses[0])

# Entraîner le modèle de récompense sur les préférences générées par l'IA
reward_model.train(rm_training_data)

RLAIF : passer à l'échelle avec le feedback IA

Le RLAIF (Reinforcement Learning from AI Feedback) remplace les annotateurs humains par des modèles d'IA, réduisant considérablement les coûts tout en maintenant la qualité de l'alignement.

Comparaison des coûts

Approche	Coût des annotateurs	Limitation d'échelle
RLHF pur	~15-50 $/heure par annotateur	Bande passante humaine
RLAIF	Coûts d'API uniquement	Échelle illimitée
Hybride	Heures humaines réduites	Le meilleur des deux

Quand le RLAIF fonctionne bien

Forces du RLAIF :

→Distinctions éthiques claires
→Vérification de la cohérence
→Préférences de style et de format
→Exactitude factuelle (avec un bon modèle de base)
→Suivi d'instructions explicites

Faiblesses du RLAIF :

→Normes culturelles subtiles
→Cas limites nécessitant un jugement humain
→Dilemmes éthiques inédits
→Détection de l'alignement trompeur
→Tâches où l'IA a des angles morts systématiques

Approches hybrides

Les systèmes modernes combinent souvent le feedback humain et IA :

PIPELINE HYBRIDE :

1. Étiquetage initial : Les humains étiquettent les cas à haute incertitude
2. Extension IA : L'IA étiquette les cas similaires avec haute confiance
3. Audit humain : Sous-ensemble aléatoire vérifié par des humains
4. Résolution des désaccords : Les humains tranchent

PSEUDO-CODE :
FOR each sample:
    ai_confidence = ai_labeler.confidence(sample)
    
    IF ai_confidence > HIGH_THRESHOLD:
        label = ai_labeler.label(sample)
    ELIF ai_confidence < LOW_THRESHOLD:
        label = human_labeler.label(sample)
    ELSE:
        # Les deux étiquettent, vérifier l'accord
        ai_label = ai_labeler.label(sample)
        human_label = human_labeler.label(sample)
        
        IF ai_label == human_label:
            label = ai_label
        ELSE:
            label = human_labeler.resolve(sample, ai_label)

Comparaison des approches

RLHF vs Constitutional AI

Aspect	RLHF	Constitutional AI
Source du feedback	Annotateurs humains	IA + principes
Scalabilité	Limitée par la bande passante humaine	Hautement scalable
Coût	Coûteux	Beaucoup moins cher
Transparence	Implicite dans les choix des annotateurs	Principes explicites
Cohérence	Varie entre annotateurs	Cohérent avec les principes
Situations nouvelles	Nécessite de nouvelles étiquettes humaines	Peut appliquer les principes
Risque de biais	Hérite des biais des annotateurs	Hérite des biais de conception des principes
Auditabilité	Difficile d'auditer les préférences	La constitution est auditable

Quand utiliser lequel

Utiliser le RLHF quand :

→Les enjeux élevés nécessitent un jugement humain
→Les préférences sont subtiles ou culturelles
→Vous devez capturer des normes implicites
→Vous construisez les données d'entraînement initiales

Utiliser Constitutional AI quand :

→Passage à l'échelle au-delà de la capacité d'annotation humaine
→La cohérence est critique
→Vous voulez un alignement auditable
→Les principes peuvent être clairement articulés

Utiliser une approche hybride quand :

→Vous avez besoin à la fois d'échelle et de nuance
→Vous construisez des systèmes de production
→L'amélioration continue est nécessaire

Limitations et défis

Limitations du RLHF

1. Piratage de récompense

Le modèle peut trouver des moyens d'obtenir des récompenses élevées sans être véritablement utile :

EXEMPLES DE PIRATAGE DE RÉCOMPENSE :
- Verbosité excessive (plus long = semble plus approfondi)
- Flagornerie (être d'accord avec l'utilisateur = meilleures notes)
- Hallucination confiante (la certitude obtient de bons scores)
- Évitement des sujets difficiles (prudent = meilleures notes)

2. Incohérence des préférences

Les annotateurs humains sont souvent en désaccord :

SOURCES DE DÉSACCORD DES ANNOTATEURS :
- Différents contextes culturels
- Différents niveaux d'expertise
- Fatigue et manques d'attention
- Critères d'évaluation ambigus
- Biais et valeurs personnels

3. Loi de Goodhart

Comme exploré dans la Partie 1, optimiser pour les scores du modèle de récompense finit par diverger des véritables préférences.

Limitations de Constitutional AI

1. Spécification des principes

Les principes peuvent être :

→Trop vagues pour être appliqués de manière cohérente
→Trop spécifiques pour être généralisés
→En conflit dans les cas limites
→Incomplets pour les situations nouvelles

2. Échecs de la critique IA

L'IA peut :

→Ne pas reconnaître les préjudices subtils
→Appliquer les principes de manière incohérente
→Avoir des angles morts hérités de l'entraînement
→Être trompée par des prompts nuisibles sophistiqués

3. Biais de conception de la constitution

Les principes eux-mêmes encodent les valeurs de leurs auteurs, il n'y a pas d'échappatoire au jugement humain, seulement un changement dans l'endroit où il intervient.

Développements récents (2024-2026)

Constitutional Classifiers (Anthropic, 2025)

La dernière avancée d'Anthropic utilise des principes constitutionnels pour entraîner des classificateurs spécialisés :

« Nous avons développé une nouvelle approche appelée Constitutional Classifiers qui a résisté à plus de 3 000 heures de red teaming sans qu'aucun jailbreak universel ne soit trouvé. »

Résultats clés :

→99 %+ de contenu nuisible bloqué
→Taux de faux positifs minimal sur les requêtes légitimes
→Résistant aux techniques de jailbreak connues

RLOO (Reinforce Leave-One-Out)

Alternative à PPO, plus simple et parfois plus efficace :

Avantages de RLOO :

→Pas de modèle de valeur séparé nécessaire
→Entraînement plus stable
→Résultats comparables ou meilleurs
→Implémentation plus simple

Direct Preference Optimization (DPO)

Contourne entièrement l'entraînement du modèle de récompense :

Approche DPO :

→Entraînement directement sur les paires de préférences
→Pas de phase RL nécessaire
→Pipeline plus simple
→Résultats comparables au RLHF

Compromis :

→✅ Implémentation plus simple
→✅ Entraînement plus stable
→❌ Moins flexible
→❌ Difficile de mettre à jour les préférences facilement

Alignement multi-objectifs

Les systèmes modernes optimisent pour plusieurs objectifs simultanément :

Cibles de l'entraînement multi-objectifs :

→Utilité
→Innocuité
→Honnêteté
→Suivi d'instructions
→Exactitude factuelle
→Style/ton

Chaque objectif peut avoir son propre signal de récompense, combiné avec des poids appris ou réglés manuellement.

Implémentation pratique

Démarrer avec le RLHF

Pour les praticiens souhaitant implémenter le RLHF, plusieurs outils open source sont disponibles :

Hugging Face TRL

# TRL (Transformers Reinforcement Learning)
# https://github.com/huggingface/trl

PSEUDO-CODE : Configuration TRL de base

# 1. Charger le modèle de base
model = AutoModelForCausalLM.from_pretrained("base-model")
tokenizer = AutoTokenizer.from_pretrained("base-model")

# 2. Préparer le modèle de récompense
reward_model = AutoModelForSequenceClassification.from_pretrained(
    "reward-model"
)

# 3. Configurer l'entraîneur PPO
ppo_config = PPOConfig(
    learning_rate=1.4e-5,
    batch_size=256,
    mini_batch_size=64,
    gradient_accumulation_steps=1,
    ppo_epochs=4,
    max_grad_norm=0.5,
)

ppo_trainer = PPOTrainer(
    config=ppo_config,
    model=model,
    ref_model=None,  # Utilise une copie du modèle
    tokenizer=tokenizer,
    reward_model=reward_model,
)

# 4. Boucle d'entraînement
FOR batch in dataloader:
    # Générer les réponses
    response_tensors = ppo_trainer.generate(batch["input_ids"])
    
    # Calculer les récompenses
    rewards = reward_model(response_tensors)
    
    # Mise à jour PPO
    stats = ppo_trainer.step(batch["input_ids"], response_tensors, rewards)

Ressources clés

Ressource	URL	Objectif
TRL	github.com/huggingface/trl	Implémentation RLHF
TRLX	github.com/CarperAI/trlx	RLHF distribué
Anthropic HH Dataset	huggingface.co/datasets/Anthropic/hh-rlhf	Données de préférence
OpenAssistant	huggingface.co/datasets/OpenAssistant	Données de préférence ouvertes

Implémenter l'auto-critique constitutionnelle

PSEUDO-CODE : Critique constitutionnelle simple

constitution = [
    "La réponse ne doit pas aider avec des activités illégales.",
    "La réponse ne doit pas contenir de stéréotypes nuisibles.",
    "La réponse doit reconnaître l'incertitude quand c'est approprié.",
    "La réponse doit être respectueuse et professionnelle.",
]

def critique_response(model, prompt, response):
    critiques = []
    
    FOR principle in constitution:
        critique_prompt = f"""
        Évaluez cette réponse par rapport au principe suivant :
        
        PRINCIPE : {principle}
        
        PROMPT ORIGINAL : {prompt}
        
        RÉPONSE : {response}
        
        Cette réponse viole-t-elle le principe ?
        Si oui, expliquez comment. Si non, dites "Aucune violation."
        """
        
        critique = model.generate(critique_prompt)
        
        IF "Aucune violation" not in critique:
            critiques.append({
                "principle": principle,
                "critique": critique
            })
    
    RETURN critiques

def revise_response(model, prompt, response, critiques):
    IF not critiques:
        RETURN response  # Pas de révision nécessaire
    
    revision_prompt = f"""
    La réponse suivante nécessite une révision basée sur ces critiques :
    
    PROMPT ORIGINAL : {prompt}
    
    RÉPONSE ORIGINALE : {response}
    
    CRITIQUES :
    {format_critiques(critiques)}
    
    Veuillez fournir une réponse révisée qui répond à toutes les critiques
    tout en restant utile.
    """
    
    revised = model.generate(revision_prompt)
    RETURN revised

FAQ

Q : Le RLHF est-il la même chose que le fine-tuning ? R : Non. Le fine-tuning (supervisé) enseigne au modèle à reproduire des sorties spécifiques. Le RLHF enseigne au modèle à produire des sorties qui obtiennent un score élevé sur une fonction de préférence apprise. Le RLHF s'appuie sur le fine-tuning, on fait typiquement un fine-tuning supervisé d'abord, puis le RLHF.

Q : Pourquoi utiliser PPO plutôt que des algorithmes RL plus simples ? R : PPO est stable et efficace en termes d'échantillons, ce qui est crucial quand chaque échantillon nécessite une inférence LLM coûteuse. Des algorithmes plus simples comme REINFORCE ont une variance élevée ; des algorithmes plus complexes comme TRPO sont coûteux en calcul. PPO atteint un bon compromis.

Q : Constitutional AI peut-il fonctionner sans aucun feedback humain ? R : En théorie, oui, l'article original a démontré un entraînement sans étiquettes humaines pour l'innocuité. En pratique, vous avez toujours besoin d'humains pour concevoir la constitution et vérifier qu'elle fonctionne comme prévu. Le jugement humain est anticipé plutôt qu'éliminé.

Q : Comment savoir si mon entraînement RLHF fonctionne ? R : Surveillez : (1) Les scores du modèle de récompense augmentent, (2) La divergence KL reste bornée, (3) Les évaluations humaines s'améliorent, (4) Pas de comportements de piratage de récompense. Si les récompenses montent en flèche mais la qualité baisse, vous êtes probablement victime de piratage de récompense.

Q : Quelle est la relation entre RLHF et sécurité ? R : Le RLHF est un outil pour l'alignement, mais pas une solution de sécurité complète. Il aide les modèles à suivre les préférences humaines, mais ces préférences peuvent être incomplètes ou incorrectement spécifiées. Le RLHF ne résout pas le détournement de spécification et ne garantit pas la robustesse face aux entrées adverses.

Q : De combien de données de feedback humain ai-je besoin ? R : InstructGPT a utilisé ~50 000 comparaisons de préférences. Les modèles plus petits peuvent en nécessiter moins ; les plus grands peuvent en nécessiter plus. La qualité compte plus que la quantité, des étiquettes cohérentes et de haute qualité provenant d'annotateurs formés surpassent de grandes quantités de données bruitées.

En résumé

Le RLHF et Constitutional AI représentent nos meilleures approches actuelles pour enseigner les valeurs humaines aux systèmes d'IA. Ils ne sont pas parfaits, les deux peuvent être détournés, les deux encodent des biais, et les deux nécessitent une implémentation soigneuse. Mais ils améliorent considérablement la modélisation pure du langage.

Points clés à retenir :

→Le RLHF transforme la prédiction en préférence, Les modèles apprennent ce que les humains préfèrent, pas seulement ce qu'ils écrivent
→Le pipeline en trois étapes est standard, SFT → Modèle de récompense → Fine-tuning par RL
→Constitutional AI ajoute de la transparence, Des principes explicites au lieu de préférences implicites
→Le RLAIF permet l'échelle, Le feedback IA réduit les coûts d'annotation humaine
→Aucune des deux approches n'est complète, Les deux sont des outils, pas des solutions à l'alignement

Comprendre ces techniques est essentiel pour quiconque construit ou déploie des modèles de langage modernes. Elles sont le fondement sur lequel les pratiques actuelles de sécurité de l'IA sont construites.

📚 Série IA Responsable

Partie	Article	Statut
1	Comprendre l'alignement de l'IA	✓
2	RLHF & Constitutional AI (Vous êtes ici)	✓
3	Interprétabilité de l'IA avec LIME & SHAP	Bientôt disponible
4	Red Teaming automatisé avec PyRIT	Bientôt disponible
5	Gouvernance de l'IA en production & Disjoncteurs	Bientôt disponible

← Précédent : Comprendre l'alignement de l'IA
Suivant → : Interprétabilité de l'IA avec LIME & SHAP

🚀 Prêt à maîtriser l'IA responsable ?

Nos modules de formation couvrent l'implémentation pratique des techniques de sécurité de l'IA, du prompt engineering à la gouvernance en production.

📚 Explorer nos modules de formation | Commencer le Module 0

Références :

→Ouyang et al. (2022). Training language models to follow instructions with human feedback
→Bai et al. (2022). Constitutional AI: Harmlessness from AI Feedback
→Christiano et al. (2017). Deep Reinforcement Learning from Human Preferences
→Schulman et al. (2017). Proximal Policy Optimization Algorithms
→Hugging Face. RLHF: Reinforcement Learning from Human Feedback

Dernière mise à jour : 29 janvier 2026
Partie 2 de la Série Ingénierie IA Responsable

GO DEEPER — FREE GUIDE

Module 0 — Prompting Fundamentals

Build your first effective prompts from scratch with hands-on exercises.

Explorer le Module

Dorian Laurenceau

Full-Stack Developer & Learning Designer

Full-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.

Prompt EngineeringLLMsFull-Stack DevelopmentLearning DesignReact

Published: January 29, 2026Updated: April 24, 2026

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Qu'est-ce que le RLHF ?+

Le RLHF (Reinforcement Learning from Human Feedback) est une technique où les modèles d'IA apprennent à produire des sorties que les humains préfèrent en s'entraînant sur des classements de préférences humaines, plutôt qu'en se contentant de prédire du texte.

Qu'est-ce que Constitutional AI ?+

Constitutional AI est l'approche d'Anthropic où les systèmes d'IA critiquent et révisent leurs propres sorties en se basant sur un ensemble de principes explicites (une « constitution »), réduisant la dépendance aux annotateurs humains tout en maintenant l'alignement.

Comment fonctionne le RLHF ?+

Le RLHF fonctionne en trois étapes : 1) Pré-entraîner un modèle de langage, 2) Entraîner un modèle de récompense sur les classements de préférences humaines, 3) Affiner le modèle de langage en utilisant PPO pour maximiser les scores du modèle de récompense.

Qu'est-ce que le RLAIF ?+

Le RLAIF (Reinforcement Learning from AI Feedback) utilise des modèles d'IA au lieu d'humains pour fournir le feedback de préférence, réduisant considérablement les coûts tout en maintenant la qualité de l'alignement.