RLHF (RLHF)

Updated on 30 janvier 2025

Temps de lecture estimé: 15 min de temps de lecture

L’apprentissage par renforcement (AR) est un sous-ensemble de l’apprentissage automatique dans lequel des agents d’intelligence artificielle apprennent à prendre des décisions en interagissant avec un environnement, qui peut être physique, simulé ou un système logiciel. Contrairement à l’apprentissage supervisé, qui repose sur des données étiquetées, les agents d’apprentissage par renforcement apprennent par le biais d’un processus d’essai et d’erreur afin de maximiser les récompenses cumulées au fil du temps.

L’apprentissage par renforcement à partir de données humaines (RLHF) améliore ce processus en intégrant l’expertise humaine. Les experts peuvent guider les agents, en particulier dans les scénarios complexes où l’essai-erreur pur est insuffisant, en façonnant efficacement le chemin d’apprentissage et en affinant le mécanisme de récompense. Cette orientation est cruciale pour les tâches nuancées ou sensibles sur le plan éthique et pour aligner les agents sur l’intention humaine.

Dans le contexte du traitement du langage naturel (NLP) et des grands modèles de langage (LLM), la RLHF est particulièrement prometteuse. Les LLM sont confrontés à des défis uniques tels que la gestion des nuances linguistiques, des biais et le maintien de la cohérence dans le texte généré. Le retour d’information humain dans le RLHF peut aider à relever ces défis pour obtenir des résultats plus pertinents et conformes à l’éthique. L’association des connaissances humaines et de l’efficacité de l’apprentissage automatique permet de résoudre des problèmes complexes que les algorithmes traditionnels ont du mal à résoudre.

Comprendre l’apprentissage par renforcement dans le cadre du NLP #

Pour comprendre l’apprentissage par renforcement dans le cadre du NLP, il faut d’abord en comprendre les composantes fondamentales :

L’agent : Dans le cadre du NLP, il s’agit du modèle, tel qu’un système de dialogue ou un générateur de texte, chargé de produire des résultats textuels de haute qualité.
Environnement : Le monde linguistique dans lequel l’agent opère, comprend des données linguistiques telles que des textes humains, des dialogues et des documents web, offrant de riches modèles linguistiques pour l’apprentissage.
État : Il s’agit des scénarios textuels auxquels le modèle est confronté, comme l’historique d’un dialogue ou le contenu d’un document.
Action : Les réponses du modèle (telles que la génération d’un dialogue ou le résumé d’un texte).
Récompense : retour d’information humain ou automatisé sur les résultats du modèle, le guidant vers des réponses cohérentes et pertinentes.

Dans le domaine du NLP, le RL représente un défi unique en raison de la complexité et de la variabilité du langage. La nature dynamique des données textuelles en tant qu’environnement, la définition nuancée des états et des actions et la nature subjective des récompenses contribuent à cette complexité.

Dans le domaine du NLP, les récompenses reposent souvent sur le jugement humain, ce qui introduit de la subjectivité et des difficultés de quantification. Des méthodes alternatives telles que les métriques automatisées, l’utilisation des LLM(RLAIF), ou les signaux non supervisés sont également utilisées pour définir les récompenses, chacune avec ses compromis.

Formation des modèles d’apprentissage par renforcement #

La formation des modèles d’apprentissage par renforcement (RL) utilise le processus de décision de Markov (MDP). Dans un cadre MDP, l’agent RL interagit avec son environnement en prenant des mesures et en recevant des récompenses ou des pénalités. L’objectif principal est d’apprendre une politique optimale qui maximise la récompense totale attendue au fil du temps. Ce processus peut être réalisé à l’aide de deux stratégies principales :

L’itération de la valeur : Cette méthode consiste à mettre à jour de manière répétée la valeur de chaque état afin de refléter la récompense cumulative maximale attendue pouvant être obtenue à partir de cet état. La fonction de valeur guide l’agent dans le choix des actions qui maximisent les récompenses futures.
Itération de la politique : Cette approche comporte deux étapes : l’évaluation et l’amélioration. Lors de l’évaluation de la politique, la fonction de valeur est calculée pour la politique actuelle. Dans l’amélioration de la politique, la politique est affinée sur la base de cette fonction de valeur, dans le but d’optimiser les décisions de l’agent.

La « politique optimale » en NR est une stratégie qui produit constamment les récompenses cumulées les plus élevées au fil du temps. Pour trouver cette politique, il faut trouver un équilibre entre l’exploration (essayer de nouvelles actions pour découvrir des stratégies potentiellement plus gratifiantes) et l’exploitation (utiliser des actions connues pour récolter des récompenses immédiates). Cet équilibre est crucial dans les environnements complexes où la mise en œuvre de ces algorithmes représente un défi informatique important.

Les modèles RL améliorent progressivement leurs capacités de prise de décision grâce à ces processus itératifs, apprenant ainsi à naviguer et à réussir dans des environnements divers et dynamiques.

Voici quelques exemples d’algorithmes RL utilisés pour former l’agent :

L’optimisation de la politique proximale(PPO) se concentre sur l’amélioration de la politique d’un agent par le biais de mises à jour itératives. L’idée de base consiste à collecter des échantillons au cours de l’interaction de l’agent avec l’environnement et à utiliser ces échantillons pour mettre à jour la politique de manière itérative.
L’optimisation de la politique de la région de confiance(TRPO) est conçue pour les environnements de contrôle continu. Il optimise une fonction objective « de substitution » à une distance donnée, ou région de confiance, de la politique actuelle.

Ces algorithmes permettent aux agents de découvrir des comportements optimaux sans programmation explicite, en faisant preuve de souplesse et d’évolutivité dans la gestion des complexités du monde réel.

Points forts et limites de l’apprentissage par renforcement

Points forts :

Polyvalence : L’apprentissage par renforcement excelle dans divers scénarios de résolution de problèmes, gérant à la fois des tâches avec des choix finis, comme les échecs, et des tâches avec des options potentiellement illimitées, comme la navigation de véhicules autonomes.
Adaptabilité : Les agents RL actualisent en permanence leurs comportements sur la base d’un retour d’information continu afin de s’adapter à des conditions changeantes en temps réel.
Prise de décision avancée : Ces agents sont particulièrement compétents dans les environnements complexes, comme on le voit dans des applications allant du contrôle robotique aux systèmes de négociation financière.
Généralisation : Les modèles RL efficaces, lorsqu’ils sont entraînés sur des scénarios variés, peuvent généraliser ces connaissances pour s’attaquer efficacement à des situations nouvelles et inédites.

Limites :

Comportement erratique : Dans les tâches complexes, le RL peut présenter des comportements imprévisibles, en particulier lorsque les récompenses sont peu nombreuses ou trompeuses, ce qui pose des problèmes de convergence dans les problèmes difficiles.
Réglage des hyperparamètres : Comme de nombreux modèles d’apprentissage automatique, le NR nécessite un réglage approfondi des hyperparamètres, ce qui implique souvent un mélange de tests empiriques et d’intuition d’expert.
Fragilité aux changements environnementaux : Les modèles d’apprentissage automatique peuvent être sensibles aux changements de leur environnement d’apprentissage, ce qui entraîne une baisse des performances lorsque les conditions varient.
Manque de transparence : Le processus décisionnel des agents RL est souvent opaque, ce qui complique la compréhension et l’explication de leurs actions. Il s’agit d’un domaine de recherche actif dans le domaine de l’IA explicable.

Le rôle du retour d’information humain #

Le retour d’information humain dans l’apprentissage par renforcement à partir du retour d’information humain (RLHF) s’apparente à l’accompagnement d’un enfant dans sa vie, en lui offrant des corrections et des renforcements pour l’aider à prendre les bonnes décisions et l’encourager à bien se comporter. Dans le domaine de l’apprentissage automatique, cela se traduit par plusieurs avantages clés :

Accélération de l’apprentissage : L’injection d’expertise humaine dans les modèles d’apprentissage automatique accélère l’apprentissage. Les personnes expérimentées peuvent fournir des démonstrations et un accompagnement nuancés, ce qui rend l’apprentissage plus efficace et plus riche sur le plan contextuel.
Orientation éthique : La RL s’appuie souvent uniquement sur des signaux environnementaux, qui peuvent négliger les considérations éthiques et les nuances subjectives subtiles. Le retour d’information humain comble ces lacunes, en offrant un contexte et des conseils essentiels pour une prise de décision responsable.
Intelligence synthétique : La fusion de l’apprentissage automatique et de l’intuition humaine permet de créer des systèmes adaptables et performants. En s’attaquant aux angles morts et en exploitant efficacement l’expertise, cette synergie conduit au développement de l’intelligence synthétique – des décideurs alimentés par des données et des conseils humains, idéaux pour les applications dynamiques du monde réel.

Intégration du retour d’information humain dans l’apprentissage par renforcement #

L’intégration du retour d’information humain dans l’apprentissage par renforcement consiste à relier directement les données humaines au système de récompense de l’agent. Cette méthode permet aux modèles d’aligner leurs comportements sur les normes éthiques et les sensibilités contextuelles du monde réel, au-delà de la simple optimisation de la précision ou de la probabilité.

Processus d’intégration de haut niveau :

Collecte de données : Collecte de données conversationnelles impliquant un modèle de langage et des humains sur différents sujets. Les humains indiquent leurs préférences entre différentes options de réponse.
Ensemble de données sur les préférences : Compilation des préférences humaines dans un ensemble de données. Entraînez un modèle de « surveillance » distinct sur ces données pour prédire les jugements humains, en mettant l’accent sur la cohérence, la pertinence et l’adéquation.
Évaluation du modèle : Utiliser le modèle de suivi pour évaluer les nouvelles réponses du modèle linguistique sur la base des préférences humaines apprises.
Ajustement fin grâce à l’apprentissage par renforcement : Appliquer l’apprentissage par renforcement pour maximiser les récompenses que le modèle de suivi accorde aux réponses qui s’alignent sur les préférences humaines.
Boucle de rétroaction : Utiliser les récompenses du modèle de suivi comme retour d’information vers le modèle linguistique, en l’encourageant à produire des réponses qui reflètent les préférences humaines. Ce processus itératif permet une amélioration continue et un alignement sur les sensibilités humaines.
Amélioration continue : Poursuivre le cycle de conversations et de retour d’information pour affiner le modèle de suivi et l’alignement du modèle linguistique sur les attentes humaines.

Ce processus personnalise les objectifs du modèle, en veillant à ce qu’ils correspondent aux sensibilités du monde réel et aux considérations éthiques, et pas seulement à la précision symbolique ou à la probabilité.

Optimisation en fonction des préférences humaines

Le processus d’optimisation dans l’apprentissage par renforcement avec rétroaction humaine (RLHF) consiste généralement à trouver les paramètres de politique optimaux qui maximisent la récompense cumulative attendue. Pour ce faire, on utilise souvent des méthodes d’optimisation basées sur le gradient. La méthode du gradient de politique est un algorithme couramment utilisé à cette fin.

Dans la méthode RLHF, la fonction objective J(θ) intègre le retour d’information humain pour guider l’apprentissage. L’objectif est d’ajuster les paramètres de la politique θ pour maximiser la récompense cumulative attendue. L’expression mathématique de cette fonction objective est la suivante :

Ici :

𝜃 représente les paramètres de la politique.
𝜋𝜃(αt |ꜱt ) est la probabilité d’entreprendre une action à l’état st conformément à la politique.
Rt est la récompense au temps t.
ET~𝝅𝜃 désigne l’espérance des trajectoires échantillonnées à partir de la politique actuelle.

Le gradient de J (𝛉) par rapport aux paramètres de la politique est calculé à l’aide du gradient de la politique :

Le processus d’optimisation implique la mise à jour itérative des paramètres de la politique à l’aide de la règle de mise à jour de l’ascension du gradient :

Ici :

α est le taux d’apprentissage, qui détermine la taille du pas dans l’espace des paramètres.

Il s’agit d’une représentation simplifiée, et la mise en œuvre réelle peut impliquer des considérations supplémentaires, telles que l’utilisation de fonctions de valeur, la régularisation de l’entropie, et plus encore, en fonction de l’algorithme RLHF spécifique utilisé. Les algorithmes avancés tels que l’optimisation de la politique proximale (PPO) ou l’optimisation de la politique de la région de confiance (TRPO) intègrent souvent des mécanismes visant à garantir une optimisation stable et efficace.

Interfaces de retour d’information humaine

Après le déploiement, les modèles tels que ChatGPT peuvent recueillir des commentaires humains par le biais de diverses interfaces :

Mécanisme Upvote/downvote : Les utilisateurs peuvent évaluer les réponses positivement ou négativement, fournissant ainsi un retour d’information direct sur la qualité des résultats du modèle.
Retour d’information basé sur le choix (comparaison par paire) : Offrir aux utilisateurs plusieurs options de réponse et leur permettre de sélectionner la meilleure.
Édition de texte : Permettre aux utilisateurs de modifier directement le résultat, en leur donnant des indications précises sur les changements qu’ils préfèrent.

Ces méthodes sont intégrées dans le processus d’apprentissage, ce qui permet au modèle d’adapter et d’affiner ses résultats en fonction des interactions avec l’utilisateur.

Types de retour d’information humaine dans RLHF #

Évaluations scalaires : Les humains fournissent des notes numériques sur des paramètres tels que l’utilité ou la véracité, ce qui permet aux LLM de donner la priorité aux réponses honnêtes.
Évaluations comparatives : Les gens choisissent entre des paires de réponses. Cette méthode est actuellement appliquée pour permettre aux gestionnaires de l’apprentissage tout au long de la vie de choisir des options plus sûres.
Étiquettes de classification : Les annotateurs classent le contenu en fonction de catégories sélectionnées telles que « pertinent » et « non pertinent » pour étiqueter les réponses. Cela peut aider à former les modèles de langage pour qu’ils restent dans le sujet.
Modifications et démonstrations : Les modifications humaines directes ou les réponses des modèles fournissent des exemples clairs des résultats souhaités.

Commentaires sur le texte : Les commentaires libres permettent d’identifier des problèmes spécifiques, tels que l’amélioration de la neutralité politique, comme le font des modèles tels que Perplexity.ai.

Défis actuels dans le domaine de l’apprentissage par renforcement humain #

L’apprentissage par renforcement à partir du feedback humain (RLHF) offre des avantages significatifs tels que l’alignement sur les valeurs humaines et l’amélioration des performances des modèles. Cependant, plusieurs défis subsistent :

Subjectivité : Le feedback humain comporte intrinsèquement un risque de subjectivité, introduisant potentiellement des biais ou des incohérences. Cela peut fausser le processus d’apprentissage du modèle et affecter sa prise de décision. Pour atténuer ce risque, il faut employer diverses sources de retour d’information et mettre en œuvre des mécanismes de détection des biais.
Évolutivité : La mise à l’échelle du retour d’information humain pour des tâches complexes ou de grande envergure représente un défi. Elle peut ralentir le processus de formation et réduire l’efficacité. Les systèmes de retour d’information automatisés, l’approvisionnement par la foule et l’utilisation sélective de l’apport humain pour les tâches critiques sont des solutions potentielles.
Le coût : La collecte et l’intégration de commentaires d’experts humains peuvent être coûteuses financièrement et en termes de temps et de ressources. L’utilisation de techniques d’apprentissage semi-supervisé ou l’exploitation de sources de retour d’information plus rentables peuvent aider à gérer ces dépenses.
Fiabilité : La variabilité de l’expertise et de la cohérence des sources de retour d’information humaines peut avoir un impact sur la fiabilité du processus de formation. Pour garantir une qualité constante, il faut une formation structurée des annotateurs et de multiples mécanismes de retour d’information pour vérifier les entrées.

Applications réelles de l’apprentissage par renforcement avec retour d’information humain (RLHF) #

ChatGPT et IA conversationnelle

Le RLHF améliore considérablement la précision et l’alignement éthique des systèmes d’IA, notamment dans le traitement du langage naturel. Par exemple, dans des modèles tels que ChatGPT, des réviseurs humains affinent continuellement la génération de langage en fournissant un retour d’information sur des aspects tels que la véracité, la cohérence et la réduction des biais. Ce processus itératif d’ajustement basé sur le jugement humain produit des modèles conversationnels qui offrent des interactions naturelles et sûres et qui évoluent de manière dynamique grâce à un retour d’information continu.

Des PNJ dotés d’IA

RLHF a amélioré la façon dont les PNJ interagissent avec les joueurs, rendant ces personnages plus stimulants et plus réactifs aux stratégies des joueurs. Il en résulte une expérience de jeu plus immersive et plus dynamique.

Véhicules autonomes

L’impact de la RLHF sur la technologie des véhicules autonomes est également remarquable, notamment en ce qui concerne l’amélioration des fonctions de sécurité et des capacités de prise de décision. Dans ce cas, le retour d’information humain est essentiel pour affiner les algorithmes afin de mieux gérer les scénarios du monde réel et les événements imprévus.

Outils de diagnostic basés sur l’IA

Dans le domaine de la santé, la RLHF est utilisée pour améliorer les systèmes d’aide à la décision médicale. Les commentaires des médecins sont intégrés pour affiner les outils de diagnostic et les plans de traitement, ce qui permet de personnaliser davantage les soins aux patients et de les rendre plus efficaces.

La mise en œuvre pratique de la RLHF dans ces différents secteurs montre l’importance d’une approche équilibrée. La conception minutieuse des boucles de retour d’information est essentielle pour assurer le bon équilibre entre l’intervention humaine et l’autonomie de la machine, optimisant ainsi les performances et la fiabilité des systèmes basés sur la RLHF.

À propos
Articles récents

Mathieu

Ingénieur passionné d'intelligence artificielle et développeur Python. Fondateur de la newsletter "la-minute-ia.fr", je décrypte chaque semaine l'actualité de l'IA. Digital nomad dans l'âme, je partage mon temps entre développement, veille technologique et découverte du monde.

Les derniers articles par Mathieu (tout voir)