Retrieval-Augmented Generation (RAG) (Génération améliorée par récupération (RAG))

Introduction #

Imaginons qu’Alex, un chercheur en robotique, consulte un modèle génératif de langage étendu (LLM) pour valider ses hypothèses sur un algorithme particulier. Il reçoit une réponse éloquente et bien articulée mais, après vérification, il se rend compte qu’elle est trompeuse. Le modèle, qui dépend principalement d’ensembles de données enracinés, a mélangé des faits avec des nuances communément mal interprétées, ce qui a conduit à des « hallucinations » intra-disciplinaires. Cette prise de conscience montre à Alex le besoin crucial d’une approche dans le paysage du NLP – une approche qui affine la fiabilité des données tout en améliorant la vaste capacité générative du LLM.

C’est là qu’intervient Retrieval Augmented Generation (RAG)! Introduit par Facebook AI, RAG est sur le point de changer la donne. Il fusionne les forces des modèles de recherche et des modèles génératifs, établissant de nouvelles références qui dépassent celles des modèles d’apprentissage automatique « traditionnels ».

Le rôle de RAG au sein des LLM présente des similitudes avec celui d’un chercheur diligent qui consulte une vaste bibliothèque à la recherche d’informations. Lorsqu’il est confronté à une question complexe, l’universitaire ne se contente pas d’informations mémorisées. Au contraire, il recoupe et consulte divers ouvrages pour élaborer une réponse solide et bien étayée.

De la même manière, le RAG ne se contente pas de s’appuyer sur des connaissances établies. Il recherche activement des informations pertinentes dans un large éventail de documents externes. Cela lui permet d’acquérir une compréhension plus approfondie, améliorant ainsi sa capacité à générer des réponses complètes et précises.

Sur le plan conceptuel, c’est très logique, mais comment cela fonctionne-t-il ?

Le mécanisme des lignes directrices #

À première vue, RAG peut ressembler à un système de réponse aux questions standard, mais il abrite sous son capot un système impressionnant, à la fois complexe et efficace. Les principaux atouts de RAG sont ses deux mécanismes – la récupération et la génération – qui travaillent ensemble pour combiner les informations et produire des réponses beaucoup plus intelligentes. Son autre atout est l’apprentissage continu.

Construction de la base de données vectorielle

Créer des connexions basées sur la pertinence entre de nombreuses requêtes et le vaste corpus revient à chercher une aiguille dans une botte de foin. Comment chercher rapidement parmi des milliers, voire des millions, de documents ? RAG y parvient grâce à l’approche Dense Retrieval.

Cette approche utilise des vecteurs à haute dimension pour stocker l’information. Cette méthode encode les mots ou les données textuelles dans une représentation à haute dimension. La capacité d’apprendre ce codage est établie pendant la formation du système de recherche, ce qui permet une représentation nuancée et contextuelle de l’information sous la forme d’une base de données vectorielle. Cette base de données peut ensuite être utilisée comme une base de connaissances très efficace pour comparer les requêtes et les similitudes entre les documents.

Avec cette nouvelle base de données vectorielle, vous pouvez mettre RAG en action ! Lorsque vous entrez une requête complexe dans le système, RAG la transforme en cette représentation codée. Maintenant que la question et les documents utilisent la même représentation, RAG peut comparer le vecteur numérique de la requête avec chaque vecteur de document dans la base de données. Les vecteurs les plus pertinents pour le sujet spécifique peuvent être nommés pour être utilisés dans le LLM pour un contexte supplémentaire.

RAG n’est pas seulement un outil de recherche ; il est comme un assistant de recherche intelligent, qui recherche méticuleusement dans votre base de données à une vitesse et avec une précision que vous ne pouvez pas atteindre avec une recherche manuelle.

Phase de génération

L’obtention des documents les plus pertinents n’était que la première partie de l’opération de RAG – les documents qu’il récupère servent de contexte inestimable. La récupération des documents et des requêtes correspondantes élargit la base de connaissances qui permet au générateur de séquence à séquence de RAG de produire une réponse éclairée.

Pour assurer une fusion efficace entre la question originale et les informations extraites, le RAG utilise un concept de ML connu sous le nom de « mécanisme d’attention ». Le « mécanisme d’attention » permet au modèle de mettre l’accent sur différentes parties de l’entrée lorsqu’il génère chaque mot de la réponse, de la même manière que nous nous concentrons sur d’autres éléments lorsque nous comprenons une conversation. Les scores d’information et de pertinence calculés lors de la phase d’extraction servent ensuite de guide pour générer une réponse mieux informée.

Comparaison avec les méthodes traditionnelles de mise au point

Contrairement aux modèles linguistiques traditionnels qui deviennent statiques après leur phase de réglage fin, RAG est un système évolutif. Il possède la capacité d’améliorer progressivement la pertinence de ses réponses en apprenant des informations externes supplémentaires au fil du temps.

En outre, RAG est remarquablement dynamique. Il peut activement rechercher et intégrer des informations provenant de documents externes au cours de sa phase de génération. Ce dynamisme ajoute une compréhension contextuelle plus large qui produit des résultats plus substantiels et plus précis. La combinaison d’un système de recherche et d’un modèle de génération de réponses permet d’adapter les requêtes à un paysage informationnel en constante évolution.

Avantages de l’adoption des RAG #

Reconnu pour sa polyvalence, le RAG modifie fondamentalement le paradigme du NLP. La compatibilité inter-tâches de RAG remplace l’exigence conventionnelle de formation de modèle spécifique à une tâche, qui est souvent un processus gourmand en ressources. Avec un seul réglage fin, RAG peut prendre en charge de nombreuses tâches, offrant des économies de calcul considérables, ce qui est crucial pour les applications à ressources limitées.

Contrairement aux modèles traditionnels qui nécessitent une grande quantité de mémoire pour les nombreux paramètres affinés, RAG ne conserve qu’un générateur et des paramètres d’encodage de documents partagés. Cette approche permet non seulement de réduire considérablement les besoins en stockage, mais aussi de faciliter le déploiement sur les appareils et les plateformes, y compris ceux dont les ressources en mémoire sont limitées.

RAG offre également une solution viable au problème de l’hallucination persistante, qui est un problème courant avec les LLM où les modèles donnent des réponses qui semblent plausibles mais qui sont en fait fausses. Comme RAG peut baser ses réponses sur des documents récupérés, ce type d’erreurs est moins susceptible de se produire, ce qui signifie que les résultats sont plus précis.

Les applications de RAG dans le monde réel sont vastes. Il pourrait alimenter les chatbots du service client avec des réponses plus précises et contextuelles ou aider la recherche universitaire en trouvant des documents pertinents pour des analyses documentaires approfondies.

Plongée dans les approches de RAG #

Récupérer puis lire : Dans cette approche standard, le modèle RAG récupère les passages pertinents d’un grand corpus de textes, qu’il synthétise ensuite pour produire une réponse.
Récupération améliorée par le contexte intégré : Une version nuancée de la méthode « Retrieve-then-read » qui prend en compte l’invite d’entrée et le contexte avant l’extraction, améliorant ainsi la pertinence des passages sélectionnés.
Toolformer: Toolformer est une nouvelle approche de RAG qui utilise des outils externes pour améliorer les performances du modèle. Toolformer peut apprendre à utiliser divers outils, tels que des calculatrices, des moteurs de recherche et des systèmes de traduction.

Les explorations futures pourraient comprendre l’examen de divers modèles de recherche, de techniques de génération de réponses et de mesures d’évaluation pour les modèles de RAG. L’évolution de RAG élargit les horizons du traitement du langage naturel (NLP) et promet des développements passionnants.

Pleins feux sur la plate-forme #

L’importance croissante de la RAG dans le traitement du langage naturel a conduit à une réceptivité accrue de la part de diverses plates-formes. Voici cinq plateformes de premier plan qui jouent un rôle crucial dans la promotion du développement et de la mise en œuvre de la RAG :

ParlAI de Facebook: ParlAI est une plateforme basée sur Python qui permet d’entraîner, de valider et de tester des modèles d’IA dans une multitude de tâches de dialogue. Elle héberge une vaste collection d’ensembles de données et a été un précurseur dans la recherche sur le dialogue grâce à ses ressources complètes adaptées aux modèles RAG. Il continue à stimuler l’évolution de RAG dans les systèmes de dialogue complexes.
HuggingFace Transformers: Hugging Face Hub héberge des milliers de modèles pré-entraînés, y compris RAG. La bibliothèque Hugging Face Transformers donne accès aux modèles RAG que vous pouvez intégrer dans diverses applications NLP.
Pinecone: Un service de base de données vectorielles qui s’intègre à n’importe quelle pile pour gérer, rechercher et déployer des vecteurs. Bien que traditionnellement utilisé pour la recommandation d’articles similaires, la recherche, la personnalisation et la prédiction d’événements rares, les capacités de Pinecone peuvent être étendues pour faciliter le stockage et la consultation à grande échelle, servant de colonne vertébrale évolutive pour les mécanismes de recherche des modèles RAG.
Haystack: Un cadre de bout en bout pour les systèmes de réponse aux questions (QA) qui permet aux développeurs d’utiliser les derniers modèles basés sur Transformer comme RAG. Ses principaux atouts résident dans la construction de systèmes de recherche robustes et sensibles au contexte, et en prenant en charge RAG, il améliore les solutions spécifiques à la recherche d’informations et à la génération de réponses.
Langchain: Cette plateforme simplifie le déploiement de puissants modèles linguistiques d’IA, y compris les modèles RAG, en fournissant des outils pour la formation, le déploiement et la maintenance de ces modèles. Langchain fournit également des outils pour la préparation des données, la surveillance des modèles et leur évaluation. Ces outils facilitent le développement, le déploiement et la gestion des modèles RAG dans diverses applications.

Défis et limites #

Les RAG sont très prometteurs pour l’avenir, mais comme toute technologie d’avant-garde, ils se heurtent à quelques obstacles complexes.

Confidentialité des données

Prenons l’exemple de la confidentialité des données. Étant donné que RAG ne peut pas faire la différence entre les documents sensibles et les documents non sensibles, il existe un risque d’atteinte à la vie privée. Mais ne vous inquiétez pas, il y a une solution ! La mise en œuvre de mesures de sécurité robustes explicitement destinées aux données sensibles peut créer un bouclier protecteur autour de cette question.

Une tendance à l’hallucination

RAG, comme tous les LLM, est encore sujet à des « hallucinations », c’est-à-dire lorsque les modèles linguistiques génèrent des réponses plausibles mais incorrectes. Bien que RAG ait fait des progrès dans la lutte contre les hallucinations, il est clair que le problème persiste. Dans ce cas, des stratégies telles que le réglage fin avancé pourraient changer la donne et permettre à RAG d’éviter les hallucinations.

Affecté par des données de mauvaise qualité

Bien que RAG semble impressionnant, un système ne vaut que ce que valent ses données, et RAG ne fait pas exception à la règle. Lorsque la RAG va chercher des informations trompeuses dans des documents externes, elle risque de produire des résultats erronés. Il est indispensable de mettre l’accent sur la fiabilité des bases de données et de veiller à ce que les informations soient rigoureusement vérifiées pour que les résultats de notre MAIT soient exacts et conformes aux attentes. N’oubliez pas que le contexte de RAG a ses limites, à savoir sa base de données.

Si une requête cherche des informations en dehors de celle-ci, même le récupérateur et le générateur de RAG ne peuvent pas évoquer la bonne réponse. L’obligation de conserver des données de haute qualité dans les bases de données et d’assimiler le contenu web en temps réel devient donc d’autant plus critique.

Tous ces obstacles sont loin d’être insurmontables. L’exploitation des capacités impressionnantes de RAG est un voyage permanent dans la production d’informations fiables fondées sur des données – cela vaut la peine de s’y engager.

Conclusion #

RAG est un grand pas en avant dans le développement de grands modèles de langage (LLM) car il combine des approches de récupération et de génération pour faire des réponses intelligentes et adaptables. Ses principaux avantages sont les suivants :

Néanmoins, des défis potentiels, tels que la confidentialité des données et la qualité du contenu récupéré, doivent être relevés pour utiliser pleinement RAG’ pour vos applications LLM, soulignant la nécessité de pratiques de recherche robustes et diligentes.

Des plateformes clés telles que ParlAI de Facebook, Hugging Face Transformers, Pinecone, Haystack et Langchain se taillent une place dans l’avancement de RAG, démontrant l’importance et la viabilité croissantes du modèle pour diverses applications.