Depuis la création du GPT-3 en 2022, le développement de nouveaux grands modèles linguistiques (LLM) a connu un essor notable. Les entreprises disposant de ressources importantes produisent désormais ces modèles à un rythme accéléré.
Souvent, ces modèles sont présentés avec des affirmations audacieuses concernant leurs capacités. Bien que ces modèles puissent exceller dans les tâches de traitement du langage naturel (NLP), ils ont parfois du mal à comprendre les instructions (contexte), présentent des hallucinations ou fournissent des résultats inexacts.
Les chercheurs conçoivent méticuleusement des tâches d’évaluation (benchmarks) afin d’évaluer minutieusement ces affirmations et de remettre en question les LLM à la pointe de la technologie (SOTA). Ces tests rigoureux visent à révéler leurs forces et leurs faiblesses, fournissant ainsi des informations précieuses aux différentes parties prenantes.
Comprendre les grands modèles de langage #
Les grands modèles de langage sont principalement des modèles d’apprentissage profond basés sur des transformateurs et formés sur de grands ensembles de données. L’architecture du transformateur introduit des composants d’encodage et de décodage, chacun avec des mécanismes d’auto-attention.
L’encodeur traite les données d’entrée, capturant les informations contextuelles grâce à l’auto-attention, tandis que le décodeur génère des données de sortie, utilisant l’auto-attention pour la connaissance du contexte. Avec des milliards de paramètres, ces modèles peuvent effectuer un apprentissage non supervisé et affiner leurs capacités grâce à l’apprentissage par renforcement basé sur le retour d’information humain. Ils utilisent principalement ce modèle de transformateur pour effectuer leurs tâches en raison de sa flexibilité.
Voici quelques acteurs du secteur et leurs LLM qui ont joué un rôle important dans ce domaine au cours des dernières années :
BERT (Bidirectional Encoder Representations from Transformers): BERT est l’une des familles les plus populaires de grands modèles de langage et a créé et marqué un changement significatif dans la recherche en NLP grâce à sa formation bidirectionnelle révolutionnaire.
Il capture le contexte et les nuances du langage, établissant une nouvelle norme pour de nombreuses tâches de PNL. Ce modèle a donné naissance à d’autres modèles tels que RoBERTa (Robustly optimized BERT approach) de Facebook AI Research et DistilBERT de Hugging Face.
Contrairement à LaMDA, PaLM est considéré comme une amélioration. Les ensembles de données entraînées couvrent des pages web filtrées, des livres, des nouvelles, des articles de Wikipédia, du code source provenant de GitHub et des conversations sur les médias sociaux. Il comprend 540 milliards de paramètres, avec des versions plus petites comme 8 et 62 milliards. En mai 2023, Google a annoncé PALM 2, qui comporte 340 milliards de paramètres entraînés sur 3,6 trillions de jetons. Actuellement, Google Bard l’utilise pour vous assister dans des tâches NLP telles que le résumé, la génération de contenu et la traduction, entre autres.
IA ouverte
GPT (Generative Pre-trained Transformers): La famille GPT de grands modèles de langage (GPT-1 à GPT-4) a été créée par OpenAI et a changé la donne. Ces modèles ont trouvé de nombreuses applications, de la création automatisée de contenu à l’amélioration des expériences de service à la clientèle. La série GPT est réputée pour son large éventail de capacités de compréhension et de génération de langage, établissant de nouvelles références à chaque nouvelle version. De GPT-1 à GPT-4, il y a entre 117 millions de paramètres et 1 000 milliards à 170 000 milliards de paramètres estimés dans le groupe de modèles, GPT-4 ayant des capacités multimodales. C’est l’un des LLM les plus utilisés à l’heure actuelle.
Cohere
Commande-moyen-nuit: Conçu pour les développeurs qui ont besoin de réponses rapides dans leurs applications, ce modèle existe en deux tailles : « command » et « command-light ». Alors que le modèle « command » offre des performances supérieures, le modèle « command-light » est le choix optimal pour le développement de chatbots. Les versions nocturnes de ces modèles font l’objet de mises à jour régulières et sont facilement utilisables pendant le développement actif de l’équipe Cohere.
Anthropique
Famille de modèles Claude (Claude 1, 2 et Instant): Ce modèle est étroitement lié à GPT-3 et 3.5 et a été créé pour des tâches complexes de raisonnement, de créativité, de codage, de création de contenu détaillé et de classification. Claude 1 compte 93 milliards de paramètres, tandis que Claude 2 en compte 137 milliards. Leur ensemble de données a été entraîné pour éviter les biais et garantir qu’ils ne fournissent que des informations objectives. Par ailleurs, Claude Instant est la plus légère des deux versions, avec les capacités de Claude Version 1.
Université de Stanford – modèle LLAMA 7B
Alpaca-7B: le modèle Alpaca est une version affinée du modèle LLaMA 7B. Les créateurs affirment qu’ils se comportent de manière similaire au texte-DaVinci-003 d’OpenAI tout en étant légers, bon marché et faciles à reproduire pour moins de 600 dollars. Il convient de mentionner que l’Alpaca est une source ouverte et qu’il est utilisé à des fins de recherche. Les données utilisées pour affiner le LLaMA 7B proviennent du text-davinci-003.
D’autres acteurs et produits clés existent, comme Bloom de Hugging Face, Vicuna 33B, Falcon, etc. Bien qu’ils soient tous d’excellents LLM, ils sont connus pour perpétuer un certain niveau de biais, de toxicité et d’hallucinations, mais avec davantage d’analyses comparatives et d’améliorations, ces LLM deviendront plus performants dans l’accomplissement de leurs tâches sans ces problèmes.
Importance de l’étalonnage dans l’évaluation et la comparaison des performances des LLM #
L’évaluation comparative est cruciale pour façonner le développement des grands modèles de langage (LLM), en guidant l’innovation et le raffinement. Dans l’apprentissage automatique, l’étalonnage implique l’évaluation des modèles à l’aide de tests, d’ensembles de données et de critères standard. Il s’agit d’un outil de diagnostic qui donne un aperçu des capacités et des limites des modèles, à l’instar d’un réseau GPS qui fournit une vue claire de la position d’un modèle dans le paysage de l’intelligence artificielle.
Ils atteignent tous des objectifs différents et sont importants pour les raisons suivantes :
-
Ils fournissent une base commune pour comparer différents modèles, ce qui permet de comprendre les forces et les faiblesses de chaque approche.
-
Elle aide les organisations à allouer les ressources de manière efficace en identifiant les modèles qui excellent dans des tâches spécifiques et en guidant l’entreprise ou les orientations de la recherche.
-
Il contribue à la normalisation des métriques et des pratiques d’évaluation, favorisant la collaboration et la communication au sein de la communauté ML.
-
Les référentiels peuvent inclure des évaluations de la partialité, de l’équité et des implications éthiques, guidant ainsi le développement d’une IA plus responsable.
-
Les référentiels avec des métriques et des ensembles de données définis garantissent la reproductibilité des expériences, un aspect crucial de la recherche scientifique.
-
Ils permettent de suivre les progrès réalisés au fil du temps, en mettant en évidence les améliorations apportées par les nouveaux LLM par rapport aux versions précédentes.
-
Les développeurs s’appuient sur des repères pour choisir le modèle le plus adapté à des applications spécifiques, ce qui a un impact sur la performance et la fiabilité des produits basés sur les ML.
À mesure que des modèles tels que GPT-3 et BERT transforment le traitement du langage, l’analyse comparative approfondie gagnera en importance. Divers benchmarks évaluent différents aspects du langage, de l’inférence du langage naturel à la qualité de la traduction.
Par essence, le benchmarking des LLM n’est pas seulement une mesure de la performance ; c’est une boussole qui guide le progrès, conduit à l’innovation et garantit des avancées responsables dans le domaine de l’intelligence artificielle.
Les défis de l’évaluation comparative #
L’évaluation comparative des grands modèles de langage (LLM) présente un ensemble unique de défis pour les raisons suivantes :
-
L’évaluation comparative est un défi en raison de la mesure de la compréhension nuancée au-delà de la compréhension du texte littéral. Les LLM s’attaquent à diverses tâches de compréhension, y compris le contexte, le sentiment et l’humour, reflétant ainsi les complexités de la communication humaine.
-
L’évaluation comparative est complexe car elle exige de la polyvalence dans un large spectre pour une évaluation complète des performances. Les LLM peuvent exceller dans le jargon juridique, mais rencontrer des difficultés avec le langage familier ou l’écriture créative, ce qui les oblige à généraliser dans divers domaines.
-
Les ensembles de données d’entraînement de ces modèles comportent un biais inhérent. Par conséquent, si l’évaluation comparative n’est pas bien faite et ne tient pas compte des biais et de l’équité, mais uniquement des performances, elle risque de perpétuer les biais dans les données.
La création d’un benchmark unifié pour toutes les tâches NLP est un défi, en particulier parce que la nature diverse des tâches introduit de la complexité, ce qui rend le benchmarking à la fois difficile et moins reproductible.
Actuellement, l’accent est mis sur les performances des classements basés sur des critères de référence sélectionnés. Au lieu de considérer l’évaluation comparative comme une compétition, les organisations et les chercheurs devraient la considérer comme un outil permettant de comparer et d’améliorer les modèles, en tenant compte à la fois des exigences de performance et d’équité.
Mesures clés pour l’étalonnage des performances #
Les mesures d’étalonnage constituent le test décisif pour évaluer les capacités de ces systèmes d’IA avancés. Parmi les nombreuses mesures disponibles, quelques-unes se distinguent par leur rôle essentiel dans la saisie des différentes dimensions de la performance.
-
Précision : Il s’agit de la mesure la plus directe, qui représente la proportion de prédictions qu’un modèle réussit à faire. Elle s’applique à diverses tâches, de la classification à la réponse à des questions, et fournit une évaluation directe des performances d’un modèle.
-
Perplexité: elle mesure les capacités de prédiction linguistique d’un modèle. Une perplexité plus faible indique qu’un modèle est plus apte à prédire le mot suivant dans une séquence, ce qui suggère un niveau plus élevé de compréhension du langage. Cette mesure est particulièrement révélatrice dans des tâches telles que l’achèvement de textes ou la modélisation linguistique.
-
Score F1(précision et rappel) : Le score F1 combine la précision et le rappel en une seule mesure, équilibrant le fait de ne pas manquer d’instances pertinentes (rappel) et d’assurer des prédictions correctes (précision). Il est essentiel pour les tâches où l’équilibre entre ces facteurs est crucial, comme la recherche d’informations.
-
Score BLEU (Bilingual Evaluation Understudy): Il est adapté aux tâches de traduction. Il mesure à quel point la traduction d’un modèle correspond à un ensemble de traductions de référence de haute qualité, en évaluant la fluidité et la précision du texte traduit.
D’autres mesures méritent d’être mentionnées : ROGUE (Recall-Oriented Understanding for Gisting Evaluation) pour l’évaluation des tâches de résumé de texte et le score EM (Exact Match) pour la réponse aux questions. Toutes ces mesures révèlent différents aspects de la performance du LLM.
La perplexité mesure l’intuition linguistique, la précision mesure l’exactitude, le score F1 évalue le compromis entre la recherche exhaustive et la précision, et le score BLEU évalue la compréhension interlinguistique.
Ensemble, ils fournissent une image complète des capacités d’un LLM, garantissant que les modèles ne sont pas seulement statistiquement puissants mais aussi pratiquement compétents pour gérer les complexités du langage humain.
Benchmarks existants pour les tâches de ML #
L’évaluation des LLM dans les tâches de NLP et de compréhension du langage naturel (NLU) est cruciale pour déterminer leur efficacité et leur applicabilité. Plusieurs repères ont émergé en tant que normes industrielles, chacun avec son propre objectif et ses propres défis. Examinons quelques-uns des principaux critères : GLUE, SuperGLUE, HellaSwag, ARC et MMLU.
GLUE (General Language Understanding Evaluation) : GLUE est un ensemble de neuf tâches NLP, dont l’analyse des sentiments, l’implication textuelle et l’acceptabilité linguistique. Il est conçu pour évaluer la capacité des modèles à comprendre un texte. La force du GLUE réside dans son approche globale, qui couvre un large éventail de phénomènes linguistiques. Cependant, lorsque les modèles ont commencé à surpasser les performances humaines sur le GLUE, sa capacité à différencier des LLM plus avancés a diminué.
SuperGLUE (Super General Language Understanding) : Développé comme un successeur plus difficile du GLUE, le SuperGLUE consiste en des tâches qui requièrent une compréhension linguistique et logique plus profonde, telles que la réponse à des questions et la résolution de coréférences. La force de SuperGLUE réside dans sa complexité, qui met au défi même les LLM les plus sophistiqués. Sa limite, cependant, est qu’il peut encourager le surajustement, où les modèles sont excessivement ajustés à leurs tâches spécifiques.
HellaSwag (Harder Endings, Longer Contexts, and Low-shot Activities for Situations with Adversarial Generations) : Ce benchmark teste les capacités de raisonnement et de prédiction d’un modèle, en lui demandant de réaliser des scénarios réalistes. HellaSwag pousse les LLM à comprendre et à anticiper les situations du monde réel, un aspect essentiel du NLU. Sa limite réside dans le fait qu’il se concentre sur un type de raisonnement spécifique, ce qui ne permet pas d’évaluer de manière exhaustive la compréhension linguistique globale d’un modèle.
ARC (AI2 Reasoning Challenge) : L’ARC se concentre sur des questions scientifiques à choix multiples du niveau de l’école primaire. Il teste le raisonnement et la compréhension d’un modèle dans un domaine à forte intensité de connaissances. La force de l’ARC est d’évaluer la capacité d’un modèle à intégrer la compréhension du langage et les connaissances factuelles. Toutefois, sa nature spécialisée peut ne pas refléter les performances d’un modèle dans des tâches linguistiques plus larges.
MMLU (Massive Multitask Language Understanding) : Ajouté récemment, le MMLU évalue les modèles à travers 57 tâches couvrant un éventail de sujets et de langues. Il est conçu pour tester à la fois la profondeur et l’étendue de la compréhension. La force de MMLU réside dans sa diversité et son ampleur, ce qui en fait un critère de référence exigeant en termes de ressources.
Ces tests se concentrent sur des aspects spécifiques de la compréhension des langues, ce qui peut conduire à l’optimisation des modèles pour les conditions de test plutôt que pour l’applicabilité dans le monde réel. Il existe également un risque de surajustement des ensembles de données de référence. L’évolution des LLM s’accompagne de celle des critères de référence. Cela continuera à les rendre difficiles et pertinents pour refléter avec précision la nature diverse et nuancée du langage humain.
Orientation future de l’évaluation comparative des LLM #
À l’avenir, les LLM deviendront de plus en plus importants à mesure qu’ils comprendront mieux le langage et les contextes humains. Cela signifie que les tests d’évaluation doivent suivre les changements rapides et fournir des tests adéquats pour donner une bonne idée des performances sur différentes échelles de test.
Les modèles tels que GPT-4 et Gemini de Google parviennent de mieux en mieux à saisir les subtilités des conversations humaines, de sorte que les tests devront eux aussi être plus avancés. Ils devraient aller au-delà de l’utilisation d’ensembles de données fixes et s’efforcer de simuler des situations réelles.
Un autre défi consistera à gérer la taille de ces modèles. À mesure qu’ils deviennent de plus en plus complexes, les tests nécessitent une puissance informatique considérable, ce qui peut rendre leur utilisation plus difficile pour les chercheurs et les développeurs.
En outre, étant donné que ces modèles sont de plus en plus utilisés dans les applications quotidiennes, les tests ne doivent pas seulement porter sur leur efficacité technique, mais aussi sur l’équité et l’éthique de leur fonctionnement. Cela signifie qu’il faut s’assurer que les modèles ne favorisent pas certains groupes et qu’ils respectent la vie privée. Il s’agit d’une tâche importante pour les personnes chargées des tests.
- Comment exploiter FAL et Flux pour créer des images ultra-réalistes avec ton visage - 5 février 2025
- Les films à regarder sur l’intelligence artificielle - 4 février 2025
- NotebookLM et Veed.io : Créez des podcasts immersifs en un temps record - 4 février 2025