Transformers (Transformateurs)

Updated on 30 janvier 2025

Temps de lecture estimé: 12 min de temps de lecture

Contrairement aux modèles précédents (comme les RNN et les CNN), les Transformers peuvent traiter simultanément de vastes séquences de données pour une analyse plus nuancée du texte, de la parole, de la reconnaissance d’images et de l’édition vidéo. Ce traitement parallèle renforce l’efficacité et permet de mieux comprendre les données sous-jacentes que les méthodes séquentielles traditionnelles.

Transformers est issu de l’article de 2017intitulé « Attention Is All You Need » (L’attention est tout ce dont vous avez besoin). Cet article présente l’auto-attention, une extension du mécanisme d’attention qui permet aux Transformers de se concentrer sélectivement sur différentes parties des séquences d’entrée, ce qui est essentiel pour comprendre le contexte et les relations au sein des données.

Ils excellent dans la gestion de grands ensembles de données, dans l’apprentissage à partir du contexte et dans le traitement d’informations en parallèle. Ces capacités les rendent très efficaces dans diverses applications, de la reconnaissance d’images avancée à la traduction automatique. Par exemple, les chatbots et les générateurs d’art tels que Stable Diffusion et DALL-E, qui créent un contenu visuel à partir d’un texte, utilisent les Transformers comme colonne vertébrale architecturale.

Comprendre les transformateurs #

Prenons l’exemple de la lecture d’un roman complexe. Au lieu de s’attaquer à une phrase à la fois, on examine la page entière pour en avoir une compréhension globale. Cela reflète le fonctionnement des transformateurs dans l’apprentissage automatique, à savoir l’examen de séquences entières de données dans leur ensemble.

Contrairement aux RNN, aux GRU et aux LSTM qui traitent les données de manière séquentielle (mot par mot ou moment par moment), les transformateurs évaluent simultanément l’ensemble de la séquence de données, ce qui permet une compréhension plus riche du contexte.

Par exemple, traduisez la phrase suivante : « La banque est fermée aujourd’hui :

« La banque est fermée aujourd’hui« .

Un RNN pourrait confondre « banque » avec une rive ou une institution financière, ce qui pourrait nuire à la précision de la traduction. En revanche, un transformateur traite l’ensemble de la phrase simultanément pour détecter que le jeton « bank » fait référence à une institution financière parce que le contexte dépend de « closed », ce qui conduit à une traduction plus précise.

Les RNN peuvent être lents avec de longues séquences, s’efforçant de retenir des informations éloignées. Les transformateurs, en revanche, sont plus rapides et plus efficaces, ce qui les rend plus aptes à traiter de grands ensembles de données et des tâches complexes telles que la traduction linguistique et le traitement vidéo.

Principaux composants des transformateurs #

Les transformateurs sont constitués de plusieurs composants qui contribuent à leur efficacité, comme le montre l’architecture ci-dessous, tirée de l’article original.

Architecture du codeur et du décodeur :

Les transformateurs ont une structure codeur-décodeur : le codeur (à gauche) traite les données d’entrée (comme une phrase dans une tâche de traduction) et les représente sous la forme d’une compréhension riche et contextualisée. Cette représentation contient des informations sur chaque mot et ses relations, capturant le contexte et les nuances des données d’entrée.

Le décodeur (à droite) utilise ensuite cette représentation pour générer une sortie basée sur la tâche de ML. Cette architecture excelle dans les tâches génératives utilisant la compréhension riche et contextuelle de l’encodeur.

Mécanisme d’auto-attention

Au cœur de Transformers se trouve le mécanisme d’attention, qui permet au modèle de se concentrer sélectivement (d’accorder de l' »attention ») sur certaines parties de l’entrée. Cette attention est essentielle pour comprendre le contexte de l’entrée et les connexions entre les différents éléments.

Chez l’encodeur, l’auto-attention implique l’analyse de chaque partie de l’entrée en relation avec les autres, ce qui l’aide à obtenir une image complète de l’ensemble des données. Ce processus permet au codeur de saisir efficacement le contenu et le contexte.

Pour le décodeur, l’auto-attention fonctionne différemment. Il commence par une série d’entrées et utilise les informations de l’encodeur et ses sorties précédentes pour faire des prédictions. Comme pour la construction d’une phrase, le décodeur ajoute un mot et l’évalue en continu jusqu’à ce qu’une déclaration ou une phrase complète soit formée, généralement dans une limite fixée par l’utilisateur.

Attention multi-têtes

S’appuyant sur le mécanisme d’auto-attention, le composant d’attention multi-têtes de Transformers va encore plus loin. Le codeur et le décodeur permettent au modèle de se concentrer simultanément sur différentes parties de l’entrée à partir de perspectives multiples. Au lieu d’avoir une seule « paire d’yeux » pour regarder les données, le transformateur en a plusieurs, chacune fournissant un point de vue unique.

Dans l’encodeur, l’attention de plusieurs têtes dissèque l’entrée, chaque « tête » se concentrant sur différents aspects des données. Par exemple, dans une phrase, une tête peut se concentrer sur la syntaxe, une autre sur la signification sémantique et une autre sur les indices contextuels.

De la même manière, l’attention portée par plusieurs têtes améliore la précision des résultats du modèle dans le décodeur. Le fait de considérer le résultat de l’encodeur sous plusieurs angles permet au décodeur de faire des prédictions éclairées sur l’élément suivant de la séquence. Chaque tête du décodeur prête attention à l’entrée (via la représentation du codeur) et à ce que le décodeur a déjà généré.

Encastrements d’entrée et de sortie

Dans le modèle Transformer, les encastrements d’entrée transforment les données brutes en un espace vectoriel à haute dimension pour l’encodeur. Il est ainsi plus facile pour le codeur de traiter des mots ou des éléments isolés. Le modèle apprend ces enchâssements, ce qui l’aide à comprendre les différentes entrées.

De même, les encastrements de sortie dans le décodeur convertissent les prédictions en un format vectoriel pour générer un texte lisible par l’homme, qui est également appris au cours de la formation et qui est essentiel pour obtenir des résultats significatifs. Les encodages d’entrée et de sortie sont tous deux très importants pour permettre au transformateur de traiter plus facilement un large éventail de tâches, en veillant à ce que les résultats soient corrects et utiles.

Encodage positionnel

Le maintien de l’ordre des données d’entrée constitue un défi unique pour les transformateurs, car le modèle ne dispose pas d’une compréhension intégrée des séquences par rapport aux RNN. Pour y remédier, les transformateurs utilisent le codage positionnel, en attribuant à chaque élément une valeur de position basée sur son ordre de séquence.

Par exemple, dans une phrase :

Chaque mot reçoit une valeur de position unique. De cette manière, le modèle connaît chaque partie de l’entrée et sa position dans la séquence. Cette configuration garantit que les transformateurs traitent efficacement les tâches en capturant les relations contextuelles et les détails des données individuelles, en utilisant les mécanismes d’attention pour le contexte et les réseaux neuronaux en amont (FFNN) pour affiner les caractéristiques spécifiques.

Réseaux neuronaux Feed-Forward (FFNN)

Dans l’architecture Transformer, le codeur et le décodeur comportent un élément clé appelé FFNN. Après avoir traversé les mécanismes d’attention, le FFNN de chaque couche traite indépendamment chaque position de la séquence d’entrée. La structure du FFNN implique deux transformations linéaires avec une fonction d’activation non linéaire entre les deux, ce qui lui permet d’apprendre des modèles de données complexes.

Normalisation des couches et connexions résiduelles

Les transformateurs utilisent la normalisation des couches et les connexions résiduelles pour améliorer l’efficacité de la formation. La normalisation des couches stabilise l’apprentissage et les connexions résiduelles facilitent le flux d’informations entre les couches sans perte.

Stratégies de formation et techniques de régularisation

Les Transformers utilisent des stratégies de formation avancées telles que l’écrêtage du gradient, la planification du taux d’apprentissage et des techniques de régularisation telles que l’abandon. Ces méthodes empêchent le surajustement et contribuent à la formation efficace de grands modèles sur de vastes ensembles de données.

Comment fonctionnent les transformateurs : Une explication simplifiée #

Dans un transformateur, l’encodeur commence par traiter une entrée, comme une phrase, en utilisant les encastrements d’entrée et l’encodage positionnel pour comprendre chaque mot et sa position. Le mécanisme d’auto-attention examine ensuite les relations entre les mots, créant ainsi une carte contextuelle détaillée.

Ces informations sont transmises au décodeur, qui utilise son auto-attention et les connaissances de l’encodeur pour prédire la partie suivante de la sortie, comme une phrase traduite. Les encastrements de sortie du décodeur transforment ces prédictions en format de sortie final.

Tout au long du processus, les réseaux neuronaux de type « feed-forward » et la normalisation des couches garantissent un traitement sans heurts. Ces composants permettent aux transformateurs de traduire efficacement des entrées complexes en sorties cohérentes, en équilibrant le contenu détaillé avec le contexte général.

Importance des transformateurs #

Les transformateurs excellent grâce à leurs capacités de traitement parallèle, qui leur permettent de traiter efficacement de vastes ensembles de données. Leur compréhension bidirectionnelle du contexte améliore la précision de l’interprétation des données. Leur architecture flexible s’adapte bien à des tâches telles que la traduction linguistique et le traitement d’images.

Grâce à des fonctionnalités telles que l’attention multi-têtes et la prise en charge de l’apprentissage par transfert, les transformateurs sont efficaces avec les grands ensembles de données et précieux pour diverses applications d’intelligence artificielle.

Modèles de transformateurs courants #

BERT(Bidirectional Encoder Representations from Transformers) : Développé par Google, BERT est un modèle de codeur uniquement largement utilisé pour les tâches de classification, y compris l’analyse des sentiments. Sa force réside dans la compréhension du contexte d’un mot dans une phrase, ce qui le rend efficace pour diverses tâches de NLP.
Série GPT(Generative Pre-trained Transformer) : La série GPT de l’OpenAI, en particulier le GPT-4 LLM (large language model), est réputée pour ses capacités de génération de texte. En tant que modèle de décodage uniquement, il excelle dans la création de textes cohérents et pertinents sur le plan contextuel, contribuant ainsi de manière significative aux avancées dans le domaine des modèles de langage.
T-5 (transformateur de transfert texte à texte): Doté d’une architecture codeur-décodeur, le T-5 est polyvalent dans le traitement de diverses tâches NLP. Il peut comprendre et générer du texte, gérer des tâches dans un format texte à texte, y compris des applications telles que la traduction d’images.
ViT(Vision Transformer) : Les transformateurs de vision (ViT) de Google sont essentiels dans le domaine de la vision par ordinateur, car ils améliorent des tâches telles que la classification d’images et la détection d’objets. Ils représentent un changement important dans la manière dont les images sont analysées, en appliquant les techniques de transformation aux données visuelles.
Whisper: Développé par OpenAI, Whisper est un modèle spécialement conçu pour la reconnaissance vocale et le traitement audio. Il illustre la capacité des Transformers à transcrire avec précision la parole, un développement crucial dans la technologie de l’analyse audio.

Applications de Transformers #

Tâches detraitement du langage naturel (NLP ) : Dans le domaine du traitement du langage naturel, ils sont utilisés pour des tâches telles que la traduction, le résumé de texte et l’analyse des sentiments, comme le montrent des modèles tels que la série GPT d’OpenAI et le BERT de Google.
Tâches de vision artificielle (CV) : Les transformateurs permettent d’améliorer la classification des images et la détection des objets. Ils sont des composants clés de modèles tels que les Vision Transformers (ViTs) de Google, qui améliorent considérablement les capacités d’analyse d’images.

Tâches dereconnaissance vocale: Pour la reconnaissance vocale et le traitement audio, des modèles tels que Whisper d’OpenAI démontrent l’efficacité des transformateurs dans la transcription précise de la parole.
Tâches de prévision : Dans le domaine de l’analyse prédictive, les transformateurs contribuent aux prévisions financières et météorologiques. Ils jouent également un rôle dans l’amélioration des systèmes de recommandation et dans l’enrichissement des expériences des utilisateurs sur les plateformes de streaming telles que Netflix et Amazon.

Les diverses applications des transformateurs dans le traitement de données complexes soulignent leur rôle essentiel dans l’évolution de la technologie de l’IA.

Limites des transformateurs #

Nécessité de grands ensembles de données : Les transformateurs nécessitent de grands ensembles de données d’entraînement pour produire de bons résultats, ce qui peut s’avérer peu pratique lorsque les données sont limitées.
Architecture gourmande en ressources informatiques : Leur architecture complexe exige une puissance de calcul et une énergie considérables, ce qui pose des problèmes dans les environnements où les ressources sont limitées.
Biais dans les données d’apprentissage : les biais dans les données d’apprentissage peuvent également poser problème, car ils peuvent se refléter dans les résultats du modèle.
Pas efficace pour les tâches simples : Bien que polyvalents, les transformateurs ne sont pas toujours les plus efficaces pour les tâches simples, et leur processus de prise de décision peut manquer de transparence, en particulier dans des domaines critiques tels que les soins de santé.

En raison de ces problèmes, des recherches continues sont nécessaires pour améliorer l’efficacité des transformateurs et leur utilisation éthique.

Perspectives d’avenir et innovations #

Les recherches actuelles sur les transformateurs d’IA visent à apporter de nouvelles avancées dans divers secteurs.

Diagnostic et planification de traitements précis : Nous pouvons nous attendre à des outils de détection et d’analyse des maladies plus précis dans le domaine des soins de santé.
Une IA conversationnelle plus avancée : en ce qui concerne le langage et la communication, les transformateurs sont susceptibles de progresser davantage dans la traduction et la compréhension précises, ce qui permettra d’éliminer les barrières linguistiques de manière plus efficace.
De meilleurs outils créatifs d’IA : Dans les domaines créatifs, l’utilisation de l’IA pour générer des contenus artistiques et de conception devrait se développer.
Informatique quantique et transformateurs : La combinaison des transformateurs avec l’informatique quantique est un domaine prometteur qui pourrait débloquer des capacités de traitement de données encore plus rapides.

À propos
Articles récents

Mathieu

Ingénieur passionné d'intelligence artificielle et développeur Python. Fondateur de la newsletter "la-minute-ia.fr", je décrypte chaque semaine l'actualité de l'IA. Digital nomad dans l'âme, je partage mon temps entre développement, veille technologique et découverte du monde.

Les derniers articles par Mathieu (tout voir)