Multimodal AI Models and Modalities (Modèles et modalités de l’IA multimodale)

Updated on 30 janvier 2025

Temps de lecture estimé: 22 min de temps de lecture

Introduction #

Nous disposons aujourd’hui d’une grande quantité de données, tant sous forme numérique que physique. Par conséquent, il existe une demande croissante de systèmes capables de donner un sens à cette vaste quantité d’informations. C’est ainsi qu’est née l’IA multimodale, un domaine de pointe qui vise à créer des systèmes capables de comprendre le monde et d’interagir avec lui d’une manière plus nuancée et plus humaine.

L’IA multimodale intègre différents types de données, comme le texte, les images et le son, afin d’obtenir une compréhension plus complète du monde. En combinant de manière transparente ces divers flux de données, les systèmes d’IA multimodale peuvent imiter la cognition humaine, ce qui nous rapproche plus que jamais de la création d’une IA qui nous comprend vraiment et interagit avec nous.

La cross-modalité pousse cette intégration un peu plus loin, en se basant sur le principe de l’IA multimodale. Elle implique l’utilisation parallèle de différents types de données et la traduction entre eux, comme la conversion de descriptions textuelles en images ou la synthèse de la parole à partir du texte. Cette communication multimodale est essentielle pour développer une IA capable non seulement de comprendre, mais aussi de traduire et d’exprimer des concepts à travers différents sens, améliorant ainsi la capacité de l’IA à interagir dans des environnements complexes et à effectuer des tâches qui requièrent un niveau de compréhension cognitive plus approfondi.

Modèles d’IA multimodale #

Des modèles tels que Mistral, ImageBind et LLaVA contribuent de manière significative à la recherche sur l ‘IA multimodale. Ce glossaire explore leurs applications et leurs performances.

Mistral #

Mistral est un modèle de langage large (LLM) open-source développé par Mistral AI qui peut traiter de très longues séquences de texte de manière efficace et rapide. Mistral se distingue par son architecture, qui permet une inférence plus rapide avec moins de paramètres, ce qui le rend adapté aux applications qui nécessitent le traitement de grandes séquences de texte.

L’architecture du modèle est basée sur un mélange d’experts(MoE), ce qui lui permet de traiter et de générer du texte efficacement à travers différentes modalités, y compris le traitement dulangage naturel (NLP) et la compréhension du langage naturel(NLU).

Composants architecturaux de Mistral

L’architecture de Mistral se compose principalement des éléments suivants :

Couche d’auto-attention : Mise en œuvre par le biais de l’attention à fenêtre glissante, de l’attention aux requêtes groupées et du cache KV à tampon roulant. L’attention à fenêtre glissante, combinée au cache KV, contribue à la vitesse de Mistral et à sa capacité à traiter de grandes séquences.
Couche d’activation (SiLU) : Utilise la fonction d’activation SiLU pour une précision et une efficacité accrues.
RMS Norm : Utilise la normalisation de la moyenne quadratique(RMSNorm), qui est simple et efficace sur le plan du calcul.
Couches de décodeurs de transformateurs : Mistral comprend « N » couches de décodeur de transformateur, où « N » est égal à 32, ce qui indique la profondeur de l’architecture du modèle.

Caractéristiques et capacités de Mistral

Traitement efficace des longues séquences : Capacité à traiter de très longues séquences de texte.

Inférence rapide : L’architecture permet une inférence plus rapide, ce qui la rend adaptée aux applications en temps réel.

LLaVA #

LLaVA, qui signifie Large Language and Vision Assistant, est un modèle multimodal développé pour améliorer l’intégration des données visuelles et textuelles. Il combine un encodeur de vision avec un grand modèle de langage, Vicuna, pour permettre la compréhension visuelle et linguistique.

LLaVA a été spécialement conçu pour comprendre et produire du contenu dans différentes modalités, telles que le texte, les images et l’audio. Il possède d’impressionnantes capacités de chat et fait preuve d’une précision de pointe dans des tâches telles que l’assurance qualité en sciences (questions-réponses).

Composants architecturaux de LLaVA

L’architecture se compose principalement des éléments suivants :

Architecture du transformateur : LLaVA est basé sur l’architecture du transformateur, un modèle d’apprentissage profond qui utilise un mécanisme d’auto-attention pour évaluer l’importance des différentes parties des données d’entrée.
Modèle linguistique autorégressif : Il utilise des techniques autorégressives pour prédire le mot suivant d’une séquence en fonction des mots qui l’ont précédé.
Encodeur visuel : Pour le traitement du contenu visuel, LLaVA utilise l’encodeur visuel CLIP ViT-L/14 pré-entraîné, qui extrait les caractéristiques visuelles des images d’entrée.
Modèle linguistique : LLaVA utilise le modèle LLaMA 2 pour les tâches linguistiques, qui est réputé pour son efficacité dans les projets de mise au point d’instructions en langue seule à source ouverte.

Caractéristiques et capacités

Capacités de chat impressionnantes : LLaVA présente des capacités de chat qui rivalisent avec le GPT-4V multimodal d’OpenAI, offrant une précision de pointe dans l’assurance qualité scientifique.
Réglage des instructions visuelles : Le modèle utilise l’optimisation des instructions visuelles, qui consiste à affiner un grand modèle de langage pour comprendre et exécuter des instructions basées sur des indices visuels.

Efficacité : LLaVA termine l’entraînement de son modèle 13B en une journée en utilisant 8 A100, ce qui le rend très efficace.

ImageBind

Meta a créé ImageBind, un modèle d’IA avancé capable de comprendre et de combiner des données provenant de différentes modalités pour produire un espace de représentation unifié. Dans cet espace, les données provenant de différentes modalités – images, texte et audio – sont converties dans un format qui peut être traité et compris uniformément par le modèle. Ce modèle peut traiter des données provenant de six modalités distinctes : images, texte, audio, images de profondeur, images thermiques et unités de mesure inertielle(IMU).

ImageBind parvient à une compréhension plus complète et holistique du monde en utilisant ces modalités. Cela améliore sa capacité à analyser et à interpréter des ensembles de données complexes.

Composants architecturaux d’ImageBind

Les composants architecturaux d’ImageBind sont les suivants :

Encodeurs séparés : Utilise des encodeurs individuels pour chaque modalité : image, texte, audio, image thermique, image de profondeur et IMU.
Têtes de projection linéaire : Ajout d’une tête de projection linéaire spécifique à chaque modalité à chaque encodeur pour obtenir des encastrements à dimension fixe.
Normalisation et perte InfoNCE : les enregistrements sont normalisés et utilisés pour l’apprentissage de la fonction de perte InfoNCE.
Espace d’intégration commun : Crée un espace de représentation unifié pour la comparaison directe et la combinaison de différentes modalités.

Caractéristiques et capacités

Compréhension multimodale : ImageBind peut prévoir les relations entre les données provenant des modalités prises en charge. Cela lui permet d’effectuer des tâches telles que la recherche multimodale, la composition de modalités avec l’arithmétique, ainsi que la détection et la génération multimodales. Cette capacité permet de nouvelles applications telles que la génération d’images à partir de sons ou la combinaison d’entrées provenant de différentes modalités pour créer de nouvelles œuvres dérivées.
Apprentissage à partir de zéro et à partir de peu d’images : Ces techniques d’apprentissage sont conçues pour créer un espace d’intégration unifié pour différentes modalités. Cela permet à ImageBind de généraliser des catégories vues à des catégories non vues sans avoir besoin d’exemples explicites appariés pour chaque cas, d’où la capacité « zero-shot ». Dans le cas de l’apprentissage « à quelques reprises », le modèle peut s’adapter rapidement à de nouvelles tâches avec un minimum d’exemples grâce aux riches représentations apprises au cours de la formation.

Capacités émergentes : Les performances et les capacités émergentes d’ImageBind s’améliorent avec la puissance de l’encodeur d’images. Cela indique que l’amélioration de la qualité des caractéristiques visuelles peut stimuler les performances de reconnaissance, même dans les modalités non visuelles. Le modèle établit une nouvelle référence en matière d’état de l’art, surpassant les modèles supervisés par des spécialistes dans diverses tâches.

Gen 2 #

Runway Research a créé Gen-2. Ce modèle d’IA génératif utilise la méthode de pointe de la diffusion stable pour apprendre à partir de vastes ensembles de données vidéo et générer des sorties vidéo de haute qualité. Ce modèle, qui s’appuie sur les caractéristiques fondamentales de son prédécesseur, Gen 1, est capable de synthétiser des vidéos à partir de textes ou d’images, créant ainsi des vidéos réalistes et cohérentes.

Composants architecturaux de Gen 2

Bien que Runway n’ait pas encore publié le document relatif à Gen2, nous pouvons en déduire l’architecture en nous basant sur l’un de leurs travaux les plus récents, intitulé Structure and Content-Guided Video Synthesis with Diffusion Models (Synthèse vidéo guidée par la structure et le contenu à l’aide de modèles de diffusion).

L’utilisation de CLIP embeddings pour la représentation du contenu, améliorant la sensibilité aux caractéristiques sémantiques et stylistiques.
Mise en œuvre de la diffusion latente spatio-temporelle pour modéliser les relations entre les images dans les vidéos.
Extension des architectures UNET basées sur l’image à la vidéo en incorporant des couches temporelles.
Un autoencodeur qui traite chaque image vidéo indépendamment mais dans le contexte de la structure globale de la vidéo.
Optimisation du modèle à l’aide d’une perte par exemple pendant l’apprentissage, avec des adaptations pour l’édition vidéo guidée par un texte pendant l’inférence.

Caractéristiques et capacités

Synthèse vidéo : Il peut synthétiser des vidéos à partir de textes ou d’images, transformant des entrées statiques en contenu vidéo dynamique.
Technique de diffusion stable : Elle utilise la diffusion stable pour l’apprentissage à partir d’ensembles de données vidéo, ce qui contribue à la haute qualité des vidéos générées.

Contrôle et expressivité : Offre des outils tels que Runway Motion Brush pour plus d’expressivité et de contrôle sur les vidéos générées.

CLIP #

CLIP (Contrastive Language-Image Pre-training) est un modèle développé par OpenAI qui comble le fossé entre les données visuelles et textuelles. Il est conçu pour comprendre et catégoriser les images en s’appuyant sur des descriptions en langage naturel. Ce modèle représente un changement significatif par rapport aux approches traditionnelles, qui nécessitent généralement de vastes ensembles de données étiquetées pour chaque nouvelle tâche. Au contraire, CLIP peut s’adapter à diverses tâches sans avoir besoin de données d’entraînement spécifiques.

Composants architecturaux de CLIP

L’architecture de CLIP se compose des éléments suivants :

Cadre d’apprentissage contrastif : CLIP utilise une approche d’apprentissage contrastif pour aligner les représentations de textes et d’images dans un espace d’intégration partagé.
Encodeurs doubles : Il s’agit de deux encodeurs distincts, l’un pour le traitement des images et l’autre pour le traitement du texte.
Transformateur de vision (ViT) : Le codeur d’images est un transformateur de vision qui traite les entrées visuelles.
Codeur de texte basé sur un transformateur : Le codeur de texte est un modèle basé sur un transformateur qui traite les entrées textuelles.

Caractéristiques et capacités

Apprentissage à partir de zéro : L’une des caractéristiques les plus remarquables de CLIP est sa capacité à effectuer un apprentissage« à partir de zéro« . Cela signifie qu’une fois formé, le CLIP peut être appliqué à de nouvelles tâches sans aucun réglage supplémentaire, simplement en fournissant des descriptions textuelles pertinentes de la tâche en question.
Polyvalence : La capacité de CLIP à comprendre et à traiter des images et du texte le rend très polyvalent. Il peut être utilisé pour diverses applications, notamment la classification d’images, la détection d’objets et même la génération de descriptions textuelles d’images.

Compréhension sémantique : Grâce à son approche d’apprentissage contrastif, CLIP acquiert une compréhension sémantique profonde du contenu des images et des textes, ce qui lui permet d’effectuer des tâches nécessitant une compréhension nuancée des données visuelles et textuelles.

Flamingo #

Flamingo est un modèle de langage visuel (VLM) développé par DeepMind, conçu pour effectuer des tâches nécessitant la compréhension d’informations visuelles et textuelles.

Flamingo se distingue comme une avancée de pointe parce qu’il intègre les capacités des modèles de vision et de langage, ce qui lui permet de traiter et de générer des réponses basées sur une combinaison d’entrées textuelles et visuelles. Cette intégration permet à Flamingo d’exceller dans diverses tâches, telles que répondre à des questions sur des images, générer des descriptions textuelles de contenu visuel et engager des dialogues qui nécessitent la compréhension du contexte visuel.

Composants architecturaux de Flamingo

Les principaux composants architecturaux de Flamingo peuvent être résumés comme suit :

Modèles pré-entraînés uniquement pour la vision et uniquement pour le langage : Flamingo fait le lien entre de puissants modèles de vision seule et de langage pré-entraînés.
Couches d’attention croisée entrelacées : Les couches d’attention croisée sont entrelacées avec les couches d’auto-attention linguistiques (gelées) afin d’aligner les informations visuelles et textuelles.
Architecture basée sur les récepteurs : Transforme les données séquentielles d’entrée (vidéos) en un nombre fixe de jetons visuels.

Caractéristiques et capacités

Raisonnement par chaîne de pensée : Flamingo peut effectuer des tâches de raisonnement complexes en générant des explications textuelles intermédiaires qui comblent le fossé entre les entrées visuelles et la réponse finale, ce qui permet d’obtenir des résultats plus nuancés et plus précis.
Apprentissage en quelques étapes : Flamingo peut s’adapter à de nouvelles tâches avec un minimum d’exemples, ce qui lui permet de surpasser les modèles qui nécessitent une mise au point approfondie sur de vastes ensembles de données.

Des performances de pointe : Flamingo a obtenu de nouveaux résultats de pointe sur de nombreux benchmarks, y compris des tâches de réponse à des questions visuelles et de sous-titrage.

CogVLM #

CogVLM (Cognitive Visual Language Model) est un modèle de langage visuel open-source développé pour améliorer l’intégration de données visuelles et textuelles. Il comble le fossé entre la vision et la compréhension du langage. Contrairement aux modèles traditionnels qui utilisent une méthode d’alignement superficielle, CogVLM réalise une fusion profonde des caractéristiques visuelles et linguistiques sans compromettre les performances des tâches NLP.

Il a démontré des performances de pointe sur de nombreux bancs d’essai multimodaux classiques, notamment NoCaps, Flicker30k captioning, RefCOCO et d’autres, démontrant ainsi son efficacité dans diverses applications.

Composants architecturaux de Flamingo

Les principaux composants architecturaux de Flamingo peuvent être résumés comme suit :

Modèles pré-entraînés de vision seule et de langage seul : Flamingo fait le lien entre de puissants modèles pré-entraînés de vision seule et de langage seul.
Couches d’attention croisée entrelacées : Les couches d’attention croisée sont entrelacées avec les couches d’auto-attention linguistiques (gelées) afin d’aligner les informations visuelles et textuelles.
Architecture basée sur les récepteurs : Transforme les données séquentielles d’entrée (vidéos) en un nombre fixe de jetons visuels.

Caractéristiques et capacités

Raisonnement par chaîne de pensée : Flamingo peut effectuer des tâches de raisonnement complexes en générant des explications textuelles intermédiaires qui comblent le fossé entre les entrées visuelles et la réponse finale, ce qui permet d’obtenir des résultats plus nuancés et plus précis.
Apprentissage en quelques étapes : Flamingo peut s’adapter à de nouvelles tâches avec un minimum d’exemples, ce qui lui permet de surpasser les modèles qui nécessitent une mise au point approfondie sur de vastes ensembles de données.

Des performances de pointe : Flamingo a obtenu de nouveaux résultats de pointe sur de nombreux points de référence, y compris des tâches de réponse à des questions visuelles et de sous-titrage.

Qwen-VL-Plus #

Alibaba Cloud a créé le Qwen-VL, un modèle de vision-langage à grande échelle ; le Qwen-VL-Plus en est une version améliorée. Il est conçu pour percevoir et comprendre les textes et les images, et fait des progrès considérables en matière de reconnaissance à haute résolution, d’analyse de texte et de raisonnement sur les images.

Qwen-VL-Plus peut extraire efficacement des informations de tableaux et de documents et les reformater. Il dispose également d’un mécanisme efficace pour identifier et convertir les textes denses, ce qui est très efficace pour traiter les documents contenant beaucoup d’informations. Il prend en charge les images avec des rapports d’aspect extrêmes, ce qui garantit la flexibilité nécessaire au traitement de divers contenus visuels.

Composants architecturaux de Qwen-VL-Plus

Les principaux composants architecturaux de Qwen-VL-Plus sont les suivants :

Q-Former : Un codeur BERT entraînable avec une tête de modélisation du langage causal, semblable à GPT, conçu pour combler l’écart de modalité entre les informations visuelles et textuelles.
Transformateur d’images : Interagit avec un codeur d’images gelées pour extraire les caractéristiques visuelles.
Transformateur de texte : Fonctionne à la fois comme un codeur et un décodeur de texte, traitant et générant du texte.
Embeddings de requêtes pouvant être appris : Un nombre fixe de query embeddings formables pour l’alignement des modalités, interagissant entre eux et avec les caractéristiques de l’image gelée par le biais de couches d’auto-attention et d’attention croisée.
Couches d’attention croisée : Intégrées à toutes les deux couches de BERT, initialisées de manière aléatoire et cruciales pour l’alignement des modalités.
Initialisation de la base BERT : Q-Former est initialisé avec les poids pré-entraînés de BERTbase, tandis que les couches d’attention croisée sont initialisées de manière aléatoire.

Caractéristiques et capacités

Reconnaissance haute résolution : Il prend en charge les images haute définition d’une résolution supérieure à un million de pixels et les images de différents rapports d’aspect.
Analyse de texte : Il améliore considérablement le traitement du texte dans les images, notamment en ce qui concerne la reconnaissance du texte chinois et anglais.
Capacités de raisonnement sur les images : Il améliore considérablement les capacités de raisonnement liées à l’image.

Capacités de reconnaissance détaillée : Il améliore considérablement la reconnaissance, l’extraction et l’analyse des détails dans les images et les textes.

SeamlessM4T #

SeamlessM4T est un ensemble de modèles développés pour fournir une traduction de haute qualité et permettre la communication entre différentes communautés linguistiques par le biais de la parole et du texte. Il est conçu pour traiter des tâches multiples sans s’appuyer sur des modèles distincts pour chacune d’entre elles.

Les tâches prises en charge par SeamlessM4T comprennent la traduction de la parole vers la parole (S2ST), la traduction de la parole vers le texte (S2TT), la traduction du texte vers la parole (T2ST), la traduction du texte vers le texte (T2TT) et la reconnaissance automatique de la parole (ASR). Chaque tâche a son propre sous-modèle, mais le modèle SeamlessM4TM peut exécuter toutes les tâches susmentionnées.

Composants architecturaux de SeamlessM4T

Les composants architecturaux de SeamlessM4T sont les suivants :

Modèles séquence à séquence : Deux modèles seq2seq permettent d’effectuer des tâches telles que la traduction de la parole à la parole (S2ST), la traduction de la parole au texte (S2TT), la traduction du texte à la parole (T2ST), la traduction du texte au texte (T2TT) et la reconnaissance automatique de la parole(ASR).
Paramètres de configuration partagés : Comprend la taille cachée, la plage d’initialisation et la norme de couche epsilon, ce qui permet de normaliser la dimensionnalité et l’initialisation des sous-modèles.
Intégration de UnitY pour S2ST : UnitY est utilisé pour la traduction de la parole vers la parole, ce qui permet de résoudre les problèmes de propagation des erreurs et d’inadéquation des domaines, fréquents dans les systèmes en cascade.
Encodeurs dédiés à chaque modalité : Des encodeurs uniques pour les modalités texte et parole, assurant un traitement efficace des entrées multimodales.
Vocodeur inspiré du HiFi-GAN : Pour la sortie vocale, il utilise un vocodeur basé sur l’architecture HiFi-GAN, ce qui améliore la qualité de la génération vocale.
Fairseq2 pour une modélisation efficace : Exploite la nouvelle version de fairseq2 pour une boîte à outils de modélisation de séquences légère et efficace, améliorant ainsi les performances et l’efficacité.

Caractéristiques et capacités

Multitâche : Il peut effectuer diverses tâches de traduction et de reconnaissance dans différentes modalités à l’aide d’un seul modèle.
Traduction multimodale : Le modèle excelle dans la traduction et la transcription de la parole et du texte dans plusieurs langues, offrant ainsi une solution unifiée pour la traduction multimodale.
Prise en charge de plusieurs langues : SeamlessM4T prend en charge près de 100 langues, ce qui en fait un modèle de traduction et de transcription multilingue complet.

Modèle multilingue unifié : Il fonctionne comme un modèle unifié, produisant directement des résultats de traduction précis sans nécessiter de modèles intermédiaires.

BakLLaVA #

BakLLaVA est un grand modèle multimodal (LMM) développé en collaboration par LAION, Ontocord et Skunkworks AI. BakLLaVA utilise une base Mistral 7B et est complété par l’architecture LLaVA 1.5, démontrant ses capacités de traitement et de génération de contenu à travers différentes modalités.

Composants architecturaux de BakLLaVA

Les principaux composants de l’architecture de BakLLaVA sont les suivants :

Base Mistral 7B : BakLLaVA utilise une base Mistral 7B, qui est un composant fondamental de son architecture.
LLaVA 1.5 : elle intègre l’architecture LLaVA 1.5, qui comprend un encodeur de vision et Vicuna pour le traitement des informations visuelles et textuelles.

Caractéristiques et capacités

Génération de contenu : BakLLaVA peut générer du contenu qui mélange du texte, de la voix, des images et d’autres formes de données, mettant ainsi en évidence ses capacités de génération.
Accessibilité : Le modèle peut être exécuté sur des appareils dotés de ressources GPU adéquates, ce qui le rend accessible à de nombreux utilisateurs et applications.

PaLM-E #

PaLM-E (Pathways Language Model-Embodied) est un modèle de langage multimodal avancé. Il a été créé pour simplifier la combinaison de données visuelles et textuelles avec des observations corporelles continues telles que des images, des estimations d’état ou d’autres modalités de capteurs. PaLM-E peut faire beaucoup de choses, comme planifier des manipulations robotiques séquentielles, répondre à des questions visuelles et légender des scènes. Pour ce faire, il intègre directement les modalités des capteurs continus du monde réel dans les modèles de langage.

Composants architecturaux du PaLM-E

L’architecture de Palm-E se compose principalement des éléments suivants :

Modèle de transformateur à décodeur dense uniquement : Le PaLM-E est basé sur une architecture Transformer à décodeur dense uniquement, qui est un type de modèle d’apprentissage profond utilisant des mécanismes d’auto-attention.
Espace d’intégration unifié : Les entrées continues sont mappées dans un espace qui ressemble à des « mots », ce qui permet aux encastrements de mots et d’images d’avoir la même dimensionnalité et d’être introduits dans le modèle de langage.
Initialisation des composants pré-entraînés : PaLM-E est initialisé avec des modèles pré-entraînés pour les composantes langage (PaLM) et vision (Vision Transformer, ViT), mettant à jour tous ses paramètres pendant l’entraînement.

Caractéristiques et capacités

Raisonnement intégré : PaLM-E peut traiter une variété de tâches de raisonnement incarné à partir de différentes modalités d’observation dans de multiples incarnations, démontrant ainsi sa capacité à comprendre et à interagir avec le monde physique.
Des performances de pointe : Le PaLM-E atteint des performances de pointe dans des tâches telles que l’OK-VQA, démontrant ses capacités en tant que généraliste du langage visuel tout en conservant des capacités de langage généraliste à une échelle de plus en plus grande.
Transfert positif : Il présente un « transfert positif », bénéficiant d’une formation conjointe diversifiée dans les domaines du langage, de la vision et du langage visuel à l’échelle de l’internet.

Généralisation : Démontre la capacité de généraliser à des tâches pour lesquelles il n’a pas été explicitement formé, telles que la planification et l’exécution de tâches à long terme avec un minimum d’exemples.

Gemini #

Gemini est une suite de modèles multimodaux avancés de Google, capables de traiter et de comprendre différents types de données comme les images, le son et le texte. Les modèles vont de Gemini 1.0 Ultra, conçu pour les tâches et les raisonnements complexes, à la version Pro, qui concilie performances et déploiement évolutif, en passant par le modèle Nano conçu pour les applications sur appareil, chacun répondant à des besoins et à des capacités divers.

Gemini 1.5, une nouvelle itération, s’appuie sur ces éléments pour améliorer la vitesse et l’efficacité en utilisant l’architecture MoE. Il introduit également une percée innovante dans les fenêtres contextuelles longues, jusqu’à 1 million de tokens (le plus petit bloc de données) en production et 10 millions en recherche. La fenêtre contextuelle mesure le nombre de jetons que le modèle peut traiter en même temps. Elle aide les modèles à se souvenir du contexte de textes longs, de vidéos et de fichiers audio.

Composants architecturaux de Gemini

L’architecture de Gemini se compose principalement des éléments suivants :

Architecture de mélange d’experts (MoE) : Le modèle Gemini 1.5 intègre l’architecture MoE, qui divise le modèle en réseaux neuronaux « experts » plus petits qui s’activent sélectivement en fonction du type d’entrée, améliorant ainsi l’efficacité.
Fondation Transformer : Les modèles Gemini 1.0 s’appuient sur l’architecture Transformer pour traiter les données d’entrée.

Caractéristiques et capacités

Trois variantes de taille : Gemini 1.0 est optimisé pour trois tailles – Ultra, Pro et Nano – afin de répondre à diverses tâches, des besoins de calcul complexes aux applications sur appareil.
Pré-entraînement et mise au point : Le modèle utilise des stratégies telles que le pré-entraînement sur de grands ensembles de données et le réglage fin sur des tâches spécifiques afin d’améliorer les performances et la polyvalence.
Puces TPUv5 pour l’efficacité : Gemini exploite les puces TPUv5 de Google pour l’entraînement et le service, ce qui le rend plus efficace que les modèles précédents.
Compréhension du contexte long : Gemini 1.5 Pro introduit une fonctionnalité expérimentale pour la compréhension des contextes longs, améliorant ainsi la capacité du modèle à traiter et à générer des résultats cohérents sur des séquences étendues.

Intégration dans les produits Google : Gemini est intégré à l’ensemble des produits Google, ce qui permet d’améliorer des services tels que Search, Ads, Chrome et Duet AI grâce à ses capacités d’IA avancées.

Analyse comparative de l’IA multimodale et des métriques #

La capacité des modèles d’IA multimodale à traiter des données provenant de différentes modalités, telles que le texte, les images et l’audio, est un critère d’évaluation de leurs performances. Cette évaluation est essentielle pour déterminer la capacité des modèles à gérer des tâches nécessitant la compréhension de données complexes.

Les mesures et les critères de référence sont adaptés pour refléter les performances des modèles en termes de précision, de robustesse et d’efficacité pour différentes tâches et modalités. Les éléments clés sont les suivants

Divergence de l’information mutuelle (MID)

LaMID est présentée comme une mesure complète permettant d’évaluer les modèles génératifs multimodaux, en particulier dans les tâches de génération de texte à partir d’images et de sous-titrage d’images. Elle utilise l’information mutuelle gaussienne négative basée sur les caractéristiques CLIP pour évaluer la cohérence entre les modalités du texte et de l’image.

Il présente des performances supérieures en termes de cohérence entre les points de référence, d’efficacité de l’échantillon et de résistance aux variations du modèle CLIP utilisé.

MULTIBENCH

MULTIBENCH est un vaste benchmark conçu pour tester des modèles multimodaux dans différentes tâches, modalités et domaines. Il met l’accent sur la généralisation, la complexité de l’apprentissage et de l’inférence, et la robustesse face aux perturbations ou à l’absence de modalités. Englobant 15 ensembles de données, 10 modalités, 20 tâches de prédiction et 6 domaines de recherche, il offre un cadre exhaustif pour l’évaluation de l’apprentissage multimodal.

MM-SHAP

Une mesure fondée sur les valeurs de Shapley, MM-SHAP est indifférente à la performance et vise à quantifier la contribution des différentes modalités dans les modèles de vision et de langage. Contrairement aux mesures axées sur la précision, MM-SHAP mesure la manière dont les différentes modalités affectent les prédictions du modèle. Cela permet de détecter les effondrements unimodaux et de s’assurer que les systèmes multimodaux sont fiables.

MMBench

MMBench évalue les diverses capacités des modèles vision-langage. Il comprend un ensemble de données soigneusement sélectionnées et introduit une stratégie CircularEval. Cette approche utilise ChatGPT pour transformer des prédictions de forme libre en choix prédéfinis, évaluant ainsi en profondeur les capacités de prédiction des modèles sur plusieurs dimensions.

Benchmark multimodal AutoML

Mathieu

Ingénieur passionné d'intelligence artificielle et développeur Python. Fondateur de la newsletter "la-minute-ia.fr", je décrypte chaque semaine l'actualité de l'IA. Digital nomad dans l'âme, je partage mon temps entre développement, veille technologique et découverte du monde.

Les derniers articles par Mathieu (tout voir)

Boostez votre SEO avec VIPSEO - 17 septembre 2025
Quels sont les meilleurs modèles GPT disponibles gratuitement sur Yiaho ? - 15 septembre 2025
Comment lire facilement vos fichiers MKV sur Mac avec le meilleur MKV player - 4 août 2025

Datasets

Fondamentaux

Modèles

Packages

Techniques

Multimodal AI Models and Modalities (Modèles et modalités de l’IA multimodale)

Introduction #

Modèles d’IA multimodale #

Mistral #

Composants architecturaux de Mistral

Caractéristiques et capacités de Mistral

LLaVA #

Caractéristiques et capacités

ImageBind

Caractéristiques et capacités

Gen 2 #

Caractéristiques et capacités

CLIP #

Caractéristiques et capacités

Flamingo #

Caractéristiques et capacités

CogVLM #

Caractéristiques et capacités

Qwen-VL-Plus #

Caractéristiques et capacités

SeamlessM4T #

Caractéristiques et capacités

BakLLaVA #

Caractéristiques et capacités

PaLM-E #

Caractéristiques et capacités

Gemini #

Caractéristiques et capacités

Analyse comparative de l’IA multimodale et des métriques #

Divergence de l’information mutuelle (MID)

MULTIBENCH

MM-SHAP

MMBench

Benchmark multimodal AutoML

Citations