L’intelligence artificielle multimodale gagne en popularité à mesure que des technologies telles que les téléphones mobiles, les véhicules et les vêtements utilisent différentes modalités pour créer des expériences utilisateur transparentes et robustes.
Le terme « multimodal » fait référence aux différentes manières dont les humains communiquent avec les systèmes. Selon les préférences ou les capacités de l’utilisateur, il peut s’agir de modalités d’interaction telles que le toucher, la parole, la vision, les gestes, l’haptique, etc.
Ces modalités peuvent être exprimées ou perçues de différentes manières. Ces modalités peuvent être exprimées ou perçues de différentes manières :
Modalité linguistique
-
Expression: Les utilisateurs peuvent interagir par le biais des langues naturelles, ce qui leur permet de taper ou de prononcer des commandes de manière conversationnelle.
-
Perception: Le système traite et comprend l’entrée par le biais de la reconnaissance vocale ou de l’analyse de texte, en fournissant des réponses ou des actions pertinentes basées sur le langage interprété.
Modalité de vision
-
Expression: Les utilisateurs interagissent par l’intermédiaire d’un appareil photo ou d’autres dispositifs de capture de la vision, soit en prenant des photos, soit en enregistrant des vidéos, soit en fournissant un flux vidéo en direct.
-
Perception: Les algorithmes de vision artificielle analysent les données visuelles et identifient les objets, les motifs ou les gestes. Ces informations sont ensuite utilisées pour déclencher des actions spécifiques ou fournir un retour d’information pertinent en fonction de l’entrée visuelle.
Chaque réponse pour les deux modalités peut être de type langage-vision ou vision-parole, entre autres. L’IA multimodale est importante parce qu’elle prend en compte diverses préférences et capacités de communication, rendant les technologies telles que les appareils intelligents plus inclusifs et adaptables aux tâches quotidiennes, qu’il s’agisse de commandes vocales, d’interactions tactiles ou de reconnaissance visuelle.
Pourquoi l’IA multimodale ? #
Les algorithmes conventionnels d’apprentissage supervisé ou non supervisé ont été utilisés avec des types de données spécifiques comme les images, le texte ou la parole, ce qui a rendu la formation simple. Mais en réalité, les données proviennent de différentes modalités (par exemple, la vision combinée au son et aux légendes dans les films), chacune véhiculant des informations uniques pour améliorer la compréhension globale.
Un exemple classique illustrant la nécessité d’une compréhension multimodale est l’effet McGurk. Ce phénomène montre que notre perception des sons de la parole peut être influencée par des indices visuels, soulignant l’interaction complexe entre les différents sens et modalités.
La motivation première de l’IA multimodale est de créer des modèles capables de saisir les nuances et les corrélations entre les différents types de données, représentant ainsi l’information de manière plus complète.
Parmi les exemples de systèmes multimodaux, citons GPT-4V, Gemini de Google et le logiciel libre LLaVA de Microsoft, qui combinent les modalités du texte et de l’image, démontrant ainsi la puissance du traitement intégré des données. Malgré leur potentiel, les modèles multimodaux sont confrontés à des défis tels que la représentation précise, l’alignement et le raisonnement entre les modalités, qui sont des domaines de recherche et de développement en cours dans ce domaine.
Types de modalités
Il existe trois principaux types de modalités dans l’apprentissage automatique multimodal :
Unimodale (modalités homogènes) :
Ces modalités impliquent un type de données ayant une structure similaire (par exemple, texte uniquement ou image uniquement).
Exemple de modalités unimodales (homogènes) :
Imaginons un système de reconnaissance faciale conçu pour identifier des individus. Ce système est alimenté par deux types de sources de données :
-
Les images des caméras de surveillance : Flux vidéo provenant de diverses caméras de surveillance installées à différents endroits. Chaque caméra peut avoir des résolutions, des angles ou des conditions d’éclairage différents.
-
Photographies téléchargées : Images téléchargées par les utilisateurs ou les autorités, telles que des photos d’identité ou des clichés provenant d’appareils personnels. Ces images ont des qualités, des arrière-plans et des formats différents.
Dans ce scénario, bien que les deux sources de données soient essentiellement des images (donc homogènes en termes de modalité), elles diffèrent par leur origine, leur qualité et leur contexte.
Modalités multimodales (hétérogènes)
Elles impliquent plusieurs types de données (par exemple, texte, image et son). Le défi des systèmes multimodaux est d’intégrer et d’analyser ces divers types de données, dont la structure et le format peuvent varier considérablement. Il peut s’agir de modalités texte-image et parole-vidéo, entre autres. Les modèles avec des modalités hétérogènes sont complexes, et le modèle trouve les relations entre les différents types de données.
Imaginons un environnement de classe virtuelle dans lequel l’IA évalue l’engagement et les réactions émotionnelles des élèves au cours d’une leçon. Ce système utilise deux modalités différentes :
-
Analyse audio (de la parole) : Le système analyse les tons vocaux, la hauteur et les modèles d’élocution des élèves. Par exemple, des variations de ton ou de hauteur peuvent indiquer de l’excitation, de la confusion ou de l’ennui.
-
Analyse vidéo (expression faciale) : Le système évalue simultanément les expressions faciales des élèves à l’aide d’entrées vidéo. Il recherche des indices visuels tels que des sourires, des froncements de sourcils ou des sourcils froncés, qui peuvent signifier la joie, la confusion ou la frustration.
Le système d’IA intègre ces deux flux de données pour mieux comprendre l’état émotionnel des élèves. Par exemple, un élève peut exprimer verbalement sa compréhension (par exemple, en disant « j’ai compris »), mais son expression faciale peut montrer de la confusion ou des doutes. En analysant la parole et les expressions faciales, l’IA peut évaluer plus précisément la véritable réaction émotionnelle de l’élève, ce qui permet de savoir si l’élève a besoin d’une aide supplémentaire ou d’éclaircissements sur le sujet.
Dans ce scénario, le système d’IA multimodale utilise des modalités hétérogènes (audio et vidéo) pour obtenir une image plus complète de l’engagement et des états émotionnels de l’élève, ce qui peut s’avérer crucial pour l’apprentissage adaptatif et l’éducation personnalisée.
Modalités interconnectées (complémentaires)
Ce concept fait référence aux modalités intrinsèquement corrélées (ou liées), où l’information provenant de l’une améliore la compréhension de l’autre. Cette interconnexion permet une compréhension plus complète du contexte global.
Exemple de modalités interconnectées (complémentaires)
Imaginons un système de navigation automobile qui utilise des commandes vocales (modalité audio) et des cartes visuelles (modalité visuelle) pour aider les conducteurs. Voici comment ces modalités interconnectées fonctionnent ensemble :
-
Commande vocale : Le conducteur utilise des commandes vocales pour interagir avec le système, en disant par exemple « Trouver la station-service la plus proche » ou « Naviguer jusqu’au 123 Main Street ». Le système traite ces données audio pour comprendre les demandes du conducteur.
-
Affichage visuel de la carte : En réponse aux commandes vocales, le système met à jour l’affichage de la carte visuelle pour indiquer l’itinéraire vers la destination souhaitée ou l’emplacement des stations-service à proximité.
-
Une meilleure compréhension grâce à l’interconnexion : Les commandes vocales fournissent un contexte et des demandes spécifiques que le système utilise pour générer des informations visuelles pertinentes sur la carte. Inversement, l’affichage visuel de la carte peut inciter le conducteur à fournir d’autres commandes vocales, comme demander des itinéraires alternatifs ou faire un zoom sur une zone spécifique de la carte.
Dans cet exemple, l’interconnexion des modalités audio et visuelles crée une expérience de navigation plus conviviale et plus efficace. Les commandes vocales permettent une interaction mains libres, ce qui améliore la sécurité de la conduite, et les cartes visuelles fournissent des informations de navigation claires et précises. Le système combine efficacement ces modalités pour améliorer la fonctionnalité globale et l’expérience de l’utilisateur.
Interactions intermodales
Les interactions intermodales couvrent un spectre plus large de la manière dont les différentes modalités peuvent être liées et interagir au sein d’un système multimodal. Deux interactions se produisent :
Ces interactions opèrent à travers différentes dimensions :
-
Les types de modulation dans le traitement du signal : Les différentes méthodes de modulation (additive, multiplicative et non additive) affectent la manière dont les signaux provenant de diverses modalités sont combinés. Par exemple, la modulation additive peut impliquer la superposition de signaux audio sur des données visuelles dans une vidéo.
-
Modalités basées sur les composants : Les systèmes peuvent être « bimodaux » (par exemple, audiovisuels), « trimodaux » (par exemple, audiovisuels-tactiles) ou comporter encore plus de modalités (« modalité élevée »), chacune ajoutant une couche de complexité et de richesse.
-
Relations au sein du système : Les entités d’un système multimodal peuvent être liées par l’équivalence (informations similaires), la correspondance (informations liées mais distinctes) ou la dépendance (une modalité influençant une autre).
-
Types d’interaction entre les éléments : Il s’agit notamment de la dominance (une modalité l’emporte sur les autres), de l’implication (une modalité conduit à des conclusions dans une autre modalité) et de la divergence (les modalités fournissent des informations contrastées).
-
Mécanismes de traitement de l’information : Des processus tels que la modulation (modification des signaux), l’attention (focalisation sur des modalités spécifiques) et le transfert (déplacement d’informations entre modalités) sont essentiels pour une intégration efficace des données et le traitement de modalités multiples.
-
Relations de cause à effet : La compréhension de la causalité et de la directionnalité permet de déterminer comment une modalité peut influencer ou être influencée par une autre, ce qui est essentiel pour les systèmes d’intelligence artificielle interactifs.
Dans l’ensemble, ces interactions et dimensions sont essentielles pour déterminer comment les différentes modalités d’un système multimodal collaborent, influençant ainsi la richesse de la représentation et l’efficacité des résultats combinés.
Processus de formation à l’IA multimodale
L’apprentissage automatique multimodal intègre diverses sources de données pour modéliser les relations entre les modalités. Avec des qualités et des structures variées, ces systèmes créent des modèles intelligents qui donnent un sens au monde et offrent des informations contextuelles cohérentes.
Un système multimodal typique comprend
-
Des encodeurs pour chaque modalité de données : Utilisation d’encodeurs spécialisés (comme les CNN pour les images, les RNN ou les LSTM pour le texte) pour créer des encastrements qui capturent les caractéristiques essentielles de chaque type de données, garantissant ainsi une représentation significative des diverses entrées.
-
Mécanismes permettant d’aligner les encastrements : Des techniques telles que l’analyse de corrélation canonique (CCA) ou les transformateurs alignent les encastrements de diverses modalités dans un espace partagé, ce qui favorise les interactions intermodales et la compréhension cohésive au sein de la représentation.
-
Représentation conjointe : Fusionne les encastrements alignés en une représentation unifiée, permettant au système d’utiliser des informations provenant de différentes modalités pour des tâches telles que la classification, la génération ou la prise de décision.
-
Pipeline de formation : Idéalement, un pipeline de formation est mis en place pour affiner les codeurs et les mécanismes d’alignement par un apprentissage itératif. Cela renforce la capacité du système à générer des représentations cohérentes et améliore les performances globales dans le traitement de scénarios multimodaux complexes.
Dans la mesure du possible, il est avantageux d’utiliser des composants pré-entraînés et réutilisables pour des raisons d’efficacité.
Pour améliorer continuellement le modèle, vous pouvez utiliser l’apprentissage par renforcement avec retour d’information humain (RLHF) comme technique de post-entraînement ou la génération améliorée par récupération (RAG).
L’apprentissage par renforcement avec retour d’information humain (RLHF) garantit les éléments suivants dans le cadre d’une formation multimodale :
-
Il introduit une boucle de rétroaction humaine pour renforcer le processus de formation, en fournissant un signal d’apprentissage plus riche et en améliorant la généralisation du modèle grâce à l’intuition et à l’expertise humaines. Elle est particulièrement utile pour les tâches complexes et multimodales.
-
Le retour d’information humain permet de lever les ambiguïtés dans les scénarios multimodaux, où le contexte et l’intention peuvent être nuancés et poser des problèmes aux modèles traditionnels.
-
Le retour d’information humain accélère le processus d’apprentissage, en réduisant la dépendance à l’égard des données étiquetées et en accélérant la convergence au cours de la formation.
LLaVA est un excellent exemple de grand modèle multimodal (LMM) qui utilise la RLHF.
Défis
D’après l’étude réalisée par Paul Liang et al. six (6) défis fondamentaux de l’apprentissage automatique multimodal doivent être pris en compte lors de la formation de vos algorithmes :
Représentation
Dans chaque interaction multimodale, l’objectif est de créer un résultat qui représente fidèlement les modalités en interaction. Des problèmes se posent lorsque le modèle n’apprend pas suffisamment bien les représentations de chaque modalité pour refléter correctement les interactions multimodales. En fonction de votre tâche, vous pouvez réfléchir aux questions suivantes :
-
Comment fusionner efficacement différentes modalités en une seule afin d’améliorer la compréhension globale tout en s’assurant qu’elles fonctionnent bien ensemble dans le résultat.
-
Comment s’assurer que chaque modalité s’aligne de manière transparente pour des associations et des corrélations précises afin d’éviter les incohérences dans la représentation.
-
Traiter les situations dans lesquelles une modalité contient des informations diverses ou compliquées et la manière dont elles seront représentées.
Par exemple, dans un système multimodal analysant du texte et des images, le défi de la représentation consiste à créer une structure unifiée qui combine avec précision des modèles linguistiques et des caractéristiques visuelles pour une compréhension globale. Mécanismes de traitement de l’information tels que l’attention ou l’apprentissage par transfert, entre autres.
Alignement
L’alignement consiste à veiller soigneusement à ce que les informations provenant de différentes modalités s’harmonisent, favorisant ainsi des associations précises. Il s’agit de reconnaître les connexions entre les différentes modalités et de construire une intégration à partir de la structure de données sous-jacente afin de créer des combinaisons cohérentes de toutes les modalités.
L’alignement temporel (temps) dans les modalités dynamiques, essentiel pour synchroniser les flux de données tels que la vidéo et l’audio, constitue un défi de taille.
Prenons l’exemple d’un système qui aligne des mots parlés sur les transcriptions textuelles correspondantes. Un alignement précis est important pour associer correctement les phrases parlées au texte correspondant.
Raisonnement
Il s’agit de développer des modèles robustes qui utilisent efficacement les informations provenant de modalités multiples pour produire un résultat, en tenant compte de la structure du problème et de l’alignement.
Le défi consiste à créer des modèles qui exploitent plusieurs modalités par le biais d’un raisonnement déductif en plusieurs étapes, en particulier dans les scénarios où les entrées des modalités sont contradictoires ou ambiguës.
Par exemple, les véhicules autonomes intègrent des informations provenant de capteurs (données visuelles et LiDAR) et de cartes textuelles. Ils raisonnent sur l’environnement en alignant les données visuelles sur les données cartographiques afin de prendre des décisions éclairées pour une navigation sûre. Ils déduisent que les indices visuels indiquant un obstacle correspondent à des structures cartographiées, influençant ainsi la trajectoire du véhicule pour une manœuvre efficace.
Génération
Il s’agit de synthétiser des résultats cohérents et contextuellement pertinents à travers diverses modalités, en assurant la création significative d’informations.
Ici, les défis à relever par le modèle peuvent être les suivants, en fonction du choix de la tâche :
-
Comment générer des représentations résumées de manière concise sans perdre les détails critiques entre les modalités.
-
Comment produire un contenu cohérent et contextuellement pertinent dans la modalité cible ?
-
Comment générer un nouveau contenu qui corresponde aux préférences de l’utilisateur ou à des critères spécifiques.
Pour un système de traduction linguistique traitant du texte et des images, le défi de la génération consiste à créer un texte traduit qui corresponde précisément au contexte visuel capturé dans les images.
Transfert
Il s’agit d’aborder les questions liées au transfert de connaissances et de modèles entre diverses modalités dans le cadre de l’apprentissage automatique multimodal, en garantissant l’adaptabilité et la cohérence.
Le défi consiste à concevoir des mécanismes qui facilitent le transfert de connaissances tout en maintenant la cohérence des performances lors de l’application de modèles à des domaines où la distribution des données varie considérablement.
Dans un système de reconnaissance vocale, des problèmes de transfert peuvent se poser lorsqu’il s’agit d’adapter le modèle formé dans une langue pour reconnaître et interpréter avec précision la parole dans une autre langue.
Quantification
Il est important d’évaluer quantitativement la qualité, la pertinence et l’efficacité de l’intégration de l’information à travers de multiples modalités. Le défi consiste à définir des métriques et des critères pour une évaluation objective, fournissant une base pour améliorer la qualité du traitement de l’information multimodale.
Dans un système d’analyse des sentiments qui analyse du texte et de l’audio, les défis de quantification comprennent le développement de mesures qui mesurent avec précision l’alignement entre le sentiment textuel et les indices émotionnels correspondants dans les mots parlés.
Conclusion
Comprendre les relations entre les modalités est une partie passionnante et importante de la recherche en IA. Cela aidera les chercheurs et l’industrie à créer des produits meilleurs et plus inclusifs, permettant des interactions plus intuitives et plus complètes entre les humains et les machines. Plus nous comprenons ces modalités et leurs relations, plus nous nous rapprochons d’une communication multimodale semblable à celle de l’homme.
Les motivations sont multiples : soutenir les populations handicapées en répondant aux besoins d’accessibilité, faciliter l’explicabilité en faisant apparaître les connexions cachées dans des canaux uniques, et même réduire davantage les obstacles à la coopération entre l’homme et l’ordinateur en favorisant la flexibilité et l’adaptabilité dans la communication.