Les cartes cognitives sont des représentations mentales (modèles) d’environnements physiques qui aident les animaux (principalement les mammifères) à se souvenir et à naviguer efficacement dans différents espaces.
En 1948, Tolman a fait des expériences avec des rats. Il a remarqué que les rats pouvaient créer efficacement des cartes mentales d’un labyrinthe pour la navigation, avec ou sans récompenses immédiates. C’est à la suite de cette expérience qu’il a introduit le concept de cartographie cognitive. Cette idée trouve des applications en psychologie et dans divers domaines, tels que l’apprentissage automatique.
D’une certaine manière, la biologie et la technologie ont en commun une navigation efficace pour la prise de décision. Les animaux complexes comme les humains ou les rats naviguent pour survivre, trouver des ressources et éviter les menaces, tandis que dans l’IA, les modèles utilisent la navigation pour découvrir des modèles, faire des prédictions et optimiser les performances. C’est pourquoi le concept de cartographie cognitive ou de représentation spatiale est important pour les deux domaines et joue un rôle essentiel dans l’amélioration de la prise de décision pour les modèles d’IA.
Comprendre la carte cognitive #
Chez l’homme, l’hippocampe joue un rôle important dans la capacité du cerveau à établir des cartes qui nous aident à naviguer dans l’espace. Ce processus est rendu possible par la coordination de diverses cellules qui cartographient avec précision le monde qui nous entoure. Voici un aperçu de la fonction de chaque cellule dans ce processus :
Ensemble, elles forment une représentation neuronale de l’environnement d’un animal, y compris l’emplacement, l’orientation, les limites et les informations sensorielles. Avec l’aide d’autres régions cérébrales connectées, ces représentations peuvent prédire des événements au fur et à mesure que l’animal se déplace dans l’espace.
On peut comparer cela aux couches d’un réseau neuronal, que l’on peut assimiler aux cellules de l’hippocampe. Toutes deux détectent différents aspects de leur environnement, en particulier dans des données à haute dimension comme une image.
Pour explorer l’espace de données caché, les couches du modèle identifient divers éléments de l’image, par exemple les bords, les textures, les formes et les couleurs. Cela permet de créer une compréhension complète de son environnement. Lorsque des images similaires sont rencontrées, le modèle peut naviguer plus efficacement en se basant sur cet environnement précédemment cartographié.
L’apprentissage par renforcement en est un exemple :
-
États : Dans l’apprentissage par renforcement(RL), les états sont comme des emplacements où un animal est positionné. L’agent apprend la valeur de chaque état pour naviguer efficacement.
-
Représentation du successeur neuronal (SR) : Adoptée à partir de la représentation du successeur en neurosciences, elle fournit une carte des états futurs attendus en fonction de sa stratégie (politique) actuelle. Imaginez un robot estimant la probabilité de passer de son emplacement actuel à divers emplacements futurs au fur et à mesure qu’il se déplace.
-
Apprentissage par différence temporelle: Il aide le modèle RL à mettre à jour la carte des successeurs au fur et à mesure que des changements se produisent dans l’environnement au fil du temps.
Ces représentations aident à prévoir les situations futures, à planifier les décisions et à fournir des modèles prédictifs pour les résultats futurs.
L’intégration des techniques de cartographie cognitive peut améliorer les capacités de l’IA, en particulier dans les représentations multimodales. Cela permet aux algorithmes d’IA d’établir de meilleures relations intermodales avec des preuves de connexions multimodales pour améliorer les modèles de représentation de l’environnement.
Cela peut conduire à une amélioration de la navigation pour les véhicules autonomes et faciliter l’IA multimodale qui peut traiter simultanément plusieurs modalités pour des interactions plus proches de celles de l’homme.
Cartographie de la parole, des objets et du langage naturel dans l’espace vectoriel #
Les données à haute dimension comme la parole, le texte ou l’expression génétique (des milliers à des milliards de dimensions) sont complexes à manipuler par rapport aux séries chronologiques ou aux données de température (entre 1 et 4 dimensions). Le traitement de ces données à haute dimension peut s’avérer difficile, car le modèle doit réduire les dimensions pour comprendre les relations qu’elles contiennent.
Pour ce faire, il utilise des techniques de réduction des dimensions telles que l’analyse en composantes principales (ACP), l’intégration des voisins stochastiques distribués(t-SNE) ou les autoencodeurs, entre autres, pour représenter les données en dimensions inférieures, toutes les relations ou informations étant représentées sous forme de vecteurs.
Le modèle utilise ensuite diverses métriques ou méthodes pour trouver des relations dans les données. Il trouve la similarité ou la distance entre chaque observation de données pour cartographier son environnement avec précision. Les méthodes utilisées pour ce processus peuvent être classées comme suit :
Distance euclidienne
La distance euclidienne calcule la somme des différences au carré entre les éléments correspondants de deux vecteurs. Il s’agit d’une mesure de distance, les valeurs les plus petites indiquant des emplacements plus proches et la valeur 0 indiquant des points égaux. Cependant, elle est sensible aux valeurs aberrantes et aux échelles variables. La formule ci-dessous représente ce concept :
Où p et q correspondent à deux points dans l’espace euclidien n, qi et pi correspondent à des vecteurs euclidiens, à partir de l’origine de l’espace (point initial). n correspond à l’espace n.
Par exemple, l’utilisation de la distance euclidienne dans les algorithmes de regroupement tels que les k-voisins les plus proches (KNN) pour comparer les critiques de films. Chaque critique est représentée comme un point dans un espace à haute dimension, où les dimensions représentent les fréquences des mots.
La distance euclidienne entre ces points de critique quantifie leur dissemblance. Des distances plus faibles impliquent un usage similaire des mots, ce qui laisse présager des sentiments comparables. Cette méthode est largement utilisée dans des tâches telles que le regroupement de documents et le regroupement de critiques au contenu similaire sur la base de leur distance euclidienne dans la représentation de l’espace vectoriel.
Distance de Manhattan
La distance de Manhattan est calculée comme la somme des différences absolues entre les composantes correspondantes de deux vecteurs. Elle résiste aux valeurs extrêmes et n’est pas affectée par les changements d’échelle, mais elle ne prend en compte que les disparités de taille et ignore la directionnalité.
Dans un espace à n dimensions (où chaque point a n coordonnées), la distance de Manhattan entre deux points, x et y, est calculée comme suit :
Par exemple, en traitement d’images, la distance de Manhattan mesure la différence entre les valeurs des pixels de deux images. Lorsque les algorithmes calculent cette distance pour des pixels correspondants, ils trouvent des régions dissemblables, ce qui permet d’identifier des objets, des défauts ou des caractéristiques dignes d’intérêt.
Une faible distance suggère des valeurs de pixels ou des régions similaires, tandis qu’une distance ou une magnitude plus importante signale une dissemblance entre les valeurs de pixels. Cette métrique offre un moyen simple et efficace de comparer les images, en révélant les régions similaires et dissemblables dans des espaces de pixels à haute dimension.
Similitude en cosinus
La similarité en cosinus mesure le degré de similarité de deux vecteurs en tenant compte de leurs angles. Elle nous indique si deux vecteurs pointent dans la même direction, quelle que soit leur longueur. Cette métrique prend en compte l’orientation des vecteurs et donne une mesure de similarité basée sur celle-ci, sans se soucier de la longueur des vecteurs.
Par exemple, deux documents sont représentés par des vecteurs dans un espace multidimensionnel. Le vecteur de chaque document pointe dans une direction en fonction de son contenu. En utilisant la similarité cosinusienne, vous obtenez un score qui vous indique le degré de similarité ou de différence entre les documents. Ce score guide les décisions telles que la recherche d’informations, l’organisation des documents et la recommandation de contenu.
L’équation permettant de déterminer l’angle des vecteurs est la suivante :
Similitude de Jaccard
La similarité de Jaccard, souvent connue sous le nom d’indice de Jaccard, est largement utilisée pour évaluer la similarité entre deux ensembles. Elle est particulièrement utile lorsque l’on travaille avec des collections de tailles différentes.
Où :
J = distance de Jaccard
B = ensemble 2
Par exemple, pour comprendre les préférences des clients en matière d’achats en ligne, vous pouvez appliquer la similitude de Jaccard pour évaluer la similitude entre les historiques d’achat de deux clients. L’historique d’achat de chaque client peut être représenté comme un ensemble de produits.
En mesurant l’intersection des produits achetés divisée par l’union des produits dans les deux ensembles, nous pouvons évaluer la similitude de leurs préférences d’achat. Cette approche est utile pour des tâches telles que la recommandation de produits à un client sur la base des habitudes d’achat d’autres personnes ayant des goûts similaires.
L’utilisation des métriques de distance et de similarité pour cartographier les espaces latents permet à l’IA de construire des représentations internes efficaces de données complexes. L’intégration de l’attention et de l’apprentissage par transfert améliore ces cartes cognitives, permettant de se concentrer sur les éléments critiques et de s’adapter rapidement à de nouveaux scénarios. Ces techniques rendent les représentations de l’IA flexibles, sensibles au contexte et puissantes pour les tâches multimodales.
Avantages des cartes cognitives dans l’IA #
Les cartes cognitives améliorent généralement la compréhension de l’environnement par l’IA, élargissant ses capacités de navigation, de compréhension du langage, de prise de décision et d’adaptation. Ces progrès renforcent les capacités des systèmes d’intelligence artificielle.
Les avantages des cartes cognitives dans les systèmes d’intelligence artificielle sont les suivants :
-
Amélioration de la conscience spatiale : La cartographie des représentations aide les systèmes d’intelligence artificielle à développer une compréhension spatiale du monde. Par ailleurs, les systèmes d’intelligence artificielle peuvent créer des modèles internes de leur environnement, y compris la disposition des espaces physiques et les relations entre les objets ou les points de repère.
-
Amélioration des capacités de représentation et de langage : Elle améliore la compréhension du langage, intègre les informations multimodales dans des représentations sémantiques et permet une intelligence artificielle conversationnelle nuancée avec une compréhension contextuelle riche.
-
Adaptation et généralisation efficaces : Grâce à l’apprentissage par transfert, l’IA peut exploiter les connaissances de différents domaines pour s’adapter rapidement et mieux se généraliser dans différents scénarios. Les systèmes d’IA basés sur des agents, quant à eux, peuvent apprendre, planifier et réagir à des situations changeantes.
Défis actuels en matière de cartographie cognitive #
La cartographie cognitive est un moyen puissant de représenter les connaissances, mais elle s’accompagne de certaines complexités inhérentes, en particulier dans les systèmes d’IA :
-
L’adaptation au changement : À mesure que les environnements changent, les représentations doivent s’adapter pour être pertinentes. Cela peut être difficile pour l’IA. Ce défi consiste à créer des moyens pour que les cartes cognitives s’adaptent rapidement aux nouvelles informations, en veillant à ce qu’elles restent précises et efficaces dans la navigation dans le monde réel.
-
Le défi de l’intégration de l’IA : l’intégration des cartes cognitives dans les systèmes d’IA est un défi. Elle implique une ingénierie minutieuse pour assurer une synergie harmonieuse entre les différents composants sans perturber l’efficacité et l’efficience du système.
-
Complexité des données cartographiques : Bien qu’il faille disposer de vastes ensembles de données pour former des cartes de représentation interne, les interactions intermodales à partir de ces ensembles de données constituent un défi. Vous pouvez avoir besoin de plusieurs modalités, telles que des données visuelles et vocales, ce qui rend complexe la garantie d’un apprentissage efficace à travers divers modes.
Applications dans le monde réel #
La cartographie cognitive améliore considérablement la capacité des systèmes d’IA à observer, comprendre et s’engager dans leur environnement, ce qui a des conséquences considérables pour de nombreux domaines, tels que la navigation autonome, l’ULA et la robotique. Les effets de la cartographie cognitive sur différents domaines sont les suivants :
-
Robotique : La cartographie de représentation fournit aux robots de tous les jours comme Atlas une conscience spatiale qui leur permet de construire des cartes internes et d’améliorer la navigation autour des obstacles et des tâches.
-
Systèmes de navigation pour véhicules autonomes : La cartographie cognitive permet aux véhicules autonomes de naviguer dans des environnements complexes. Elle aide à créer des systèmes qui comprennent la relation entre les lieux, les points de repère et les autres éléments d’un environnement pour un déplacement sûr et efficace.
-
Compréhension du langage naturel : Elle améliore la compréhension du langage naturel en améliorant la compréhension de la terminologie spatiale et des indices contextuels utilisés dans les conversations. Il permet de mieux comprendre les mots liés aux environnements, aux connexions spatiales et à la navigation. Cela est particulièrement utile pour les chatbots et les assistants virtuels lorsque les utilisateurs posent des questions sur les directions, les emplacements ou les relations spatiales.
Conclusion #
La cartographie cognitive est une capacité cruciale tant pour les animaux que pour les systèmes artificiels. Chez les animaux, elle implique que des régions du cerveau comme l’hippocampe créent des cartes mentales de l’espace, ce qui les aide à naviguer et à se souvenir des lieux essentiels. L’intelligence artificielle (IA) utilise des principes similaires, les réseaux neuronaux apprenant à partir de données complexes à construire des représentations internes. Les techniques telles que les représentations des successeurs agissent comme des cartes des états futurs attendus, aidant à la planification et à la prédiction.
L’IA moderne intègre des caractéristiques d’inspiration biologique telles que la mémoire spatiale et l’attention. Les cartes cognitives de l’IA sont des représentations internes flexibles qui permettent de comprendre, de contextualiser les données, de faire des déductions et d’entreprendre des actions intentionnelles, signes d’un comportement intelligent. À mesure que la cartographie cognitive progresse en biologie et en IA, nous pouvons nous attendre à un raisonnement spatial et à une intelligence plus efficaces, plus souples et plus proches de ceux de l’homme.
- Les films à regarder sur l’intelligence artificielle - 4 février 2025
- NotebookLM et Veed.io : Créez des podcasts immersifs en un temps record - 4 février 2025
- SUNO : Créez des musique avec IA - 3 février 2025