Note de l’éditeur : ce glossaire traite à la fois des agents et des assistants d’intelligence artificielle.
Dans le contexte de l’intelligence artificielle, un agent est un système capable de détecter et d’interagir avec son environnement. Il utilise des capteurs pour détecter les données environnementales et des actionneurs pour influer sur son environnement. Par essence, un agent perçoit son environnement et entreprend des actions basées sur ces perceptions, de la même manière que les humains utilisent leurs sens pour collecter des informations et réagir à leur environnement.
Considérons un modèle NLP comme un agent :
-
Percepts (entrées): Invitations textuelles ou informations fournies au modèle NLP pour traitement.
-
Environnement (contexte): L’environnement opérationnel du modèle NLP, tel que les interfaces de chat ou les applications nécessitant une compréhension de la langue.
-
Capteurs (compréhension): Les composants du modèle (comme les mécanismes d’attention et les transformateurs) qui traitent et interprètent les entrées textuelles.
-
Élément d’apprentissage (adaptation): Les algorithmes du modèle NLP qui lui permettent d’apprendre à partir des données et de s’améliorer au fil du temps.
-
Composante de prise de décision (Interprétation): La capacité du modèle à générer un texte cohérent et adapté au contexte.
-
Actionneurs (sortie): La partie du modèle qui traduit ses processus internes en langage lisible.
Actions (sorties linguistiques): Le texte réel généré par le modèle NLP en réponse à des entrées, telles que des phrases ou des paragraphes.
Ce cadre – les capteurs pour les informations, les percepts pour les entrées, les actionneurs pour les actions et l’environnement comme contexte – offre une vue d’ensemble de la manière dont les agents intelligents naviguent et interagissent. Les agents intelligents automatisent les tâches, augmentent l’efficacité et s’adaptent au changement, créant ainsi des expériences personnalisées pour les utilisateurs. Leurs capacités de perception, d’apprentissage et de prise de décision stimulent l’innovation, ce qui les rend indispensables à l’innovation technologique dans diverses applications de recherche en NLP et en vision par ordinateur.
Qu’est-ce qu’un agent d’intelligence artificielle ? #
Lorsque nous pensons aux agents d’intelligence artificielle, nous pensons aux voitures à conduite autonome, mais ils sont largement appliqués dans les secteurs du divertissement, de la finance et des soins de santé. Pour définir clairement les agents d’intelligence artificielle, nous pouvons nous référer à l’ouvrage de Stuart Russell et Peter Norvigintitulé « Artificial Intelligence : A Modern Approach » de Stuart Russell et Peter Norvig, où un agent est défini structurellement comme la combinaison de son architecture et de son programme.
Architecture : Fait référence aux composants physiques qui constituent l’agent. Il s’agit des capteurs, des actionneurs et du matériel informatique qui lui permettent de percevoir son environnement et d’interagir avec lui. Par exemple :
-
L’architecture d’un robot se compose de caméras et d’un lidar pour la vision, de roues/pattes et de moteurs pour le mouvement, d’un cerveau informatique, etc.
-
L’architecture d’un assistant virtuel se compose de microphones pour l’entrée audio, d’un réseau pour la recherche d’informations, d’une architecture multimodale parole/texte pour l’interprétation de l’entrée, et d’interfaces parole/texte pour la sortie.
Le programme : Il s’agit des algorithmes, du code et de la logique de l’IA qui s’exécutent sur l’architecture pour déterminer le comportement et les actions de l’agent. Quelques exemples :
-
Une voiture auto-conduite s’appuie sur des programmes de traitement de la vision, de planification et de contrôle pour percevoir la route et conduire en toute sécurité.
-
Un chatbot exécute des programmes de dialogue et de compréhension du langage pour interpréter les entrées textuelles ou vocales et formuler des réponses pertinentes.
-
Les algorithmes de négociation sont des programmes qui analysent les données du marché et exécutent des transactions de manière autonome.
Alors que l’architecture dote l’agent de capacités sensorielles et d’action, le programme lui confère une capacité de raisonnement, d’apprentissage et de prise de décision de haut niveau. Cette combinaison synergique permet à l’agent de fonctionner intelligemment dans diverses applications, telles que la navigation routière, les conversations ou l’analyse des données du marché.
Agents d’IA et assistants d’IA #
Lesagents d’intelligence artificielle agissent de manière autonome pour résoudre de vastes problèmes. Ils prennent des décisions souples dans des environnements dynamiques en s’appuyant sur des perceptions et des apprentissages internes.
Les assistants d’IA jouent un rôle de soutien pour des besoins humains spécifiques. Ils adhèrent à des objectifs étroitement définis et n’ont pas de préférences autonomes. Leurs décisions doivent être approuvées par l’homme.
En substance, les agents d’IA ont un raisonnement plus poussé pour les objectifs ouverts, tandis que les assistants possèdent une autodirection limitée optimisée pour la réactivité. La différence essentielle réside dans l’étendue de l’autonomie contextuelle par rapport aux contraintes imposées par la surveillance humaine.
Types d’agents d’IA #
Les agents d’intelligence artificielle peuvent être classés, en fonction de leurs fonctionnalités, en trois catégories : réactifs, délibératifs, hybrides et collaboratifs :
Agents réactifs
Ces agents fonctionnent selon des règles simples et prédéfinies, réagissant aux données actuelles sans tenir compte du contexte historique. Ils sont conçus pour réagir rapidement aux changements environnementaux.
Exemple : Un robot de base qui suit une ligne et qui ajuste sa trajectoire en se basant uniquement sur les données immédiates de ses capteurs.
Agents délibératifs
Ces agents s’appuient sur des méthodes de raisonnement explicites et des représentations symboliques pour atteindre leurs objectifs. Ils conservent des modèles internes élargis du monde pour appliquer des techniques de planification, d’analyse et de prédiction.
Exemple : Les voitures autonomes qui utilisent des cartes numérisées et des données de capteurs pour modéliser l’environnement et planifier des itinéraires de navigation sûrs entre le point de départ et le point d’arrivée.
Agents hybrides
Ces agents combinent les réponses rapides et basées sur des règles des composants réactifs avec la prise de décision complexe et contextuelle des éléments délibératifs.
Exemple : Les assistants intelligents tels qu’Alexa, Siri et Google Assistant entrent dans cette catégorie. Ils traitent les requêtes courantes à l’aide de règles établies tout en s’appuyant sur une logique plus avancée pour les interactions complexes.
Agents collaboratifs
Les systèmes d’IA collaboratifs sont composés de plusieurs agents qui partagent des informations et coordonnent des actions en vue d’atteindre des objectifs communs. Les sous-composants se spécialisent dans différentes fonctions, et l’interleukine collaborative permet de résoudre des problèmes complexes.
Exemple : Les chatbots en contact avec les clients qui peuvent interroger des systèmes experts en arrière-plan et des agents humains pour traiter des questions qui dépassent le champ de leurs connaissances.
Assistants d’IA : Agents hybrides et collaboratifs #
La définition d’un agent d’IA reste vague. Certains considèrent les agents sous l’angle traditionnel de l’apprentissage automatique – des agents intelligents. Les praticiens utilisent couramment le terme avec les grands modèles de langage (LLM). Cette trop grande importance accordée aux LLM peut donner l’impression erronée que les assistants intelligents (assistants d’IA) alimentés par eux – les agents LLM – représentent la totalité des agents d’IA.
Cependant, les agents ne se limitent pas aux LLM. Ils englobent l’ensemble de la chaîne, de la perception à l’action à travers les modalités au sein d’un environnement. Il est essentiel de comprendre cette diversité pour mener des discussions pertinentes sur les agents et les assistants d’intelligence artificielle.
Modalités d’interaction avec l’utilisateur
Les assistants d’IA rationalisent l’interaction avec l’utilisateur par le biais de plusieurs canaux, notamment le texte et les systèmes de réponse vocale interactive (RVI).
-
Interactions basées sur le texte : Dans ce cas, les LLM agissent comme le « cerveau » de l’assistant, en interprétant les commandes textuelles et en y répondant de manière appropriée. Par exemple, une commande visant à trouver des restaurants locaux est traitée à l’aide de ressources Internet telles que Google Maps, et l’assistant fournit ensuite une réponse textuelle contenant les informations demandées. Les éléments :
-
L’environnement: Il s’agit de l’interface de discussion où l’utilisateur donne la commande textuelle, par exemple : « Recherchez les restaurants locaux autour de ma position et indiquez-moi les meilleurs prix ».
-
Perception: À l’aide du texte saisi et des ressources auxquelles il a accès, telles que Google Maps, l’utilisateur donne un sens à ces outils dans l’environnement et prend des mesures.
-
Élément d’apprentissage: Il utilise la mémoire de stockage et la puissance de traitement, les connaissances disponibles, la planification et le raisonnement pour généraliser les résultats appropriés.
-
Action : Utilise les outils disponibles via les API et un mécanisme de sortie que vous avez spécifié. Dans le cas présent, vous souhaitez obtenir une réponse textuelle contenant tous les restaurants proposant les meilleurs prix, et le système vous renvoie cette réponse. Dans le cadre de la surveillance ML, il pourrait s’agir d’utiliser l’agent LLM pour orchestrer l’observabilité de vos modèles et vous fournir des rapports.
-
Réponse vocale interactive (RVI) basée sur la parole : Les systèmes IVR permettent un engagement dans le langage parlé, offrant un mode d’interaction naturel et mains libres. Ces systèmes fonctionnent à l’aide de messages vocaux et d’entrées au clavier, traitant les entrées de l’utilisateur pour fournir des informations ou acheminer les appels. Ils s’intègrent à des bases de données et à des serveurs en direct pour fournir divers services, de la transcription de la parole en texte à l’assistance à la clientèle.
Avantages des modalités d’interaction
Les interactions basées sur le texte et la parole offrent toutes deux des avantages uniques :
Efficacité et commodité :
-
Texte: Souplesse et communication asynchrone grâce au texte.
-
Basée sur la parole : Permet un accès mains libres à l’information par le biais de commandes vocales.
Accessibilité :
-
Basé sur le texte: Bénéficient aux utilisateurs souffrant de déficiences auditives ou à ceux qui préfèrent la communication écrite.
-
Parole: améliore l’accessibilité pour les utilisateurs ayant des difficultés à taper ou à lire : Améliore l’accessibilité pour les utilisateurs ayant des difficultés à taper ou à lire.
Automatisation des tâches :
-
Basée sur le texte: Automatise les tâches telles que la recherche d’informations ou les tâches de flux de travail ML.
-
Basée sur la parole: Rationalise les tâches de routine, réduisant ainsi le besoin d’intervention d’un agent en direct.
Ils contribuent à une expérience utilisateur polyvalente et inclusive, en répondant aux diverses préférences et aux besoins d’accessibilité.
Défis et considérations #
Malgré leurs avantages, les assistants et agents d’IA posent des défis qu’il convient de relever pour garantir un déploiement efficace et sûr.
-
Précision et fiabilité : Elles sont primordiales, car les erreurs peuvent avoir des conséquences diverses. Par exemple, un dysfonctionnement dans un système de diagnostic médical peut être beaucoup plus grave qu’une erreur dans un chatbot de vente au détail. Des exemples concrets, comme la mauvaise interprétation des commandes par les assistants virtuels, illustrent la nécessité d’une amélioration continue dans ce domaine.
-
Limites opérationnelles : Ces agents peuvent avoir du mal à être multitâches et peuvent parfois entrer dans des boucles de sortie infinies. Cela est souvent dû aux limites actuelles des algorithmes d’intelligence artificielle et au manque de compréhension du contexte.
-
Expérience utilisateur et interprétabilité : Les utilisateurs peuvent avoir du mal à comprendre le fonctionnement de ces agents, ce qui complique les efforts de dépannage. La conception d’agents d’IA à la fois puissants et interprétables est un défi majeur dans ce domaine.
-
Implications financières : L’exécution de modèles LLM sophistiqués, en particulier pour les tâches récursives, peut être financièrement exigeante. Il s’agit d’une considération essentielle pour les entreprises qui cherchent à mettre en œuvre ces technologies.
-
Protection de la vie privée et sécurité : Le traitement de grandes quantités de données personnelles soulève d’importantes questions en matière de protection de la vie privée et de sécurité. Il est essentiel de garantir la protection des données et de remédier aux vulnérabilités pour maintenir la confiance des utilisateurs.
-
Considérations éthiques et partiales : Les systèmes d’IA peuvent, par inadvertance, perpétuer des biais dans leurs données d’apprentissage, ce qui peut conduire à des résultats injustes ou contraires à l’éthique.
Conclusion #
Les agents et assistants d’IA sont des outils transformateurs dans divers domaines. L’avenir promet des avancées passionnantes grâce à l’intégration avec d’autres technologies.
L’engouement pour les LLM et les agents d’IA entraînera une ruée vers la création de plus d’agents et d’assistants afin d’automatiser davantage de tâches. Open AI et ses homologues facilitent la création et le déploiement d’agents d’IA. Des frameworks tels que Langchain, AutoGen et Twilio sont désormais utilisés pour créer des agents et des IVR basés sur des LLM afin d’automatiser vos tâches.
Alors que nous embrassons le potentiel des agents d’IA, un déploiement réfléchi et une évaluation continue seront essentiels pour maximiser leurs avantages tout en réduisant les risques potentiels.
- Comment exploiter FAL et Flux pour créer des images ultra-réalistes avec ton visage - 5 février 2025
- Les films à regarder sur l’intelligence artificielle - 4 février 2025
- NotebookLM et Veed.io : Créez des podcasts immersifs en un temps record - 4 février 2025