OpenAI dévoile sa stratégie sur les agents d'IA et présente 3 nouveaux modèles

Fer de lance de l'innovation dans l'IA générative, OpenAI défend une vision de l'agent IA capable d'apporter une valeur ajoutée concrète et mesurable.

Si le terme "agent" est devenu le buzzword du moment dans l'industrie de l'intelligence artificielle, OpenAI prend ses distances avec cette terminologie souvent galvaudée. Alors que de nombreuses entreprises tech l'utilisent pour désigner de simples assistants conversationnels, la société de Sam Altman défend une conception plus ambitieuse de l'IA agentique, qui doit déboucher sur une rupture opérationnelle, avec une valeur ajoutée concrète et mesurable pour les professionnels. Telle est du moins la vision présentée par plusieurs cadres de l'entreprise à une partie de la presse française, dont le JDN, en amont de la sortie ce 20 mars de trois nouveaux modèles (voir plus bas).

L'IA agentique selon OpenAI

OpenAI redéfinit le concept d'agent comme un système capable de réaliser des actions complexes au-delà des interactions instantanées. Pour l'entreprise de Sam Altman, un agent se compose de trois éléments essentiels : un workflow d'orientation du comportement (orchestration), des outils d'interaction et des guardrails de sécurité. "L'avenir de l'IA, ce n'est plus simplement de répondre à des questions, mais de générer des actions", synthétise un porte-parole de l'entreprise.

Cette nouvelle génération d'agents repose sur trois piliers technologiques fondamentaux. Premièrement, la capacité de raisonnement, qui permet au modèle de comprendre le contexte et d'élaborer des stratégies complexes (o1, o3, o3 mini). Deuxièmement, l'interaction multimodale, autorisant l'agent à traiter différents types de données que ce soit du texte de l'image ou du son. Et enfin, des fonctionnalités de sécurité avancées qui garantissent que l'agent opère dans un cadre éthique et contrôlé. OpenAI l'assure : 2025 sera une année charnière, marquant la transition vers des systèmes d'IA véritablement capables d'assister les humains de manière autonome et intelligente.

Operator et deep research, deux véritables agents

Pour illustrer sa vision de l'agent IA, OpenAI cite deux agents déjà déployés largement depuis le début de l'année : Operator et deep research. Operator est un agent capable d'interagir directement avec les navigateurs web pour automatiser des processus complexes sans nécessiter de développement ou d'API. L'outil permet de naviguer sur des sites, sélectionner des filtres, ouvrir des pages et effectuer des actions comme une réservation de restaurant. Toutefois, la version actuelle maintient un contrôle humain sur les étapes sensibles, notamment la saisie d'informations personnelles. OpenAI présente Operator comme une preview technologique, anticipant des versions futures plus autonomes et plus performantes dans l'interaction avec les sites marchands. Le but ultime serait de pouvoir remplacer n'importe quelle API.

Présenté comme l'incarnation la plus accomplie de la vision agentique d'OpenAI, deep research représente une rupture technologique dans la collecte et l'agrégation d'informations. L'outil est basé sur une version post-entraînée de o3 affinée pour la recherche web. C'est d'ailleurs la seule version du modèle déployée publiquement. Une étude interne assure que deep research permet d'économiser environ quatre heures de recherche en direct. Pour l'occasion, OpenAI a développé un index de recherche propriétaire, totalement découplé des moteurs traditionnels. Les critères de classement des sources restent volontairement opaques, l'entreprise souhaitant préserver la pertinence des résultats plutôt que de permettre leur optimisation. Selon OpenAI, la technologie aurait déjà séduit des chercheurs en santé, avec des retours suggérant que la qualité des rapports générés serait comparable à des travaux académiques de niveau doctoral (PHD).

Par ailleurs, OpenAI privilégie des collaborations externes stratégiques tant pour le développement de nouveaux agents que pour assurer leur compatibilité avec différents outils et plateformes. Ainsi, Virgin Atlantic a utilisé Operator comme outil de beta-test pour l'interface utilisateur de son site web. La compagnie aérienne a pu observer comment l'agent interagissait avec son site web, identifiant les éléments qui posaient problème à l'agent, comme certains menus déroulants ou sélecteurs de dates que l'IA ne parvenait pas à manipuler correctement. Suite à ces tests, Virgin Atlantic a optimisé son interface non seulement pour les utilisateurs humains, mais également pour les agents d'IA. OpenAI envisage un futur où l'expérience utilisateur (UX) des sites web sera conçue en tenant compte à la fois des humains et des agents d'IA.

Donner les clefs du développement agentique aux développeurs

Après avoir développé ses propres agents, le géant de l'IA entend maintenant faire profiter les développeurs de ses technologies. Le but ? Qu'ils créent de nouveaux agents adaptés à leur produit spécifique sans re-développer toute la stack technique (outils externes et guardrails notamment). Pour concrétiser cette vision, OpenAI a dévoilé, en mars, l'API Responses qui simplifie l'intégration de trois outils : WebSearch (recherche sur le web), FileSearch (recherche dans des documents avec du RAG) et Computer Use Tool (la version API d'Operator). L'entreprise a également lancé un Agent SDK pour orchestrer ces technologies et assurer différents niveaux de sécurité, adaptés à chaque entreprise.

Enfin pour pousser encore un peu plus le développement agentique auprès des développeurs, OpenAI présente ce 20 mars trois nouveaux modèles vocaux destinés à améliorer considérablement les capacités conversationnelles de ses agents. Deux de ces modèles, basés respectivement sur GPT-4o et GPT-4o mini, sont spécialisés dans la transcription audio-vers-texte avec une meilleure reconnaissance linguistique et une précision accrue. Ces modèles établissent un nouveau standard de performance en surpassant les solutions existantes (notamment sur le taux d'erreur WER).

Contrairement à leur prédécesseur Whisper, ces nouveaux modèles vont au-delà de la simple transcription : ils peuvent comprendre le contexte, suivre des instructions spécifiques et extraire des informations précises à partir d'un enregistrement audio. Par exemple, un développeur pourrait demander au modèle d'identifier uniquement les noms d'animaux mentionnés dans un podcast.

Le troisième modèle, dédié à la conversion texte-vers-audio, permet de générer des voix plus naturelles avec des tons personnalisables selon le contexte, qu'il s'agisse de lire une pièce de théâtre, un article de journal ou de créer un podcast. Pour la première fois, les développeurs peuvent donner des instructions spécifiques au modèle texte-vers-audio pour qu'il parle d'une manière particulière - par exemple, "parler comme un agent de service client sympathique".

OpenAI lancera également demain un nouveau site de démonstration interactif pour les développeurs, OpenAI.fm, qui leur permettra d'essayer directement ces nouvelles capacités de conversion texte-vers-audio. De plus, l'entreprise a annoncé une intégration avec son SDK Agents récemment publié, simplifiant le processus de développement pour les agents vocaux. En clair les développeurs peuvent désormais transformer les agents textuels qu'ils ont construits avec le SDK Agents en véritables agents vocaux, avec seulement quelques lignes de code.