o3 et o4-mini, les modèles d'IA, "les plus intelligents lancés à ce jour" selon OpenAI
"OpenAI has been cooking", dirait-on en anglais. La scale-up de San Francisco a dévoilé mercredi 18 avril deux nouveaux modèles de raisonnement et un agent de code autonome. o3 et o4-mini représentent les modèles les plus avancés à ce jour publiquement disponibles chez OpenAI. L'entreprise présente également Codex CLI, un agent de code autonome et open source (uniquement l'interface, pas les modèles sous-jacents).
OpenAI l'affirme : o3 et o4-mini ne sont pas de simples modèles de raisonnement bruts. o3 et o4-mini ont été pensés pour les cas d'usage concrets et opérationnels. Les deux modèles sont capables d'utiliser de manière native les outils de recherche web et d'analyse avec Python. De même, les modèles arrivent avec des capacités de raisonnement visuel et de génération d'images. o3 et o4-mini ne se contentent pas d'utiliser les outils mais ils sont entraînés à raisonner. Les modèles sont en capacité de répondre aux cas d'usage les plus divers et complexes qui se présenteraient à eux, estime OpenAI.
o3 à la pointe des benchmarks, o4-mini en embuscade
Plus précisément, o3 est le modèle d'OpenAI le plus avancé. Il atteint des performances de pointe sur l'ensemble des benchmarks STEM (Science, Technology, Engineering, Mathematics). o3 établit des scores SOTA sur plusieurs benchmarks notamment sur Codeforces (ELO 2706) en analyse multimodale avec MMMU (82,9%). Sur SWE-bench (problème de code réels, avec une approche agentique), il atteint 69,1% sans même nécessiter d'adaptation technique, là où les approches précédentes en avaient besoin pour atteindre des performances comparables. Enfin, en matière de raisonnement visuel, il dépasse largement les capacités des modèles précédents avec 86,8% sur MathVista contre 71,8% pour o1.

De son côté, o4-mini (certainement un modèle entraîné à partir de o3) offre des performances proches pour un coût et une vitesse largement inférieurs. Il se distingue particulièrement sur AIME 2024 (concours de math) avec un excellent score (93,4%), surpassant même o3. Il obtient également des performances comparables sur Codeforces (2719 contre 2706 pour o3) et SWE-Bench (68,1% contre 69,1% pour o3). Toutefois, o4-mini présente quelques faiblesses par rapport à o3, notamment sur le suivi d'instructions multi-tours (42,99% contre 56,51%), sur CharXiv-Reasoning pour l'analyse de figures scientifiques (72,0% contre 78,6%), et sur BrowseComp pour la navigation agentique (28,3% contre 49,7%).
Un pricing classique pour des modèles de raisonnement
Du côté du prix, OpenAI o3 reste assez onéreux avec un prix pour 1 million de tokens à 10 dollars en input et 40 dollars en output (on reste toutefois loin des 600 dollars de o1-pro). De son côté, o4-mini s'affiche à prix raisonnable à 1,10 dollar du million de tokens en input et 4,40 dollars en output. Enfin pour les prompts en cache, o3 s'affiche à 2,50 dollars du million de tokens contre 0,275 dollar pour o4-mini.
Modèle |
Input ($ / 1M tokens) |
Cache ($ / 1M tokens) |
Output ($ / 1M tokens) |
o3 |
10.00 |
2.50 |
40.00 |
o4-mini |
1.10 |
0.275 |
4.40 |
Codex CLI, un agent de code autonome
En parallèle de ces annonces, OpenAI présente un agent d'IA pour le code. Codex CLI se présente sous la forme d'un programme open source (disponible sur GitHub) en ligne de commande (CLI). L'agent peut lire, modifier et même exécuter le code sur la machine. L'outil utilise par défaut o4‑mini (via l'API) mais l'ensemble des modèles de l'API Response d'OpenAI peuvent être utilisés. L'atout de Codex CLI réside dans son fonctionnement : l'outil n'adresse au modèle que les informations strictement nécessaires, à savoir : le prompt, le contexte de haut niveau (structure du projet, métadonnées…) et un résumé des différences de versions. L'ensemble du code n'est donc jamais adressé au modèle, assure OpenAI.
L'installation est très simple et tient en une seule ligne : npm install -g @openai/codex. Pour l'heure, seuls macOS et Linux sont pleinement supportés. Sur Windows, il sera nécessaire d'utiliser wsl, l'émulateur de Linux, comme pour Claude Code. Pour l'heure, si la version officielle de Codex CLI ne supporte aucun modèle tiers, il est fort à parier que la communauté reprenne le code pour en faire une version ouverte aux autres modèles.
Dans les prochaines semaines : o3-pro
OpenAI ne compte pas en rester là et prévoit déjà le lancement de o3-pro dans les prochaines semaines, un modèle encore plus performant qui devrait repousser davantage les limites du raisonnement. Avec ses modèles de raisonnement présents, OpenAI franchit une étape significative dans le développement vers l'AGI. o3 et o4-mini sont ainsi déjà utilisés pour produire des idées "nouvelles" dans le domaine scientifique, affirme Greg Brockman, président et cofondateur d'OpenAI.
Consciente des enjeux, l'entreprise vient de mettre en place des mécanismes de sécurité rigoureux, notamment sur les risques biologiques, avec un système de monitoring capable de filtrer 99% des conversations sensibles, assure-t-elle. Une anticipation qui en dit long sur les capacités de ces nouveaux modèles.