Microsoft, OpenAI, xAI : quand les IA commencent à cliquer pour nous
Les IA passent à l'action : vision, mémoire, agents autonomes… Tout s'emballe.
Cette semaine, plusieurs annonces ont renforcé une tendance claire : les agents IA deviennent plus autonomes, capables d’interagir avec leur environnement, de gérer la mémoire contextuelle et de s’intégrer aux interfaces existantes.
Microsoft : Copilot interagit avec les interfaces graphiques
Microsoft a étendu les capacités de Copilot avec deux nouvelles fonctionnalités. La première, intégrée à Copilot Studio, permet à l’IA d’interagir directement avec les interfaces graphiques sur desktop et web. Grâce à la fonction « computer use », elle peut effectuer des actions comme cliquer, remplir des formulaires ou naviguer dans des menus, sans nécessiter d’API.
La seconde, Copilot Vision, intégrée au navigateur Edge, permet à l’assistant d’analyser en temps réel le contenu visuel de l’écran. L’IA peut répondre à des questions contextuelles ou suggérer des actions pertinentes, sans interagir directement avec les éléments affichés. Ces avancées ciblent les usages de productivité et d’assistance contextuelle, sans dépendre d’intégrations spécifiques.
Canva : plateforme unifiée pour contenu, code et données
Canva a lancé Visual Suite 2.0, une mise à jour de sa plateforme de création de contenu assistée par IA. L’assistant Canva AI permet de générer textes, images, présentations et vidéos à partir d’instructions simples. Canva Code facilite la création de widgets ou sites web sans codage, et Canva Sheets transforme les feuilles de calcul en tableaux de bord interactifs, avec des fonctions d’analyse intégrées. L’ensemble est regroupé dans One Design, une interface unifiée de création collaborative.
xAI : Grok Studio et mémoire utilisateur
xAI a présenté Grok Studio, une interface collaborative en écran partagé pour coder, rédiger des documents ou concevoir des jeux avec l’IA Grok. L’outil prend en charge plusieurs langages et offre une prévisualisation en temps réel.
L’agent dispose désormais d’une mémoire personnalisable. L’utilisateur peut consulter, modifier ou supprimer les informations enregistrées. Ce système permet à l’IA d’adapter ses réponses à l’historique des échanges.
OpenAI : nouvelle version GPT-4.1 et outils multimodaux
La version GPT-4.1 est désormais disponible via l’API. Le modèle améliore le raisonnement, le suivi d’instructions et la génération de code, tout en prenant en charge des contextes plus longs.
Deux autres variantes, o3 et o4-mini, sont proposées dans l’interface ChatGPT. Le premier privilégie la profondeur du raisonnement, le second la rapidité d’exécution. Tous deux sont multimodaux, capables d’interpréter du texte et des images, et peuvent déclencher des actions à travers des outils comme l’éditeur de code, la navigation ou la gestion de fichiers.
Un nouvel agent, Codex CLI, a également été présenté. Accessible en ligne de commande, il peut lire, modifier et exécuter du code localement. Il repose sur o4-mini par défaut et accepte des entrées visuelles telles que des captures d’écran.
ByteDance : génération vidéo optimisée avec Seaweed-7B
ByteDance a dévoilé Seaweed-7B, un modèle vidéo de 7 milliards de paramètres. Il génère des vidéos 720p à 24 fps en temps réel avec seulement 40 Go de VRAM. Il prend en charge des tâches variées, dont la génération contrôlée par trajectoire de caméra.
Son architecture repose sur un VAE avec compression 64× et un Transformer à flux hybride, réduisant les besoins en calcul de 20 %. Une formation progressive combinant supervision et renforcement améliore la qualité et la cohérence des vidéos.
Anthropic : Claude devient un outil de recherche assistée
Anthropic a ajouté deux fonctionnalités à Claude. La première, Research, permet à l’IA de conduire des recherches multi-étapes sur le web et de restituer des réponses structurées avec sources.
La seconde ajoute une intégration à Google Workspace. Claude peut accéder à Google Docs, Gmail et Google Calendar pour extraire, résumer ou croiser des informations, sous le contrôle de l’utilisateur.