Grok-2, l'IA d'Elon Musk… qu'il ne faut surtout pas utiliser en entreprise
Lancé en aout 2024, Grok-2 culmine en tête du classement de la Chatbot Arena. Que vaut pour autant le modèle de xAI dans le cadre d'une utilisation en entreprise ? On vous explique.
C'est une IA dont Elon Musk affirme qu'elle est totalement libre et dénuée d'idéologie. Publié en aout 2024 par xAI, la branche dédiée à l'intelligence artificielle de X (jadis Twitter), Grok-2 se veut un modèle polyvalent capable de répondre à une grande variété de requêtes. Les équipes de xAI affirment que le modèle est à l'état de l'art en raisonnement, et surperformerait Claude 3.5 Sonnet et GPT-4 Turbo. Qu'en est-il vraiment ? Grok-2 peut-il être utilisé en entreprise ? Le JDN fait le point sur ce modèle d'un nouveau genre.
Pas un, mais deux modèles
Grok-2 est en réalité une famille composée de deux principaux modèles : Grok-2 et Grok-2 mini. Le premier, le plus capable des deux, est pensé pour les tâches nécessitant un raisonnement avancé ou pour des requêtes complexes. Le second, Grok-2 mini, est taillé pour la rapidité. Les deux modèles disposent de capacités multimodales en vision. Ils sont capables d'analyser des images. D'un point de vue technique, xAI reste véritablement opaque sur le type d'architecture, les données d'entraînement utilisées ou encore le nombre de paramètres des deux modèles.
Les quelques informations publiées au sujet de Grok-1, la première version du modèle, laissent à penser qu'il s'agit très probablement d'un modèle Transformer autoregressif. Jadis, xAI évoquait des données issues du web pour entrainer Grok-1. L'approche avec Grok-2 doit être peu ou prou la même. Les chercheurs de l'entreprise ont très probablement utilisé des données directement issues de X (Twitter) pour former le modèle. Le réseau social a, en effet, changé sa politique de conservation de données pour autoriser l'utilisation à des fins d'entraînement pour des systèmes d'IA. L'arrivée de la multimodalité suggère également un entraînement sur un vaste dataset d'images en tous genre.
Un modèle équilibré dans les benchmarks
Dans les benchmarks, Grok-2 affiche de très (trop ?) belles performances. Sur le benchmark MMLU évaluant les connaissances générales, Grok-2 obtient 87,5%, surpassant légèrement GPT-4 Turbo (86,5%) et Gemini Pro 1.5 (85,9%), mais restant juste derrière GPT-4o (88,7%) et Claude 3.5 Sonnet (88,3%). Pour les tâches mathématiques complexes (benchmark MATH), Grok-2 atteint 76,1%, dépassant nettement Gemini Pro 1.5 (67,7%) et Claude 3 Opus (60,1%), et se rapprochant de GPT-4o (76,6%). Enfin pour les tâches d'analyse d'images, Grok-2 excelle particulièrement sur MathVista avec 69,0%, surpassant GPT-4o (63,8%), Claude 3.5 Sonnet (67,7%), et Gemini Pro 1.5 (63,9%).
Des performances au coude-à-coude donc avec les meilleurs modèles du marché, qui font craindre à certains de nos interlocuteurs une sur-optimisation du modèle pour certains benchmarks. Grok-2 mini affiche de son côté des performances plus basses mais encore raisonnables.
Des performances dignes d'un LLM milieu de gamme
Grok-2 apporte-t-il une véritable évolution dans le monde du LLM multimodal ? Nos tests démontrent des résultats de qualité moyenne.
En génération de texte, en français, le modèle de xAI produit une prose assez fade, très factuelle, avec un langage peu diversifié, loin de GPT-4o, Gemini 1.5 ou encore de Claude 3.5 Sonnet.
En résumé de texte, Grok-2 se montre légèrement plus efficace qu'en génération. Ses résumés sont de bonne facture et condensent les principales informations de la source originale. Il est fort probable que le modèle ait été spécialement optimisé pour cette tâche précise, étant donné qu'il s'agit de sa fonction principale sur la plateforme X (anciennement Twitter). Cette spécialisation expliquerait ses performances particulièrement élevées dans ce domaine.
En génération de code, Grok-2 pèche encore. Le modèle parvient à fournir une première base propre mais largement perfectible. Le modèle ne surpasse pas GPT-4o, Claude 3.5 ou Gemini 1.5 en programmation. L'optimisation globale est à revoir tout comme la robustesse générale du code.
Le problème avec Grok-2
L'origine de Grok est également sa plus grande faiblesse. Lancé à l'origine par xAI, sous l'impulsion d'Elon Musk, Grok-2 devait apporter une réponse aux modèles d'IA trop bridés pour exprimer des opinions impopulaires ou non consensuelles. Bien que le modèle jouisse actuellement d'une liberté d'expression quasi illimitée, cette caractéristique présente un inconvénient majeur : l'absence presque totale de garde-fous. Grok-2 répond à toutes les questions, jusqu'aux plus problématiques. Nous avons par exemple pu lui faire générer le texte d'un potentiel courriel d'hameçonnage sans contourner aucune mesure de sécurité. Cette absence de garde-fous pose un problème majeur pour les entreprises qui souhaiteraient utiliser Grok-2. Un modèle sans restrictions éthiques pourrait potentiellement générer du contenu inapproprié, offensant ou même illégal, exposant la société à des risques juridiques et réputationnels.
Par ailleurs, le manque de transparence concernant les principales caractéristiques du modèle et le dataset utilisé pour son entraînement est particulièrement problématique. Contrairement à d'autres acteurs comme OpenAI, qui fournissent au moins quelques informations sur leurs modèles, xAI reste très opaque.
Pour le moment, Grok-2 est disponible sur la plateforme X (Twitter) avec un abonnement Premium à 8 dollars par mois. xAI prévoit également de le rendre accessible prochainement via son API pour développeurs. Toutefois, l'utilisation de Grok-2 dans un cadre professionnel est fortement déconseillée à l'heure actuelle. Ses performances techniques face à la concurrence et ses lacunes en matière de sécurité et d'éthique en font un choix trop risqué.