EuroLLM-9B : l'autre IA européenne de référence taillée pour les entreprises
Mistral n'est pas le seul acteur de référence dans le domaine de l'IA open source en Europe. Depuis plusieurs mois, la recherche publique européenne délivre de beaux résultats. Après avoir dévoilé CroissantLLM en mars 2024 (jadis meilleur modèle en français de sa catégorie), le laboratoire MICS de CentraleSupélec (Université Paris-Saclay) a réitéré sa performance. Cette fois avec d'autres universités de renom, à savoir l'Instituto Superior Técnico (Portugal), l'Instituto de Telecomunicações (Portugal) l'Université d'Édimbourg, Sorbonne Université et l'Université d'Amsterdam, le tout accompagné par 4 start-up : Naver Lab, Equall, Aveni et Unbabel. Ce conglomérat, réuni sous le nom de EuroLLM, est parvenu à développer, EuroLLM-9B, un LLM de référence dans les 24 langues officielles de l'UE (et 7 autres langues mondiales majeures dont l'anglais).
Un entraînement multilingue
EuroLLM-9B tire parti d'une architecture Transformer somme toute classique mais largement éprouvée ces deux dernières années. Le modèle a été pré-entraîné sur un dataset de 4 billions de tokens composé de données du web, des corpus bilingues et multilingues, une grande partie de Wikipedia, des articles scientifiques d'ArXiv, des livres et enfin des données du dataset Apollo. Un mélange équilibré qui a permis au modèle de développer une solide base multilingue.
L'entraînement s'est fait en trois étapes: d'abord un pré-entraînement initial sur 3,6 billions de tokens, puis une phase intermédiaire de 400 milliards de tokens en enrichissant avec des données multilingues, et enfin une dernière phase de 40 milliards de tokens avec des données de qualité supérieure pour peaufiner le modèle et améliorer ses performances. Enfin le modèle a a été fine-tuné par instruction tuning pour le spécialiser dans le suivi d'instructions complexes, le dialogue multi-tour et l'adaptation à divers cas d'usage généraliste. L'approche en trois phases ressemble à celle utilisée pour Llama 3 et Gemma 2, mais avec un focus sur des données multilingues plutôt que sur l'anglais principalement.

De très bonnes performances pour un 9B
Et les résultats sont là. EuroLLM-9B affiche des performances remarquables sur les benchmarks multilingues, particulièrement pour les langues européennes. Le modèle surpasse tous les autres modèles européens avec un Borda Count de 1.0 (moyenne des rangs obtenus sur l'ensemble des benchmarks), et se montre compétitif face à aux modèles non européens comme Gemma-2-9B (Google) et LLaMa-3.1-8B (Meta). Sur le benchmark MMLU multilingue (évalue la capacité du modèle à répondre à des questions) incluant les langues européennes, EuroLLM-9B obtient un score de 52,45%, supérieur aux 51,68% de Mistral-7B. Il fait également mieux que LLaMa-3.1-8B (56,01%) sur les benchmarks ARC-Challenge (capacité de raisonnement logique) avec 56,03% contre 48,54% et Hellaswag (68,54% contre 65,10%) pour les langues européennes.
Des performances impressionnantes qui s'expliquent en partie par son tokenizer spécialement optimisé pour les langues européennes, développé pour minimiser la fragmentation des mots dans les langues européennes. Le tokenizer de EuroLLM présente une "fertilité" (nombre de tokens par mot) généralement plus basse pour les langues européennes que celle des tokenizers de Mistral, LLaMa-3 ou Gemma. Une optimisation qui permet non seulement de traiter des textes plus longs avec la même fenêtre de contexte (puisque chaque mot consomme moins de tokens), mais améliore aussi la vitesse d'inférence et la consommation du modèle. Un modèle plus rapide et plus frugal donc.
Une alternative crédible pour plusieurs cas d'usage
EuroLLM-9B offre une alternative crédible aux solutions américaines et chinoises. Ses performances exceptionnelles dans les 24 langues officielles de l'UE, avec une maîtrise particulière des langues peu représentées dans d'autres LLMs, permettent de servir équitablement tous les marchés européens sans discrimination linguistique. Les entreprises implantées sur plusieurs marchés ont tout intérêt à l'adopter. Plusieurs cas d'usage assez basiques peuvent déjà être envisagés : service client, traduction, question / réponse sur des corpus en plusieurs langues, système d'analyse de sentiment, rédaction simple multilingue…
Pour un déploiement efficace, EuroLLM-9B nécessite généralement un GPU avec minimum 24 Go de VRAM, comme une NVIDIA A10 ou une RTX 4090. Grâce aux versions quantifiées, il peut également fonctionner sur des GPU plus modestes de 12-16 Go. Pour garantir des temps de réponse rapide, un serveur équipé d'un GPU dédié à l'inférence est recommandé, En parallèle, son approche open source (sous licence Apache 2) en fait un modèle réglementaire quasi-parfait. EuroLLM-9B respecte pleinement les exigences de transparence de l'AI Act en offrant un accès complet aux paramètres, à l'architecture détaillée et au code source modifiable. Une licence qui allège ainsi considérablement les obligations administratives.
EuroLLM-9B n'est toutefois pas un modèle polyvalent pour tous types de tâches. Avec ses 9 milliards de paramètres, il n'est pas conçu pour développer des agents intelligents complexes nécessitant un raisonnement avancé, domaine où il reste peu compétitif face aux modèles propriétaires de plus grande taille. De même, il ne peut traiter aucune donnée multimodale comme les images, les vidéos ou l'audio, se limitant strictement au texte. Cette dernière limite pourrait cependant rapidement évoluer : l'équipe de recherche s'est vu attribuer en décembre 2024 une bourse spécifique de 5 millions d'euros de la part du consortium de supercalculateurs EuroHPC (l'entreprise commune européenne pour le calcul haute performance) pour créer un version multimodale. A suivre !