Comprendre les bénéfices d'une association de l'open source et de l'IA

L'alternative que constitue le choix de l'open source s'incarne dans quatre arguments principaux liés à l'IA.

L’IA générative, popularisée depuis 2022 par les chatbots ou encore des outils bien connus comme ChatGPT, cristallise autour d’elle une grande partie de la discussion sur l’intelligence artificielle (IA). Le pan génératif de l’IA supporte ainsi la grande majorité des préoccupations des décideurs IT, qui couvrent aussi bien les investissements dans le cloud que l’évolution du cours de l’action de Nvdia, en passant par l’achat de matériel dédié. On constate également une méconnaissance des enjeux de ce types de projets de la part des acteurs de l’IT qui s’engagent pourtant dedans. Ce développement de l’IA générative impose aux éditeurs, déjà spécialistes des projets d’IA traditionnelle prédictive, d’étendre leurs connaissances, notamment avec les grands modèles de langage (LLM). Les acteurs du marché maintiennent de façon volontaire ces derniers dans une logique propriétaire opaque, comme des « boîtes noires » dans lesquels seraient captifs les utilisateurs de solutions cloud et SaaS et dépourvus de capacités de maîtrise des coûts. 

Pour une technologie indépendante et une transparence des coûts

Pourquoi choisir l’open source ? En premier lieu, il s’agit d’abolir la dépendance qui pèse sur les acteurs de l’IA propriétaire et leur donner plus d’autonomie, mais il s’agit également d’enjeux économiques. En effet, l’erreur pour les utilisateurs serait de choisir des solutions « closed source », c’est-à-dire fermées, qui ne permettent aucune évolution d’un côté ou de l’autre, alors que le marché de l’IA n’a pas encore atteint son stade de maturité. Grâce à l’open source au contraire, les utilisateurs sont maîtres de leurs services, et peuvent les déployer sur leur cloud privé, public ou sur leurs propres sites, tout en évitant les surcoûts. Les modèles IA open source existants aujourd’hui apportent des niveaux de performance et de fiabilité comparables aux équivalents côté propriétaires ; ils sont également plus flexible sur leur taille, et donc leur consommation, que les alternatives cloud.

Améliorer la propreté des modèles de données 

La transparence instaurée sur les données des modèles d’IA grâce à l’open source permet de répondre aux enjeux de propriété intellectuelle, qui trouvent leur limite dans le modèle de type « boîte noire ». En effet, les outils d’IA générative propriétaires existants sont souvent fondés sur l’ensemble des données accessibles sur internet, qu’ils ont utilisés pour entraîner leurs modèles. Aucun utilisateur qui utilise l’IA pour générer du contenu n’est à l’abri d’une attaque en justice lancée par les propriétaires des données utilisées, et ce malgré les clauses qui régissent l’utilisation des outils d’IA.

La présence identifiée de biais dans les sources de données et les méthodes d’entraînement est un deuxième point d’inquiétudes, qui peut impacter le résultat. Afin de garantir la propreté et la fiabilité des données, mais aussi de défendre la communauté open source en cas de problème, il convient de s’appuyer sur des jeux de données en open source ; si tous les utilisateurs peuvent facilement localiser et accéder au matériel source, il sera plus facile de résoudre les problèmes sur la propriété intellectuelle et ceux-ci seront aussi moins fréquents.

L’IA simplifie la personnalisation des usages

L’IA générative est mise à profit par chaque entreprise de façon différente, pour servir ses objectifs spécifiques liés à son activité.  L’un des prérequis principaux est la capacité de l’entreprise à intégrer dans un modèle générique d’IA les données qu’elle possède, pour atteindre des résultats alignés avec ses objectifs et priorités. Si l’objectif est de garantir une meilleure expérience client en utilisant l’IA, il faut que l’entreprise utilise des données en nombre et spécifique à ses clients au sein de son modèle. Si ce dernier est en mode open source, cela apporte à la fois de la facilité, de l’efficacité et des économies comparé au modèle SaaS, raison pour laquelle la voie du cloud est souvent abandonnée par les entreprises.

Sur un autre plan, une injonction à réduire au maximum le niveau d’ « intelligence » des modèles fait son chemin, dans le but de réduire leur empreinte, leur consommation de GPU et leur taille. En effet, l’enjeu autour de la consommation d’énergie, de ressources et d’infrastructures liée à l’utilisation de l’IA devient de plus en plus important.

 Dans cette optique, il convient de limiter l’utilisation de la technologie à des tâches spécifiques, donc d’avoir un modèle « spécialisé » et non un modèle polyvalent et très puissant tout en étant sous-exploité. Afin d’appliquer cette approche, il faut d’abord procéder à une évaluation des paramètres de chaque modèle et leur degré de pertinence : une mission que peut tout à fait remplir une IA open source, de façon très transparente. Selon les résultats de cette évaluation, la pertinence d’un petit modèle de langage (SML) peut émerger, ou bien celle de projets open source qui entraînent les LLM sur un domaine de connaissance spécifique, simplifiant le déploiement tout en étant plus rentable. Cette approche contribue à démocratiser l’IA et son utilisation, ouvrant de nouvelles perspectives pour tous les utilisateurs, peu important leur niveau de technicité.

Initier le cadre d’une IA traçable

S’affranchir des acteurs émergents du marché et créer son modèle propre est une ambition qu’ont partagé beaucoup d’utilisateurs au moment de l’explosion de l’IA générative,. Deux ans plus tard, c’est un choix stratégique extrêmement coûteux à l’heure actuelle, aussi bien du point de vue humain que matériel. Il est impératif en effet de s’appuyeyr sur un modèle de base (aussi appelé « foundation model »), à l’image de GPT, Llama, Mistral ou encore Granite.

Le choix qui revient aux entreprises à présent, pour profiter de la stabilité et la solidité de l’écosystème open source, est d’opter pour un modèle open source plutôt qu’un modèle en mode SaaS de grande taille ; l’open source est accompagne des avantages des membres de la communauté derrière.

Avec cette approche, les cas d’utilisation des modèles d’IA devraient se standardiser et être de moins en moins divers, grâce à l’identification de ceux qui fonctionnent bien et à l’utilisation généralisée des outils sous-jacents sur les différents modèles. Grâce à cela, il sera possible de dresser une cartographie identifiant les modèles LLM selon plusieurs paramètres : les failles, les forces, le niveau de sécurité.

Les développeurs et les utilisateurs, qui peuvent se retrouver rapidement perdus face au rythme d’évolution de l’IA, peuvent bénéficier de ce type de dispositif et simplifier leur prise de décision.  L’open source s’adapte en effet particulièrement au rythme effréné de développement de l’IA, et propose une voie alternative plus adaptée que l’opacité du modèle de la « boîte noire » pratiqué par les grands acteurs du domaine. Le système n’ira qu’en s’améliorant et en évitant les dérives, à mesure que davantage d’utilisateurs se pencheront sur le sujet de l’IA et se poseront des questions liées aux usages et à l’éthique.