L'IA no code annonce-t-elle la mort du data scientist ?
Les plateformes de machine learning sans code ne cessent de se multiplier. Une nouvelle génération d'outils qui pose la question du devenir du scientifique des données.
Alteryx, Azure ML Studio, Dataiku, DataRobot, H2O.ai... Les plateformes de machine learning sans code se multiplient comme des petits pains. Leur promesse ? Mettre la création d'IA à la portée des professionnels non-informaticiens qui deviendraient alors des citizen data scientists. Une population qui peut via ces solutions intégrer à la volée des sources de données multiples et recourir à des technologies d'automatisation du machine learning (auto ML) pour générer ses modèles de prédiction. "Les solutions d'auto ML permettent de produire rapidement des modèles qui restent en général assez simples. L'objectif des éditeurs étant d'aboutir à une IA explicable", commente Ismaïl Lachheb, data scientist au sein du cabinet de conseil français Octo Technology (groupe Accenture). Une vision produit qui est suivie par exemple par Alteryx.
Auto ML
En fonction d'un problème donné, l'auto ML compare plusieurs types d'algorithme mais aussi des algorithmes de même catégorie avec des réglages différents en termes d'hyperparamètres. Le but : dénicher la configuration qui donnera les meilleurs résultats. "C'est un moyen de gagner du temps en cernant assez vite ce qu'il est possible de faire", reconnait Sergio Winter, machine learning engineer chez Revolve, entité de l'ESN Devoteam experte en AWS. "Les modèles résultant de ce processus pourront néanmoins se révéler difficiles à déployer en l'état."
Premier bémol : le choix des hyperparamètres n'est pas neutre. "Il est souvent nécessaire que le data scientist interprète les conséquences du choix des paramètres pour les métiers", prévient Didier Gaultier, directeur data science et IA chez Business & Decision (groupe Orange). "Dans un moteur de recommandation par exemple, un seuil de classement aura un impact direct sur le chiffre d'affaires, la marge, et la proportion de population adressée lors d'une campagne marketing."
"L'auto ML passe à côté du feature engineerig qui consiste à préparer, raffiner, un peu comme on raffine du pétrole en essence, et enrichir les données en entrée du modèle"
Didier Gaultier d'ajouter : "L'auto ML passe aussi à côté du feature engineerig qui consiste à préparer, raffiner, un peu comme on raffine du pétrole en essence, et enrichir les données en entrée du modèle." Le consultant insiste : "On pourra recoder telle ou telle variable pour que sa distribution soit compatible avec le type d'algorithme utilisé. On pourra aussi croiser tel prédicteur avec tel autre pour créer un indicateur plus pertinent en entrée de l'algorithme. C'est là où l'impact du raisonnement humain sur le résultat final a le plus importance, et c'est principalement le soin apporté lors de cette phase qui va caractériser la compétence d'un(e) data scientist(e)."
Plus la problématique métier sera complexe, plus le travail de feature engineering devra être potentiellement approfondi. "Dans le domaine maritime par exemple, les numéros d'identification des containers répondent à un format de description spécifique avec des suites de numéros permettant d'identifier le propriétaire, l'opérateur, le type de containers, les containers réfrigérés...", égraine Sergio Winter. L'ensemble de ces éléments devra être pris en compte dans l'ingénierie des fonctionnalités… et seul un data scientist pourra réaliser ces rapprochements. "Les solutions d'IA no code permettent à l'utilisateur final d'avoir plus de contrôle sur les modèles. Ce qui n'est pas une mauvaise chose. Mais cela ne supprime pas tout le travail de science de la donnée", résume Sergio Winter.
Le no code ne peut pas saisir la data
Ismaïl Lachheb insiste : "Les plateformes d'IA no code se concentrent avant tout sur le choix des modèles et des hyperparamètres. Mais le gros d'un projet d'un machine learning, qui reste couvert par le data scientist, consiste à comprendre la data, son mode de production, en maîtriser les biais, mais aussi à nettoyer et préparer les données." Ismaïl Lachheb enchaîne : "Prédire le comportement d'un processus de production industrielle implique d'intégrer, fédérer et maitriser différents flux de données en provenance de capteurs de température, ou de tension, installés à différents endroits d'une chaîne de fabrication. Les outils d'IA no code sont loin d'être capables de modéliser une telle complexité."
En aval, le no code facilite la mise en production des modèles de machine learning avant leur réentrainement. Sur le front du MLOps, des plateformes d'IA comme Dataiku ou DataRobot intègrent des environnements no code taillés pour gérer l'ensemble du cycle de vie d'un modèle, de l'apprentissage à sa mise en production (lire l'article Comparatif MLOps : Dataiku et DataRobot face aux alternatives open source). Octo s'inspire d'ailleurs de cette logique via son offre d'IA Factory. "En parallèle de l'émergence du no code, les data scientits ont de plus en plus tendance à se spécialiser soit dans le MLOps, soit dans un des nombreux domaines de l'IA, tels la vision par ordinateur, le traitement automatique du langage ou le reinforcement learning", constate Ismaïl Lachheb. Le scientifique de la donnée a encore de beaux jours devant lui.