La qualité des données est primordiale pour libérer tout le potentiel de l'IA.
La qualité des données est centrale pour une IA fiable, impartiale et efficace. Sans données précises et cohérentes, même les systèmes d'IA les plus sophistiqués peuvent générer des résultats erronés.

À mesure que l'intelligence artificielle (IA) et les algorithmes d'apprentissage automatique sont de plus en plus intégrés dans divers secteurs, leur impact sur les processus décisionnels ne cesse de croître. Que ce soit pour des diagnostics médicaux, des prévisions financières ou des services clients, ces systèmes reposent sur des volumes de données croissants pour fonctionner efficacement. Cependant, l’efficacité de ces systèmes est étroitement liée à la qualité des données utilisées pour leur entraînement. Des données de mauvaise qualité peuvent mener à des prédictions inexactes, à des résultats biaisés, voire à des conséquences éthiques néfastes, compromettant ainsi l’objectif même de l’IA.
En effet, la qualité des données est essentielle pour l'IA et les algorithmes, et joue un rôle majeur pour garantir l'exactitude, l'équité, la transparence et la conformité. À l'aide d'exemples concrets, il est important de mettre en évidence les dangers de l'utilisation de données erronées et l'importance d'investir dans des ensembles de données fiables et de haute qualité pour construire des systèmes d'IA performants. La qualité des données a un impact direct sur l’exactitude, la fiabilité et les implications éthiques de l'IA et des algorithmes[1].
Le coût du nettoyage et du prétraitement des données augmente lorsque la qualité des données est faible. Les modèles d'IA passent une partie importante de leur cycle de développement dans la phase de préparation des données, et plus la qualité des données est mauvaise, plus il faut de ressources pour les rendre utilisables. Cela peut entraîner des coûts opérationnels plus élevés et des retards dans le déploiement des modèles d'IA.
Passons en revue les points clé et les exemples qui démontrent pourquoi la qualité des données est essentielle pour des systèmes d'IA efficaces :
1. Exactitude dans la prise de décision stratégiques ou opérationnelles
L'une des raisons les plus critiques d'une qualité de données élevée est la nécessité de prédictions et de décisions précises. Les algorithmes d'IA et de machine Learning apprend à partir de données historiques pour faire des prédictions futures. Si les données sont incomplètes, incohérentes ou incorrectes, le modèle peut apprendre des modèles erronés et produire des résultats inexacts.
Prenons l'exemple d'un modèle d'apprentissage automatique conçu pour prédire les résultats des patients dans le domaine de la santé. Si les données d'entraînement contiennent des dossiers médicaux manquants ou incorrects, le modèle pourrait mal classer les conditions des patients, ce qui entraînerait des conséquences potentiellement mortelles ou grandement handicapantes telles que des diagnostics ou des traitements incorrects. Des données médicales validées de haute qualité garantissent que les systèmes d'IA font des prédictions précises, préservant ainsi le bien-être des patients.
2. Biais et équité dans les modèles d'IA
Le biais est un problème important qui découle de la mauvaise qualité des données. Si les données utilisées pour entraîner un système d'IA sont biaisées, le modèle d'IA héritera de ces biais et les exacerbera éventuellement. Cela une incidence majeure sur le bon fonctionnement de vos modèles d’IA et peut conduire à des résultats discriminatoires, en particulier dans des domaines sensibles comme la justice pénale, l'embauche ou les prêts.
Si nous pensons entraîner des chatbots sur la base de conversations téléphoniques enregistrées dans les années 1960 aux États-Unis, nous aurons des résultats racistes comme le confirmait Luc Julia, co-inventeur de Siri[2]. Cela s'est déjà produit en 2016 avec Microsoft qui a retiré « Tay » de réseau social X (ex Twitter) après avoir écrit des commentaires racistes et misogynes, un programme d’intelligence artificielle, conçu pour interagir avec les internautes[3]. Et en 2018 c’est Amazon qui désactive une IA qui discriminait les candidatures de femmes à l’embauche[4]. Cet algorithme a été formé sur des CV soumis sur une longues période pour l'entrainer, mais la plupart des candidats retenus étaient des hommes, ce qui a pénalisé les CV avec des mots-clés spécifiques aux femmes. Il s'agit d'un cas clair de déséquilibre des données et de biais historique, où la mauvaise qualité des données ne représentant qu'un seul groupe démographique ayant conduit à des décisions d'embauche biaisées. En veillant à ce que les données soient représentatives et équitables, corriger les bases, les compléter et faire des tests réguliers pour ne mise en qualité avant usage, ces biais pourraient être d’abord minimisés et aider à disparaitre dans la durée. D’où l vigilance demandée à ne pas laisser la machine décider sans intervention humaine au début pour interpréter les résultats.
3. Principe GIGO (Garbage In, Garbage Out)
Le célèbre principe du « garbage in, garbage out » s'applique directement à l'IA. Si les données d'entrée sont erronées, même le modèle d'IA le plus avancé produira des sorties défectueuses. Des données de haute qualité permettent au modèle de reconnaître des modèles pertinents et de générer des informations fiables, tandis que des données de mauvaise qualité conduisent à des résultats peu fiables et souvent inutiles.
Sur les marchés financiers, les algorithmes de trading s'appuient fortement sur des flux de données en temps réel pour prendre des décisions d'achat et de vente. Si ces flux de données contiennent des informations incorrectes ou retardées, l'algorithme peut effectuer de mauvaises transactions, ce qui entraîne des pertes financières substantielles. D'autre part, des données propres et précises permettent d'élaborer des stratégies de trading optimales et en minimisant les risques.
Dans la conduite autonome, les systèmes avancés d’aide à la conduite (ADAS – Advanced Driver Assistance Systems) sont basés sur les mêmes principes que le ChatGPT et d’autres grands modèles de langage (LLM- Large Language Models). Ils sont formés sur des images et des données de capteurs provenant de plusieurs environnements comprennent des images qui peuvent être de mauvaise qualité (par exemple, des données floues, mal étiquetées ou incomplètes), le modèle peut ne pas reconnaître les dangers routiers dans des environnements inconnus Des données d'entraînement diversifiées et de haute qualité permettent à l'algorithme de mieux se généraliser à de nouvelles situations, améliorant ainsi la sécurité et la fiabilité.
4. Transparence et explicabilité
Dans de nombreuses applications, en particulier dans les secteurs réglementés tels que la santé, la finance ou l'assurance, les systèmes d'IA doivent être transparents et explicables. Cela signifie que les décisions prises par ces systèmes doivent être compréhensibles par les humains et des rétro-ingénierie complètes. Des données de mauvaise qualité rendent difficile cette tâche, car les décisions de l'IA peuvent être influencées par des valeurs aberrantes ou des erreurs, ce qui rend plus difficile l'explication de son comportement[5].
IBM dans une étude publiée en 2024 estime que les erreurs de données ou aux problèmes d’explication nécessitant des corrections peuvent coûter jusqu’à 3,1 trillions de dollars par an aux entreprise retardant ainsi le déploiement de projets d’IA et entraînant des surcoûts[6].
Dans le secteur de l'assurance, les entreprises utilisent des modèles d'IA pour calculer les primes des clients. Si les données consommées par les moteurs décisionnels d’IA sont aberrantes, ou avec des valeurs manquantes ou incorrectes, il devient difficile pour les compagnies d'assurance de justifier leurs décisions tarifaires. Aussi, l’analyse de données et leur comparaison avec des modèles de fraude augmentés par l’IA peut alerter sur des comportements douteux de certains clients examinant des milliers d'informations pour dégager des schémas inhabituels ou des incohérences pour détecter et faire remonter des fraudes potentielles, si ces blocages sont inopérants ou injustifiés, les pertes financières peuvent être importantes. Des données de haute qualité garantissent la transparence des modèles d'IA et la défense de leurs décisions en cas d'audits ou de litiges sont de plus en plus demandées par les instances de régulation et de contrôle.
5. Impératifs éthiques et impact social
Les implications éthiques de l'IA sont directement et principalement liées à la qualité des données qu'elle traite. Une mauvaise qualité des données peut entraîner des résultats biaisés, injustes ou nuisibles, érodant la confiance dans les systèmes d'IA. Il est essentiel d'assurer une qualité élevée des données pour créer des systèmes d'IA éthiquement solides et socialement responsables.
La technologie de reconnaissance faciale pilotée par l'IA a été critiquée pour avoir mal identifié des individus, en particulier parmi les groupes minoritaires. Cela découle du fait que de nombreux algorithmes de reconnaissance faciale sont entraînés sur des ensembles de données avec une surreprésentation de certains groupes ethniques et une sous-représentation d'autres. Il s'agit d'un cas clair où une mauvaise qualité des données conduit à des résultats contraires à l'éthique et discriminatoires, et l'amélioration de la qualité des données est la clé pour résoudre ces problèmes.
La qualité des données est la base sur laquelle reposent une IA et des algorithmes efficaces. Qu'il s'agisse de faire des prédictions précises, de réduire les biais, d'assurer l'équité ou de maintenir la conformité légale, la qualité des données joue un rôle central dans la détermination du succès des systèmes d'IA. Des données de mauvaise qualité entraînent des résultats peu fiables, biaisés et contraires à l'éthique, tandis que des données de haute qualité conduisent à des solutions d'IA plus précises, transparentes et socialement responsables.
Garantir la qualité des données nécessite un investissement initial important dans les processus de collecte, de nettoyage et de validation des données, mais les avantages en termes de meilleures performances de l'IA, d'économies de coûts et d'atténuation des risques en valent la peine. En se concentrant sur des données de haute qualité, les organisations peuvent améliorer la précision de leurs modèles, minimiser les biais, maintenir la conformité aux réglementations et favoriser la confiance avec les utilisateurs. Cela permet non seulement d'améliorer l'efficacité opérationnelle, mais aussi d'aider les entreprises à créer des systèmes d'IA évolutifs, éthiques et adaptables aux défis du monde réel.
En fin de compte, la qualité de l'IA dépend des données dont elle s'inspire. En privilégiant la qualité des données, les organisations peuvent libérer tout le potentiel de l'IA, en prenant des décisions plus intelligentes, plus justes et plus efficaces qui ont un impact positif sur les activités des entreprises et sur la société dans son ensemble. Des données de haute qualité ne sont pas seulement une nécessité technique, c'est un atout stratégique dans la perspective d’usage de l'IA plus massif.
Références :
[1] B. Moses, L. Gavish, M. Vorwerck (2022), “Data Quality Fundamentals - A Practitioner's Guide to Building Trustworthy Data Pipelines”, Ed. O'Reilly
[2] La Tribune : urlr.me/fKxzB
[3] Le Monde : urlr.me/hGDQq
[4] Numerama : urlr.me/69gJW
[5] Gohari P., Cherkaoui N., Barrère J. (2024), "Le nouvel horizon de la transformation digitale : Focus sur les données, cap vers l’IA", Édition Dunod.
[6] IBM : urlr.me/6DMGQ