Pour arrêter les bots, les captchas ne suffisent plus

Sur Internet, les robots prolifèrent et l'engouement récent pour l'IA ne fait qu'accentuer le problème. Mais des solutions existent pour y faire face.

Sur Internet, les robots sont rois : selon des chiffres de Cloudflare, les robots représentent aujourd'hui 30 à 50% du trafic identifié sur le réseau. Derrière le terme de "robot", on désigne généralement tout le trafic réalisé de manière automatique au travers de programmes et logiciels dédiés. Ces outils scannent et parcourent chaque jour les sites et services web afin de récolter des informations.

Ces robots qui nous en veulent

Mais ces robots sont également utilisés à des fins malveillantes comme le rappelle Boris Lecoeur, directeur de Cloudflare France : "Une grosse partie du trafic automatisé est malveillante. On parle notamment d'attaques ddos, des attaques automatisées qui cherchent à saturer un site ou une application pour le faire tomber, mais ce ne sont pas les seuls usages malveillants." Les outils d'automatisations peuvent également être utilisés pour identifier la présence de vulnérabilités sur un service connu, ou procéder à des campagnes de type "bourrage d'identifiants", qui consistent à tester une liste d'identifiants sur les formulaires de connexion d'un service en ligne.

Et en la matière, les concepteurs de robots sont parfois particulièrement inventifs comme le résume Arnaud Lemaire, ingénieur avant vente chez F5 Networks : "On fait aussi face à des logiques plus business. Par exemple en passant de fausses transactions via de faux comptes, ou des robots qui font de fausses réservations pour bloquer l'inventaire d'un concurrent et rediriger les clients chez soi." Les plateformes d'e-commerce sont elles aussi concernées par des problématiques similaires, avec des robots utilisés pour s'accaparer automatiquement des objets au moment de leur mise en vente afin de les revendre par la suite sur des plateformes différentes.

Comme l'explique Benjamin Barrier, porte-parole de Datadome, société française spécialisée dans la détection et la lutte contre les robots, les principaux secteurs concernés par le sujet sont "le retail & e-commerce, la billetterie en ligne, le voyage & hôtellerie, les services financiers et les médias & divertissement." Mais comme le rappelle Arnaud Lemaire, tous les sites font face à des connexions émanant d'outils automatisés, du plus petit blog Wordpress aux géants de l'e-commerce. "Mais ceux qui réalisent l'essentiel de leur chiffre d'affaires au travers de leur activité en ligne sont évidemment plus directement concernés", estime-t-il.

Le captcha : un dernier recours

Pour détecter et bloquer ce trafic, les principales solutions s'appuient sur des méthodes diverses, qui évoluent au gré des contre-mesures mises en place par les développeurs de robots. "Historiquement, les premières solutions comptaient sur des limitations des requêtes émanant d'une même adresse IP. Puis on a vu apparaître les premières solutions de type Captcha" explique Arnaud Lemaire. Développées aux début des années 2000 afin d'identifier les utilisateurs humains, ces solutions visent à demander à un internaute de reconnaître certains caractères, ou d'identifier des objets sur une photo et autres variantes parfois ésotériques.

Mais ces outils ne sont pourtant pas imparables : "On peut facilement trouver des outils de contournement des solutions de captchas. Pour des prix allant de quelques centimes à cent dollars, on peut résoudre plusieurs milliers de captchas. Aujourd'hui, le captcha en lui-même n'est plus une protection, c'est au contraire plutôt une nuisance dans certains secteurs" explique Arnaud Lemaire. Le secteur de l'e-commerce par exemple, qui multiplie les efforts pour simplifier le parcours d'achat de l'utilisateur, rechigne à avoir recours à des solutions. Le recours au captcha fait donc plutôt office de solution de dernier recours afin de lever le doute.

Éviter la friction

Alors pour épargner des maux de tête aux internautes, des solutions alternatives se sont imposées, avec pour objectif principal de rester invisible aux yeux des utilisateurs. Elles passent par exemple par des modules JavaScript réalisant des vérifications invisibles à l'utilisateur afin de s'assurer que son comportement, sa vitesse de frappe au clavier ou à la souris, correspond bien à celui d'un humain. Cette détection peut également passer par l'analyse des caractéristiques du navigateur utilisé, ou des requêtes envoyées, afin de les comparer avec les bases de "signatures" de robots identifiés par les fournisseurs de solutions anti bots. L'objectif est ici d'éviter au maximum la "friction", c'est à dire obliger l'utilisateur à se reconnecter ou à réaliser un test de type captcha pour prouver qu'il est humain.

Autant de facteurs qui permettent par exemple à Cloudflare d'attribuer un "score" visant à estimer la probabilité que l'utilisateur à l'origine de la requête soit un humain ou un bot, et à déclencher au besoin certaines vérifications supplémentaires en cas de doute.

Et comme pour les logiciels malveillants, la collecte d'information est clef pour rester à jour des évolutions de la menace. Un avantage que ne se prive pas de rappeler Boris Lecoeur : "Un quart des sites internet sont derrière Cloudflare, donc ça nous donne une immense visibilité. Si un nouveau robot apparaît, on sera dans les premiers à le voir. Et comme nous travaillons autant avec de très grands sites qu'avec de petits blogs personnels au travers de notre offre gratuite, nous bénéficions d'une grande qualité de données pour alimenter nos moteurs de détection."

Des robots IA particulièrement actifs

Reste que tous les robots ne sont pas nos ennemis. Certains, comme le robot d'indexation de Google, sont plutôt accueillis à bras ouverts par les sites web qui cherchent à faire référencer leur contenu. "En général, ce n'est pas difficile de les détecter : les bots légitimes ne se cachent pas, leurs requêtes affichent suffisamment d'informations et en cas de doute, nous avons des bases de données d'adresses IP "connues" qui nous permettent de comparer" explique Arnaud Lemaire.

Mais une nouvelle catégorie de robots apparus ces dernières années joue en zone grise : les robots destinés à alimenter les outils d'intelligence artificielle, qui parcourent le web et aspirent les contenus afin d'améliorer des grands modèles de langages. "Ceux qu'on voit le plus, ce sont les robots de ChatGPT ou celui de TikTok" explique Boris Lecoeur. "Mais ces robots là ne vont pas rediriger des utilisateurs vers votre service comme celui de Google. Ils vont simplement utiliser votre contenu pour améliorer leur outil." Une approche qui interroge le modèle économique des acteurs du web : si les grands acteurs des médias ou de la presse multiplient les accords avec OpenAI ou Mistral AI pour leur donner l'accès à leurs contenus, les plus petits éditeurs ont eux tout intérêt à détecter les visites de ces robots, afin de les bloquer ou peut être pouvoir un jour eux aussi négocier l'accès.