SEO : comment cracker l'arrivée d'AI Overview en France ?
L'arrivée prochaine d'AI Overview du géant de Mountain View doit être anticipée dans les stratégies SEO des entreprises pour ne pas disparaitre du moteur de réponse.
Lancé en grande pompe lors de son événement annuel Google I/O 2024, AI Overviews n’avait pas tardé à défrayer la chronique, forçant la firme américaine à restreindre sa nouvelle fonctionnalité de recherche assistée par IA le temps de l’ajuster. En attendant de se mettre en conformité avec l'AI Act et le DSA européens, le géant continue de tuner son moteur de réponse grâce au Retrieval-Augmented Generation (RAG) censée optimiser les résultats des LLM… Comment malgré tout anticiper cette arrivée future sur le vieux continent ?
Les LLM tels que ChatGPT, Gemini, Claude ou encore l’IA générative française de Mistral AI reposent sur des grandes bases de données mais rarement mis à jour - il est ainsi compliqué d’avoir une source récente d’information pour une requête. Le RAG intégré au LLM vient ainsi pallier à ces limites en récupérant l’information directement sur le web, en temps réel de la requête.
Ce système est aujourd’hui aussi bien présent sur les moteurs de réponses (AI Overviews, SearchGPT, Perplexity) que sur les IA génératives évoquées en préambule qu’il en devient difficile de les différencier. In fine, les technologies d’IA générative connaissent toute une évolution commune qui est l’intégration de contenu web dans leurs réponses traçant ainsi l’enjeu majeur du SEO de demain.
Le RAG met en lumière les arcanes d’AI Overviews
Depuis l’arrivée de ces moteurs de réponses, une question obsède l’univers du SEO : comment faire pour être sélectionné comme source d’information ? Afin de prévenir d'éventuels abus, Google est resté nébuleux sur le sujet en se cachant derrière son adage “Fournir un contenu toujours plus pertinent et qualitatif”. Néanmoins, la technologie du RAG étant open-source est bien plus bavarde sur les facteurs permettant d’apparaître dans une réponse.
On y apprend que la recherche sémantique est l’une des facultés les plus importantes du RAG. Elle œuvre à analyser et identifier des correspondances entre les termes de recherche de l’utilisateur et les pages web. Ainsi, le contenu déjà important devient véritablement le nerf de la guerre du référencement naturel. Intégrer dans ses pages l’ensemble des questions, expressions, phrasés, mots clés de longue traîne devient un prérequis essentiel pour émerger sur les réponses générées par l’IA.
Si le fond compte pour accroître son taux d’apparition dans les réponses, la forme joue également beaucoup. Rendre la donnée facilement accessible au RAG va donc devenir de plus en plus important. Que cela soit à travers de courtes phrases ou paragraphes en début d’article, des listes à puces, ou encore des tableaux. Cela est d’autant plus vrai pour les sites e-commerce où le renseignement via la donnée structurée du nom du produit, du prix, de sa disponibilité, de sa couleur, etc. sont aujourd’hui autant d’éléments que les IA peuvent récupérer avec exactitude.
Le RAG, un sélectionneur un poil élitiste
Bien que le contenu soit l’objet central de l’IA générative, le RAG est un fin gourmet qui ne s’assoit pas à n’importe quelle table. Jouant le rôle de garde-fou, son objectif premier est d’assurer la véracité des informations qui sont générées. L’autorité d’un site ainsi que la fraîcheur de l’information sont deux facteurs qui influencent fortement l’IA dans son choix de sources. Soigner l’autorité de son site à travers des campagnes de netlinking qualitatives, mais également celle de son contenu en citant l’auteur, en incluant des sources sont autant de procédés à intégrer dans la gestion de sa plateforme web. La date de publication ainsi que la mise à jour des informations deviennent également primordiales si on ne souhaite pas que son contenu devienne désuet. En cela, le partenariat entre Le Monde et OpenAI, signé en début d’année, garantit à l’entreprise américaine un accès facilité à une information fiable et actuelle pour son IA. Un accord qui sera peut-être annonciateur d’une collaboration plus globale et généralisée entre annonceurs et moteurs de réponses.