Alain Steinmann (CCM Benchmark) "L'intelligence artificielle a permis à Linternaute.com de pronostiquer les gagnants des prochaines municipales"

Le directeur général adjoint de CCM Benchmark explique comment le site d'actualités Linternaute.com a établi des probabilités de résultats aux élections municipales grâce au machine learning.

JDN. Vous avez lancé à l'occasion des élections municipales de 2020 un nouveau projet baptisé Election Lab. Quel en est le but ?

Alain Steinmann est directeur général adjoint de CCM Benchmark. © JDN

Alain Steinmann. Nous essayons, lors des élections, de lancer un dispositif un peu événementiel qui va au-delà du simple fait de communiquer les résultats. Nous l'avions déjà fait pour les municipales de 2014, en lançant un concours du meilleur maire de France. Nous avions à l'époque comparé l'évolution d'une cinquantaine de critères, entre le début de mandat de chaque maire et la dernière année disponible.

Cette année, nous nous sommes lancés un autre défi : essayer de prédire les résultats des élections municipales des 9 000 plus grandes villes de France, à partir d'algorithmes de machine learning et d'intelligence artificielle. Nous avons calculé les probabilités de victoire de chaque parti et laissons le soin aux internautes de nous dire s'ils sont d'accord ou pas. Dans le dernier cas, ils peuvent même donner leurs propres prévisions. Après les élections, nous verrons qui, de la machine ou des internautes, a fait les meilleurs pronostics.

Comment avez-vous concrètement procédé ?

Nous avons pu nous appuyer sur l'expertise du pôle data du Groupe Figaro (propriétaire de CCM Benchmark, lui-même éditeur du JDN, ndlr), qui a réalisé les algorithmes pour générer ces prévisions, et celle de nos équipes open data, qui ont, elles, mis à disposition les données nécessaires à l'établissement des prédictions. On parle de plus de 1 000 jeux de données différents et d'un total de 178 millions de données non-électorales - données géographiques, économiques, sociales, démographiques… - et de 1 300 variables de classement - population, revenus, équipements immobiliers, budget des communes, impôts... Nous avons confronté ces données aux résultats des élections ayant eu lieu entre 2004 et 2019, pour identifier celles qui sont discriminantes dans un vote. Nous avons finalement gardé les 50 variables jugées les plus influentes (plus d'informations sur la méthodologie ici, ndlr).

Comment avez-vous communiqué sur l'opération ?

Par l'intermédiaire de newsletters envoyées aux abonnés de Linternaute.com à partir du 6 mars. Près de 100 000 personnes sont déjà allées consulter ces prédictions et 15 000 ont voté. Encore une fois, nous ne prétendons pas donner les résultats exacts, seulement expérimenter ce qu'il est possible de faire. Ce genre d'algorithmes sera sans doute peaufiné dans les années à venir et c'est avec passion que nous suivrons cela. En attendant, nous pouvons nous réjouir d'avoir commencé à explorer ce domaine.

"Nos équipes open data ont mis à disposition plus de 1 000 jeux de données différents"

Qu'est-ce qui peut encore être amélioré ?

Le principal biais provient du manque de résultats passés pour alimenter le modèle prédictif. Ce dernier marche d'autant mieux que les données dans lesquelles il puise sont riches. Or, on n'a pu s'appuyer que sur les résultats de quatre municipales dans le cadre de cette expérimentation. Au-delà de la problématique du jeu de données, on peut aussi penser que de meilleurs modèles que celui que nous avons choisi s'imposeront à l'avenir.

Machine learning et IA sont-ils amenés à prendre une place de plus en plus importante dans le traitement des élections politiques ?

On sait que déjà certains candidats utilisent ce type de modèles pour animer leurs campagnes en local. Nous avions rencontré une start-up, Poligma, qui utilise elle aussi les données des bureaux de vote pour aider des candidats dans leur prise de parole. Il s'agit d'identifier les typologies de populations qui composent chaque bureau de vote pour leur permettre d'y intervenir sur les thèmes les plus pertinents. Je vous donne un exemple. Quand on regardait la liste d'électeurs d'un quartier de Montpellier, historiquement identifié comme étant un quartier étudiant, on réalisait que les votants étaient en fait beaucoup plus âgés. Lesdits étudiants votaient ailleurs. Y axer les prises de parole du candidat sur des thématiques comme l'accès au logement y étaient donc beaucoup moins pertinent.

Comment expliquer que les instituts de sondage ne s'emparent pas plus du sujet de l'IA pour affiner leur modèle ?

Ils sont pour l'instant très critiques concernant la pratique. Je trouve ça dommage car on voit que les méthodes des sondeurs ont atteint leurs limites. Ils n'avaient pas vu Trump, pas plus que le Brexit. Il faut tout de même rappeler que le seul acteur à avoir prédit la victoire de Donald Trump en 2016, allant à l'encontre de tous les sondages, c'est une IA qui s'appelait MogAI. De même, on avait vu à Singapour une IA annonçant, dès février 2017, un second tour Macron – Le Pen. Bon l'IA annonçait également une victoire de Marine Le Pen au second tour…

Mais on ne peut plus prétendre saisir la complexité d'une société de plus en plus fragmentée en sondant 1 000 personnes, aussi diverses et variées soient-elles. Jérôme Fourquet l'a très bien théorisé dans son ouvrage "L'archipel français". La société française s'est fragmentée comme un archipel d'îles et d'îlots. C'est impossible de comprendre les comportements de cette nation multiple et divisée en s'appuyant sur l'ancien modèle. J'attends donc avec impatience de voir un institut de sondage se mettre à l'IA.