Un algorithme capable d’écrire des biographies sur des femmes méritant de figurer dans Wikipédia vient d’être mis au point. L’idée est de pouvoir soumettre ainsi, de manière automatique, une multitude de profils afin qu’ils soient ensuite validés puis complétés par les rédacteurs de la célèbre encyclopédie en ligne.

Aujourd’hui, seules 20% des biographies sur Wikipédia (en anglais) concernent des femmes. Et leur faible représentativité est encore plus flagrante dans certains domaines (scientifique) ou via certaines origines (africaines, asiatiques). Les choses pourraient cependant changer. Une chercheuse du Facebook Artificial Intelligence Research (FAIR), en collaboration avec l’Institut national de recherche en sciences et technologies du numérique(INRIA), a en effet réussi à développer une solution qui permettrait de remédier à ce déséquilibre, en faisant appel à de l’intelligence artificielle.

Ce système « intelligent » serait ainsi capable d’effectuer des recherches sur Internet et de rédiger de manière automatique la première ébauche d’un futur article à paraître sur Wikipédia, dans le plus pur style propre à la célèbre encyclopédie en ligne. L’objectif est de pouvoir ainsi rapidement soumettre aux éditeurs et éditrices de Wikipédia des milliers de nouveaux articles biographiques fiables et intéressants sur des personnalités de premier plan qui ne figurent pourtant pas encore sur le site.

Ce modèle a par exemple permis de générer une courte biographie de Libbie Hyman, une pionnière dans le domaine de la zoologie des invertébrés. Ce texte a été conçu sur la base d’informations recueillies d’une part dans un article de référence, complétées par diverses informations trouvées sur le Web. L’intelligence artificielle n’a conservé que des informations jugées comme pertinentes, issues de sources fiables. Ce type de texte, parfois très court, doit pouvoir servir de base de départ pour la rédaction d’une nouvelle fiche Wikipédia, les contributeurs à l’encyclopédie pouvant alors étoffer cette biographie.

Cette faculté de rechercher les bonnes informations repose dans ce cas sur un pré-entraînement à grande échelle, de l’apprentissage automatique permettant d’identifier des informations utiles, telles que la date et le lieu de naissance, l’endroit où la personne a fait ses études, son parcours professionnel, etc. Ensuite, un module génère automatiquement du texte à partir de ces informations, avec à chaque fois la source parfaitement identifiée.

Le but de cette initiative est de pouvoir prochainement améliorer l’équité dans l’offre de contenus sur Wikipédia. À venir aussi, des articles sur des personnes transgenres et non binaires.