Source : Morgane Laouenan, Palaash Bhargava, Jean-Benoît Eyméoud, Olivier Gergaud, Guillaume Plique, Etienne Wasmer (2022) A cross-verified database of notable people, 3500BC-2018AD, Scientific Data, volume 9, juin 2022.
Les auteurs de cet article paru dans la revue Nature en juin 2022 ont recueilli une quantité massive de données provenant de diverses éditions de Wikipédia et de Wikidata. La base de données contient plus de 2 millions d’individus ; elle peut être utilisée à des fins de recherche. En utilisant des techniques de déduplication des sources qui se chevauchent partiellement, ils ont pu vérifier chaque information. Cette stratégie aboutit à une base de données vérifiée de 2,29 millions d’individus uniques dont 30% proviennent de 6 éditions non anglaises de Wikipédia, une amélioration significative par rapport aux travaux antérieurs qui se concentraient uniquement sur la version anglaise de cette encyclopédie gratuite.
Figure 2 : Part des individus présents dans la base de données, répartition par domaine d’influence.
En recourant à des éditions en 7 langues de Wikipedia et Wikidata pour assembler une liste de 4 678 040 personnes, cela a permis de réduire considérablement le biais anglo-saxon, mais pas entièrement. Deux inconvénients majeurs subsistent pour les auteurs. Premièrement, ils n’ont pas exploité les éditions en langues non occidentales pour vérifier par recoupement les informations sur les caractéristiques des individus. Deuxièmement, ils n’ont pas collecté le nombre de mots au-delà de ces 7 éditions linguistiques : ils entrent dans l’indice de notabilité, mais cet indice ne peut être considéré comme global, ce qui entraîne un biais du monde occidental dans les mesures de notabilité. Ceci est toutefois partiellement compensé par l’utilisation du nombre total d’occurrences pour toutes les éditions de Wikipédia et non seulement 7, dans leur mesure de notabilité agrégée.
La collecte des données est guidée par des questions spécifiques de sciences sociales sur le genre, la croissance économique, le développement urbain et culturel. Les personnages historiques les plus célèbres peuvent par exemple être répartis par période et par sexe, mais aussi par aires géographiques ou domaines d’activités.
L’ensemble complet de données est disponible sur un site web dédié (https://medialab.github.io/bhht-datascape). Les données sont disponibles au format .csv et Stata (.dta). La base de données restreinte a fait l’objet d’une vérification croisée. Elle est soumise à la licence CC-BY-SA. Les fichiers intermédiaires ainsi que la base de données exhaustive n’ont pas fait l’objet d’une vérification croisée et ne doivent pas être utilisés directement ou sous l’entière responsabilité des utilisateurs.
Il est ainsi possible d’explorer en partie la base de données et de faire ses propres recherches pour établir ses propres constats.
Globalement, c’est un exemple intéressant de « big data » mis à la disposition du public et potentiellement des élèves à travers de la lecture de l’article de Nature et de l’ensemble complet des données disponibles, les deux sont sous licence libre.
Laisser un commentaire