Culturomics, le numérique et la culture
JP DELAHAYE & N GAUVRIT
Présentation
L'apparition des bases de données informatiques et des moteurs de recherche permettant de les explorer a introduit de nouvelles pratiques dont l'ego-surfing est une des plus ludiques : estimer sa propre notoriété, celle de ses amis ou des célébrités, mesurée en nombre de pages Google. Etrange classement puisque, en octobre 2012, Lady Gaga était plus " célèbre " que Jésus-Christ. De même, le classement des chercheurs scientifiques et des universités à partir d'autres bases de données se heurte à de nombreux biais, dont il est essentiel d'être informé afin de ne pas prendre des vessies pour des lanternes. La numérisation de cinq millions de livres réalisée à l'Université Harvard fournit quant à elle un outil nouveau, permettant d'analyser l'évolution de l'usage d'un mot ou d'une expression au cours des deux derniers siècles. De " nos ancêtres les Gaulois " au " biais de positivité " et à la " loi de Benford ", ce petit guide pittoresque a été conçu pour initier aux subtilités de la culturomique, la science numérique de la culture.
Note de lecture Tangente
Les bases de données pour décrire le monde
Les sciences sociales vont-elles se résumer à l’étude de graphiques issus des statistiques de Google ? C’est ce que laisse craindre, même si le discours des auteurs est rassurant, l’ouvrage Culturomics récemment publié aux éditions Odile Jacob par deux mathématiciens de talent, Nicolas Gauvrit, spécialiste des applications de notre discipline à la psychologie, et Jean-Paul Delahaye, bien connu des lecteurs de Tangente.
Le point de départ est l’initiative de Google consistant à numériser plus de cinq millions de volumes parus entre 1800 et nos jours, initiative accompagnée de technologies statistiques permettant de disposer de graphiques représentant l’usage de mots ou groupes de mots dans des cadres divers : temporels, géographiques, thématiques. Les conclusions ? Elles vont de la description des préoccupations d’une société donnée à une époque donnée jusqu’à l’évaluation de la notoriété d’un personnage, en passant par le classement qualitatif, par exemple des grands mathématiciens.
Ce n’était probablement pas l’intention des auteurs, mais la lecture de ce livre sensibilise aux failles de cette méthode, vulnérable aux imprécisions liées à la saisie des données, mais aussi aux trucages et aux manipulations qui, appliqués à des sujets sensibles, peuvent avoir des conséquences qui font froid dans le dos.