Le score ResearchGate : un bon exemple d’une mauvaise métrique
On décembre 6, 2021 by adminSelon ResearchGate, le site de réseau social académique, leur score RG est « une nouvelle façon de mesurer votre réputation scientifique ». Avec des objectifs aussi élevés, Peter Kraker, Katy Jordan et Elisabeth Lex examinent de plus près cette métrique opaque. En procédant à une ingénierie inverse du score, ils découvrent qu’un poids important est lié aux « points d’impact » – une métrique similaire au facteur d’impact des revues, largement discrédité. La transparence des métriques est la seule façon de replacer les mesures savantes dans leur contexte et la seule façon de découvrir les biais – qui sont inhérents à toutes les métriques créées par la société.
Lancé en 2008, ResearchGate était l’un des premiers réseaux sociaux universitaires sur le Web. La plateforme s’articule autour de documents de recherche, d’un système de questions-réponses et d’un tableau d’affichage des emplois. Les chercheurs ont la possibilité de créer un profil qui met en valeur leurs publications et leur expertise universitaire. Les autres utilisateurs peuvent ensuite suivre ces profils et sont informés de toute mise à jour. Ces dernières années, ResearchGate est devenu plus agressif dans la commercialisation de sa plate-forme par e-mail. Dans les paramètres par défaut, ResearchGate envoie entre 4 et 10 e-mails par semaine, en fonction de l’activité dans votre réseau. Le nombre élevé de messages s’avère très fructueux pour ResearchGate : selon une étude de Nature datant de 2014, ResearchGate est le réseau social le plus connu des chercheurs ; 35 % des chercheurs interrogés disent s’être inscrits à ResearchGate « parce qu’ils ont reçu un e-mail ». Il n’est peut-être pas surprenant que cette stratégie ait depuis été adoptée par de nombreux concurrents de ResearchGate, notamment Academia.edu et Mendeley.
L’un des points centraux des e-mails de ResearchGate est le dernier ResearchGate Score (RG Score) d’un chercheur. Mis à jour chaque semaine, le score RG est un chiffre unique qui est attaché au profil d’un chercheur. Selon ResearchGate, le score comprend les résultats de recherche que vous partagez sur la plateforme, vos interactions avec les autres membres et la réputation de vos pairs (c’est-à-dire qu’il prend en compte les publications, les questions, les réponses et les adeptes). Le score RG est affiché sur chaque profil, à côté des informations de base sur le chercheur. ResearchGate a reçu un soutien financier important de la part d’investisseurs en capital-risque et de Bill Gates, mais la manière dont la plateforme générera des revenus n’est pas claire ; la possibilité que le score soit lié à une valeur financière justifie une exploration plus approfondie et une évaluation critique.
Crédit image : Blackbox public domain
Les résultats de notre évaluation du score RG étaient plutôt décourageants : bien qu’il y ait quelques idées innovantes dans la façon dont ResearchGate a abordé la mesure, nous avons également constaté que le score RG ignore un certain nombre de directives bibliométriques fondamentales et que ResearchGate fait des erreurs de base dans la façon dont le score est calculé. Nous estimons que ces lacunes sont si problématiques que le RG Score ne devrait pas être considéré comme une mesure de la réputation scientifique dans sa forme actuelle.La mesure est accompagnée de déclarations audacieuses : selon le site, le RG Score est « une nouvelle façon de mesurer votre réputation scientifique » ; il a été conçu pour « vous aider à mesurer et à tirer parti de votre position au sein de la communauté scientifique ». Avec des objectifs aussi élevés, il semblait approprié d’examiner de plus près le RG Score et d’évaluer sa capacité à mesurer la réputation scientifique. Nous avons basé notre évaluation sur des directives bibliométriques bien établies pour les mesures de la recherche, ainsi que sur une analyse empirique du score. Les résultats ont été présentés lors d’un récent atelier sur l’analyse et la quantification de la communication savante sur le Web (ASCW’15 – post d’introduction ici) dans un document de position et sa discussion.
Intransparence et irreproductibilité dans le temps
L’un des problèmes les plus apparents du RG Score est qu’il est in-transparent. ResearchGate présente effectivement à ses utilisateurs une ventilation des différentes parties du score, c’est-à-dire les publications, les questions, les réponses, les suiveurs (également présenté sous forme de camembert), et dans quelle mesure ces parties contribuent à votre score. Malheureusement, ces informations ne sont pas suffisantes pour reproduire son propre score. Pour cela, il faudrait connaître les mesures exactes utilisées ainsi que l’algorithme utilisé pour calculer le score. Ces éléments sont cependant inconnus.
ResearchGate crée ainsi une sorte de machine d’évaluation en boîte noire qui laisse les chercheurs deviner, quelles actions sont prises en compte lorsque leur réputation est mesurée. Cela est illustré par les nombreuses questions posées dans le système de questions-réponses de ResearchGate concernant le calcul exact du score RG. Dans la communauté bibliométrique, il est généralement admis que la transparence et l’ouverture sont des caractéristiques importantes de tout système de mesure. L’un des principes du Manifeste de Leyde stipule par exemple : « Garder la collecte de données et les processus analytiques ouverts, transparents et simples », et il poursuit : « Les nouveaux entrants commerciaux devraient être tenus de respecter les mêmes normes ; personne ne devrait accepter une machine d’évaluation en boîte noire. » La transparence est le seul moyen de replacer les mesures dans leur contexte et le seul moyen de découvrir les biais – qui sont inhérents à toutes les mesures créées par la société. En outre, l’intransparence fait qu’il est très difficile pour les personnes extérieures de détecter les manipulations du système. Dans ResearchGate, par exemple, les contributions des autres (c’est-à-dire les questions et les réponses) peuvent faire l’objet d’une rétrogradation anonyme. Le déclassement anonyme a été critiqué par le passé car il se produit souvent sans explication. C’est pourquoi les réseaux en ligne tels que Reddit ont commencé à modérer les downvotes.
Pour brouiller encore plus les pistes, l’algorithme utilisé pour calculer le score RG évolue au fil du temps. En soi, ce n’est pas nécessairement une mauvaise chose. Le Manifeste de Leyde indique que les métriques doivent être régulièrement examinées et mises à jour, si nécessaire. En outre, ResearchGate ne cache pas le fait qu’il modifie son algorithme et les sources de données prises en compte en cours de route. Le problème avec la façon dont ResearchGate gère ce processus est qu’il n’est pas transparent et qu’il n’y a aucun moyen de le reconstituer. Il est donc impossible de comparer le score RG dans le temps, ce qui limite encore plus son utilité.
À titre d’exemple, nous avons tracé le score RG de Peter d’août 2012 à avril 2015. Entre août 2012, lorsque le score a été introduit, et novembre 2012, son score a chuté d’un niveau initial de 4,76 en août 2012 à 0,02. Il a ensuite augmenté progressivement jusqu’à 1,03 en décembre 2012, où il est resté jusqu’en septembre 2013. Il convient de noter que le comportement de Peter sur la plateforme a été relativement stable au cours de cette période. Il n’a pas retiré de recherches de la plateforme et n’a pas supprimé d’autres chercheurs. Que s’est-il donc passé pendant cette période ? L’explication la plus plausible est que ResearchGate a ajusté l’algorithme, mais en l’absence d’indications sur la raison et la manière dont cela s’est produit, cela laisse le chercheur dans l’incertitude. Dans le Manifeste de Leyde, il y a un principe ferme contre cette pratique : « Permettre aux personnes évaluées de vérifier les données et les analyses ».
Une tentative de reproduction du score ResearchGate
Afin d’en savoir plus sur la composition du score RG, nous avons essayé de faire de l’ingénierie inverse. Plusieurs informations de profil peuvent potentiellement contribuer au score ; au moment de l’analyse, il s’agissait des » points d’impact » (calculés à l’aide des facteurs d’impact des revues dans lesquelles une personne a publié), des » téléchargements « , des » vues « , des » questions « , des » réponses « , des » adeptes » et des » suiveurs « . Si l’on regarde les diagrammes circulaires des ventilations des scores RG, on peut donc considérer que les universitaires qui ont un score RG sur leur profil comprennent plusieurs sous-groupes :
- ceux dont le score est basé uniquement sur leurs publications ;
- les scores basés sur l’activité de questions et réponses ;
- les scores basés sur les suiveurs et le suivi ;
- et les scores basés sur une combinaison de l’un des trois.
Pour notre analyse initiale, nous nous sommes concentrés sur le premier groupe : nous avons construit un petit échantillon d’universitaires (30), qui ont un score RG et une seule publication sur leur profil . Cette analyse a révélé une forte corrélation entre les points d’impact (qui, pour un universitaire ayant publié un seul article, est simplement le facteur d’impact du journal (JIF) de cet article). Il est intéressant de noter que la corrélation n’est pas linéaire mais logarithmique. La raison pour laquelle ResearchGate choisit de transformer les « points d’impact » de cette manière n’est pas claire. L’utilisation du logarithme naturel des points d’impact aura pour effet de diminuer les rendements pour ceux qui ont les points d’impact les plus élevés, on pourrait donc supposer que le logarithme naturel est utilisé pour encourager les universitaires moins expérimentés.
Nous avons ensuite élargi l’échantillon pour inclure des exemples de deux autres groupes d’universitaires : 30 universitaires qui ont un RG Score et plusieurs publications ; et 30 autres ont été ajoutés qui ont un RG Score, plusieurs publications et ont posté au moins une question et une réponse. L’analyse de régression multiple a indiqué que le score RG était significativement prédit par une combinaison du nombre de vues, des logarithmes naturels des points d’impact, des réponses postées et du nombre de publications. Les points d’impact se sont avérés très pertinents ; pour cet échantillon exploratoire au moins, les points d’impact représentaient une grande partie de la variation des données (68%).
Incorporation du Journal Impact Factor pour évaluer les chercheurs individuels
Notre analyse montre que le RG Score intègre le Journal Impact Factor pour évaluer les chercheurs individuels. Le JIF, cependant, n’a pas été introduit comme une mesure pour évaluer les individus, mais comme une mesure pour guider les décisions d’achat de revues par les bibliothèques. Au fil des ans, il a également été utilisé pour évaluer les chercheurs individuels. Mais il existe de nombreuses bonnes raisons pour lesquelles il s’agit d’une mauvaise pratique. D’abord, la distribution des citations au sein d’une revue est très asymétrique ; une étude a montré que les articles de la moitié la plus citée d’une revue étaient cités 10 fois plus souvent que les articles de la moitié la moins citée. Comme le JIF est basé sur le nombre moyen de citations, un seul article avec un nombre élevé de citations peut donc considérablement fausser la métrique.
En outre, la corrélation entre le JIF et les citations individuelles des articles n’a cessé de diminuer depuis les années 1990, ce qui signifie qu’il en dit de moins en moins sur les articles individuels. Par ailleurs, le JIF n’est disponible que pour les revues ; il ne peut donc pas être utilisé pour évaluer des domaines qui privilégient d’autres formes de communication, comme l’informatique (articles de conférence) ou les sciences humaines (livres). Mais même dans les disciplines qui communiquent par le biais de revues, il existe une forte variation du nombre moyen de citations qui n’est pas prise en compte dans le JIF. Par conséquent, le JIF est plutôt problématique lorsqu’il s’agit d’évaluer des revues ; lorsqu’il s’agit de contributions uniques, il est encore plus discutable.
Il existe un large consensus parmi les chercheurs sur cette question : la Déclaration de San Francisco sur l’évaluation de la recherche (DORA) qui décourage l’utilisation du facteur d’impact des revues pour l’évaluation des chercheurs individuels a recueilli plus de 12 300 signatures au moment de la rédaction de cet article. Il semble curieux qu’un score qui prétend être « une nouvelle façon de mesurer votre réputation scientifique » s’effondre de cette façon.
Mots finaux
Il y a un certain nombre d’idées intéressantes dans le score RG : inclure les résultats de recherche autres que les articles (par exemple, les données, les diapositives) est certainement un pas dans la bonne direction, et l’idée de considérer les interactions lors de la réflexion sur la réputation académique a un certain mérite. Toutefois, il existe un décalage entre l’objectif du score RG et l’utilisation du site dans la pratique. Il semble que les universitaires qui utilisent ResearchGate aient tendance à le considérer comme une carte de visite en ligne ou un curriculum vitae, plutôt que comme un site permettant une interaction active avec les autres. En outre, le score ne tient pas compte des activités qui se déroulent en dehors de ResearchGate ; par exemple, Twitter est plus souvent le site où l’on discute activement de la recherche.
L’utilisation intensive du score RG dans les e-mails de marketing suggère qu’il était destiné à être un outil de marketing qui amène plus de trafic sur le site. Bien qu’il ait peut-être réussi dans ce département, nous avons trouvé plusieurs problèmes critiques avec le RG Score, qui doivent être abordés avant qu’il puisse être considéré comme une métrique sérieuse.
ResearchGate semble avoir réagi aux critiques entourant le RG Score. En septembre, ils ont introduit une nouvelle métrique nommée « Reads ». « Reads », qui se définit comme la somme des vues et des téléchargements du travail d’un chercheur, est désormais le principal sujet de leurs e-mails et la métrique est affichée en évidence dans le profil d’un chercheur. Dans le même temps, ResearchGate a décidé de conserver le score, mais dans un rôle plus restreint. Il est toujours affiché dans chaque profil et il est également utilisé comme une information supplémentaire dans de nombreuses fonctionnalités du site, par exemple les recommandations.
Enfin, il convient de souligner que le score RG n’est pas la seule mauvaise métrique qui existe. Les métriques devenant omniprésentes dans l’évaluation de la recherche, comme en témoigne le récent rapport du HEFCE intitulé « The Metric Tide », nous sommes sur le point de voir la formulation de beaucoup d’autres. Compte tenu de ces développements, il devient encore plus important pour nous, chercheurs en bibliométrie, d’informer nos parties prenantes (comme les organismes de financement et les administrateurs d’université) des problèmes que posent les différentes métriques. Donc, si vous avez des préoccupations avec une certaine métrique, n’hésitez pas à la partager avec nous, à écrire à son sujet – ou même à la nommer pour le prix de la mauvaise métrique.
Note : Cet article donne le point de vue de l’auteur, et non la position du blog LSE Impact, ni de la London School of Economics. Veuillez consulter notre politique de commentaires si vous avez des préoccupations sur la publication d’un commentaire ci-dessous.
A propos des auteurs
Peter Kraker est un chercheur postdoctoral au Know-Center de l’Université de technologie de Graz et un Panton Fellow 2013/14. Ses principaux intérêts de recherche sont les visualisations basées sur la communication savante sur le web, la science ouverte et les altmetrics. Peter est un défenseur de la science ouverte qui collabore avec l’Open Knowledge Foundation et l’Open Access Network Austria.
Katy Jordan est un étudiant en doctorat basé à l’Institute of Educational Technology de l’Open University, au Royaume-Uni. Ses intérêts de recherche portent sur l’intersection entre l’Internet et l’enseignement supérieur. En plus de sa recherche doctorale sur les sites de réseaux sociaux universitaires, elle a également publié des recherches sur les cours en ligne ouverts et massifs (MOOC) et les technologies du web sémantique pour l’éducation.
Elisabeth Lex est professeur adjoint à l’Université de technologie de Graz et elle dirige le domaine de recherche Social Computing à Know-Center GmbH. Dans ses recherches, elle explore comment les traces numériques que les humains laissent derrière eux sur le Web peuvent être exploitées pour modéliser et façonner la façon dont les gens travaillent, apprennent et interagissent. À l’Université de technologie de Graz, Elisabeth enseigne la science du Web ainsi que la science 2.0.
Ceci fait partie d’une série d’articles issus de l’atelier Quantifier et analyser la communication savante sur le Web. Plus de cette série:
Nous avons besoin de métriques informatives qui aideront, et non pas nuiront, à la démarche scientifique – travaillons à rendre les métriques meilleures.
Plutôt que de s’attendre à ce que les gens cessent complètement d’utiliser les métriques, nous ferions mieux de nous concentrer sur la garantie que les métriques sont efficaces et précises, soutient Brett Buttliere. En examinant une variété d’indicateurs, en soutenant un hub de métriques centralisé et interopérable, et en utilisant plus de théorie dans la construction des métriques, les scientifiques peuvent mieux comprendre les diverses facettes de l’impact de la recherche et de la qualité de la recherche.
Le contexte est tout : Faire le plaidoyer pour des mesures d’impact de citation plus nuancées.
L’accès à de plus en plus de données de publication et de citation offre le potentiel pour des mesures d’impact plus puissantes que la bibliométrie traditionnelle. La prise en compte d’une plus grande partie du contexte dans la relation entre les publications citantes et citées pourrait permettre une mesure d’impact plus subtile et plus nuancée. Ryan Whalen examine les différentes façons dont le contenu scientifique est lié, et comment ces relations pourraient être explorées davantage pour améliorer les mesures de l’impact scientifique.
Réunir la recherche bibliométrique de différentes disciplines – que pouvons-nous apprendre les uns des autres ?
À l’heure actuelle, il y a peu d’échanges entre les différentes communautés intéressées par le domaine de la bibliométrie. Une conférence récente visait à combler ce fossé.Peter Kraker, Katrin Weller, Isabella Peters et Elisabeth Lex rendent compte de la multitude de sujets et de points de vue abordés sur l’analyse quantitative de la recherche scientifique. Un thème clé était le fort besoin de plus d’ouverture et de transparence : transparence des processus d’évaluation de la recherche pour éviter les biais, transparence des algorithmes qui calculent les nouveaux scores et ouverture des technologies utiles.
Laisser un commentaire