La puntuación de ResearchGate: un buen ejemplo de una mala métrica
On diciembre 6, 2021 by adminSegún ResearchGate, la red social académica, su puntuación RG es «una nueva forma de medir su reputación científica». Con tan altos objetivos, Peter Kraker, Katy Jordan y Elisabeth Lex examinan de cerca la opaca métrica. Mediante ingeniería inversa de la puntuación, descubren que un peso significativo está vinculado a los «puntos de impacto», una métrica similar al ampliamente desacreditado factor de impacto de las revistas. La transparencia de las métricas es la única manera de contextualizar las medidas académicas y de descubrir los sesgos inherentes a todas las métricas creadas socialmente.
Lanzada en 2008, ResearchGate fue una de las primeras redes sociales académicas en la web. La plataforma gira en torno a trabajos de investigación, un sistema de preguntas y respuestas y una bolsa de trabajo. Los investigadores pueden crear un perfil que muestre su historial de publicaciones y su experiencia académica. Otros usuarios pueden seguir estos perfiles y recibir notificaciones de cualquier actualización. En los últimos años, ResearchGate se ha vuelto más agresivo en la comercialización de su plataforma a través del correo electrónico. En la configuración por defecto, ResearchGate envía entre 4 y 10 correos electrónicos a la semana, dependiendo de la actividad en su red. El elevado número de mensajes resulta ser muy exitoso para ResearchGate: según un estudio de Nature de 2014, ResearchGate es la red social más conocida entre los investigadores; el 35% de los investigadores encuestados afirma haberse inscrito en ResearchGate «porque recibió un correo electrónico». No es de extrañar que esta estrategia haya sido adoptada desde entonces por muchos de los competidores de ResearchGate, como Academia.edu y Mendeley.
Uno de los puntos centrales de los correos electrónicos de ResearchGate es la última puntuación de un investigador en ResearchGate (RG Score). Actualizado semanalmente, el RG Score es un número único que se adjunta al perfil de un investigador. Según ResearchGate, la puntuación incluye los resultados de la investigación que comparte en la plataforma, sus interacciones con otros miembros y la reputación de sus compañeros (es decir, tiene en cuenta las publicaciones, las preguntas, las respuestas y los seguidores). La puntuación RG se muestra en cada perfil junto a la información básica de un investigador. ResearchGate ha recibido un importante respaldo financiero de inversores de capital riesgo y de Bill Gates, pero no está claro cómo la plataforma generará ingresos; la posibilidad de que la puntuación esté vinculada al valor financiero justifica una mayor exploración y una evaluación crítica.
Crédito de la imagen: dominio público de Blackbox
Los resultados de nuestra evaluación de la puntuación RG fueron bastante desalentadores: aunque hay algunas ideas innovadoras en la forma en que ResearchGate abordó la medida, también encontramos que la puntuación RG ignora una serie de directrices bibliométricas fundamentales y que ResearchGate comete errores básicos en la forma de calcular la puntuación. Consideramos que estas deficiencias son tan problemáticas que la puntuación RG no debería considerarse como una medida de la reputación científica en su forma actual.La medida viene con declaraciones audaces: según el sitio, la puntuación RG es «una nueva forma de medir su reputación científica»; fue diseñada para «ayudarle a medir y aprovechar su posición dentro de la comunidad científica». Con estos objetivos tan elevados, nos pareció oportuno analizar la puntuación RG y evaluar su capacidad como medida de la reputación científica. Basamos nuestra evaluación en directrices bibliométricas bien establecidas para las métricas de investigación y en un análisis empírico de la puntuación. Los resultados se presentaron en un reciente taller sobre Análisis y Cuantificación de la Comunicación Académica en la Web (ASCW’15 – post introductorio aquí) en un documento de posición y su discusión.
Intransparencia e irreproducibilidad en el tiempo
Uno de los problemas más evidentes de la Puntuación RG es que es poco transparente. ResearchGate presenta a sus usuarios un desglose de las partes individuales de la puntuación, es decir, las publicaciones, las preguntas, las respuestas, los seguidores (también se muestra como un gráfico circular), y en qué medida estas partes contribuyen a su puntuación. Lamentablemente, esta información no es suficiente para reproducir la propia puntuación. Para ello habría que conocer las medidas exactas que se utilizan, así como el algoritmo empleado para calcular la puntuación. Sin embargo, estos elementos son desconocidos.
ResearchGate crea así una especie de máquina de evaluación de caja negra que mantiene a los investigadores adivinando, qué acciones se tienen en cuenta cuando se mide su reputación. Esto se ejemplifica con las numerosas preguntas del propio sistema de preguntas y respuestas de ResearchGate relativas al cálculo exacto de la puntuación RG. En la comunidad bibliométrica prevalece la opinión de que la transparencia y la apertura son características importantes de cualquier métrica. Uno de los principios del Manifiesto de Leiden establece, por ejemplo «Mantener la recogida de datos y los procesos analíticos abiertos, transparentes y sencillos», y continúa «Los nuevos participantes comerciales deben someterse a las mismas normas; nadie debe aceptar una máquina de evaluación de caja negra». La transparencia es la única forma de contextualizar las medidas y de descubrir los sesgos, inherentes a toda métrica creada por la sociedad. Además, la intransparencia hace que sea muy difícil para las personas ajenas al sistema detectar las trampas. En ResearchGate, por ejemplo, las contribuciones de otros (es decir, las preguntas y respuestas) pueden ser votadas negativamente de forma anónima. El downvoting anónimo ha sido criticado en el pasado porque a menudo se produce sin explicación. Por ello, redes online como Reddit han empezado a moderar los downvotes.
Por si fuera poco, el algoritmo utilizado para calcular la puntuación RG está cambiando con el tiempo. Eso en sí mismo no es necesariamente algo malo. El Manifiesto de Leiden establece que las métricas deben ser examinadas regularmente y actualizadas, si es necesario. Además, ResearchGate no oculta el hecho de que modifica su algoritmo y las fuentes de datos que se tienen en cuenta en el camino. El problema de la forma en que ResearchGate maneja este proceso es que no es transparente y que no hay forma de reconstruirlo. Esto hace imposible comparar la puntuación RG a lo largo del tiempo, limitando aún más su utilidad.
Como ejemplo, hemos trazado la puntuación RG de Peter desde agosto de 2012 hasta abril de 2015. Entre agosto de 2012, cuando se introdujo la puntuación, y noviembre de 2012, su puntuación cayó de un 4,76 inicial en agosto de 2012 a 0,02. Luego aumentó gradualmente hasta 1,03 en diciembre de 2012, donde se mantuvo hasta septiembre de 2013. Cabe destacar que el comportamiento de Peter en la plataforma ha sido relativamente estable durante este periodo de tiempo. No ha retirado piezas de investigación de la plataforma ni ha dejado de seguir a otros investigadores. Entonces, ¿qué ha pasado durante ese periodo de tiempo? La explicación más plausible es que ResearchGate ha ajustado el algoritmo, pero sin ninguna pista de por qué y cómo ha sucedido, deja al investigador en la incertidumbre. En el Manifiesto de Leiden, hay un principio firme contra esta práctica: «Permitir que los evaluados verifiquen los datos y el análisis».
Un intento de reproducir la puntuación de ResearchGate
Para saber más sobre la composición de la puntuación de RG, intentamos aplicar ingeniería inversa a la puntuación. Hay varios elementos de información del perfil que podrían contribuir a la puntuación; en el momento del análisis, estos incluían «puntos de impacto» (calculados utilizando los factores de impacto de las revistas en las que una persona ha publicado), «descargas», «vistas», «preguntas», «respuestas», «seguidores» y «seguimiento». Si se observan los gráficos circulares de los desgloses de la puntuación RG, se puede considerar que los académicos que tienen una puntuación RG en su perfil incluyen varios subgrupos:
- aquellos cuya puntuación se basa sólo en sus publicaciones;
- puntuación basada en la actividad de preguntas y respuestas;
- puntuación basada en los seguidores y el seguimiento;
- y puntuaciones basadas en una combinación de cualquiera de las tres.
Para nuestro análisis inicial, nos centramos en el primer grupo: construimos una pequeña muestra de académicos (30), que tienen una puntuación RG y una sola publicación en su perfil . Esto reveló una fuerte correlación entre los puntos de impacto (que, para un académico de una sola publicación, es simplemente el Factor de Impacto de la Revista (JIF) de la revista de ese único artículo). Curiosamente, la correlación no es lineal sino logarítmica. No está claro por qué ResearchGate decide transformar los «puntos de impacto» de esta manera. El uso del logaritmo natural de los puntos de impacto tendrá el efecto de disminuir los rendimientos para aquellos con los puntos de impacto más altos, por lo que se podría especular que el logaritmo natural se utiliza para animar a los académicos menos experimentados.
A continuación, ampliamos la muestra para incluir ejemplos de otros dos grupos de académicos: 30 académicos que tienen una puntuación RG y múltiples publicaciones; y se añadieron otros 30 que tienen una puntuación RG, múltiples publicaciones, y han publicado al menos una pregunta y respuesta. El análisis de regresión múltiple indicó que la puntuación de RG se predijo significativamente por una combinación de número de vistas, logaritmos naturales de puntos de impacto, respuestas publicadas y número de publicaciones. Los puntos de impacto resultaron ser muy relevantes; al menos para esta muestra exploratoria, los puntos de impacto representaron una gran proporción de la variación en los datos (68%).
Incorporación del Factor de Impacto de la Revista para evaluar a los investigadores individuales
Nuestro análisis muestra que la Puntuación RG incorpora el Factor de Impacto de la Revista para evaluar a los investigadores individuales. Sin embargo, el JIF no se introdujo como una medida para evaluar a los individuos, sino como una medida para orientar las decisiones de compra de revistas por parte de las bibliotecas. A lo largo de los años, también se ha utilizado para evaluar a los investigadores individuales. Pero hay muchas buenas razones por las que esta es una mala práctica. Por un lado, la distribución de las citas dentro de una revista está muy sesgada; un estudio descubrió que los artículos de la mitad más citada de una revista se citaban 10 veces más que los artículos de la mitad menos citada. Como el JIF se basa en el número medio de citas, un solo artículo con un elevado número de citas puede, por tanto, sesgar considerablemente la métrica.
Además, la correlación entre el JIF y las citas individuales de los artículos ha ido disminuyendo constantemente desde la década de 1990, lo que significa que dice cada vez menos sobre los artículos individuales. Además, el JIF sólo está disponible para las revistas, por lo que no puede utilizarse para evaluar campos que favorecen otras formas de comunicación, como las ciencias de la computación (documentos de conferencias) o las humanidades (libros). Pero incluso en las disciplinas que se comunican en revistas, existe una gran variación en el número medio de citas que no se tiene en cuenta en el JIF. En consecuencia, el JIF es bastante problemático a la hora de evaluar revistas; cuando se trata de contribuciones individuales es aún más cuestionable.
Existe un amplio consenso entre los investigadores sobre esta cuestión: la Declaración de Evaluación de la Investigación de San Francisco (DORA), que desaconseja el uso del Factor de Impacto de las Revistas para la evaluación de investigadores individuales, ha cosechado más de 12.300 firmas en el momento de escribir este artículo. Resulta desconcertante que una puntuación que pretende ser «una nueva forma de medir su reputación científica» caiga de esa manera.
Palabras finales
Hay una serie de ideas interesantes en la puntuación RG: incluir productos de investigación distintos de los artículos (por ejemplo, datos, diapositivas) es sin duda un paso en la dirección correcta, y la idea de tener en cuenta las interacciones al pensar en la reputación académica tiene cierto mérito. Sin embargo, existe un desajuste entre el objetivo de la puntuación RG y el uso del sitio en la práctica. Los datos sugieren que los académicos que utilizan ResearchGate tienden a verlo como una tarjeta de visita o un currículum vitae en línea, más que como un sitio para la interacción activa con otros. Además, la puntuación no tiene en cuenta las actividades que tienen lugar fuera de ResearchGate; por ejemplo, Twitter es con más frecuencia el sitio para discutir activamente la investigación.
El amplio uso de la puntuación RG en los correos electrónicos de marketing sugiere que estaba destinado a ser una herramienta de marketing que impulsa más tráfico al sitio. Aunque puede haber tenido éxito en este departamento, encontramos varios problemas críticos con el RG Score, que necesitan ser abordados antes de que pueda ser visto como una métrica seria.
ResearchGate parece haber reaccionado a las críticas que rodean el RG Score. En septiembre, introdujeron una nueva métrica llamada «Reads». «Lecturas», que se define como la suma de vistas y descargas del trabajo de un investigador, es ahora el principal foco de atención de sus correos electrónicos y la métrica se muestra de forma destacada en el perfil de un investigador. Al mismo tiempo, ResearchGate ha decidido mantener la puntuación, aunque en un papel menor. Sigue apareciendo en todos los perfiles y también se utiliza como información adicional en muchas de las funciones del sitio, por ejemplo, las recomendaciones.
Por último, cabe señalar que la puntuación RG no es la única métrica mala que existe. Dado que las métricas se están convirtiendo en algo omnipresente en la evaluación de la investigación, como se pone de manifiesto en el reciente informe del HEFCE «The Metric Tide», estamos a punto de ver la formulación de muchas más. Teniendo en cuenta esta evolución, es aún más importante que los investigadores de bibliometría informemos a nuestras partes interesadas (como las agencias de financiación y los administradores universitarios) sobre los problemas de las métricas individuales. Así que si tienes alguna preocupación con una determinada métrica, no dudes en compartirla con nosotros, escribir sobre ella – o incluso nominarla para el premio a la Mala Métrica.
Nota: Este artículo da las opiniones del autor, y no la posición del blog LSE Impact, ni de la London School of Economics. Por favor, revise nuestra Política de Comentarios si tiene alguna duda al publicar un comentario a continuación.
Acerca de los autores
Peter Kraker es investigador postdoctoral en el Know-Center de la Universidad Tecnológica de Graz y becario Panton 2013/14. Sus principales intereses de investigación son las visualizaciones basadas en la comunicación académica en la web, la ciencia abierta y las altmetrías. Peter es un defensor de la ciencia abierta que colabora con la Open Knowledge Foundation y la Open Access Network Austria.
Katy Jordan es una estudiante de doctorado con sede en el Instituto de Tecnología Educativa de la Open University, Reino Unido. Sus intereses de investigación se centran en la intersección entre Internet y la educación superior. Además de su investigación doctoral sobre las redes sociales académicas, también ha publicado investigaciones sobre los cursos masivos abiertos en línea (MOOC) y las tecnologías de la web semántica para la educación.
Elisabeth Lex es profesora adjunta en la Universidad Tecnológica de Graz y dirige el área de investigación de informática social en Know-Center GmbH. En su investigación, explora cómo los rastros digitales que los seres humanos dejan en la web pueden ser explotados para modelar y dar forma a la forma en que las personas trabajan, aprenden e interactúan. En la Universidad Tecnológica de Graz, Elisabeth enseña Ciencias de la Web y Ciencia 2.0.
Esto forma parte de una serie de artículos del taller Quantifying and Analysing Scholarly Communication on the Web. Más de esta serie:
Necesitamos métricas informativas que ayuden, y no perjudiquen, el esfuerzo científico – trabajemos para mejorar las métricas.
En lugar de esperar que la gente deje de utilizar las métricas por completo, sería mejor que nos centráramos en asegurarnos de que las métricas son eficaces y precisas, argumenta Brett Buttliere. Si se analizan diversos indicadores, se apoya un centro de métricas centralizado e interoperable y se utiliza más la teoría en la construcción de métricas, los científicos pueden comprender mejor las diversas facetas del impacto de la investigación y la calidad de la misma.
El contexto lo es todo: Argumentar a favor de medidas de impacto de las citas más matizadas.
El acceso a cada vez más datos sobre publicaciones y citas ofrece la posibilidad de realizar medidas de impacto más potentes que la bibliometría tradicional. Tener en cuenta más el contexto en la relación entre las publicaciones citadas y las citantes podría proporcionar una medición de impacto más sutil y matizada. Ryan Whalen examina las diferentes formas en que se relacionan los contenidos científicos, y cómo estas relaciones podrían explorarse más a fondo para mejorar las medidas de impacto científico.
Reunir la investigación bibliométrica de diferentes disciplinas: ¿qué podemos aprender unos de otros?
Actualmente, hay poco intercambio entre las diferentes comunidades interesadas en el dominio de la bibliometría. Peter Kraker, Katrin Weller, Isabella Peters y Elisabeth Lex informan sobre la multitud de temas y puntos de vista tratados sobre el análisis cuantitativo de la investigación científica. Un tema clave fue la gran necesidad de mayor apertura y transparencia: transparencia en los procesos de evaluación de la investigación para evitar sesgos, transparencia de los algoritmos que calculan las nuevas puntuaciones y apertura de la tecnología útil.
Deja una respuesta