The ResearchGate Score: um bom exemplo de uma má métrica
On Dezembro 6, 2021 by adminDe acordo com ResearchGate, o site de redes sociais acadêmicas, sua pontuação RG é “uma nova maneira de medir sua reputação científica”. Com objetivos tão altos, Peter Kraker, Katy Jordan e Elisabeth Lex dão uma olhada mais de perto na métrica opaca. Através da engenharia reversa da pontuação, eles descobrem que um peso significativo está ligado aos “pontos de impacto” – uma métrica semelhante ao amplamente desacreditado fator de impacto da revista. A transparência nas métricas é a única forma de contextualizar as medidas acadêmicas e a única forma de descobrir os preconceitos – inerentes a todas as métricas criadas socialmente – é a única que pode ser descoberta.
Launched in 2008, ResearchGate foi uma das primeiras redes sociais acadêmicas na Web. A plataforma gira em torno de trabalhos de pesquisa, um sistema de perguntas e respostas, e um quadro de empregos. Os pesquisadores são capazes de criar um perfil que mostre seu histórico de publicação e sua experiência acadêmica. Outros usuários são então capazes de seguir esses perfis e são notificados de quaisquer atualizações. Nos últimos anos, a ResearchGate tem se tornado mais agressiva na comercialização de sua plataforma via e-mail. Nas configurações padrão, a ResearchGate envia entre 4 e 10 e-mails por semana, dependendo da atividade em sua rede. O alto número de mensagens é muito bem sucedido para ResearchGate: de acordo com um estudo da Nature de 2014, ResearchGate é a rede social mais conhecida entre os pesquisadores; 35% dos pesquisadores pesquisados dizem que se inscreveram na ResearchGate “porque receberam um e-mail”. Talvez não seja surpresa que esta estratégia tenha sido adotada desde então por muitos concorrentes da ResearchGate, incluindo Academia.edu e Mendeley.
Um dos pontos focais dos e-mails da ResearchGate é a última pontuação da ResearchGate (RG Score) de um pesquisador. Atualizado semanalmente, o RG Score é um número único que é anexado ao perfil de um pesquisador. De acordo com o ResearchGate, a pontuação inclui os resultados da pesquisa que você compartilha na plataforma, suas interações com outros membros e a reputação de seus pares (ou seja, leva em consideração publicações, perguntas, respostas, seguidores). A pontuação do RG é exibida em cada perfil junto com as informações básicas sobre um pesquisador. ResearchGate tem recebido apoio financeiro substancial de capitalistas de risco e Bill Gates, mas não está claro como a plataforma irá gerar receita; a possibilidade de a pontuação estar ligada ao valor financeiro justifica uma maior exploração e avaliação crítica.
Crédito de imagem: domínio público da Blackbox
Os resultados da nossa avaliação do RG Score foram bastante desencorajadores: embora existam algumas ideias inovadoras na forma como a ResearchGate abordou a medida, também descobrimos que o RG Score ignora uma série de directrizes bibliométricas fundamentais e que a ResearchGate comete erros básicos na forma como a pontuação é calculada. Consideramos essas falhas tão problemáticas que o RG Score não deve ser considerado como uma medida de reputação científica em sua forma atual. A medida vem com afirmações ousadas: de acordo com o site, o RG Score é “uma nova maneira de medir sua reputação científica”; foi projetado para “ajudá-lo a medir e alavancar sua posição dentro da comunidade científica”. Com objetivos tão altos, pareceu ser apropriado dar uma olhada mais de perto no RG Score e avaliar sua capacidade como uma medida de reputação científica. Baseamos nossa avaliação em diretrizes bibliométricas bem estabelecidas para métricas de pesquisa, e uma análise empírica da pontuação. Os resultados foram apresentados em um recente workshop sobre Análise e Quantificação da Comunicação Escolar na Web (ASCW’15 – post introdutório aqui) em um position paper e sua discussão.
Intransparência e irreprodutibilidade ao longo do tempo
Uma das questões mais aparentes do RG Score é que ele é intransparente. A ResearchGate apresenta aos seus utilizadores uma repartição das partes individuais da pontuação, ou seja, publicações, perguntas, respostas, seguidores (também mostrado como um gráfico de tartes), e em que medida estas partes contribuem para a sua pontuação. Infelizmente, isso não é informação suficiente para reproduzir a sua própria pontuação. Para isso você precisaria saber as medidas exatas que estão sendo usadas, assim como o algoritmo usado para calcular a pontuação. Estes elementos são, no entanto, desconhecidos.
ResearchGate cria assim uma espécie de máquina de avaliação de caixa negra que mantém os investigadores a adivinhar, quais as acções que são tidas em conta quando a sua reputação é medida. Isto é exemplificado pelas muitas perguntas do próprio sistema de perguntas e respostas do ResearchGate relativas ao cálculo exato da Pontuação RG. Há uma visão prevalecente na comunidade bibliométrica de que transparência e abertura são características importantes de qualquer métrica. Um dos princípios do Manifesto de Leiden afirma, por exemplo: “Manter a recolha de dados e processos analíticos abertos, transparentes e simples”, e continua: “Os recém-chegados comerciais devem ser mantidos nos mesmos padrões; ninguém deve aceitar uma máquina de avaliação de caixa negra.” A transparência é a única forma de contextualizar as medidas e de desvendar os preconceitos – que são inerentes a todas as métricas criadas socialmente. Além disso, a intransparência torna muito difícil para os forasteiros detectar jogos do sistema. Na ResearchGate, por exemplo, as contribuições de outros (ou seja, perguntas e respostas) podem ser anonimamente evocadas. A votação anónima tem sido criticada no passado, uma vez que muitas vezes acontece sem explicação. Portanto, redes online como a Reddit começaram a moderar os downvotes.
Outra vez que a água está turva, o algoritmo usado para calcular o RG Score está mudando ao longo do tempo. Isso em si não é necessariamente uma coisa ruim. O Manifesto de Leiden afirma que as métricas devem ser regularmente escrutinadas e atualizadas, se necessário. Além disso, o ResearchGate não esconde o fato de que ele modifica seu algoritmo e as fontes de dados sendo consideradas ao longo do caminho. O problema com a forma como o ResearchGate lida com este processo é que ele não é transparente e que não há maneira de reconstruí-lo. Isto torna impossível comparar o RG Score ao longo do tempo, limitando ainda mais a sua utilidade.
Como exemplo, traçamos o RG Score de Peter de Agosto de 2012 a Abril de 2015. Entre agosto de 2012, quando a pontuação foi introduzida, e novembro de 2012 sua pontuação caiu de um 4,76 inicial em agosto de 2012 para 0,02. Depois aumentou gradualmente para 1,03 em dezembro de 2012, onde permaneceu até setembro de 2013. Deve-se notar que o comportamento de Peter na plataforma tem sido relativamente estável durante este período de tempo. Ele não removeu peças de pesquisa da plataforma ou não acompanhou outros pesquisadores. Então, o que aconteceu durante esse período de tempo? A explicação mais plausível é que o ResearchGate ajustou o algoritmo – mas sem nenhuma pista sobre o porquê e como isso aconteceu, ele deixa o pesquisador adivinhar. No Manifesto de Leiden, há um princípio firme contra essa prática: “Permitir aos avaliados verificar dados e análises”.
Uma tentativa de reproduzir a pontuação do ResearchGate
Para saber mais sobre a composição da pontuação do RG, tentamos reverter a pontuação. Existem várias informações de perfil que poderiam potencialmente contribuir para a pontuação; no momento da análise, estas incluíam ‘pontos de impacto’ (calculados usando fatores de impacto das revistas em que um indivíduo publicou), ‘downloads’, ‘views’, ‘perguntas’, ‘respostas’, ‘seguidores’ e ‘seguidores’. Olhando para os gráficos de pizza dos RG Score, os académicos que têm um RG Score no seu perfil podem, portanto, ser considerados como incluindo vários subgrupos:
- aqueles cuja pontuação é baseada apenas nas suas publicações;
- pontuação baseada na actividade de perguntas e respostas;
- pontuação baseada em seguidores e seguidores;
- pontuação baseada numa combinação de qualquer um dos três.
Para a nossa análise inicial, concentramo-nos no primeiro grupo: construímos uma pequena amostra de académicos (30), que têm uma Pontuação RG e apenas uma única publicação no seu perfil . Isto revelou uma forte correlação entre os pontos de impacto (que, para um único artigo académico, é simplesmente o Factor de Impacto da Revista (JIF) da revista desse mesmo artigo). Curiosamente, a correlação não é linear, mas logarítmica. O porquê da ResearchGate optar por transformar os ‘pontos de impacto’ desta forma não é claro. Usando o log natural dos pontos de impacto terá o efeito de diminuir os retornos para aqueles com os pontos de impacto mais altos, então poderia ser especulado que o log natural é usado para encorajar acadêmicos menos experientes.
Então expandimos a amostra para incluir exemplos de dois outros grupos de acadêmicos: 30 acadêmicos que têm uma Pontuação RG e múltiplas publicações; e mais 30 que têm uma Pontuação RG, múltiplas publicações, e postaram pelo menos uma pergunta e resposta. A análise de regressão múltipla indicou que a Pontuação RG foi significativamente prevista por uma combinação de número de pontos de vista, registros naturais de pontos de impacto, respostas postadas e número de publicações. Os pontos de impacto revelaram-se muito relevantes; para esta amostra exploratória, pelo menos, os pontos de impacto representaram uma grande proporção da variação dos dados (68%).
Incorporating the Journal Impact Factor to evaluate individual researchers
A nossa análise mostra que o RG Score incorpora o Journal Impact Factor para avaliar investigadores individuais. O JIF, no entanto, não foi introduzido como uma medida para avaliar indivíduos, mas como uma medida para orientar as decisões de compra de periódicos por parte das bibliotecas. Ao longo dos anos, ele também tem sido usado para avaliar pesquisadores individuais. Mas há muitas boas razões pelas quais esta é uma má prática. Para uma delas, a distribuição de citações dentro de uma revista é altamente enviesada; um estudo descobriu que artigos na metade mais citada de uma revista foram citados 10 vezes mais frequentemente do que artigos na metade menos citada. Como o JIF se baseia no número médio de citações, um único artigo com um número elevado de citações pode, portanto, distorcer consideravelmente a métrica.
Além disso, a correlação entre o JIF e as citações individuais de artigos tem diminuído constantemente desde os anos 90, o que significa que diz cada vez menos sobre artigos individuais. Além disso, o JIF só está disponível para periódicos; portanto, não pode ser usado para avaliar campos que favorecem outras formas de comunicação, como a informática (artigos de conferência) ou as humanidades (livros). Mas mesmo em disciplinas que comunicam em periódicos, há uma grande variação no número médio de citações que não é contabilizada no JIF. Como resultado, a JIF é bastante problemática na avaliação de periódicos; quando se trata de contribuições individuais é ainda mais questionável.
Há um amplo consenso entre os pesquisadores sobre este assunto: a Declaração de São Francisco de Avaliação de Pesquisa (DORA) que desestimula o uso do Fator de Impacto da Revista para a avaliação de pesquisadores individuais já obteve mais de 12.300 assinaturas no momento da redação. Parece intrigante que uma pontuação que afirma ser “uma nova maneira de medir sua reputação científica” desça nessa direção.
Palavras Finais
Existem várias idéias interessantes no RG Score: incluir resultados de pesquisa que não sejam artigos (por exemplo, dados, slides) é definitivamente um passo na direção certa, e a idéia de considerar interações quando se pensa em reputação acadêmica tem algum mérito. No entanto, há um descompasso entre o objetivo do RG Score e o uso do site na prática. As evidências sugerem que os acadêmicos que usam o ResearchGate tendem a vê-lo como um cartão de visita ou curriculum vitae online, em vez de um site para interação ativa com outros. Além disso, a pontuação perde qualquer atividade que ocorra fora do ResearchGate; por exemplo, o Twitter é mais freqüentemente o site para discutir ativamente a pesquisa.
O uso extensivo do RG Score em e-mails de marketing sugere que ele foi concebido para ser uma ferramenta de marketing que direciona mais tráfego para o site. Embora possa ter tido sucesso neste departamento, encontramos várias questões críticas com o RG Score, que precisam ser abordadas antes que ele possa ser visto como uma métrica séria.
ResearchGate parece ter reagido às críticas em torno do RG Score. Em setembro, eles introduziram uma nova métrica chamada “Reads”. “Reads”, que é definido como a soma das visualizações e downloads do trabalho de um pesquisador, é agora o foco principal de seus e-mails e a métrica é exibida de forma proeminente no perfil de um pesquisador. Ao mesmo tempo, a ResearchGate decidiu manter a pontuação, embora em um papel menor. Ela ainda é exibida em cada perfil e também é usada como informação adicional em muitas das características do site, por exemplo, recomendações.
Finalmente, deve-se ressaltar que a pontuação do RG não é a única métrica ruim por aí. Com as métricas se tornando onipresentes na avaliação da pesquisa, como evidenciado no recente relatório do HEFCE “The Metric Tide”, estamos prontos para ver a formulação de muitos mais. Com estes desenvolvimentos em mente, torna-se ainda mais importante para nós, pesquisadores de bibliometria, informar nossos stakeholders (tais como agências de financiamento e administradores universitários) sobre os problemas com métricas individuais. Portanto, se você tiver alguma preocupação com uma determinada métrica, não hesite em compartilhá-la conosco, escreva sobre ela – ou mesmo nomeie-a para o prêmio Bad Metric.
Note: Este artigo dá a opinião do autor, e não a posição do blog LSE Impact, nem da London School of Economics. Por favor, reveja nossa Política de Comentários se você tiver alguma preocupação ao postar um comentário abaixo.
Sobre os Autores
Peter Kraker é pesquisador pós-doutorando no Know-Center da Graz University of Technology e um Bolsista Panton 2013/14. Seus principais interesses de pesquisa são visualizações baseadas na comunicação acadêmica na web, ciência aberta e altmetrics. Peter é um defensor da ciência aberta colaborando com a Open Knowledge Foundation e a Open Access Network Austria.
Katy Jordan é um estudante de doutorado baseado no Instituto de Tecnologia Educacional da The Open University, Reino Unido. Os seus interesses de investigação centram-se na intersecção entre a Internet e o Ensino Superior. Além de sua pesquisa de doutorado em sites de redes sociais acadêmicas, ela também publicou pesquisas sobre Cursos Massivos Abertos Online (MOOCs) e tecnologias de web semântica para educação.
Elisabeth Lex é professora assistente na Graz University of Technology e ela chefia a área de pesquisa de Computação Social no Know-Center GmbH. Em sua pesquisa, ela explora como os traços digitais que os humanos deixam na web podem ser explorados para modelar e moldar a forma como as pessoas trabalham, aprendem e interagem. Na Graz University of Technology, Elisabeth ensina Web Science, bem como Science 2.0.
Esta é parte de uma série de peças do workshop Quantifying and Analysing Scholarly Communication on the Web. Mais desta série:
Precisamos de métricas informativas que ajudem, e não prejudiquem, o esforço científico – vamos trabalhar para tornar as métricas melhores.
Apesar do que esperar que as pessoas deixem de utilizar métricas, seria melhor concentrarmo-nos em garantir que as métricas são eficazes e precisas, argumenta Brett Buttliere. Ao olhar através de uma variedade de indicadores, apoiando um centro de métricas centralizado e interoperável, e utilizando mais teoria na construção de métricas, os cientistas podem entender melhor as diversas facetas do impacto da pesquisa e da qualidade da pesquisa.
Contextos é tudo: Fazendo a defesa de medidas de impacto de citação mais nuances.
Acesso a mais e mais dados de publicação e citação oferece o potencial para medidas de impacto mais poderosas do que a bibliometria tradicional. A contabilização de mais do contexto na relação entre a citação e as publicações citadas poderia proporcionar uma medição de impacto mais sutil e matizada. Ryan Whalen analisa as diferentes formas de relacionamento entre os conteúdos científicos e como essas relações poderiam ser exploradas para melhorar as medidas de impacto científico.
Bringing together bibliometrics research from different disciplines – what can we can learn from each other?
Currentemente, há pouca troca entre as diferentes comunidades interessadas no domínio da bibliometria. Peter Kraker, Katrin Weller, Isabella Peters e Elisabeth Lex relatam sobre a multiplicidade de tópicos e pontos de vista abordados na análise quantitativa da pesquisa científica. Um tema chave foi a forte necessidade de maior abertura e transparência: transparência nos processos de avaliação da pesquisa para evitar vieses, transparência dos algoritmos que computam novas pontuações e abertura da tecnologia útil.
Deixe uma resposta