The ResearchGate Score: un buon esempio di una cattiva metrica
Il Dicembre 6, 2021 da adminSecondo ResearchGate, il sito di social networking accademico, il loro RG Score è “un nuovo modo per misurare la tua reputazione scientifica”. Con obiettivi così alti, Peter Kraker, Katy Jordan e Elisabeth Lex danno un’occhiata più da vicino a questa metrica opaca. Facendo il reverse engineering del punteggio, scoprono che un peso significativo è legato ai “punti di impatto” – una metrica simile al fattore di impatto del giornale ampiamente screditato. La trasparenza nelle metriche è l’unico modo in cui le misure accademiche possono essere contestualizzate e l’unico modo in cui i pregiudizi – che sono inerenti a tutte le metriche create socialmente – possono essere scoperti.
Lanciato nel 2008, ResearchGate è stato uno dei primi social network accademici sul Web. La piattaforma ruota intorno a documenti di ricerca, un sistema di domande e risposte e un forum di lavoro. I ricercatori sono in grado di creare un profilo che mostra il loro record di pubblicazioni e la loro esperienza accademica. Gli altri utenti sono poi in grado di seguire questi profili e vengono avvisati di eventuali aggiornamenti. Negli ultimi anni, ResearchGate è diventato più aggressivo nel marketing della sua piattaforma via e-mail. Nelle impostazioni predefinite, ResearchGate invia da 4 a 10 e-mail a settimana, a seconda dell’attività nella tua rete. L’alto numero di messaggi si rivela un grande successo per ResearchGate: secondo uno studio di Nature del 2014, ResearchGate è il social network più conosciuto tra i ricercatori; il 35% dei ricercatori intervistati afferma di essersi iscritto a ResearchGate “perché ha ricevuto una e-mail”. Non sorprende che questa strategia sia stata adottata da molti concorrenti di ResearchGate, tra cui Academia.edu e Mendeley.
Uno dei punti focali delle e-mail di ResearchGate è l’ultimo ResearchGate Score (RG Score) di un ricercatore. Aggiornato settimanalmente, l’RG Score è un singolo numero che viene allegato al profilo di un ricercatore. Secondo ResearchGate, il punteggio include i risultati della ricerca che condividi sulla piattaforma, le tue interazioni con gli altri membri e la reputazione dei tuoi colleghi (cioè, prende in considerazione pubblicazioni, domande, risposte, follower). L’RG Score viene visualizzato su ogni profilo accanto alle informazioni di base di un ricercatore. ResearchGate ha ricevuto un sostanziale sostegno finanziario da venture capitalist e Bill Gates, ma non è chiaro come la piattaforma genererà entrate; la possibilità che il punteggio sia collegato al valore finanziario merita ulteriori esplorazioni e valutazioni critiche.
Image credit: Blackbox public domain
I risultati della nostra valutazione del RG Score sono stati piuttosto scoraggianti: mentre ci sono alcune idee innovative nel modo in cui ResearchGate si è avvicinato alla misura, abbiamo anche trovato che il RG Score ignora una serie di linee guida bibliometriche fondamentali e che ResearchGate fa errori di base nel modo in cui il punteggio è calcolato. Riteniamo che queste carenze siano così problematiche che l’RG Score non dovrebbe essere considerato come una misura della reputazione scientifica nella sua forma attuale.La misura si presenta con dichiarazioni audaci: secondo il sito, l’RG Score è “un nuovo modo di misurare la tua reputazione scientifica”; è stato progettato per “aiutarti a misurare e sfruttare la tua posizione nella comunità scientifica”. Con obiettivi così alti, ci è sembrato opportuno dare un’occhiata più da vicino all’RG Score e valutare la sua capacità di misurare la reputazione scientifica. Abbiamo basato la nostra valutazione su linee guida bibliometriche consolidate per le metriche di ricerca e su un’analisi empirica del punteggio. I risultati sono stati presentati a un recente workshop sull’analisi e la quantificazione della comunicazione accademica sul web (ASCW’15 – post introduttivo qui) in un position paper e nella relativa discussione.
Intrasparenza e irriproducibilità nel tempo
Uno dei problemi più evidenti del punteggio RG è che è poco trasparente. ResearchGate presenta ai suoi utenti una ripartizione delle singole parti del punteggio, cioè pubblicazioni, domande, risposte, seguaci (mostrati anche come un grafico a torta), e in che misura queste parti contribuiscono al tuo punteggio. Sfortunatamente, queste non sono informazioni sufficienti per riprodurre il proprio punteggio. Per questo è necessario conoscere le misure esatte utilizzate e l’algoritmo utilizzato per calcolare il punteggio. Questi elementi sono, tuttavia, sconosciuti.
ResearchGate crea così una sorta di macchina di valutazione black-box che fa indovinare ai ricercatori quali azioni vengono prese in considerazione quando viene misurata la loro reputazione. Questo è esemplificato dalle molte domande nel sistema di domande e risposte di ResearchGate relative all’esatto calcolo del punteggio RG. C’è un’opinione prevalente nella comunità bibliometrica che la trasparenza e l’apertura sono caratteristiche importanti di qualsiasi metrica. Uno dei principi del Manifesto di Leiden afferma per esempio: “Mantenere la raccolta dei dati e i processi analitici aperti, trasparenti e semplici”, e continua: “I nuovi operatori commerciali dovrebbero essere tenuti agli stessi standard; nessuno dovrebbe accettare una macchina di valutazione a scatola nera”. La trasparenza è l’unico modo in cui le misure possono essere contestualizzate e l’unico modo in cui i pregiudizi – che sono inerenti a tutte le metriche create socialmente – possono essere scoperti. Inoltre, l’intrasparenza rende molto difficile per gli esterni rilevare il gioco del sistema. In ResearchGate per esempio, i contributi degli altri (cioè le domande e le risposte) possono essere anonimamente declassati. Il downvoting anonimo è stato criticato in passato perché spesso avviene senza spiegazioni. Per questo motivo, le reti online come Reddit hanno iniziato a moderare i downvotes.
Per confondere ulteriormente le acque, l’algoritmo usato per calcolare il punteggio RG sta cambiando nel tempo. Questo di per sé non è necessariamente una cosa negativa. Il Manifesto di Leiden afferma che le metriche dovrebbero essere regolarmente esaminate e aggiornate, se necessario. Inoltre, ResearchGate non nasconde il fatto che modifica il suo algoritmo e le fonti di dati considerate lungo il percorso. Il problema con il modo in cui ResearchGate gestisce questo processo è che non è trasparente e che non c’è modo di ricostruirlo. Questo rende impossibile confrontare il punteggio RG nel tempo, limitando ulteriormente la sua utilità.
Come esempio, abbiamo tracciato il punteggio RG di Peter da agosto 2012 ad aprile 2015. Tra agosto 2012, quando il punteggio è stato introdotto, e novembre 2012 il suo punteggio è sceso da un iniziale 4,76 in agosto 2012 a 0,02. Poi è aumentato gradualmente a 1,03 nel dicembre 2012, dove è rimasto fino a settembre 2013. Va notato che il comportamento di Peter sulla piattaforma è stato relativamente stabile in questo lasso di tempo. Non ha rimosso pezzi di ricerca dalla piattaforma o non ha seguito altri ricercatori. Cos’è successo in questo lasso di tempo? La spiegazione più plausibile è che ResearchGate abbia aggiustato l’algoritmo – ma senza alcun accenno al perché e al come ciò sia accaduto, lascia il ricercatore a indovinare. Nel Manifesto di Leiden, c’è un principio fermo contro questa pratica: “Permettere a chi viene valutato di verificare dati e analisi”.
Un tentativo di riprodurre il ResearchGate Score
Per saperne di più sulla composizione del RG Score, abbiamo provato a fare reverse engineering del punteggio. Ci sono diverse informazioni di profilo che potrebbero potenzialmente contribuire al punteggio; al momento dell’analisi, queste includevano “punti di impatto” (calcolati utilizzando i fattori di impatto delle riviste in cui un individuo ha pubblicato), “download”, “visualizzazioni”, “domande”, “risposte”, “seguaci” e “following”. Guardando i grafici a torta delle ripartizioni di RG Score, gli accademici che hanno un RG Score sul loro profilo possono quindi essere considerati come comprendenti diversi sottogruppi:
- quelli il cui punteggio è basato solo sulle loro pubblicazioni;
- punteggi basati sull’attività di domande e risposte;
- punteggi basati su follower e following;
- e punteggi basati su una combinazione dei tre.
Per la nostra analisi iniziale, ci siamo concentrati sul primo gruppo: abbiamo costruito un piccolo campione di accademici (30), che hanno un RG Score e una sola pubblicazione sul loro profilo. Questo ha rivelato una forte correlazione tra i punti di impatto (che, per un accademico con una singola pubblicazione, è semplicemente il Journal Impact Factor (JIF) della rivista di quella pubblicazione). È interessante notare che la correlazione non è lineare ma logaritmica. Perché ResearchGate sceglie di trasformare i “punti di impatto” in questo modo non è chiaro. Usare il log naturale dei punti di impatto avrà l’effetto di diminuire i rendimenti per quelli con i punti di impatto più alti, quindi si potrebbe ipotizzare che il log naturale sia usato per incoraggiare gli accademici meno esperti.
Abbiamo poi ampliato il campione per includere esempi da due ulteriori gruppi di accademici: 30 accademici che hanno un RG Score e pubblicazioni multiple; e altri 30 sono stati aggiunti che hanno un RG Score, pubblicazioni multiple, e hanno pubblicato almeno una domanda e risposta. L’analisi di regressione multipla ha indicato che il punteggio RG era significativamente predetto da una combinazione di numero di visualizzazioni, log naturali dei punti di impatto, risposte postate e numero di pubblicazioni. I punti di impatto si sono dimostrati molto rilevanti; almeno per questo campione esplorativo, i punti di impatto hanno rappresentato una grande proporzione della variazione nei dati (68%).
Incorporare il Journal Impact Factor per valutare i singoli ricercatori
La nostra analisi mostra che il punteggio RG incorpora il Journal Impact Factor per valutare i singoli ricercatori. Il JIF, tuttavia, non è stato introdotto come misura per valutare gli individui, ma come misura per guidare le decisioni di acquisto di riviste da parte delle biblioteche. Nel corso degli anni, è stato utilizzato anche per valutare i singoli ricercatori. Ma ci sono molte buone ragioni per cui questa è una cattiva pratica. Per esempio, la distribuzione delle citazioni all’interno di una rivista è altamente distorta; uno studio ha trovato che gli articoli nella metà più citata degli articoli di una rivista erano citati 10 volte più spesso degli articoli nella metà meno citata. Poiché il JIF si basa sul numero medio di citazioni, un singolo articolo con un alto numero di citazioni può quindi alterare considerevolmente la metrica.
Inoltre, la correlazione tra il JIF e le singole citazioni agli articoli è in costante diminuzione dagli anni ’90, il che significa che dice sempre meno sui singoli articoli. Inoltre, il JIF è disponibile solo per le riviste; quindi non può essere usato per valutare campi che favoriscono altre forme di comunicazione, come l’informatica (documenti di conferenze) o le scienze umane (libri). Ma anche nelle discipline che comunicano su riviste, c’è un’alta variazione nel numero medio di citazioni che non è tenuto in conto nel JIF. Di conseguenza, il JIF è piuttosto problematico quando si valutano le riviste; quando si tratta di singoli contributi è ancora più discutibile.
C’è un ampio consenso tra i ricercatori su questo tema: la Dichiarazione di San Francisco sulla valutazione della ricerca (DORA) che scoraggia l’uso del Journal Impact Factor per la valutazione dei singoli ricercatori ha raccolto più di 12.300 firme al momento della scrittura. Sembra sconcertante che un punteggio che sostiene di essere “un nuovo modo di misurare la tua reputazione scientifica” vada in questo modo.
Parole finali
Ci sono una serie di idee interessanti nel punteggio RG: includere gli output di ricerca diversi dai documenti (ad esempio dati, diapositive) è sicuramente un passo nella giusta direzione, e l’idea di considerare le interazioni quando si pensa alla reputazione accademica ha qualche merito. Tuttavia, c’è una discrepanza tra l’obiettivo dell’RG Score e l’uso del sito nella pratica. L’evidenza suggerisce che gli accademici che usano ResearchGate tendono a vederlo come un biglietto da visita online o un curriculum vitae, piuttosto che un sito per l’interazione attiva con gli altri. Inoltre, il punteggio non tiene conto delle attività che si svolgono al di fuori di ResearchGate; per esempio, Twitter è più frequentemente il sito per discutere attivamente della ricerca.
L’ampio uso del punteggio RG nelle e-mail di marketing suggerisce che è stato pensato per essere uno strumento di marketing che porta più traffico al sito. Mentre può aver avuto successo in questo settore, abbiamo trovato diversi problemi critici con l’RG Score, che devono essere affrontati prima che possa essere visto come una metrica seria.
ResearchGate sembra aver reagito alle critiche che circondano l’RG Score. A settembre, hanno introdotto una nuova metrica chiamata “Reads”. “Reads”, che è definito come la somma delle visualizzazioni e dei download del lavoro di un ricercatore, è ora l’obiettivo principale delle loro e-mail e la metrica è ben visibile nel profilo di un ricercatore. Allo stesso tempo, ResearchGate ha deciso di mantenere il punteggio, anche se in un ruolo minore. Viene ancora visualizzato in ogni profilo ed è anche usato come informazione aggiuntiva in molte delle funzioni del sito, per esempio le raccomandazioni.
Infine, va sottolineato che il punteggio RG non è l’unica metrica negativa là fuori. Con le metriche che stanno diventando onnipresenti nella valutazione della ricerca, come evidenziato nel recente rapporto HEFCE “The Metric Tide”, siamo pronti a vedere la formulazione di molte altre. Con questi sviluppi in mente, diventa ancora più importante per noi ricercatori di bibliometria informare le nostre parti interessate (come le agenzie di finanziamento e gli amministratori universitari) sui problemi delle singole metriche. Quindi, se avete qualche preoccupazione con una certa metrica, non esitate a condividerla con noi, a scriverne – o anche a nominarla per il premio Bad Metric.
Nota: Questo articolo riporta le opinioni dell’autore, e non la posizione del blog LSE Impact, né della London School of Economics. Si prega di rivedere la nostra politica dei commenti se avete qualche preoccupazione nel postare un commento qui sotto.
Chi sono gli autori
Peter Kraker è un ricercatore post-dottorato al Know-Center dell’Università di Tecnologia di Graz e un Panton Fellow 2013/14. I suoi principali interessi di ricerca sono le visualizzazioni basate sulla comunicazione accademica sul web, la scienza aperta e le altmetriche. Peter è un sostenitore della scienza aperta che collabora con la Open Knowledge Foundation e l’Open Access Network Austria.
Katy Jordan è uno studente di dottorato con sede presso l’Istituto di tecnologia educativa della Open University, Regno Unito. I suoi interessi di ricerca si concentrano sull’intersezione tra Internet e l’istruzione superiore. Oltre alla sua ricerca di dottorato sui siti di social network accademici, ha anche pubblicato una ricerca sui Massive Open Online Courses (MOOCs) e sulle tecnologie del web semantico per l’istruzione.
Elisabeth Lex è assistente alla Graz University of Technology e dirige l’area di ricerca Social Computing alla Know-Center GmbH. Nella sua ricerca, esplora come le tracce digitali che gli esseri umani lasciano sul Web possono essere sfruttate per modellare e plasmare il modo in cui le persone lavorano, imparano e interagiscono. Alla Graz University of Technology, Elisabeth insegna Web Science e Science 2.0.
Questo fa parte di una serie di pezzi del workshop Quantifying and Analysing Scholarly Communication on the Web. Altro da questa serie:
Abbiamo bisogno di metriche informative che aiutino, non danneggino, lo sforzo scientifico – lavoriamo per fare metriche migliori.
Piuttosto che aspettarsi che la gente smetta del tutto di utilizzare le metriche, faremmo meglio a concentrarci sull’assicurarci che le metriche siano efficaci e accurate, sostiene Brett Buttliere. Guardando attraverso una varietà di indicatori, sostenendo un hub di metriche centralizzato e interoperabile, e utilizzando più teoria nella costruzione delle metriche, gli scienziati possono comprendere meglio le diverse sfaccettature dell’impatto della ricerca e della qualità della ricerca.
Il contesto è tutto: il caso di misure di impatto citazionale più sfumate.
L’accesso a sempre più dati di pubblicazione e citazione offre il potenziale per misure di impatto più potenti della bibliometria tradizionale. Tenere conto di più del contesto nella relazione tra le pubblicazioni che citano e quelle citate potrebbe fornire una misura d’impatto più sottile e sfumata. Ryan Whalen esamina i diversi modi in cui i contenuti scientifici sono correlati, e come queste relazioni potrebbero essere esplorate ulteriormente per migliorare le misure dell’impatto scientifico.
Raccogliere la ricerca bibliometrica da diverse discipline – cosa possiamo imparare gli uni dagli altri?
Attualmente, c’è poco scambio tra le diverse comunità interessate al dominio della bibliometria. Peter Kraker, Katrin Weller, Isabella Peters e Elisabeth Lex riferiscono della moltitudine di argomenti e punti di vista trattati sull’analisi quantitativa della ricerca scientifica. Un tema chiave è stato il forte bisogno di maggiore apertura e trasparenza: trasparenza nei processi di valutazione della ricerca per evitare pregiudizi, trasparenza degli algoritmi che calcolano i nuovi punteggi e apertura della tecnologia utile.
Lascia un commento