Scororul ResearchGate: un bun exemplu de metrică proastă
On decembrie 6, 2021 by adminPotrivit ResearchGate, rețeaua de socializare academică, scorul RG este „un nou mod de a vă măsura reputația științifică”. Cu astfel de obiective înalte, Peter Kraker, Katy Jordan și Elisabeth Lex analizează mai atent această metrică opacă. Prin inginerie inversă a scorului, ei descoperă că o pondere semnificativă este legată de „punctele de impact” – o măsurătoare similară cu factorul de impact al revistelor, care este discreditat pe scară largă. Transparența măsurătorilor este singura modalitate prin care măsurile academice pot fi puse în context și singura modalitate prin care pot fi descoperite prejudecățile – care sunt inerente tuturor măsurătorilor create în mod social.
Lansată în 2008, ResearchGate a fost una dintre primele rețele sociale academice de pe web. Platforma se învârte în jurul lucrărilor de cercetare, a unui sistem de întrebări și răspunsuri și a unui forum de joburi. Cercetătorii au posibilitatea de a-și crea un profil care să le prezinte palmaresul de publicații și expertiza lor academică. Alți utilizatori pot apoi să urmărească aceste profiluri și sunt notificați cu privire la orice actualizare. În ultimii ani, ResearchGate a devenit mai agresiv în comercializarea platformei sale prin e-mail. În setările implicite, ResearchGate trimite între 4 și 10 e-mailuri pe săptămână, în funcție de activitatea din rețeaua dumneavoastră. Numărul mare de mesaje se dovedește a fi de mare succes pentru ResearchGate: conform unui studiu realizat de Nature în 2014, ResearchGate este cea mai cunoscută rețea socială în rândul cercetătorilor; 35 % dintre cercetătorii intervievați spun că s-au înscris în ResearchGate „pentru că au primit un e-mail”. Poate că nu este o surpriză faptul că această strategie a fost de atunci adoptată de mulți dintre concurenții ResearchGate, inclusiv Academia.edu și Mendeley.
Unul dintre punctele centrale din e-mailurile ResearchGate este cel mai recent punctaj ResearchGate Score (RG Score) al unui cercetător. Actualizat săptămânal, scorul RG este un singur număr care este atașat la profilul unui cercetător. Potrivit ResearchGate, scorul include rezultatele cercetării pe care le împărtășiți pe platformă, interacțiunile cu alți membri și reputația colegilor dvs. (adică ia în considerare publicațiile, întrebările, răspunsurile, adepții). Scorul RG este afișat pe fiecare profil alături de informațiile de bază despre un cercetător. ResearchGate a primit o susținere financiară substanțială din partea unor capitaliști de risc și a lui Bill Gates, dar nu este clar cum va genera venituri platforma; posibilitatea ca scorul să fie legat de valoarea financiară justifică o explorare suplimentară și o evaluare critică.
Creditul imaginii: Blackbox public domain
Rezultatele evaluării noastre a scorului RG au fost mai degrabă descurajante: deși există unele idei inovatoare în modul în care ResearchGate a abordat măsura, am constatat, de asemenea, că scorul RG ignoră o serie de orientări bibliometrice fundamentale și că ResearchGate face greșeli de bază în modul în care este calculat scorul. Considerăm că aceste deficiențe sunt atât de problematice încât scorul RG Score nu ar trebui să fie considerat ca o măsură a reputației științifice în forma sa actuală.Măsura vine cu declarații îndrăznețe: conform site-ului, scorul RG Score este „un nou mod de a vă măsura reputația științifică”; a fost conceput pentru „a vă ajuta să vă măsurați și să vă valorificați poziția în cadrul comunității științifice”. Cu astfel de obiective înalte, a părut oportun să analizăm mai îndeaproape scorul RG Score și să evaluăm capacitatea sa ca măsură a reputației științifice. Ne-am bazat evaluarea pe orientări bibliometrice bine stabilite pentru indicatorii de cercetare și pe o analiză empirică a scorului. Rezultatele au fost prezentate la un atelier recent privind analiza și cuantificarea comunicării academice pe web (ASCW’15 – post introductiv aici) într-un document de poziție și în discuția acestuia.
Intransparență și ireproductibilitate în timp
Una dintre cele mai evidente probleme ale scorului RG este că este netransparent. ResearchGate prezintă utilizatorilor săi o defalcare a părților individuale ale scorului, și anume publicații, întrebări, răspunsuri, urmăritori (prezentate, de asemenea, sub formă de diagramă circulară), și în ce măsură aceste părți contribuie la scorul dumneavoastră. Din păcate, aceste informații nu sunt suficiente pentru a reproduce propriul scor. Pentru aceasta ar trebui să cunoașteți măsurile exacte care sunt folosite, precum și algoritmul utilizat pentru calcularea scorului. Aceste elemente sunt însă necunoscute.
ResearchGate creează astfel un fel de mașină de evaluare de tip „black-box” care îi ține pe cercetători la ghici, ce acțiuni sunt luate în considerare atunci când le este măsurată reputația. Acest lucru este exemplificat de numeroasele întrebări din propriul sistem de întrebări și răspunsuri al ResearchGate referitoare la calculul exact al scorului RG. Există o opinie predominantă în comunitatea bibliometrică potrivit căreia transparența și deschiderea sunt caracteristici importante ale oricărui sistem de măsurare. Unul dintre principiile Manifestului de la Leiden prevede, de exemplu, următoarele: „Păstrați colectarea datelor și procesele analitice deschise, transparente și simple”, și continuă: „Nou-veniții operatori comerciali ar trebui să fie supuși acelorași standarde; nimeni nu ar trebui să accepte o mașină de evaluare de tip black-box”. Transparența este singurul mod în care măsurile pot fi puse în context și singurul mod în care pot fi descoperite prejudecățile – care sunt inerente în toate măsurătorile create la nivel social. Mai mult decât atât, intransparența face ca persoanelor din exterior să le fie foarte greu să detecteze jocurile de noroc ale sistemului. În ResearchGate, de exemplu, contribuțiile altora (de exemplu, întrebările și răspunsurile) pot fi anulate în mod anonim. Votul negativ anonim a fost criticat în trecut, deoarece se întâmplă adesea fără explicații. Prin urmare, rețelele online, cum ar fi Reddit, au început să modereze downvotes.
Încurcă și mai mult apele, algoritmul utilizat pentru a calcula scorul RG se schimbă în timp. Acest lucru în sine nu este neapărat un lucru rău. Manifestul de la Leiden afirmă că metricile ar trebui să fie examinate cu regularitate și actualizate, dacă este necesar. De asemenea, ResearchGate nu ascunde faptul că își modifică pe parcurs algoritmul și sursele de date luate în considerare. Problema cu modul în care ResearchGate gestionează acest proces este că nu este transparent și că nu există nicio modalitate de a-l reconstrui. Acest lucru face imposibilă compararea scorului RG în timp, limitând și mai mult utilitatea acestuia.
Ca exemplu, am trasat scorul RG al lui Peter din august 2012 până în aprilie 2015. Între august 2012, când a fost introdus scorul, și noiembrie 2012, scorul său a scăzut de la un scor inițial de 4,76 în august 2012 la 0,02. Apoi a crescut treptat până la 1,03 în decembrie 2012, unde a rămas până în septembrie 2013. Trebuie remarcat faptul că, în acest interval de timp, comportamentul lui Peter pe platformă a fost relativ stabil. El nu a eliminat lucrări de cercetare de pe platformă și nu a dat unfollow altor cercetători. Așadar, ce s-a întâmplat în acest interval de timp? Cea mai plauzibilă explicație este că ResearchGate a ajustat algoritmul – dar, în lipsa unor indicii cu privire la motivul și la modul în care s-a întâmplat acest lucru, cercetătorul rămâne pe gânduri. În Manifestul de la Leiden, există un principiu ferm împotriva acestei practici: „Permiteți celor evaluați să verifice datele și analiza”.
O încercare de reproducere a scorului ResearchGate
Pentru a afla mai multe despre compoziția scorului RG, am încercat să facem inginerie inversă a scorului. Există mai multe informații de profil care ar putea contribui potențial la scor; la momentul analizei, acestea includeau „puncte de impact” (calculate folosind factorii de impact ai revistelor în care o persoană a publicat), „descărcări”, „vizualizări”, „întrebări”, „răspunsuri”, „urmăritori” și „urmăritori”. Privind diagramele circulare ale defalcărilor scorului RG, se poate considera, prin urmare, că universitarii care au un scor RG pe profilul lor includ mai multe subgrupuri:
- cei al căror scor se bazează doar pe publicațiile lor;
- copii bazate pe activitatea de întrebări și răspunsuri;
- copii bazate pe urmăritori și urmăriți;
- și scoruri bazate pe o combinație a oricăreia dintre cele trei.
Pentru analiza noastră inițială, ne-am concentrat pe primul grup: am construit un eșantion mic de academicieni (30), care au un scor RG și doar o singură publicație pe profilul lor . Acest lucru a evidențiat o corelație puternică între punctele de impact (care, pentru un academician cu o singură lucrare, este pur și simplu Factorul de impact al revistei (JIF) al revistei respective). Este interesant faptul că această corelație nu este liniară, ci logaritmică. Nu este clar de ce ResearchGate alege să transforme „punctele de impact” în acest mod. Utilizarea logaritmului natural al punctelor de impact va avea ca efect scăderea randamentului pentru cei cu cele mai mari puncte de impact, astfel încât s-ar putea specula că logaritmul natural este utilizat pentru a încuraja cadrele universitare mai puțin experimentate.
Am extins apoi eșantionul pentru a include exemple din alte două grupuri de cadre universitare: 30 de cadre universitare care au un scor RG și mai multe publicații; și au fost adăugate alte 30 de cadre universitare care au un scor RG, mai multe publicații și care au postat cel puțin o întrebare și un răspuns. Analiza de regresie multiplă a indicat că scorul RG a fost prezis în mod semnificativ de o combinație între numărul de vizualizări, logaritmii naturali ai punctelor de impact, răspunsurile postate și numărul de publicații. Punctele de impact s-au dovedit a fi foarte relevante; cel puțin pentru acest eșantion exploratoriu, punctele de impact au reprezentat o mare parte din variația datelor (68%).
Incorporarea factorului de impact al revistei pentru a evalua cercetătorii individuali
Analiza noastră arată că scorul RG încorporează factorul de impact al revistei pentru a evalua cercetătorii individuali. Cu toate acestea, JIF nu a fost introdus ca o măsură de evaluare a indivizilor, ci ca o măsură pentru a ghida deciziile de cumpărare a revistelor de către biblioteci. De-a lungul anilor, acesta a fost utilizat și pentru evaluarea cercetătorilor individuali. Dar există multe motive întemeiate pentru care aceasta este o practică greșită. În primul rând, distribuția citărilor în cadrul unei reviste este foarte dezechilibrată; un studiu a constatat că articolele din jumătatea cea mai citată a articolelor dintr-o revistă erau citate de 10 ori mai des decât articolele din jumătatea cea mai puțin citată. Deoarece JIF se bazează pe numărul mediu de citări, un singur articol cu un număr mare de citări poate, prin urmare, să denatureze considerabil metrica.
În plus, corelația dintre JIF și citările individuale ale articolelor a scăzut constant începând cu anii 1990, ceea ce înseamnă că spune din ce în ce mai puțin despre articolele individuale. În plus, JIF este disponibil numai pentru reviste; prin urmare, nu poate fi utilizat pentru a evalua domenii care favorizează alte forme de comunicare, cum ar fi informatica (lucrări de conferință) sau științele umaniste (cărți). Dar chiar și în disciplinele care comunică în reviste, există o mare variație în ceea ce privește numărul mediu de citări, care nu este luată în considerare în JIF. Prin urmare, JIF este destul de problematic atunci când se evaluează reviste; atunci când vine vorba de contribuții unice, este și mai discutabil.
Există un consens larg în rândul cercetătorilor pe această temă: Declarația din San Francisco privind evaluarea cercetării (DORA), care descurajează utilizarea factorului de impact al revistelor pentru evaluarea cercetătorilor individuali, a adunat peste 12.300 de semnatari la momentul redactării acestui document. Pare derutant că un scor care pretinde a fi „un nou mod de a vă măsura reputația științifică” ar merge în acest fel.
Cuvinte finale
Există o serie de idei interesante în scorul RG: includerea altor rezultate ale cercetării decât articolele (de exemplu, date, slide-uri) este cu siguranță un pas în direcția corectă, iar ideea de a lua în considerare interacțiunile atunci când se gândește la reputația academică are un oarecare merit. Cu toate acestea, există o nepotrivire între obiectivul scorului RG și utilizarea site-ului în practică. Dovezile sugerează că universitarii care utilizează ResearchGate tind să îl privească mai degrabă ca pe o carte de vizită online sau un curriculum vitae, decât ca pe un site de interacțiune activă cu alții. În plus, scorul ratează orice activitate care are loc în afara ResearchGate; de exemplu, Twitter este mai frecvent site-ul pentru a discuta activ despre cercetare.
Utilizarea extensivă a scorului RG în e-mailurile de marketing sugerează că acesta a fost menit să fie un instrument de marketing care atrage mai mult trafic pe site. Deși este posibil să fi reușit în acest departament, am găsit mai multe probleme critice cu scorul RG, care trebuie rezolvate înainte ca acesta să poată fi considerat o măsurătoare serioasă.
ResearchGate pare să fi reacționat la criticile legate de scorul RG. În septembrie, au introdus o nouă metrică numită „Reads”. „Reads”, care este definit ca fiind suma vizualizărilor și a descărcărilor lucrărilor unui cercetător, este acum principalul obiectiv al e-mailurilor lor, iar metrica este afișată în mod proeminent în profilul unui cercetător. În același timp, ResearchGate a decis să păstreze punctajul, deși cu un rol mai mic. Acesta este în continuare afișat în fiecare profil și este, de asemenea, utilizat ca informație suplimentară în multe dintre funcțiile site-ului, de exemplu, recomandările.
În cele din urmă, ar trebui subliniat faptul că scorul RG nu este singura metrică proastă de pe piață. Având în vedere că metricile devin omniprezente în evaluarea cercetării, așa cum reiese din recentul raport HEFCE „The Metric Tide”, suntem pregătiți să asistăm la formularea multor altora. Având în vedere aceste evoluții, devine și mai important pentru noi, cercetătorii în bibliometrie, să ne informăm părțile interesate (cum ar fi agențiile de finanțare și administratorii universităților) cu privire la problemele legate de metricele individuale. Așadar, dacă aveți îngrijorări cu privire la o anumită metrică, nu ezitați să o împărtășiți cu noi, să scrieți despre ea – sau chiar să o nominalizați pentru premiul Bad Metric.
Nota: Acest articol prezintă punctul de vedere al autorului, și nu poziția blogului LSE Impact, nici a London School of Economics. Vă rugăm să consultați Politica noastră privind comentariile dacă aveți nelămuriri cu privire la postarea unui comentariu mai jos.
Despre autori
Peter Kraker este cercetător postdoctoral la Know-Center of Graz University of Technology și bursier Panton 2013/14. Principalele sale interese de cercetare sunt vizualizările bazate pe comunicarea academică pe web, știința deschisă și altmetria. Peter este un susținător al științei deschise care colaborează cu Open Knowledge Foundation și Open Access Network Austria.
Katy Jordan este doctorandă în cadrul Institutului de Tehnologie Educațională de la The Open University, Marea Britanie. Interesele sale de cercetare se concentrează pe intersecția dintre internet și învățământul superior. În plus față de cercetările sale doctorale privind site-urile de rețele sociale academice, ea a publicat, de asemenea, cercetări privind cursurile online deschise masive (MOOC) și tehnologiile web semantice pentru educație.
Elisabeth Lex este profesor asistent la Universitatea de Tehnologie din Graz și conduce domeniul de cercetare Social Computing la Know-Center GmbH. În cercetările sale, ea explorează modul în care urmele digitale pe care oamenii le lasă în urmă pe web pot fi exploatate pentru a modela și modela modul în care oamenii lucrează, învață și interacționează. La Universitatea de Tehnologie din Graz, Elisabeth predă Web Science, precum și Science 2.0.
Acest articol face parte dintr-o serie de articole din cadrul atelierului Quantifying and Analysing Scholarly Communication on the Web. Mai multe din această serie:
Avem nevoie de măsurători informative care să ajute, nu să dăuneze, efortului științific – haideți să lucrăm pentru a face măsurători mai bune.
În loc să ne așteptăm ca oamenii să înceteze cu totul să mai folosească metricele, ar fi mai bine să ne concentrăm să ne asigurăm că metricele sunt eficiente și precise, susține Brett Buttliere. Analizând o varietate de indicatori, sprijinind un hub de măsurători centralizat și interoperabil și utilizând mai multă teorie în elaborarea măsurătorilor, oamenii de știință pot înțelege mai bine diversele fațete ale impactului cercetării și ale calității cercetării.
Contextul este totul: Argumente în favoarea unor măsuri de impact al citării mai nuanțate.
Accesul la din ce în ce mai multe date de publicare și de citare oferă potențialul unor măsuri de impact mai puternice decât bibliometria tradițională. Luarea în considerare mai mult a contextului în relația dintre publicațiile care citează și cele citate ar putea oferi o măsurare mai subtilă și mai nuanțată a impactului. Ryan Whalen analizează diferitele moduri în care sunt legate conținuturile științifice și modul în care aceste relații ar putea fi explorate în continuare pentru a îmbunătăți măsurile de impact științific.
Reunificarea cercetării bibliometrice din diferite discipline – ce putem învăța unii de la alții?
În prezent, există puține schimburi între diferitele comunități interesate de domeniul bibliometriei. O conferință recentă a urmărit să acopere acest decalaj. Peter Kraker, Katrin Weller, Isabella Peters și Elisabeth Lex raportează despre multitudinea de subiecte și puncte de vedere abordate cu privire la analiza cantitativă a cercetării științifice. O temă cheie a fost nevoia puternică de mai multă deschidere și transparență: transparență în procesele de evaluare a cercetării pentru a evita prejudecățile, transparența algoritmilor care calculează noile scoruri și deschiderea tehnologiei utile.
Lasă un răspuns