De ResearchGate Score: een goed voorbeeld van een slechte metric
On december 6, 2021 by adminVolgens ResearchGate, de academische sociale netwerksite, is hun RG Score “een nieuwe manier om je wetenschappelijke reputatie te meten”. Met zulke hoge doelstellingen nemen Peter Kraker, Katy Jordan en Elisabeth Lex de ondoorzichtige metriek eens onder de loep. Door de score om te keren, ontdekken ze dat een aanzienlijk gewicht is gekoppeld aan ‘impactpunten’ – een metriek die vergelijkbaar is met de alom in diskrediet gebrachte impactfactor van tijdschriften. Transparantie in de metriek is de enige manier waarop wetenschappelijke metingen in context kunnen worden geplaatst en de enige manier waarop vertekeningen – die inherent zijn aan alle sociaal gecreëerde metrieken – kunnen worden blootgelegd.
ResearchGate, gelanceerd in 2008, was een van de eerste academische sociale netwerken op het web. Het platform draait om onderzoekspapers, een vraag- en antwoordsysteem, en een vacaturebank. Onderzoekers zijn in staat om een profiel aan te maken dat hun publicatie record en hun academische expertise laat zien. Andere gebruikers kunnen deze profielen dan volgen en worden op de hoogte gebracht van updates. In de afgelopen jaren is ResearchGate agressiever geworden in het marketen van zijn platform via e-mail. In standaardinstellingen verstuurt ResearchGate tussen 4 en 10 e-mails per week, afhankelijk van de activiteit in je netwerk. Het hoge aantal berichten blijkt zeer succesvol te zijn voor ResearchGate: volgens een studie van Nature uit 2014 is ResearchGate het bekendste sociale netwerk onder onderzoekers; 35% van de ondervraagde onderzoekers zegt zich te hebben aangemeld voor ResearchGate “omdat ze een e-mail hebben ontvangen”. Het zal misschien geen verrassing zijn dat deze strategie sindsdien is overgenomen door veel concurrenten van ResearchGate, waaronder Academia.edu en Mendeley.
Een van de aandachtspunten in de e-mails van ResearchGate is de nieuwste ResearchGate Score (RG Score) van een onderzoeker. Wekelijks bijgewerkt, de RG Score is een enkel getal dat is gekoppeld aan het profiel van een onderzoeker. Volgens ResearchGate, omvat de score de onderzoeksresultaten die u deelt op het platform, uw interacties met andere leden, en de reputatie van uw peers (dat wil zeggen, het houdt rekening met publicaties, vragen, antwoorden, volgelingen). De RG Score wordt weergegeven op elk profiel naast de basisinformatie over een onderzoeker. ResearchGate heeft aanzienlijke financiële steun ontvangen van durfkapitalisten en Bill Gates, maar het is niet duidelijk hoe het platform inkomsten zal genereren; de mogelijkheid dat de score aan financiële waarde wordt gekoppeld, moet verder worden onderzocht en kritisch worden beoordeeld.
Image credit: Blackbox public domain
De resultaten van onze evaluatie van de RG Score waren nogal ontmoedigend: terwijl er een aantal innovatieve ideeën zijn in de manier waarop ResearchGate de maatregel benadert, vonden we ook dat de RG Score een aantal fundamentele bibliometrische richtlijnen negeert en dat ResearchGate basisfouten maakt in de manier waarop de score wordt berekend. Wij achten deze tekortkomingen dermate problematisch dat de RG Score in zijn huidige vorm niet mag worden beschouwd als een maatstaf voor wetenschappelijke reputatie. De maatstaf komt met boude beweringen: volgens de site is de RG Score “een nieuwe manier om uw wetenschappelijke reputatie te meten”; hij is ontworpen om “u te helpen uw status binnen de wetenschappelijke gemeenschap te meten en te benutten”. Met zulke hooggestemde doelstellingen leek het ons aangewezen de RG Score van naderbij te bekijken en te evalueren in hoeverre hij geschikt is als maatstaf voor wetenschappelijke reputatie. We hebben onze evaluatie gebaseerd op gevestigde bibliometrische richtlijnen voor onderzoeksmetrieken, en op een empirische analyse van de score. De resultaten zijn gepresenteerd op een recente workshop over Analysing and Quantifying Scholarly Communication on the Web (ASCW’15 – inleidende post hier) in een position paper en de discussie daarover.
Intransparantie en onherleidbaarheid in de tijd
Een van de meest in het oog springende problemen van de RG Score is dat hij ondoorzichtig is. ResearchGate presenteert zijn gebruikers wel een uitsplitsing van de afzonderlijke onderdelen van de score, d.w.z. publicaties, vragen, antwoorden, volgers (ook weergegeven in een taartdiagram), en in welke mate deze onderdelen bijdragen aan je score. Helaas is dat niet voldoende informatie om je eigen score te reproduceren. Daarvoor zou je de precieze maatstaven moeten kennen, evenals het algoritme dat wordt gebruikt om de score te berekenen. Deze elementen zijn echter onbekend.
ResearchGate creëert zo een soort black-box evaluatiemachine die onderzoekers laat gissen met welke acties rekening wordt gehouden wanneer hun reputatie wordt gemeten. Dit wordt geïllustreerd door de vele vragen in ResearchGate’s eigen vraag- en antwoordsysteem met betrekking tot de exacte berekening van de RG Score. In de bibliometrische gemeenschap heerst de opvatting dat transparantie en openheid belangrijke kenmerken zijn van elke metriek. Een van de principes van het Leiden Manifesto luidt bijvoorbeeld als volgt “Houd gegevensverzameling en analytische processen open, transparant en eenvoudig”, en het vervolgt: “Recente commerciële toetreders moeten aan dezelfde normen worden gehouden; niemand mag een black-box evaluatiemachine accepteren.” Transparantie is de enige manier waarop maatregelen in hun context kunnen worden geplaatst en de enige manier waarop vooroordelen – die inherent zijn aan alle door de samenleving gecreëerde meetmethoden – aan het licht kunnen worden gebracht. Bovendien maakt intransparantie het voor buitenstaanders erg moeilijk om spel met het systeem te ontdekken. In ResearchGate bijvoorbeeld kunnen bijdragen van anderen (d.w.z. vragen en antwoorden) anoniem worden gedownvoted. Anoniem downvoting is in het verleden bekritiseerd omdat het vaak zonder uitleg gebeurt. Daarom zijn online netwerken zoals Reddit begonnen met het matigen van downvotes.
Het algoritme dat wordt gebruikt om de RG Score te berekenen, verandert mettertijd. Dat is op zich niet noodzakelijk een slechte zaak. Het Leiden Manifest stelt dat metrieken regelmatig onder de loep moeten worden genomen en, indien nodig, moeten worden aangepast. ResearchGate verbergt ook niet dat het zijn algoritme en de in aanmerking genomen gegevensbronnen gaandeweg wijzigt. Het probleem met de manier waarop ResearchGate met dit proces omgaat is dat het niet transparant is en dat er geen manier is om het te reconstrueren. Dit maakt het onmogelijk om de RG Score in de tijd te vergelijken, waardoor het nut ervan verder wordt beperkt.
Als voorbeeld hebben we Peters RG Score uitgezet van augustus 2012 tot april 2015. Tussen augustus 2012, toen de score werd ingevoerd, en november 2012 daalde zijn score van een aanvankelijke 4,76 in augustus 2012 tot 0,02. Daarna steeg hij geleidelijk tot 1,03 in december 2012 en bleef daar tot september 2013. Er zij op gewezen dat Peters gedrag op het platform in deze periode relatief stabiel is geweest. Hij heeft geen stukken van onderzoek van het platform verwijderd of andere onderzoekers ontvolgd. Wat is er dan gebeurd in die periode? De meest plausibele verklaring is dat ResearchGate het algoritme heeft aangepast – maar zonder aanwijzingen over waarom en hoe dat is gebeurd, laat het de onderzoeker gissen. In het Leiden Manifesto staat één stellig principe tegen deze praktijk: “
Een poging om de ResearchGate Score te reproduceren
Om meer te weten te komen over de samenstelling van de RG Score, hebben we geprobeerd om de score te reverse engineeren. Er zijn verschillende stukjes profielinformatie die mogelijk kunnen bijdragen tot de score; op het moment van de analyse waren dat onder meer ‘impactpunten’ (berekend aan de hand van impactfactoren van de tijdschriften waarin een individu heeft gepubliceerd), ‘downloads’, ‘views’, ‘vragen’, ‘antwoorden’, ‘volgers’ en ‘volgen’. Als we naar de taartdiagrammen van de RG Score-indelingen kijken, kunnen academici met een RG Score op hun profiel dus worden beschouwd als behorend tot verschillende subgroepen:
- degenen wier score alleen is gebaseerd op hun publicaties;
- scores gebaseerd op vraag- en antwoordactiviteit;
- scores gebaseerd op volgers en volgen;
- en scores gebaseerd op een combinatie van elk van de drie.
Voor onze eerste analyse richtten we ons op de eerste groep: we construeerden een kleine steekproef van academici (30), die een RG Score hebben en slechts een enkele publicatie op hun profiel . Hieruit bleek een sterke correlatie tussen de impactpunten (die voor een academicus met één publicatie gewoon de Journal Impact Factor (JIF) van het tijdschrift van die ene publicatie is). Interessant is dat de correlatie niet lineair is maar logaritmisch. Waarom ResearchGate ervoor kiest de “impact points” op deze manier om te zetten is niet duidelijk. Het gebruik van de natuurlijke log van impactpunten zal het effect hebben van afnemende meeropbrengsten voor diegenen met de hoogste impactpunten, dus kan worden gespeculeerd dat de natuurlijke log wordt gebruikt om minder ervaren academici aan te moedigen.
Vervolgens hebben we de steekproef uitgebreid met voorbeelden van nog twee groepen academici: 30 academici die een RG Score hebben en meerdere publicaties; en nog eens 30 werden toegevoegd die een RG Score hebben, meerdere publicaties, en ten minste één vraag en antwoord hebben gepost. Meervoudige regressieanalyse wees uit dat de RG Score significant werd voorspeld door een combinatie van het aantal views, natuurlijke logs van impactpunten, geplaatste antwoorden en het aantal publicaties. Impactpunten bleken zeer relevant te zijn; voor deze verkennende steekproef althans, vertegenwoordigden impactpunten een groot deel van de variatie in de gegevens (68%).
Integreren van de Journal Impact Factor om individuele onderzoekers te evalueren
Onze analyse toont aan dat de RG Score de Journal Impact Factor integreert om individuele onderzoekers te evalueren. De JIF werd echter niet ingevoerd als een maatregel om individuen te evalueren, maar als een maatstaf om de aankoopbeslissingen van bibliotheken over tijdschriften te sturen. In de loop der jaren is de JIF ook gebruikt voor de evaluatie van individuele onderzoekers. Maar er zijn veel goede redenen waarom dit een slechte praktijk is. Ten eerste is de verdeling van citaties binnen een tijdschrift zeer scheef; uit één studie bleek dat artikelen in de meest geciteerde helft van artikelen in een tijdschrift tien keer vaker werden geciteerd dan artikelen in de minst geciteerde helft. Aangezien het JIF gebaseerd is op het gemiddelde aantal citaties, kan één artikel met een hoog aantal citaties de metriek dus aanzienlijk scheeftrekken.
Bovendien is de correlatie tussen het JIF en individuele citaties van artikelen sinds de jaren negentig gestaag afgenomen, wat betekent dat het JIF steeds minder zegt over individuele artikelen. Bovendien is het JIF enkel beschikbaar voor tijdschriften; het kan dus niet gebruikt worden om gebieden te evalueren die andere vormen van communicatie verkiezen, zoals computerwetenschappen (conferentiepapers) of geesteswetenschappen (boeken). Maar zelfs in disciplines die in tijdschriften communiceren, is er een grote variatie in het gemiddelde aantal citaties, die niet in het JIF is verwerkt. Bijgevolg is de JIF nogal problematisch bij de evaluatie van tijdschriften; wanneer het gaat om afzonderlijke bijdragen is zij nog twijfelachtiger.
Er bestaat een brede consensus onder onderzoekers over deze kwestie: de San Francisco Declaration of Research Assessment (DORA) die het gebruik van de Journal Impact Factor voor de beoordeling van individuele onderzoekers ontmoedigt, heeft op het moment van schrijven meer dan 12.300 ondertekenaars opgeleverd. Het lijkt raadselachtig dat een score die beweert “een nieuwe manier om je wetenschappelijke reputatie te meten” te zijn, op die manier ten onder zou gaan.
Final Words
Er zitten een aantal interessante ideeën in de RG Score: het meetellen van andere onderzoeksoutputs dan papers (bv. data, slides) is zeker een stap in de goede richting, en het idee om interacties in overweging te nemen bij het nadenken over academische reputatie heeft enige merites. Er is echter een discrepantie tussen het doel van de RG Score en het gebruik van de site in de praktijk. Er zijn aanwijzingen dat academici die ResearchGate gebruiken, de site eerder zien als een online visitekaartje of curriculum vitae, dan als een site voor actieve interactie met anderen. Bovendien mist de score alle activiteiten die buiten ResearchGate plaatsvinden; Twitter is bijvoorbeeld vaker de site voor het actief bespreken van onderzoek.
Het uitgebreide gebruik van de RG Score in marketing e-mails suggereert dat het bedoeld was als een marketinginstrument dat meer verkeer naar de site lokt. Hoewel het misschien in deze afdeling is geslaagd, vonden we verschillende kritische kwesties met de RG Score, die moeten worden aangepakt voordat het kan worden gezien als een serieuze metric.
ResearchGate lijkt te hebben gereageerd op de kritiek rond de RG Score. In september introduceerden zij een nieuwe metriek genaamd “Reads”. “Leest”, dat wordt gedefinieerd als de som van de weergaven en downloads van het werk van een onderzoeker, is nu de belangrijkste focus van hun e-mails en de metriek wordt prominent weergegeven in het profiel van een onderzoeker. Tegelijkertijd heeft ResearchGate besloten de score te behouden, zij het in een kleinere rol. Het wordt nog steeds weergegeven in elk profiel en het wordt ook gebruikt als extra informatie in veel van de functies van de site, bv. aanbevelingen.
Ten slotte moet erop worden gewezen dat de RG Score niet de enige slechte metriek is die er is. Nu metrieken alomtegenwoordig worden bij de beoordeling van onderzoek, zoals blijkt uit het recente HEFCE-rapport “The Metric Tide”, staan we op het punt om er nog veel meer te zien geformuleerd worden. Met deze ontwikkelingen in het achterhoofd, wordt het voor ons bibliometrie-onderzoekers nog belangrijker om onze stakeholders (zoals financieringsinstanties en universiteitsbestuurders) te informeren over de problemen met individuele metrieken. Dus als u zich zorgen maakt over een bepaalde metriek, aarzel dan niet om deze met ons te delen, erover te schrijven – of zelfs te nomineren voor de Bad Metric prijs.
Note: Dit artikel geeft de mening van de auteur weer, en niet het standpunt van de LSE Impact blog, noch van de London School of Economics. Lees onze Comments Policy als u bedenkingen heeft bij het plaatsen van een reactie.
Over de auteurs
Peter Kraker is postdoctoraal onderzoeker aan het Know-Center van de Technische Universiteit Graz en een 2013/14 Panton Fellow. Zijn belangrijkste onderzoeksinteresses zijn visualisaties gebaseerd op wetenschappelijke communicatie op het web, open science, en altmetrics. Peter is een voorstander van open wetenschap en werkt samen met de Open Knowledge Foundation en het Open Access Network Austria.
Katy Jordan is promovendus aan het Institute of Educational Technology van The Open University, UK. Haar onderzoeksinteresses richten zich op het snijvlak tussen het internet en het hoger onderwijs. Naast haar promotieonderzoek naar academische sociale netwerksites heeft ze ook onderzoek gepubliceerd over Massive Open Online Courses (MOOC’s) en semantische webtechnologieën voor het onderwijs.
Elisabeth Lex is assistent-professor aan de Technische Universiteit Graz en ze leidt het onderzoeksgebied Social Computing bij Know-Center GmbH. In haar onderzoek verkent ze hoe digitale sporen die mensen achterlaten op het Web kunnen worden benut om de manier waarop mensen werken, leren en interacteren te modelleren en vorm te geven. Aan de Technische Universiteit van Graz doceert Elisabeth zowel Web Science als Science 2.0.
Dit is onderdeel van een serie stukken van de workshop Quantifying and Analysing Scholarly Communication on the Web. Meer uit deze serie:
We hebben informatieve metrieken nodig die de wetenschappelijke inspanning helpen, niet schaden – laten we werken aan een betere metriek.
In plaats van te verwachten dat mensen helemaal stoppen met het gebruik van meetmethoden, zouden we ons beter kunnen concentreren op het zorgen dat de meetmethoden effectief en accuraat zijn, stelt Brett Buttliere. Door te kijken naar een verscheidenheid aan indicatoren, door een gecentraliseerde, interoperabele metriekhub te ondersteunen en door meer theorie te gebruiken bij het opstellen van metriek, kunnen wetenschappers de verschillende facetten van onderzoeksimpact en onderzoekskwaliteit beter begrijpen.
Context is alles: Een pleidooi voor meer genuanceerde metingen van citatie-impact.
De toegang tot steeds meer publicatie- en citatiegegevens biedt de mogelijkheid om impactmetingen krachtiger te maken dan de traditionele bibliometrie. Door meer rekening te houden met de context in de relatie tussen de geciteerde en geciteerde publicaties kan de impact subtieler en genuanceerder worden gemeten. Ryan Whalen bekijkt de verschillende manieren waarop wetenschappelijke inhoud met elkaar in verband wordt gebracht, en hoe deze relaties verder kunnen worden verkend om metingen van wetenschappelijke impact te verbeteren.
Het samenbrengen van bibliometrisch onderzoek uit verschillende disciplines – wat kunnen we van elkaar leren?
Tegenwoordig is er weinig uitwisseling tussen de verschillende gemeenschappen die geïnteresseerd zijn in het domein van de bibliometrie. Peter Kraker, Katrin Weller, Isabella Peters en Elisabeth Lex brengen verslag uit over de veelheid van onderwerpen en standpunten die aan bod kwamen over de kwantitatieve analyse van wetenschappelijk onderzoek. Een belangrijk thema was de sterke behoefte aan meer openheid en transparantie: transparantie in onderzoeksevaluatieprocessen om vooroordelen te vermijden, transparantie van algoritmen die nieuwe scores berekenen en openheid van nuttige technologie.
Geef een antwoord