The ResearchGate Score: ett bra exempel på ett dåligt mått
On december 6, 2021 by adminEnligt ResearchGate, det akademiska sociala nätverket, är deras RG Score ”ett nytt sätt att mäta ditt vetenskapliga rykte”. Med så höga mål tar Peter Kraker, Katy Jordan och Elisabeth Lex en närmare titt på det ogenomskinliga måttet. Genom att omvända poängen finner de att en betydande vikt är kopplad till ”effektpoäng” – ett liknande mått som den allmänt misskrediterade tidskriftsfaktorn Impact Factor. Öppenhet i mätvärden är det enda sättet att sätta vetenskapliga mått i ett sammanhang och det enda sättet att avslöja fördomar – som är inneboende i alla socialt skapade mätvärden.
RearchGate, som lanserades 2008, var ett av de första akademiska sociala nätverken på webben. Plattformen kretsar kring forskningsrapporter, ett fråge- och svarssystem och en platsannons. Forskare kan skapa en profil som visar upp sina publikationer och sin akademiska expertis. Andra användare kan sedan följa dessa profiler och får information om eventuella uppdateringar. Under de senaste åren har ResearchGate blivit mer aggressivt när det gäller att marknadsföra sin plattform via e-post. Med standardinställningar skickar ResearchGate mellan 4 och 10 e-postmeddelanden per vecka, beroende på aktiviteten i ditt nätverk. Det stora antalet meddelanden visar sig vara mycket framgångsrikt för ResearchGate: enligt en undersökning av Nature från 2014 är ResearchGate det mest kända sociala nätverket bland forskare. 35 % av de tillfrågade forskarna säger att de registrerade sig på ResearchGate ”för att de fick ett e-postmeddelande”. Det kommer kanske inte som någon överraskning att denna strategi sedan dess har antagits av många av ResearchGates konkurrenter, däribland Academia.edu och Mendeley.
En av de viktigaste punkterna i ResearchGates e-postmeddelanden är en forskares senaste ResearchGate-poäng (RG-poäng). RG-poängen, som uppdateras varje vecka, är en enda siffra som är knuten till en forskares profil. Enligt ResearchGate omfattar poängen de forskningsresultat som du delar med dig av på plattformen, dina interaktioner med andra medlemmar och dina kollegers rykte (dvs. det tar hänsyn till publikationer, frågor, svar och följare). RG-poängen visas på varje profil tillsammans med den grundläggande informationen om en forskare. ResearchGate har fått betydande finansiellt stöd från riskkapitalister och Bill Gates, men det är oklart hur plattformen kommer att generera intäkter; möjligheten att poängen kopplas till ekonomiskt värde motiverar ytterligare utforskning och kritisk bedömning.
Bildkredit: Blackbox public domain
Resultaten av vår utvärdering av RG-poängen var ganska nedslående: även om det finns en del innovativa idéer i det sätt på vilket ResearchGate närmade sig måttet, fann vi också att RG-poängen ignorerar ett antal grundläggande bibliometriska riktlinjer och att ResearchGate gör grundläggande misstag i det sätt på vilket poängen beräknas. Vi anser att dessa brister är så problematiska att RG Score inte bör betraktas som ett mått på vetenskapligt anseende i sin nuvarande form. måttet kommer med djärva uttalanden: enligt webbplatsen är RG Score ”ett nytt sätt att mäta ditt vetenskapliga anseende”; det har utformats för att ”hjälpa dig att mäta och utnyttja din ställning inom det vetenskapliga samfundet”. Med så höga målsättningar verkade det lämpligt att ta en närmare titt på RG Score och utvärdera dess kapacitet som ett mått på vetenskapligt rykte. Vi baserade vår utvärdering på väletablerade bibliometriska riktlinjer för forskningsmått och en empirisk analys av poängen. Resultaten presenterades vid en workshop nyligen om analys och kvantifiering av vetenskaplig kommunikation på webben (ASCW’15 – inledande inlägg här) i ett positionspapper och dess diskussion.
Intransparens och irreproducerbarhet över tid
Ett av de mest uppenbara problemen med RG Score är att det är oöverskådligt. ResearchGate presenterar för sina användare en uppdelning av de enskilda delarna av poängen, dvs. publikationer, frågor, svar och följare (visas också som ett cirkeldiagram), och i vilken utsträckning dessa delar bidrar till din poäng. Tyvärr är det inte tillräckligt med information för att reproducera sin egen poäng. För det skulle man behöva känna till de exakta mått som används samt den algoritm som används för att beräkna poängen. Dessa delar är dock okända.
ResearchGate skapar alltså ett slags utvärderingsmaskin med svart låda som låter forskarna gissa vilka åtgärder som beaktas när deras rykte mäts. Detta exemplifieras av de många frågor i ResearchGates eget fråge- och svarssystem som rör den exakta beräkningen av RG-poängen. Det finns en utbredd åsikt inom bibliometrin att insyn och öppenhet är viktiga egenskaper hos alla mätmetoder. En av principerna i Leidenmanifestet säger till exempel följande: ”Håll datainsamlingen och analysprocesserna öppna, transparenta och enkla”, och fortsätter: ”Nyligen tillkomna kommersiella aktörer bör hållas till samma standarder; ingen bör acceptera en utvärderingsmaskin med svart låda”. Öppenhet är det enda sättet att sätta mätningar i ett sammanhang och det enda sättet att avslöja bias – som är inneboende i alla socialt skapade mätningar. Dessutom gör intransparens det mycket svårt för utomstående att upptäcka att systemet manipuleras. I ResearchGate till exempel kan andras bidrag (dvs. frågor och svar) anonymt nedröstas. Anonym nedröstning har tidigare kritiserats eftersom den ofta sker utan förklaring. Därför har onlinenätverk som Reddit börjat moderera downvotes.
För att ytterligare fördunkla bilden förändras den algoritm som används för att beräkna RG-poängen med tiden. Det i sig är inte nödvändigtvis något dåligt. I Leidenmanifestet står det att mätvärden bör granskas regelbundet och uppdateras vid behov. ResearchGate döljer inte heller att man ändrar sin algoritm och de datakällor som beaktas längs vägen. Problemet med det sätt på vilket ResearchGate hanterar denna process är att den inte är transparent och att det inte finns något sätt att rekonstruera den. Detta gör det omöjligt att jämföra RG-poängen över tid, vilket ytterligare begränsar dess användbarhet.
Som exempel har vi plottat Peters RG-poäng från augusti 2012 till april 2015. Mellan augusti 2012, då poängen infördes, och november 2012 sjönk hans poäng från 4,76 i augusti 2012 till 0,02. Det ökade sedan gradvis till 1,03 i december 2012 och stannade där fram till september 2013. Det bör noteras att Peters beteende på plattformen har varit relativt stabilt under denna tidsperiod. Han har inte tagit bort forskningsresultat från plattformen och har inte följt andra forskare. Vad hände då under denna tidsperiod? Den mest troliga förklaringen är att ResearchGate justerade algoritmen – men utan några antydningar om varför och hur det har hänt lämnar det forskaren i gissning. I Leidenmanifestet finns det en fast princip mot denna praxis: ”Låt de utvärderade verifiera data och analyser”.
Ett försök att återskapa ResearchGate-poängen
För att lära oss mer om hur RG-poängen är sammansatta, försökte vi att bakåtkompilera poängen. Det finns flera delar av profilinformationen som potentiellt kan bidra till poängen; vid tidpunkten för analysen omfattade dessa ”impact points” (beräknat med hjälp av impact factors för de tidskrifter som en person har publicerat sig i), ”downloads”, ”views”, ”questions”, ”answers”, ”followers” och ”following”. Om man tittar på cirkeldiagrammen över fördelningen av RG-poäng kan man därför tänka sig att akademiker som har ett RG-poäng på sin profil omfattar flera undergrupper:
- De vars poäng endast baseras på deras publikationer;
- Poäng som baseras på aktivitet med frågor och svar;
- Poäng som baseras på följare och följeslagare;
- och poäng som baseras på en kombination av någon av de tre.
För vår inledande analys fokuserade vi på den första gruppen: vi konstruerade ett litet urval av akademiker (30), som har ett RG-poäng och endast en enda publikation på sin profil . Detta avslöjade en stark korrelation mellan impact points (som för en akademiker med en enda publikation helt enkelt är Journal Impact Factor (JIF) för den publikationens tidskrift). Intressant nog är korrelationen inte linjär utan logaritmisk. Varför ResearchGate väljer att omvandla ”impact points” på detta sätt är oklart. Om man använder den naturliga logaritmen för impact points kommer det att leda till minskad avkastning för dem med de högsta impact points, så man kan spekulera i att den naturliga logaritmen används för att uppmuntra mindre erfarna akademiker.
Vi utökade sedan urvalet för att inkludera exempel från ytterligare två grupper av akademiker: 30 akademiker som har ett RG-poäng och flera publikationer, och ytterligare 30 lades till som har ett RG-poäng, flera publikationer och som har publicerat minst en fråga och ett svar. En multipel regressionsanalys visade att RG Score på ett signifikant sätt förutspåddes av en kombination av antal visningar, naturliga logaritmer av effektpoäng, publicerade svar och antal publikationer. Impact points visade sig vara mycket relevanta; åtminstone för detta explorativa urval stod impact points för en stor del av variationen i uppgifterna (68 %).
Incorporating the Journal Impact Factor to evaluate individual researchers
Vår analys visar att RG Score inkorporerar Journal Impact Factor för att utvärdera enskilda forskare. JIF infördes dock inte som ett mått för att utvärdera individer, utan som ett mått för att vägleda bibliotekens beslut om inköp av tidskrifter. Under årens lopp har den också använts för att utvärdera enskilda forskare. Men det finns många goda skäl till varför detta är en dålig metod. För det första är fördelningen av citeringar inom en tidskrift mycket skev; en studie visade att artiklar i den mest citerade halvan av artiklarna i en tidskrift citerades 10 gånger oftare än artiklar i den minst citerade halvan. Eftersom JIF baseras på det genomsnittliga antalet citeringar kan en enskild artikel med ett högt antal citeringar därför kraftigt snedvrida måttet.
Det är dessutom så att korrelationen mellan JIF och enskilda citeringar av artiklar har minskat stadigt sedan 1990-talet, vilket innebär att det säger allt mindre om enskilda artiklar. Dessutom finns JIF endast tillgängligt för tidskrifter; det kan därför inte användas för att utvärdera områden som gynnar andra former av kommunikation, t.ex. datavetenskap (konferensbidrag) eller humaniora (böcker). Men även inom discipliner som kommunicerar i tidskrifter finns det en stor variation i det genomsnittliga antalet citeringar som inte beaktas i JIF. Därför är JIF ganska problematisk när man utvärderar tidskrifter; när det gäller enskilda bidrag är den ännu mer tvivelaktig.
Det finns ett brett samförstånd bland forskare i denna fråga: San Francisco Declaration of Research Assessment (DORA), som avråder från att använda Journal Impact Factor för att utvärdera enskilda forskare, har i skrivande stund samlat mer än 12 300 undertecknare. Det verkar förbryllande att ett resultat som påstås vara ”ett nytt sätt att mäta ditt vetenskapliga rykte” skulle gå till så.
Slutord
Det finns ett antal intressanta idéer i RG-poängen: att inkludera andra forskningsresultat än artiklar (t.ex. data, diabilder) är definitivt ett steg i rätt riktning, och idén om att ta hänsyn till samverkan när man tänker på akademiskt rykte har en del förtjänster. Det finns dock en obalans mellan målet med RG Score och användningen av webbplatsen i praktiken. Det finns tecken som tyder på att akademiker som använder ResearchGate tenderar att se det som ett visitkort eller en meritförteckning på nätet, snarare än en webbplats för aktiv interaktion med andra. Dessutom missar poängen all verksamhet som äger rum utanför ResearchGate; till exempel är Twitter oftare den plats där man aktivt diskuterar forskning.
Den omfattande användningen av RG-poängen i marknadsföringsmejl tyder på att det var tänkt att vara ett marknadsföringsverktyg som driver mer trafik till webbplatsen. Även om det kan ha lyckats i denna avdelning fann vi flera kritiska problem med RG Score, som måste åtgärdas innan det kan ses som ett seriöst mått.
ResearchGate verkar ha reagerat på kritiken kring RG Score. I september införde de ett nytt mått som heter ”Reads”. ”Reads”, som definieras som summan av visningar och nedladdningar av en forskares arbete, är nu huvudfokus i deras e-postmeddelanden och måttet visas tydligt i en forskares profil. Samtidigt har ResearchGate beslutat att behålla poängsättningen, om än i en mindre roll. Den visas fortfarande i varje profil och används också som ytterligare information i många av webbplatsens funktioner, t.ex. rekommendationer.
Slutligt bör det påpekas att RG-poängen inte är det enda dåliga måttet där ute. I och med att mätvärden blir allestädes närvarande i forskningsbedömningen, vilket framgår av HEFCE:s nyligen publicerade rapport ”The Metric Tide”, är vi beredda att få se många fler formuleringar. Med denna utveckling i åtanke blir det ännu viktigare för oss bibliometriforskare att informera våra intressenter (t.ex. finansieringsorgan och universitetsadministratörer) om problemen med enskilda mätvärden. Så om du har problem med ett visst mått, tveka inte att dela det med oss, skriva om det – eller till och med nominera det till priset Bad Metric.
Anm.: Den här artikeln ger upphovsmannens åsikter, och inte LSE Impact-bloggens eller London School of Economics’ ståndpunkt. Läs vår policy för kommentarer om du har några invändningar mot att publicera en kommentar nedan.
Om författarna
Peter Kraker är postdoktoral forskare vid Know-Center vid Graz tekniska universitet och Panton Fellow 2013/14. Hans huvudsakliga forskningsintressen är visualiseringar baserade på vetenskaplig kommunikation på webben, öppen vetenskap och altmetri. Peter är en förespråkare för öppen vetenskap och samarbetar med Open Knowledge Foundation och Open Access Network Austria.
Katy Jordan är doktorand vid Institute of Educational Technology vid The Open University i Storbritannien. Hennes forskningsintressen fokuserar på skärningspunkten mellan Internet och högre utbildning. Förutom sin doktorandforskning om akademiska sociala nätverkssajter har hon också publicerat forskning om Massive Open Online Courses (MOOC) och semantisk webbteknik för utbildning.
Elisabeth Lex är biträdande professor vid Graz tekniska universitet och leder forskningsområdet Social Computing vid Know-Center GmbH. I sin forskning utforskar hon hur digitala spår som människor lämnar efter sig på webben kan utnyttjas för att modellera och forma hur människor arbetar, lär sig och interagerar. Vid Graz tekniska universitet undervisar Elisabeth i webbvetenskap och vetenskap 2.0.
Detta är en del av en serie artiklar från workshopen Quantifying and Analysing Scholarly Communication on the Web. Mer från den här serien:
Vi behöver informativa mätvärden som hjälper, inte skadar, den vetenskapliga strävan – låt oss arbeta för att göra mätvärdena bättre.
Istället för att förvänta oss att folk ska sluta använda mätvärden helt och hållet är det bättre att vi fokuserar på att se till att mätvärdena är effektiva och korrekta, menar Brett Buttliere. Genom att titta på en mängd olika indikatorer, stödja en centraliserad, driftskompatibel metrikshubb och använda mer teori vid uppbyggnaden av metriker kan forskare bättre förstå de olika facetterna av forskningseffekt och forskningskvalitet.
Kontexten är allt: Att argumentera för mer nyanserade mått på citeringseffekt.
Tillgång till allt fler publikations- och citeringsdata ger möjlighet till kraftfullare effektmått än traditionell bibliometri. Att ta hänsyn till mer av sammanhanget i förhållandet mellan de citerande och citerade publikationerna skulle kunna ge mer subtila och nyanserade effektmätningar. Ryan Whalen tittar på de olika sätt på vilka vetenskapligt innehåll är relaterat och hur dessa relationer skulle kunna utforskas ytterligare för att förbättra mätningar av vetenskaplig påverkan.
Bringa samman bibliometrisk forskning från olika discipliner – vad kan vi lära oss av varandra?
För närvarande finns det lite utbyte mellan de olika samhällen som är intresserade av bibliometriens domän. Peter Kraker, Katrin Weller, Isabella Peters och Elisabeth Lex rapporterar om de många ämnen och synpunkter som behandlades när det gäller kvantitativ analys av vetenskaplig forskning. Ett huvudtema var det starka behovet av mer öppenhet och insyn: insyn i forskningsutvärderingsprocesser för att undvika fördomar, insyn i algoritmer som beräknar nya poäng och insyn i användbar teknik.
Lämna ett svar