Articles

The ResearchGate Score: et godt eksempel på en dårlig måleenhed

On december 6, 2021 by admin

Ifølge ResearchGate, det akademiske sociale netværkssite, er deres RG Score “en ny måde at måle dit videnskabelige omdømme på”. Med så høje mål tager Peter Kraker, Katy Jordan og Elisabeth Lex et nærmere kig på den uigennemsigtige måleenhed. Ved at lave reverse engineering af scoren finder de ud af, at en betydelig vægt er knyttet til “impact points” – en måleenhed, der svarer til den bredt miskrediterede journal impact factor. Gennemsigtighed i målinger er den eneste måde, hvorpå videnskabelige målinger kan sættes i sammenhæng, og den eneste måde, hvorpå skævheder – som er indbygget i alle socialt skabte målinger – kan afdækkes.

Lanceret i 2008 var ResearchGate et af de første akademiske sociale netværk på nettet. Platformen drejer sig om forskningsartikler, et spørgsmåls- og svarsystem og et jobboard. Forskere har mulighed for at oprette en profil, der viser deres publikationer og deres akademiske ekspertise. Andre brugere kan derefter følge disse profiler og får besked om eventuelle opdateringer. I de seneste år er ResearchGate blevet mere aggressiv i markedsføringen af sin platform via e-mail. I standardindstillingerne sender ResearchGate mellem 4 og 10 e-mails om ugen, afhængigt af aktiviteten i dit netværk. Det store antal meddelelser viser sig at være en stor succes for ResearchGate: Ifølge en undersøgelse fra Nature fra 2014 er ResearchGate det mest kendte sociale netværk blandt forskere. 35 % af de adspurgte forskere siger, at de har tilmeldt sig ResearchGate, “fordi de har modtaget en e-mail”. Det kommer måske ikke som nogen overraskelse, at denne strategi siden er blevet overtaget af mange af ResearchGates konkurrenter, herunder Academia.edu og Mendeley.

Et af de centrale punkter i ResearchGates e-mails er en forskers seneste ResearchGate Score (RG Score). RG-score, der opdateres ugentligt, er et enkelt tal, der er knyttet til en forskers profil. Ifølge ResearchGate omfatter scoren de forskningsresultater, som du deler på platformen, dine interaktioner med andre medlemmer og dine kollegers omdømme (dvs. den tager hensyn til publikationer, spørgsmål, svar og følgere). RG-score vises på hver profil sammen med de grundlæggende oplysninger om en forsker. ResearchGate har modtaget betydelig finansiel støtte fra venturekapitalister og Bill Gates, men det er ikke klart, hvordan platformen vil generere indtægter; muligheden for, at scoren er knyttet til finansiel værdi, kræver yderligere udforskning og kritisk vurdering.

Billedkredit: Blackbox public domain

Resultaterne af vores evaluering af RG Score var temmelig nedslående: Selv om der er nogle innovative ideer i den måde, ResearchGate har grebet målingen an på, fandt vi også, at RG Score ignorerer en række grundlæggende bibliometriske retningslinjer, og at ResearchGate begår grundlæggende fejl i den måde, som scoren beregnes på. Vi anser disse mangler for at være så problematiske, at RG Score ikke bør betragtes som et mål for videnskabeligt omdømme i sin nuværende form.Målingen kommer med dristige udsagn: Ifølge hjemmesiden er RG Score “en ny måde at måle dit videnskabelige omdømme på”; den er designet til at “hjælpe dig med at måle og udnytte din position inden for det videnskabelige samfund”. Med så høje mål syntes det at være på sin plads at se nærmere på RG Score og vurdere dens evne til at måle videnskabeligt omdømme. Vi baserede vores evaluering på veletablerede bibliometriske retningslinjer for forskningsmetrikker og en empirisk analyse af scoren. Resultaterne blev præsenteret på en nylig workshop om analyse og kvantificering af videnskabelig kommunikation på nettet (ASCW’15 – indledende indlæg her) i et positionspapir og dets diskussion.

Intransparens og ugennemskuelighed over tid

Et af de mest åbenlyse problemer ved RG Score er, at den er ugennemskueligt. ResearchGate præsenterer sine brugere for en opdeling af de enkelte dele af scoren, dvs. publikationer, spørgsmål, svar og followers (også vist som et cirkeldiagram), og i hvilket omfang disse dele bidrager til din score. Desværre er det ikke nok information til at reproducere ens egen score. Dertil skal man kende de nøjagtige mål, der anvendes, samt den algoritme, der anvendes til at beregne scoren. Disse elementer er imidlertid ukendte.

ResearchGate skaber således en slags black-box-evalueringsmaskine, der lader forskerne gætte på, hvilke handlinger der tages i betragtning, når deres omdømme måles. Dette eksemplificeres af de mange spørgsmål i ResearchGates eget spørgsmåls- og svarsystem, der vedrører den nøjagtige beregning af RG-score. Der er en udbredt opfattelse i bibliometri-fællesskabet, at gennemsigtighed og åbenhed er vigtige egenskaber ved enhver målemetrik. I et af principperne i Leiden-manifestet hedder det f.eks: “Hold dataindsamling og analyseprocesser åbne, gennemsigtige og enkle”, og det fortsætter: “Nyere kommercielle aktører bør holdes til de samme standarder; ingen bør acceptere en blackbox-evalueringsmaskine.” Gennemsigtighed er den eneste måde, hvorpå målinger kan sættes i sammenhæng, og den eneste måde, hvorpå skævheder – som er indbygget i alle socialt skabte målinger – kan afdækkes. Desuden gør uigennemsigtighed det meget svært for udenforstående at opdage, at systemet manipuleres. I ResearchGate kan andres bidrag (dvs. spørgsmål og svar) f.eks. anonymt nedvurderes. Anonym downvoting er tidligere blevet kritiseret, da det ofte sker uden forklaring. Derfor er online-netværk som Reddit begyndt at moderere downvotes.

For at gøre det hele endnu mere mudret ændrer den algoritme, der anvendes til at beregne RG-score, sig over tid. Det er i sig selv ikke nødvendigvis en dårlig ting. I Leiden-manifestet står der, at metrikker skal undersøges regelmæssigt og opdateres, hvis det er nødvendigt. ResearchGate lægger heller ikke skjul på, at det ændrer sin algoritme og de datakilder, der tages i betragtning, undervejs. Problemet med den måde, som ResearchGate håndterer denne proces på, er, at den ikke er gennemsigtig, og at der ikke er nogen måde at rekonstruere den på. Dette gør det umuligt at sammenligne RG-score over tid, hvilket yderligere begrænser dens anvendelighed.

Som et eksempel har vi plottet Peters RG-score fra august 2012 til april 2015. Mellem august 2012, hvor scoren blev indført, og november 2012 faldt hans score fra en oprindelig score på 4,76 i august 2012 til 0,02. Derefter steg den gradvist til 1,03 i december 2012, hvor den forblev indtil september 2013. Det skal bemærkes, at Peters adfærd på platformen har været relativt stabil i dette tidsrum. Han har ikke fjernet forskningsresultater fra platformen og har heller ikke fjernet andre forskere fra sin følgeskabskreds. Hvad skete der så i løbet af denne tidsramme? Den mest plausible forklaring er, at ResearchGate har justeret algoritmen – men uden nogen antydninger af hvorfor og hvordan det er sket, efterlader det forskeren i gætværk. I Leiden-manifestet er der et fast princip mod denne praksis: “Tillad de evaluerede at verificere data og analyser”.

Et forsøg på at reproducere ResearchGate-scoren

For at få mere at vide om sammensætningen af RG-scoren forsøgte vi at reverse engineere scoren. Der er flere profiloplysninger, som potentielt kan bidrage til scoren; på tidspunktet for analysen omfattede disse “impact points” (beregnet ved hjælp af impact factors for de tidsskrifter, som en person har publiceret i), “downloads”, “views”, “questions”, “answers”, “followers” og “following”. Når man ser på cirkeldiagrammerne over RG-scorefordelingerne, kan man derfor betragte akademikere, der har en RG-score på deres profil, som omfattende flere undergrupper:

de, hvis score kun er baseret på deres publikationer;
scorer baseret på spørgsmål og svar-aktivitet;
scorer baseret på følgere og følgere;
og scores baseret på en kombination af en af de tre.

For vores indledende analyse fokuserede vi på den første gruppe: Vi konstruerede en lille stikprøve af akademikere (30), som har en RG Score og kun en enkelt publikation på deres profil . Dette afslørede en stærk korrelation mellem impact points (som for en akademiker med en enkelt publikation blot er Journal Impact Factor (JIF) for denne ene publikations tidsskrift). Det er interessant, at sammenhængen ikke er lineær, men logaritmisk. Det er uklart, hvorfor ResearchGate vælger at omdanne “impact points” på denne måde. Anvendelse af den naturlige logaritme af impact points vil have den virkning, at de med de højeste impact points får et aftagende udbytte, så man kunne spekulere i, at den naturlige logaritme anvendes for at tilskynde mindre erfarne akademikere.

Vi udvidede derefter stikprøven til at omfatte eksempler fra yderligere to grupper af akademikere: 30 akademikere, der har en RG Score og flere publikationer; og der blev tilføjet yderligere 30 akademikere, der har en RG Score, flere publikationer og har offentliggjort mindst ét spørgsmål og svar. En multipel regressionsanalyse viste, at RG Score blev signifikant forudsagt af en kombination af antallet af visninger, naturlige logaritmer af effektpoint, indsendte svar og antallet af publikationer. Impact points viste sig at være meget relevante; i det mindste for denne sonderende stikprøve tegnede impact points sig for en stor del af variationen i dataene (68 %).

Inkorporering af Journal Impact Factor til at evaluere individuelle forskere

Vores analyse viser, at RG Score inkorporerer Journal Impact Factor til at evaluere individuelle forskere. JIF blev imidlertid ikke indført som en foranstaltning til at evaluere enkeltpersoner, men som en foranstaltning til at vejlede bibliotekernes beslutninger om indkøb af tidsskrifter. I årenes løb er den også blevet anvendt til at evaluere individuelle forskere. Men der er mange gode grunde til, at dette er en dårlig praksis. For det første er fordelingen af citater inden for et tidsskrift meget skæv; en undersøgelse viste, at artikler i den mest citerede halvdel af artiklerne i et tidsskrift blev citeret 10 gange oftere end artikler i den mindst citerede halvdel. Da JIF er baseret på det gennemsnitlige antal citater, kan en enkelt artikel med et højt antal citater derfor skævvride målingen betydeligt.

Dertil kommer, at korrelationen mellem JIF og individuelle citater til artikler har været støt faldende siden 1990’erne, hvilket betyder, at den siger mindre og mindre om de enkelte artikler. Desuden er JIF kun tilgængelig for tidsskrifter; den kan derfor ikke bruges til at evaluere områder, der favoriserer andre former for kommunikation, f.eks. datalogi (konferencebidrag) eller humaniora (bøger). Men selv inden for discipliner, der kommunikerer i tidsskrifter, er der en stor variation i det gennemsnitlige antal citater, som JIF ikke tager højde for. Derfor er JIF temmelig problematisk, når man vurderer tidsskrifter; når det drejer sig om enkeltbidrag, er den endnu mere tvivlsom.

Der er bred enighed blandt forskere om dette spørgsmål: San Francisco Declaration of Research Assessment (DORA), der fraråder brugen af Journal Impact Factor til vurdering af individuelle forskere, har i skrivende stund fået mere end 12 300 underskrivere. Det virker forbløffende, at en score, der hævder at være “en ny måde at måle dit videnskabelige omdømme på”, ville gå ned på den måde.

Slutord

Der er en række interessante idéer i RG Score: at inkludere andre forskningsresultater end artikler (f.eks. data, dias) er helt klart et skridt i den rigtige retning, og idéen om at tage hensyn til interaktioner, når man tænker på akademisk omdømme, har en vis berettigelse. Der er imidlertid et misforhold mellem målet med RG Score og brugen af webstedet i praksis. Der er tegn på, at akademikere, der bruger ResearchGate, har en tendens til at betragte det som et online visitkort eller et curriculum vitae snarere end som et websted for aktiv interaktion med andre. Desuden overser scoren alle aktiviteter, der finder sted uden for ResearchGate; f.eks. er Twitter oftere stedet, hvor man aktivt diskuterer forskning.

Den omfattende brug af RG-score i markedsføringsmails tyder på, at det var meningen, at den skulle være et markedsføringsredskab, der skulle skabe mere trafik til webstedet. Selv om det måske er lykkedes i denne afdeling, fandt vi flere kritiske problemer med RG Score, som skal løses, før det kan betragtes som en seriøs måleenhed.

ResearchGate synes at have reageret på kritikken omkring RG Score. I september introducerede de en ny metrik ved navn “Reads”. “Reads”, der defineres som summen af visninger og downloads af en forskers arbejde, er nu hovedfokus i deres e-mails, og metrikken er fremtrædende i en forskers profil. Samtidig har ResearchGate besluttet at beholde scoren, om end i en mindre rolle. Den vises stadig i hver profil, og den bruges også som en supplerende information i mange af webstedets funktioner, f.eks. anbefalinger.

Endeligt skal det påpeges, at RG Score ikke er den eneste dårlige metrik derude. I takt med at målinger bliver allestedsnærværende i forskningsvurderingen, som det fremgår af den nylige HEFCE-rapport “The Metric Tide”, er vi klar til at se formuleringen af mange flere. Med denne udvikling in mente bliver det endnu vigtigere for os bibliometriforskere at informere vores interessenter (f.eks. finansieringsorganer og universitetsadministratorer) om problemerne med de enkelte målinger. Så hvis du har problemer med en bestemt metrik, skal du ikke tøve med at dele den med os, skrive om den – eller endda nominere den til Bad Metric-prisen.

Note: Denne artikel giver forfatterens synspunkter og ikke LSE Impact-bloggens eller London School of Economics’ holdning. Læs venligst vores politik for kommentarer, hvis du har nogen betænkeligheder ved at skrive en kommentar nedenfor.

Om forfatterne

Peter Kraker er postdoc-forsker ved Know-Center of Graz University of Technology og Panton Fellow i 2013/14. Hans primære forskningsinteresser er visualiseringer baseret på videnskabelig kommunikation på nettet, åben videnskab og altmetri. Peter er fortaler for åben videnskab og samarbejder med Open Knowledge Foundation og Open Access Network Austria.

Katy Jordan er ph.d.-studerende ved Institute of Educational Technology på The Open University i Storbritannien. Hendes forskningsinteresser fokuserer på krydsfeltet mellem internettet og videregående uddannelse. Ud over sin ph.d.-forskning om akademiske sociale netværkssider har hun også offentliggjort forskning om Massive Open Online Courses (MOOC’er) og semantiske webteknologier til uddannelse.

Elisabeth Lex er assisterende professor ved Graz University of Technology og leder forskningsområdet Social Computing hos Know-Center GmbH. I sin forskning undersøger hun, hvordan digitale spor, som mennesker efterlader på nettet, kan udnyttes til at modellere og forme den måde, hvorpå mennesker arbejder, lærer og interagerer. På Graz University of Technology underviser Elisabeth i webvidenskab og Science 2.0.

Dette er en del af en række artikler fra workshoppen Quantifying and Analysing Scholarly Communication on the Web (kvantificering og analyse af videnskabelig kommunikation på nettet). Mere fra denne serie:

Vi har brug for informative målinger, der vil hjælpe og ikke skade den videnskabelige indsats – lad os arbejde på at gøre målingerne bedre.

I stedet for at forvente, at folk helt holder op med at bruge målinger, ville det være bedre at fokusere på at sikre, at målingerne er effektive og præcise, mener Brett Buttliere. Ved at se på tværs af en række indikatorer, støtte en centraliseret, interoperabel metrikhub og udnytte mere teori i opbygningen af metrikker kan forskerne bedre forstå de forskellige facetter af forskningseffekt og forskningskvalitet.

Context is everything: Making the case for more nuanced citation impact measures.

Access to more and more publication and citation data offers the potential for more powerful impact measures than traditional bibliometrics. Hvis der tages hensyn til en større del af konteksten i forholdet mellem de citerende og citerede publikationer, kan der opnås en mere subtil og nuanceret effektmåling. Ryan Whalen ser på de forskellige måder, hvorpå videnskabeligt indhold er relateret, og hvordan disse relationer kan udforskes yderligere for at forbedre målingerne af videnskabelig effekt.

Bringe bibliometrisk forskning fra forskellige discipliner sammen – hvad kan vi lære af hinanden?

I øjeblikket er der kun lidt udveksling mellem de forskellige samfund, der er interesseret i bibliometriens domæne. Peter Kraker, Katrin Weller, Isabella Peters og Elisabeth Lex rapporterer om de mange forskellige emner og synspunkter, der blev behandlet om kvantitativ analyse af videnskabelig forskning. Et centralt tema var det stærke behov for mere åbenhed og gennemsigtighed: gennemsigtighed i forskningsevalueringsprocesser for at undgå skævheder, gennemsigtighed i algoritmer, der beregner nye resultater, og åbenhed i forbindelse med nyttig teknologi.

Archives

Categories