Der ResearchGate Score: ein gutes Beispiel für eine schlechte Metrik
On Dezember 6, 2021 by adminDer ResearchGate Score ist laut ResearchGate, der akademischen Social-Networking-Website, „ein neuer Weg, Ihren wissenschaftlichen Ruf zu messen“. Angesichts solch hochgesteckter Ziele haben Peter Kraker, Katy Jordan und Elisabeth Lex die undurchsichtige Kennzahl genauer unter die Lupe genommen. Durch Reverse Engineering des Scores finden sie heraus, dass ein erhebliches Gewicht mit „Impact Points“ verbunden ist – eine ähnliche Metrik wie der weithin diskreditierte Impact Factor für Zeitschriften. Nur durch die Transparenz von Metriken können wissenschaftliche Maßnahmen in einen Kontext gestellt und Verzerrungen aufgedeckt werden, die allen gesellschaftlich geschaffenen Metriken innewohnen.
Das 2008 gestartete ResearchGate war eines der ersten akademischen sozialen Netzwerke im Internet. Im Mittelpunkt der Plattform stehen Forschungsarbeiten, ein Frage- und Antwortsystem und eine Jobbörse. Forscher können ein Profil erstellen, in dem sie ihre Veröffentlichungen und ihr akademisches Fachwissen vorstellen. Andere Nutzer können dann diesen Profilen folgen und werden über alle Aktualisierungen informiert. In den letzten Jahren hat ResearchGate seine Plattform verstärkt per E-Mail beworben. In den Standardeinstellungen versendet ResearchGate zwischen 4 und 10 E-Mails pro Woche, je nach Aktivität in Ihrem Netzwerk. Die hohe Anzahl von Nachrichten erweist sich für ResearchGate als sehr erfolgreich: Laut einer Studie von Nature aus dem Jahr 2014 ist ResearchGate das bekannteste soziale Netzwerk unter Forschern; 35 % der befragten Forscher geben an, dass sie sich bei ResearchGate angemeldet haben, „weil sie eine E-Mail erhalten haben“. Es mag nicht überraschen, dass diese Strategie inzwischen von vielen Konkurrenten von ResearchGate übernommen wurde, darunter Academia.edu und Mendeley.
Einer der Schwerpunkte in den E-Mails von ResearchGate ist der aktuelle ResearchGate Score (RG Score) eines Forschers. Der RG Score wird wöchentlich aktualisiert und ist eine einzelne Zahl, die dem Profil eines Forschers zugeordnet ist. Laut ResearchGate umfasst der Score die Forschungsergebnisse, die Sie auf der Plattform teilen, Ihre Interaktionen mit anderen Mitgliedern und den Ruf Ihrer Kollegen (d. h. er berücksichtigt Veröffentlichungen, Fragen, Antworten und Follower). Der RG-Score wird auf jedem Profil neben den grundlegenden Informationen über einen Forscher angezeigt. ResearchGate hat beträchtliche finanzielle Unterstützung von Risikokapitalgebern und Bill Gates erhalten, aber es ist nicht klar, wie die Plattform Einnahmen generieren wird; die Möglichkeit, dass der Score mit einem finanziellen Wert verbunden ist, sollte weiter untersucht und kritisch bewertet werden.
Bildnachweis: Blackbox public domain
Die Ergebnisse unserer Bewertung des RG-Scores waren eher entmutigend: Es gibt zwar einige innovative Ideen in der Art und Weise, wie ResearchGate an die Messung herangegangen ist, aber wir haben auch festgestellt, dass der RG-Score eine Reihe grundlegender bibliometrischer Richtlinien ignoriert und dass ResearchGate grundlegende Fehler in der Art und Weise macht, wie der Score berechnet wird. Wir halten diese Mängel für so problematisch, dass der RG Score in seiner jetzigen Form nicht als Maß für die wissenschaftliche Reputation betrachtet werden sollte. Das Maß kommt mit kühnen Behauptungen daher: Laut der Website ist der RG Score „ein neuer Weg, Ihre wissenschaftliche Reputation zu messen“; er wurde entwickelt, um „Ihnen zu helfen, Ihr Ansehen innerhalb der wissenschaftlichen Gemeinschaft zu messen und zu nutzen“. Angesichts solch hochgesteckter Ziele schien es angebracht, den RG Score genauer unter die Lupe zu nehmen und seine Eignung als Maß für die wissenschaftliche Reputation zu bewerten. Wir haben unsere Bewertung auf der Grundlage etablierter bibliometrischer Richtlinien für Forschungsmetriken und einer empirischen Analyse des Scores vorgenommen. Die Ergebnisse wurden auf einem kürzlich abgehaltenen Workshop zur Analyse und Quantifizierung wissenschaftlicher Kommunikation im Web (ASCW’15 – einleitender Beitrag hier) in einem Positionspapier und der dazugehörigen Diskussion vorgestellt.
Intransparenz und Irreproduzierbarkeit im Zeitverlauf
Eines der offensichtlichsten Probleme des RG Score ist seine Intransparenz. ResearchGate präsentiert seinen Nutzern zwar eine Aufschlüsselung der einzelnen Bestandteile des Scores, d.h. Publikationen, Fragen, Antworten, Follower (auch als Tortendiagramm dargestellt), und inwieweit diese Bestandteile zu Ihrem Score beitragen. Leider reichen diese Informationen nicht aus, um den eigenen Punktestand zu reproduzieren. Dazu müsste man die genauen Messgrößen und den Algorithmus kennen, der zur Berechnung der Punktzahl verwendet wird. Diese Elemente sind jedoch unbekannt.
ResearchGate schafft somit eine Art Blackbox-Bewertungsmaschine, die Forscher im Unklaren darüber lässt, welche Handlungen bei der Messung ihrer Reputation berücksichtigt werden. Ein Beispiel dafür sind die vielen Fragen im ResearchGate-eigenen Frage- und Antwortsystem zur genauen Berechnung des RG-Scores. In der Bibliometrie-Gemeinschaft herrscht die Ansicht vor, dass Transparenz und Offenheit wichtige Merkmale jeder Metrik sind. Einer der Grundsätze des Leidener Manifests lautet zum Beispiel: „Datenerhebung und Analyseverfahren offen, transparent und einfach halten“, und weiter heißt es: „Für neue kommerzielle Anbieter sollten die gleichen Standards gelten; niemand sollte eine Blackbox-Bewertungsmaschine akzeptieren.“ Transparenz ist die einzige Möglichkeit, Maßnahmen in einen Kontext zu stellen und Verzerrungen aufzudecken, die allen von der Gesellschaft geschaffenen Messgrößen innewohnen. Darüber hinaus macht es Intransparenz Außenstehenden sehr schwer, den Missbrauch des Systems zu erkennen. In ResearchGate beispielsweise können Beiträge anderer (d. h. Fragen und Antworten) anonym heruntergestuft werden. Die anonyme Herabstufung wurde in der Vergangenheit kritisiert, da sie oft ohne Erklärung erfolgt. Daher haben Online-Netzwerke wie Reddit damit begonnen, die Herabstufungen zu mäßigen.
Der Algorithmus zur Berechnung des RG-Scores ändert sich im Laufe der Zeit. Das ist an sich nicht unbedingt eine schlechte Sache. Im Leidener Manifest heißt es, dass Metriken regelmäßig überprüft und bei Bedarf aktualisiert werden sollten. Auch ResearchGate macht keinen Hehl daraus, dass es seinen Algorithmus und die berücksichtigten Datenquellen im Laufe der Zeit ändert. Das Problem bei der Art und Weise, wie ResearchGate diesen Prozess handhabt, ist, dass er nicht transparent ist und dass es keine Möglichkeit gibt, ihn nachzuvollziehen. Das macht es unmöglich, den RG-Score im Laufe der Zeit zu vergleichen, was seine Nützlichkeit weiter einschränkt.
Als Beispiel haben wir Peters RG-Score von August 2012 bis April 2015 aufgezeichnet. Zwischen August 2012, als der Score eingeführt wurde, und November 2012 fiel sein Score von einem anfänglichen Wert von 4,76 im August 2012 auf 0,02. Danach stieg er allmählich auf 1,03 im Dezember 2012, wo er bis September 2013 blieb. Es ist anzumerken, dass Peters Verhalten auf der Plattform in diesem Zeitraum relativ stabil war. Er hat keine Forschungsarbeiten von der Plattform entfernt oder anderen Forschern nicht gefolgt. Was ist also in diesem Zeitraum passiert? Die plausibelste Erklärung ist, dass ResearchGate den Algorithmus angepasst hat – aber ohne Hinweise darauf, warum und wie das geschehen ist, lässt es den Forscher im Ungewissen. Im Leidener Manifest gibt es einen festen Grundsatz gegen diese Praxis: „
Ein Versuch, den ResearchGate Score zu reproduzieren
Um mehr über die Zusammensetzung des RG Score zu erfahren, haben wir versucht, den Score zurückzuentwickeln. Es gibt mehrere Profilinformationen, die potenziell zum Score beitragen könnten; zum Zeitpunkt der Analyse waren dies „Impact Points“ (berechnet anhand der Impact-Faktoren der Zeitschriften, in denen eine Person veröffentlicht hat), „Downloads“, „Views“, „Questions“, „Answers“, „Followers“ und „Following“. Betrachtet man die Kuchendiagramme der Aufschlüsselung des RG-Scores, so kann man davon ausgehen, dass die Wissenschaftler, die einen RG-Score in ihrem Profil haben, mehrere Untergruppen umfassen:
- diejenigen, deren Score nur auf ihren Veröffentlichungen basiert;
- Scores, die auf Frage- und Antwort-Aktivitäten basieren;
- Scores, die auf Followern und Followerschaft basieren;
- und Scores, die auf einer Kombination aus allen drei basieren.
Für unsere erste Analyse konzentrierten wir uns auf die erste Gruppe: Wir erstellten eine kleine Stichprobe von Wissenschaftlern (30), die einen RG-Score und nur eine einzige Veröffentlichung in ihrem Profil haben. Dabei zeigte sich eine starke Korrelation zwischen den Impact Points (bei Wissenschaftlern, die nur eine einzige Veröffentlichung haben, ist dies einfach der Journal Impact Factor (JIF) der Zeitschrift, in der diese Veröffentlichung erschienen ist). Interessanterweise ist die Korrelation nicht linear, sondern logarithmisch. Warum ResearchGate die „Impact-Punkte“ auf diese Weise umrechnet, ist nicht klar. Die Verwendung des natürlichen Logarithmus der Impact-Punkte hat zur Folge, dass die Erträge derjenigen mit den höchsten Impact-Punkten abnehmen, so dass man vermuten könnte, dass der natürliche Logarithmus verwendet wird, um weniger erfahrene Wissenschaftler zu ermutigen.
Wir haben dann die Stichprobe erweitert, um Beispiele von zwei weiteren Gruppen von Wissenschaftlern aufzunehmen: 30 Wissenschaftler, die einen RG-Score und mehrere Veröffentlichungen haben; und weitere 30 wurden hinzugefügt, die einen RG-Score und mehrere Veröffentlichungen haben und mindestens eine Frage und Antwort veröffentlicht haben. Eine multiple Regressionsanalyse ergab, dass der RG-Score signifikant durch eine Kombination aus der Anzahl der Ansichten, den natürlichen Logarithmen der Impact-Punkte, den veröffentlichten Antworten und der Anzahl der Veröffentlichungen vorhergesagt wurde. Impact-Punkte erwiesen sich als sehr relevant; zumindest für diese Sondierungsstichprobe machten Impact-Punkte einen großen Teil der Variation in den Daten aus (68 %).
Einbeziehung des Journal Impact Factor zur Bewertung einzelner Forscher
Unsere Analyse zeigt, dass der RG Score den Journal Impact Factor zur Bewertung einzelner Forscher einbezieht. Der JIF wurde jedoch nicht eingeführt, um einzelne Forscher zu bewerten, sondern um Bibliotheken bei ihren Kaufentscheidungen für Zeitschriften zu unterstützen. Im Laufe der Jahre wurde er auch zur Bewertung einzelner Forscher verwendet. Es gibt jedoch viele gute Gründe, warum dies eine schlechte Praxis ist. Zum einen ist die Verteilung der Zitate innerhalb einer Zeitschrift stark verzerrt; eine Studie ergab, dass Artikel in der am häufigsten zitierten Hälfte einer Zeitschrift zehnmal häufiger zitiert wurden als Artikel in der am wenigsten zitierten Hälfte. Da der JIF auf der durchschnittlichen Zahl der Zitate basiert, kann ein einziger Artikel mit einer hohen Zahl von Zitaten die Kennzahl erheblich verzerren.
Darüber hinaus hat die Korrelation zwischen dem JIF und den einzelnen Artikelzitaten seit den 1990er Jahren stetig abgenommen, was bedeutet, dass er immer weniger über einzelne Artikel aussagt. Darüber hinaus ist der JIF nur für Zeitschriften verfügbar; er kann daher nicht zur Bewertung von Bereichen herangezogen werden, die andere Kommunikationsformen bevorzugen, wie die Informatik (Konferenzbeiträge) oder die Geisteswissenschaften (Bücher). Aber selbst in Disziplinen, die in Zeitschriften kommunizieren, gibt es große Schwankungen bei der durchschnittlichen Zahl der Zitate, die im JIF nicht berücksichtigt werden. Infolgedessen ist der JIF bei der Bewertung von Zeitschriften eher problematisch; bei Einzelbeiträgen ist er sogar noch fragwürdiger.
In dieser Frage besteht unter den Forschern ein breiter Konsens: Die San Francisco Declaration of Research Assessment (DORA), die sich gegen die Verwendung des Journal Impact Factor zur Bewertung einzelner Forscher ausspricht, hat zum Zeitpunkt der Erstellung dieses Berichts mehr als 12 300 Unterschriften gesammelt. Es erscheint rätselhaft, dass ein Score, der behauptet, „ein neuer Weg zur Messung des wissenschaftlichen Ansehens“ zu sein, auf diese Weise untergehen würde.
Schlusswort
Der RG-Score enthält eine Reihe interessanter Ideen: Die Einbeziehung von anderen Forschungsergebnissen als Papers (z. B. Daten, Folien) ist definitiv ein Schritt in die richtige Richtung, und die Idee, Interaktionen bei der Bewertung des akademischen Ansehens zu berücksichtigen, hat einige Vorzüge. Es besteht jedoch eine Diskrepanz zwischen dem Ziel des RG-Score und der Nutzung der Website in der Praxis. Es gibt Hinweise darauf, dass Akademiker, die ResearchGate nutzen, es eher als Online-Visitenkarte oder Lebenslauf betrachten und nicht als eine Website für aktive Interaktion mit anderen. Darüber hinaus berücksichtigt der Score keine Aktivitäten, die außerhalb von ResearchGate stattfinden; beispielsweise wird auf Twitter häufiger aktiv über Forschung diskutiert.
Die umfangreiche Verwendung des RG-Score in Marketing-E-Mails deutet darauf hin, dass er als Marketinginstrument gedacht war, um mehr Besucher auf die Website zu bringen. Auch wenn es in dieser Hinsicht erfolgreich war, haben wir mehrere kritische Probleme mit dem RG Score gefunden, die behoben werden müssen, bevor er als seriöse Kennzahl angesehen werden kann.
ResearchGate scheint auf die Kritik am RG Score reagiert zu haben. Im September führten sie eine neue Metrik namens „Reads“ ein. „Reads“, definiert als die Summe der Aufrufe und Downloads der Arbeiten eines Forschers, steht nun im Mittelpunkt der E-Mails, und die Kennzahl wird im Profil eines Forschers an prominenter Stelle angezeigt. Gleichzeitig hat ResearchGate beschlossen, die Punktzahl beizubehalten, wenn auch in geringerem Umfang. Er wird nach wie vor in jedem Profil angezeigt und wird auch als zusätzliche Information in vielen Funktionen der Website verwendet, z. B. in den Empfehlungen.
Abschließend sollte darauf hingewiesen werden, dass der RG-Score nicht die einzige schlechte Kennzahl ist. Da Metriken in der Forschungsbewertung allgegenwärtig sind, wie der jüngste HEFCE-Bericht „The Metric Tide“ zeigt, werden noch viele weitere formuliert werden. Angesichts dieser Entwicklungen wird es für uns Bibliometrieforscher noch wichtiger, unsere Interessengruppen (wie z. B. Fördereinrichtungen und Hochschulverwaltungen) über die Probleme mit einzelnen Metriken zu informieren. Wenn Sie also Bedenken gegen eine bestimmte Metrik haben, zögern Sie nicht, sie mit uns zu teilen, darüber zu schreiben – oder sie sogar für den Bad Metric Preis zu nominieren.
Hinweis: Dieser Artikel gibt die Meinung des Autors wieder und nicht die des LSE Impact Blogs oder der London School of Economics. Bitte lesen Sie unsere Kommentarrichtlinie, wenn Sie Bedenken haben, einen Kommentar zu schreiben.
Über die Autoren
Peter Kraker ist Postdoc am Know-Center der Technischen Universität Graz und Panton Fellow 2013/14. Seine Forschungsschwerpunkte sind Visualisierungen basierend auf wissenschaftlicher Kommunikation im Web, Open Science und Altmetrics. Peter ist ein Verfechter der offenen Wissenschaft und arbeitet mit der Open Knowledge Foundation und dem Open Access Network Austria zusammen.
Katy Jordan ist Doktorandin am Institute of Educational Technology an der Open University, UK. Ihre Forschungsinteressen konzentrieren sich auf die Schnittstelle zwischen dem Internet und der Hochschulbildung. Neben ihrer Doktorarbeit über akademische Social-Networking-Sites hat sie auch Forschungsarbeiten über Massive Open Online Courses (MOOCs) und semantische Webtechnologien für die Bildung veröffentlicht.
Elisabeth Lex ist Assistenzprofessorin an der Technischen Universität Graz und leitet den Forschungsbereich Social Computing der Know-Center GmbH. In ihrer Forschung untersucht sie, wie digitale Spuren, die Menschen im Web hinterlassen, genutzt werden können, um die Art und Weise, wie Menschen arbeiten, lernen und interagieren, zu modellieren und zu gestalten. An der Technischen Universität Graz unterrichtet Elisabeth sowohl Web Science als auch Science 2.0.
Dies ist Teil einer Serie von Beiträgen aus dem Workshop Quantifying and Analysing Scholarly Communication on the Web. Mehr aus dieser Serie:
Wir brauchen aussagekräftige Metriken, die dem wissenschaftlichen Bestreben helfen und nicht schaden – arbeiten wir daran, die Metriken zu verbessern.
Anstatt zu erwarten, dass die Menschen aufhören, Metriken zu verwenden, sollten wir uns lieber darauf konzentrieren, sicherzustellen, dass die Metriken effektiv und genau sind, argumentiert Brett Buttliere. Durch die Betrachtung einer Vielzahl von Indikatoren, die Unterstützung einer zentralen, interoperablen Metrik-Drehscheibe und die Verwendung von mehr Theorie bei der Erstellung von Metriken können Wissenschaftler die verschiedenen Facetten von Forschungsauswirkungen und Forschungsqualität besser verstehen.
Kontext ist alles: Plädoyer für nuanciertere Zitationsauswirkungsmessungen.
Der Zugang zu immer mehr Publikations- und Zitationsdaten bietet das Potenzial für aussagekräftigere Wirkungsmessungen als die traditionelle Bibliometrie. Eine stärkere Berücksichtigung des Kontextes in der Beziehung zwischen den zitierten und den zitierten Veröffentlichungen könnte eine subtilere und differenziertere Wirkungsmessung ermöglichen. Ryan Whalen untersucht die verschiedenen Arten, wie wissenschaftliche Inhalte miteinander in Beziehung stehen, und wie diese Beziehungen weiter erforscht werden könnten, um die Messung des wissenschaftlichen Einflusses zu verbessern.
Zusammenführung bibliometrischer Forschung aus verschiedenen Disziplinen – was können wir voneinander lernen?
Zurzeit gibt es wenig Austausch zwischen den verschiedenen Gemeinschaften, die sich für den Bereich der Bibliometrie interessieren. Peter Kraker, Katrin Weller, Isabella Peters und Elisabeth Lex berichten über die Vielzahl der Themen und Standpunkte, die zur quantitativen Analyse wissenschaftlicher Forschung behandelt wurden. Ein Schlüsselthema war der dringende Bedarf an mehr Offenheit und Transparenz: Transparenz in den Prozessen der Forschungsbewertung, um Verzerrungen zu vermeiden, Transparenz der Algorithmen, die neue Werte berechnen, und Offenheit der nützlichen Technologie.
Schreibe einen Kommentar