The ResearchGate Score: a good example of a bad metric
On 6 grudnia, 2021 by adminWedług ResearchGate, akademickiego portalu społecznościowego, ich RG Score jest „nowym sposobem mierzenia twojej reputacji naukowej”. Mając tak wysokie cele, Peter Kraker, Katy Jordan i Elisabeth Lex przyglądają się bliżej tej nieprzejrzystej metryce. Poprzez inżynierię wsteczną odkrywają, że znaczna część wyniku jest powiązana z „punktami wpływu” – metryką podobną do szeroko dyskredytowanego współczynnika wpływu czasopism. Przejrzystość w metrykach jest jedynym sposobem, w jaki naukowe środki mogą być umieszczone w kontekście i jedynym sposobem stronniczości – które są nieodłączne we wszystkich społecznie tworzonych metrykach – mogą być odkryte.
Uruchomiony w 2008 roku, ResearchGate był jednym z wcześniejszych akademickich sieci społecznych w sieci. Platforma obraca się wokół prac badawczych, pytanie i system odpowiedzi, i tablicy pracy. Naukowcy są w stanie stworzyć profil, który pokazuje ich rekord publikacji i ich akademickiego doświadczenia. Inni użytkownicy mogą następnie śledzić te profile i są powiadamiani o wszelkich aktualizacjach. W ostatnich latach ResearchGate stał się bardziej agresywny w marketingu swojej platformy za pośrednictwem poczty elektronicznej. W ustawieniach domyślnych ResearchGate wysyła od 4 do 10 wiadomości e-mail tygodniowo, w zależności od aktywności w sieci użytkownika. Duża liczba wiadomości okazuje się być bardzo skuteczna dla ResearchGate: według badania Nature z 2014 roku, ResearchGate jest najbardziej znaną siecią społecznościową wśród naukowców; 35% badanych naukowców twierdzi, że zarejestrowało się w ResearchGate „ponieważ otrzymali e-mail”. Nie może dziwić, że ta strategia została od tego czasu przyjęta przez wielu konkurentów ResearchGate, w tym Academia.edu i Mendeley.
Jednym z centralnych punktów w e-mailach ResearchGate jest najnowszy wynik ResearchGate Score (RG Score) badacza. Uaktualniany co tydzień, RG Score jest pojedynczą liczbą, która jest dołączona do profilu badacza. Według ResearchGate, wynik obejmuje wyniki badań udostępniane na platformie, interakcje z innymi członkami oraz reputację rówieśników (tj. uwzględnia publikacje, pytania, odpowiedzi, zwolenników). Wynik RG Score jest wyświetlany na każdym profilu obok podstawowych informacji o naukowcu. ResearchGate otrzymał znaczne wsparcie finansowe od inwestorów venture capital i Billa Gatesa, ale nie jest jasne, w jaki sposób platforma będzie generować przychody; możliwość powiązania wyniku z wartością finansową wymaga dalszych badań i krytycznej oceny.
Image credit: Blackbox public domain
Wyniki naszej oceny RG Score były raczej zniechęcające: podczas gdy istnieją pewne innowacyjne pomysły w sposobie, w jaki ResearchGate podszedł do pomiaru, stwierdziliśmy również, że RG Score ignoruje szereg fundamentalnych wytycznych bibliometrycznych i że ResearchGate popełnia podstawowe błędy w sposobie obliczania wyniku. Uważamy, że te niedociągnięcia są na tyle problematyczne, że RG Score nie powinien być uważany za miarę reputacji naukowej w jego obecnej formie. Miara ta zawiera śmiałe stwierdzenia: według strony internetowej, RG Score jest „nowym sposobem na zmierzenie twojej reputacji naukowej”; został zaprojektowany, aby „pomóc ci zmierzyć i wykorzystać twoją pozycję w społeczności naukowej”. Mając tak wysokie cele, wydawało się właściwe, aby przyjrzeć się bliżej RG Score i ocenić jego możliwości jako miernika reputacji naukowej. Naszą ocenę oparliśmy na dobrze ugruntowanych wytycznych bibliometrycznych dla metryk badawczych oraz na empirycznej analizie wyniku. Wyniki zostały zaprezentowane na ostatnich warsztatach Analysing and Quantifying Scholarly Communication on the Web (ASCW’15 – post wprowadzający tutaj) w formie dokumentu pozycjonującego i dyskusji.
Przejrzystość i niereprodukowalność w czasie
Jednym z najbardziej oczywistych problemów związanych z RG Score jest jego nieprzejrzystość. ResearchGate przedstawia swoim użytkownikom podział na poszczególne części wyniku, tj. publikacje, pytania, odpowiedzi, zwolenników (również pokazane jako wykres kołowy), oraz w jakim stopniu te części przyczyniają się do twojego wyniku. Niestety, nie jest to wystarczająca informacja, aby odtworzyć swój własny wynik. W tym celu musiałbyś znać dokładne środki, które są używane, jak również algorytm używany do obliczania wyniku. Te elementy są jednak nieznane.
ResearchGate tworzy w ten sposób rodzaj maszyny ewaluacyjnej z czarną skrzynką, która utrzymuje badaczy w domysłach, jakie działania są brane pod uwagę przy pomiarze ich reputacji. Przykładem tego jest wiele pytań we własnym systemie pytań i odpowiedzi ResearchGate, dotyczących dokładnego obliczania wyniku RG Score. W środowisku bibliometrycznym przeważa pogląd, że przejrzystość i otwartość są ważnymi cechami każdej metryki. Jedna z zasad Manifestu Lejdejskiego stwierdza na przykład: „Zachowaj otwartość, przejrzystość i prostotę procesów gromadzenia danych i analiz”, i kontynuuje: „Niedawni komercyjni uczestnicy rynku powinni być trzymani wobec tych samych standardów; nikt nie powinien akceptować maszyny oceniającej w czarnej skrzynce”. Przejrzystość jest jedynym sposobem, w jaki środki mogą być umieszczone w kontekście i jedynym sposobem, w jaki stronniczość – która jest nieodłączna we wszystkich społecznie tworzonych metrykach – może zostać ujawniona. Co więcej, nieprzejrzystość sprawia, że osobom z zewnątrz bardzo trudno jest wykryć grę w systemie. W ResearchGate na przykład, wypowiedzi innych osób (np. pytania i odpowiedzi) mogą być anonimowo odrzucane. Anonimowy downvoting był krytykowany w przeszłości, ponieważ często dzieje się to bez wyjaśnienia. Dlatego sieci online, takie jak Reddit, zaczęły moderować oddawanie głosów w dół.
Jeszcze bardziej zamulając wodę, algorytm używany do obliczania RG Score zmienia się w czasie. To samo w sobie nie jest koniecznie złą rzeczą. The Leiden Manifesto stwierdza, że metryki powinny być regularnie sprawdzane i aktualizowane, jeśli to konieczne. ResearchGate nie ukrywa również faktu, że modyfikuje swój algorytm i źródła danych brane pod uwagę po drodze. Problem z tym, jak ResearchGate radzi sobie z tym procesem, polega na tym, że nie jest on przejrzysty i nie ma sposobu na jego rekonstrukcję. To sprawia, że niemożliwe jest porównanie RG Score w czasie, co jeszcze bardziej ogranicza jego użyteczność.
Jako przykład, wykreśliliśmy RG Score Petera od sierpnia 2012 do kwietnia 2015. Pomiędzy sierpniem 2012, kiedy wynik został wprowadzony, a listopadem 2012 jego wynik spadł z początkowych 4,76 w sierpniu 2012 do 0,02. Następnie stopniowo wzrastała do 1,03 w grudniu 2012 roku, gdzie utrzymywała się do września 2013 roku. Należy zauważyć, że zachowanie Petera na platformie było stosunkowo stabilne w tym przedziale czasowym. Nie usuwał on z platformy fragmentów badań ani nie odfollowywał innych badaczy. Co więc wydarzyło się w tym czasie? Najbardziej prawdopodobnym wyjaśnieniem jest to, że ResearchGate dostosował algorytm – ale bez żadnych wskazówek, dlaczego i jak to się stało, badacze pozostają w sferze domysłów. W Manifeście Lejdejskim znajduje się jedna stanowcza zasada przeciwko takiej praktyce: „Pozwólcie ocenianym na weryfikację danych i analiz”.
Próba odtworzenia wyniku ResearchGate Score
Aby dowiedzieć się więcej o składzie wyniku RG Score, spróbowaliśmy odwrócić inżynierię wyniku. Istnieje kilka informacji w profilu, które mogą potencjalnie przyczynić się do wyniku; w czasie analizy były to „punkty wpływu” (obliczane przy użyciu współczynników wpływu czasopism, w których dana osoba publikowała), „pobrania”, „widoki”, „pytania”, „odpowiedzi”, „zwolennicy” i „śledzący”. Patrząc na wykresy kołowe rozkładu wyników RG Score, naukowcy, którzy mają wynik RG Score na swoim profilu mogą być uważani za należących do kilku podgrup:
- osoby, których wynik jest oparty tylko na ich publikacjach;
- występuje w oparciu o aktywność związaną z pytaniami i odpowiedziami;
- występuje w oparciu o osoby śledzące i śledzone;
- oraz wyniki oparte na kombinacji każdego z tych trzech elementów.
Do naszej wstępnej analizy skupiliśmy się na pierwszej grupie: skonstruowaliśmy małą próbkę pracowników akademickich (30), którzy mają RG Score i tylko jedną publikację na swoim profilu. Ujawniło to silną korelację pomiędzy punktami wpływu (które dla naukowców posiadających jedną pracę są po prostu Journal Impact Factor (JIF) czasopisma, w którym ta praca została opublikowana). Co ciekawe, korelacja ta nie jest liniowa, lecz logarytmiczna. Dlaczego ResearchGate decyduje się na takie przekształcenie „punktów wpływu” nie jest jasne. Użycie naturalnego logu punktów wpływu będzie miało efekt malejących zwrotów dla tych z najwyższymi punktami wpływu, więc można spekulować, że naturalny log jest używany, aby zachęcić mniej doświadczonych pracowników akademickich.
Następnie rozszerzyliśmy próbę, aby włączyć przykłady z dwóch kolejnych grup pracowników akademickich: 30 pracowników akademickich, którzy mają RG Score i wiele publikacji; i kolejnych 30 zostało dodanych, którzy mają RG Score, wiele publikacji i opublikowali co najmniej jedno pytanie i odpowiedź. Analiza regresji wielorakiej wykazała, że wynik RG był istotnie przewidywany przez kombinację liczby wyświetleń, logów naturalnych punktów wpływu, zamieszczonych odpowiedzi i liczby publikacji. Punkty wpływu okazały się bardzo istotne; przynajmniej dla tej eksploracyjnej próby, punkty wpływu stanowiły dużą część zmienności danych (68%).
Włączanie Journal Impact Factor do oceny indywidualnych naukowców
Nasza analiza pokazuje, że RG Score włącza Journal Impact Factor do oceny indywidualnych naukowców. JIF nie został jednak wprowadzony jako miara do oceny poszczególnych osób, ale jako miara do kierowania decyzjami bibliotek o zakupie czasopism. Z biegiem lat był on również wykorzystywany do oceny poszczególnych naukowców. Istnieje jednak wiele powodów, dla których jest to zła praktyka. Po pierwsze, rozkład cytowań w czasopiśmie jest bardzo skośny; jedno z badań wykazało, że artykuły z najczęściej cytowanej połowy artykułów w czasopiśmie były cytowane 10 razy częściej niż artykuły z najrzadziej cytowanej połowy. Ponieważ JIF jest oparty na średniej liczbie cytowań, pojedynczy artykuł z dużą liczbą cytowań może zatem znacznie przechylić metrykę.
W dodatku korelacja między JIF a indywidualnymi cytowaniami artykułów stale maleje od lat 90-tych, co oznacza, że mówi coraz mniej o poszczególnych artykułach. Co więcej, JIF jest dostępny tylko dla czasopism; dlatego nie może być używany do oceny dziedzin, które preferują inne formy komunikacji, takie jak informatyka (referaty konferencyjne) lub nauki humanistyczne (książki). Jednak nawet w dyscyplinach, które komunikują się za pomocą czasopism, istnieje duże zróżnicowanie średniej liczby cytowań, które nie jest uwzględnione w JIF. W rezultacie JIF jest raczej problematyczny przy ocenie czasopism; gdy chodzi o pojedyncze wypowiedzi, jest jeszcze bardziej wątpliwy.
Wśród badaczy panuje w tej kwestii powszechna zgoda: Deklaracja z San Francisco w sprawie oceny badań (DORA), która zniechęca do stosowania Journal Impact Factor do oceny poszczególnych badaczy, w chwili pisania tego tekstu zebrała ponad 12 300 podpisów. Wydaje się zastanawiające, że wynik, który twierdzi, że jest „nowym sposobem na zmierzenie twojej reputacji naukowej”, poszedłby tą drogą.
Słowa końcowe
W RG Score jest kilka interesujących pomysłów: uwzględnienie wyników badań innych niż prace (np. dane, slajdy) jest zdecydowanie krokiem we właściwym kierunku, a pomysł rozważenia interakcji przy myśleniu o reputacji akademickiej ma pewne zalety. Jednakże, istnieje rozbieżność pomiędzy celem RG Score a praktycznym wykorzystaniem strony. Dowody wskazują, że naukowcy, którzy korzystają z ResearchGate, postrzegają go raczej jako internetową wizytówkę lub curriculum vitae, a nie jako stronę do aktywnej interakcji z innymi. Ponadto, wynik nie uwzględnia żadnych działań, które mają miejsce poza ResearchGate; na przykład, Twitter jest częściej miejscem aktywnej dyskusji o badaniach.
Szerokie wykorzystanie RG Score w e-mailach marketingowych sugeruje, że miało to być narzędzie marketingowe, które napędza więcej ruchu na stronie. Chociaż może się to udać w tym dziale, znaleźliśmy kilka krytycznych problemów z RG Score, które muszą zostać rozwiązane, zanim będzie można je postrzegać jako poważną metrykę.
ResearchGate wydaje się reagować na krytykę wokół RG Score. We wrześniu wprowadzili nową metrykę o nazwie „Reads”. „Reads”, która jest zdefiniowana jako suma wyświetleń i pobrań pracy naukowca, jest teraz głównym tematem ich e-maili, a metryka jest wyraźnie wyświetlana w profilu naukowca. Jednocześnie ResearchGate zdecydował się utrzymać wynik, choć w mniejszej roli. Jest on nadal wyświetlany w każdym profilu i jest również używany jako dodatkowa informacja w wielu funkcjach witryny, np. rekomendacje.
Na koniec, należy zauważyć, że RG Score nie jest jedyną złą metryką. Z metryk staje się wszechobecny w ocenie badań, jak wynika z ostatniego raportu HEFCE „The Metric Tide”, jesteśmy gotowi zobaczyć formułowanie wielu innych. Mając na uwadze te zmiany, staje się jeszcze ważniejsze dla nas, badaczy bibliometrii, aby informować naszych interesariuszy (takich jak agencje finansujące i administratorzy uniwersyteccy) o problemach związanych z poszczególnymi metrykami. Więc jeśli masz jakieś obawy związane z pewną metryką, nie wahaj się podzielić się nimi z nami, napisz o tym – lub nawet nominuj ją do nagrody Bad Metric.
Uwaga: Ten artykuł przedstawia poglądy autora, a nie stanowisko LSE Impact blog, ani London School of Economics. Prosimy o zapoznanie się z naszą Polityką komentarzy, jeśli mają Państwo jakiekolwiek wątpliwości dotyczące zamieszczania komentarzy poniżej.
O Autorach
Peter Kraker jest badaczem podoktorskim w Know-Center na Uniwersytecie Technologicznym w Grazu i stypendystą Pantona 2013/14. Jego główne zainteresowania badawcze to wizualizacje oparte na komunikacji naukowej w sieci, otwarta nauka i altmetria. Peter jest zwolennikiem otwartej nauki współpracującym z Open Knowledge Foundation i Open Access Network Austria.
Katy Jordan jest doktorantką w Institute of Educational Technology na The Open University, UK. Jej zainteresowania badawcze koncentrują się na przecięciu między Internetem a szkolnictwem wyższym. Oprócz badań doktoranckich nad akademickimi serwisami społecznościowymi, opublikowała również badania na temat Masowych Otwartych Kursów Online (MOOCs) i technologii sieci semantycznych dla edukacji.
Elisabeth Lex jest adiunktem na Uniwersytecie Technologicznym w Grazu i kieruje obszarem badawczym Social Computing w Know-Center GmbH. W swoich badaniach analizuje, w jaki sposób cyfrowe ślady pozostawiane przez ludzi w sieci mogą być wykorzystane do modelowania i kształtowania sposobu, w jaki ludzie pracują, uczą się i współdziałają. Na Uniwersytecie Technologicznym w Grazu Elisabeth wykłada Web Science oraz Science 2.0.
To jest część serii artykułów z warsztatów Quantifying and Analysing Scholarly Communication on the Web. Więcej z tej serii:
Potrzebujemy pouczających metryk, które pomogą, a nie zaszkodzą przedsięwzięciu naukowemu – pracujmy nad tym, by metryki były lepsze.
Zamiast oczekiwać od ludzi całkowitego zaprzestania wykorzystywania metryk, lepiej skupić się na upewnieniu się, że metryki są skuteczne i dokładne, argumentuje Brett Buttliere. Patrząc na różne wskaźniki, wspierając scentralizowany, interoperacyjny hub metryk i wykorzystując więcej teorii w budowaniu metryk, naukowcy mogą lepiej zrozumieć różnorodne aspekty wpływu badań i ich jakości.
Kontekst jest wszystkim: Making the case for more nuanced citation impact measures.
Dostęp do coraz większej ilości danych o publikacjach i cytowaniach oferuje potencjał dla bardziej potężnych miar wpływu niż tradycyjna bibliometria. Uwzględnienie kontekstu w relacji pomiędzy cytującymi i cytowanymi publikacjami może zapewnić bardziej subtelny i zniuansowany pomiar wpływu. Ryan Whalen przygląda się różnym sposobom, w jakie treści naukowe są ze sobą powiązane i jak te relacje mogą być dalej badane w celu poprawy miar wpływu naukowego.
Połączenie badań bibliometrycznych z różnych dyscyplin – czego możemy się od siebie nauczyć?
W chwili obecnej istnieje niewielka wymiana pomiędzy różnymi środowiskami zainteresowanymi dziedziną bibliometrii. Peter Kraker, Katrin Weller, Isabella Peters i Elisabeth Lex przedstawili raport na temat mnogości tematów i punktów widzenia dotyczących ilościowej analizy badań naukowych. Kluczowym tematem była silna potrzeba większej otwartości i przejrzystości: przejrzystości w procesach oceny badań w celu uniknięcia stronniczości, przejrzystości algorytmów, które obliczają nowe wyniki i otwartości użytecznej technologii.
Dodaj komentarz