Articles

The ResearchGate Score: a good example of a bad metric

On 6 prosince, 2021 by admin

Podle ResearchGate, akademické sociální sítě, je jejich RG Score „nový způsob měření vaší vědecké reputace“. S takto vysokými cíli se Peter Kraker, Katy Jordan a Elisabeth Lex na tuto neprůhlednou metriku podívali blíže. Reverzním inženýrstvím skóre zjistili, že významná váha je spojena s „impaktními body“ – podobnou metrikou jako široce zdiskreditovaný impakt faktor časopisů. Transparentnost metrik je jediným způsobem, jak lze vědecká měřítka uvést do souvislostí a jak lze odhalit zkreslení – která jsou vlastní všem sociálně vytvořeným metrikám.

Společnost ResearchGate, která byla spuštěna v roce 2008, byla jednou z prvních akademických sociálních sítí na webu. Platforma se točí kolem výzkumných prací, systému otázek a odpovědí a nástěnky pracovních nabídek. Výzkumní pracovníci si mohou vytvořit profil, ve kterém prezentují své publikační výsledky a akademické znalosti. Ostatní uživatelé pak mohou tyto profily sledovat a jsou informováni o všech aktualizacích. V posledních letech ResearchGate začal svou platformu agresivněji propagovat prostřednictvím e-mailu. Ve výchozím nastavení zasílá ResearchGate 4 až 10 e-mailů týdně v závislosti na aktivitě v síti. Vysoký počet zpráv se pro ResearchGate ukazuje jako velmi úspěšný: podle studie časopisu Nature z roku 2014 je ResearchGate mezi výzkumnými pracovníky nejznámější sociální sítí; 35 % dotázaných výzkumných pracovníků uvedlo, že se na ResearchGate zaregistrovali, „protože dostali e-mail“. Asi nepřekvapí, že tuto strategii od té doby převzala řada konkurentů ResearchGate, včetně Academia.edu a Mendeley.

Jedním z ústředních bodů e-mailů ResearchGate je nejnovější skóre výzkumníka na ResearchGate (RG Score). Skóre RG se aktualizuje každý týden a jedná se o jediné číslo, které je připojeno k profilu výzkumného pracovníka. Podle ResearchGate skóre zahrnuje výsledky výzkumu, které na platformě sdílíte, vaše interakce s ostatními členy a reputaci vašich kolegů (tj. zohledňuje publikace, otázky, odpovědi, sledující). Skóre RG se zobrazuje na každém profilu vedle základních informací o výzkumném pracovníkovi. ResearchGate získal značnou finanční podporu od investorů rizikového kapitálu a Billa Gatese, ale není jasné, jakým způsobem bude platforma generovat příjmy; možnost propojení skóre s finanční hodnotou si zaslouží další zkoumání a kritické posouzení.

Obrázek kredit: Blackbox public domain

Výsledky našeho hodnocení skóre RG byly spíše skličující: ačkoli ve způsobu, jakým ResearchGate přistoupil k měření, jsou některé inovativní nápady, zjistili jsme také, že skóre RG ignoruje řadu základních bibliometrických zásad a že ResearchGate dělá základní chyby ve způsobu výpočtu skóre. Tyto nedostatky považujeme za natolik problematické, že by RG Score ve své současné podobě nemělo být považováno za měřítko vědecké reputace. opatření přichází s odvážnými prohlášeními: podle stránek je RG Score „nový způsob měření vaší vědecké reputace“; bylo navrženo tak, aby vám „pomohlo měřit a využívat vaše postavení v rámci vědecké komunity“. S takto vysokými cíli se zdálo být vhodné podívat se na RG Score blíže a zhodnotit jeho schopnosti jako měřítka vědecké reputace. Naše hodnocení jsme založili na dobře zavedených bibliometrických pokynech pro metriky výzkumu a na empirické analýze skóre. Výsledky byly prezentovány na nedávném workshopu o analýze a kvantifikaci vědecké komunikace na webu (ASCW’15 – úvodní příspěvek zde) v pozičním dokumentu a jeho diskusi.

Transparentnost a nereprodukovatelnost v čase

Jedním z nejviditelnějších problémů skóre RG je jeho netransparentnost. ResearchGate sice svým uživatelům předkládá rozpis jednotlivých částí skóre, tj. publikací, otázek, odpovědí, sledujících (zobrazený také jako koláčový graf), a do jaké míry se tyto části podílejí na vašem skóre. Bohužel to není dostatečná informace pro reprodukci vlastního skóre. K tomu byste potřebovali znát přesná používaná měřítka a také algoritmus použitý pro výpočet skóre. Tyto prvky však nejsou známy.

ResearchGate tak vytváří jakousi černou skříňku hodnotícího stroje, která nechává výzkumníky hádat, které činnosti jsou při měření jejich reputace brány v úvahu. Příkladem toho je mnoho otázek ve vlastním systému otázek a odpovědí ResearchGate, které se týkají přesného výpočtu skóre RG. V bibliometrické komunitě převládá názor, že transparentnost a otevřenost jsou důležitými vlastnostmi každé metriky. Jedna ze zásad Leidenského manifestu například uvádí: „Udržujte sběr dat a analytické procesy otevřené, transparentní a jednoduché“ a pokračuje: „Na nově vstupující komerční subjekty by se měly vztahovat stejné standardy; nikdo by neměl akceptovat „black-box“ hodnotící stroj“. Transparentnost je jediným způsobem, jak lze opatření zasadit do kontextu, a jediným způsobem, jak lze odhalit zkreslení – která jsou vlastní všem společensky vytvořeným metrikám. Netransparentnost navíc velmi ztěžuje odhalení hraní si se systémem ze strany nezúčastněných osob. Například ve službě ResearchGate lze příspěvky ostatních (tj. otázky a odpovědi) anonymně downvotovat. Anonymní downvoting byl v minulosti kritizován, protože k němu často dochází bez vysvětlení. Proto začaly online sítě, jako je Reddit, downvoty mírnit.

Další kalení vody způsobuje skutečnost, že algoritmus používaný k výpočtu skóre RG se v průběhu času mění. To samo o sobě nemusí být nutně špatně. Leidenský manifest uvádí, že metriky by měly být pravidelně kontrolovány a v případě potřeby aktualizovány. Také ResearchGate neskrývá, že svůj algoritmus a zdroje dat, které jsou brány v úvahu, průběžně upravuje. Problémem způsobu, jakým ResearchGate s tímto procesem nakládá, je to, že není transparentní a že neexistuje způsob, jak jej rekonstruovat. To znemožňuje porovnání skóre RG v čase, což dále omezuje jeho užitečnost.

Jako příklad jsme vynesli Petrovo skóre RG od srpna 2012 do dubna 2015. Mezi srpnem 2012, kdy bylo skóre zavedeno, a listopadem 2012 kleslo jeho skóre z původní hodnoty 4,76 v srpnu 2012 na 0,02 bodu. Poté se postupně zvýšilo na 1,03 v prosinci 2012, kde zůstalo až do září 2013. Je třeba poznamenat, že Peterovo chování na platformě bylo v tomto časovém rámci relativně stabilní. Neodstranil z platformy žádné části výzkumu ani nezrušil sledování jiných výzkumníků. Co se tedy v tomto časovém rámci stalo? Nejpravděpodobnějším vysvětlením je, že ResearchGate upravil algoritmus – ale bez jakýchkoli náznaků, proč a jak k tomu došlo, nechává výzkumníka hádat. V Leidenském manifestu je jedna pevná zásada proti této praxi: „

Pokus o reprodukci skóre ResearchGate

Abychom se dozvěděli více o složení skóre RG, pokusili jsme se o zpětné inženýrství skóre. Existuje několik informací z profilu, které by potenciálně mohly přispět ke skóre; v době analýzy mezi ně patřily „impaktní body“ (vypočítané pomocí impaktních faktorů časopisů, v nichž daná osoba publikovala), „stažení“, „zobrazení“, „otázky“, „odpovědi“, „sledující“ a „následovníci“. Při pohledu na koláčové grafy rozdělení skóre RG si lze tedy představit, že akademici, kteří mají na svém profilu skóre RG, zahrnují několik podskupin:

ty, jejichž skóre je založeno pouze na jejich publikacích;
skóre založené na aktivitě v oblasti otázek a odpovědí;
skóre založené na sledovanosti a sledování;
a skóre založené na kombinaci kterékoli z těchto tří skupin.

Pro naši počáteční analýzu jsme se zaměřili na první skupinu: sestavili jsme malý vzorek akademiků (30), kteří mají skóre RG a na svém profilu pouze jednu publikaci . To odhalilo silnou korelaci mezi impaktními body (což je u akademiků s jednou publikací jednoduše Journal Impact Factor (JIF) časopisu této jedné publikace). Zajímavé je, že korelace není lineární, ale logaritmická. Proč se ResearchGate rozhodl transformovat „body dopadu“ tímto způsobem, není jasné. Použití přirozeného logaritmu bodů impaktu bude mít za následek klesající výnosy pro ty, kteří mají nejvyšší body impaktu, takže by se dalo spekulovat, že přirozený logaritmus se používá k povzbuzení méně zkušených akademiků.

Poté jsme vzorek rozšířili o příklady dalších dvou skupin akademiků: 30 akademiků, kteří mají skóre RG a více publikací; a bylo přidáno dalších 30, kteří mají skóre RG, více publikací a zveřejnili alespoň jednu otázku a odpověď. Vícenásobná regresní analýza ukázala, že skóre RG bylo významně předpovězeno kombinací počtu zobrazení, přirozených logaritmů bodů dopadu, zveřejněných odpovědí a počtu publikací. Ukázalo se, že impaktní body jsou velmi relevantní; přinejmenším u tohoto průzkumného vzorku představovaly impaktní body velkou část variability údajů (68 %).

Zapojení impaktního faktoru časopisu do hodnocení jednotlivých výzkumných pracovníků

Naše analýza ukazuje, že RG Score zahrnuje impaktní faktor časopisu do hodnocení jednotlivých výzkumných pracovníků. JIF však nebyl zaveden jako měřítko pro hodnocení jednotlivců, ale jako měřítko pro rozhodování knihoven o nákupu časopisů. V průběhu let byl také používán k hodnocení jednotlivých výzkumných pracovníků. Existuje však mnoho dobrých důvodů, proč je to špatná praxe. Za prvé, rozložení citací v rámci časopisu je velmi zkreslené; jedna studie zjistila, že články v nejcitovanější polovině článků v časopise jsou citovány desetkrát častěji než články v nejméně citované polovině. Vzhledem k tomu, že JIF je založen na průměrném počtu citací, může tedy jediný článek s vysokým počtem citací tuto metriku značně zkreslit.

Kromě toho korelace mezi JIF a jednotlivými citacemi článků od 90. let 20. století neustále klesá, což znamená, že o jednotlivých článcích vypovídá stále méně. Kromě toho je JIF k dispozici pouze pro časopisy; nelze jej tedy použít k hodnocení oborů, které upřednostňují jiné formy komunikace, jako je informatika (konferenční příspěvky) nebo humanitní vědy (knihy). Ale i v oborech, které komunikují v časopisech, existují velké rozdíly v průměrném počtu citací, které JIF nezohledňuje. V důsledku toho je JIF při hodnocení časopisů poměrně problematický; pokud jde o jednotlivé příspěvky, je ještě spornější.

V této otázce panuje mezi vědci široká shoda: Sanfranciská deklarace o hodnocení výzkumu (DORA), která odrazuje od používání impakt faktoru časopisů pro hodnocení jednotlivých vědců, získala v době psaní tohoto článku více než 12 300 podpisů. Zdá se být záhadné, že skóre, které o sobě tvrdí, že je „novým způsobem měření vaší vědecké reputace“, by šlo touto cestou.

Slova na závěr

Skóre RG obsahuje řadu zajímavých myšlenek: zahrnutí jiných výstupů výzkumu než článků (např. dat, diapozitivů) je rozhodně krok správným směrem a myšlenka zohlednění interakcí při úvahách o akademické reputaci má jisté opodstatnění. Existuje však nesoulad mezi cílem RG Score a využitím stránek v praxi. Důkazy naznačují, že akademičtí pracovníci, kteří ResearchGate používají, mají tendenci jej vnímat spíše jako online vizitku nebo životopis, než jako stránku pro aktivní interakci s ostatními. Skóre navíc opomíjí veškeré aktivity, které se odehrávají mimo ResearchGate; například Twitter je častěji místem pro aktivní diskusi o výzkumu.

Hojné používání skóre RG v marketingových e-mailech naznačuje, že mělo být marketingovým nástrojem, který přivede na stránky větší návštěvnost. I když se to v tomto oddělení možná podařilo, zjistili jsme několik kritických problémů s RG Score, které je třeba vyřešit, aby mohlo být považováno za seriózní metriku.

Zdá se, že společnost ResearchGate reagovala na kritiku týkající se RG Score. V září představila novou metriku s názvem „Reads“. „Přečtení“, které je definováno jako součet zobrazení a stažení práce výzkumného pracovníka, je nyní hlavní náplní jejich e-mailů a metrika je viditelně zobrazena v profilu výzkumného pracovníka. Současně se ResearchGate rozhodl zachovat skóre, i když v menší roli. Stále se zobrazuje v každém profilu a používá se také jako doplňková informace v mnoha funkcích webu, např. v doporučeních.

Nakonec je třeba zdůraznit, že RG Score není jedinou špatnou metrikou. S tím, jak se metriky stávají v hodnocení výzkumu všudypřítomnými, jak dokládá nedávná zpráva HEFCE „The Metric Tide“, jsme připraveni na formulaci mnoha dalších. S ohledem na tento vývoj je pro nás bibliometrické výzkumníky ještě důležitější informovat naše zainteresované strany (jako jsou agentury pro financování a správci univerzit) o problémech s jednotlivými metrikami. Pokud tedy máte obavy z určité metriky, neváhejte se s námi o ni podělit, napsat o ní – nebo ji dokonce nominovat na cenu Bad Metric.

Poznámka: Tento článek vyjadřuje názory autora, nikoli stanovisko blogu LSE Impact ani London School of Economics. Máte-li jakékoli pochybnosti o zveřejnění komentáře níže, přečtěte si prosím naše Zásady komentářů.

O autorech

Peter Kraker je postdoktorandským výzkumným pracovníkem Know-Center Technologické univerzity ve Štýrském Hradci a Pantonovým stipendistou na přelomu let 2013 a 2014. Jeho hlavním výzkumným zájmem jsou vizualizace založené na vědecké komunikaci na webu, otevřená věda a altmetrika. Peter je zastáncem otevřené vědy, spolupracuje s Open Knowledge Foundation a Open Access Network Austria.

Katy Jordan je doktorandka působící v Institutu vzdělávacích technologií na The Open University ve Velké Británii. Její výzkumné zájmy se zaměřují na průsečík mezi internetem a vysokoškolským vzděláváním. Kromě svého doktorského výzkumu v oblasti akademických sociálních sítí publikovala také výzkum v oblasti masivních otevřených online kurzů (MOOC) a sémantických webových technologií pro vzdělávání.

Elisabeth Lex je odbornou asistentkou na Technické univerzitě ve Štýrském Hradci a vede výzkumnou oblast Social Computing ve společnosti Know-Center GmbH. Ve svém výzkumu zkoumá, jak lze digitální stopy, které lidé zanechávají na webu, využít k modelování a formování způsobu, jakým lidé pracují, učí se a komunikují. Na Technické univerzitě ve Štýrském Hradci Elisabeth vyučuje obor Web Science a také Science 2.0.

Tento článek je součástí série příspěvků z workshopu Quantifying and Analysing Scholarly Communication on the Web. Více z této série:

Potřebujeme informativní metriky, které budou vědeckému úsilí pomáhat, nikoli škodit – pracujme na tom, aby byly metriky lepší.

Než očekávat, že lidé přestanou metriky využívat úplně, bylo by lepší zaměřit se na to, aby metriky byly efektivní a přesné, tvrdí Brett Buttliere. Tím, že se budeme zabývat různými ukazateli, podpoříme centralizované, interoperabilní metrické centrum a využijeme více teorie při vytváření metrik, mohou vědci lépe porozumět různým aspektům dopadu výzkumu a jeho kvality.

Kontext je všechno: argumentace pro diferencovanější měření dopadu citací.

Přístup ke stále většímu množství publikačních a citačních dat nabízí potenciál pro výkonnější měření dopadu než tradiční bibliometrie. Zohlednění většího množství kontextu ve vztahu mezi citujícími a citovanými publikacemi by mohlo poskytnout jemnější a nuancovanější měření impaktu. Ryan Whalen se zabývá různými způsoby, jakými spolu souvisí vědecký obsah, a tím, jak by tyto vztahy mohly být dále zkoumány, aby se zlepšila měření vědeckého dopadu.

Sblížení bibliometrického výzkumu z různých oborů – co se můžeme naučit jeden od druhého?

V současné době dochází k malé výměně mezi různými komunitami, které se zajímají o oblast bibliometrie. Nedávná konference si kladla za cíl tuto mezeru překlenout. petr Kraker, Katrin Weller, Isabella Peters a Elisabeth Lex podávají zprávu o množství témat a pohledů na kvantitativní analýzu vědeckého výzkumu. Klíčovým tématem byla silná potřeba větší otevřenosti a transparentnosti: transparentnost procesů hodnocení výzkumu, aby se zabránilo zkreslení, transparentnost algoritmů, které počítají nové skóre, a otevřenost užitečných technologií.

Archives

Categories