The ResearchGate Score: a good example of a bad metric
On 12月 6, 2021 by adminResearchGateという学術SNSによれば、RGスコアは「あなたの科学的評価を測る新しい方法」だそうです。 このような高い目標を掲げ、Peter Kraker、Katy Jordan、Elisabeth Lexは、この不透明な指標を詳しく見てみました。 RGスコアをリバースエンジニアリングしたところ、「インパクトポイント」が大きなウェイトを占めていることがわかりました。これは、広く不信感を持たれている雑誌のインパクトファクターと同様の指標です。 2008年に開設されたResearchGateは、ウェブ上の初期の学術ソーシャルネットワークの1つでした。 このプラットフォームは、研究論文、質問と回答のシステム、および求人掲示板を中心に展開されています。 研究者はプロフィールを作成し、論文発表の記録や学術的な専門知識を紹介することができます。 他のユーザーは、これらのプロフィールをフォローすることができ、更新があれば通知されます。 近年、ResearchGate は、電子メールによるプラットフォームのマーケティングをより積極的に行っています。 デフォルトの設定では、ResearchGateは、あなたのネットワーク内の活動に応じて、週に4から10の電子メールを送信します。 2014年のNatureの調査によると、ResearchGateは研究者の間で最もよく知られたソーシャルネットワークであり、調査対象の研究者の35%が「メールを受け取ったから」ResearchGateにサインアップしたと言っています。 この戦略が、Academia.edu や Mendeley など、ResearchGate の競合他社の多くに採用されたことは、驚くことではありません。
ResearchGate の電子メールでは、研究者の最新の ResearchGate スコア(RG スコア)が焦点の 1 つとなっています。 毎週更新される RG スコアは、研究者のプロフィールに付けられる 1 つの数字です。 リサーチゲートによると、このスコアには、プラットフォーム上で共有する研究成果、他のメンバーとの交流、仲間の評判(つまり、出版物、質問、回答、フォロワーを考慮したもの)が含まれています。 RGスコアは、研究者の基本情報とともに、すべてのプロフィールに表示されます。 リサーチゲートは、ベンチャーキャピタルやビル・ゲイツから多額の資金援助を受けていますが、このプラットフォームがどのように収益を上げるかは明らかではありません。スコアが金銭的価値にリンクする可能性は、さらなる調査と批判的評価が必要でしょう。
Image credit: Blackbox public domain
RG スコアの我々の評価結果は、かなりがっかりするものでした。ResearchGate がこの指標にアプローチした方法には革新的なアイデアもありますが、RG スコアは多くの基本的な書誌学のガイドラインを無視していて、スコアの計算方法において ResearchGate が基本的に間違っているということもわかりました。 この指標は、サイトによると、RGスコアは「あなたの科学的評価を測定する新しい方法」であり、「科学界におけるあなたの地位を測定し、活用するのを助ける」ために設計されています。 このような高い目標を掲げていることから、RGスコアを詳しく見て、科学的評価の指標としての能力を評価することが適切であると思われます。 私たちは、研究評価指標のための確立された書誌学的ガイドラインと、スコアの実証分析に基づいて評価を行いました。 2437>
Intransparency and irreproducibility over time
RG Scoreの最も明白な問題の1つは、それが透明でないことです。 ResearchGate は、スコアの個々の部分、すなわち、出版物、質問、回答、フォロワー(円グラフとしても表示されます)の内訳と、これらの部分がどの程度あなたのスコアに寄与しているかをユーザーに提示します。 残念ながら、これだけでは自分のスコアを再現するのに十分な情報ではありません。 そのためには、スコアの算出に使われたアルゴリズムと同様に、正確な尺度を知る必要があります。
ResearchGate は、このように、研究者が自分の評判が測定されるときに、どの行動が考慮されるかを推測し続ける、一種のブラックボックス評価マシンを作り出しています。 これは、ResearchGate 自身の質問および回答システムにおける、RG スコアの正確な計算に関する多くの質問によって例証されています。 ビブリオメトリクスのコミュニティでは、透明性と公開性があらゆる評価基準の重要な特徴であるという見解が一般的です。 ライデン・マニフェストの原則のひとつに、たとえば次のような記述があります。 「データ収集と分析プロセスをオープン、透明、シンプルに保つ」、そして次のように続きます。 “最近の商業的参入者は同じ基準に従うべきで、誰もブラックボックス化した評価機を受け入れるべきではない”。 透明性は、測定値を文脈に当てはめることができる唯一の方法であり、すべての社会的に作られた測定基準に内在する偏りを明らかにすることができる唯一の方法である。 さらに、透明性が低いと、部外者がシステムの不正を発見するのが非常に難しくなります。 例えば、ResearchGateでは、他人の貢献(すなわち、質問と回答)は匿名でダウンボートすることができます。 匿名でのダウンボーティングは、説明なしに行われることが多いため、過去に批判を浴びたことがある。 そのため、Reddit などのオンライン ネットワークでは、ダウンボーティングを緩和するようになりました。
さらに水を差すようですが、RG スコアを計算するために使用されるアルゴリズムは、時間の経過とともに変化しています。 それ自体は、必ずしも悪いことではありません。 ライデン宣言では、測定基準は定期的に精査され、必要であれば更新されるべきであると述べています。 また、リサーチゲートは、アルゴリズムや考慮するデータソースを途中で変更することを隠していません。 ResearchGateがこのプロセスを処理する方法の問題点は、それが透明でなく、再構築する方法がないことである。 このため、RG スコアを時系列で比較することができず、その有用性はさらに制限されます。
例として、2012 年 8 月から 2015 年 4 月までのピーターの RG スコアをプロットしてみました。 スコアが導入された2012年8月から2012年11月の間に、彼のスコアは2012年8月の最初の4.76から0.02に低下しました。 その後、徐々に上昇し、2012年12月には1.03となり、2013年9月までその状態が続きました。 この期間中、Peterのプラットフォーム上での行動は比較的安定していたことに注目すべきです。 彼は、プラットフォームから研究の一部を削除したり、他の研究者のフォローを外したりしていません。 では、この期間に何が起こったのでしょうか? 最も妥当な説明は、ResearchGateがアルゴリズムを調整したということですが、なぜ、どのようにそれが起こったのかについてのヒントがないため、研究者の推測にとどまっています。 ライデン・マニフェストでは、このような行為に対する確固たる原則が1つあります。 「
An attempt at reproducing the ResearchGate Score
RG スコアの構成についてもっと知るために、我々はスコアをリバースエンジニアリングしようと試みました。 スコアに寄与する可能性のあるプロフィール情報はいくつかあり、分析時点では、「インパクトポイント」(個人が出版した雑誌のインパクトファクターを使って計算)、「ダウンロード」、「閲覧」、「質問」、「回答」、「フォロワー」、「フォロー」などがあります。 RGスコアの内訳の円グラフを見ると、プロフィールにRGスコアを持つ研究者は、
- 出版物のみに基づくスコア、
- 質問と回答の活動に基づくスコア、
- フォローと追跡に基づくスコア、
- 3つを組み合わせたスコアを含むいくつかのサブグループとして考えることができる。
次に、サンプルを拡大してさらに二つの研究者グループの事例を加えました。 重回帰分析によると、RG スコアは、閲覧数、インパクトポイントの自然対数、投稿された回答、出版件数の組み合わせによって有意に予測されることが示されました。 少なくともこの探索的サンプルでは、インパクトポイントはデータのばらつきの大部分(68%)を占めていました。
研究者個人を評価するためのインパクトファクターの導入
我々の分析から、RG Scoreは研究者個人の評価としてインパクトファクターが導入されていることが判明しました。 しかし、JIFは個人を評価するための指標として導入されたのではなく、図書館が雑誌を購入する際の指針とするための指標として導入されました。 しかし、JIFは個人を評価するための指標として導入されたのではなく、図書館が雑誌を購入する際の判断材料として導入され、長い間、研究者個人の評価にも使われてきました。 しかし、これが悪いやり方である理由はたくさんある。 1つには、学術雑誌内の引用の分布は非常に偏っており、ある研究では、学術雑誌の中で最も引用されている半分の論文の方が、最も引用されていない半分の論文よりも10倍も多く引用されていることがわかりました。 JIF は被引用数の平均値に基づいているため、被引用数の多い 1 つの論文が指標を大きく歪める可能性があります
さらに、JIF と個々の論文の被引用数の相関は、1990 年代以降着実に低下しており、個々の論文について語ることが少なくなっています。 さらに、JIFはジャーナルのみを対象としているため、コンピュータサイエンス(会議論文)や人文科学(書籍)など、他のコミュニケーション形態を好む分野の評価には利用できない。 しかし、ジャーナルでコミュニケーションを行っている分野でも、平均被引用数には高いばらつきがあり、JIFでは考慮されていない。 その結果、JIFは学術誌を評価する際にはかなり問題があり、単一の貢献に関してはさらに疑問が残ります。
この問題に関しては、研究者の間で幅広いコンセンサスが得られており、研究者個人の評価にJIFを使用しないよう求めるサンフランシスコ研究評価宣言 (DORA) には、執筆時点で12300人以上の署名が寄せられています。 論文以外の研究成果(データやスライドなど)を含めることは、間違いなく正しい方向への一歩ですし、学術的な評価について考える際に相互作用を考慮するという考えには、いくつかのメリットがあります。 しかし、RGスコアの目標と、実際のサイトの利用との間にはミスマッチがあります。 リサーチゲートを利用する研究者は、他者と積極的に交流するサイトというよりも、オンライン名刺や履歴書として見る傾向があることが証拠によって示されています。 さらに、RG スコアは ResearchGate の外で行われる活動を見逃しています。たとえば、Twitter は、研究に関して活発に議論するサイトとしてより頻繁に使用されています。 この部門では成功したかもしれませんが、RG スコアにはいくつかの重大な問題があり、重大な指標と見なされる前に対処する必要があることがわかりました。 9月に、彼らは「Reads」という新しい指標を導入しました。 研究者の作品の閲覧数とダウンロード数の合計と定義される「Reads」は、現在、彼らの電子メールの主な焦点となっており、この指標は研究者のプロフィールで目立つように表示されています。 同時に、ResearchGateは、役割は小さくなったものの、スコアを維持することを決定しました。 これは、すべてのプロファイルに表示され、また、サイトの多くの機能 (推奨など) で追加情報として使用されます。
最後に、RG スコアだけが悪い指標ではないことを指摘する必要があります。 最近のHEFCEの報告書「The Metric Tide」で証明されているように、研究評価において測定基準がユビキタスになってきており、さらに多くの測定基準が策定されることになるでしょう。 このような動きを考慮すると、私たちビブリオメトリクス研究者は、ステークホルダー(資金提供機関や大学管理者など)に個々の指標の問題点を伝えることがより重要になります。 ですから、あるメトリクスに懸念がある場合は、遠慮なく私たちと共有し、それについて書き、さらには「悪いメトリクス賞」に推薦してください。
著者について
ピーター・クレーカーは、グラーツ工科大学ノウ・センターの博士研究員であり、2013/14パントンフェローである。 主な研究テーマは、ウェブ上の学術コミュニケーションに基づくビジュアライゼーション、オープンサイエンス、オルトメトリクスである。 Peter は、Open Knowledge Foundation と Open Access Network Austria と協力するオープンサイエンスの提唱者です。
Katy Jordan は、英国の The Open University の Institute of Educational Technology で博士課程に在籍しています。 彼女の研究テーマは、インターネットと高等教育の交差点です。 学術的なソーシャルネットワーキングサイトに関する博士課程の研究に加え、大規模オープンオンラインコース(MOOCs)と教育のためのセマンティックウェブ技術に関する研究も発表しています。 研究においては、人間がウェブ上に残したデジタルな痕跡をどのように活用し、人々の仕事、学習、交流の方法をモデル化し形成できるかを探求しています。 グラーツ工科大学では、エリザベートはウェブサイエンスとサイエンス2.0について教えています。
この記事は、ウェブ上の学術的コミュニケーションの定量化と分析ワークショップからの一連の記事の一部です。 このシリーズの他の記事:
私たちは、科学的努力を傷つけるのではなく、手助けする有益な測定基準を必要としています – 測定基準をより良くするために努力しましょう。
人々が測定基準の利用を完全にやめることを期待するよりも、測定基準が効果的で正確であることを確認することに集中したほうがよいと、Brett Buttliere氏は主張しています。 さまざまな指標を見渡し、集中的で相互運用可能なメトリクスハブをサポートし、メトリクス構築においてより多くの理論を活用することで、科学者は研究インパクトと研究品質の多様な面をよりよく理解することができます」
Context is everything: Making the case for more nuanced citation impact measures.
Access to more publication and citation data provides for more powerful impact measures than traditional bibliometrics. 引用する側と引用される側の出版物の関係において、より多くの文脈を考慮することで、より繊細でニュアンスのあるインパクト測定が可能になる可能性があります。 Ryan Whalenは、科学的内容のさまざまな関連方法と、科学的インパクトの測定を改善するためにこれらの関係をさらに調査する方法について考察しています。
異なる分野からのビブリオメトリクス研究を結集する-互いに何を学ぶことができるか
現在、ビブリオメトリクスという領域に関心を持つ異なるコミュニティ間の交流はほとんどありません。 Peter Kraker、Katrin Weller、Isabella Peters、Elisabeth Lexは、科学研究の定量分析に関する多くのトピックや視点をカバーしたことを報告しています。 主要なテーマは、偏りを避けるための研究評価プロセスの透明性、新しいスコアを計算するアルゴリズムの透明性、有用な技術のオープン性など、よりオープンかつ透明性が強く求められていることであった。
コメントを残す