The ResearchGate Score: hyvä esimerkki huonosta mittarista
On 6 joulukuun, 2021 by adminAkateemisen sosiaalisen verkostoitumissivuston ResearchGaten mukaan niiden RG Score on ”uusi tapa mitata tieteellistä mainetta”. Kun tavoitteet ovat näin korkealla, Peter Kraker, Katy Jordan ja Elisabeth Lex tarkastelevat lähemmin vaikeaselkoista mittaria. Palauttamalla pistemäärää he havaitsevat, että merkittävä painoarvo liittyy ”vaikutuspisteisiin”, jotka ovat samanlainen mittari kuin laajalti väheksytty lehtien vaikuttavuuskerroin. Mittareiden läpinäkyvyys on ainoa tapa asettaa tieteelliset mittarit asiayhteyteen ja paljastaa ennakkoluulot, jotka ovat luontaisia kaikille sosiaalisesti luoduille mittareille.
Tutkimusverkko ResearchGate aloitti toimintansa vuonna 2008 ja oli yksi varhaisimmista akateemisista sosiaalisista verkostoista verkossa. Alusta pyöri tutkimusjulkaisujen, kysymys- ja vastausjärjestelmän sekä työpaikkataulun ympärillä. Tutkijat voivat luoda profiilin, joka esittelee heidän julkaisutietonsa ja akateemisen asiantuntemuksensa. Muut käyttäjät voivat sitten seurata näitä profiileja, ja heille ilmoitetaan kaikista päivityksistä. Viime vuosina ResearchGate on markkinoinut alustaansa entistä aggressiivisemmin sähköpostitse. Oletusasetuksilla ResearchGate lähettää 4-10 sähköpostiviestiä viikossa verkostosi aktiivisuudesta riippuen. Viestien suuri määrä osoittautuu ResearchGatelle erittäin menestyksekkääksi: Nature-lehden vuonna 2014 tekemän tutkimuksen mukaan ResearchGate on tunnetuin sosiaalinen verkosto tutkijoiden keskuudessa; 35 prosenttia tutkijoista, joille tutkimus tehtiin, kertoo rekisteröityneensä ResearchGateen ”sähköpostin saamisen vuoksi”. Ei liene yllätys, että monet ResearchGaten kilpailijat, kuten Academia.edu ja Mendeley, ovat sittemmin omaksuneet tämän strategian.
Yksi ResearchGaten sähköpostiviestien keskipisteistä on tutkijan viimeisin ResearchGate Score (RG Score). RG Score päivitetään viikoittain, ja se on yksittäinen numero, joka liitetään tutkijan profiiliin. ResearchGaten mukaan pisteet sisältävät alustalla jakamasi tutkimustulokset, vuorovaikutuksesi muiden jäsenten kanssa ja vertaisesi maineen (eli siinä otetaan huomioon julkaisut, kysymykset, vastaukset ja seuraajat). RG Score näkyy jokaisessa profiilissa tutkijan perustietojen ohella. ResearchGate on saanut huomattavaa taloudellista tukea pääomasijoittajilta ja Bill Gatesilta, mutta on epäselvää, miten alusta tuottaa tuloja; mahdollisuus, että pisteet liittyvät taloudelliseen arvoon, vaatii lisätutkimuksia ja kriittistä arviointia.
Image credit: Blackbox public domain
RG Score -pistemäärää koskevan arviointimme tulokset olivat melko lannistavia: vaikka ResearchGaten tavassa lähestyä toimenpidettä on joitakin innovatiivisia ideoita, havaitsimme myös, että RG Score -pistemäärässä jätetään huomiotta useita perustavanlaatuisia bibliometrisiä suuntaviivoja ja että ResearchGate tekee perustavanlaatuisia virheitä pistemäärän laskentatavassa. Pidämme näitä puutteita niin ongelmallisina, että RG-pistemäärää ei pitäisi nykyisessä muodossaan pitää tieteellisen maineen mittarina.Mittarilla on rohkeita väitteitä: sivuston mukaan RG-pistemäärä on ”uusi tapa mitata tieteellistä mainettasi”; se on suunniteltu ”auttamaan sinua mittaamaan ja hyödyntämään asemaasi tiedeyhteisössä”. Kun tavoitteet ovat näin korkeat, tuntui aiheelliselta tarkastella RG Scorea lähemmin ja arvioida sen kykyä tieteellisen maineen mittarina. Arviointimme perustui vakiintuneisiin bibliometrisiin ohjeisiin, jotka koskevat tutkimusmittareita, sekä pisteytyksen empiiriseen analyysiin. Tulokset esiteltiin hiljattain järjestetyssä seminaarissa Analysing and Quantifying Scholarly Communication on the Web (ASCW’15 – esittelypostaus täällä) kannanotossa ja sen yhteydessä käytävässä keskustelussa.
Intransparency and irreproducibility over time
Yksi RG Score -mittarin ilmeisimmistä ongelmista on sen läpinäkymättömyys. ResearchGate esittää käyttäjilleen erittelyn pistemäärän yksittäisistä osista eli julkaisuista, kysymyksistä, vastauksista ja seuraajista (myös piirakkakaaviona) sekä siitä, missä määrin nämä osat vaikuttavat pistemäärääsi. Valitettavasti nämä tiedot eivät riitä oman pistemäärän toistamiseen. Siihen tarvittaisiin tarkat tiedot käytetyistä mittareista sekä pistemäärän laskennassa käytetystä algoritmista. Nämä osatekijät ovat kuitenkin tuntemattomia.
ResearchGate luo siis eräänlaisen mustan laatikon arviointikoneen, joka pitää tutkijat arvailujen varassa, mitkä toimet otetaan huomioon, kun heidän mainettaan mitataan. Tästä ovat esimerkkinä ResearchGaten omassa kysymys- ja vastausjärjestelmässä olevat monet kysymykset, jotka liittyvät RG-pisteytyksen tarkkaan laskentaan. Bibliometriikkayhteisössä vallitsee näkemys, jonka mukaan läpinäkyvyys ja avoimuus ovat kaikkien mittareiden tärkeitä ominaisuuksia. Yksi Leidenin manifestin periaatteista on esimerkiksi seuraava: ”Pidä tiedonkeruu- ja analyysiprosessit avoimina, läpinäkyvinä ja yksinkertaisina”, ja se jatkuu: ”Uusille kaupallisille tulokkaille olisi asetettava samat vaatimukset; kenenkään ei pitäisi hyväksyä mustan laatikon arviointikonetta.” Avoimuus on ainoa tapa, jolla toimenpiteet voidaan asettaa asiayhteyteen ja jolla voidaan paljastaa ennakkoluulot, jotka ovat luontaisia kaikissa yhteiskunnallisesti luoduissa mittareissa. Lisäksi läpinäkymättömyys tekee ulkopuolisille erittäin vaikeaksi havaita järjestelmässä tapahtuvaa pelaamista. Esimerkiksi ResearchGatessa toisten panokset (eli kysymykset ja vastaukset) voidaan anonyymisti alahuomauttaa. Anonyymiä downvotingia on aiemmin kritisoitu, koska se tapahtuu usein ilman selitystä. Siksi Redditin kaltaiset verkkoverkostot ovat alkaneet maltillistaa downvotea.
Veden sotkemista lisää se, että RG-pisteytyksen laskennassa käytetty algoritmi muuttuu ajan mittaan. Se ei sinänsä ole välttämättä huono asia. Leidenin manifestissa todetaan, että mittareita tulisi tutkia säännöllisesti ja päivittää tarvittaessa. ResearchGate ei myöskään salaa sitä, että se muuttaa algoritmiaan ja huomioon otettavia tietolähteitä matkan varrella. Ongelma siinä, miten ResearchGate käsittelee tätä prosessia, on se, että se ei ole läpinäkyvä eikä sitä voi rekonstruoida. Tämä tekee mahdottomaksi verrata RG-pistemäärää ajan mittaan, mikä rajoittaa entisestään sen käyttökelpoisuutta.
Esimerkkinä olemme piirtäneet Peterin RG-pistemäärän elokuusta 2012 huhtikuuhun 2015. Elokuun 2012, jolloin pisteet otettiin käyttöön, ja marraskuun 2012 välillä hänen pistemääränsä laski elokuun 2012 alkuperäisestä 4,76:sta 0,02:een. Sen jälkeen se nousi vähitellen 1,03:een joulukuussa 2012 ja pysyi siellä syyskuuhun 2013 asti. On huomattava, että Peterin käyttäytyminen foorumilla on ollut suhteellisen vakaata tänä aikana. Hän ei ole poistanut tutkimuksiaan alustalta tai poistanut muiden tutkijoiden seuraamista. Mitä siis tapahtui tuona aikana? Todennäköisin selitys on, että ResearchGate muutti algoritmia – mutta ilman vihjeitä siitä, miksi ja miten se tapahtui, tutkija joutuu arvailemaan. Leidenin manifestissa on yksi tiukka periaate tätä käytäntöä vastaan: ”Sallikaa arvioitavien tarkistaa tiedot ja analyysi.”
Yritys jäljentää ResearchGate-pistemäärää
Saadaksemme lisätietoa RG-pistemäärän koostumuksesta yritimme jäljentää pistemäärää. Analyysiä tehtäessä näihin kuuluivat ”impact points” (joka lasketaan käyttämällä niiden lehtien impact factoreita, joissa henkilö on julkaissut), ”downloads” (lataukset), ”views” (katselut), ”questions” (kysymykset), ”answers” (vastaukset), ”followers” (seuraajat) ja ”following” (seuraajat). Kun tarkastellaan piirakkakaavioita RG-pisteiden jaottelusta, voidaan siis ajatella, että akateemikot, joiden profiilissa on RG-pisteet, sisältävät useita alaryhmiä:
- ne, joiden pisteet perustuvat vain julkaisuihin;
- pisteet perustuvat kysymys- ja vastausaktiivisuuteen;
- pisteet perustuvat seuraajiin ja seuraamiseen;
- ja pisteet perustuvat minkä tahansa näistä kolmesta yhdistelmästä.
Alustavassa analyysissämme keskityimme ensimmäiseen ryhmään: muodostimme pienen otoksen akateemikoista (30), joilla on RG-pisteet ja vain yksi julkaisu profiilissaan . Tämä paljasti vahvan korrelaation vaikuttavuuspisteiden välillä (joka yhden julkaisun akateemikon kohdalla on yksinkertaisesti kyseisen yhden julkaisun lehden Journal Impact Factor (JIF)). Mielenkiintoista on, että korrelaatio ei ole lineaarinen vaan logaritminen. On epäselvää, miksi ResearchGate on päättänyt muuntaa ”vaikutuspisteet” tällä tavalla. Vaikuttavuuspisteiden luonnollisen logaritmin käyttäminen vaikuttaa vähentävästi niihin, joilla on korkeimmat vaikuttavuuspisteet, joten voidaan olettaa, että luonnollista logaritmia käytetään vähemmän kokeneiden tutkijoiden kannustamiseksi.
Laajensimme otosta lisäämällä siihen esimerkkejä kahdesta muusta tutkijaryhmästä: 30 tutkijaa, joilla on RG-pistemäärä ja useita julkaisuja, ja lisäksi lisättiin vielä 30 tutkijaa, joilla on RG-pistemäärä, useita julkaisuja ja jotka ovat julkaisseet vähintään yhden kysymyksen ja vastauksen. Moninkertainen regressioanalyysi osoitti, että RG-pistemäärää ennusti merkitsevästi katselukertojen määrän, vaikutuspisteiden luonnollisen login, julkaistujen vastausten ja julkaisujen määrän yhdistelmä. Vaikutuspisteet osoittautuivat erittäin merkityksellisiksi; ainakin tässä tutkimusotoksessa vaikutuspisteet selittivät suuren osan aineiston vaihtelusta (68 %).
Lehden vaikutusfaktorin sisällyttäminen yksittäisten tutkijoiden arviointiin
Analyysimme osoittaa, että RG Score sisältää lehden vaikutusfaktorin yksittäisten tutkijoiden arvioimiseksi. JIF:ää ei kuitenkaan otettu käyttöön yksilöiden arvioimiseksi, vaan mittarina, jolla ohjataan kirjastojen lehtien hankintapäätöksiä. Vuosien mittaan sitä on käytetty myös yksittäisten tutkijoiden arviointiin. On kuitenkin monia hyviä syitä, miksi tämä on huono käytäntö. Eräässä tutkimuksessa havaittiin, että lehden eniten siteeratun puoliskon artikkeleihin viitattiin 10 kertaa useammin kuin vähiten siteeratun puoliskon artikkeleihin. Koska JIF perustuu viittausten keskimääräiseen määrään, yksittäinen artikkeli, jossa on paljon viittauksia, voi näin ollen vinouttaa mittaria huomattavasti.
Lisäksi JIF:n ja yksittäisten artikkeleiden viittausten välinen korrelaatio on jatkuvasti pienentynyt 1990-luvulta lähtien, mikä tarkoittaa, että se kertoo yhä vähemmän yksittäisistä artikkeleista. Lisäksi JIF-mittari on käytettävissä vain aikakauslehtien osalta, joten sitä ei voida käyttää arvioitaessa aloja, jotka suosivat muita viestintämuotoja, kuten tietojenkäsittelytiede (konferenssijulkaisut) tai humanistiset tieteet (kirjat). Jopa niillä tieteenaloilla, jotka viestivät lehdissä, viittausten keskimääräisessä määrässä on kuitenkin suurta vaihtelua, jota JIF ei ota huomioon. Näin ollen JIF on varsin ongelmallinen arvioitaessa lehtiä; yksittäisiä artikkeleita arvioitaessa se on vielä kyseenalaisempi.
Tutkijoiden keskuudessa vallitsee laaja yksimielisyys tästä asiasta: San Franciscon julistus tutkimuksen arvioinnista (San Francisco Declaration of Research Assessment, DORA), jossa vastustetaan Journal Impact Factorin käyttöä yksittäisten tutkijoiden arvioinnissa, on tätä kirjoitettaessa kerännyt yli 12 300 allekirjoittajaa. Tuntuu hämmentävältä, että pistemäärä, joka väittää olevansa ”uusi tapa mitata tieteellistä mainettasi”, menisi näin alas.
Loppusanat
RG-pistemäärässä on useita mielenkiintoisia ajatuksia: muidenkin tutkimustulosten kuin papereiden (esim. datan ja diojen) sisällyttäminen pistemäärään on ehdottomasti askel oikeaan suuntaan, ja ajatus vuorovaikutussuhteiden huomioimisesta akateemista mainettasi pohdittaessa on jossain määrin perusteltu. RG Score -pisteytyksen tavoitteen ja sivuston käytännön käytön välillä on kuitenkin epäsuhta. Todisteet viittaavat siihen, että tutkijat, jotka käyttävät ResearchGatea, pitävät sitä pikemminkin verkossa olevana käyntikorttina tai ansioluettelona kuin sivustona, joka mahdollistaa aktiivisen vuorovaikutuksen muiden kanssa. Lisäksi pistemäärä jättää huomiotta kaiken toiminnan, joka tapahtuu ResearchGaten ulkopuolella; esimerkiksi Twitterissä keskustellaan aktiivisemmin tutkimuksesta.
RG-pistemäärän laajamittainen käyttö markkinointisähköposteissa viittaa siihen, että se on tarkoitettu markkinointivälineeksi, jonka avulla sivustolle saadaan lisää kävijöitä. Vaikka se on ehkä onnistunut tällä osastolla, löysimme RG Scoreen useita kriittisiä ongelmia, jotka on korjattava ennen kuin sitä voidaan pitää vakavasti otettavana mittarina.
ResearchGate näyttää reagoineen RG Scoreen liittyvään kritiikkiin. Syyskuussa he ottivat käyttöön uuden mittarin nimeltä ”Reads”. ”Reads”, joka määritellään tutkijan työn katselujen ja latausten summana, on nyt heidän sähköpostiviestiensä pääpaino, ja mittari on näkyvästi esillä tutkijan profiilissa. Samalla ResearchGate on päättänyt pitää pisteet, joskin pienemmässä roolissa. Se näkyy edelleen jokaisessa profiilissa, ja sitä käytetään myös lisätietona monissa sivuston ominaisuuksissa, esimerkiksi suosituksissa.
Loppujen lopuksi on syytä huomauttaa, että RG Score ei ole ainoa huono mittari. Metriikoista on tulossa tutkimuksen arvioinnissa yleisiä, kuten HEFCE:n hiljattain julkaisemasta raportista ”The Metric Tide” käy ilmi, ja olemme valmiita näkemään monien uusien metriikoiden laatimisen. Tätä kehitystä silmällä pitäen meidän bibliometriikan tutkijoiden on entistäkin tärkeämpää tiedottaa sidosryhmillemme (kuten rahoituslaitoksille ja yliopistojen hallintoelimille) yksittäisiin mittareihin liittyvistä ongelmista. Jos siis jokin tietty metriikka herättää sinussa huolta, älä epäröi jakaa sitä kanssamme, kirjoittaa siitä – tai jopa ehdottaa sitä Bad Metric -palkinnon saajaksi.
Huomautus: Tässä artikkelissa esitetään kirjoittajan näkemykset, eikä LSE Impact -blogin eikä London School of Economicsin kantaa. Tutustu kommenttikäytäntöihimme, jos sinulla on epäilyksiä alla olevan kommentin lähettämisestä.
Tekijöistä
Peter Kraker on tutkijatohtori Grazin teknillisen yliopiston Know-Centerissä ja Panton Fellow 2013/14. Hänen pääasialliset tutkimusintressinsä ovat verkossa tapahtuvaan tieteelliseen viestintään, avoimeen tieteeseen ja altmetriikkaan perustuvat visualisoinnit. Peter on avoimen tieteen puolestapuhuja, joka tekee yhteistyötä Open Knowledge Foundationin ja Open Access Network Austria -verkoston kanssa.
Katy Jordan on tohtoriopiskelija, joka työskentelee The Open Universityn (Iso-Britannia) opetusteknologian instituutissa. Hänen tutkimusintressinsä keskittyy Internetin ja korkeakoulutuksen välisiin yhteyksiin. Akateemisia sosiaalisia verkostosivustoja koskevan väitöskirjatutkimuksensa lisäksi hän on julkaissut tutkimuksia massiivisista avoimista verkkokursseista (MOOC) ja semanttisista verkkoteknologioista koulutuksessa.
Elisabeth Lex on apulaisprofessori Grazin teknillisessä yliopistossa ja hän johtaa Know-Center GmbH:n Social Computing -tutkimusaluetta. Tutkimuksessaan hän tutkii, miten ihmisten verkkoon jättämiä digitaalisia jälkiä voidaan hyödyntää ihmisten työskentely-, oppimis- ja vuorovaikutustapojen mallintamisessa ja muokkaamisessa. Grazin teknillisessä yliopistossa Elisabeth opettaa verkkotiedettä sekä tiedettä 2.0.
Tämä on osa Quantifying and Analysing Scholarly Communication on the Web -työpajan artikkelisarjaa. Lisää tästä sarjasta:
Tarvitsemme informatiivisia mittareita, jotka auttavat, eivät vahingoita, tieteellistä pyrkimystä – työskennellään mittareiden parantamiseksi.
Ennemmin kuin odotamme ihmisten lopettavan metriikoiden hyödyntämisen kokonaan, meidän olisi parempi keskittyä varmistamaan, että metriikat ovat tehokkaita ja tarkkoja, väittää Brett Buttliere. Tarkastelemalla erilaisia indikaattoreita, tukemalla keskitettyä, yhteentoimivaa metriikkakeskusta ja hyödyntämällä enemmän teoriaa metriikoita rakennettaessa tutkijat voivat ymmärtää paremmin tutkimuksen vaikuttavuuden ja tutkimuksen laadun moninaisia puolia.
Konteksti on kaikki kaikessa: perusteluita vivahteikkaammille viittausten vaikuttavuusmittareille.
Kun yhä useampien julkaisujen julkaisu- ja viittausdatan saanti tarjoaa mahdollisuuden tehokkaampiin vaikuttavuusmittareihin kuin perinteinen bibliometria. Lisää kontekstin huomioon ottaminen siteeraavien ja siteerattujen julkaisujen välisessä suhteessa voisi tarjota hienovaraisempia ja vivahteikkaampia vaikutusmittauksia. Ryan Whalen tarkastelee erilaisia tapoja, joilla tieteelliset sisällöt liittyvät toisiinsa, ja sitä, miten näitä suhteita voitaisiin tutkia tarkemmin tieteellisen vaikuttavuuden mittareiden parantamiseksi.
Bringing together bibliometrics research from different disciplines – what can we learn from each other?
Tällä hetkellä bibliometriikan alasta kiinnostuneiden eri yhteisöjen välillä on vain vähän vaihtoa. Peter Kraker, Katrin Weller, Isabella Peters ja Elisabeth Lex raportoivat tieteellisen tutkimuksen kvantitatiiviseen analyysiin liittyvistä lukuisista aiheista ja näkökulmista. Keskeisenä teemana oli voimakas tarve lisätä avoimuutta ja läpinäkyvyyttä: tutkimuksen arviointiprosessien läpinäkyvyys ennakkoluulojen välttämiseksi, uusien pisteytysten laskennassa käytettävien algoritmien läpinäkyvyys ja hyödyllisen teknologian avoimuus.
Vastaa