Datatiede vai tilastotiede?
On 28 lokakuun, 2021 by adminDonohon (2015) artikkelissa 50 Years of Data Science (50 vuotta datatiedettä) hän käsittelee kysymystä termin ”datatiede” mielekkäästä määrittelystä, jotta ymmärrettäisiin paremmin, mitä datatiede on ja miten se eroaa muista tieteenaloista eli tilastotieteestä.
Hän aloittaa vertailunsa viittaamalla tilastotieteen alaan ja muihin aloihin, kuten tietojenkäsittelytieteisiin ja yhteiskuntatieteisiin, joilla kaikilla näyttää olevan vaatimuksia tekniikoille ja menetelmille.
Donoho esittää, että se, minkä John Tukey aloitti ja mitä muut, kuten William Cleveland ja John Chambers, ajoivat, oli oikeastaan tilastotieteen laajentamista siten, että se sisälsi sen, minkä tunnemme nykyisin nimellä data science.
Tästä näkökulmasta he näkevät tilastotieteen keskittyvän lähinnä tilastotieteen teoriaan, jonka avulla joku pystyi rakentamaan päättelymallin, kun sinulla oli dataa, jonka avulla tiesit jotain kiinnostuksen kohteena olevasta populaatiosta.
Näiden ”datatieteen” varhaisten kannattajien mielestä nykyaikainen tilastotiede jätti huomiotta datan keräämisen ja siivoamisen merkityksen datan prosessissa.
Lisäksi näemme myös, että mallintamisen lisäksi on alettu keskittyä malleja dataan soveltaen ennustavaan voimaan sen sijaan, että dataa käytettäisiin teorian rakentaman mallin testaamiseen.
Donoho huomauttaa, kuinka selvää tämä on datatieteen koneoppimissektorilla, mutta myös monissa muissa käyttötapauksissa. Sen sijaan, että luotettiin tilastolliseen teoriaan – joka edellytti, että datassa oli olemassa yksi totuusmalli – nyt tapahtui paradigman muutos, jossa keskityttiin löytämään kuvioita ja useita potentiaalisia malleja datasta itsestään.
Donoho väittää, että tämän laajentumisen mahdollisti laskentatehon tulo ja visualisointimuutokset, jotka saavutettiin viimeisten 40 vuoden aikana.
Tilastotieteestä data-analyysiin
Kuten näkyi SPSS:n, SAS:n ja lopulta R:n kaltaisten tilasto-ohjelmien suosiossa, jotka alkoivat hallita alaa 1990-luvulla, näiden ohjelmien tukeutumisesta ja näkyvyydestä tuli synonyymi ”data-analyysille”, ja menetelmät levisivät moniin akateemisiin ja kaupallisiin käyttökohteisiin.
Tietyllä tavalla nämä ohjelmat auttoivat tilastotieteen demokratisoitumisessa ja sen laajenemisessa muodollisen koulutuksen saaneiden ”tilastotieteilijöiden” ulkopuolelle. Lisäksi ammattilaiset lähes kaikissa ympäristöissä alkoivat käsitellä ”big dataa” ja ”tiedonlouhintaa” aiemmin käytettyjen klassisten tilastollisten tekniikoiden sijaan.
Yhteinen tehtäväkehys (Common Task Framework, CTF)
Seuraavaksi tärkeimmäksi kehityskohteeksi muodostui yhteinen tehtäväkehys (Common Task Framework, CTF), joka on kilpailumenetelmä. CFT edellyttää:
- (1) julkisesti saatavilla olevia datasettejä,
- (2) kilpailijoita/yhteistyökumppaneita, joilla on yhteinen tavoite päätellä datasta ennustussääntö, ja
- (3) objektiivista pisteytystä tekevää erotuomaria/tuomaristoa, joka voi pisteyttää kilpailijoiden esitykset.
CFT mahdollistaa datatieteen kilpailut, mutta on myös luonut kulttuurin, jossa tieteellisiä ongelmia käsitellään avoimesti datan avulla, koska on olemassa selkeät mitattavat vastaukset ja sovitut tavoitteet.
CFT ja siirtyminen kohti avoimen lähdekoodin datatieteellisiä tekniikoita (R, Python, Github jne.) ovat olleet välttämätön sysäys datatieteelliselle paradigmalle.
Uusi tieteenhaara
Tietotiede on selvästi jotain muuta kuin tilastotiedettä, ja se kattaa nyt ohjelmoinnin, insinööritieteiden, matematiikan, suunnittelun ja tieteellisten menetelmien tuntemuksen lähes kaikissa sovelluksissa.
Lisäksi keskitytään ratkaisujen toteuttamiseen, johon kuuluu tuotteiden ja palvelujen käyttöliittymiä tai yksinkertaisesti datan visualisoinnin tarjoamista datatieteellisen työn tulosten esittämiseksi.
Tämä on selvästi enemmän kuin mihin mikään yksittäinen ala on aiemmin keskittynyt, mutta se on myös universaalia siinä mielessä, että monet alat voivat omaksua näitä tekniikoita ja tietämystä, joita sovelletaan heidän erityisongelmiinsa, ja hyötyä niistä.
Kuten John Tukey julisti 1960-luvulla, datatiede on tulossa yhä tärkeämmäksi maailmassamme, ja se leviää nopeasti lähes kaikille elämämme osa-alueille.
Vastaa