Koneoppimisen, datatieteen, tekoälyn, syväoppimisen ja tilastotieteen ero – Data Science Central
On 1 tammikuun, 2022 by adminTässä artikkelissa selvitän datatieteilijän eri rooleja ja sitä, miten datatiedettä verrataan ja miten se on päällekkäistä siihen liittyvien alojen, kuten koneoppimisen, syväoppimisen, tekoälyn, tilastotieteen, esineiden esineiden internetin, operaatiotutkimuksen ja soveltavan matematiikan kanssa. Koska datatiede on laaja tieteenala, aloitan kuvaamalla erilaisia datatieteilijätyyppejä, joita voi kohdata missä tahansa liiketoimintaympäristössä: saatat jopa huomata olevasi itse datatieteilijä tietämättäsi. Kuten millä tahansa tieteenalalla, myös datatieteilijät voivat lainata tekniikoita lähialoilta, vaikka olemme kehittäneet oman arsenaalimme, erityisesti tekniikoita ja algoritmeja, joiden avulla voimme käsitellä hyvin suuria, jäsentymättömiä tietokokonaisuuksia automatisoidusti, jopa ilman ihmisten välistä vuorovaikutusta, suorittaa tapahtumia reaaliaikaisesti tai tehdä ennusteita.
1. Erilaisia datatieteilijätyyppejä
Aloittaaksesi ja saadaksesi hieman historiallista perspektiiviä voit lukea vuonna 2014 julkaistun artikkelini yhdeksästä datatieteilijätyypistä tai artikkelini, jossa vertaan datatiedettä 16 analyyttiseen tieteenalaan, joka julkaistiin myös vuonna 2014.
Seuraavat samalla ajanjaksolla julkaistut artikkelit ovat edelleen hyödyllisiä:
- Datatutkija vs. data-arkkitehti
- Datatutkija vs. data-insinööri
- Datatutkija vs. tilastotieteilijä
- Datatutkija vs. liiketoiminta-analyytikko
Viimeisimpänä (elokuussa 2016) Ajit Jaokar käsitteli A-tyypin (analytiikka) vs. B-tyypin (rakentaja) datatutkijaa:
- A-tyypin datatutkija osaa koodata tarpeeksi hyvin työskennelläkseen datan kanssa, mutta ei välttämättä ole asiantuntija. A-tyypin datatieteilijä voi olla asiantuntija kokeellisessa suunnittelussa, ennustamisessa, mallintamisessa, tilastollisessa päättelyssä tai muissa asioissa, joita tyypillisesti opetetaan tilastotieteen laitoksilla. Yleisesti ottaen datatieteilijän työ ei kuitenkaan ole ”p-arvoja ja luottamusvälejä”, kuten akateemisessa tilastotieteessä toisinaan annetaan ymmärtää (ja kuten esimerkiksi lääketeollisuudessa työskentelevillä perinteisillä tilastotieteilijöillä joskus on). Googlessa A-tyypin datatutkijat tunnetaan eri tavoin nimillä tilastotieteilijä, kvantitatiivinen analyytikko, päätöksenteon tukitekniikan analyytikko tai datatutkija, ja luultavasti muutama muukin.
- B-tyypin datatutkija: B tarkoittaa rakentamista. B-tyypin datatutkijat jakavat jonkin verran tilastollista taustaa A-tyypin kanssa, mutta he ovat myös erittäin vahvoja koodaajia ja saattavat olla koulutettuja ohjelmistosuunnittelijoita. B-tyypin datatutkija on pääasiassa kiinnostunut käyttämään dataa ”tuotannossa”. He rakentavat malleja, jotka ovat vuorovaikutuksessa käyttäjien kanssa ja tarjoavat usein suosituksia (tuotteita, tuttuja ihmisiä, mainoksia, elokuvia, hakutuloksia). Lähde: Klikkaa tästä.
Kirjoitin myös liiketoimintaprosessien optimoinnin ABCD:stä, jossa D tarkoittaa datatiedettä, C tietotekniikkaa, B liiketiedettä ja A analytiikkaa. Datatiede voi sisältää tai olla sisältämättä koodausta tai matemaattista harjoittelua, kuten voit lukea artikkelistani matalan tason vs. korkean tason datatieteestä. Startup-yrityksessä datatieteilijät käyttävät yleensä useita hattuja, kuten johtajan, datakaivostyöntekijän, data-insinöörin tai -arkkitehdin, tutkijan, tilastotieteilijän, mallintajan (kuten ennakoivassa mallintamisessa) tai kehittäjän hattuja.
Vaikka datatieteilijä kuvataan yleensä koodaajana, jolla on kokemusta R:stä, Pythonista, SQL:stä, Hadoop-tietokannasta ja tilastotiedeohjelmista, tämä on vain jäävuoren huippu, ja sen ovat tehneet tunnetuksi datalähetysleirit, joissa keskitytään opettamaan joitain tietotieteiden osia. Mutta aivan kuten laboratorioteknikko voi kutsua itseään fyysikoksi, todellinen fyysikko on paljon muutakin, ja hänen asiantuntemuksensa on monipuolista: tähtitiede, matemaattinen fysiikka, ydinfysiikka (joka on rajanaapurina kemialle), mekaniikka, sähkötekniikka, signaalinkäsittely (myös tietojenkäsittelytieteen osa-alue) ja monet muut. Samaa voidaan sanoa datatieteilijöistä: alat ovat niinkin moninaisia kuin bioinformatiikka, tietotekniikka, simuloinnit ja laadunvalvonta, laskennallinen rahoitus, epidemiologia, tuotantotekniikka ja jopa numeroteoria.
Omassa tapauksessani olen viimeisten 10 vuoden aikana erikoistunut koneiden väliseen ja laitteiden väliseen viestintään ja kehittänyt järjestelmiä, joilla voidaan automaattisesti käsitellä suuria tietokokonaisuuksia automaattisten tapahtumien suorittamiseksi: esimerkiksi Internet-liikenteen ostamiseksi tai sisällön automaattiseksi tuottamiseksi. Se edellyttää algoritmien kehittämistä, jotka toimivat jäsentymättömän datan kanssa, ja se on tekoälyn (AI, artificial intelligence), esineiden internetin (IoT, Internet of things) ja datatieteen risteyskohdassa. Tätä kutsutaan syvälliseksi datatieteeksi. Se on suhteellisen matemaattista, ja siihen liittyy suhteellisen vähän koodausta (enimmäkseen sovellusrajapintoja), mutta se on melko tietointensiivistä (mukaan lukien tietojärjestelmien rakentaminen) ja perustuu aivan uuteen tilastolliseen teknologiaan, joka on suunniteltu nimenomaan tätä tarkoitusta varten.
Työskentelin sitä ennen luottokorttipetosten reaaliaikaisen havaitsemisen parissa. Aikaisemmin urallani (noin vuonna 1990) työskentelin kuvien kaukokartoitustekniikan parissa, muun muassa tunnistaakseni kuvioita (tai muotoja tai piirteitä, esimerkiksi järviä) satelliittikuvista ja suorittaakseni kuvien segmentointia: tuohon aikaan tutkimustani nimitettiin laskennalliseksi tilastotieteeksi, mutta ihmiset, jotka tekivät täsmälleen samaa asiaa kotiyliopistoni viereisellä tietojenkäsittelytieteen laitoksella, kutsuivat tutkimustaan tekoälyksi. Nykyään sitä kutsuttaisiin datatieteeksi tai tekoälyksi, ja osa-alueita olisivat signaalinkäsittely, tietokonenäkö tai esineiden internet.
Datatieteilijöitä löytyy myös kaikkialta datatieteellisten projektien elinkaaresta, datan keruuvaiheesta tai datan tutkimusvaiheesta aina tilastolliseen mallintamiseen ja olemassa olevien järjestelmien ylläpitoon asti.
2. Koneoppiminen vs. syväoppiminen
Ennen kuin syvennytään datatieteen ja koneoppimisen väliseen yhteyteen, käsitellään lyhyesti koneoppimista ja syväoppimista. Koneoppiminen on joukko algoritmeja, jotka harjoittelevat tietoaineistolla tehdäkseen ennusteita tai ryhtyäkseen toimiin joidenkin järjestelmien optimoimiseksi. Esimerkiksi valvottuja luokittelualgoritmeja käytetään luokittelemaan potentiaalisia asiakkaita hyviin tai huonoihin mahdollisuuksiin lainatarkoituksiin historiatietojen perusteella. Tiettyyn tehtävään (esim. valvottuun klusterointiin) käytettävät tekniikat vaihtelevat: naiivi Bayes, SVM, neuroverkot, kokonaisuudet, assosiaatiosäännöt, päätöspuut, logistinen regressio tai useiden tekniikoiden yhdistelmä. Yksityiskohtainen luettelo algoritmeista löytyy täältä. Luettelo koneoppimisen ongelmista löytyy täältä.
Kaikki tämä on datatieteen osajoukko. Kun nämä algoritmit automatisoidaan, kuten automaattisessa ohjauksessa tai kuljettajattomissa autoissa, sitä kutsutaan tekoälyksi ja tarkemmin sanottuna syväoppimiseksi. Klikkaa tästä toiseen artikkeliin, jossa verrataan koneoppimista ja syväoppimista. Jos kerätty data tulee antureilta ja jos se välitetään internetin kautta, kyseessä on koneoppiminen tai datatiede tai syväoppiminen sovellettuna IoT:hen.
Joillakin ihmisillä on syväoppimiselle erilainen määritelmä. He pitävät syväoppimista neuroverkkoina (koneoppimistekniikka), joissa on syvempi kerros. Kysymys esitettiin hiljattain Quorassa, ja alla on tarkempi selitys (lähde: Quora)
- AI (Artificial intelligence, tekoäly) on tietojenkäsittelytieteen osa-alue, joka luotiin 1960-luvulla, ja se käsitteli (käsittelee) sellaisten tehtävien ratkaisemista, jotka ovat ihmisille helppoja, mutta tietokoneille vaikeita. Erityisesti ns. vahva tekoäly (Strong AI) olisi järjestelmä, joka pystyy tekemään mitä tahansa, mitä ihminen pystyy (ehkä ilman puhtaasti fysikaalisia asioita). Tämä on melko yleistä ja sisältää kaikenlaisia tehtäviä, kuten suunnittelua, maailmassa liikkumista, esineiden ja äänien tunnistamista, puhumista, kääntämistä, sosiaalisten tai liiketapahtumien suorittamista, luovaa työtä (taiteen tai runouden tekemistä) jne.
- NLP (Natural language processing) on yksinkertaisesti se osa tekoälyä, joka liittyy kieleen (yleensä kirjoitettuun).
- Koneoppiminen käsittelee yhtä osa-aluetta tästä: kun annetaan jokin tekoälyongelma, joka voidaan kuvata diskreeteillä termeillä (esim. mikä tietystä joukosta toimintoja on oikea), ja kun annetaan paljon tietoa maailmasta, selvitetään, mikä on ”oikea” toiminto ilman, että ohjelmoija joutuu ohjelmoimaan sen. Tyypillisesti tarvitaan jokin ulkopuolinen prosessi arvioimaan, oliko toiminta oikea vai ei. Matemaattisesti ilmaistuna kyse on funktiosta: syötät jonkin syötteen ja haluat sen tuottavan oikean tuloksen, joten koko ongelma on yksinkertaisesti rakentaa malli tästä matemaattisesta funktiosta jollakin automaattisella tavalla. Erotuksena tekoälyyn: jos voin kirjoittaa erittäin nokkelan ohjelman, jolla on ihmisen kaltainen käyttäytyminen, se voi olla tekoälyä, mutta ellei sen parametreja opita automaattisesti datasta, se ei ole koneoppimista.
- Syväoppiminen on yksi koneoppimisen laji, joka on nykyään hyvin suosittu. Siinä on kyse tietynlaisesta matemaattisesta mallista, jota voidaan ajatella koostumuksena tietyntyyppisistä yksinkertaisista lohkoista (funktiokokoonpano), ja jossa joitakin näistä lohkoista voidaan säätää, jotta lopputulos voidaan ennustaa paremmin.
Mitä eroa on koneoppimisella ja tilastotieteellä?
Tässä artikkelissa pyritään vastaamaan kysymykseen. Kirjoittaja kirjoittaa, että tilastotiede on koneoppimista, jossa ennustettaville tai estimoitaville suureille on luottamusvälit. Olen yleensä eri mieltä, sillä olen rakentanut insinööriystävällisiä luottamusvälejä, jotka eivät vaadi matemaattista tai tilastollista osaamista.
3. Datatiede vs. koneoppiminen
Koneoppiminen ja tilastot ovat osa datatiedettä. Koneoppimisessa sana oppiminen tarkoittaa, että algoritmit ovat riippuvaisia jostain datasta, jota käytetään harjoitusjoukkona, joidenkin mallien tai algoritmien parametrien hienosäätämiseksi. Tämä kattaa monia tekniikoita, kuten regression, naiivin Bayesin tai valvotun klusteroinnin. Kaikki tekniikat eivät kuitenkaan sovi tähän luokkaan. Esimerkiksi valvomaton klusterointi – tilastotieteen ja tietojenkäsittelytieteen tekniikka – pyrkii havaitsemaan klustereita ja klusterirakenteita ilman, että luokittelualgoritmia auttaisi mikään ennakkotieto tai koulutusjoukko. Löydettyjen klustereiden merkitsemiseen tarvitaan ihmistä. Jotkin tekniikat ovat hybriditekniikoita, kuten puolivalvottu luokittelu. Jotkin hahmontunnistus- tai tiheyden estimointitekniikat kuuluvat tähän luokkaan.
Tietotiede on kuitenkin paljon muutakin kuin koneoppimista. Data, datatieteessä, voi tulla tai olla tulematta koneesta tai mekaanisesta prosessista (kyselytutkimusdata voi olla manuaalisesti kerättyä, kliinisiin tutkimuksiin liittyy tietyntyyppistä pientä dataa), eikä sillä välttämättä ole mitään tekemistä oppimisen kanssa, kuten äsken käsittelin. Tärkein ero on kuitenkin se, että datatiede kattaa datan käsittelyn koko kirjon, ei vain algoritmiset tai tilastolliset näkökohdat. Erityisesti datatiede kattaa myös
- tiedon integroinnin
- hajautetun arkkitehtuurin
- koneoppimisen automatisoinnin
- datan visualisoinnin
- taulukot ja BI:n
- tiedonkäsittelyn
- käyttöönoton tuotantomoodissa
- automaattisesti, datapohjaiset päätökset
Tietysti monissa organisaatioissa datatieteilijät keskittyvät vain yhteen osaan tästä prosessista. Jos haluat lukea joitain alkuperäisiä panostuksiani datatieteeseen, klikkaa tästä.
Seuraa @analyticbridge
Jos et jäisi jatkossa paitsi tämäntyyppisestä sisällöstä, tilaa uutiskirjeemme. Saman kirjoittajan aiheeseen liittyviä artikkeleita löydät täältä tai osoitteesta www.VincentGranville.com. Seuraa minua LinkedInissä tai käy vanhalla verkkosivullani täällä. Muita hyödyllisiä resursseja:
Vastaa