Különbség a gépi tanulás, az adattudomány, a mesterséges intelligencia, a mélytanulás és a statisztika között – Data Science Central
On január 1, 2022 by adminA cikkben tisztázom az adattudós különböző szerepeit, valamint azt, hogy az adattudomány hogyan hasonlít és átfedésben van a kapcsolódó területekkel, mint például a gépi tanulás, a mélytanulás, a mesterséges intelligencia, a statisztika, az IoT, az operációkutatás és az alkalmazott matematika. Mivel az adattudomány egy tág tudományág, azzal kezdem, hogy bemutatom az adattudósok különböző típusait, amelyekkel bármely üzleti környezetben találkozhatunk: még az is előfordulhat, hogy Ön is adattudós, anélkül, hogy tudna róla. Mint minden tudományágban, az adattudósok is kölcsönözhetnek technikákat a rokon tudományágakból, bár saját arzenált fejlesztettünk ki, különösen olyan technikákat és algoritmusokat, amelyekkel nagyon nagy, strukturálatlan adathalmazokat lehet automatizált módon, akár emberi beavatkozás nélkül kezelni, tranzakciókat valós időben végrehajtani vagy előrejelzéseket készíteni.
1. Az adattudósok különböző típusai
Az induláshoz és némi történelmi áttekintéshez elolvashatja a 2014-ben megjelent, az adattudósok 9 típusáról szóló cikkemet, vagy a szintén 2014-ben megjelent cikkemet, amelyben az adattudományt 16 analitikai tudományággal hasonlítom össze.
A következő, ugyanebben az időszakban megjelent cikkek még mindig hasznosak:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Még nemrég (2016 augusztusában) Ajit Jaokar tárgyalta az A típusú (Analytics) versus B típusú (Builder) adattudósokat:
- A Type A Data Scientist elég jól tud kódolni ahhoz, hogy adatokkal dolgozzon, de nem feltétlenül szakértő. Az A típusú adatkutató lehet szakértője a kísérleti tervezésnek, az előrejelzésnek, a modellezésnek, a statisztikai következtetésnek vagy más, jellemzően a statisztika tanszékeken tanított dolgoknak. Általánosságban elmondható azonban, hogy az adatkutató munkája nem “p-értékek és konfidenciaintervallumok”, ahogyan azt az akadémiai statisztika néha sugallja (és ahogyan azt például a gyógyszeriparban dolgozó hagyományos statisztikusok esetében is). A Google-nál az A típusú adattudósokat különbözőképpen nevezik statisztikusnak, kvantitatív elemzőnek, döntéstámogató mérnöki elemzőnek vagy adattudósnak, és valószínűleg még néhány más néven.
- B típusú adattudós: A B az épületet jelenti. A B típusú adattudósok rendelkeznek némi statisztikai háttérrel az A típusúakkal, de emellett nagyon erős kódolók, és lehetnek képzett szoftvermérnökök is. A B típusú adatkutatót elsősorban az adatok “termelésben” történő felhasználása érdekli. Olyan modelleket építenek, amelyek interakcióba lépnek a felhasználókkal, gyakran ajánlásokat szolgálnak ki (termékek, ismerősök, hirdetések, filmek, keresési eredmények). Forrás: kattintson ide.
Az üzleti folyamatok optimalizálásának ABCD-iről is írtam, ahol a D az adattudományt, a C az informatikát, a B az üzleti tudományt, az A pedig az analitikai tudományt jelenti. Az adattudomány magában foglalhat kódolást vagy matematikai gyakorlatot, de nem feltétlenül, ahogy azt az alacsony szintű versus magas szintű adattudományról szóló cikkemben olvashatod. Egy startupban az adattudósok általában több kalapot is viselnek, például vezető, adatbányász, adatmérnök vagy -architekt, kutató, statisztikus, modellező (mint a prediktív modellezésben) vagy fejlesztő.
Míg az adattudóst általában az R, Python, SQL, Hadoop és statisztika terén jártas kódolóként ábrázolják, ez csak a jéghegy csúcsa, amelyet az adattudomány egyes elemeinek oktatására összpontosító adattáborok tettek népszerűvé. De ahogyan egy laboráns is nevezheti magát fizikusnak, az igazi fizikus ennél sokkal több, és a szakterületei változatosak: csillagászat, matematikai fizika, atomfizika (ami a kémia határterületét jelenti), mechanika, elektrotechnika, jelfeldolgozás (ami szintén az adattudomány egyik részterülete) és még sok más. Ugyanez elmondható az adattudósokról is: a területek olyan változatosak, mint a bioinformatika, az informatika, a szimulációk és a minőségellenőrzés, a számítógépes pénzügyek, a járványtan, az ipari mérnöki tudományok, sőt még a számelmélet is.
A saját esetemben az elmúlt 10 évben a gép-gép és eszköz-eszköz kommunikációra specializálódtam, olyan rendszereket fejlesztettem, amelyek nagy adathalmazok automatikus feldolgozására, automatikus tranzakciók végrehajtására szolgálnak: például internetes forgalom vásárlására vagy automatikus tartalomgenerálásra. Ez olyan algoritmusok fejlesztését jelenti, amelyek strukturálatlan adatokkal dolgoznak, és az AI (mesterséges intelligencia,) IoT (a dolgok internete,) és az adattudomány metszéspontjában helyezkedik el. Ezt nevezik mély adattudománynak. Viszonylag matematikamentes, és viszonylag kevés kódolást igényel (főként API-kat), de meglehetősen adatintenzív (beleértve az adatrendszerek kiépítését), és kifejezetten erre a kontextusra tervezett vadonatúj statisztikai technológián alapul.
Előtte a hitelkártyacsalások valós idejű felderítésén dolgoztam. Pályafutásom korábbi szakaszában (1990 körül) képi távérzékelési technológián dolgoztam, többek között a műholdas képeken lévő minták (vagy alakzatok vagy jellemzők, például tavak) azonosítására és a képek szegmentálására: akkoriban a kutatásomat számításos statisztikának bélyegezték, de azok az emberek, akik pontosan ugyanezt csinálták a szomszédos informatikai tanszéken, az otthoni egyetememen, mesterséges intelligenciának nevezték a kutatásukat. Ma ezt neveznénk adattudománynak vagy mesterséges intelligenciának, a részterületek pedig jelfeldolgozás, számítógépes látás vagy IoT.
Az adattudósok az adattudományi projektek életciklusában bárhol megtalálhatók, az adatgyűjtés vagy az adatfeltárás szakaszában, egészen a statisztikai modellezésig és a meglévő rendszerek karbantartásáig.
2. Gépi tanulás kontra mélytanulás
Mielőtt mélyebben beleásnánk magunkat az adattudomány és a gépi tanulás közötti kapcsolatba, beszéljünk röviden a gépi tanulásról és a mélytanulásról. A gépi tanulás olyan algoritmusok összessége, amelyek egy adathalmazon edződnek, hogy előrejelzéseket készítsenek vagy lépéseket tegyenek egyes rendszerek optimalizálása érdekében. Például a felügyelt osztályozási algoritmusokat arra használják, hogy a potenciális ügyfeleket hitelezési célokra jó vagy rossz kilátásokba sorolják a múltbeli adatok alapján. Az érintett technikák egy adott feladathoz (pl. felügyelt klaszterezés) változatosak: naiv Bayes, SVM, neurális hálók, együttesek, asszociációs szabályok, döntési fák, logisztikus regresszió vagy ezek kombinációja. Az algoritmusok részletes listájáért kattintson ide. A gépi tanulási problémák listájáért kattintson ide.
Mindez az adattudomány egy részhalmaza. Amikor ezeket az algoritmusokat automatizálják, mint az automatizált pilóta vagy a vezető nélküli autók esetében, azt mesterséges intelligenciának, pontosabban mélytanulásnak nevezik. Kattintson ide egy másik cikkért, amely a gépi tanulást és a mélytanulást hasonlítja össze. Ha az összegyűjtött adatok érzékelőktől származnak, és ha azokat az interneten keresztül továbbítják, akkor gépi tanulásról vagy adattudományról vagy IoT-re alkalmazott mélytanulásról van szó.
Egyeseknek más a mélytanulás definíciója. Ők a mélytanulást neurális hálózatoknak (gépi tanulási technika) tekintik, egy mélyebb réteggel. A kérdést a Quora-n tették fel nemrég, az alábbiakban pedig részletesebb magyarázatot találunk (forrás: Quora)
- Az AI (Artificial intelligence) az informatika egyik részterülete, amely az 1960-as években jött létre, és olyan feladatok megoldásával foglalkozott (foglalkozik), amelyek az ember számára könnyűek, de a számítógépek számára nehezek. Konkrétan egy ún. erős mesterséges intelligencia lenne egy olyan rendszer, amely mindent meg tud csinálni, amit egy ember is (esetleg tisztán fizikai dolgok nélkül). Ez meglehetősen általános, és mindenféle feladatot magában foglal, például tervezést, a világban való mozgást, tárgyak és hangok felismerését, beszédet, fordítást, társadalmi vagy üzleti tranzakciókat, kreatív munkát (művészet vagy költészet készítését) stb.
- AzNLP (Natural language processing) egyszerűen az AI azon része, amely a (általában írott) nyelvvel foglalkozik.
- A gépi tanulás ennek egyik aspektusával foglalkozik: adott valamilyen AI probléma, ami diszkrét fogalmakkal leírható (pl. egy adott cselekvéshalmazból melyik a helyes), és adott egy csomó információ a világról, kitalálni, hogy mi a “helyes” cselekvés, anélkül, hogy a programozó beprogramozná. Jellemzően valamilyen külső folyamatra van szükség annak megítéléséhez, hogy az akció helyes volt-e vagy sem. Matematikai értelemben ez egy függvény: betáplálsz valamilyen bemenetet, és azt akarod, hogy a megfelelő kimenetet produkálja, így az egész probléma egyszerűen az, hogy valamilyen automatikus módon felépítsük ennek a matematikai függvénynek a modelljét. Hogy különbséget tegyek a mesterséges intelligenciával: ha tudok írni egy nagyon okos programot, amely emberhez hasonlóan viselkedik, akkor az lehet mesterséges intelligencia, de ha a paramétereit nem tanulja meg automatikusan az adatokból, akkor az nem gépi tanulás.
- A mélytanulás a gépi tanulás egyik fajtája, amely mostanában nagyon népszerű. Olyan különleges matematikai modellről van szó, amelyet egy bizonyos típusú egyszerű blokkok kompozíciójaként (függvénykompozíció) lehet elképzelni, és ahol e blokkok némelyike beállítható a végeredmény jobb előrejelzése érdekében.
Mi a különbség a gépi tanulás és a statisztika között?
Ez a cikk a kérdésre próbál választ adni. A szerző azt írja, hogy a statisztika gépi tanulás a megjósolandó vagy becsülendő mennyiségek konfidenciaintervallumaival. Hajlok arra, hogy ne értsek egyet, mivel építettem olyan mérnökbarát konfidenciaintervallumokat, amelyek nem igényelnek matematikai vagy statisztikai ismereteket.
3. Adattudomány kontra gépi tanulás
A gépi tanulás és a statisztika az adattudomány része. A tanulás szó a gépi tanulásban azt jelenti, hogy az algoritmusok bizonyos adatoktól függenek, amelyeket gyakorlóhalmazként használnak, hogy finomhangoljanak bizonyos modell- vagy algoritmusparamétereket. Ez számos technikát foglal magában, mint például a regresszió, a naiv Bayes vagy a felügyelt klaszterezés. De nem minden technika tartozik ebbe a kategóriába. Például a felügyelet nélküli klaszterezés – egy statisztikai és adattudományi technika – célja a klaszterek és klaszterstruktúrák felismerése anélkül, hogy az osztályozó algoritmusnak bármilyen előzetes ismeret vagy képzési halmaz segítené az osztályozást. A megtalált klaszterek címkézéséhez emberre van szükség. Egyes technikák hibridek, mint például a félig felügyelt osztályozás. Néhány mintafelismerési vagy sűrűségbecslési technika ebbe a kategóriába tartozik.
Az adattudomány azonban sokkal több, mint gépi tanulás. Az adatok az adattudományban származhatnak vagy nem származhatnak gépi vagy gépi folyamatból (a felmérési adatok származhatnak kézzel gyűjtött adatokból, a klinikai vizsgálatok egy bizonyos típusú kis adatot tartalmaznak), és lehet, hogy semmi közük a tanuláshoz, ahogyan azt az imént tárgyaltam. A fő különbség azonban az, hogy az adattudomány az adatfeldolgozás teljes spektrumát lefedi, nem csak az algoritmikus vagy statisztikai szempontokat. Különösen az adattudomány kiterjed
- adatintegrációra
- elosztott architektúrára
- gépi tanulás automatizálására
- adatvizualizációra
- dashboardokra és BI
- adatszerkesztésre
- termelő üzemmódban
- automatizált telepítésre is, adatvezérelt döntések
Természetesen sok szervezetben az adattudósok ennek a folyamatnak csak egy részére koncentrálnak. Az adattudományhoz való néhány eredeti hozzájárulásomról ide kattintva olvashat.
Follow @analyticbridge
Hallgassa a @analyticbridge-t
Hogy a jövőben ne maradjon le az ilyen típusú tartalmakról, iratkozzon fel hírlevelünkre. Ugyanezen szerző kapcsolódó cikkeiért kattintson ide, vagy látogasson el a www.VincentGranville.com oldalra. Kövessen a LinkedIn-en, vagy látogasson el a régi weboldalamra itt. Egyéb hasznos források:
Vélemény, hozzászólás?