Rozdíl mezi strojovým učením, datovou vědou, umělou inteligencí, hlubokým učením a statistikou – Data Science Central
On 1 ledna, 2022 by adminV tomto článku objasňuji různé role datového vědce a porovnání a překrývání datové vědy s příbuznými obory, jako je strojové učení, hluboké učení, umělá inteligence, statistika, internet věcí, operační výzkum a aplikovaná matematika. Vzhledem k tomu, že datová věda je široká disciplína, začnu popisem různých typů datových vědců, s nimiž se lze setkat v jakémkoli podnikatelském prostředí: možná dokonce zjistíte, že jste sami datovým vědcem, aniž byste o tom věděli. Jako v každé vědecké disciplíně si datoví vědci mohou vypůjčit techniky z příbuzných oborů, ačkoli jsme vyvinuli vlastní arzenál, zejména techniky a algoritmy pro automatizované zpracování velmi rozsáhlých nestrukturovaných souborů dat, a to i bez lidské interakce, pro provádění transakcí v reálném čase nebo pro vytváření předpovědí.
1. Různé typy datových vědců
Pro začátek a získání historického pohledu si můžete přečíst můj článek o 9 typech datových vědců, publikovaný v roce 2014, nebo můj článek, kde srovnávám datovou vědu s 16 analytickými disciplínami, publikovaný rovněž v roce 2014.
Následující články, publikované ve stejném období, jsou stále užitečné:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Nejnověji (srpen 2016) Ajit Jaokar diskutoval o datovém vědci typu A (analytik) versus typu B (stavitel):
- Datový vědec typu A umí dostatečně dobře kódovat, aby mohl pracovat s daty, ale nemusí být nutně odborníkem. Datový vědec typu A může být odborníkem na experimentální design, prognózování, modelování, statistickou inferenci nebo jiné věci, které se obvykle vyučují na katedrách statistiky. Obecně však platí, že produktem práce datového vědce nejsou „p-hodnoty a intervaly spolehlivosti“, jak se někdy zdá, že akademická statistika naznačuje (a jak tomu někdy bývá například u tradičních statistiků pracujících ve farmaceutickém průmyslu). Ve společnosti Google se datovým vědcům typu A říká různě: Statistician, Quantitative Analyst, Decision Support Engineering Analyst nebo Data Scientist a pravděpodobně ještě několik dalších
- : B jako Building (budova). Datoví vědci typu B sdílejí určité statistické zázemí s typem A, ale jsou také velmi zdatnými programátory a mohou být vyškolenými softwarovými inženýry. Datového vědce typu B zajímá především používání dat „ve výrobě“. Vytvářejí modely, které komunikují s uživateli a často jim servírují doporučení (produkty, lidé, které možná znáte, reklamy, filmy, výsledky vyhledávání). Zdroj: klikněte zde.
Psal jsem také o ABCD optimalizace obchodních procesů, kde D znamená data science, C informatiku, B obchodní vědu a A analytiku. Datová věda může, ale nemusí zahrnovat kódování nebo matematické postupy, jak se můžete dočíst v mém článku o nízkoúrovňové versus vysokoúrovňové datové vědě. Ve startupu nosí datoví vědci obvykle několik klobouků, například výkonný pracovník, těžař dat, datový inženýr nebo architekt, výzkumný pracovník, statistik, modelář (jako v prediktivním modelování) nebo vývojář.
Ačkoli je datový vědec obecně představován jako kodér se zkušenostmi v R, Pythonu, SQL, Hadoopu a statistice, je to jen špička ledovce, kterou zpopularizovaly datové tábory zaměřené na výuku některých prvků datové vědy. Ale stejně jako si laboratorní technik může říkat fyzik, skutečný fyzik je mnohem víc než to a jeho odborné oblasti jsou rozmanité: astronomie, matematická fyzika, jaderná fyzika (která hraničí s chemií), mechanika, elektrotechnika, zpracování signálů (také podobor datové vědy) a mnoho dalších. Totéž lze říci o datových vědcích: obory jsou tak rozmanité jako bioinformatika, informační technologie, simulace a kontrola kvality, výpočetní finance, epidemiologie, průmyslové inženýrství, a dokonce i teorie čísel.
V mém případě jsem se v posledních 10 letech specializoval na komunikaci mezi stroji a zařízeními, vyvíjel jsem systémy pro automatické zpracování velkých souborů dat, pro provádění automatických transakcí: například nákup internetového provozu nebo automatické generování obsahu. Znamená to vyvíjet algoritmy, které pracují s nestrukturovanými daty, a je to průsečík umělé inteligence (AI), internetu věcí (IoT) a datové vědy. Označuje se jako hluboká datová věda. Je relativně bez matematiky a zahrnuje relativně málo kódování (většinou API), ale je poměrně náročná na data (včetně budování datových systémů) a založená na zcela nových statistických technologiích navržených speciálně pro tento kontext.
Předtím jsem pracoval na detekci podvodů s kreditními kartami v reálném čase. Na začátku své kariéry (asi v roce 1990) jsem pracoval na technologii dálkového průzkumu obrazu, mimo jiné na identifikaci vzorů (nebo tvarů či rysů, například jezer) na satelitních snímcích a na segmentaci obrazu: v té době byl můj výzkum označen jako výpočetní statistika, ale lidé, kteří dělali přesně totéž na vedlejším oddělení informatiky na mé domovské univerzitě, nazývali svůj výzkum umělou inteligencí. Dnes by se tomu říkalo datová věda nebo umělá inteligence, přičemž dílčími oblastmi jsou zpracování signálů, počítačové vidění nebo internet věcí.
Datové vědce lze také najít kdekoli v životním cyklu projektů datové vědy, ve fázi sběru dat nebo průzkumu dat, až po statistické modelování a údržbu stávajících systémů.
2. Strojové učení versus hluboké učení
Než se začneme hlouběji zabývat souvislostí mezi datovou vědou a strojovým učením, probereme si stručně strojové učení a hluboké učení. Strojové učení je soubor algoritmů, které se trénují na souboru dat, aby prováděly předpovědi nebo akce za účelem optimalizace některých systémů. Například klasifikační algoritmy pod dohledem se používají ke klasifikaci potenciálních klientů na dobré nebo špatné, pro účely půjček, na základě historických dat. Použité techniky pro danou úlohu (např. řízené shlukování) jsou různé: naivní Bayes, SVM, neuronové sítě, ansámbly, asociační pravidla, rozhodovací stromy, logistická regrese nebo kombinace mnoha z nich. Podrobný seznam algoritmů naleznete zde. Seznam problémů strojového učení naleznete zde.
Všechno toto je podmnožinou datové vědy. Pokud jsou tyto algoritmy automatizované, jako v případě automatického pilotování nebo aut bez řidiče, nazývá se to umělá inteligence, konkrétněji hluboké učení. Další článek srovnávající strojové učení s hlubokým učením naleznete zde. Pokud shromážděná data pocházejí ze senzorů a pokud jsou přenášena přes internet, pak se jedná o strojové učení nebo datovou vědu či hluboké učení aplikované na internet věcí.
Někteří lidé mají pro hluboké učení jinou definici. Hluboké učení považují za neuronové sítě (technika strojového učení) s hlubší vrstvou. Tato otázka byla nedávno položena na serveru Quora a níže je uvedeno podrobnější vysvětlení (zdroj: Quora)
- AI (Artificial intelligence) je podobor informatiky, který vznikl v 60. letech 20. století a zabýval (zabývá se) řešením úloh, které jsou pro člověka snadné, ale pro počítač těžké. Zejména takzvaná silná umělá inteligence by byl systém, který by dokázal vše, co dokáže člověk (třeba bez čistě fyzikálních věcí). To je poměrně obecné a zahrnuje to nejrůznější úlohy, jako je plánování, pohyb ve světě, rozpoznávání předmětů a zvuků, mluvení, překládání, provádění sociálních nebo obchodních transakcí, tvůrčí činnost (tvorba umění nebo poezie) atd.
- NLP (Natural language processing) je prostě ta část AI, která má co do činění s jazykem (obvykle psaným).
- Jedním z aspektů se zabývá strojové učení: při zadání nějakého problému UI, který lze popsat diskrétně (např. z určité množiny akcí, která je ta správná), a při množství informací o světě zjistit, jaká akce je „správná“, aniž by to musel programátor naprogramovat. Obvykle je potřeba nějaký vnější proces, který posoudí, zda akce byla správná, nebo ne. V matematických termínech jde o funkci: zadáte nějaký vstup a chcete, aby vyprodukoval správný výstup, takže celý problém spočívá v tom, že jednoduše nějakým automatickým způsobem vytvoříte model této matematické funkce. Abych to odlišil od umělé inteligence: pokud dokážu napsat velmi chytrý program, který se chová podobně jako člověk, může to být umělá inteligence, ale pokud se jeho parametry neučí automaticky z dat, není to strojové učení.
- Hluboké učení je jedním z druhů strojového učení, které je nyní velmi populární. Zahrnuje určitý druh matematického modelu, který si lze představit jako složení jednoduchých bloků (složení funkcí) určitého typu, přičemž některé z těchto bloků lze upravit tak, aby lépe předpovídaly konečný výsledek.
Jaký je rozdíl mezi strojovým učením a statistikou?
Tento článek se snaží odpovědět na tuto otázku. Autor píše, že statistika je strojové učení s intervaly spolehlivosti pro předpovídané nebo odhadované veličiny. S tím spíše nesouhlasím, protože jsem sestavil intervaly spolehlivosti vhodné pro inženýry, které nevyžadují žádné matematické ani statistické znalosti.
3. Datová věda versus strojové učení
Strojové učení a statistika jsou součástí datové vědy. Slovo učení ve slově strojové učení znamená, že algoritmy jsou závislé na určitých datech, která se používají jako trénovací množina, aby se vyladily některé parametry modelu nebo algoritmu. To zahrnuje mnoho technik, jako je regrese, naivní Bayes nebo shlukování pod dohledem. Ne všechny techniky však spadají do této kategorie. Například neřízené shlukování – technika statistiky a datové vědy – má za cíl odhalit shluky a shlukové struktury bez jakýchkoli apriorních znalostí nebo trénovací množiny, které by klasifikačnímu algoritmu pomohly. K označení nalezených shluků je zapotřebí člověka. Některé techniky jsou hybridní, například polopřímá klasifikace. Do této kategorie spadají některé techniky detekce vzorů nebo odhadu hustoty.
Datová věda je však mnohem více než strojové učení. Data v datové vědě mohou, ale nemusí pocházet ze strojového nebo mechanického procesu (data z průzkumů mohou být sbírána ručně, klinické studie zahrnují specifický typ malých dat) a nemusí mít nic společného s učením, o kterém jsem právě hovořil. Hlavní rozdíl však spočívá v tom, že datová věda zahrnuje celé spektrum zpracování dat, nejen algoritmické nebo statistické aspekty. Datová věda zahrnuje zejména také
- integraci dat
- distribuovanou architekturu
- automatizované strojové učení
- vizualizaci dat
- dashboardy a BI
- data engineering
- nasazení v produkčním režimu
- automatizované, rozhodování na základě dat
V mnoha organizacích se samozřejmě datoví vědci zaměřují pouze na jednu část tohoto procesu. Chcete-li si přečíst o některých mých původních příspěvcích k datové vědě, klikněte zde.
Sledujte @analyticbridge
Abyste o tento typ obsahu v budoucnu nepřišli, přihlaste se k odběru našeho newsletteru. Související články od stejného autora naleznete zde nebo na adrese www.VincentGranville.com. Sledujte mě na síti LinkedIn nebo navštivte mou starou webovou stránku zde. Další užitečné zdroje:
Napsat komentář