Diferența dintre învățarea automată, știința datelor, inteligența artificială, învățarea profundă și statistică – Data Science Central
On ianuarie 1, 2022 by adminÎn acest articol, clarific diferitele roluri ale cercetătorului de date și modul în care știința datelor se compară și se suprapune cu domenii conexe, cum ar fi învățarea automată, învățarea profundă, inteligența artificială, statistica, IoT, cercetarea operațională și matematica aplicată. Având în vedere că știința datelor este o disciplină vastă, încep prin a descrie diferitele tipuri de oameni de știință de date pe care le putem întâlni în orice mediu de afaceri: s-ar putea chiar să descoperiți că sunteți și dumneavoastră un om de știință de date, fără să știți acest lucru. Ca în orice disciplină științifică, oamenii de știință de date pot împrumuta tehnici de la discipline înrudite, deși ne-am dezvoltat propriul arsenal, în special tehnici și algoritmi pentru a trata seturi foarte mari de date nestructurate în mod automat, chiar și fără interacțiuni umane, pentru a efectua tranzacții în timp real sau pentru a face predicții.
1. Diferite tipuri de cercetători de date
Pentru a începe și a obține o perspectivă istorică, puteți citi articolul meu despre 9 tipuri de cercetători de date, publicat în 2014, sau articolul meu în care compar știința datelor cu 16 discipline analitice, publicat tot în 2014.
Următoarele articole, publicate în aceeași perioadă de timp, sunt încă utile:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Mai recent (august 2016) Ajit Jaokar a discutat despre tipul A (Analytics) versus tipul B (Builder) de cercetător de date:
- Cercetătorul de date de tip A poate codifica suficient de bine pentru a lucra cu date, dar nu este neapărat un expert. Omul de știință de date de tip A poate fi un expert în proiectare experimentală, prognoză, modelare, inferență statistică sau alte lucruri predate de obicei în departamentele de statistică. Totuși, în general, produsul muncii unui cercetător de date nu sunt „valori p și intervale de încredere”, așa cum pare să sugereze uneori statistica academică (și așa cum este uneori pentru statisticienii tradiționali care lucrează în industria farmaceutică, de exemplu). La Google, oamenii de știință de date de tip A sunt cunoscuți în mod diferit ca statistician, analist cantitativ, analist de inginerie de sprijinire a deciziilor sau cercetător de date și, probabil, câteva altele.
- Om de știință de date de tip B: B-ul vine de la Building. Oamenii de știință de date de tip B împărtășesc o anumită pregătire statistică cu cei de tip A, dar sunt, de asemenea, codificatori foarte puternici și pot fi ingineri software cu pregătire. Omul de știință de date de tip B este interesat în principal de utilizarea datelor „în producție”. Aceștia construiesc modele care interacționează cu utilizatorii, servind adesea recomandări (produse, persoane pe care le puteți cunoaște, reclame, filme, rezultate de căutare). Sursa: click aici.
Am scris, de asemenea, despre ABCD-urile de optimizare a proceselor de afaceri, unde D reprezintă știința datelor, C pentru informatică, B pentru știința afacerilor și A pentru știința analizei. Știința datelor poate implica sau nu codare sau practică matematică, după cum puteți citi în articolul meu despre știința datelor de nivel scăzut versus știința datelor de nivel înalt. Într-un startup, oamenii de știință de date poartă în general mai multe pălării, cum ar fi director, miner de date, inginer sau arhitect de date, cercetător, statistician, modelator (ca în modelarea predictivă) sau dezvoltator.
În timp ce omul de știință de date este în general portretizat ca fiind un programator cu experiență în R, Python, SQL, Hadoop și statistică, acesta este doar vârful icebergului, popularizat de taberele de date care se concentrează pe predarea unor elemente de știință de date. Dar, la fel cum un tehnician de laborator se poate autointitula fizician, adevăratul fizician este mult mai mult decât atât, iar domeniile sale de expertiză sunt variate: astronomie, fizică matematică, fizică nucleară (care este la granița cu chimia), mecanică, inginerie electrică, procesarea semnalelor (de asemenea, un subdomeniu al științei datelor) și multe altele. Același lucru se poate spune și despre cercetătorii de date: domeniile sunt la fel de variate ca bioinformatica, tehnologia informației, simulările și controlul calității, finanțele computaționale, epidemiologia, ingineria industrială și chiar teoria numerelor.
În cazul meu, în ultimii 10 ani, m-am specializat în comunicațiile de la mașină la mașină și de la dispozitiv la dispozitiv, dezvoltând sisteme de procesare automată a unor seturi mari de date, pentru a efectua tranzacții automate: de exemplu, achiziționarea de trafic pe internet sau generarea automată de conținut. Aceasta implică dezvoltarea de algoritmi care lucrează cu date nestructurate și se află la intersecția dintre AI (inteligență artificială), IoT (Internet of things) și știința datelor. Acest lucru este denumit știință profundă a datelor. Este relativ lipsită de matematică și implică relativ puțină codificare (în principal API-uri), dar este destul de intensivă în ceea ce privește datele (inclusiv construirea de sisteme de date) și se bazează pe o tehnologie statistică complet nouă, concepută special pentru acest context.
Anterior, am lucrat la detectarea fraudelor cu carduri de credit în timp real. La începutul carierei mele (în jurul anului 1990) am lucrat la tehnologia de teledetecție a imaginilor, printre altele pentru a identifica modele (sau forme sau caracteristici, de exemplu lacuri) în imaginile din satelit și pentru a efectua segmentarea imaginilor: la acea vreme, cercetarea mea a fost etichetată drept statistică computațională, dar cei care făceau exact același lucru în departamentul de informatică de alături, în universitatea mea natală, își numeau cercetarea inteligență artificială. Astăzi, s-ar numi știința datelor sau inteligență artificială, subdomeniile fiind procesarea semnalelor, viziunea computerizată sau IoT.
De asemenea, cercetătorii de date pot fi găsiți oriunde în ciclul de viață al proiectelor de știință a datelor, în etapa de colectare a datelor sau în etapa de explorare a datelor, până la modelarea statistică și întreținerea sistemelor existente.
2. Machine Learning versus Deep Learning
Înainte de a aprofunda legătura dintre știința datelor și machine learning, haideți să discutăm pe scurt despre machine learning și deep learning. Învățarea automată este un set de algoritmi care se antrenează pe un set de date pentru a face predicții sau pentru a întreprinde acțiuni în vederea optimizării unor sisteme. De exemplu, algoritmii de clasificare supravegheată sunt utilizați pentru a clasifica potențialii clienți în perspective bune sau rele, în scopul acordării de împrumuturi, pe baza datelor istorice. Tehnicile implicate, pentru o anumită sarcină (de exemplu, clasificarea supravegheată), sunt variate: naive Bayes, SVM, rețele neuronale, ansambluri, reguli de asociere, arbori de decizie, regresie logistică sau o combinație a mai multor tehnici. Pentru o listă detaliată a algoritmilor, faceți clic aici. Pentru o listă de probleme de învățare automată, faceți clic aici.
Toate acestea reprezintă un subset al științei datelor. Atunci când acești algoritmi sunt automatizați, ca în cazul pilotării automate sau al mașinilor fără șofer, se numește IA și, mai exact, învățare profundă. Faceți clic aici pentru un alt articol care compară învățarea automată cu învățarea profundă. Dacă datele colectate provin de la senzori și dacă sunt transmise prin intermediul internetului, atunci este vorba de machine learning sau data science sau deep learning aplicat la IoT.
Câteva persoane au o definiție diferită pentru deep learning. Aceștia consideră învățarea profundă ca fiind rețele neuronale (o tehnică de învățare automată) cu un strat mai profund. Întrebarea a fost pusă recent pe Quora, iar mai jos este o explicație mai detaliată (sursa: Quora)
- AI (inteligența artificială) este un subdomeniu al informaticii, care a fost creat în anii 1960, și a fost (este) preocupat de rezolvarea sarcinilor care sunt ușoare pentru oameni, dar dificile pentru computere. În special, o așa-numită inteligență artificială puternică ar fi un sistem care poate face tot ceea ce poate face un om (poate fără lucruri pur fizice). Acest lucru este destul de generic și include tot felul de sarcini, cum ar fi planificarea, deplasarea în lume, recunoașterea obiectelor și a sunetelor, vorbirea, traducerea, efectuarea de tranzacții sociale sau de afaceri, munca creativă (realizarea de artă sau poezie) etc.
- NLP (Natural language processing) este pur și simplu partea din AI care are de-a face cu limbajul (de obicei scris).
- Învățarea mașinilor se ocupă de un aspect al acestui aspect: având în vedere o anumită problemă de inteligență artificială care poate fi descrisă în termeni discreți (de exemplu, dintr-un anumit set de acțiuni, care este cea corectă), și având în vedere o mulțime de informații despre lume, aflați care este acțiunea „corectă”, fără ca programatorul să o programeze. De obicei, este nevoie de un proces extern pentru a judeca dacă acțiunea a fost corectă sau nu. În termeni matematici, este vorba de o funcție: introduceți o anumită intrare și doriți ca aceasta să producă rezultatul corect, astfel încât întreaga problemă constă pur și simplu în construirea unui model al acestei funcții matematice într-un mod automat. Pentru a face o distincție cu inteligența artificială, dacă pot scrie un program foarte inteligent care are un comportament asemănător cu cel uman, poate fi inteligență artificială, dar dacă parametrii săi nu sunt învățați automat din date, nu este învățare automată.
- Învățarea profundă este un tip de învățare automată care este foarte popular în prezent. Implică un anumit tip de model matematic care poate fi gândit ca o compoziție de blocuri simple (compoziție de funcții) de un anumit tip, și în care unele dintre aceste blocuri pot fi ajustate pentru a prezice mai bine rezultatul final.
Care este diferența dintre învățarea automată și statistică?
Acest articol încearcă să răspundă la această întrebare. Autorul scrie că statistica este învățarea automată cu intervale de încredere pentru cantitățile care sunt prezise sau estimate. Tind să nu fiu de acord, deoarece am construit intervale de încredere prietenoase pentru ingineri care nu necesită cunoștințe matematice sau statistice.
3. Știința datelor versus învățarea automată
Învățarea automată și statistica fac parte din știința datelor. Cuvântul învățare în învățarea automată înseamnă că algoritmii depind de anumite date, folosite ca set de antrenament, pentru a regla fin unii parametri ai modelului sau algoritmului. Aceasta înglobează multe tehnici, cum ar fi regresia, naive Bayes sau gruparea supravegheată. Dar nu toate tehnicile se încadrează în această categorie. De exemplu, gruparea nesupravegheată – o tehnică statistică și de știință a datelor – are ca scop detectarea clusterelor și a structurilor de clustere fără cunoștințe a priori sau seturi de pregătire care să ajute algoritmul de clasificare. Este nevoie de o ființă umană pentru a eticheta clusterele găsite. Unele tehnici sunt hibride, cum ar fi clasificarea semisupravegheată. Unele tehnici de detectare a tiparelor sau de estimare a densității se încadrează în această categorie.
Știința datelor este însă mult mai mult decât învățarea automată. Datele, în știința datelor, pot proveni sau nu de la o mașină sau de la un proces mecanic (datele de sondaj ar putea fi colectate manual, studiile clinice implică un anumit tip de date mici) și ar putea să nu aibă nimic de-a face cu învățarea, așa cum tocmai am discutat. Dar principala diferență constă în faptul că știința datelor acoperă întregul spectru al prelucrării datelor, nu doar aspectele algoritmice sau statistice. În special, știința datelor acoperă și
- integrarea datelor
- arhitectura distribuită
- automatizarea învățării automate
- vizualizarea datelor
- tablouri de bord și BI
- ingineria datelor
- implementarea în regim de producție
- automată, decizii bazate pe date
Desigur, în multe organizații, cercetătorii de date se concentrează doar pe o parte a acestui proces. Pentru a citi despre unele dintre contribuțiile mele originale la știința datelor, faceți clic aici.
Follow @analyticbridge
Pentru a nu pierde acest tip de conținut în viitor, abonați-vă la newsletter-ul nostru. Pentru articole conexe ale aceluiași autor, faceți clic aici sau vizitați www.VincentGranville.com. Urmăriți-mă pe pe LinkedIn sau vizitați vechea mea pagină web aici. Alte resurse utile:
Lasă un răspuns