Differenza tra Machine Learning, Data Science, AI, Deep Learning e Statistica – Data Science Central
Il Gennaio 1, 2022 da adminIn questo articolo, chiarisco i vari ruoli del data scientist, e come la scienza dei dati si confronta e si sovrappone a campi correlati come il machine learning, il deep learning, l’AI, le statistiche, l’IoT, la ricerca operativa e la matematica applicata. Poiché la scienza dei dati è una disciplina ampia, inizio descrivendo i diversi tipi di scienziati dei dati che si possono incontrare in qualsiasi ambiente aziendale: potreste persino scoprire di essere voi stessi uno scienziato dei dati, senza saperlo. Come in ogni disciplina scientifica, i data scientist possono prendere in prestito tecniche da discipline affini, anche se abbiamo sviluppato un nostro arsenale, in particolare tecniche e algoritmi per gestire insiemi di dati non strutturati molto grandi in modo automatizzato, anche senza interazioni umane, per eseguire operazioni in tempo reale o per fare previsioni.
1. Diversi tipi di scienziati dei dati
Per iniziare e ottenere qualche prospettiva storica, puoi leggere il mio articolo sui 9 tipi di scienziati dei dati, pubblicato nel 2014, o il mio articolo in cui confronto la scienza dei dati con 16 discipline analitiche, anch’esso pubblicato nel 2014.
I seguenti articoli, pubblicati nello stesso periodo, sono ancora utili:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Più recentemente (agosto 2016) Ajit Jaokar ha discusso il data scientist di tipo A (Analytics) versus tipo B (Builder):
- Lo scienziato dei dati di tipo A può codificare abbastanza bene per lavorare con i dati ma non è necessariamente un esperto. Lo scienziato dei dati di tipo A può essere un esperto in disegno sperimentale, previsione, modellazione, inferenza statistica, o altre cose tipicamente insegnate nei dipartimenti di statistica. In generale, però, il prodotto del lavoro di uno scienziato dei dati non è “valori p e intervalli di confidenza” come la statistica accademica a volte sembra suggerire (e come a volte è per gli statistici tradizionali che lavorano nell’industria farmaceutica, per esempio). In Google, gli scienziati dei dati di tipo A sono conosciuti variamente come statistico, analista quantitativo, analista di supporto alle decisioni, o scienziato dei dati, e probabilmente alcuni altri.
- Scienziato dei dati di tipo B: La B sta per Building. Gli scienziati di dati di tipo B condividono un certo background statistico con quelli di tipo A, ma sono anche codificatori molto forti e possono essere ingegneri del software formati. Il Data Scientist di tipo B è principalmente interessato ad usare i dati “in produzione”. Costruiscono modelli che interagiscono con gli utenti, spesso servendo raccomandazioni (prodotti, persone che potresti conoscere, annunci, film, risultati di ricerca). Fonte: clicca qui.
Ho anche scritto sugli ABCD dell’ottimizzazione dei processi aziendali, dove D sta per data science, C per computer science, B per business science e A per analytics science. La scienza dei dati può coinvolgere o meno la codifica o la pratica matematica, come potete leggere nel mio articolo sulla scienza dei dati di basso livello contro quella di alto livello. In una startup, gli scienziati dei dati generalmente indossano diversi cappelli, come dirigente, data miner, ingegnere dei dati o architetto, ricercatore, statistico, modellatore (come nella modellazione predittiva) o sviluppatore.
Mentre lo scienziato dei dati è generalmente ritratto come un codificatore esperto in R, Python, SQL, Hadoop e statistiche, questa è solo la punta dell’iceberg, resa popolare dai campi dati che si concentrano sull’insegnamento di alcuni elementi della scienza dei dati. Ma proprio come un tecnico di laboratorio può definirsi un fisico, il vero fisico è molto di più, e i suoi domini di competenza sono vari: astronomia, fisica matematica, fisica nucleare (che è al limite della chimica), meccanica, ingegneria elettrica, elaborazione dei segnali (anche un sottocampo della scienza dei dati) e molti altri. Lo stesso si può dire degli scienziati dei dati: i campi sono vari come la bioinformatica, l’informatica, le simulazioni e il controllo di qualità, la finanza computazionale, l’epidemiologia, l’ingegneria industriale e persino la teoria dei numeri.
Nel mio caso, negli ultimi 10 anni, mi sono specializzato in comunicazioni machine-to-machine e device-to-device, sviluppando sistemi per elaborare automaticamente grandi set di dati, per eseguire transazioni automatizzate: per esempio, acquistare traffico Internet o generare automaticamente contenuti. Implica lo sviluppo di algoritmi che lavorano con dati non strutturati, ed è all’intersezione di AI (intelligenza artificiale), IoT (Internet delle cose) e scienza dei dati. Questo è indicato come scienza dei dati profonda. È relativamente privo di matematica e comporta relativamente poca codifica (per lo più API), ma è abbastanza intensivo di dati (compresa la costruzione di sistemi di dati) e basato su una tecnologia statistica nuova di zecca progettata appositamente per questo contesto.
Prima di questo, ho lavorato sul rilevamento delle frodi con carta di credito in tempo reale. All’inizio della mia carriera (circa 1990) ho lavorato sulla tecnologia di telerilevamento delle immagini, tra le altre cose per identificare modelli (o forme o caratteristiche, per esempio i laghi) nelle immagini satellitari e per eseguire la segmentazione delle immagini: a quel tempo la mia ricerca era etichettata come statistica computazionale, ma le persone che facevano la stessa cosa nel dipartimento di informatica della porta accanto nella mia università, chiamavano la loro ricerca intelligenza artificiale. Oggi si chiamerebbe scienza dei dati o intelligenza artificiale, e i sottodomini sarebbero l’elaborazione dei segnali, la computer vision o l’IoT.
Inoltre, gli scienziati dei dati si possono trovare ovunque nel ciclo di vita dei progetti di scienza dei dati, nella fase di raccolta dei dati, o nella fase esplorativa dei dati, fino alla modellazione statistica e alla manutenzione dei sistemi esistenti.
2. Machine Learning contro Deep Learning
Prima di scavare più a fondo nel legame tra scienza dei dati e apprendimento automatico, discutiamo brevemente l’apprendimento automatico e l’apprendimento profondo. L’apprendimento automatico è un insieme di algoritmi che si allenano su una serie di dati per fare previsioni o intraprendere azioni al fine di ottimizzare alcuni sistemi. Per esempio, gli algoritmi di classificazione supervisionata sono utilizzati per classificare i potenziali clienti in buone o cattive prospettive, ai fini del prestito, sulla base di dati storici. Le tecniche coinvolte, per un dato compito (ad esempio il clustering supervisionato), sono varie: Baia ingenua, SVM, reti neurali, ensemble, regole di associazione, alberi decisionali, regressione logistica, o una combinazione di molti. Per una lista dettagliata degli algoritmi, clicca qui. Per una lista di problemi di apprendimento automatico, clicca qui.
Tutto questo è un sottoinsieme della scienza dei dati. Quando questi algoritmi sono automatizzati, come nel pilotaggio automatico o nelle auto senza conducente, si chiama AI, e più specificamente, deep learning. Clicca qui per un altro articolo che confronta l’apprendimento automatico con l’apprendimento profondo. Se i dati raccolti provengono da sensori e se sono trasmessi via Internet, allora si tratta di apprendimento automatico o scienza dei dati o apprendimento profondo applicato all’IoT.
Alcuni hanno una definizione diversa di apprendimento profondo. Considerano l’apprendimento profondo come reti neurali (una tecnica di apprendimento automatico) con uno strato più profondo. La domanda è stata posta su Quora di recente, e qui sotto c’è una spiegazione più dettagliata (fonte: Quora)
- AI (Intelligenza Artificiale) è un sottocampo dell’informatica, che è stato creato negli anni ’60, ed era (è) interessato a risolvere compiti che sono facili per gli umani, ma difficili per i computer. In particolare, una cosiddetta IA forte sarebbe un sistema che può fare tutto ciò che un umano può (forse senza cose puramente fisiche). Questo è abbastanza generico, e include tutti i tipi di compiti, come pianificare, muoversi nel mondo, riconoscere oggetti e suoni, parlare, tradurre, eseguire transazioni sociali o commerciali, lavoro creativo (fare arte o poesia), ecc.
- NLP (Natural language processing) è semplicemente la parte di IA che ha a che fare con il linguaggio (solitamente scritto).
- L’apprendimento automatico si occupa di un aspetto di questo: dato qualche problema di IA che può essere descritto in termini discreti (ad esempio, tra un particolare insieme di azioni, qual è quella giusta), e date molte informazioni sul mondo, capire qual è l’azione “corretta”, senza che il programmatore la programmi. In genere è necessario qualche processo esterno per giudicare se l’azione era corretta o meno. In termini matematici, è una funzione: si inserisce un certo input e si vuole che produca il giusto output, quindi il problema è semplicemente costruire un modello di questa funzione matematica in qualche modo automatico. Per fare una distinzione con l’IA, se posso scrivere un programma molto intelligente che ha un comportamento simile a quello umano, può essere IA, ma a meno che i suoi parametri siano appresi automaticamente dai dati, non è apprendimento automatico.
- L’apprendimento profondo è un tipo di apprendimento automatico che è molto popolare ora. Coinvolge un particolare tipo di modello matematico che può essere pensato come una composizione di semplici blocchi (composizione di funzioni) di un certo tipo, e dove alcuni di questi blocchi possono essere regolati per prevedere meglio il risultato finale.
Qual è la differenza tra machine learning e statistica?
Questo articolo cerca di rispondere alla domanda. L’autore scrive che la statistica è l’apprendimento automatico con intervalli di confidenza per le quantità previste o stimate. Io tendo a non essere d’accordo, dato che ho costruito intervalli di confidenza ingegneristici che non richiedono alcuna conoscenza matematica o statistica.
3. Scienza dei dati contro apprendimento automatico
L’apprendimento automatico e le statistiche sono parte della scienza dei dati. La parola apprendimento nell’apprendimento automatico significa che gli algoritmi dipendono da alcuni dati, usati come set di allenamento, per mettere a punto alcuni modelli o parametri dell’algoritmo. Questo comprende molte tecniche come la regressione, il Bayes ingenuo o il clustering supervisionato. Ma non tutte le tecniche rientrano in questa categoria. Per esempio, il clustering non supervisionato – una tecnica statistica e di scienza dei dati – mira a rilevare cluster e strutture di cluster senza alcuna conoscenza a-priori o set di formazione per aiutare l’algoritmo di classificazione. Un essere umano è necessario per etichettare i cluster trovati. Alcune tecniche sono ibride, come la classificazione semi-supervisionata. Alcune tecniche di rilevamento dei modelli o di stima della densità rientrano in questa categoria.
La scienza dei dati è molto più dell’apprendimento automatico. I dati, nella scienza dei dati, possono provenire o meno da una macchina o da un processo meccanico (i dati dei sondaggi potrebbero essere raccolti manualmente, gli studi clinici coinvolgono un tipo specifico di piccoli dati) e potrebbero non avere nulla a che fare con l’apprendimento come ho appena discusso. Ma la differenza principale è il fatto che la scienza dei dati copre l’intero spettro dell’elaborazione dei dati, non solo gli aspetti algoritmici o statistici. In particolare, la scienza dei dati copre anche
- l’integrazione dei dati
- l’architettura distribuita
- l’automazione dell’apprendimento automatico
- la visualizzazione dei dati
- i cruscotti e la BI
- l’ingegneria dei dati
- la distribuzione in modalità di produzione
- automatizzata, decisioni guidate dai dati
Naturalmente, in molte organizzazioni, i data scientist si concentrano solo su una parte di questo processo. Per leggere alcuni dei miei contributi originali alla scienza dei dati, clicca qui.
Segui @analyticbridge
Per non perdere questo tipo di contenuti in futuro, iscriviti alla nostra newsletter. Per articoli correlati dello stesso autore, clicca qui o visita www.VincentGranville.com. Seguimi su LinkedIn, o visita la mia vecchia pagina web qui. Altre risorse utili:
Lascia un commento