Data Science o Statistica?
Il Ottobre 28, 2021 da adminNell’articolo di Donoho (2015), 50 Years of Data Science, affronta la questione di definire il termine “Data Science” in modo significativo per capire meglio cos’è, e come si differenzia da altre discipline, cioè la statistica.
Inizia il suo confronto facendo riferimento al campo della statistica e ad altri campi come l’informatica e le scienze sociali, che sembrano avere tutti una rivendicazione delle tecniche e dei metodi.
Donoho sostiene che ciò che John Tukey ha iniziato, e altri hanno sostenuto come William Cleveland e John Chambers, era davvero un’espansione della statistica per includere ciò che oggi conosciamo come scienza dei dati.
Da questo punto di vista, essi vedono la statistica come concentrata principalmente sulla teoria della statistica che permetteva a qualcuno di costruire un modello inferenziale quando si avevano dati per sapere qualcosa sulla popolazione di interesse.
Questi primi sostenitori della “scienza dei dati” pensavano che la statistica contemporanea lasciasse fuori l’importanza della raccolta e della pulizia nel processo dei dati.
Inoltre, stiamo anche vedendo un’attenzione al potere predittivo dell’applicazione di modelli ai dati, oltre alla modellazione allo scopo di fare inferenze dai dati, piuttosto che usare i dati per testare un modello costruito con la teoria.
Donoho sottolinea come questo sia chiaro nel settore dell’apprendimento automatico della scienza dei dati, ma anche in molti altri casi di utilizzo. Invece di fare affidamento sulla teoria statistica – che necessitava di un modello di verità esistente nei dati – ora c’è stato un cambiamento di paradigma che si è concentrato sulla ricerca di modelli e modelli potenziali multipli dai dati stessi.
Donoho ha affermato che questa espansione è stata resa possibile dall’avvento della potenza di calcolo e dai cambiamenti di visualizzazione che sono stati raggiunti negli ultimi 40 anni.
Dalla statistica all’analisi dei dati
Come si è visto attraverso la popolarità di software statistici come SPSS, SAS, e infine R che ha iniziato a dominare il campo negli anni ’90, l’affidamento e la prominenza di questi programmi è diventato sinonimo di “analisi dei dati” e i metodi si sono diffusi in molti usi accademici e commerciali.
In un certo senso, questi programmi hanno contribuito a democratizzare ed espandere la statistica oltre gli “statistici” formali per formazione. Inoltre, i praticanti in quasi tutti gli ambienti iniziarono ad affrontare i “big data” e il “data mining” piuttosto che le tecniche statistiche classiche usate in precedenza.
Il Common Task Framework (CTF)
Il successivo sviluppo più importante fu il Common Task Framework (CTF) che è una metodologia per la competizione. Il CFT richiede:
- (1) set di dati disponibili pubblicamente,
- (2) concorrenti/collaboratori che hanno un obiettivo comune di dedurre una regola di predizione dai dati, e
- (3) un arbitro/arbitro di punteggio oggettivo che può segnare le proposte dei concorrenti.
Il CFT permette le competizioni di scienza dei dati, ma ha anche costruito una cultura di open sourcing dei problemi scientifici con i dati perché ci sono risposte chiare e misurabili e obiettivi concordati.
Il CFT e lo spostamento verso tecnologie di scienza dei dati open source (R, Python, Github, ecc.) sono stati una spinta imperativa per il paradigma della scienza dei dati.
Un nuovo ramo della scienza
E’ chiaramente qualcosa che va oltre la statistica, la scienza dei dati ora comprende conoscenze di programmazione, ingegneria, matematica, design e metodologia scientifica in quasi tutte le applicazioni.
Inoltre, c’è un focus sull’implementazione di soluzioni, per includere interfacce per prodotti e servizi o semplicemente fornire la visualizzazione dei dati per presentare i risultati del lavoro della scienza dei dati.
Questo è chiaramente qualcosa di più di quello su cui qualsiasi campo si era concentrato in precedenza, ma è anche universale nel senso che molti campi possono adottare e beneficiare di queste tecniche e conoscenze applicate ai loro problemi specifici.
Come dichiarato da John Tukey negli anni ’60, la scienza dei dati sta diventando sempre più importante nel nostro mondo, e si sta rapidamente diffondendo in quasi tutti gli aspetti della nostra vita.
Lascia un commento