Știința datelor sau statistica?
On octombrie 28, 2021 by adminÎn lucrarea lui Donoho (2015), 50 Years of Data Science, acesta abordează problema definirii termenului „Știința datelor” într-un mod semnificativ pentru a înțelege mai bine ce este și cum diferă de alte discipline, și anume statistica.
El își începe comparația făcând referire la domeniul statisticii și la alte domenii, cum ar fi informatica și științele sociale, care toate par să aibă pretenții asupra tehnicilor și metodelor.
Donoho argumentează că ceea ce a început John Tukey și ceea ce alții au susținut, cum ar fi William Cleveland și John Chambers, a fost de fapt o extindere a statisticii pentru a include ceea ce cunoaștem astăzi ca știință a datelor.
Din acest punct de vedere, ei consideră că statistica se concentrează în principal pe teoria statisticii care a permis cuiva să construiască un model inferențial atunci când aveai date pentru a ști ceva despre populația de interes.
Acești susținători timpurii ai „științei datelor” au considerat că statistica contemporană a omis importanța colectării și curățării în procesul de colectare și curățare a datelor.
În plus, asistăm, de asemenea, la o concentrare pe puterea de predicție a aplicării modelelor la date, în plus față de modelarea cu scopul de a face inferențe din date, mai degrabă decât de a folosi datele pentru a testa un model construit prin teorie.
Donoho subliniază cât de clar este acest lucru în sectorul de învățare automată al științei datelor, dar și în multe alte cazuri de utilizare. În loc să se bazeze pe teoria statistică – care necesita un singur model al adevărului existent în date – acum a avut loc o schimbare de paradigmă care s-a concentrat pe găsirea modelelor și a multiplelor modele potențiale din datele însele.
Donoho afirmă că această expansiune a fost posibilă datorită apariției puterii de calcul și a schimbărilor de vizualizare care au fost realizate în ultimii 40 de ani.
De la statistică la analiza datelor
După cum se vede prin popularitatea programelor statistice precum SPSS, SAS și, în cele din urmă, R, care au început să domine domeniul în anii 1990, dependența și proeminența acestor programe a devenit sinonimă cu „analiza datelor”, iar metodele s-au răspândit în multe utilizări academice și comerciale.
Într-un fel, aceste programe au ajutat la democratizarea și extinderea statisticii dincolo de „statisticienii” formali prin pregătire. În plus, practicienii din aproape toate mediile au început să abordeze „big data” și „data mining” mai degrabă decât tehnicile statistice clasice utilizate anterior.
Cadrul comun de sarcini (CTF)
Următoarea evoluție cea mai importantă a fost Cadrul comun de sarcini (CTF), care este o metodologie pentru competiție. CFT necesită:
- (1) seturi de date disponibile în mod public,
- (2) concurenți/colaboratori care au un obiectiv comun de a deduce o regulă de predicție din date și
- (3) un arbitru/arbitru de punctaj obiectiv care poate puncta propunerile concurenților.
CFT permite competițiile de știință a datelor, dar a construit și o cultură a problemelor științifice de tip open source cu date, deoarece există răspunsuri clare și măsurabile și obiective convenite.
CFT și orientarea către tehnologiile de știință a datelor cu sursă deschisă (R, Python, Github, ect.) au reprezentat un impuls imperativ pentru paradigma științei datelor.
O nouă ramură a științei
În mod clar, ceva dincolo de statistică, știința datelor cuprinde acum cunoștințe de programare, inginerie, matematică, proiectare și metodologie științifică în aproape toate aplicațiile.
În plus, se pune accentul pe implementarea soluțiilor, pentru a include interfețe pentru produse și servicii sau pur și simplu furnizarea de vizualizare a datelor pentru a prezenta rezultatele activității de știință a datelor.
Este în mod clar ceva mai mult decât orice alt domeniu s-a concentrat anterior, dar este, de asemenea, universal, în sensul că multe domenii pot adopta și beneficia de aceste tehnici și cunoștințe aplicate la problemele lor specifice.
Așa cum a declarat John Tukey în anii 1960, știința datelor devine din ce în ce mai importantă în lumea noastră și se răspândește rapid în aproape toate aspectele vieții noastre.
.
Lasă un răspuns