Science des données ou statistiques?
On octobre 28, 2021 by adminDans l’article de Donoho (2015), 50 ans de science des données, il aborde la question de la définition du terme « science des données » de manière significative afin de mieux comprendre ce qu’elle est, et comment elle diffère des autres disciplines, à savoir les statistiques.
Il commence sa comparaison en se référant au domaine des statistiques et à d’autres domaines tels que l’informatique et les sciences sociales, qui semblent tous avoir une revendication sur les techniques et les méthodes.
Donoho fait valoir que ce que John Tukey a commencé, et que d’autres ont défendu comme William Cleveland et John Chambers, était vraiment une expansion des statistiques pour inclure ce que nous connaissons aujourd’hui comme la science des données.
Dans cette perspective, ils considèrent que les statistiques se concentrent principalement sur la théorie des statistiques qui permettait à quelqu’un de construire un modèle inférentiel lorsque vous aviez des données pour savoir quelque chose sur votre population d’intérêt.
Ces premiers partisans de la « science des données » pensaient que les statistiques contemporaines laissaient de côté l’importance de la collecte et du nettoyage dans le processus de données.
De plus, nous voyons également un accent sur le pouvoir prédictif de l’application de modèles aux données en plus de la modélisation dans le but de faire des déductions à partir des données, plutôt que d’utiliser les données pour tester un modèle construit par la théorie.
Donoho souligne à quel point cela est clair dans le secteur de l’apprentissage automatique de la science des données, mais aussi dans de nombreux autres cas d’utilisation. Au lieu de s’appuyer sur la théorie statistique – qui nécessitait un seul modèle de vérité existant dans les données – il y a maintenant un changement de paradigme qui se concentre sur la recherche de modèles et de multiples modèles potentiels à partir des données elles-mêmes.
Donoho affirme que cette expansion a été rendue possible par l’avènement de la puissance de calcul et les changements de visualisation qui ont été réalisés au cours des 40 dernières années.
De la statistique à l’analyse des données
Comme on le voit à travers la popularité des logiciels statistiques tels que SPSS, SAS, et finalement R qui ont commencé à dominer le domaine dans les années 1990, la dépendance et la proéminence de ces programmes sont devenues synonymes d' »analyse des données » et les méthodes se sont répandues dans de nombreuses utilisations académiques et commerciales.
Dans un sens, ces programmes ont contribué à démocratiser et à étendre les statistiques au-delà des « statisticiens » formels par formation. En outre, les praticiens de presque tous les milieux ont commencé à s’attaquer au « big data » et à l' »exploration de données » plutôt qu’aux techniques statistiques classiques utilisées auparavant.
Le cadre commun de tâches (CTF)
Le développement suivant le plus important a été le cadre commun de tâches (CTF) qui est une méthodologie pour la concurrence. Le CTF nécessite :
- (1) des ensembles de données accessibles au public,
- (2) des concurrents/collaborateurs qui ont pour objectif commun de déduire une règle de prédiction à partir des données, et
- (3) un arbitre/arbitre de notation objectif qui peut noter les soumissions des concurrents.
Le CFT permet des compétitions de science des données mais a également construit une culture d’open sourcing de problèmes scientifiques avec des données parce qu’il y a des réponses mesurables claires et des objectifs convenus.
Le CFT et l’évolution vers des technologies de science des données open source (R, Python, Github, etc.) ont été une poussée impérative pour le paradigme de la science des données.
Une nouvelle branche de la science
C’est clairement quelque chose qui va au-delà des statistiques, la science des données englobe maintenant la programmation, l’ingénierie, les mathématiques, la conception et les connaissances en méthodologie scientifique dans presque toutes les applications.
En outre, l’accent est mis sur la mise en œuvre de solutions, pour inclure des interfaces pour les produits et services ou simplement fournir une visualisation des données pour présenter les résultats du travail de science des données.
C’est clairement quelque chose de plus que ce sur quoi un domaine se concentrait auparavant, mais c’est aussi universel dans le sens où de nombreux domaines peuvent adopter et bénéficier de ces techniques et connaissances appliquées à leurs problèmes spécifiques.
Comme l’a déclaré John Tukey dans les années 1960, la science des données devient de plus en plus importante dans notre monde et se répand rapidement dans presque toutes les facettes de notre vie.
Laisser un commentaire