Différence entre l’apprentissage automatique, la science des données, l’IA, l’apprentissage profond et les statistiques – Data Science Central
On janvier 1, 2022 by adminDans cet article, je clarifie les différents rôles du data scientist, et comment la science des données se compare et se chevauche avec des domaines connexes tels que l’apprentissage automatique, l’apprentissage profond, l’IA, les statistiques, l’IdO, la recherche opérationnelle et les mathématiques appliquées. La science des données étant une vaste discipline, je commence par décrire les différents types de data scientists que l’on peut rencontrer dans n’importe quel contexte professionnel : vous pourriez même découvrir que vous êtes vous-même un data scientist, sans le savoir. Comme dans toute discipline scientifique, les data scientists peuvent emprunter des techniques à des disciplines connexes, même si nous avons développé notre propre arsenal, en particulier des techniques et des algorithmes permettant de traiter de très grands ensembles de données non structurées de manière automatisée, même sans interactions humaines, pour effectuer des transactions en temps réel ou faire des prédictions.
1. Les différents types de data scientists
Pour commencer et avoir une perspective historique, vous pouvez lire mon article sur les 9 types de data scientists, publié en 2014, ou mon article où je compare la data science à 16 disciplines analytiques, également publié en 2014.
Les articles suivants, publiés au cours de la même période, sont toujours utiles :
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Plus récemment (août 2016), Ajit Jaokar a discuté du data scientist de type A (Analytics) versus de type B (Builder) :
- Le data scientist de type A peut coder suffisamment bien pour travailler avec des données mais n’est pas nécessairement un expert. Le data scientist de type A peut être un expert en conception expérimentale, en prévision, en modélisation, en inférence statistique, ou d’autres choses généralement enseignées dans les départements de statistiques. D’une manière générale, cependant, le produit du travail d’un scientifique des données n’est pas « des valeurs p et des intervalles de confiance » comme les statistiques universitaires semblent parfois le suggérer (et comme c’est parfois le cas pour les statisticiens traditionnels travaillant dans l’industrie pharmaceutique, par exemple). Chez Google, les data scientists de type A sont connus sous les noms divers de statisticien, analyste quantitatif, analyste en ingénierie d’aide à la décision ou data scientist, et probablement quelques autres.
- Data Scientist de type B : Le B est pour Building. Les scientifiques de données de type B partagent un certain bagage statistique avec le type A, mais ils sont également de très bons codeurs et peuvent être des ingénieurs logiciels de formation. Le scientifique de données de type B est principalement intéressé par l’utilisation des données « en production ». Il construit des modèles qui interagissent avec les utilisateurs, souvent en proposant des recommandations (produits, personnes que vous connaissez peut-être, publicités, films, résultats de recherche). Source : cliquez ici.
J’ai également écrit sur les ABCD de l’optimisation des processus d’affaires où D signifie science des données, C pour l’informatique, B pour la science des affaires et A pour la science analytique. La science des données peut ou non impliquer le codage ou la pratique mathématique, comme vous pouvez le lire dans mon article sur la science des données de bas niveau par rapport à la science des données de haut niveau. Dans une startup, les scientifiques des données portent généralement plusieurs casquettes, telles que cadre, mineur de données, ingénieur ou architecte de données, chercheur, statisticien, modélisateur (comme dans la modélisation prédictive) ou développeur.
Bien que le scientifique des données soit généralement dépeint comme un codeur expérimenté en R, Python, SQL, Hadoop et statistiques, ce n’est que la partie émergée de l’iceberg, rendue populaire par les camps de données axés sur l’enseignement de certains éléments de la science des données. Mais tout comme un technicien de laboratoire peut se dire physicien, le vrai physicien est bien plus que cela, et ses domaines d’expertise sont variés : astronomie, physique mathématique, physique nucléaire (qui est à la limite de la chimie), mécanique, génie électrique, traitement du signal (également un sous-domaine de la science des données) et bien d’autres encore. On peut dire la même chose des data scientists : les domaines sont aussi variés que la bioinformatique, l’informatique, les simulations et le contrôle qualité, la finance computationnelle, l’épidémiologie, le génie industriel et même la théorie des nombres.
Dans mon cas, au cours des 10 dernières années, je me suis spécialisé dans les communications de machine à machine et d’appareil à appareil, en développant des systèmes pour traiter automatiquement de grands ensembles de données, pour effectuer des transactions automatisées : par exemple, l’achat de trafic Internet ou la génération automatique de contenu. Elle implique le développement d’algorithmes qui fonctionnent avec des données non structurées, et se situe à l’intersection de l’IA (intelligence artificielle,) de l’IoT (Internet des objets,) et de la science des données. C’est ce qu’on appelle la science des données profondes. Elle est relativement exempte de mathématiques et implique relativement peu de codage (principalement des API), mais elle est assez gourmande en données (notamment la construction de systèmes de données) et repose sur une toute nouvelle technologie statistique conçue spécifiquement pour ce contexte.
Avant cela, j’ai travaillé sur la détection de la fraude par carte de crédit en temps réel. Plus tôt dans ma carrière (vers 1990), j’ai travaillé sur la technologie de télédétection d’images, entre autres pour identifier des motifs (ou des formes ou des caractéristiques, par exemple des lacs) dans des images satellites et pour effectuer une segmentation d’images : à l’époque, mes recherches étaient étiquetées comme des statistiques computationnelles, mais les personnes qui faisaient exactement la même chose dans le département d’informatique voisin de mon université d’origine, appelaient leurs recherches intelligence artificielle. Aujourd’hui, on parlerait de science des données ou d’intelligence artificielle, les sous-domaines étant le traitement du signal, la vision par ordinateur ou l’IdO.
On peut également trouver des scientifiques des données n’importe où dans le cycle de vie des projets de science des données, au stade de la collecte des données ou de l’exploration des données, jusqu’à la modélisation statistique et la maintenance des systèmes existants.
2. L’apprentissage automatique par rapport à l’apprentissage profond
Avant de creuser davantage le lien entre la science des données et l’apprentissage automatique, discutons brièvement de l’apprentissage automatique et de l’apprentissage profond. L’apprentissage automatique est un ensemble d’algorithmes qui s’entraînent sur un ensemble de données pour faire des prédictions ou prendre des mesures afin d’optimiser certains systèmes. Par exemple, les algorithmes de classification supervisée sont utilisés pour classer les clients potentiels en bons ou mauvais prospects, à des fins de prêt, sur la base de données historiques. Les techniques impliquées, pour une tâche donnée (par exemple, le regroupement supervisé), sont variées : Bayes naïf, SVM, réseaux neuronaux, ensembles, règles d’association, arbres de décision, régression logistique, ou une combinaison de plusieurs d’entre elles. Pour une liste détaillée des algorithmes, cliquez ici. Pour une liste de problèmes d’apprentissage automatique, cliquez ici.
Tout cela est un sous-ensemble de la science des données. Lorsque ces algorithmes sont automatisés, comme dans le pilotage automatique ou les voitures sans conducteur, on parle d’IA, et plus précisément d’apprentissage profond. Cliquez ici pour lire un autre article comparant l’apprentissage automatique et l’apprentissage profond. Si les données collectées proviennent de capteurs et si elles sont transmises via Internet, alors il s’agit de machine learning ou de data science ou de deep learning appliqué à l’IoT.
Certaines personnes ont une définition différente du deep learning. Ils considèrent l’apprentissage profond comme des réseaux neuronaux (une technique d’apprentissage automatique) avec une couche plus profonde. La question a été posée sur Quora récemment, et ci-dessous est une explication plus détaillée (source : Quora)
- L’IA (intelligence artificielle) est un sous-domaine de l’informatique, qui a été créé dans les années 1960, et il était (est) concerné par la résolution de tâches qui sont faciles pour les humains, mais difficiles pour les ordinateurs. En particulier, une IA dite forte serait un système capable de faire tout ce qu’un humain peut faire (peut-être sans les choses purement physiques). Ceci est assez générique, et inclut toutes sortes de tâches, comme la planification, le déplacement dans le monde, la reconnaissance d’objets et de sons, la parole, la traduction, l’exécution de transactions sociales ou commerciales, le travail créatif (faire de l’art ou de la poésie), etc.
- NLP (Natural language processing) est simplement la partie de l’IA qui a à voir avec le langage (généralement écrit).
- L’apprentissage machine s’intéresse à un aspect de ceci : étant donné un certain problème d’IA qui peut être décrit en termes discrets (par exemple, parmi un ensemble particulier d’actions, laquelle est la bonne), et étant donné beaucoup d’informations sur le monde, déterminer quelle est l’action « correcte », sans que le programmeur ait à la programmer. En général, un processus extérieur est nécessaire pour juger si l’action est correcte ou non. En termes mathématiques, il s’agit d’une fonction : vous introduisez des données d’entrée et vous voulez qu’elles produisent la bonne sortie. Le problème consiste donc simplement à construire un modèle de cette fonction mathématique de manière automatique. Pour faire une distinction avec l’IA, si je peux écrire un programme très intelligent qui a un comportement de type humain, cela peut être de l’IA, mais à moins que ses paramètres ne soient appris automatiquement à partir de données, ce n’est pas de l’apprentissage automatique.
- L’apprentissage profond est un type d’apprentissage automatique qui est très populaire maintenant. Il implique un type particulier de modèle mathématique qui peut être considéré comme une composition de blocs simples (composition de fonctions) d’un certain type, et où certains de ces blocs peuvent être ajustés pour mieux prédire le résultat final.
Quelle est la différence entre l’apprentissage automatique et les statistiques ?
Cet article tente de répondre à la question. L’auteur écrit que les statistiques sont de l’apprentissage machine avec des intervalles de confiance pour les quantités prédites ou estimées. J’ai tendance à ne pas être d’accord, car j’ai construit des intervalles de confiance adaptés aux ingénieurs qui ne nécessitent aucune connaissance mathématique ou statistique.
3. Science des données contre apprentissage automatique
L’apprentissage automatique et les statistiques font partie de la science des données. Le mot apprentissage dans l’apprentissage automatique signifie que les algorithmes dépendent de certaines données, utilisées comme un ensemble d’entraînement, pour affiner certains paramètres de modèles ou d’algorithmes. Cela englobe de nombreuses techniques telles que la régression, le modèle de Bayes naïf ou le regroupement supervisé. Mais toutes les techniques ne rentrent pas dans cette catégorie. Par exemple, le clustering non supervisé – une technique statistique et de science des données – vise à détecter les clusters et les structures de clusters sans aucune connaissance a-priori ou ensemble de formation pour aider l’algorithme de classification. Un être humain est nécessaire pour étiqueter les clusters trouvés. Certaines techniques sont hybrides, comme la classification semi-supervisée. Certaines techniques de détection de motifs ou d’estimation de densité entrent dans cette catégorie.
La science des données est cependant bien plus que l’apprentissage automatique. Les données, dans la science des données, peuvent provenir ou non d’une machine ou d’un processus mécanique (les données d’enquête pourraient être collectées manuellement, les essais cliniques impliquent un type spécifique de petites données) et elles pourraient n’avoir rien à voir avec l’apprentissage comme je viens de le voir. Mais la principale différence réside dans le fait que la science des données couvre l’ensemble du spectre du traitement des données, et pas seulement les aspects algorithmiques ou statistiques. En particulier, la science des données couvre également
- l’intégration des données
- l’architecture distribuée
- l’automatisation de l’apprentissage automatique
- la visualisation des données
- les tableaux de bord et la BI
- l’ingénierie des données
- le déploiement en mode production
- automatisé, décisions fondées sur les données
Bien sûr, dans de nombreuses organisations, les data scientists ne se concentrent que sur une partie de ce processus. Pour lire certaines de mes contributions originales à la science des données, cliquez ici.
Follow @analyticbridge
Pour ne pas manquer ce type de contenu à l’avenir, inscrivez-vous à notre newsletter. Pour des articles connexes du même auteur, cliquez ici ou visitez www.VincentGranville.com. Suivez-moi sur sur LinkedIn, ou visitez mon ancienne page web ici. Autres ressources utiles :
Laisser un commentaire