Ce que j’ai appris du programme de formation professionnelle du MIT « Data Science : Data to Insights »
On décembre 15, 2021 by adminOui ! Je viens de terminer un cours sur la science des données du Massachusetts Institute of Technology – plus connu sous le nom de MIT. Malheureusement, alors que je n’ai pas encore visité le campus de Cambridge, Massachusetts, USA, j’ai trouvé ce cours très enrichissant J’ai participé à un cours en ligne de six semaines, le programme de formation professionnelle du MIT : « Data Science : Data to Insights ». Il s’agit de résoudre des problèmes complexes avec vos données – comme l’explique l’accroche. Le sujet est de plus en plus pertinent de nos jours, car 90 % des données mondiales n’ont été créées qu’au cours des dernières années.
Vous vous demandez peut-être si vous devez suivre un tel cours ? Alors, je pense qu’il est juste que je partage quelques idées avec vous. Pour comprendre mon point de vue, je vais vous donner quelques informations personnelles sur ma carrière en informatique et sur mes connaissances préalables en matière d’intelligence artificielle (IA).
Je suis titulaire d’un diplôme en informatique et j’ai en plus un Master of Science en médias numériques. Pendant mes études, l’IA n’était pas un sujet aussi populaire qu’aujourd’hui. Cependant, c’était mon sujet personnel dans ma thèse de diplôme en 2005. Malheureusement, je n’ai pu travailler que pendant une courte période en tant que développeur et je n’ai pas pu travailler dans une autre discipline de l’IA. Depuis environ 10 ans, je me concentre sur les sujets de conseil en informatique, principalement sur la délocalisation, l’externalisation et la consolidation des fournisseurs. J’ai spécifiquement choisi ce cours en ligne parce que mon aspiration est de comprendre les possibilités et les limites des méthodes et de la technologie.
Chaque module est accompagné de 10 à 20 vidéos (culminant dans une évaluation à choix multiples prédominante) et de n’importe où entre une et sept études de cas. Les étudiants ne reçoivent leur certificat et le CEU (1,3) qu’avec la réussite de toutes les évaluations.
Pour réussir les modules, les professeurs (assistants) fournissent aux étudiants des cours en ligne, enrichis d’animations et de graphiques. Les participants peuvent discuter de sujets ouverts et de questions dans un forum en ligne. Les algorithmes et les concepts sont toujours expliqués sur des exemples industriels ou réels, par exemple Netflix ou Facebook.
Le sujet « Data Science » est décomposé en cinq modules :
- Donner du sens aux données non structurées
- Régression et prédiction
- Classification, tests d’hypothèses et apprentissage profond
- Systèmes de recommandation
- Réseau et modèles graphiques
Dans le premier module, vous apprenez à découvrir des modèles et des structures latentes dans les données. Par exemple, vous êtes en mesure d’apprendre à structurer tous vos fichiers texte sur votre ordinateur portable en fonction de certains thèmes. Ou, si vous voulez découvrir des communautés latentes dans un réseau social – également appelé clustering – alors vous êtes en mesure de le faire.
Dans la régression et la prédiction, l’accent est mis sur la régression bivariée et multivariée à des fins de prédiction et d’inférence causale, suivie de la régression logistique et non linéaire. Vous apprendrez à résoudre les problèmes de prédiction avec des données à haute dimension, à savoir lasso, ridge, arbres de régression, arbres boostés, forêts aléatoires ainsi que d’autres.
Le troisième module Classification, test d’hypothèses et apprentissage profond commence par les méthodes statistiques de classification, le test d’hypothèses et ses applications, notamment la détection d’anomalies statistiques, la détection de la fraude, du spam et d’autres comportements malveillants. Par exemple, la classification binaire, qui consiste à classer un courriel dans la catégorie « spam » ou « non spam ». Vous serez introduit aux réseaux neuronaux, au perceptron (un algorithme pour l’apprentissage supervisé de classificateurs binaires), à l’apprentissage profond et à leurs limites.
Module quatre Systèmes de recommandation, vous enseigne comment découvrir des informations pertinentes à partir de grandes quantités de données. Vous apprendrez comment Netflix recommande de nouveaux films à ses utilisateurs ; comment Amazon, Facebook ou Spotify font des recommandations à leurs utilisateurs. Vous apprenez différents principes et algorithmes de recommandations, de classement, de filtrage collaboratif et de recommandations personnalisées.
Le dernier module, Réseaux et modèles graphiques vous permet de comprendre le comportement d’un réseau. Par exemple, comment les informations ou les idées sont diffusées dans un réseau social, ce qui est pertinent non seulement dans un sens marketing, mais aussi comment il pourrait être utilisé à d’autres fins, par exemple dans la détection des crimes. Vous apprenez des algorithmes pour analyser les grands réseaux et des méthodes pour modéliser les processus de réseau.
Je pouvais déjà sentir le Prüfungsangst (anxiété de l’examen), et je n’étais que dans une classe virtuelle !
J’ai vraiment aimé le programme parce qu’il ouvre la porte aux possibilités inconnues de la technologie, celles qui ont continuellement changé et qui continueront à changer notre monde dans les prochaines années de façon spectaculaire. Les conférenciers enseignent au plus haut niveau et, en parlant au nom de tous ceux d’entre nous qui ont entrepris le cours – nous pouvons honnêtement dire que nous avons appris quelque chose de nouveau.
Son talent, (en plus de ses énormes capacités de régression et de prédiction), réside dans sa capacité à donner des conférences uniquement à travers des formules mathématiques. Il lit les formules comme d’autres lisent les gros titres des journaux ! Il n’est pas difficile de ne pas avoir le plus grand respect pour lui. Ce n’est qu’après avoir regardé la vidéo plusieurs fois que j’ai eu une certaine idée de son contenu. L’internet, en particulier les vidéos YouTube sur les mathématiques, m’ont beaucoup aidé. Et c’est là toute la différence. À l’école, notre professeur n’expliquait le sujet qu’une seule fois, alors que maintenant nous pouvons répéter la matière aussi souvent que nous le souhaitons jusqu’à ce que le sujet colle.
Les machines grimpent dans l’échelle et prennent en charge le travail mental.
Une fois que vous êtes capable de passer ce cours difficile, tous les autres sont absolument agréables, en particulier ceux sur l’apprentissage profond. C’était une telle révélation que je l’ai depuis regardé deux fois. Dans l’apprentissage profond, le développeur enseigne simplement au système comment apprendre et comment résoudre un problème. Le système reçoit un ensemble d’informations d’enseignement pour explorer et apprendre par lui-même – le programme apprend à partir des données passées.
Par exemple, le système lit des images d’animaux et le nom de l’animal dans le test qui est fixé. Ainsi, il apprend à détecter un chien sur des images par lui-même. Le système apprend les caractéristiques d’un chien uniquement à partir d’images. Ainsi, les ordinateurs sont entrés dans le domaine du travail mental qui, jusqu’à présent, n’était qu’un domaine exercé par les humains.
Avec ce type d’algorithme, les machines peuvent prendre en charge de nouvelles classifications de travaux que seuls les humains exécutaient dans le passé. Par exemple, lors de l’interprétation d’images médicales et de la détection de cancers, où des images de chiens ont simplement été substituées aux radiographies. L’ensemble d’enseignement comprend l’information indiquant si le cancer a été détecté ou non. Après avoir appris à lire et à interpréter les radiographies, le système est capable de réduire le temps qu’un médecin doit consacrer à l’analyse des images. Les machines grimpent les échelons et prennent le relais du travail mental.
Pour obtenir des expériences pratiques, des études de cas sont incluses après chaque module. Pour certaines études, vous devez avoir des compétences de développeur en Python ou ‘R’. Si vous n’êtes pas familier avec ces langages de programmation, les documents des études de cas sont étayés par des fragments de code. Par exemple, le code est donné pour la lecture d’un fichier externe ou pour la visualisation de vos données. Vous développez vos compétences dans un cadre pratique du monde réel. Par exemple, vous construirez votre propre système de recommandation de films, en vous inspirant du système de recommandation de Netflix. Dans une autre étude de cas, vous utilisez les idées de la théorie des réseaux pour identifier de nouveaux gènes candidats qui pourraient causer l’autisme.
Le cours n’est pas d’un niveau élevé, car vous apprenez les concepts généraux en mathématiques. De bout en bout, vous mettez directement en œuvre le problème pour développer votre propre solution sur des données réelles.
D’une part, le cours était extrêmement difficile en raison de la plongée profonde dans les mathématiques et la programmation et du délai fixe de seulement six semaines. C’était satisfaisant parce qu’il vous emmène profondément dans le monde des données et des systèmes intelligents qui est l’un des principaux moteurs dans mon domaine d’activité particulier.
Cependant, d’autre part, l’inconvénient est que vous avez seulement pour quelques mois d’accès au matériel de cours, et surtout quand il s’agit des vidéos, ce n’est pas suffisant. De plus, vous ne pouvez pas télécharger les vidéos, seulement les fichiers texte, ce qui n’est pas utile. Le cours recommence en février 2017. Pour les consultants qui se concentrent sur les transformations numériques, c’est définitivement un must. Bonne lecture !
Si vous aimez creuser plus profondément dans la science des données:
Une introduction visuelle à l’apprentissage automatique en ligne:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Un bon livre couvrant des sujets similaires à ceux du cours :
● Data Science for Business par Foster Provost, Tom Fawcett
● Foundations of Machine Learning par Mehryar Mohri et Afshin Rostamizadeh
Le lien vers le cours du MIT:
● https://mitprofessionalx.mit.edu/courses/
A propos de l’auteur : Florian Hoeppner travaille en tant que conseiller technologique pour les nouvelles technologies de l’information dans les services financiers en Amérique du Nord. Il se concentre sur l’agilité d’entreprise, le DevOps, le SRE combiné à la stratégie de sourcing et de shoring. En ce moment, Florian vit le rêve à New York.
Laisser un commentaire