Lo que aprendí en el programa de formación profesional del MIT «Data Science: Data to Insights»
On diciembre 15, 2021 by admin¡Sí! Acabo de terminar una clase sobre Ciencia de Datos del Instituto Tecnológico de Massachusetts – más conocido como MIT. Lamentablemente, aunque todavía no he visitado el campus en Cambridge, Massachusetts, EE.UU., este curso me ha resultado muy gratificante He participado en un curso en línea de seis semanas, el programa de Educación Profesional del MIT: «Data Science: Data to Insights». Se trata de resolver problemas complejos con los datos, como explica el teaser. El tema es cada vez más relevante hoy en día, ya que el 90 por ciento de los datos del mundo se han creado en los últimos años.
¿Tal vez te estés preguntando si debes o no tomar una clase de este tipo? Entonces, creo que es justo que comparta algunas ideas contigo. Para entender mi punto de vista, te daré algunos antecedentes personales sobre mi carrera en el campo de la informática y los conocimientos previos de la inteligencia artificial (IA).

Tengo un diploma en ciencias de la computación y, además, un máster en medios digitales. Durante mi formación, la IA no era un tema tan popular como lo es ahora. Sin embargo, fue mi enfoque personal en mi tesis de diploma en 2005. Por desgracia, sólo pude trabajar durante un breve periodo de tiempo como desarrollador, y no pude trabajar en otra disciplina dentro de la IA. Desde hace unos 10 años, me he centrado en temas de consultoría de TI, principalmente en la deslocalización de TI, la subcontratación y la consolidación de proveedores. Elegí específicamente esta clase en línea porque mi aspiración es comprender las posibilidades y limitaciones de los métodos y la tecnología.
Cada módulo va acompañado de entre 10 y 20 vídeos (que culminan en una evaluación predominantemente de opción múltiple) y entre uno y siete casos prácticos. Los estudiantes reciben su certificado y la CEU (1,3) sólo con la finalización satisfactoria de todas las evaluaciones.
Para completar con éxito los módulos, los profesores (asistentes) proporcionan a los estudiantes cursos en línea, enriquecidos con animaciones y gráficos. Los participantes pueden discutir los temas abiertos y las preguntas en un foro en línea. Los algoritmos y conceptos se explican siempre con ejemplos industriales o de la vida real, por ejemplo, Netflix o Facebook.
El tema «Ciencia de los datos» se divide en cinco módulos:
- Dar sentido a los Datos no estructurados
- Regresión y predicción
- Clasificación, test de hipótesis y aprendizaje profundo
- Sistemas de recomendación
- Red y modelos gráficos
En el primer módulo aprendes a descubrir patrones y estructuras latentes en los datos. Por ejemplo, eres capaz de aprender a estructurar todos los archivos de texto de tu ordenador portátil en función de ciertos temas. O, si quiere descubrir comunidades latentes en una red social -también llamada clustering- entonces podrá hacerlo.
En regresión y predicción el enfoque es en regresión bivariada y multivariada para propósitos de predicción e inferencia causal, seguido de regresión logística y no lineal. Aprenderá a resolver problemas de predicción con datos de alta dimensión, a saber, el lazo, la cresta, los árboles de regresión, los árboles potenciados, los bosques aleatorios, así como otros.
El tercer módulo Clasificación, comprobación de hipótesis y aprendizaje profundo comienza con los métodos estadísticos de clasificación, comprobación de hipótesis y sus aplicaciones, incluyendo la detección de anomalías estadísticas, la detección de fraudes, spam y otros comportamientos maliciosos. Por ejemplo, la clasificación binaria como un correo electrónico se categoriza como spam o no spam. Se le presentará las redes neuronales, el perceptrón (un algoritmo para el aprendizaje supervisado de clasificadores binarios), el aprendizaje profundo y sus limitaciones.
Módulo cuatro Sistemas de recomendación, le enseña a descubrir información relevante a partir de grandes cantidades de datos. Aprenderás cómo Netflix está recomendando nuevas películas a sus usuarios; cómo Amazon, Facebook o Spotify están recomendando a sus usuarios. Aprenderá diferentes principios y algoritmos para las recomendaciones, la clasificación, el filtrado colaborativo y las recomendaciones personalizadas.
El último módulo, Redes y modelos gráficos, le permitirá comprender el comportamiento de una red. Por ejemplo, cómo se difunde la información o las ideas en una red social, lo cual es relevante no sólo en el sentido del marketing, sino también cómo podría utilizarse para otros fines, por ejemplo en la detección de delitos. Aprendes sobre algoritmos para analizar grandes redes y métodos para modelar procesos de red.
Ya podía oler el Prüfungsangst (ansiedad por el examen), ¡y sólo estaba en un aula virtual!
Me encantó el programa porque abre la puerta a las posibilidades desconocidas de la tecnología, que han cambiado continuamente y seguirán cambiando nuestro mundo en los próximos años de forma espectacular. Los profesores enseñan al más alto nivel y, hablando en nombre de todos los que hicimos el curso, podemos decir honestamente que aprendimos algo nuevo.
Su talento, (además de sus enormes capacidades de regresión y predicción), reside en su habilidad para dar conferencias sólo a través de fórmulas matemáticas. Lee las fórmulas como otros leen los titulares de las noticias. No es difícil no sentir el máximo respeto por él. Sólo después de haber visto el vídeo numerosas veces tuve alguna idea de su contenido. Internet, especialmente los vídeos de YouTube sobre matemáticas fueron de gran ayuda. Y esa es la diferencia exacta. Cuando íbamos a la escuela, nuestro profesor sólo nos explicaba la materia una vez, mientras que ahora podemos ensayar el material tantas veces como queramos hasta que el tema se nos quede grabado.
Las máquinas van subiendo por la escalera y se hacen cargo del trabajo mental.
Una vez que eres capaz de superar esta dura clase, todas las demás son absolutamente agradables, especialmente las que tratan sobre el aprendizaje profundo. Me abrió tanto los ojos que desde entonces la he visto dos veces. En el aprendizaje profundo, el desarrollador se limita a enseñar al sistema cómo aprender y cómo resolver un problema. El sistema recibe un conjunto de información de enseñanza para explorar y aprender por sí mismo – el programa está aprendiendo de los datos anteriores.
Por ejemplo, el sistema está leyendo imágenes de animales y el nombre del animal en la prueba que se establece. Así, aprende a detectar un perro en imágenes por sí mismo. El sistema aprende qué características tiene un perro basándose únicamente en las imágenes. Por lo tanto, los ordenadores han entrado en el área del trabajo mental que hasta ahora era un área ejercida meramente por los humanos.
Con este tipo de algoritmos, las máquinas pueden hacerse cargo de nuevas clasificaciones de trabajos que en el pasado sólo ejecutaban los humanos. Por ejemplo, en la interpretación de imágenes médicas y en la detección del cáncer, donde las imágenes de los perros han sido simplemente sustituidas por las radiografías. El conjunto de enseñanzas incluye la información sobre si se ha detectado el cáncer o no. Tras aprender a leer e interpretar las radiografías, el sistema es capaz de reducir el tiempo que un médico tiene que dedicar a analizar las imágenes. Las máquinas están subiendo la escalera y asumiendo el trabajo mental.
Para obtener experiencias prácticas, se incluyen estudios de casos después de cada módulo. Para algunos estudios se necesitan conocimientos de desarrollo en Python o ‘R’. Si no está familiarizado con los lenguajes de programación, los documentos de los estudios de caso se apoyan con fragmentos de código. Por ejemplo, se proporciona el código para la lectura de un archivo externo o para la visualización de los datos. Desarrollará sus habilidades en un entorno práctico del mundo real. Por ejemplo, construirá su propio sistema de recomendación de películas, similar al sistema de recomendación de Netflix. En otro caso de estudio, utilizará las ideas de la teoría de redes para identificar nuevos genes candidatos que podrían causar el autismo.
El curso no es de alto nivel, ya que se aprenden los conceptos generales de las matemáticas. De punta a punta, implementas directamente el problema para desarrollar tu propia solución sobre datos reales.
Por un lado, el curso fue extremadamente desafiante debido a la profunda inmersión en las matemáticas y la programación y el plazo fijo de sólo seis semanas. Fue satisfactorio porque te adentra en el mundo de los datos y los sistemas inteligentes, que es uno de los principales motores de mi área de negocio particular.
Sin embargo, por otro lado, el inconveniente es que sólo tienes acceso durante unos meses al material del curso, y especialmente cuando se trata de los vídeos, esto no es suficiente. Además, no puedes descargar los vídeos, sólo los archivos de texto, que no son útiles. El curso comienza de nuevo en febrero de 2017. Para los consultores que se centran en las transformaciones digitales, es definitivamente una necesidad. ¡Que lo disfruten!
Si te gusta profundizar en la Ciencia de Datos:
Una introducción visual al machine learning online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Un buen libro que cubre temas similares a los del curso:
● Data Science for Business por Foster Provost, Tom Fawcett
● Foundations of Machine Learning por Mehryar Mohri y Afshin Rostamizadeh
El enlace al curso del MIT:
● https://mitprofessionalx.mit.edu/courses/
Sobre el autor: Florian Hoeppner trabaja como Asesor Tecnológico de Nuevas TI en Servicios Financieros de Norteamérica. Su enfoque está en Enterprise Agile, DevOps, SRE combinados con la estrategia de sourcing y shoring. En este momento, Florian está viviendo el sueño en la ciudad de Nueva York.
Deja una respuesta