Diferencia entre el aprendizaje automático, la ciencia de datos, la IA, el aprendizaje profundo y la estadística – Data Science Central
On enero 1, 2022 by adminEn este artículo, aclaro las distintas funciones del científico de datos, y cómo la ciencia de datos se compara y se solapa con campos relacionados como el aprendizaje automático, el aprendizaje profundo, la IA, la estadística, el IoT, la investigación de operaciones y las matemáticas aplicadas. Como la ciencia de datos es una disciplina amplia, empiezo describiendo los diferentes tipos de científicos de datos que uno puede encontrar en cualquier entorno empresarial: incluso puede descubrir que usted mismo es un científico de datos, sin saberlo. Como en cualquier disciplina científica, los científicos de datos pueden tomar prestadas técnicas de disciplinas afines, aunque hemos desarrollado nuestro propio arsenal, especialmente técnicas y algoritmos para manejar conjuntos de datos no estructurados muy grandes de forma automatizada, incluso sin interacciones humanas, para realizar operaciones en tiempo real o para hacer predicciones.
1. Diferentes tipos de científicos de datos
Para empezar y ganar algo de perspectiva histórica, puedes leer mi artículo sobre 9 tipos de científicos de datos, publicado en 2014, o mi artículo donde comparo la ciencia de datos con 16 disciplinas analíticas, también publicado en 2014.
Los siguientes artículos, publicados durante el mismo periodo de tiempo, siguen siendo útiles:
- Científico de datos frente a arquitecto de datos
- Científico de datos frente a ingeniero de datos
- Científico de datos frente a estadístico
- Científico de datos frente a analista de negocio
Más recientemente (agosto de 2016) Ajit Jaokar habló del científico de datos tipo A (analítico) frente al tipo B (constructor):
- El científico de datos Tipo A puede codificar lo suficientemente bien como para trabajar con datos, pero no es necesariamente un experto. El científico de datos de tipo A puede ser un experto en diseño experimental, previsión, modelización, inferencia estadística u otras cosas que se suelen enseñar en los departamentos de estadística. Sin embargo, en general, el producto del trabajo de un científico de datos no son «valores p e intervalos de confianza», como a veces parece sugerir la estadística académica (y como a veces ocurre con los estadísticos tradicionales que trabajan en la industria farmacéutica, por ejemplo). En Google, los científicos de datos de tipo A son conocidos como estadísticos, analistas cuantitativos, analistas de ingeniería de apoyo a las decisiones o científicos de datos, y probablemente algunos más.
- Científico de datos de tipo B: La B es de construcción. Los científicos de datos de tipo B comparten algunos antecedentes estadísticos con los de tipo A, pero también son codificadores muy fuertes y pueden ser ingenieros de software capacitados. El científico de datos de tipo B está principalmente interesado en utilizar los datos «en producción». Construyen modelos que interactúan con los usuarios, a menudo sirviendo recomendaciones (productos, personas que pueden conocer, anuncios, películas, resultados de búsqueda). Fuente: haga clic aquí.
También escribí sobre el ABCD de la optimización de los procesos de negocio, donde la D representa la ciencia de los datos, la C la ciencia de la computación, la B la ciencia de los negocios y la A la ciencia de la analítica. La ciencia de los datos puede o no implicar la codificación o la práctica matemática, como puedes leer en mi artículo sobre la ciencia de los datos de bajo nivel frente a la de alto nivel. En una startup, los científicos de datos generalmente usan varios sombreros, como ejecutivo, minero de datos, ingeniero de datos o arquitecto, investigador, estadístico, modelador (como en el modelado predictivo) o desarrollador.
Aunque el científico de datos generalmente se retrata como un codificador experimentado en R, Python, SQL, Hadoop y estadísticas, esto es sólo la punta del iceberg, popularizado por los campamentos de datos que se centran en la enseñanza de algunos elementos de la ciencia de datos. Pero al igual que un técnico de laboratorio puede llamarse a sí mismo físico, el verdadero físico es mucho más que eso, y sus dominios de experiencia son variados: astronomía, física matemática, física nuclear (que está al borde de la química), mecánica, ingeniería eléctrica, procesamiento de señales (también un subcampo de la ciencia de datos) y muchos más. Lo mismo puede decirse de los científicos de datos: los campos son tan variados como la bioinformática, la tecnología de la información, las simulaciones y el control de calidad, las finanzas computacionales, la epidemiología, la ingeniería industrial e incluso la teoría de los números.
En mi caso, durante los últimos 10 años, me he especializado en las comunicaciones de máquina a máquina y de dispositivo a dispositivo, desarrollando sistemas para procesar automáticamente grandes conjuntos de datos, para realizar transacciones automatizadas: por ejemplo, la compra de tráfico de Internet o la generación automática de contenidos. Implica el desarrollo de algoritmos que trabajan con datos no estructurados, y se encuentra en la intersección de la IA (inteligencia artificial), el IoT (Internet de las cosas) y la ciencia de los datos. Es lo que se conoce como ciencia de datos profunda. Es relativamente libre de matemáticas, e implica relativamente poca codificación (principalmente API), pero es bastante intensiva en datos (incluyendo la construcción de sistemas de datos) y se basa en la nueva tecnología estadística diseñada específicamente para este contexto.
Antes de eso, trabajé en la detección de fraudes con tarjetas de crédito en tiempo real. Al principio de mi carrera (alrededor de 1990) trabajé en tecnología de teledetección de imágenes, entre otras cosas para identificar patrones (o formas o rasgos, por ejemplo, lagos) en imágenes de satélite y para realizar la segmentación de imágenes: en ese momento mi investigación fue etiquetada como estadística computacional, pero la gente que hacía exactamente lo mismo en el departamento de ciencias de la computación de al lado en mi universidad de origen, llamó a su investigación inteligencia artificial. Hoy en día, se llamaría ciencia de datos o inteligencia artificial, siendo los subdominios el procesamiento de señales, la visión por ordenador o el IoT.
Además, los científicos de datos pueden encontrarse en cualquier parte del ciclo de vida de los proyectos de ciencia de datos, en la etapa de recopilación de datos, o en la etapa de exploración de datos, hasta el modelado estadístico y el mantenimiento de los sistemas existentes.
2. Aprendizaje automático frente a aprendizaje profundo
Antes de profundizar en el vínculo entre la ciencia de datos y el aprendizaje automático, hablemos brevemente del aprendizaje automático y del aprendizaje profundo. El aprendizaje automático es un conjunto de algoritmos que se entrenan en un conjunto de datos para hacer predicciones o tomar acciones con el fin de optimizar algunos sistemas. Por ejemplo, los algoritmos de clasificación supervisada se utilizan para clasificar a los clientes potenciales en buenos o malos prospectos, con fines de préstamo, basándose en datos históricos. Las técnicas implicadas, para una tarea determinada (por ejemplo, la agrupación supervisada), son variadas: Bayes ingenuo, SVM, redes neuronales, conjuntos, reglas de asociación, árboles de decisión, regresión logística, o una combinación de muchas. Para ver una lista detallada de algoritmos, haga clic aquí. Para una lista de problemas de aprendizaje automático, haga clic aquí.
Todo esto es un subconjunto de la ciencia de datos. Cuando estos algoritmos se automatizan, como en el pilotaje automático o en los coches sin conductor, se llama IA, y más concretamente, aprendizaje profundo. Haga clic aquí para ver otro artículo que compara el aprendizaje automático con el aprendizaje profundo. Si los datos recogidos proceden de sensores y si se transmiten a través de Internet, entonces se trata de aprendizaje automático o ciencia de datos o aprendizaje profundo aplicado al IoT.
Algunas personas tienen una definición diferente para el aprendizaje profundo. Consideran el aprendizaje profundo como redes neuronales (una técnica de aprendizaje automático) con una capa más profunda. La pregunta se formuló en Quora recientemente, y a continuación se ofrece una explicación más detallada (fuente: Quora)
- La IA (inteligencia artificial) es un subcampo de la ciencia de la computación, que se creó en la década de 1960, y se ocupaba (se ocupa) de resolver tareas que son fáciles para los humanos, pero difíciles para los ordenadores. En particular, una llamada IA fuerte sería un sistema que puede hacer todo lo que un humano puede hacer (quizás sin cosas puramente físicas). Esto es bastante genérico, e incluye todo tipo de tareas, como planificar, moverse por el mundo, reconocer objetos y sonidos, hablar, traducir, realizar transacciones sociales o comerciales, trabajos creativos (hacer arte o poesía), etc.
- NLP (Natural language processing) es simplemente la parte de la IA que tiene que ver con el lenguaje (normalmente escrito).
- El aprendizaje automático se ocupa de un aspecto de esto: dado un problema de IA que puede ser descrito en términos discretos (por ejemplo, de un conjunto particular de acciones, cuál es la correcta), y dada una gran cantidad de información sobre el mundo, averiguar cuál es la acción «correcta», sin que el programador la programe. Normalmente se necesita algún proceso externo para juzgar si la acción es correcta o no. En términos matemáticos, se trata de una función: se introduce un dato de entrada y se quiere que produzca el resultado correcto, por lo que el problema es construir un modelo de esta función matemática de forma automática. Para hacer una distinción con la IA, si puedo escribir un programa muy inteligente que tenga un comportamiento similar al humano, puede ser IA, pero a menos que sus parámetros se aprendan automáticamente a partir de los datos, no es aprendizaje automático.
- El aprendizaje profundo es un tipo de aprendizaje automático que es muy popular ahora. Implica un tipo particular de modelo matemático que puede considerarse como una composición de bloques simples (composición de funciones) de un determinado tipo, y donde algunos de estos bloques pueden ajustarse para predecir mejor el resultado final.
¿Cuál es la diferencia entre el aprendizaje automático y la estadística?
Este artículo trata de responder a la pregunta. El autor escribe que la estadística es el aprendizaje automático con intervalos de confianza para las cantidades que se predicen o estiman. Tiendo a estar en desacuerdo, ya que he construido intervalos de confianza amigables para los ingenieros que no requieren ningún conocimiento matemático o estadístico.
3. Ciencia de datos frente a aprendizaje automático
El aprendizaje automático y la estadística forman parte de la ciencia de datos. La palabra aprendizaje en machine learning significa que los algoritmos dependen de algunos datos, utilizados como conjunto de entrenamiento, para afinar algunos parámetros del modelo o del algoritmo. Esto engloba muchas técnicas como la regresión, el Bayes ingenuo o el clustering supervisado. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, el clustering no supervisado -una técnica estadística y de ciencia de datos- tiene como objetivo detectar clusters y estructuras de clusters sin ningún conocimiento a priori o conjunto de entrenamiento que ayude al algoritmo de clasificación. Se necesita un ser humano para etiquetar los clusters encontrados. Algunas técnicas son híbridas, como la clasificación semisupervisada. Algunas técnicas de detección de patrones o de estimación de la densidad encajan en esta categoría.
La ciencia de los datos es mucho más que el aprendizaje automático. Los datos, en la ciencia de los datos, pueden provenir o no de una máquina o de un proceso mecánico (los datos de las encuestas podrían recogerse manualmente, los ensayos clínicos implican un tipo específico de datos pequeños) y podrían no tener nada que ver con el aprendizaje como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de los datos abarca todo el espectro del procesamiento de datos, no sólo los aspectos algorítmicos o estadísticos. En concreto, la ciencia de datos también abarca
- la integración de datos
- la arquitectura distribuida
- la automatización del aprendizaje automático
- la visualización de datos
- los cuadros de mando y el BI
- la ingeniería de datos
- el despliegue en modo de producción
- automatizado, decisiones basadas en datos
Por supuesto, en muchas organizaciones, los científicos de datos se centran sólo en una parte de este proceso. Para leer sobre algunas de mis contribuciones originales a la ciencia de datos, haz clic aquí.
Sigue a @analyticbridge
Para no perderte este tipo de contenido en el futuro, suscríbete a nuestro boletín. Para ver artículos relacionados del mismo autor, haga clic aquí o visite www.VincentGranville.com. Sígueme en LinkedIn, o visita mi antigua página web aquí. Otros recursos útiles:
Deja una respuesta