¿Ciencia de Datos o Estadística?
On octubre 28, 2021 by adminEn el artículo de Donoho (2015), 50 Years of Data Science, aborda la cuestión de definir el término «Ciencia de Datos» de forma significativa para entender mejor qué es, y en qué se diferencia de otras disciplinas, concretamente de la estadística.
Comienza su comparación haciendo referencia al campo de la estadística y a otros campos como la informática y las ciencias sociales, que parecen reivindicar las técnicas y los métodos.
Donoho defiende que lo que comenzó John Tukey, y otros defendieron como William Cleveland y John Chambers, fue realmente una expansión de la estadística para incluir lo que hoy conocemos como ciencia de datos.
Desde esta perspectiva, consideran que la estadística se centraba principalmente en la teoría de la estadística que permitía construir un modelo inferencial cuando se tenían datos para saber algo sobre la población de interés.
Estos primeros defensores de la «ciencia de los datos» pensaban que la estadística contemporánea dejaba de lado la importancia de la recogida y la limpieza en el proceso de los datos.
Además, estamos viendo un enfoque en el poder predictivo de la aplicación de modelos a los datos, además de modelar con el propósito de hacer inferencias a partir de los datos, en lugar de utilizar los datos para probar un modelo construido por la teoría.
Donoho señala lo claro que es esto en el sector del aprendizaje automático de la ciencia de datos, pero también en muchos otros casos de uso. En lugar de depender de la teoría estadística -que requería un modelo de verdad existente en los datos- ahora se produjo un cambio de paradigma que se centró en la búsqueda de patrones y múltiples modelos potenciales a partir de los propios datos.
Donoho afirmó que esta expansión fue posible gracias a la llegada de la potencia de cálculo y los cambios de visualización que se lograron en los últimos 40 años.
De la estadística al análisis de datos
Como se ha visto a través de la popularidad del software estadístico como SPSS, SAS y, finalmente, R, que comenzó a dominar el campo en la década de 1990, la dependencia y la prominencia de estos programas se convirtió en sinónimo de «análisis de datos» y los métodos se extendieron a muchos usos académicos y comerciales.
En cierto sentido, estos programas ayudaron a democratizar y expandir la estadística más allá de los «estadísticos» formales por formación. Además, los profesionales de casi todos los ámbitos comenzaron a abordar los «grandes datos» y la «minería de datos» en lugar de las técnicas estadísticas clásicas utilizadas anteriormente.
El Marco Común de Tareas (CTF)
El siguiente desarrollo más importante fue el Marco Común de Tareas (CTF), que es una metodología para la competencia. El CFT requiere:
- (1) conjuntos de datos disponibles públicamente,
- (2) competidores/colaboradores que tengan un objetivo común de inferir una regla de predicción a partir de los datos, y
- (3) un árbitro/calificador objetivo que pueda puntuar las presentaciones de los competidores.
El CFT permite las competiciones de ciencia de datos, pero también ha construido una cultura de problemas científicos de fuente abierta con datos porque hay respuestas claras medibles y objetivos acordados.
El CFT y el movimiento hacia las tecnologías de ciencia de datos de código abierto (R, Python, Github, ect.) han sido un impulso imperativo para el paradigma de la ciencia de datos.
Una nueva rama de la ciencia
Claramente algo más allá de la estadística, la ciencia de datos ahora abarca conocimientos de programación, ingeniería, matemáticas, diseño y metodología científica en casi todas las aplicaciones.
Además, hay un enfoque en la implementación de soluciones, para incluir interfaces para productos y servicios o simplemente proporcionar la visualización de datos para presentar los resultados del trabajo de ciencia de datos.
Esto es claramente algo más de lo que cualquier campo se centró anteriormente, pero también es universal en el sentido de que muchos campos pueden adoptar y beneficiarse de estas técnicas y conocimientos aplicados a sus problemas específicos.
Como declaró John Tukey en la década de 1960, la ciencia de los datos es cada vez más importante en nuestro mundo, y se extiende rápidamente a través de casi todas las facetas de nuestras vidas.
Deja una respuesta