Data Science or Statistics?
On Outubro 28, 2021 by adminNo artigo de Donoho (2015), 50 Years of Data Science, ele aborda a questão de definir o termo “Data Science” de uma forma significativa, a fim de melhor compreender o que é, e como se diferencia de outras disciplinas, nomeadamente a estatística.
Ele começa sua comparação com referência ao campo da estatística e outros campos como a ciência da computação e as ciências sociais, que parecem ter uma reivindicação para as técnicas e métodos.
Donoho defende que o que John Tukey começou, e outros defendidos como William Cleveland e John Chambers, foi realmente uma expansão da estatística para incluir o que conhecemos hoje como ciência dos dados.
Desta perspectiva, eles vêem a estatística como focando principalmente na teoria da estatística que permitiu a alguém construir um modelo inferencial quando você tinha dados para saber algo sobre sua população de interesse.
Estes primeiros defensores da “ciência dos dados” pensavam que a estatística contemporânea deixou de fora a importância da coleta e limpeza no processo de dados.
Adicionalmente, também estamos vendo um foco no poder preditivo de aplicar modelos aos dados, além da modelagem com o propósito de fazer inferências a partir dos dados, em vez de usar os dados para testar um modelo teoricamente construído.
Donoho aponta o quão claro isso é no setor de aprendizagem de máquinas da ciência dos dados, mas também em muitos outros casos de uso. Em vez de confiar na teoria estatística – que necessitava de um modelo de verdade existente nos dados – agora havia uma mudança de paradigma que se concentrava em encontrar padrões e múltiplos modelos potenciais a partir dos próprios dados.
Donoho afirmou que esta expansão foi possível pelo advento do poder computacional e mudanças de visualização que foram alcançadas ao longo dos últimos 40 anos.
From Statistics to Data Analysis
Como visto através da popularidade de softwares estatísticos como SPSS, SAS, e finalmente R que começaram a dominar o campo nos anos 90, a dependência e destaque desses programas tornou-se sinônimo de “análise de dados” e os métodos se espalharam para muitos usos acadêmicos e comerciais.
Em certo sentido, esses programas ajudaram a democratizar e expandir as estatísticas além dos “Estatísticos” formais através de treinamento. Além disso, praticantes em quase todos os ambientes começaram a lidar com “grandes dados” e “mineração de dados” em vez de técnicas estatísticas clássicas usadas anteriormente.
O Common Task Framework (CTF)
O próximo desenvolvimento mais importante foi o Common Task Framework (CTF), que é uma metodologia para competição. O CFT requer:
- (1) conjuntos de dados disponíveis publicamente,
- (2) concorrentes/colaboradores que têm um objetivo comum de inferir uma regra de predição a partir dos dados, e
- (3) um árbitro/arbítor de pontuação objetivo que pode pontuar as submissões dos concorrentes.
O CFT permite concursos de ciência de dados, mas também construiu uma cultura de problemas científicos de fonte aberta com dados, porque há respostas claras e mensuráveis e metas acordadas.
O CFT e a mudança para tecnologias de ciência de dados de fonte aberta (R, Python, Github, ect.) têm sido um empurrão imperativo para o paradigma de ciência de dados.
Um novo ramo da ciência
A ciência de dados agora engloba programação, engenharia, matemática, design e conhecimento de metodologia científica em quase todas as aplicações.
Adicionalmente, há um foco na implementação de soluções, para incluir interfaces para produtos e serviços ou simplesmente fornecer visualização de dados para apresentar os resultados do trabalho de ciência de dados.
Esta é claramente algo mais do que qualquer campo foi focado anteriormente, mas também é universal no sentido de que muitos campos podem adotar e se beneficiar destas técnicas e conhecimentos sendo aplicados aos seus problemas específicos.
Como declarado por John Tukey nos anos 60, a ciência dos dados está se tornando cada vez mais importante em nosso mundo, e está se espalhando rapidamente por quase todas as facetas de nossas vidas.
Deixe uma resposta