Diferença entre Machine Learning, Data Science, AI, Deep Learning, and Statistics – Data Science Central
On Janeiro 1, 2022 by adminNeste artigo, eu esclareço as várias funções do cientista de dados, e como a ciência de dados se compara e se sobrepõe com campos relacionados, tais como aprendizagem de máquinas, aprendizagem profunda, AI, estatística, IoT, pesquisa de operações, e matemática aplicada. Como a ciência de dados é uma disciplina ampla, começo por descrever os diferentes tipos de cientistas de dados que se pode encontrar em qualquer ambiente de negócios: você pode até descobrir que você mesmo é um cientista de dados, sem saber disso. Como em qualquer disciplina científica, os cientistas de dados podem emprestar técnicas de disciplinas relacionadas, embora tenhamos desenvolvido nosso próprio arsenal, especialmente técnicas e algoritmos para lidar com grandes conjuntos de dados não estruturados de forma automatizada, mesmo sem interações humanas, para realizar transações em tempo real ou para fazer previsões.
1. Diferentes tipos de cientistas de dados
Para começar e ganhar alguma perspectiva histórica, você pode ler meu artigo sobre 9 tipos de cientistas de dados, publicado em 2014, ou meu artigo onde eu comparo ciência de dados com 16 disciplinas analíticas, também publicado em 2014.
Os seguintes artigos, publicados durante o mesmo período de tempo, ainda são úteis:
- Data Scientist versus Data Architect
- Data Scientist versus Data Engineer
- Data Scientist versus Statistician
- Data Scientist versus Business Analyst
Mais recentemente (Agosto 2016) Ajit Jaokar discutiu Data Scientist Tipo A (Analítica) versus Data Scientist Tipo B (Construtor):
- O Data Scientist Tipo A pode codificar bem o suficiente para trabalhar com dados, mas não é necessariamente um especialista. O cientista de dados Tipo A pode ser um especialista em desenho experimental, previsão, modelagem, inferência estatística ou outras coisas tipicamente ensinadas nos departamentos de estatística. No entanto, em geral, o produto do trabalho de um cientista de dados não é “p-valores e intervalos de confiança” como as estatísticas acadêmicas às vezes parecem sugerir (e como às vezes é para estatísticos tradicionais que trabalham na indústria farmacêutica, por exemplo). No Google, os cientistas de dados do tipo A são conhecidos de várias maneiras como Estatístico, Analista Quantitativo, Analista de Engenharia de Suporte à Decisão ou Cientista de Dados e provavelmente mais alguns.
- Cientista de dados do tipo B: O B é para Construção. Cientistas de Dados Tipo B compartilham algum conhecimento estatístico com o Tipo A, mas eles também são codificadores muito fortes e podem ser engenheiros de software treinados. O Data Scientist Tipo B está principalmente interessado em usar dados “em produção”. Eles constroem modelos que interagem com os usuários, muitas vezes servindo recomendações (produtos, pessoas que você pode conhecer, anúncios, filmes, resultados de pesquisas). Fonte: clique aqui.
Eu também escrevi sobre os ABCD’s de otimização de processos de negócios onde D significa ciência de dados, C significa ciência da computação, B significa ciência de negócios, e A significa ciência analítica. A ciência de dados pode ou não envolver codificação ou prática matemática, como você pode ler no meu artigo sobre ciência de dados de baixo nível versus ciência de dados de alto nível. Em uma inicialização, os cientistas de dados geralmente usam vários chapéus, como executivo, mineiro de dados, engenheiro ou arquiteto de dados, pesquisador, estatístico, modelador (como em modelagem preditiva) ou desenvolvedor.
Embora o cientista de dados seja geralmente retratado como um codificador experiente em R, Python, SQL, Hadoop e estatística, esta é apenas a ponta do iceberg, tornado popular pelos campos de dados focados no ensino de alguns elementos da ciência de dados. Mas assim como um técnico de laboratório pode se chamar de físico, o físico real é muito mais do que isso, e seus domínios de especialização são variados: astronomia, física matemática, física nuclear (que é química de fronteira), mecânica, engenharia elétrica, processamento de sinais (também um subcampo da ciência de dados) e muito mais. O mesmo pode ser dito sobre cientistas de dados: os campos são tão variados quanto bioinformática, tecnologia da informação, simulações e controle de qualidade, finanças computacionais, epidemiologia, engenharia industrial e até teoria dos números.
No meu caso, nos últimos 10 anos, especializei-me em comunicações máquina-a-máquina e dispositivo-a-dispositivo, desenvolvendo sistemas para processar automaticamente grandes conjuntos de dados, para realizar transações automatizadas: por exemplo, comprar tráfego na Internet ou gerar conteúdo automaticamente. Implica desenvolver algoritmos que funcionam com dados não estruturados, e está na intersecção da IA (inteligência artificial), da IoT (Internet das coisas) e da ciência dos dados. Isto é referido como ciência de dados profunda. Ela é relativamente livre de matemática, e envolve relativamente pouca codificação (principalmente API’s), mas é bastante intensiva em dados (incluindo a construção de sistemas de dados) e baseada em uma nova tecnologia estatística projetada especificamente para este contexto.
Prior a isso, eu trabalhei na detecção de fraude de cartão de crédito em tempo real. No início da minha carreira (cerca de 1990) trabalhei na tecnologia de detecção remota de imagens, entre outras coisas para identificar padrões (ou formas ou características, por exemplo lagos) em imagens de satélite e para realizar segmentação de imagens: naquela época minha pesquisa foi rotulada como estatística computacional, mas as pessoas que faziam exatamente a mesma coisa no departamento de ciências da computação ao lado na minha universidade em casa, chamavam suas pesquisas de inteligência artificial. Hoje, seria chamada de ciência de dados ou inteligência artificial, sendo os sub-domínios processamento de sinais, visão computacional ou IoT.
Também, cientistas de dados podem ser encontrados em qualquer parte do ciclo de vida dos projetos de ciência de dados, na fase de coleta de dados, ou na fase exploratória de dados, até a modelagem estatística e manutenção dos sistemas existentes.
2. Machine Learning versus Deep Learning
Antes de aprofundar a ligação entre ciência de dados e aprendizagem de máquinas, vamos discutir brevemente a aprendizagem de máquinas e aprendizagem profunda. Aprendizagem de máquina é um conjunto de algoritmos que treinam em um conjunto de dados para fazer previsões ou tomar ações a fim de otimizar alguns sistemas. Por exemplo, os algoritmos de classificação supervisionados são usados para classificar potenciais clientes em bons ou maus prospectos, para fins de empréstimo, com base em dados históricos. As técnicas envolvidas, para uma determinada tarefa (por exemplo, agrupamento supervisionado), são variadas: Bayes naive, SVM, redes neurais, conjuntos, regras de associação, árvores de decisão, regressão logística, ou uma combinação de muitas. Para uma lista detalhada de algoritmos, clique aqui. Para uma lista de problemas de aprendizagem de máquinas, clique aqui.
Tudo isso é um subconjunto de ciência de dados. Quando estes algoritmos são automatizados, como no piloto automático ou carros sem condutor, chama-se IA, e mais especificamente, aprendizagem profunda. Clique aqui para outro artigo comparando a aprendizagem da máquina com a aprendizagem profunda. Se os dados coletados vêm de sensores e se são transmitidos via Internet, então é aprendizagem de máquina ou ciência de dados ou aprendizagem profunda aplicada a IoT.
Algumas pessoas têm uma definição diferente para aprendizagem profunda. Elas consideram a aprendizagem profunda como redes neurais (uma técnica de aprendizagem de máquina) com uma camada mais profunda. A pergunta foi feita sobre Quora recentemente, e abaixo está uma explicação mais detalhada (fonte: Quora)
- AI (Inteligência Artificial) é um subcampo da ciência da computação, que foi criado nos anos 60, e estava (está) preocupado em resolver tarefas que são fáceis para os humanos, mas difíceis para os computadores. Em particular, a chamada IA Forte seria um sistema que pode fazer qualquer coisa que um humano possa (talvez sem coisas puramente físicas). Isto é bastante genérico, e inclui todos os tipos de tarefas, como planejar, mover-se pelo mundo, reconhecer objetos e sons, falar, traduzir, realizar transações sociais ou comerciais, trabalho criativo (fazer arte ou poesia), etc.
- NLP (Processamento de linguagem natural) é simplesmente a parte da IA que tem a ver com a linguagem (geralmente escrita).
- Aprendizagem da máquina está preocupada com um aspecto disto: dado algum problema de IA que pode ser descrito em termos discretos (por exemplo, de um conjunto particular de acções, qual delas é a correcta), e dada muita informação sobre o mundo, descubra qual é a acção “correcta”, sem ter o programador a programar. Tipicamente é necessário algum processo externo para julgar se a ação foi correta ou não. Em termos matemáticos, é uma função: você alimenta alguma entrada, e você quer que ela produza a saída correta, então todo o problema é simplesmente construir um modelo desta função matemática de alguma forma automática. Para fazer uma distinção com IA, se eu puder escrever um programa muito inteligente que tenha comportamento humano, ele pode ser IA, mas a menos que seus parâmetros sejam automaticamente aprendidos com os dados, não é aprendizagem de máquina.
- Deep learning é um tipo de aprendizagem de máquina que é muito popular agora. Ela envolve um tipo particular de modelo matemático que pode ser pensado como uma composição de blocos simples (composição de funções) de um determinado tipo, e onde alguns destes blocos podem ser ajustados para melhor prever o resultado final.
Qual é a diferença entre aprendizagem de máquina e estatística?
Este artigo tenta responder à pergunta. O autor escreve que a estatística é a aprendizagem de máquina com intervalos de confiança para as quantidades que estão sendo previstas ou estimadas. Eu tendo a discordar, já que construí intervalos de confiança amigáveis aos engenheiros que não requerem nenhum conhecimento matemático ou estatístico.
3. Data Science versus Machine Learning
Machine learning and statistics are part of data science. A palavra aprendizagem na aprendizagem de máquinas significa que os algoritmos dependem de alguns dados, usados como um conjunto de treinamento, para afinar alguns parâmetros de modelos ou algoritmos. Isto engloba muitas técnicas como regressão, Bayes ingênuo ou agrupamento supervisionado. Mas nem todas as técnicas se encaixam nesta categoria. Por exemplo, o clustering não supervisionado – uma técnica estatística e de ciência de dados – visa detectar clusters e estruturas de clusters sem qualquer conhecimento a-priori ou conjunto de treinamento para ajudar o algoritmo de classificação. É necessário um ser humano para rotular os clusters encontrados. Algumas técnicas são híbridas, tais como a classificação semi-supervisionada. Algumas técnicas de detecção de padrões ou de estimativa de densidade se encaixam nesta categoria.
Ciência de dados é muito mais do que aprendizagem de máquina. Os dados, na ciência dos dados, podem ou não vir de uma máquina ou processo mecânico (os dados do levantamento podem ser recolhidos manualmente, os ensaios clínicos envolvem um tipo específico de pequenos dados) e podem não ter nada a ver com a aprendizagem, como acabei de discutir. Mas a principal diferença é que a ciência dos dados cobre todo o espectro do processamento de dados, não apenas os aspectos algorítmicos ou estatísticos. Em particular, a ciência de dados também cobre
- integração de dados
- arquitetura distribuída
- automatização da aprendizagem da máquina
- visualização de dados
- dashboards e BI
- engenharia de dados
- desenvolvimento no modo de produção
- automatizado, decisões orientadas por dados
De facto, em muitas organizações, os cientistas de dados concentram-se apenas numa parte deste processo. Para ler sobre algumas das minhas contribuições originais à data science, clique aqui.
Follow @analyticbridge
Para não perder este tipo de conteúdo no futuro, subscreva a nossa newsletter. Para artigos relacionados do mesmo autor, clique aqui ou visite www.VincentGranville.com. Siga-me no LinkedIn, ou visite a minha antiga página aqui. Outros recursos úteis:
Deixe uma resposta