O que aprendi com o Programa de Educação Profissional MIT “Data Science”: Data to Insights”
On Dezembro 15, 2021 by adminSim! Acabei de terminar uma aula sobre Data Science do Massachusetts Institute of Technology – mais conhecido como MIT. Infelizmente, enquanto eu ainda estou para visitar o campus em Cambridge, Massachusetts, EUA, eu achei este curso muito gratificante ter participado de um curso online de seis semanas, o programa de Educação Profissional do MIT: “Data Science”: Data to Insights”. Trata-se de resolver problemas complexos com seus dados – como explica o teaser. O tema está se tornando cada vez mais relevante hoje em dia, porque 90% dos dados do mundo só foram criados nos últimos anos.
Você está possivelmente se perguntando se deve ou não fazer uma aula desse tipo? Então, acho que é justo que eu compartilhe algumas idéias com você. Para compreender o meu ponto de vista, vou dar-lhe algumas informações pessoais sobre a minha carreira em TI e inteligência artificial (IA) fore-knowledge.

Eu tenho um diploma em informática e tenho, além disso, um Mestrado em Meios Digitais. Durante a minha educação a IA não era um assunto tão popular como é agora. No entanto, foi o meu foco pessoal na minha tese de diploma em 2005. Infelizmente, eu só pude trabalhar por pouco tempo como desenvolvedor, e não pude trabalhar em outra disciplina dentro da IA. Há cerca de 10 anos, tenho me concentrado em tópicos de consultoria em TI, principalmente em TI-shoring, -sourcing, e consolidação de fornecedores. Escolhi especificamente esta aula online porque minha aspiração é entender as possibilidades e limitações dos métodos e tecnologia.
Cada módulo é acompanhado com 10-20 vídeos (culminando em uma avaliação predominantemente de múltipla escolha) e em qualquer lugar entre um e sete estudos de caso. Os alunos recebem seu certificado e o CEU (1.3) somente com a conclusão bem sucedida de todas as avaliações.
Para completar com sucesso os módulos, os professores (assistentes) fornecem aos alunos cursos on-line, enriquecidos com animações e gráficos. Os participantes podem discutir tópicos e perguntas abertas em um fórum online. Algoritmos e conceitos são sempre explicados em exemplos industriais ou da vida real, ou seja, Netflix ou Facebook.
O tópico “Ciência dos Dados” é dividido em cinco módulos:
>
- >
- Aprendizagem de dados não estruturados
- Regressão e previsão
- Classificação, teste de hipóteses e aprendizagem profunda
- Sistemas de recomendação
- Modelos gráficos e de rede
No primeiro módulo você aprende como descobrir padrões e estruturas latentes em dados. Por exemplo, você é capaz de aprender como estruturar todos os seus arquivos de texto no seu laptop com base em certos temas. Ou, se você quiser descobrir comunidades latentes em uma rede social – também chamada de cluster – então você é capaz de fazê-lo.
Em regressão e predição o foco está na regressão bivariada e multivariada para fins de predição e inferência causal, seguido por regressão logística e não-linear. Você aprenderá como resolver problemas de previsão com dados de alta dimensão, nomeadamente laço, cumeeira, árvores de regressão, árvores impulsionadas, florestas aleatórias assim como outros.
O terceiro módulo Classificação, teste de hipóteses e aprendizagem profunda começa com métodos estatísticos de classificação, teste de hipóteses e suas aplicações, incluindo detecção de anomalias estatísticas, detecção de fraude, spam, e outros comportamentos maliciosos. Por exemplo, a classificação binária como um e-mail é classificada como spam ou não spam. Você será apresentado a redes neurais, perceptron (um algoritmo para aprendizagem supervisionada de classificadores binários), aprendizagem profunda e suas limitações.
Módulo quatro Sistemas de Recomendação, ensina como descobrir informações relevantes a partir de grandes quantidades de dados. Você aprenderá como o Netflix está recomendando novos filmes aos seus usuários; como a Amazon, Facebook ou Spotify estão recomendando aos seus usuários. Você aprenderá diferentes princípios e algoritmos para recomendações, ranking, filtragem colaborativa e recomendações personalizadas.
O último módulo, Netflix e modelos gráficos permitem que você entenda o comportamento de uma rede. Por exemplo, como a informação ou ideias são difundidas numa rede social que é relevante não só no sentido do marketing, mas também como pode ser utilizada para outros fins, por exemplo na detecção de crime. Você aprende sobre algoritmos para analisar grandes redes e métodos para modelar processos de rede.
Eu já podia sentir o cheiro do Prüfungsangst (ansiedade do exame), e eu estava apenas em uma sala de aula virtual!
Eu realmente amei o programa porque ele abre a porta para as possibilidades desconhecidas na tecnologia, aquelas que mudaram continuamente e continuarão a mudar dramaticamente o nosso mundo nos próximos anos. Os professores ensinam ao mais alto nível e falam por todos nós que fizemos o curso – podemos dizer honestamente que aprendemos algo novo.
O seu talento, (além das suas enormes capacidades de regressão e previsão), reside na sua capacidade de dar palestras apenas através de fórmulas matemáticas. Ele lê fórmulas como outros lêem as manchetes das notícias! Não é difícil não ter o maior respeito por ele. Foi só depois de ter visto o vídeo inúmeras vezes que tive ALGUMAS ideias quanto ao seu conteúdo. A internet, especialmente os vídeos do YouTube sobre matemática, foram muito úteis. E essa é exatamente a diferença. Enquanto estava na escola, nosso professor só explicou o assunto uma vez, enquanto agora podemos ensaiar o material com a freqüência que quisermos até que o tema fique.
As máquinas estão subindo a escada e assumindo o trabalho mental.
Após que você seja capaz de superar esta dura palestra, todas as outras são absolutamente agradáveis, especialmente aquelas sobre aprendizado profundo. Foi uma abertura de olhos tal que desde então já a observei duas vezes. No aprendizado profundo o desenvolvedor está meramente ensinando o sistema sobre como aprender, e como resolver um problema. O sistema recebe um conjunto de informações para explorar e aprender sozinho – o programa está aprendendo com dados passados.
Por exemplo, o sistema está lendo imagens de animais e o nome do animal no teste que está definido. Então, ele aprende como detectar um cão em imagens por si só. O sistema aprende que características um cão tem puramente baseado em imagens. Assim, os computadores entraram na área de trabalho mental que até agora era apenas uma área exercida por humanos.
Com este tipo de algoritmo, as máquinas podem assumir novas classificações de trabalhos que só os humanos tinham executado no passado. Por exemplo, ao interpretar imagens médicas e detectar cancro, onde as imagens de cães foram meramente substituídas por raios-X. O conjunto de ensino inclui a informação sobre se o câncer foi ou não detectado. Após aprender como ler e interpretar as radiografias, o sistema é capaz de reduzir o tempo que um médico tem que gastar na análise das imagens. As máquinas estão subindo a escada e assumindo o trabalho mental.
Para obter experiências de mão na massa, estudos de caso são incluídos após cada módulo. Para alguns estudos você precisa de habilidades de desenvolvedor em Python ou ‘R’. Se você não estiver familiarizado com as linguagens do programa, os documentos nos estudos de caso são suportados com fragmentos de código. Por exemplo, o código é dado para como ler de um ficheiro externo ou para visualizar os seus dados. Você desenvolve suas habilidades em um ambiente prático do mundo real. Por exemplo, você constrói seu próprio sistema de recomendação para filmes, semelhante ao sistema de recomendação da Netflix. Em outro estudo de caso, você usa as idéias teóricas da rede para identificar novos genes candidatos que possam causar autismo.
O curso não é de alto nível, pois você aprende os conceitos gerais em matemática. De ponta a ponta, você implementa diretamente o problema para desenvolver sua própria solução em dados reais.
Por um lado o curso foi extremamente desafiador por causa do mergulho profundo em matemática e programação e o período de tempo fixo de apenas seis semanas. Foi satisfatório porque o levou ao mundo dos dados e sistemas inteligentes, que é um dos principais impulsionadores na minha área de negócio particular.
No entanto, por outro lado, a desvantagem é que você tem apenas alguns meses de acesso ao material do curso, e especialmente quando se trata dos vídeos, isto não é suficiente. Além disso, você não pode baixar os vídeos, apenas os arquivos de texto, que não são úteis. O curso está começando novamente em fevereiro de 2017. Para consultores focados nas transformações digitais, é definitivamente uma necessidade. Aproveite!
Se você gosta de se aprofundar em Data Science:
Uma introdução visual ao aprendizado de máquinas online:
● http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
Um bom livro cobrindo tópicos similares aos do curso:
>
● Data Science for Business by Foster Provost, Tom Fawcett
>
● Foundations of Machine Learning by Mehryar Mohri and Afshin Rostamizadeh
>
>O link para o curso MIT:
>
● https://mitprofessionalx.mit.edu/courses/>
>Sobre o autor: Florian Hoeppner está trabalhando como Assessor de Tecnologia para Novas TI em Serviços Financeiros na América do Norte. Seu foco é em Enterprise Agile, DevOps, SRE combinado com sourcing e estratégia de escoramento. Neste momento, Florian está vivendo o sonho na cidade de Nova York.
Deixe uma resposta