Quer ser um cientista de dados? Não comece com Machine Learning.

A primeira coisa que a maioria das pessoas pensam quando ouve o termo “ciência de dados” geralmente é “aprendizado de máquina”.

Este foi o caso para mim. Meu interesse em ciência de dados despertou porque fui exposto pela primeira vez à ideia de “aprendizado de máquina” que soou muito legal e robusto. Este foi o meu maior erro e isso me leva ao meu ponto principal: Se você quer ser um cientista de dados, não comece com aprendizado de máquina.

Obviamente, para ser um cientista de dados “completo”, você terá que eventualmente aprender sobre conceitos de aprendizado de máquina. Mas você ficaria surpreso com o quão longe você pode chegar sem ele. Então por que você não deveria começar com aprendizado de máquina?

1. O aprendizado de máquina é apenas uma parte de um cientista de dados (e uma parte muito pequena do guarda-chuva).

O aprendizado de máquina é (uma parte da) ciência de dados, mas a ciência de dados não é necessariamente aprendizado de máquina, semelhante à forma como um quadrado pertence ao retângulo maior.

Na realidade, podemos estimar que a modelagem de aprendizagem de máquina só compõe em torno de 5 a 10% do trabalho de um cientista de dados, onde a maior parte do tempo é gasto em outro lugar, o que abordaremos elaborar mais tarde.

2. A compreensão completa do aprendizado de máquina requer conhecimento preliminar em vários outros assuntos primeiro.

Em sua essência, o aprendizado de máquina é construído sobre estatística, matemática e probabilidade. Da mesma forma que você aprende pela primeira vez sobre gramática inglesa, linguagem figurativa, e assim por diante para escrever uma boa redação, você tem que ter esses blocos de construção definidos em pedra antes que você possa aprender aprendizado de máquina.

Para dar alguns exemplos:

  • Regressão linear, o primeiro “algoritmo de aprendizagem de máquina” que a maioria dos bootcamps ensina primeiro é realmente um método estatístico.
  • A Análise de Componentes Principais só é possível com as ideias de matrizes e eigenvetores (álgebra linear)
  • Naive Bayes é um modelo de aprendizado de máquina que é completamente baseado no Teorema de Bayes (probabilidade).

E assim, eu vou concluir com dois pontos. Primeiro, aprender os fundamentos facilitará a aprendizagem de temas mais avançados. Segundo, ao aprender os fundamentos, você já terá aprendido vários conceitos de aprendizado de máquina.

3. O aprendizado de máquina não é a resposta para o problema de todo cientista de dados.

Muitos cientistas de dados lutam contra isso. A maioria dos cientistas de dados acha que “ciência de dados” e “aprendizado de máquina” andam lado a lado. E assim, diante de um problema, a primeira solução que eles consideram é um modelo de aprendizado de máquina.

Mas nem todo problema de “ciência de dados” requer um modelo de aprendizado de máquina. Em alguns casos, uma análise simples com Excel ou Pandas é mais do que suficiente para resolver o problema em questão.

Em outros casos, o problema não terá relação com o aprendizado de máquina. Você pode ser obrigado a limpar e manipular dados usando scripts, construir pipelines de dados ou criar painéis interativos, todos os quais não requerem aprendizado de máquina.

O que fazer em vez disso?

Aprender os fundamentos facilitará o aprendizado de temas mais avançados, e ao aprender os fundamentos, você já terá aprendido vários conceitos de aprendizado de máquina.

Eu sei que pode parecer que você não está progredindo para ser um “cientista de dados” se você está aprendendo estatísticas, matemática ou fundamentos de programação, mas aprender esses fundamentos só vai acelerar o aprendizado futuro.

Se você quiser alguns próximos passos tangíveis para começar em vez disso:

  1. Comece com estatísticas. Dos três blocos de construção, acho que as estatísticas são as mais importantes. E se você teme estatística, ciência de dados provavelmente não é para você.
  2. Aprenda Python e SQL. Quanto melhor você estiver no Python e SQL, mais fácil será sua vida quando se trata de coleta, manipulação e implementação de dados. Eu também estaria familiarizado com bibliotecas Python como Pandas, NumPy e Scikit-learn. Também recomendo que você aprenda sobre árvores binárias, pois serve de base para muitos algoritmos avançados de aprendizado de máquina como o XGBoost.
  3. Aprenda fundamentos lineares de álgebra. A álgebra linear torna-se extremamente importante quando você trabalha com qualquer coisa relacionada às matrizes. Isso é comum em sistemas de recomendação e aplicações de deep learning. Se isso soar como coisas que você vai querer aprender no futuro, não pule este passo.
  4. Aprenda manipulação de dados. Isso representa pelo menos 50% do trabalho de um cientista de dados. Mais especificamente, saiba mais sobre engenharia de recursos, análise exploratória de dados e preparação de dados.

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store