Data

17 out, 2018

Python para ciência de dados em 5 passos

100 visualizações
Publicidade

Vamos dar uma olhada rápida nos conhecimentos básicos do uso do Python voltado para Big Data e Ciência de Dados, e nas bibliotecas mais utilizadas.

Passo 1 – O básico

Não precisa conhecer o Python como se fosse seu melhor amigo, por exemplo, mas para entrar nesse mundo é preciso certos conhecimentos básicos:

  • Listas em Python
  • Compreensões
  • Tuplas
  • Dicionários e compreensão de dicionários
  • Loops em Python

Passo 2 – Seu computador está preparado?

Sempre sugiro o Anaconda para quem está iniciando os estudos nesse ramo. Ele tem tudo o que precisamos para começar a estudar e é uma distribuição open source para as linguagens de programação Python e R. Nele, você pode encontrar aplicações como Jupyter notebook, Spyder, Orange (para a execução de mineração de dados) e até o RStudio.

Mas se você quiser utilizar outra ferramentas, como o VSCode, fique a vontade! Ele é cheio de extensões que também são extremamente úteis, mas tão úteis que você também pode versionar o próprio código dentro da ferramenta.

Passo 3 – REGEX

Expressões regulares são extremamente úteis na hora de limpar os dados. É onde começa o processo de encontrar e corrigir aqueles dados corrompidos ou imprecisos de um conjunto de tabelas, registros ou banco de dados. Podemos identificar partes incompletas, partes erradas, imprecisas ou irrelevantes dos dados e logo em seguida fazer as substituições, modificações e excluir dados “sujos”.

Passo 4 – Bibliotecas

Existem várias bibliotecas que podem ser utilizadas na ciência de dados. As bibliotecas nada mais são que um conjunto de funções e objetos pré existentes que você pode importar para o seus códigos. Isso nos ajuda muito a economizar tempo e um pouco de esforço.

  • NumPy: facilitadora do cálculo numérico, criadora de arrays, mãe de outras bibliotecas (obs: não esqueça de aprender matrizes com NumPy).
  • Pandas: é uma filha do NumPy, é uma mão na roda quando o assunto é estrutura de dados e análise exploratória. Dona de um recurso indispensável chamado Data Frame, que gera uma estrutura de dados bidimensional com colunas de tipos diferentes, e é a biblioteca mais utilizada na área.
  • SciPy: fornecedora das ferramentas necessárias para a computação científica e técnica, dona dos módulos para otimização, álgebra linear, integração, polarização, funções especiais, processamento de sinal e imagem, solucionadora de ODE e mais uma miscelânea de tarefas.
  • Matplotlib: que graças a uma bênção de um Deus maior não é MatLab. É uma biblioteca muito poderosa e flexível de plotagem e visualização. É um pouquinho complicada. Se tiver muitas dificuldades com ela, pule para Seaborn.
  • Scikit-learn: é a biblioteca do tão aclamado machine learning. Ela tem algoritmos e módulos para pré processamento e validação cruzada. Seus algoritmos são capazes de lidar com regressão, árvore de decisão e modelagem de conjunto de algoritmos de aprendizado não supervisionado como clustering.
  • Seaborn: filha do Matplotlib, facilitadora da visualização de dados comuns, mais agradável e de alto nível.

Passo 5 – Envolva-se

Como qualquer coisa que você queira aprender, você deve se envolver com ela, você deve construir algo nela, não crie problemas difíceis, comece com problemas disponíveis na internet e desenvolva as suas habilidades e com o tempo crie teus próprios desafios, defina-os, modele-os e solucione-os.

Bônus – Matemática

Talvez não seja um bônus tão “delicioso” assim. Lidar com ciência de dados, de um modo geral (até a inteligência artificial) requer um pouco de conhecimentos matemáticos. Aprenda um pouco de matemática conforme os itens abaixo:

  • Cálculo
  • Álgebra linear
  • Estatística descritiva
  • Estatística inferencial

Trouxe aqui para vocês um roteiro para quem quiser iniciar na área de ciência de dados. Não tenha pressa nenhuma, há chances de ficar preso no caminho, e toda vez que você ficar preso encontrará um caminho por conta própria.

Frequente as comunidades. A comunidade do Python no Brasil é uma das mais fortes que já vi! E não esqueça: pense pequeno, comece pequeno e cresça rápido.