Python para ciência de dados em 5 passos

Vamos dar uma olhada rápida nos conhecimentos básicos do uso do Python voltado para Big Data e Ciência de Dados, e nas bibliotecas mais utilizadas.

Passo 1 – O básico

Não precisa conhecer o Python como se fosse seu melhor amigo, por exemplo, mas para entrar nesse mundo é preciso certos conhecimentos básicos:

Listas em Python
Compreensões
Tuplas
Dicionários e compreensão de dicionários
Loops em Python

Passo 2 – Seu computador está preparado?

Sempre sugiro o Anaconda para quem está iniciando os estudos nesse ramo. Ele tem tudo o que precisamos para começar a estudar e é uma distribuição open source para as linguagens de programação Python e R. Nele, você pode encontrar aplicações como Jupyter notebook, Spyder, Orange (para a execução de mineração de dados) e até o RStudio.

Mas se você quiser utilizar outra ferramentas, como o VSCode, fique a vontade! Ele é cheio de extensões que também são extremamente úteis, mas tão úteis que você também pode versionar o próprio código dentro da ferramenta.

Passo 3 – REGEX

Expressões regulares são extremamente úteis na hora de limpar os dados. É onde começa o processo de encontrar e corrigir aqueles dados corrompidos ou imprecisos de um conjunto de tabelas, registros ou banco de dados. Podemos identificar partes incompletas, partes erradas, imprecisas ou irrelevantes dos dados e logo em seguida fazer as substituições, modificações e excluir dados “sujos”.

Passo 4 – Bibliotecas

Existem várias bibliotecas que podem ser utilizadas na ciência de dados. As bibliotecas nada mais são que um conjunto de funções e objetos pré existentes que você pode importar para o seus códigos. Isso nos ajuda muito a economizar tempo e um pouco de esforço.

NumPy: facilitadora do cálculo numérico, criadora de arrays, mãe de outras bibliotecas (obs: não esqueça de aprender matrizes com NumPy).
Pandas: é uma filha do NumPy, é uma mão na roda quando o assunto é estrutura de dados e análise exploratória. Dona de um recurso indispensável chamado Data Frame, que gera uma estrutura de dados bidimensional com colunas de tipos diferentes, e é a biblioteca mais utilizada na área.
SciPy: fornecedora das ferramentas necessárias para a computação científica e técnica, dona dos módulos para otimização, álgebra linear, integração, polarização, funções especiais, processamento de sinal e imagem, solucionadora de ODE e mais uma miscelânea de tarefas.
Matplotlib: que graças a uma bênção de um Deus maior não é MatLab. É uma biblioteca muito poderosa e flexível de plotagem e visualização. É um pouquinho complicada. Se tiver muitas dificuldades com ela, pule para Seaborn.
Scikit-learn: é a biblioteca do tão aclamado machine learning. Ela tem algoritmos e módulos para pré processamento e validação cruzada. Seus algoritmos são capazes de lidar com regressão, árvore de decisão e modelagem de conjunto de algoritmos de aprendizado não supervisionado como clustering.
Seaborn: filha do Matplotlib, facilitadora da visualização de dados comuns, mais agradável e de alto nível.

Passo 5 – Envolva-se

Como qualquer coisa que você queira aprender, você deve se envolver com ela, você deve construir algo nela, não crie problemas difíceis, comece com problemas disponíveis na internet e desenvolva as suas habilidades e com o tempo crie teus próprios desafios, defina-os, modele-os e solucione-os.

Bônus – Matemática

Talvez não seja um bônus tão “delicioso” assim. Lidar com ciência de dados, de um modo geral (até a inteligência artificial) requer um pouco de conhecimentos matemáticos. Aprenda um pouco de matemática conforme os itens abaixo:

Cálculo
Álgebra linear
Estatística descritiva
Estatística inferencial

Trouxe aqui para vocês um roteiro para quem quiser iniciar na área de ciência de dados. Não tenha pressa nenhuma, há chances de ficar preso no caminho, e toda vez que você ficar preso encontrará um caminho por conta própria.

Frequente as comunidades. A comunidade do Python no Brasil é uma das mais fortes que já vi! E não esqueça: pense pequeno, comece pequeno e cresça rápido.

Categorias

Colunistas

Explorar

Newsletter

Ecossistema

Python para ciência de dados em 5 passos

Passo 1 – O básico

Passo 2 – Seu computador está preparado?

Passo 3 – REGEX

Passo 4 – Bibliotecas

Passo 5 – Envolva-se

Bônus – Matemática

Mais de Nana Raythz

Fios

Passo 1 – O básico

Passo 2 – Seu computador está preparado?

Passo 3 – REGEX

Passo 4 – Bibliotecas

Passo 5 – Envolva-se

Bônus – Matemática

Mais de Nana Raythz

Fios

O melhor do dev brasileiro, no seu e-mail