Vamos dar uma olhada rápida nos conhecimentos básicos do uso do Python voltado para Big Data e Ciência de Dados, e nas bibliotecas mais utilizadas.
Passo 1 – O básico
Não precisa conhecer o Python como se fosse seu melhor amigo, por exemplo, mas para entrar nesse mundo é preciso certos conhecimentos básicos:
- Listas em Python
- Compreensões
- Tuplas
- Dicionários e compreensão de dicionários
- Loops em Python
Passo 2 – Seu computador está preparado?
Sempre sugiro o Anaconda para quem está iniciando os estudos nesse ramo. Ele tem tudo o que precisamos para começar a estudar e é uma distribuição open source para as linguagens de programação Python e R. Nele, você pode encontrar aplicações como Jupyter notebook, Spyder, Orange (para a execução de mineração de dados) e até o RStudio.
Mas se você quiser utilizar outra ferramentas, como o VSCode, fique a vontade! Ele é cheio de extensões que também são extremamente úteis, mas tão úteis que você também pode versionar o próprio código dentro da ferramenta.
Passo 3 – REGEX
Expressões regulares são extremamente úteis na hora de limpar os dados. É onde começa o processo de encontrar e corrigir aqueles dados corrompidos ou imprecisos de um conjunto de tabelas, registros ou banco de dados. Podemos identificar partes incompletas, partes erradas, imprecisas ou irrelevantes dos dados e logo em seguida fazer as substituições, modificações e excluir dados “sujos”.
Passo 4 – Bibliotecas
Existem várias bibliotecas que podem ser utilizadas na ciência de dados. As bibliotecas nada mais são que um conjunto de funções e objetos pré existentes que você pode importar para o seus códigos. Isso nos ajuda muito a economizar tempo e um pouco de esforço.
- NumPy: facilitadora do cálculo numérico, criadora de arrays, mãe de outras bibliotecas (obs: não esqueça de aprender matrizes com NumPy).
- Pandas: é uma filha do NumPy, é uma mão na roda quando o assunto é estrutura de dados e análise exploratória. Dona de um recurso indispensável chamado Data Frame, que gera uma estrutura de dados bidimensional com colunas de tipos diferentes, e é a biblioteca mais utilizada na área.
- SciPy: fornecedora das ferramentas necessárias para a computação científica e técnica, dona dos módulos para otimização, álgebra linear, integração, polarização, funções especiais, processamento de sinal e imagem, solucionadora de ODE e mais uma miscelânea de tarefas.
- Matplotlib: que graças a uma bênção de um Deus maior não é MatLab. É uma biblioteca muito poderosa e flexível de plotagem e visualização. É um pouquinho complicada. Se tiver muitas dificuldades com ela, pule para Seaborn.
- Scikit-learn: é a biblioteca do tão aclamado machine learning. Ela tem algoritmos e módulos para pré processamento e validação cruzada. Seus algoritmos são capazes de lidar com regressão, árvore de decisão e modelagem de conjunto de algoritmos de aprendizado não supervisionado como clustering.
- Seaborn: filha do Matplotlib, facilitadora da visualização de dados comuns, mais agradável e de alto nível.
Passo 5 – Envolva-se
Como qualquer coisa que você queira aprender, você deve se envolver com ela, você deve construir algo nela, não crie problemas difíceis, comece com problemas disponíveis na internet e desenvolva as suas habilidades e com o tempo crie teus próprios desafios, defina-os, modele-os e solucione-os.
Bônus – Matemática
Talvez não seja um bônus tão “delicioso” assim. Lidar com ciência de dados, de um modo geral (até a inteligência artificial) requer um pouco de conhecimentos matemáticos. Aprenda um pouco de matemática conforme os itens abaixo:
- Cálculo
- Álgebra linear
- Estatística descritiva
- Estatística inferencial
Trouxe aqui para vocês um roteiro para quem quiser iniciar na área de ciência de dados. Não tenha pressa nenhuma, há chances de ficar preso no caminho, e toda vez que você ficar preso encontrará um caminho por conta própria.
Frequente as comunidades. A comunidade do Python no Brasil é uma das mais fortes que já vi! E não esqueça: pense pequeno, comece pequeno e cresça rápido.