Hoje em dia, técnicas de machine learning são utilizadas para resolver problemas em praticamente todo domínio imaginável. Um uso muito popular é no reconhecimento e classificação de imagens, onde técnicas de deep learning podem apresentar ótimos resultados.
Para entender conceitos como redes neurais, deep learning e classificação de imagens, preparei um exemplo onde ensinaremos um algoritmo a separar fotos de gatos de acordo com suas raças.
Relembrando a teoria discutida no artigo anterior (O que é Machine Learning?), nosso algoritmo será de classificação (classificar uma entrada entre determinadas categorias) com aprendizagem supervisionada (treinamento com entradas que possuem um label associado, ou seja, dizemos ao computador o que significa aquela entrada).
Mas antes de implementar o algoritmo, primeiro vamos entender algumas definições:
Rede Neural Artifical
Uma rede neural artifical (ANN) é uma estrutura que simula o funcionamento de um conjunto de neurônios. A ANN mais simples é aquela composta de apenas um neurônio, chamada perceptron. Um perceptron possui:
- Diversas entradas com seus respectivos pesos
- Um valor limite, utilizado para decidir se o perceptron “dispara”, ou seja, se sua saída será igual a 1
- Valor de saída, que pode ser 0 ou 1
Ao juntar muitos perceptrons, formamos uma rede; uma rede neural artificial. Para treinar um perceptron, comparamos o resultado obtido com o resultado esperado, e mudamos os pesos das entradas com o objetivo de minimizar o erro obtido.
Por exemplo: imagine que vamos treinar uma rede neural para classificar se um e-mail é ou não spam. As entradas podem ser:
- Tamanho do e-mail
- Horário em que foi enviado
- Se conheço ou não quem o enviou
- Se já recebi outros e-mails do mesmo remetente
- As palavras no assunto e no corpo do e-mail
- E a saída é 0 (não spam) ou 1 (spam). Conforme a rede é treinada (usa a diferença entre o resultado obtido e o resultado esperado para alterar os pesos que agem sobre as entradas, afim de minimizar o erro), ela aprende as características e a relevância de cada característica para indicar se um e-mail é ou não spam.
Ou seja, treinamos a estrutura para gerar o resultado correto por meio do ajuste dos pesos que agem sobre as entradas. Este ajuste é feito ao comparar o resultado obtido com o resultado esperado, e calcular a diferença. O ajuste tem o objetivo de diminuir essa diferença. Quanto menor a diferença, mais o algoritmo aprendeu a classificar corretamente.
Rede Neural Convolucional
Rede Neural Convolucional (Convolutional Neural Network – CNN) é uma classe de rede neural utilizada para processamento e análise de imagens. Foi proposta em 1998 em um paper do cientista Yann LeCun, que propôs uma arquitetura capaz de reconhecer dígitos manuscritos com precisão de 99,2%. Essa arquitetura foi inspirada em uma pesquisa de 1968, feita por David Hunter Hubel e Torsten Wiesel sobre o funcionamento do córtex visual dos mamíferos.
A pesquisa sugere que mamíferos percebem visualmente o mundo de forma hierárquica, através de camadas de clusters de neurônios. Quando vemos algo, clusters são ativados hierarquicamente, e cada um detecta um conjunto de atributos sobre o que foi visto.
A arquitetura da CNN simula clusters de neurônios para detectar atributos daquilo que foi visto, organizados hierarquicamente e de forma abstrata o suficiente para generalizar independentemente de tamanho, posição rotação, etc.
Deep Learning
Acima, explicamos o conceito de rede neural. Deep Learning é o uso de uma rede neural com muitas camadas. Usando a mesma lógica, com mais níveis, podemos utilizá-la para modelar conceitos mais complexos.
Convolucional
Já entendemos o que é uma rede neural, e que rede neural convolucional é uma classe de redes neurais. Mas qual o significado de convolução? Para nós, neste exemplo, convolução pode ser vista como sinônimo de combinação. É o procedimento de combinar duas fontes de informação.
Imagem
O input da CNN é uma imagem, representada como uma matriz. Cada elemento da matriz contém o valor de seu respectivo pixel, que pode variar de 0 a 255. Para imagens coloridas em RGB, temos uma matriz “em três dimensões”, onde cada dimensão é uma das camadas de cor (red, green e blue). Assim, uma imagem colorida de 255px por 255px é representada por três matrizes de 255 por 255 (255x255x3).
Atributo
Um atributo é um padrão que a CNN aprende. Normalmente, este padrão se repete nas imagens, tornando-o proeminente. O contorno dos objetos (linhas, formas, abstrações) é um exemplo de atributo.
Aplicando a convolução
Um pouco acima, explicamos que convolução é a combinação de duas fontes de informação, e que estamos tentando aprender a identificar padrões nas imagens. Neste exemplo, queremos aprender os padrões que diferenciam duas raças diferentes de gatos, quais características diferenciam uma raça da outra e como treinar nosso algoritmo para identificar estas características.
Pois bem, para isso, utilizaremos um kernel/filtro que será aplicado à partes da imagem original, com o objetivo de identificar padrões.
Pense nela como uma matriz menor, composta de valores. Ela é aplicada à imagem (convolução), para obter regiões de ativação, ou seja, regiões onde atributos específicos deste filtro foram encontrados.
Por exemplo, podemos imaginar um filtro de 16 x 16 percorrendo uma imagem de 256 x 256 x 3. A cada etapa pegamos uma porção de 16 x 16 da imagem e fazemos a convolução (ou seja, calculamos o produto escalar entre as duas matrizes). O valor obtido é adicionado à matriz de ativação. Este processo é repetido até todas as três matrizes terem sido percorridas completamente.
Os valores do filtro mudam a cada iteração de treinamento com o objetivo de melhorar a identificação de quais regiões contém atributos significativos (da mesma forma que os pesos em um perceptron de uma rede neural são atualizados no treinamento).
Mas como essa série de multiplicações nos ajuda a detectar os atributos de uma imagem? Conforme o filtro aprende a detectar um atributo (através do processo de aprendizado), seus valores se ajustam de forma que o resultado da convolução seja um valor que indique que o determinado atributo foi encontrado. É o mesmo mecanismo utilizado na detecção de spam/não spam explicada anteriormente, só que agora sendo aplicado a uma imagem.
No exemplo abaixo, estamos tentando identificar o ratinho na imagem. O filtro irá trabalhar na detecção daquela curva destacada em amarelo. A representação em pixels do contorno do ratinho contém valores da cor onde ocorre o contorno, e zero (branco) onde não ocorre.
Quando fazemos o produto escalar entre o filtro e o contorno que procuramos, o resultado é um número bem grande.
Ou seja, quando o resultado da convolução é um número grande, o atributo foi detectado. Já quando é um resultado 0 ou muito pequeno, o atributo não foi encontrado.
Treinando nossa CNN
Neste exemplo não iremos escrever uma CNN do zero, mas sim treinar uma pronta utilizando um processo chamado Transfer Learning. Com Transfer Learning, usamos uma CNN já treinada e adicionamos uma camada a mais, treinando apenas esta camada para nosso objetivo.
No nosso caso, usaremos a CNN Inception-V3 do Google, que foi treinada em cima da base de dados ImageNet, e a ensinaremos a classificar a raça de gatos.
Crie uma pasta em algum lugar do seu computador, abra uma linha de comando nela e siga os passos abaixo.
Passo 1
Baixar e instalar o Docker; uma vez instalado, podemos executar o seguinte comando para conferir se está tudo ok:
docker run hello-world
Passo 2
Baixar a imagem do TensorFlow:
docker pull tensorflow/tensorflow
Passo 3
Iniciar o container baseado na imagem do TensorFlow, mapeando um diretório entre a máquina física e o container:
docker run -it --volume ${PWD}:/tf_files --workdir /tf_files --publish 6006:6006 tensorflow/tensorflow:1.1.0 bash
Parâmetros
-it: processo interativo
--volume <host>:<container>: monta um volume, linkando uma pasta no host com uma no container
--workdir <dir>: diretório no container onde vamos executar os comandos
--publish <host>:<container>: mapeamento entre porta do host e a porta no container
Passo 4
Colocar neste diretório, os arquivos necessários para treinar a CNN (veja as observações abaixo para pegar os arquivos):
- Uma pasta chamada cats, contendo uma pasta para cada categoria que queremos treinar. No nosso caso, teremos uma pasta para cada raça de gato. O nome da pasta será o nome da categoria, o nome da raça do gato. Dentro das pastas, teremos as imagens dos gatos.
- Script retrain.py que contém os comandos para treinar a CNN.
- Script label_image.py que usaremos para consultar a CNN treinada, ou seja, passaremos a imagem de um gato e perguntaremos qual sua raça.
Observação 1: Você deve montar ou utilizar um conjunto de dados com as imagens das raças desejadas. Eu utilizei um subconjunto do desafio Dogs vs. Cats do Kaggle.
Para este exemplo, separei mais ou menos 200 imagens de cada raça. Vamos trabalhar com a Birman e a British Shorthair:
Observação 2: Para baixar os scripts, execute os seguintes comandos:
curl -O https://raw.githubusercontent.com/tensorflow/tensorflow/r1.1/tensorflow/examples/image_retraining/retrain.py
curl -L https://goo.gl/3lTKZs > label_image.py
Feito isto, sua pasta deve estar mais ou menos assim:
Passo 5
Iniciar o treinamento:
python -m retrain \ --bottleneck_dir=bottlenecks \ --how_many_training_steps=500 \ --model_dir=models/ \ --summaries_dir=training_summaries/"${ARCHITECTURE}" \ --output_graph=retrained_graph.pb \ --output_labels=retrained_labels.txt \ --architecture="${ARCHITECTURE}" \ --image_dir=cats
Este script irá baixar o inception model e depois iniciará o treinamento com base nas imagens e categorias que informamos. Irá iterar 500 vezes para treinar o modelo, e salvará o resultado no arquivo retrained_graph.pb.
O tempo de execução varia de acordo com a quantidade de imagens para treinar e a velocidade do computador. Em um teste que fiz com 12 raças, cada uma contendo em torno de 200 imagens, o treinamento demorou mais ou menos 30 minutos em um i5 com 8 GB de RAM.
Treinamento finalizado:
Passo 6
Consultar o modelo gerado. Podemos pesquisar no Google a imagem de um gato qualquer (dentre as duas raças que escolhemos), e colocar na pasta tf_files.
Para perguntar ao modelo treinado qual a raça deste gato, basta executar:
python label_image.py gato.jpg
Onde gato.jpg é o nome da imagem que você pesquisou e baixou.
Fiz um teste com o gato da imagem abaixo, e o resultado foi 99,29% British Shorthair, ou seja, o resultado correto!
Próximos passos
Podemos pegar o modelo que treinamos e criar uma aplicação para disponibilizar uma API que recebe a imagem de um gato e retorna sua raça fazendo consulta a este modelo. Ou podemos também criar uma aplicativo para celular, onde tiramos a foto de um gato e consultamos o modelo para saber a sua raça.
Estes são alguns exemplos de como utilizar isso no mundo real, e lembre-se de que podemos utilizar este modelo também para outros tipos de imagens e classificações.
Fontes e créditos
Esse artigo não seria possível sem o estudo das seguintes referências:
- Siraj Raval: Convolutional Network
- Siraj Raval: Convolutional Neural Networks – The Math of Intelligence (Week 4)
- Hacker House: Easy Image Classification with Tensorflow
- Google Codelabs: TensorFlow for Poets
- Abhineet Saxena: Convolutional Neural Networks (CNNs): An Illustrated Explanation
- Udacity: Neural Networks
- Guilherme Silveira: Machine Learning: Introdução à classificação
Scripts
Os scripts utilizados fazem parte do tutorial TensorFlow for Poets, e foram obtidos com os segiuntes comandos:
curl -O https://raw.githubusercontent.com/tensorflow/tensorflow/r1.1/tensorflow/examples/image_retraining/retrain.py
curl -L https://goo.gl/3lTKZs > label_image.py