O arquivo robots.txt já é um padrão utilizado no mundo inteiro para declarar aos mecanismos de busca o que eles não devem indexar em um site. Esta é uma técnica “antiga”, mas ainda muito útil e que mesmo assim, muitos ainda desconhecem. Este texto é uma compilação das anotações que tenho feito sobre a utilização de robots.txt e que podem ser úteis para qualquer pessoa que queira esconder qualquer coisa que esteja disponível na web mas que por uma razão ou outra deve ser privada e não indexada pelos mecanismos de buscas.
A primeira coisa que você deve saber é que robots.txt não é usado para indicar o que os mecanismos de buscas DEVEM indexar e sim o que NÃO DEVEM! Você vai precisar usar robots.txt, por exemplo, em uma intranet que funcione na web e que pode conter informações que dizem respeito exclusivamente a uma empresa. Áreas restritas, documentos pessoais que são armazenados no seu servidor em uma determinada pasta e que só estão lá por backup ou para compartilhar informações entre um pequeno grupo etc, são contextos possíveis em que os mecanismos de buscas não devem indexar o conteúdo.
Se você quer que o Google ou qualquer outro mecanismo de busca indexe todo o seu conteúdo, você não precisa usar robots.txt. Mesmo que isso pareça óbvio, muitas pessoas se enganam sobre a utilização deste recurso.
Você precisa tomar alguns cuidados ao criar um arquivo de robots.txt como:
robots.txt é apenas um arquivo de texto que pode ser criado no notepad ou qualquer outro editor de texto ASCII e que salve com a extensão .txt. Lembre-se que não pode ser um html, tem que ser um txt.
Este arquivo deve ficar na raiz do seu site.
O nome do arquivo deve ser todo em letras minúsculas (lowercase) e nunca com letras maiúsculas. Ou seja, para qualquer site que queira implementar ele deverá se chamar robots.txt
Basicamente existem duas regras a serem declaradas neste arquivo. O User-Agent e o Disallow.
A regra “User-Agent” é usada para declarar um user agent específico. Um user-agent neste contexto é um mecanismo de busca como por exemplo o Googlebot:
User-Agent: Googlebot
Se quiser que todos os user agents (e não somente o robô do Google) indexe o conteúdo, use asterisco como valor de User-Agent. Dessa forma você informa que todos os mecanismos de busca não devem indexar:
User-Agent: *
A regra Disallow é usada para indicar quais os locais onde os mecanismos de busca não devem “entrar”.
Para bloquear um site inteiro use uma barra como no exemplo abaixo:
Disallow: /
Para bloquear um diretório específico, use o nome do diretório entre barras como no exemplo:
Disallow: /private_directory/
Para bloquear uma página específica, use uma barra e o nome do arquivo.
Disallow: /private_file.html
Você pode usar quantas regras Disallow você quiser. Basta apenas iniciar outra linha. Lembre-se que urls são case sensitive. Se você tem um arquivo de html chamado Teste.html e no valor de Disallow coloca “teste.html”, o mecanismo de busca não vai considerar ambos como sendo o mesmo arquivo.
Em alguns casos, você pode querer declarar para os mecanismos de busca que não sigam determinada página na própria página utilizando a meta tag nofollow da seguinte maneira:
<meta name="robots" content="nofollow">
Com robots.txt você tem controle do que não deve ser indexado em uma escala maior do que a meta tag nofollow. De qualquer maneira ambas as soluções tem exatamente o mesmo objetivo: impedir com que mecanismos de busca indexem o conteúdo referenciado.
Todas as informações neste texto foram retiradas das referências abaixo!
Google Blog: Robots Exclusion Protocol
Controlling how search engines access and index your website