Marketing Digital

28 out, 2016

18 motivos de o seu site ser Crawler-Unfriendly: guia de problemas de “Crawlabilidade”

Publicidade

Você trabalhou tanto para criar o seu site e já não vê a hora de encontra-lo no top do Google, mas embora todos os esforços ele nem consegue passar da página 10? Se você tiver certeza do que seu site merece um ranqueamento melhor, o problema pode ser a “crawlabilidade”

O que é “crawlabilidade”? As maquinas de busca usam bots de busca para coletar certas informações sobre as páginas. O procedimento de coletar essas informações é chamado de “crawling”. Com base nessas informações as máquinas de busca incluem as páginas nas listas de busca delas, o que significa que a página pode ser encontrada por usuário. A crawlabilidade do site é um termo que descreve a acessibilidade do site para os bots de buscadores. Você precisa ter certeza que os bots de buscadores consigam encontrar as páginas do seu site, obter acesso e lê-las.

Vamos dividir os possíveis problemas de crawlabilidade em duas categorias – aqueles que podem ser resolvidos por qualquer usuário e aqueles que exigem a atenção de um desenvolvedor ou um administrador de sistemas. É claro que todos têm a formação, capacidades e conhecimentos diferentes, então essa categorização é aproximada.

Falando dos “problemas que qualquer usuário consegue resolver”, nos referimos aos problemas que podem ser resolvidos acessando o código da página ou os arquivos root. Para resolver esse tipo de situação podem ser necessários conhecimentos básicos em programação (por exemplo, para trocar ou substituir um pedaço do código no lugar e do jeito certos).

Já os problemas que seria melhor resolver com a ajuda de um especialista são aqueles que precisam de atenção de pessoas com conhecimentos em administração de servidores e/ou desenvolvimento web.

Crawler bloqueado por meta tags ou robots.txt

Esse tipo de problema é o mais fácil de detectar e resolver verificando suas meta tags e o arquivo robots.txt, por isso recomendamos que você comece a análise de possíveis problemas por aqui. O site inteiro ou algumas páginas permanecem fora do alcance do Google simplesmente porque os bots de buscadores foram proibidos de entrar.

Existem alguns comandos que impedem os bots de rastrear as páginas. Mas atenção – utilizar esses comandos no arquivo robots.txt nem sempre é um erro. Quando usados com cuidado e conhecimento esses parâmetros indicam a melhor direção aos bots, facilitando o rastreamento e os guiando exclusivamente pelas páginas que você quer que sejam rastreadas.

1. Bloqueando a página da indexação com uma meta tag

Se você optar por incluir esse comando, o bot de busca vai ignorar completamente a página, passando para a próxima.

Esse caso pode ser detectado ao verificar se os códigos da sua página contém essa diretiva:

<meta name=”robots” content=”noindex” />

2. Links “no follow”

Nesse caso o bot buscador vai indexar o conteúdo da página, mas não vai seguir os links. Existem dois tipos de directiva “no follow”:

a. Para a página inteira: verifique se há <meta name=”robots” content=”nofollow”> no código da página – isso significa que o bot não pode seguir nenhum link nessa página.

b. Para um único link: nesse caso, o código é: href=”pagename.html” rel=”nofollow”/>

3. O bloqueio de páginas de indexação com robots.txt

Robots.txt é o primeiro arquivo do seu site que recebe visita do bot de busca. O pior que você pode encontrar nesse arquivo é:

<span style="font-weight: 400;">User-agent: *</span>
<span style="font-weight: 400;">Disallow: /</span>

Isso significa que todas as páginas do site são bloqueadas de indexação.

Pode acontecer que só algumas páginas ou seções estejam bloqueadas, por exemplo:

 

<span style="font-weight: 400;">User-agent: *</span>
<span style="font-weight: 400;">Disallow: /products/</span>

Nesse caso, qualquer página que pertence à subcategoria Produtos é bloqueada de indexação, e nenhuma das descrições dos seus produtos será visível para o Google.

Problemas causados por links quebrados

Links quebrados significam uma experiência ruim para seus usuários, mas também para os bots de busca. Cada página que o bot está indexando (ou está tentando indexar) é um gasto do orçamento de rastreamento. Ou seja, se você tiver muitos links quebrados, o bot de busca vai perder muito tempo tentando indexa-los e não lhe sobrará tempo para indexar as páginas de qualidade. O relatório de Erros de Rastreamentos no Search Console do Google pode te ajudar a identificar esse tipo de problema.

4. Erros de URL

Erros de URL são normalmente causados por um erro de digitação que acontece na hora de inserir o link na sua página. Verifique que todos os links estejam digitados corretamente.

5. URLs Desatualizadas

Caso tenha passado recentemente por uma migração do site, uma limpeza ou a mudança de estrutura de URL, é necessário verificar com cuidado essa questão. Certifique-se que não existe nenhum link que leva para uma página que não existe ou pertence à estrutura antiga.

6. Páginas com acesso negado

Se você reparar que muitas páginas apresentam, por exemplo, um código 403, é possível que essas páginas estejam disponíveis só para usuários registrados. Marque esses links com tag “no follow” para não desperdiçar o tempo e dinheiro.

Links quebrados causados por problemas no servidor

7. Erros do Servidor

A maioria de erros com código 5xx (por exemplo, 502) pode ser um sinal de problemas no servidor. Para resolvê-los, mostre a lista de páginas com erros para a pessoa responsável pelo desenvolvimento e manutenção do website.

8. Capacidade limitada do Servidor

Quando o seu servidor estiver sobrecarregado ele pode deixar de responder às solicitações dos usuários e bots de busca. Quando isso acontece, seus visitantes recebem uma mensagem – “Connection timed out”. Esse problema deve ser resolvido junto com especialista de manutenção do site. Ele estimará como a capacidade do servidor pode ser aumentada se for o caso.

9. Erros de Configuração do Servidor

Esse problema pode ser complicado. O site pode ser perfeitamente visível para os usuários e ao mesmo tempo apresentar uma mensagem de erro ao bot de busca, fazendo todas as páginas indisponíveis para indexação. Isso acontece por causa de algumas configurações específicas do servidor: alguns firewalls (por exemplo, Apache mod_security) bloqueiam o bot do Google e outros bots de busca por padrão. Esse problema também só pode ser resolvido por um especialista.

Erros de sitemaps

O Sitemap, juntos com o arquivo robots.txt, é responsável pela primeira impressão do site para os bots de busca. Um sitemap correto recomenda os bots a indexarem o site da forma que você gostaria que o site fosse indexado. Veremos o que pode dar errado quando um bot buscador começa rastrear seus sitemaps

10. Erros de Formatação

Existem vários tipos de erros de formatação, por exemplo, URL inválido ou tags ausentes (a lista completa de possíveis problemas e a solução para cada caso pode ser encontrada aqui).

Você também pode descobrir que o arquivo de sitemaps está sendo bloqueado pelo arquivo robots.txt. Isso significa que o bot não conseguiu acesso ao conteúdo do seu site.

11. Páginas erradas no sitemap

Passaremos para o conteúdo. Mesmo quem não é especialista de desenvolvimento web consegue avaliar a relevância de URLs no sitemap. Certifique-se do que cada link no sitemap é relevante, atualizado e correto (não contém erros de digitação). Considerando que o orçamento de rastreamento é limitado e os bots não conseguem passar pelo site inteiro, as indicações do sitemap os ajudam a rastrear as páginas mais importantes.

Não dê instruções controversas ao bot: certifique-se que os URLs do seu sitemap não são bloqueados de indexação por meta tags ou robots.txt.

Problemas de arquitetura do site

Os problemas dessa categoria são os mais difíceis a resolver. Por isso aconselhamos verificar os passos anteriores antes de investigar os próximos problemas.

Os problemas da arquitetura do site podem desorientar os bots ou impedi-los de entrar no seu site

12. Problemas de Links Internos

Numa estrutura do site corretamente otimizado todas as páginas foram um corrente indestrutível, para que o bot de busca possa facilmente acessar cada página.

Num site não otimizado algumas páginas tendem fugir do campo de visão dos bots. Existem várias razões disso e todas podem ser detectadas e categorizadas com a ajuda da ferramenta de Site Audit da SEMrush:

  • A página que você gostaria de colocar nas primeiras páginas do Google não recebe link de nenhuma outra página do site. Nesse caso o bot de busca não consegue encontrá-la e indexar.
  • Quantidade elevada de transições entre a página principal e página em questão. Normalmente é recomendado de não fazer mais de 4 transições, caso contrário a chance do bot não conseguir chegar até a página é grande.
  • Mais de 3 mil links ativos numa página só (isso é muito trabalho para o bot)
  • Os links são escondidos num elemento do site que não pode ser indexado (formas de inscrição, frames, plug-ins (Java e Flash antes de tudo))

Na maioria dos casos o problema de linkagem interna não é algo que pode ser rapidamente resolvido. Será necessária uma análise profunda da estrutura do site.

13. Problemas de redirecionamentos

Redirecionamentos são necessários para levar os usuários para páginas mais relevantes (ou, melhor dito, para a página que o dono do site considera ser mais relevante). Aqui são os principais pontos de atenção que podem trazer problemas de indexação:

  • Redirecionamentos temporários ao invés de redirecionamentos permanentes: usar redirecionamentos 302 e 307 faz o bot voltar para a página mais e mais vezes gastando o orçamento de rastreamento. Nesse caso, se você achar que a página original não precisa ser indexada mais, use o redirecionamento 301 (permanente).
  • Redirecionamento em ciclo: pode acontecer que duas páginas estejam redirecionando uma para a outra, criando um ciclo. O bot entra num looping e gasta todo o orçamento de rastreamento. Verifique e retire os possíveis ciclos de redirecionamento.

14. Baixa velocidade de carregamento

Quanto mais rápido a página carrega, mais rápido o bot passa por elas. Cada micro segundo é importante. Digo mais, a posição do site nas máquinas de busca é diretamente relacionada à velocidade de carregamento .

Use Google Pagespeed Insights para descobrir se o seu site é suficientemente rápido. Caso não seja, chegou a hora de descobrir a razão dessa lentidão.

  • Fatores relacionados ao servidor: seu site pode estar lento por uma razão muito simples – a largura do canal atual não é mais suficiente. Você pode verificar a largura do seu canal na descrição do seu plano.
  • Fatores de front-end: um dos fatores mais frequentes é o código não otimizado. Caso ele contenha scripts voluminosos e plug-ins, seu site está em zona de risco, Não se esqueça de otimizar imagens, vídeos e outros conteúdos, para que eles não acrescentam na lentidão da página.

15. Páginas duplicadas (resultados da arquitetura deficiente do site)

Conteúdo duplicado é um dos problemas de SEO mais frequentes, encontrado em 50% dos sites (de acordo com a pesquisa recente da SEMrush “11 Problemas de SEO mais Comuns.” Essa é uma das razões principais que te faz esgotar o orçamento de rastreamento. Google destina uma tempo limitado à cada site, seria um desperdício gastá-lo indexando o mesmo conteúdo. Outra dificuldade – bots não sabem qual copia priorizar, por isso eles acabam dando prioridade à páginas erradas.

Para consertar o estrago você precisa identificar páginas duplicadas e prevenir o bot de rastreá-los em uma das seguintes formas:

  •    Apagar páginas duplicadas
  •    Configurar parâmetros necessários no arquivo robots.txt
  •    Configurar parâmetros necessários em meta tags
  •    Configurar um redirecionamento 301
  •    Usar rel=canonical

16. Uso de JS e CSS

Ainda em 2015 o Google declarou oficialmente: “Se você não bloquear o Googlebot de rastrear seus arquivos Java e CSS, geralmente conseguimos  ler e entender as páginas.”  Isso não funciona para outras máquinas de busca (Yahoo, Bing, etc) e também indica que em alguns casos a indexação correta não é garantida nem para o Google.

Tecnologias desatualizadas

17. Conteúdo Flash

Normalmente o uso de Flash não é recomendado para não criar uma experiência ruim para o usuário (arquivos Flash não aparecem corretamente em alguns dos dispositivos móveis). Mas isso também pode prejudicar seu SEO. Conteúdo de texto ou um link dentro de um elemento Flash tem poucas chances de ser indexado por bots de busca.

A nossa sugestão é de não usar esses elementos.

18. Frames HTML

Se o seu site tiver frames, temos uma boa e uma má notícia para você.

A boa notícia é que o site com frames é um site maduro. E a má notícia é que os frames HTML são bastante desatualizados e não são bem indexados por bots de busca. A sugestão é substituir os frames com uma solução mais moderna.

Conclusão: foco na ação!

Nem sempre a razão do seu ranqueamento baixo no Google está em palavras-chave mal escolhidas ou no conteúdo em si. Mesmo uma página perfeitamente otimizada pode ficar fora do radar do Google ou ganhar os ranqueamentos mais altos se o conteúdo não conseguir chegar até os bots por causa de problemas de crawlabilidade.

Para entender o que está bloqueando ou desorientando o bot, será necessário revisar o seu domínio inteiro. É um trabalho duro demais para fazer manualmente. Por isso recomendamos confiar as tarefas de rotina às ferramentas apropriadas. As principais plataformas para auditoria de sites ajudam a identificar, categorizar e priorizar os problemas; permitindo-te começar a agir assim que receber o relatório. E mais um ponto – muitas ferramentas permitem guardar os dados das auditorias anteriores, o que te ajuda a comparar o desempenho do seu site com períodos de tempo anteriores.

Conhece mais alguns fatores que influenciam a crawlabilidade de um site? Utiliza alguma ferramenta para otimizar e resolver os problemas de uma forma mais rápida? Compartilhe conosco nos comentários!