Parece uma pergunta fácil, não é? Ouvimos muito sobre o conteúdo duplicado desde as atualizações do Panda, e eu estou surpreso com quantas pessoas ainda estão confusas por uma questão muito mais importante – qual URL para qualquer página dada é a URL canônica? Embora a ideia de uma URL canônica seja bastante simples, encontrá-la para um site grande baseado em dados nem sempre é tão fácil. Este artigo irá guiá-lo pelo processo com alguns casos comuns que observo a cada semana.
Vamos jogar “conte as páginas”
Antes de aprofundar no assunto, vamos falar do o maior equívoco que as pessoas possuem sobre “páginas” em seus sites. Quando pensamos em uma página, muitas vezes pensamos em um arquivo físico que contém código (seja HTML estático ou script, como um arquivo PHP). Para um rastreador, uma página é qualquer URL única que ele encontra. Um arquivo poderia, teoricamente, gerar milhares de URLs únicas, e cada um deles é potencialmente uma “página” aos olhos do Google.
Em cada um dos seguintes cenários, quantas páginas o Google vê?
1. Site “estático”
- www.example.com/
- www.example.com/store
- www.example.com/about
- www.example.com/contact
2. Site baseado em PHP
- www.example.com/index.php
- www.example.com/store.php
- www.example.com/about.php
- www.example.com/contact.php
3. Site de um template apenas
- www.example.com/index.php?page=home
- www.example.com/index.php?page=store
- www.example.com/index.php?page=about
- www.example.com/index.php?page=contact
A resposta correta é que em cada tópico ele encontra quatro páginas. Aos olhos do Google, não importa se as páginas têm extensões (“.Php”), se a home-page está na raiz (“/”) ou em index.php, ou mesmo se todas as páginas estão sendo expulsas de um modelo físico. Há quatro URLs únicas, e isso significa que há quatro páginas. Se o Google pode rastrear todas, todas elas serão indexadas (geralmente).
Vamos direto para alguns exemplos. Atenção: estes são apenas exemplos. Não estou recomendando nenhuma das estruturas URL deste artigo como ideal. Eu só estou tentando ajudá-lo a determinar a URL canônica correta para qualquer situação.
Caso 1: URLs de rastreamento
Vou começar com um fácil. Muitos sites ainda usam parâmetros de URL para acompanhar as sessões do visitante ou links de afiliados. Não importa como o parâmetro é chamado ou com qual finalidade ele é usado, ele cria uma duplicata para cada visitante individual ou da filial. Aqui estão alguns exemplos:
- www.example.com/store.php?session=1234
- www.example.com/store.php?affiliate=5678
- www.example.com/store.php?product=1234&affiliate=5678
Nos primeiros dois exemplos, o ID da sessão e da filial criou uma cópia, em essência, da página da loja principal. Em ambos os casos, a URL canônica apropriada é simplesmente:
- www.example.com/store.php
O último exemplo é um pouco mais complicado. Lá também temos um “produto =” parâmetro que leva o produto que está sendo exibido. Este parâmetro é essencial – que determina o conteúdo real da página. Assim, somente o parâmetro “filial =” deve ser retirado, e a URL canônica é:
- www.example.com/store.php?product=1234
Este é apenas um dos muitos casos em que a URL canônica não é o modelo raiz ou a URL sem parâmetros. URLs canônicas nem sempre são curtas ou belas – muitas URLs canônicas terão parâmetros. Novamente, não estou argumentando que esta estrutura é ideal. Só estou dizendo que a URL canônica neste caso teria que incluir o parâmetro “produto =”.
Caso 2: URLs “dinâmicas”
Infelizmente, a palavra “dinâmica” é jogada por aí um pouco livremente – para os fins deste artigo, quero dizer, qualquer URLs que passam as variáveis para gerar conteúdo exclusivo. Essas variáveis podem parecer parâmetros de URL tradicionais ou serem incorporadas como “pastas”.
Um bom exemplo do tipo de URLs que estou falando são URLs de blogs. Olha aí esses quatro:
- www.example.com/blog/1234
- www.example.com/blog.php?id=1234
- www.example.com/blog.php?id=1234&comments=on
- www.example.com/blog/20120626
Novamente, não importa se as URLs possuem parâmetros ou ocultam esses parâmetros como pastas virtuais. Todas elas usam um valor único (ou identificação ou data) para gerar um artigo no blog específico. Então, qual é a URL canônica aqui? Obviamente, se você canoniza para “/blog”, você vai reduzir o seu blog inteiro a uma página. É uma pergunta “pegadinha”, porque a URL canônica poderia realmente ser algo assim:
- www.example.com/blog/this-is-a-blog-post
É por isso que temos tanta dificuldade em detectar as URLs canônicas adequadas com ferramentas automatizadas – é realmente necessário possuir um profundo conhecimento da arquitetura de um site e da intenção do construtor. Não faça suposições com base na estrutura da URL. Você tem que entender sua arquitetura e rastrear caminhos. Se você acabou de começar tirando parâmetros de URL, você pode causar um desastre na área de SEO.
Caso 3: A home-page
Pode parecer estranho colocar a home page em terceiro, mas a verdade é que os dois primeiros casos foram, possivelmente, os mais fáceis. Parte do problema é que as home-pages naturalmente prolongam um monte de variações:
- www.example.com
- www.example.com/
- www.example.com/default.html
- www.example.com/index.php
- www.example.com/index.php?page=about
Adicione no quesito “complicações” coisas como páginas seguras (https: ), e você pode acabar multiplicando todas essas variantes. Embora isso seja tecnicamente verdade em qualquer página, o problema tende a ser mais comum para a home-page, já que ela é normalmente a página mais vinculada (tanto de sites internos e externos).
Na maioria dos casos, a URL da home-page tecnicamente correta é:
- http://www.example.com/
Mas há exceções (caso proteja o seu site inteiro). Não vejo a barra (“/”) causando uma tonelada de problemas em home-pages hoje em dia, uma vez que a maioria dos navegadores e rastreadores adicionam automaticamente, mas eu acho que ainda seja a melhor prática usá-lo.
Outra exceção comum é se o seu site redireciona automaticamente para uma outra versão da home-page. Enquanto essa situação não for a ideal, você não vai querer cruzar sinais. Se o redirecionamento for necessário, então o alvo desse redirecionamento (ou seja, a URL “index.aspx”) deve ser a sua URL canônica.
Finalmente, tenha muito cuidado com a situação nº5 – nesse caso, como discutido na primeira seção deste artigo, o modelo de código “index.php” está realmente conduzindo outras páginas com conteúdo exclusivo. Canonicalizar isso para a raiz ou “index.php” poderia fazer com que o seu site entre em colapso para uma página no índice do Google. Esse cenário é raro hoje em dia, mas alguns sistemas CMS ainda o utilizam.
Caso 4: páginas de produtos
De certa forma, as páginas de produtos são muito parecidas com as páginas de artigos de blog no processo nº 2. Você pode naturalmente acabar com uma série de variações sobre um site de comércio eletrônico, incluindo:
- www.example.com/store.php?id=1234
- www.example.com/store/1234
- www.example.com/store/this-is-a-product
- www.example.com/store.php?id=1234¤cy=us
- www.example.com/store/1234/red
- www.example.com/store/1234/large
Se você tem uma URL como a nº 3, então ela será a sua URL canônica para o produto na maioria dos casos (especialmente no nº 1 até o 3). Se não, então, trabalhe a lista. Em outras palavras, se você tiver a URL nº 3, use-a; se não, use a nº 2 e se a tiver, use a nº 1. Você tem que trabalhar com a estrutura que você possui!
As URLs nº 4 até nº 6 são um pouco mais complicadas. Algo como o seletor de moeda na nº 4 pode ser muito complicado e depende de como essas seleções são implementadas (seleção do usuário versus IP-based de geo-localização, por exemplo). Para fins do Google, normalmente você deseja que eles usem o preço dominante para o público do site e canônica para a URL principal do produto (nº1 aé nº 3, dependendo da arquitetura do site). Faça a indexação de cada variante de preços, a não ser que você tenha vários domínios (só vai fazer o seu conteúdo parecer menor).
Com as URLs do nº5 e 6, indica-se uma variante do produto – consideremos uma camiseta que vem em diferentes cores e tamanhos. Esta situação depende muito da estrutura e do alcance do conteúdo. Tecnicamente, a sua camiseta ena cor vermelho e em tamanho grande é única e, ainda sim essa página poderia não estar bem aos olhos do Google. Possuir uma variante ou duas para um punhado de produtos não é grande coisa. Se cada produto conta com 50 combinações possíveis, então, eu acho que você precisa considerar seriamente a canonização.
Caso 5: páginas de pesquisa
Agora, o caso mais feio de todos: páginas de pesquisa internas. Esta é uma faca de dois gumes, já que o Google não é um fã de pesquisa dentro de busca (os resultados deles desembarcando nos seus) em geral, e estas páginas tendem a sair do controle. Aqui estão alguns exemplos:
- www.example.com/search.php?topic=1234
- www.example.com/search/this-is-a-topic
- www.example.com/topic
- www.example.com/search.php?topic=1234&page=2
- www.example.com/search.php?topic=1234&page=2&sort=desc
- www.example.com/search.php?topic=1234&page=2&filter=price
A lista, infelizmente, poderia continuar e continuar… Embora seja natural pensar que a versão canônica deve ser a nº 1 – nº 3 (dependendo da sua estrutura de URL, assim como no processo nº 4), o problema é paginação. Se os resultados da sua pesquisa aparecerem em duas páginas, ou mais, isso fará com que elas não sejam bem vistas pelo Google em alguns casos, mas elas retornam resultados únicos e não são tecnicamente duplicatas. As soluções do Google mudaram ao longo do tempo e seu conselho pode ser frustrante, mas atualmente dizem usar o rel = prev / next tags. Simplificando, essas marcas informam ao Google que as páginas são parte de uma série.
Em casos como a URL do exemplo nº 5 e 6, o Google recomenda que você use rel = prev / next para a paginação, mas em seguida, uma tag canônica para o “& page = 2” (versão para recolher os tipos e filtros). Implementar isso corretamente é muito complicado e bem fora do âmbito deste artigo, mas o ponto principal é que você não deve canonizar todas as suas páginas de busca para a página 1. Adam Audette tem um excelente artigo sobre paginação que demonstra o quão complicado este tema é.
Conheça seus caminhos de rastreamento
Por fim, um lembrete importante: o sinal canônico mais importante, geralmente, é seus links internos. Se você usar a tag canônica para apontar para uma versão de uma URL, mas depois cada link interno usar uma versão diferente, você estará enviando um sinal misto e utilizando a tag como um band-aid. A URL canônica deve realmente ser canônica na prática – use-a de forma consistente. Se você for um SEO de fora entrando em um novo site, certifique-se de compreender os caminhos de rastreamento em primeiro lugar, antes de ir e adicionar um monte de tags. Não crie uma bagunça em cima de uma bagunça.