Data

29 jul, 2014

O guia de raspagem de dados para marketing de conteúdo – Parte 02

Publicidade

No artigo anterior, vimos como fazer raspagem de dados encontrando autores, detalhes extras sobre eles e obtendo a quantidade de seguidores nas redes sociais. Nesta segunda e última parte veremos como fazer isso fazendo scraping dos títulos das páginas e vendo data/horário em que o post foi publicado.

***

4. Fazendo scraping dos títulos das páginas

Uma vez que você tem uma lista de URLs, vai querer ter uma ideia do que fala o conteúdo. Usando este XPath com qualquer URL, você vai exibir o título da página:

=XPathOnUrl(A2,"//title")

Para ser justo, se você está usando o plugin SEO Tools para o Excel, então pode apenas usar a ferramenta que ele tem para fazer isso, mas é sempre uma boa ideia saber como fazer isso manualmente!

Um toque extra na análise é olhar o número de palavras usadas no título da página. Para isso, use a seguinte fórmula:

=CountWords(A2)

A partir disso, você pode ter alguma compreensão de qual será o tamanho ideal para o título de um texto no site. Isso é bem útil se você está procurando um artigo de uma publicação específica. Se você fizer o melhor texto possível para aquele site e tiver apoio nas suas decisões com dados históricos, suas chances de sucesso são muito melhores!

Levando isso um passo além, você pode unir os compartilhamentos sociais de cada URL usando as seguintes funções:

Twitter:

=TwitterCount(<strong>INSERTURLHERE</strong>)

Facebook:

=FacebookLikes(<strong>INSERTURLHERE</strong>)

Google+:

=GooglePlusCount(<strong>INSERTURLHERE</strong>)

Observação: Você também pode usar uma ferramenta como a URL Profiler para puxar esses dados, o que é muito melhor para grandes quantidades. A ferramenta também ajuda a obter grandes pedaços de dados de outras redes sociais, e linkar com outras fontes de dados, como Ahrefs, Majestic SEO e Moz.

Se você quer ainda mais status sociais, então pode usar a API SharedCount, e isso é assim:

Primeiramente, crie uma nova coluna na sua planilha Excel e adicione a seguinte fórmula (onde A2 é a URL da página de onde você quer pegar os dados):

=CONCATENATE("http://api.sharedcount.com/?url=",A2)

Agora você deve ter uma célula contendo a URL de uma página prefixada com a URL da API SharedCount. É isso que usamos para juntar os status sociais. Aqui está a fórmula de Excel para usar em cada rede social (onde B2 é a célula que contém a fórmula acima):

StumbleUpon:

=JsonPathOnUrl(B2,"StumbleUpon")

Reddit:

=JsonPathOnUrl(B2,"Reddit")

Delicious:

=JsonPathOnUrl(B2,"Delicious")

Digg:

=JsonPathOnUrl(B2,"Diggs")

Pinterest:

=JsonPathOnUrl(B2,"Pinterest")

LinkedIn:

=JsonPathOnUrl(B2,"Linkedin")

Facebook Shares:

=JsonPathOnUrl(B2,"Facebook.share_count")

Facebook Comments:

=JsonPathOnUrl(B2,"Facebook.comment_count")

Quando você tiver esses dados, pode começar a procurar bem mais profundamente por elementos de sucesso em cada post. Aqui está um exemplo de como um gráfico que eu criei a partir de uma grande amostra de artigos que analisei no Upworthy.com.

analise-8

O gráfico apresenta o número de compartilhamentos que um artigo do Upworthy recebe em redes sociais versus o número de palavras em seu título. É um dado de grande valor que pode ser usado em diferentes elementos de página para obter o template perfeito para um artigo dentro de determinado site.

Viu, dados são úteis!

5. Data/horário em que o post foi publicado

Junto com a análise de detalhes de cabeçalhos que você está trabalhando, talvez você também queira observar os melhores horários de postagem para os melhores resultados. Isso é algo que eu faço com regularidade nos meus sites e blogs para garantir que estou tendo o melhor resultado possível do tempo que gasto desde que comecei a escrever.

Cada site é diferente, o que torna bem difícil automatizar a busca por essa informação. Alguns sites terão esses dados entre a seção <head> das páginas, mas outros vão mostrar diretamente o número abaixo do cabeçalho do artigo. Novamente, Search Engine Land é um exemplo perfeito…

analise-9

Bom, é assim que você pode raspar a informação dos artigos no Search Engine Land:

=XPathOnUrl(<strong>INSERTARTICLEURL</strong>,"//*[@class='dateline']/text()")

Agora você já tem a data e o horário da postagem. Você pode querer moldar e formatar isso de acordo com a sua análise, mas você tem tudo isso no Excel, então deve ser bem fácil.

Leituras extras

Raspagem de dados é algo realmente poderoso, e uma vez que você tenha mexido com isso um pouco, vai perceber que não é complicado. Os exemplos que eu dei aqui são apenas um ponto de início, mas quando você começar a ser criativo com isso, vai começar a ver as oportunidades surgirem.

Você pode achar os textos abaixo bem úteis:

Em resumo

  • Comece a usar dados de verdade para obter informações de suas campanhas de conteúdo, em vez de apenas acreditar nos seus instintos.
  • Reúna inteligência em torno de domínios específicos que você quer focar para distribuir conteúdo e crie o texto perfeito para aquela audiência.
  • Tenha noções de XPath e JSON ao usar o plugin SEO Tools para Excel.
  • Gaste mais tempo analisando que tipo de conteúdo vai trazer mais resultados em vez de que sites te dão mais links!

Confira os Termos de Serviço do site antes de começar!

***

Este artigo é uma republicação feita com permissão. Moz não tem qualquer afiliação com este site. O original está em http://moz.com/blog/a-content-marketers-guide-to-data-scraping