Analytics

30 set, 2011

Como encontrar dados dignos de links

Publicidade

Você deve estar cansado de ouvir que “o conteúdo é rei”, e é cada vez mais difícil fazer o conteúdo se destacar online. Mas alguns sites estão direcionando seu caminho para o uso inovador de dados. Para citar alguns exemplos: Guardian Datablog, Information is Beautiful e OK Trends.

Entretanto, sites como esses estão entre a minoria. Logo, há uma grande oportunidade de transformar dados em links. Mas antes você precisa saber…

Como colocar as mãos em dados
saborosos


dados praticamente em todos os lugares. Há toneladas de diferentes fontes que
podem ser usadas.

APIs e scraping

Se
houver recursos de desenvolvimento disponíveis, dados podem ser extraídos de uma
gama enorme de APIs por toda web. Garimpagem de Twitter e Facebook obviamente é
popular, mas há muitas outras oportunidades.

A
Programmable Web
tem uma lista massiva de APIs que podem ser usadas. Falando recentemente na Distilled conference
(Boston ProSEO),  Dharmesh Shah sugeriu a inscrição na feed RSS da Programmable Web – não porque seja
necessário conhecer tudo que aparece, mas pelas ideias que surgem na medida que
se caminha. Isso pode economizar muito tempo se formos capazes de “sacar” uma
ideia de um desenvolvimento anterior que funcionará perfeitamente em um novo
projeto.

Não
havendo API, o scraping é sempre uma opção. Mesmo se a API estiver disponível,
o scraping pode ser preferível para fazer coisas dinamicamente, ou para os tecnicamente menos preparados, como eu. Há alguns recursos bacanas que foram escritos
para isso – dê uma olhada em:

E
se você for realmente utilizar o scraping, dever checar também ScraperWiki.
Mais pode ser descoberto a respeito do ScraperWiki aqui 
e aqui, especialmente para os que não
codificam.

Pesquisas

Esta é
muito simples. Você pode criar pesquisas usando Mechanical Turk da mesma forma
que neste questionário sobre o Google Panda

Se
você estiver usando Mechanical Turk, há alguns desafios dos quais você deve
estar ciente no que diz respeito à significância estatística, ou seja, as
pessoas estão trabalhando via Mechanical Turk de forma realmente representativa
da população-alvo? Mas esses tipos de objeções podem frequentemente ser
contornados confrontando-os com a origem dos dados. Não tente esconder suas
fontes – se as pessoas não puderem encontrá-las, elas não confiarão em você. E
se tiverem que escavar para obtê-las, alguém o suplantará. Descortine-as, seja
transparente.

A beleza em
usar dados de pesquisa é que você pode perguntar exatamente o que quer
perguntar. Não há nada mais frustrante do que ter uma grande ideia, fazer uma
pesquisa de horas para encontrar um banco de dados que a suporte, para depois
abandonar o projeto.

Dados abertos

Este
é dos grandes. Dados abertos é um tópico muito quente, com mais e mais
governos sucumbindo à pressão para abrir seus arquivos. Como exemplo de uso de dados
abertos, o gráfico do 97th Floor foi criado usando uma fonte de dados
disponível publicamente
.
E o Open Site Explorer mostra 203 domínios raiz com links para as páginas em
que apareceu (!).

Em vez de procurar por vários bancos de dados governamentais, o Guardian
Datablog tem um mecanismo de busca que permite pesquisar todas as fontes
de dados abertos ao redor do mundo. E mais e mais dados estão sendo
acrescentados, de países que abrem seus dados.

Para
outros bancos de dados publicamente disponíveis, os sites a seguir têm algumas
listas razoavelmente extensas:

Trabalhos acadêmicos

Em
um veia similar à de dados abertos, os trabalhos acadêmicos e as revistas podem
ser fontes de informações valiosas. O problema com trabalhos acadêmicos é que
não são escritos para o público. Estão enterrados nos confins da web e quase
ninguém de fora da academia os lê. Tendem a ser áridos e completamente
inacessíveis, mas frequentemente têm conteúdo realmente valioso. Você somente
tem que transformá-los em alguma coisa de fácil entendimento e que tenha apelo.

Você
não será necessariamente recompensado por ser a fonte da informação, mas por
tê-la desenterrado e transformado num formato que possa ser consumido. Isso pode
requerer algum esforço, mas é onde o valor estará sendo adicionado.

Outra coisa
bacana a respeito desses trabalhos e revistas é que foram pesquisados de forma
acadêmica. E você estará apoiado em fontes muito confiáveis, o que dará peso
adicional a seu conteúdo. Nada como referência a alguns .edus para adicionar credibilidade.

Para
descobrir revistas acadêmicas, tente Google Acadêmico
ou SpringerLink.

Google

Uma
fonte de dados grandemente negligenciada – especialmente por SEOs –  é o nosso amigo Google. Além de  fornecer um monte de ferramentas de
processamento de dados
, são
úteis como fonte em si.  Para iniciantes,
esta lista de fontes de dados que pode ser explorada. Também há os
óbvios – Google Insights e Google
Keyword Tool.

Sim,
estou falando sério. Embora estejamos em um nicho em que todos sabem disso, a
maioria do público ainda não tem ideia do que há por trás do Google e suas
facilidades para descobrir o que todo mundo procura e quais são as tendências.
Quando mostrei isso a alguns de meus amigos, eles ficaram genuinamente
surpreendidos.

Pode
haver algumas vantagens realmente fáceis de serem obtidas sem muito esforço.
Para exemplos de coisas simples que você pode fazer, cheque dois posts (este e este) de David McCandless. Você pode fazer
rapidamente um press release ‘rápido
e sujo’ sobre tendências online que podem ter uma cobertura decente.

Dados de clientes

Dados
de clientes são ideais, mas há dificuldades. A vantagem de usar dados de
clientes é que você pode anunciar alguma coisa genuinamente nova, que
anteriormente não se encontrava no domínio público. Contudo, há algumas coisas
a ter em mente ao usar dados internos:

  • Algumas
    companhias serão relutantes em lhe dar acesso, principalmente devido à
    preocupação com inteligência competitiva.
  • Poderá
    haver atrasos no acesso aos dados, o que poderá impedir sua capacidade de
    cumprir prazos.
  • Os
    dados frequentemente terão entradas perdidas e erros, e poderão ser
    completamente inúteis.
  • O conjunto de dados pode ser muito pequeno para ser confiável (principalmente ao se
    fazer segmentação)

Vale
a pena levantar essas questões na primeira avaliação a respeito da possibilidade
de usar dados internos, de forma que expectativas possam ser administradas. Se,
afinal, os dados forem usados, você deve
ser cuidadoso para não superestimar suas descobertas. Como previamente
mencionado, você deve descrever claramente como seus dados foram levantados, de
forma a não induzir erros. Agindo assim, você pode criar dados
valiosos. Você ainda terá algo a dizer
se estiver realmente planejando disponibilizar os dados.

Deixei passar alguma coisa?

Então aí
está –  você não precisa ficar com
déficit de dados de novo. Mas se houver quaisquer outras fontes significativas
de dados que você ache que eu não considerei, certifique-se de incluir nos
comentários abaixo.

?

Este artigo é uma republicação feita com
permissão. SEOMoz não tem qualquer afiliação com este site. O original está em
http://www.seomoz.org/blog/how-to-find-link-worthy-data