Decidi que ia comentar uma Melhor Prática por dia, do documento de Melhores práticas para dados na web, produzidas pelo WG DWBP.
Pois bem, hoje é dia da primeira:
BP1: forneça metadados
Os metadados podem ser considerados etiquetas que ajudam as máquinas e pessoas a identificar do que se trata e o que tem dentro dos datasets. Para entender porque eles são necessários, imagine um depósito do Walmart cheio de caixas empilhadas com produtos para vender. Agora, imagine que a web é o interior da loja e você é o encarregado de colocar tudo nas prateleiras, organizando por tipo de produto. Pra otimizar o seu trabalho, os encarregados de empilhar as caixas no depósito deixaram tudo etiquetado, identificando o conteúdo de cada caixa, evitando que você tenha que abrir tudo para ver o que tem dentro antes de começar a arrumar. Pois bem, esses encarregados que etiquetaram tudo deixaram metadados pra você.
Assim fica fácil entender porque fornecer metadados quando colocar seus dados na web é tão importante! Forneça metadados para que humanos e aplicações de computador possam ler.
Fornecer metadados é importante quando se publica dados na web porque publicadores e consumidores de dados podem não se conhecer. Por causa disso é preciso prover informação que ajude humanos e computadores a entenderem os dados publicados, assim como outros importantes aspectos que podem ser descritos usando metadados.
Resultado esperado
Humanos poderão entender os metadados, assim como aplicações de computador – especialmente os user agents, serão capazes de processa-los.
Possível implementação
Para dados que você quer que humanos leiam, você pode fornecer metadados como parte de uma página HTML ou prover metadados em um arquivo-texto em separado.
Para dados legíveis por máquina, você pode utilizar um formato de serialização, tipo Turtle ou JSON ou pode embedar no html usando o HTML-RDFA ou JSON-LD. Se múltiplos formatos forem publicados separadamente, eles devem vir da mesma URL, usando negociação de conteúdo (ou conneg) e ficar disponíveis em URIs diferentes, diferenciadas pela extensão do nome do arquivo. A manutenção de múltiplos formatos fica melhor se você puder gerar cada formato “on the fly”, se baseando numa fonte única de metadados.
Além disso, quando você quiser tornar disponível dados sobre datasets para máquinas, é bom que você use padrões que já existem ou vocabulários que muitos outros publicadores já usam. Por exemplo, os termos do Dublin Core Metadata (DCMI), chamados de DCMI Metadata Terms e o Data Catalog Vocabulary.
Só lembrando que o grupo precisa do seu feedback sobre as práticas, implementações, exemplos e também os vocabulários produzidos pelo grupo. Se você quiser, pode comentar aqui ou mandar um e-mail para o grupo com suas considerações.