Arquitetura de Informação

28 jun, 2016

Melhores práticas pra dados na web – Parte 02: forneça metadados descritivos

Publicidade

Há alguns dias, saiu o artigo sobre a Primeira Melhor Prática, que é “Forneça Metadados”. A segunda melhor prática do documento Melhores Práticas para Dados na Web, produzidas pelo WG DWBP, comento hoje.

BP2: Forneça metadados descritivos

Forneça metadados que descrevem as funcionalidades em geral dos datasets e distribuições.

Fornecer informação descritiva sobre os datasets permite que os user agents descubram automaticamente os datasets disponíveis na Web, além de permitir aos humanos entender a natureza do dataset e suas distribuições.

Resultado esperado

Fazendo isso, os humanos serão capazes de interpretar a natureza dos dados no dataset e suas distribuições. Além disso, os softwares agents vão descobrir automaticamente os datasets e suas distribuições.

Possível implementação

Metadados descritivos podem incluir as seguintes funcionalidades de um dataset:

  • O título e a descrição do dataset
  • Palavras-chave que descrevem o conteúdo
  • A data da publicação do dataset
  • A entidade responsável por tornar os dados disponíveis
  • O ponto de contato sobre o dataset
  • A cobertura geográfica do dataset
  • O período temporal que o dataset cobre
  • Os temas ou as categorias de um determinado dataset

Metadados descritivos podem incluir as seguintes funcionalidades de uma distribuição:

  • O título e a distribuição da distribuição
  • A data da publicação da distribuição
  • O tipo de mídia da distribuição

A versão legível por máquinas dos dados descritivos pode ser fornecida utilizando algum vocabulário recomendado pelo W3C, feito especificamente para descrever datasets – por exemplo, o Data Catalog Vocabulary. Ele fornece um framework para descrever que datasets podem ser descritos como entidades abstratas.

Veja o exemplo abaixo que traz dados legíveis por máquinas:

Ele mostra como utilizar o Data Catalog Vocabulary (DCAT) para fornecer dados que possam ser lidos por máquina para o dataset sobre paradas de ônibus (stops-2015-05-05). O dataset tem uma distribuição em .csv (stops-2015-05-05.csv) que também é descrita utilizando o >Data Catalog Vocabulary(DCAT). O dataset está classificado sobre o domínio representado pela URI relativa “mobilidade”.

Esse domínio pode ser definido como parte de um set de domínios identificados pelos temas da URI. Para descrever ambos os conceitos e os conceitos do esquema, John utilizou o SKOS. Para expressar frequência de atualização, uma instância das “Content-Oriented Guidelines”, desenvolvidas como parte do vocabulário do W3C “Data Cube” foi utilizada. John escolher descrever a cobertura espacial e temporal do dataset usando URIs do Geonames e o Interval dataset, do data.gov.uk, respectivamente.

:stops-2015-05-05
a dcat:Dataset ;
dct:title "Bus stops of MyCity" ;
dcat:keyword "transport","mobility","bus" ;
dct:issued "2015-05-05"^^xsd:date ;
dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
dct:spatial <http://www.geonames.org/3399415> ;
dct:publisher :transport-agency-mycity ;
dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
dcat:theme :mobility ;
dcat:distribution :stops-2015-05-05.csv ;
.
:mobility
a skos:Concept ;
skos:inScheme :themes ;
skos:prefLabel "Mobility"@en ;
skos:prefLabel "Mobilidade"@pt
.
:themes
a skos:ConceptScheme ;
skos:prefLabel "A set of domains to classify documents" ;
.
:stops-2015-05-05.csv
a dcat:Distribution ;
dct:title "CSV distribution of stops-2015-05-05 dataset" ;
dct:description "CSV distribution of the bus stops dataset of MyCity" ;
dcat:mediaType "text/csv" ;
.

Aqui você pode também dar uma olhada em um exemplo de metadados descritivos direcionados ao entendimento de humanos.

Viu? A segunda melhor prática do documento também não é um bicho de sete cabeças. Na verdade, a prática do uso de metadados descritivo é promessa de ganho ao longo do tempo, uma vez que, quanto mais metadados, quanto mais ricos eles são e quanto mais padronizados, mais fácil de utilizá-los para fazer cruzamentos e leituras dos mesmos.

Só lembrando que o grupo precisa do seu feedback sobre as práticas, implementações, exemplos e também os vocabulários produzidos pelo grupo. Se você quiser, pode comentar aqui ou mandar um e-mail para o grupo com suas considerações.