Tecnologia

7 out, 2008

Mineração de dados e Web Semântica

Publicidade

A quantidade de dados trafegados e armazenados na Web a torna dinâmica mas ao mesmo tempo caótica. O fato de ser composta por diferentes estruturas e linguagens sem nenhuma co-relação semântica, aumenta a complexidade e a falta de organização dos dados encontrados na rede. Como extrair informação relevante dentro desse universo? Surge então a necessidade de utilizar mecanismos inteligentes que possam obter conhecimento a partir de grandes conjuntos de dados.

Mineração de Dados, Data Mining, é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, extraindo ou ajudando a evidenciar a descoberta de conhecimento contido neles. É formada por um conjunto de ferramentas e técnicas de áreas como estatística, recuperação de informação, inteligência artificial e reconhecimento de padrões.

A Mineração de Dados (MD) tenta evitar problemas como o ocorrido na figura acima, em que o estudo dos dados não retornou um fato relevante para a análise de vendas. Um exemplo tipicamente citado de MD é o caso ocorrido no Wall-Mart. A rede de supermercados descobriu que às sextas-feiras à noite quem comprava fralda descartável normalmente levava cerveja também. Mas o que fralda tem a ver com cerveja? Verificou-se que a compra dos artigos era realizada por homens casados, entre 25 e 30. Assim, a empresa resolveu colocar estes dois itens em estantes próximas, gerando um aumento de 30% no consumo.

Na internet, as vantagens de se obter informações sobre os dados trafegados e armazenados vão desde analisar melhor logs de erros de servidor, até descobrir perfis de usuários. Esse procedimento envolve etapas de pré-processamento, descoberta de conhecimento e pós-processamento dos dados como mostra a figura a seguir.

É chamada de Web Mining a aplicação das técnicas de Mineração de Dados em dados Web, a fim de obter conhecimento, encontrar padrões e relações não conhecidos nessa base dados. Na Web é possível fazer 3 tipos de mineração: de conteúdo, de estrutura e de uso da internet.

A Mineração do Conteúdo da Web abrange as ferramentas que efetuam recuperação inteligente de informações do que está dentro dos documentos. Enquanto isso a Mineração de Estruturas está interessada na informação que está implícita, sendo o seu principal foco as ligações de hipertextos que unem os documentos. A Mineração de Uso, uma das tarefas mais difíceis na Web Mining, pode ser definida como sendo a descoberta automática de padrões de acesso dos usuários aos servidores que disponibilizam informações na rede.

Os resultados dos processos de mineração de dados podem ser bem melhores quando aplicados a dados organizados, estruturados por metadados e identificados semanticamente. Assim, ao analisar os dados, seria possível filtrar por conteúdos mais específicos, já que é possível saber do que estão tratando. A Web Semântica pode ser considerada como um grande conjunto de dados estruturados em que a semântica aplicada a eles, permite que etapas da mineração, como o pré-processamento e a extração de conhecimento, possam se tornar mais simples e eficientes.

Pelo fato de guardar um enorme volume de dados que não se encontram bem estruturados, a Web atual possui uma grande quantidade de problemas. A proposta da Web Semântica é associar semântica aos dados contidos na Web e conseqüentemente facilitar as tarefas de Mineração de Dados para atingir seu principal objetivo: recuperar informação relevante.