Desenvolvimento

9 abr, 2008

Processamento de linguagem natural

Publicidade

O que é PLN? Para que serve? Como é um buscador em linguagem natural? Por que o Google não quer buscas em linguagem natural? O objetivo desse artigo é tentar responder a essas e a outras perguntas.

Quando nós, seres humanos, lemos as expressões “livro de criança”, “livro para criança”, “livro sobre criança”, conseguimos entender a diferença entre elas. Já as ferramentas de buscas web mais utilizadas atualmente não, pois interpretariam todas elas como “livro criança”, que são as palavras-chave da pesquisa.

Em “João bateu com o carro. Ele quebrou o braço.”, sabemos que na segunda frase o “ele” se refere a “João”, porque carro não tem braço, mas como um sistema identificaria isso? Essas e outras questões relacionadas à linguagem natural são tratadas por um subcampo da Inteligência Artificial (IA), que estuda o entendimento e a geração automática da linguagem – o PLN (Processamento de Linguagem Natural). Os estudos nesta área envolvem tanto conhecimento em computação como em lingüística.

PLN trata de sistemas computacionais que compreendem a linguagem falada e escrita. Programas de reconhecimento e interpretação da fala, como os utilizados callcenter, sistemas capazes de gerar voz a partir de textos (como o DOSVOX, um sistema operacional que permite que pessoas cegas utilizem o pc) são alguns exemplos do processamento da língua falada.

A interpretação da linguagem escrita baseia-se em mecanismos que tentam compreender frases em linguagem natural e representá-las para então serem utilizadas pelo computador. Um exemplo de aplicação nesta área são as interfaces para banco de dados onde o usuário faz uma pergunta, a qual é interpretada e então gerada uma consulta a ser utilizada pelo banco de dados em questão.

Na web temos exemplos do uso de interpretação de linguagem natural em mecanismos de buscas, dentre eles o Powerset, considerado o primeiro no mundo a utilizar essa tecnologia em larga escala. Foi liberado recentemente para testes e tenta revolucionar a maneira na qual as pesquisas serão feitas. O objetivo do projeto de desenvolvimento do Powerset é que os usuários façam uso de frases completas e claras, como se estivesse perguntando a uma outra pessoa, e o mecanismo lhe traga a resposta e não somente uma lista de páginas relevantes.

O sistema surgiu da incubadora de projetos direcionados à busca pela web da empresa Powerset, localizada no Vale do Silício. O sucesso de sua apresentação no TechCrunch , uma conferência de tecnologia realizada em setembro de 2007 na Califórnia, fez os olhos se voltarem para algoritmo de buscas que suporta linguagem natural. Com um login e senha você é permitido utilizar o sistema e ainda ajudar a melhorá-lo avaliando a qualidade da resposta obtida. No exemplo da figura a seguir busca-se saber quem é o autor do livro “Código da Vinci” através da pergunta completa “who is the author of the da vinci code?“. A resposta desejada é encontrada nos destaques da primeira opção e o link direto para a wiki do Powerset destinada a Dan Brown é a terceira opção do resultado da consulta.

No google, o primeiro link é para página do autor, mas a informação não está escrita diretamente como no Powerset. Em alguns casos, a resposta em forma de pergunta é indiferente da pergunta por palavras-chave, como em “Qual a capital do Brasil?” e “capital Brasil”, para as quais a resposta é simples e direta em ambos os buscadores.

Um sistema de buscas utilizando linguagem natural apresentaria um grau de relevância nas respostas muito maior que os hoje existentes, mas há conversas que atualmente não existe empresa apta a usar isso em larga escala.

Enquanto acha-se que o futuro das máquinas de busca caminha para a utilização de pesquisas em linguagem natural, o Google acha que não. Segundo a maior empresa de buscas do mundo, não existe tanta diferença em perguntar “Qual o homem mais rico do mundo?” ao invés de “homem mais rico mundo”. Além disso, eles acreditam que os usuários não vão querer digitar perguntas, já que, segundo pesquisas, cerca de 50% das consultas feitas ao site envolvem uma ou duas palavras.

Mas segundo o próprio Google, eles estão investindo na tecnologia de processamento de linguagem natural para o mapeamento de conceitos. Por exemplo, a consulta “capital do Brasil” conseguir retornar textos que contenham a palavra Brasília, sem que o texto contenha as palavras “capital” e “Brasil”. Ser possível saber também que “Las Vegas” e “Vegas” tratam do mesmo assunto e “Nova York” e “York” não. O Google considera que utilizar perguntas completas é uma questão de mudança de interface e prefere apostar mais em conteúdos corretos e cada vez mais relevantes.

Os buscadores de linguagem natural passarão à frente do Google, Yahoo! e outras grandes empresas de buscas na web? Essa é a próxima grande mudança nos sistemas de buscas? Quem poderá arriscar dizer que sim ou que não? O que é certo é que a área de processamento de linguagem natural é de grande complexidade e muitos são os caminhos a serem estudados e passíveis de contribuição – no caso de buscas na web – para o aprimoramento e aumento da qualidade dos resultados obtidos.