Desenvolvimento

16 out, 2018

O que você sabe sobre extração de informação a partir de textos?

Publicidade

Uma das aplicações do Processamento de Linguagem Natural (PLN) é a extração de informações a partir de textos. Desde a difusão da Internet a partir dos anos 1990, e o aumento considerável de textos disponíveis nesse meio, os esforços de PLN passaram a se concentrar nas tarefas de extração, com o objetivo de estruturar a informação disponível nos textos, e assim facilitar o acesso a essas fontes.

É importante compreender que um texto é, na verdade, um conjunto de caracteres alfanuméricos e símbolos ordenados, de maneira que essa ordem resulte em entendimento semântico para quem lê. Para o computador, os textos são interpretados apenas como um conjunto de caracteres, sem qualquer sentido semântico, sintático ou pragmático, a não ser que os softwares de PLN sejam usados para extrair do texto as informações nele contidas.

A maior parte da informação contida nos textos está estruturada em forma de termos. Mas o que são termos? Alguns autores classificam os termos em simples e compostos. Sendo os primeiros, termos com uma única palavra, como “Trump”, e os compostos com duas ou mais palavras, como “Donald Trump”, citando como exemplo o nome do presidente americano.

De maneira geral, há dois caminhos que podem ser seguidos para extração automática de termos. São eles: estatístico e linguístico. O primeiro utiliza-se de modelos matemáticos e métricas para calcular, por exemplo, a frequência com que os termos são repetidos em um corpus.

Já o segundo, apoia-se em recursos gramaticais para classificar as palavras e então filtrar os sintagmas que possam ser mais relevantes para o contexto. Os esforços iniciais em PLN para extração de termos resultaram na obtenção de termos simples. Anos mais tarde, durante a década de 1980 os primeiros resultados da extração de termos compostos começaram a aparecer.

Diversos autores consideram que o uso de bons recursos linguísticos é indispensável para o desenvolvimento de sistemas de processamento de linguagem natural. Porém, devido à enorme quantidade de informação a ser processada, a utilização de métodos estatísticos se fez necessária para produzir resultados mais robustos.

O uso combinado dos métodos linguístico e estatístico no início dos anos 2000 desfez a ruptura histórica entre essas abordagens, e ainda gerou como consequência a adoção de algoritmos de aprendizado de máquina que atualmente vêm produzindo resultados cada vez melhores de extração de informações em textos.

Gostaria de deixar aqui duas ferramentas importantes para executar a análise e extração de termos em textos. Uma para cada abordagem. A primeira, Stanford Parser, analisador sintático, de cunho linguístico e desenvolvido pelo grupo de pesquisa de PLN da Universidade de Stanford. Trata-se de um grupo bastante ativo, com muitos papers publicados sobre o assunto.

Excelente lugar para encontrar mais informações sobre esse tipo de abordagem; a segunda ferramenta, o NSP, ou Ngram Statistics Package, focada na extração de cunho estatístico, desenvolvido pelo professor Ted Pedersen, da Universidade de Minnesota e sua equipe de pesquisadores.

Ambas as ferramentas se destinam ao mesmo objetivo: apoiar a extração de termos em textos, porém, com vertentes conceituas bastante distintas. Ao leitor que gostaria de saber mais sobre o assunto, não perca meus próximos artigos aqui no iMasters.