DevSecOps

3 nov, 2016

Microsoft se esforça para dar senso comum a computadores com Concept Graph

Publicidade

Nesta semana, a Microsoft Research liberou publicamente seu esforço para enfrentar um dos problemas que afligem a compreensão da linguagem natural – o conhecimento. A empresa acredita que o conhecimento de background é um dos principais separadores entre o modo como os seres humanos e as máquinas entendem a linguagem.

Probase, um banco de dados de conhecimento no qual a Microsoft vem trabalhando há algum tempo, serve como base para uma nova ferramenta pública chamada Microsoft Concept Graph. O Probase traz 5,4 milhões de conceitos, batendo outras bases de dados de conhecimento – como Cyc, que oferece 120 mil conceitos.

O objetivo de todas as informações conectadas é apoiar a análise de texto, misturando interpretações com probabilidades – isso é muito semelhante à forma como os seres humanos usam um processo rápido de eliminação para realizar a mesma tarefa.

[awprm urls=https://imasters.com.br/noticia/google-lanca-nova-ferramenta-para-compreensao-da-linguagem-natural/?trace=824205206&source=news-search]

Por exemplo, se alguém dissesse “o homem correu do estranho com a faca”, você provavelmente interpretará que isso significa que o homem está fugindo de um desconhecido armado. Mas é claro que a frase também poderia significar que o homem pegou a faca do estranho e agora está fugindo. No entanto, correr implica medo e facas estão associadas a medo, então a interpretação mais simples e mais direta prevalece – mesmo que ela não seja precisa.

O Concept Tagging Model da Microsoft se baseia nisso para mapear o texto categoricamente com a mesma ideia probabilística. Continuando o exemplo, a faca também poderia estar se referindo a um utensílio ou uma arma, mas, no contexto, é mais provável que seja uma arma, e não uma faca de manteiga do século XVII roubada de um museu.

Utensílios e armas são categorias relativamente comuns, mas artefato de museu já é algo mais específico. O modelo da Microsoft considera tanto o altamente provável como o excessivamente improvável para contabilizar atributos, sub-contextos e relacionamentos.

A versão lançada nesta semana pode classificar relevância categórica para qualquer entrada de texto. A conceituação de nível básico da Microsoft será fornecida para classificar preferencialmente categorias eficientes e apropriadas ao lado de outras medidas como MI, PMI, PMIk e Typicality.

Versões futuras serão capazes de explicar o que eles chamam de “conceitualização de instância única com contexto”, o que significaria essencialmente que “estranho” e “faca” poderiam ser conectados para denotar significado. Mais à frente, a equipe espera resolver a “conceitualização de textos curtos”, ampliando ainda mais o escopo das aplicações dentro da pesquisa, da publicidade e da IA.

Com informações de TechCrunch