DevSecOps

2 mar, 2007

Buscas e Privacidade

Publicidade

Como usuários (domésticos ou corporativos) podem evitar que dados sensíveis ou particulares apareçam nas buscas em ferramentas diversas na internet? Este problema é antigo e tem ficado mais em evidência devido ao aumento da complexidade e da eficiência na forma como as search engines (ferramentas de busca) implementam os critérios de busca por informações.

Antigamente, na primeira geração desses indexadores, tínhamos produtos indexando conteúdo em páginas estáticas e arquivos-texto. Porém, a tecnologia hoje utilizada por search engines públicas como Google, Yahoo! e MSN Search implementa mecanismos cada vez mais sofisticados para busca em documentos estátcos e dinâmicos, como e-mails, banco de dados, planilhas, imagens e assim por diante. Por isso, o perigo, atualmente, deve ser dividido em dois universos: o universo das search engines de acesso público — os sites de busca mais conhecidos na internet, que podem ser acessados sem nenhuma restrição — e os mecanismos de busca corporativos, comercializados sob a forma de aplicações. Estes possuem um grande poder de processamento e armazenamento para indexar informações específicas sobre o domínio de uma empresa.

Um dos problemas que mais comprometem as empresas e usuários finais é a informação confidencial divulgada em meios públicos, como fóruns especializados. É possível, por exemplo, levantar informações e catalogar e-mails válidos para que sejam adicionados a listas de spam. Existem programas especializados que varrem search engines em busca de qualquer.coisa@email.dominio e automaticamente alimentam a base de spam à medida que estes e-mails são identificados. O mais cuidadoso dos usuários — que não divulga o e-mail e assina poucos informativos — também é pego no spam pelo simples fato de estar participando de algum fórum de discussão em sites especializados na internet onde seu e-mail foi indexado por robôs (bots). Mas como isso acontece? Muitos sites não possuem proteção ou não são corretamente configurados no que diz respeito à privacidade de acesso e leitura de documentos. Um site de fóruns de discussão é um exemplo típico. Normalmente este tipo de site permite a entrada de visitantes ‘anônimos’, bem como a leitura irrestrita das mensagens postadas. Já é o suficiente para que todas as mensagens do fórum sejam indexadas pelas search engines…

Pessoalmente utilizei esta técnica quando desenvolvi, há alguns anos atrás, o teste de invasão de uma grande instituição financeira para mostrar-lhe os pontos fracos de sua segurança. Na metodologia de teste de invasão que adotei, iniciei pela fase de ‘reconhecimento’, levantando informações da instituição através de diferentes mecanismos de busca, e explorando os meios públicos para obtenção de informação privilegiada. Para minha surpresa, a ferramenta de busca utilizada indexou até as conversas dos profissionais de segurança desta instituição, justamente quando eles debatiam dúvidas referentes à implementação das tecnologias de defesa de perímetros enquanto estavam no fórum de um site especializado sobre segurança de um grande fabricante. Com isso consegui mapear as tecnologias que a empresa utilizava para proteção de sua rede corporativa e pude apresentar aos diretores um ‘rascunho’ de sua topologia de rede, o que causou muito espanto.

O tema se torna ainda mais palpitante ainda quando se sabe, através de uma pesquisa do Gartner Group, que o acesso à informação via ferramentas de busca, internas ou externas, deverá aumentar 15% este ano. Se em 2006 a receita dos softwares de busca passou os US$ 600 milhões, este ano deve chegar a mais de US$ 720 milhões.

O exemplo da instituição financeira que citei é apenas um entre dezenas… É comum você encontrar números de CPFs, telefones, e-mails, identidades, carteiras de motorista e diversos documentos confidenciais dos mais diferentes tipos durante uma simples busca no Google. Aliás, toda a sua sofisticação como ferramenta de busca fez com que ele fosse usado para a técnica que chamamos de ‘Google hacking’, a qual potencializa seu fenomenal poder de indexação para a busca de informações confidenciais e mesmo combinações de usuários, senhas e códigos para acesso a sites. Até um livro foi publicado para tratar do assunto. O livro busca chamar a atenção dos profissionais de segurança da informação para o perigo. Ele se chama ‘Google Hacking for Penetration Testers’. Este livro expõe as técnicas para pesquisa, mas aborda também os cuidados que indivíduos e organizações devem ter para evitar que informações confidenciais sejam publicadas na web sem prévia autorização.

Os mecanismos de busca corporativos são soluções que rodam em servidores dedicados. Atualmente se observa o crescimento desta oferta baseada em dispositivos de appliances (hardware e software proprietários especialmente customizados para desempenhar a tarefa de indexação). O Google, por exemplo, já oferece, através de distribuidor, modelos de appliances Google Mini — voltados a pequenas e médias empresas — e Google Search Appliance, voltado a grandes corporações.Estes appliances executam pesquisas em milhões de documentos, trabalhando com diversos formatos, que incluem PDFs, HTML, documentos proprietários do Microsoft Office, arquivos e diretórios de sistemas operacionais, sistemas de Business Inteligence, ERP, CRM, entre outros.

Toda a complexidade do uso da tecnologia e do poder de fogo de um destes appliances requer um estudo criterioso do que necessita ser indexado através da correta configuração dos appliances e dos servidores de arquivos, banco de dados e aplicações que terão seu conteúdo potencialmente indexado. Isso por que é comum, após a implementação de um sistema de ferramenta de busca corporativa, indexar documentos que não se quer divulgar, como planilhas de salários de funcionários, tabelas de benefícios, informações confidenciais que não foram configuradas corretamente com ACLs (access control lists), conteúdos de caixas postais, documentos restritos a diretoria e/ou presidência, e assim por diante…

Só para se ter uma idéia, estes mecanismos de busca corporativos são ferramentas eficazes para análise forense. Proporcionam a análise de muitos eventos de rede, sistemas operacionais e informações pertinentes a possíveis violações da política de segurança da corporação, que são compilados sob forma de logs e geram evidências catalogadas por estes dispositivos.

Quais são as recomendações?

1. Usuários devem evitar os sites de fóruns que não tenham autenticação para leitura de mensagens e outros sites que não possuam restrições de acesso e que permitem o acesso de ‘visitantes’ (são facilmente indexados pelos search engines).

2. Usuários devem evitar o envio de documentos e qualquer tipo de informação confidencial para sites na internet que não sejam devidamente reconhecidos e capacitados para manipular informações de terceiros.

3. As empresas, ao adotarem um search engine corporativo, necessitam definir e implementar as ACLs (access control lists) de forma a evitar a leitura de documentos confidenciais por terceiros e indexação não desejada destes documentos.

4. As empresas necessitam implementar o search engine corporativo e observar gradativamente os resultados compilados para identificar e descartar as informações confidenciais compiladas e prover ajustes na configuração do ambiente antes de oferecer acesso público a ferramenta aos demais colaboradores.

5. A implementação de um search engine corporativo deve ser encarada como um projeto. De forma alguma se trata de mais um dispositivo ‘plug and play’ que deve ser ligado na tomada. Deve-se observar cuidados na implementação e no impacto da compilação em todo o ambiente.