DevSecOps

10 jul, 2014

Big data não é apenas tecnologia

Publicidade

Um tema que realmente está entre os top 3 para os CIOs e profissionais de TI é big data. Por isso, volta e meia retorno ao assunto. Big data é muito mais que um imenso volume de dados. Por isso o nome não me parece muito adequado. O valor do big data vem da sua dinâmica, provocada pela análise dos dados; ou seja, dos dados falarem por sim mesmo. Dados armazenados por si só não têm valor.

Big data não é apenas tecnologia. Tentar simplificar vendendo a ideia de que big data se materializa na empresa simplesmente comprando tecnologias do fornecedor A ou B não cria valor para o negócio, apenas gera frustrações. O big data embute mudanças na maneira de pensarmos dados. Por exemplo, vamos olhar a variável que nos parece mais simples, que é volume. Quando saímos do pensamento baseado na escassez para a abundância de dados, devemos pensar diferente. Pela dificuldade e limitação tecnológica, nós acabamos construindo um modelo mental de escassez de dados. Com isso, refinamos uma série de práticas como análises estatísticas por amostragem. A partir de uma pequena amostra de dados, extrapolamos para um cenário mais amplo. Com o tempo refinamos os modelos e hoje eles são bastante confiáveis.

Entretanto, existem algumas lacunas, como uma  precisão que depende muito da amostragem. Por exemplo, uma pesquisa de opinião baseada em uma amostra randômica de usuários de telefones fixos embute um viés: se a coleta for feita no horário de trabalho, quem vai atender não necessariamente representa a opinião das pessoas que trabalham fora.  Podem ter um ponto de vista bem diferente das que podem atender o telefone doméstico durante o dia. Além disso, se quisermos detalhar um pouco mais a pesquisa, um universo de amostras pequeno, como fazemos hoje, não terá representatividade estatística. Um exemplo? As pesquisas de intenção de voto. Geralmente pega-se umas duas mil pessoas e tem-se um quadro geral. Mas se quisermos detalhar ao ponto de queremos saber a intenção dos jovens entre 18 e 25 anos do estado da Paraíba, a amostragem será insuficiente. Estamos presos às perguntas iniciais e não podemos sair delas. Mas com volumes grandes o pensamento é outro. Quando a variável passa a ser “ N=todos”, podemos fazer granularizações inimagináveis no modelo de escassez. Podemos identificar tendências e descobrir correlações não pensadas antes. Podemos fazer novas perguntas e descer a novos níveis de segmentação. Saímos para um “mind set” mais oportunístico, ou seja, aproveitamos oportunidades de fazer perguntas não pensadas antes de analisar os dados.

Outra característica interessante que afeta nossa maneira de olhar os dados é que volumes grandes não demandam precisão extra de cada dado. Aliás, já fazemos isso hoje. Pensemos em um número grande como o PIB de um país. Não detalhamos os centavos, mas ficamos restritos aos grandes números e as tendências que eles apontam. Recomendo ler o paper “If you have too much data, then “good enough” is Good Enough“. Ele mostra a mudança na maneira de pensar a exatidão dos dados, versus a tendência que os dados nos apontam. O exemplo típico é a conceituação do Hadoop. Ao usá-lo, podemos aceitar que os dados manuseados não serão 100% exatos, mas o volume será grande o suficiente para apontar tendências. Claro, não se imagina substituir o banco de dados relacional que lida com dados precisos e exatos como nossa conta corrente bancária pelo Hadoop, mas mostra que podemos (de forma complementar), trabalhar com as diversas tecnologias; cada uma no seu espaço.

Outra grande oportunidade que o big data nos abre é conseguirmos fazer correlações entre dados, à primeira vista, sem aparente conexões.  Um exemplo tradicional é o da Amazon e sua estratégia de recomendações, baseada na análise de quem compra determinado livro tenderá a comprar outros. Como isso é feito? Vale a pena dar uma olhada no algoritmo básico usado pela Amazon, conhecido como “item-to-item collaborative filtering”. Na prática, a adoção deste modelo revolucionou o e-commerce e algoritmos similares passaram a fazer parte do cerne de qualquer sistema de comércio eletrônico que se preze. O princípio básico é conhecer o “que” e não o “porque”. Com correlações nós passamos a trabalhar não mais com certezas, mas com probabilidades. Com volumes muito grandes, as possibilidades de acerto tornam-se bem mais significativas. Há uma mudança de pensar neste conceito. Saímos do modelo “hypothesis-driven”, onde tentamos provar nossa hipótese analisando dados específicos com perguntas específicas, para “data-driven”, onde submetemos um imenso e variado volume de  dados a algoritmos de correlação. Neste último podemos encontrar resultados inesperados e a partir deles nos inspirarmos a formular novas perguntas. O fator chave passa a ser fazer perguntas certas a cada nova análise. Um cuidado a evitar é o fenômeno que chamamos de “Big Noise”, com volumes de dados muito grandes, mas que não nos trazem correlações efetivas.

Um outro exemplo de uso de correlação de dados é o produto University Pages do Linkedin, que propõe analisar como carreiras e universidades se interconectam. Por exemplo, se você quiser seguir determinada carreira, qual seria a melhor universidade a cursar? Recomendo ver o texto sobre o projeto, inclusive com detalhes das tecnologias.

Correlacionando dados, podemos desenvolver algoritmos preditivos, que buscam identificar eventos antes que eles aconteçam. Um exemplo de uso é a manutenção de equipamentos como aeronaves, automóveis ou turbinas de aviões. O princípio básico é que quando as coisas acontecem (ou quebram) não são de imediato, mas o problema evolui gradualmente com o tempo. Coletando dados de sensores podemos fazer análises correlacionais para identificar determinados padrões que sinalizam futuros problemas. Quanto mais cedo uma provável anormalidade é detectada, mais eficiente é o processo de manutenção. Muito mais eficiente que a manutenção preventiva que nos indica uma troca de óleo cada 5 mil quilômetros. Mas a maneira de dirigir, as estradas que o veículo trafega e as temperaturas a que está exposto afetam de forma significativa este tempo. Com algoritmos preditivos pode-se identificar que um determinado veículo deve trocar o óleo a 4 mil quilômetros e o outro a 6,5 mil quilômetros.

Big data traz uma outra mudança fundamental em seu bojo. A substituição do modelo baseado em intuição por “data-driven”. A intuição funciona (e não vai deixar de existir) mas é baseado na ideia que existe causalidade em tudo. Muitas vezes acreditamos que tal efeito é devido a uma determinada causa, pelo simples fato que não tinhamos outras variáveis para analisar. Hoje temos e provavelmente muitas das nossas ideias de causa-efeito, que nos guiavam, não serão mais válidas.

Se quisermos ter sucesso em big data não devemos começar pela tecnologia. O primeiro passo é identificar as oportunidades de valor, ter as expertises necessárias, saber quais e onde estão os dados e só então selecionar a tecnologia. E é um processo contínuo e evolutivo. Novas correlações de dados surgirão e sempre faremos novas e instigantes perguntas. Afinal é assim que a sociedade evolui: sendo curiosa e explorando novos caminhos.