DevSecOps

19 mai, 2014

Conheça os 5 V’s do big data

Publicidade

Tenho participado de vários eventos sobre big data e ainda observo que existe muita curiosidade e ainda pouca ação. Vejo ainda que o conceito de big data é bastante desconhecido. Este desconhecimento pode explicar, pelo menos em parte, o resultado de uma recente pesquisa feita pela empresa Information Difference. Ao perguntarem a CIOs de diversas empresas o status das suas ações de big data, 30% responderam que ainda não tinham planos para tal e 37% disseram que iniciariam provas de conceito ainda este ano ou ano que vem. Apenas 32% disseram que estavam com projetos em atividade. Ou seja, a grosso modo, 1/3 estão fazendo alguma coisa, 1/3 estão pensando e 1/3 ainda nem começaram a pensar…

Mas, quando se fala em grandes volumes de dados (o primeiro V do conceito de big data) não se fala em algo novo. Em ciências como astronomia, climatologia e física, ou mesmo na indústria cinematográfica, há muitos anos que se lida com imensos volumes de dados. O CERN, por exemplo, gera 35 petabytes de dados por ano. Aliás, o conceito de big em volume de dados é bem relativo. No inicio dos anos 2000 falar em terabyte era espantoso. Hoje um serviço como o Google Drive oferece um terabyte por cerca de US$ 10.

A evolução da geração de dados na sociedade digital vem acontecendo de forma muito rápida. No ano 2000, apenas 25% dos dados estavam em formato digital. Hoje, mais de 98% de todos os dados gerados no mundo estão em formato digital. Ano que vem deveremos gerar cerca de oito zetabytes e em 2020 cerca de 44 zetabytes (44 trilhões de gigabytes). Vale a pena dar uma olhada na pesquisa “Digital Universe” do IDC.

Este volume de dados é gerado por diversas fontes, como mídias sociais (a cada minuto o Facebook gera 350 GB de dados e são criados 278 mil tuítes), smartphones, sensores, sistemas nas empresas, planilhas em nuvem, etc. Os objetos geram cada vez mais dados. A indústria automotiva estima que em 2020 os carros conectados gerarão cerca de 11 petabytes. Veja o estudo da CAR – Center for Automotive Research. Este é o segundo V do conceito: variedade. Os dados são gerados por diversas fontes, e na sua imensa maioria não estão estruturados, ou seja não são formatados por bancos de dados tradicionais como os do modelo relacional.

Claro que nem todos os dados gerados são úteis. Em 2013, cerca de 20% dos dados gerados podiam ser considerados válidos para análise – percentual que deve crescer para 35% em 2020. Hoje menos de 5% são realmente analisados. Este ponto nos chama a atenção para o terceiro V do conceito, que é veracidade. Do turbilhão de dados, temos que extrair o que realmente nos interessa e nos agrega valor.

Em muitas aplicações, a velocidade com que os dados são processados, analisados e em que as ações e decisões são tomadas é essencial. Com o tempo, o valor de muitos dados decresce sensivelmente. Por exemplo, tuítes têm mais significado no momento em que acontecem, permitindo entender determinadas tendências em tempo real. Sensores de fluxo de veículos têm significado se analisados em tempo real, de modo a impedirem a ocorrência de congestionamentos. Este é o quarto V: velocidade.

E podemos considerar que o vetor resultante da aplicação dos conceitos de big data é o valor para os negócios. O quinto V! Na prática, nem todas os Vs têm a mesma importância para determinada empresa ou aplicação.

O big data deve ser visto com atenção. Sinaliza o início de uma grande transformação na sociedade. Uma sociedade data-driven será bem diferente da qual conhecemos hoje. Como o telescópio nos permitiu compreender o universo e o microscópio nos abriu um mundo novo e até então desconhecido, dos germes, big data vai nos abrir uma nova maneira de sentir o mundo à nossa volta. Sairemos de modelos mentais baseados na escassez de dados (coletar dados era uma tarefa difícil quando a maior parte dos dados não estavam em formato digital, como no ano 2000), para abundância de dados. O Google, por exemplo, processa mais de 24 petabytes de dados por dia e, a cada minuto, o 1,2 bilhão de usuários do Facebook clicam no botão Like mais de 1,8 milhões de vezes, o que faz com que estas empresas conheçam mais de nós que nós mesmos…

O impacto disso é de difícil visualização. E será bem mais impactante que a invenção da prensa, que mudou o nosso mundo. De 1453 a 1503, cerca de oito milhões de livros foram publicados – o que foi uma produção de conteúdo maior que toda a sociedade havia gerado via escribas nos 1200 anos anteriores. Em 2010, Eric Schmidt, então CEO do Google, afirmava que em dois dias a sociedade já gerava tantos dados quanto os que foram gerados desde seus primórdios até 2003. Imaginemos nos próximos anos, com a geração de dados sendo duplicados a cada dois anos.

Compreender os impactos potenciais do Big data e vencer os desafios que o conceito nos traz são essenciais para as empresas se manterem competitivas na economia digital. Estamos ainda no início da sua curva de aprendizado, mas é fundamental que as ações comecem de imediato. A velocidade com que as tecnologias e mudanças no cenário de negócios acontecem não nos permite o luxo de ficar esperando para ver o que acontece.

O big data nos abre o que podemos chamar de portas para uma “intelligent economy” ou economia inteligente que produz um fluxo contínuo de informações, que podem ser monitoradas e analisadas.

Ainda é um cenário imaturo, como as pesquisas mostram, e existem poucos exemplos de “melhores práticas”. Portanto, é uma iniciativa inovadora para maioria das empresas, com os riscos e recompensas dos empreendedores inovadores. Mas ficar parado esperando a onda chegar será perigoso, pois provavelmente até o fim da década o big data passará a ser apenas “Just Data”. Será o modelo natural de pensar análises de dados. Neste momento o big data se tornará ubíquo nas empresas e o termo big deixará de fazer sentido. Aí será a hora de contar os vencedores e os derrotados…