Algumas estimativas sugerem que até 2015 o universo digital crescerá para 8 zettabytes de dados (1 zettabyte = 1.000.000.000.000.000.000.000 bytes). Muito se tem escrito nos últimos anos sobre o “Big Data” e as implicações para o gerenciamento de informações e para a análise de dados. Simplificando, Big Data são os dados que são grandes demais para serem processados usando métodos tradicionais.
Por “métodos tradicionais” nos referimos aos ambientes de banco de dados relacionais (RDBMS), nos quais os dados são organizados em um conjunto de tabelas formalmente descritas e muitas vezes acessadas utilizando a linguagem SQL (Structured Query Language). Esses sistemas foram projetados há décadas, quando os dados eram muito mais estruturados e menos acessíveis. Com o desenvolvimento de tecnologias web e arquiteturas de código aberto, os sistemas de gerenciamento de banco de dados também evoluíram. A expressão mais notável disso é o MySQL, que é open source e de fácil acesso para o iniciante, e geralmente vem em pacotes de software em alguma variação do ambiente LAMP. Por outro lado, mais da metade dos dados digitais de hoje são os não-estruturados a partir das redes sociais, dispositivos móveis, aplicativos web e outras fontes similares.
Enquanto o “Big Data” se tornou um grande jargão na indústria de TI hoje – similar, em vários aspectos, a uma consequência do fenômeno da computação da nuvem – e resultou em vários tipos de definições, a essência desse fenômeno pode ser resumida na seguinte definição de O’Reilley: “Big Data são dados que excedem a capacidade de processamento dos sistemas de banco de dados convencionais. Os dados são muito grandes, se movem muito rápido, ou não se adequam às restrições de arquiteturas dos banco de dados. Para ganhar valor a partir desses dados, você deve escolher um caminho alternativo para processá-los”.
A necessidade de compreender e gerenciar Big Data tornou-se essencial para a TI e as equipes de engenharia em grandes empresas de tecnologia como Google, Amazon, Facebook, Twitter, assim como outras entidades que possuem milhões em tráfego de usuários. Mas quais as soluções estão disponíveis para as PMEs? De acordo com um estudo divulgado em abril de 2012 pela Techaisle, com mais de 800 PMEs, 34% das empresas norte-americanas de porte médio que estão usando business intelligence também estão interessadas em análise de grandes dados.
Em seu relatório de tecnologias emergentes “Hype Cycle for Big Data 2012”, o Gartner afirmou que Column-store DBMS, Computação da Nuvem, In-MemoryDatabase Management Systems serão os três maiores transformadores de tecnologias nos próximos cinco anos. Esse mesmo relatório prevê que ComplexEventProcessing , conteúdo analítico, serviços de contextos enriquecidos, Computação na Nuvem híbrida, Framework de Capacidades de Informação e Telemática fazem parte das tecnologias emergentes que o Gartner também considera ser transformacional. O Hype Cycle do Big Data é mostrado logo abaixo:
Chegou a hora para as PMEs começarem a pensar seriamente em soluções de Big Data. Como uma fonte bem afirmou: “Pode levar um tempo, mas eventualmente qualquer boa tecnologia adotada por grandes empresas levará seu caminho para empresas de pequeno e médio porte, de alguma forma modificada adequadamente e re-tabelada. Não será diferente das ferramentas de business analytics. O tempo poderia ser retirado dos clientes de médio alcance para que eles comecem a pensar ou modernizar seus data warehouses ou data marts, se tiverem sorte suficiente para ter algum, ou inventar um plano para instalar uma plataforma de business analytics, se eles não o fazem”.
Com isso em mente, aqui estão as duas soluções importantes “Big Data” para as PMEs ficarem de olho…
Google Big Querry
O BigQuery foi introduzido no preview limitado em novembro de 2011 e disponibilizado ao público em 01/05/2012, cumprindo o desejo do Google de “trazer a análise de Big Data para todas as empresas por meio da nuvem”. Com o BigQuery, o Google desenvolveu uma solução de análises de dados que oferece um framework fácil de usar e rapidamente escalável para procurar por grandes quantidades de dados na nuvem dentro de um frameqork SQL tradicional. Como o próprio slogan sugere, BigQuery permite “analisar terabytes de dados com apenas um clique de um botão.”
O processo de configuração do BigQuery leva menos de 5 minutos. É só fazer o login no Google APIs Console e, em seguida, criar um novo projeto ou utilizar um existente. Navegue até a tabela API de Serviços e clique na barra lateral esquerda em “Serviços” e em seguida Ativar BigQuery.
Uma vez que o BigQuery está habilitado, clique no link “BigQuery” e escolha gerenciar os dados através da ferramenta “web interface”.
Você será presenteado com uma tela que se assemelha aos esboços básicos de um ambiente MySQL tradicional, mas que é muito mais simplificado. O Google forneceu um conjunto de publicdata:samples. Clique na caixa suspensa e será presenteado com uma lista dessas amostras. Clique em “natalidade” e “detalhes”. Isso mostra as estatísticas vitais de nascimento do Centro de Controle de Doenças (CDC) para todos os dados de nascimento disponíveis nos Estados Unidos dos 50 estados, o Distrito de Columbia, e Nova York, de 1969a 2008. No conjunto de dados abaixo, são mais de 137m fileiras de dados!
Para executar uma query de exemplo, volte para a homepage, no “BigQuery Browser Tool Tutorial” e selecione “Executar uma query”. Você será agora apresentado a uma série de exemplos de queries SQL. Escolha a que selecionará as dez crianças mais pesadas por peso de nascimento nos Estados Unidos entre 1969 e 2008:
SELECT weight_pounds, state, year, gestation_weeks FROM publicdata:samples.natality
ORDER BY weight_pounds DESC LIMIT 10;
Copie e cole a query novamente em sua caixa de texto de composição de consulta e selecione “Executar consulta”. Em poucos segundos, a query extrairá os 10 maiores pesos de nascimento a partir de registros de 137m de 30 anos de dados!
O que é impressionante sobre a interface BigQuery é a escala de dados que é facilmente apresentada aos usuários em pouco tempo. Eles podem, claro, criar suas próprias tabelas importando dados de outros locais ou do Google Cloud Storage. As oportunidades de dividir e analisar grandes grupos de dados são agora ilimitadas com a solução para análises de dados do Google BigQuery.
BIME
BIME (pronuncia-se “beam”) é uma startup francesa que fez parceria com o Google para criar um aplicativo front-end para BigQuery que pode ser utilizado como uma ferramenta de business analytics. O aplicativo é executado na Amazon Web Services e pode importar dados do BigQuery ou de qualquer variedade de fontes de nuvem e não-nuvem. Com o slogan inteligente de “Mine Your Own Business.”, o BIME, em suas próprias palavras, “é uma abordagem revolucionária para a análise de dados e dashboarding. Ele permite que você analise os seus dados através de visualizações de dados interativos e crie dashboards deslumbrantes a partir da Web”.
A relação entre o BigQuery do Google e o BIME é melhor capturada na imagem abaixo, que mostra como o BIME pode ser usado para importar e dividir e analisar as estatísticas de nascimento do CDC discutidas acima.
O BIME oferece um teste de dez dias gratuito, cuja a inscrição é muito fácil, e sem nenhuma obrigação. Depois de se inscrever para uma conta gratuita, vá em “Criar uma conexão”.
Em seguida, você precisa definir uma fonte de dados de onde você deseja importar o conjunto de dados. Para conjuntos de dados muito grandes, você terá que escolher BimeDB, que requer informações de cartão de crédito para cobrar US$ 0,50 ou US$ 1,00/hora, dependendo do tamanho dos conjuntos de dados necessários.
Para mais conjuntos de dados convencionais, você pode importar os seus conjuntos de dados diretamente do desktop. O BIME oferece um ambiente semelhante ao Excel, no qual os conjuntos de dados de qualquer tamanho podem ser importados, divididos e reorganizados para derivar as análises desejadas.
No caso abaixo, fizemos uma amostra da tabela de estatísticas de nascimento do Google BigQuery no CDC, a fim de extrair os 500 principais pesos de nascimento entre 1969 e 2008 e, depois, derivamos o peso médio para uma amostra de cinco estados: Alabama, Dakota do Norte, Carolina do Sul, Texas e Washington.
Após o período experimental, os usuários do BIME podem atualizar para um plano de preços em escala, dependendo das necessidades de análise de dados de seus negócios.
Concluindo, cabe ressaltar que o “Big Data” é um grande negócio, não só para as grandes corporações, mas para empresas de pequeno e médio porte também. A discussão acima descreveu duas grandes soluções de análise de dados de fácil acesso e escalonáveis para a empresa de pequeno e médio porte. Dentro do espectro da tecnologia emergente, o Big Data é muito importante, e as empresas que são capazes de dividir e analisar de uma forma fácil e eficiente esses dados para fornecer, de forma precisa, as tendências de consumo, as previsões de mercado, e oferecer aos stakeholders as análises e as métricas mais atualizadas, imediatamente definirão se se diferenciam de outros jogadores do setor.
***
Texto original da equipe Monitis, liderada por Hovhannes Avoyan, disponível em http://blog.monitis.com/index.php/2012/08/16/data-analytics-in-the-cloud-two-cool-nosql-big-data-options-for-the-smb/