Data

2 ago, 2018

Big data do zero

Publicidade

Antes de começarmos a parte técnica, com mil linhas de código e dados por todos os lados, acredito que seja interessante dar um contexto mais teórico e até histórico para que vocês saibam melhor com o que vão trabalhar, de onde veio, quem são os principais criadores e responsáveis por essa área e uma pitada das principais ferramentas, antes de nos aprofundarmos nelas.

Em janeiro de 1996, na universidade de Stanford, dois estudantes faziam doutorado na área de ciência da computação. Esses jovens queriam fazer algo diferente, queriam fazer uma nova forma de utilizar a internet.

Então, depois de um tempo, fizeram um algoritmo de busca diferente de tudo o que havia na época, um algoritmo que explorava melhor a relação entre os sites, o rankeamento entre eles, qual site deve ficar em primeiro, e segundo, de acordo com determinada lógica no momento das buscas dos usuários. O nome desse algoritmo é Page Rank (super criativo) e o produto final que esses estudantes que se chamam Larry Page e Sergey Brin, se chama Google – uau.

Agora pense comigo: para que você possa fazer um ranking, comparações de dados e definir posicionamentos, essas informações devem ser armazenadas em algum lugar, correto?

Logo, para fazer o Google funcionar, basicamente, ele deve ter “a internet” armazenada dentro dele. Como armazenar o volume todo da internet, de maneira que possam ser realizadas milhares ou bilhões de operações com seus dados, e as consultas possam ser velozes, com veracidade e valor nas informações?

Pois é, essa dupla tinha que resolver esse problema, principalmente pelo motivo de o Google estar crescendo muito, então desenvolveram algumas ferramentas para processamento de dados, que foram o GFS e o Big Table, com o princípio do processamento distribuído. Mas o que é isso? Imagine a seguinte situação, você tem que cozinhar uma batata; ela cozinhará mais rápido se você colocá-la inteira em uma panela com água quente ou se você cortá-la em vários pedaços menores?

A resposta é óbvia, pedaços menores, com certeza. Com dados não funciona diferente, e foi o que eles fizeram. Eles poderiam fazer o armazenamento em mainframes (um computador de grande porte dedicado, normalmente, ao processamento de um volume enorme de informações)? Poderiam! Mas eles são absurdamente caros, e esse é um dos grandes motivos da utilização do processamento distribuído até hoje e ele ter se tornado tão popular.

E como funciona o GFS e o Big Table?

Resumidamente: Google File System (GFS) é um sistema de arquivos distribuído e escalável para aplicações com quantidade massiva de dados. Consiste em vários clusters, que são um conjunto de máquinas de baixo custo que fazem o processamento de milhares de dados paralelamente, que funciona com o MapReduce (na próxima publicação explicarei com detalhes o map, reduce, nós e yarn – aguarde).

Essa atividade também pode ser chamada de escalabilidade horizontal. Os dados são armazenados no Bigtable, que é um sistema de armazenamento de dados proprietário compactado, de alto desempenho e construído.

Até o começo de 2003, as informações do GFS e Big Table eram mantidas em segredo, mas o cenário mudou em outubro deste mesmo ano, quando a Google publicou um documento explicando o funcionamento do GFS; foi então que Douglas Read Cutting, que trabalhava na Yahoo, viu essa publicação e em janeiro de 2006 anunciou o Nuch, precursor do Hadoop, que é uma versão de código aberto do GFS.

A partir disso, várias empresas começaram a desenvolver ferramentas em cima do Hadoop, afinal, a quantidade de dados hoje em dia é absurdamente grande e precisam ser processadas de alguma maneira para gerar informações com o intuito de as empresas terem lucro, insights, tomadas de decisão correta e etc.

Algumas datas importantes:

  • 2003 – Foi publicado o documento sobre o GFS
  • 2006 – O lançamento do Hadoop
  • 2014 – Primeiro curso de big data do Brasil

Curiosidades:

Gosta de futebol? Na copa de 2006, a equipe Alemã pegou dados dos últimos três anos de como os argentinos chutavam os pênaltis, e com isso, geraram uma informação poderosa e decisiva para a vitória: o nome do jogador argentino e o lado que ele iria chutar, o goleiro Lehmann levou uma “cola” em sua meia com essa relação.

Resultado: Alemanha perdeu a copa mas nunca perdeu nos pênaltis.

Walmart e o caso da fralda e a cerveja

Por meio do cruzamento de muitos e muitos dados, o Walmart percebeu que quando os pais iam ao mercado, aproximadamente 18h, comprar fraldas, praticamente sempre compravam cerveja. Assim começaram a colocar cervejas perto setor das fraldas e as vendas cresceram 30% em curto prazo, 400% em três anos.

Espero que tenham gostado, e fiquem espertos que a saga continua!