O Netflix abriu o código de uma ferramenta chamada Suro, que a empresa utiliza para direcionar dados de uma fonte um destino em tempo real. Mais do que apenas desempenhar um papel chave no pipeline de dados do Netflix, ela é um ótimo exemplo de um impressionante ecossistema de ferramentas open source de análise de dados em meio a tantas proprietárias.
Os vários aplicativos do Netflix geram bilhões de eventos diariamente, e a Suro coleta todos eles antes de passá-los para frente. A maioria vai para o Hadoop (via Amazon S3) para processamento batch, enquanto outros vão para Druid e ElasticSearch (via Apache Kafka) para análises em tempo real. De acordo com um post no blog do Netflix sobre a Suro, a empresa também está avaliando como pode usar mecanismos de processamento em tempo real, como Storm e Samza, para machine-learning em log de eventos.
A Suro, diz o post, é baseada no projeto Apache Chukwa e é semelhante ao Apache Flume (criado pelo Cloudera, fornecedor do Hadoop) e ao Scribe do Facebook.
Com informações de Gigaom