Cloud Computing

24 out, 2012

Cloud computing é confiável?

Publicidade

No dia 22 de outubro, o datacenter de East Virginia da Amazon Web Services teve uma pane no gerenciamento de volumes (discos) nas EBS das instâncias rodando na Amazon. Essas panes começaram por volta de 14h, e os serviços foram restabelecidos por volta de 19h (horário de verão em São Paulo). Muitos portais e sistemas online pararam de funcionar porque os servidores pararam de responder. Instagram, Github, Pinterest, Reddit, Imgur, Foursquare, Quora, HootSuite, Flipboard – todos juntos. Bilhões de dólares pararam de girar, porque o datacenter simplesmente “deu pau”. Os prejuízos ainda estão sendo contabilizados por conta das quedas de serviço da Amazon.

E não foi a primeira vez em que a Amazon “deu pau”. Em 30 de junho, um dos datacenters sofreu pane elétrica devido a uma enorme tempestade e vários serviços como Netflix, Instagram, Pinterest e SocialFlow ficaram fora do ar – junto com milhões de lares americanos – por aproximadamente 12 horas. Milhões de dólares em prejuízos para cidadãos e, principalmente, para essas empresas cujos serviços foram interrompidos. Muita gente se apressou em culpar a Amazon pelas falhas, que se desculpou pelo inconveniente e agradeceu pela paciência de seus usuários.

Com essas falhas nos datacenters da Amazon e os prejuízos para os serviços dessas enormes empresas de Internet, fica a pergunta: Cloud computing é confiável?

Antes de culpar o prestador de serviços, vamos olhar o problema “de fora da caixa”. Sou um usuário na Amazon e do mesmo datacenter de East Virginia que sofreu panes em 22 de outubro. Meus serviços caíram também. Mas nenhum deles era de missão crítica, e o impacto foi facilmente administrável. Agora vejamos Instagram, Pinterest, SocialFlow, Netflix, Github, Reddit, Imgur, Foursquare, Quora, HootSuite, Flipboard: são utilizados por milhões de usuários de PCs, smartphones e tablets, alguns gerenciam projetos de aplicações, outros são redes sociais, mídia distribuída… Muitos são serviços pagos ou patrocinados (publicidade). Hora parada é hora sem patrocínio e, dependendo do serviço, pode até dar multa pela queda do mesmo.

Diante disso, concluímos que cloud computing é um serviço crítico, de custo relativamente baixo conforme a necessidade, é facilmente escalável para suportar o tamanho da aplicação que se deseja, e é seguro quando bem configurado – ideal para startups. E, sim, é bastante confiável, superando de longe soluções on premises e em outros datacenters que conhecemos em terras tupiniquins e mesmo fora daqui – e agora vem a verdade: a maior parte da culpa para a indisponibilidade desses serviços é de todas essas empresas que os oferecem aos seus usuários. Todas grandes, de bilhões de dólares. Mas como isso pode ser possível?

Se há alguém com a menor parcela de culpa nessa história toda é a Amazon Web Services, e a resposta é simples: há datacenters espalhados em outras localidades (Reino Unido, Japão, Brasil etc.), que têm condições de atuar como redundância quando há queda nos serviços de um ou outro datacenter, no qual a aplicação (seja Instagram, seja Netflix, etc.) esteja rodando. Porém, isso não acontece de forma automática: o administrador da nuvem na Amazon (da empresa dona da aplicação) tem que replicar aquela nuvem na qual a aplicação está rodando em outra localidade, outro datacenter, outra nuvem. Ambas trabalham juntas e, em caso de queda nos serviços em uma nuvem, a outra atua como failover. O serviço existe e é amplamente demonstrado e discutido em todos os eventos da Amazon pelo mundo – e eu já vi isso em dois deles. Ou seja, há infraestrutura disponível. Falhas podem acontecer como em qualquer serviço de datacenter.

O problema é pura e simplesmente cultural das empresas, que encaram a computação em nuvem como o Santo Graal que irá resolver todos os problemas, mas se esquecem de que ela é vulnerável – tanto quanto soluções on premises em alguns casos. Startups que começam com uma boa ideia que cresce e, em poucos meses, estão na casa dos milhões de dólares em valor agregado, alimentam a galinha dos ovos de ouro que bota ovos aos montes – até que a galinha “pega uma gripe aviária” e morre. Empresas que têm tudo pra dar certo – e dão mesmo -, mas que infelizmente se atrapalham com o tamanho das próprias pernas. Cresceram muito em pouco tempo, mantendo a “pegada de startup”, e se esqueceram de uma palavra fundamental na infraestrutura de TI: PLANEJAMENTO. Sem isso, o seu negócio fica extremamente vulnerável, sobretudo se ele depende da sua infraestrutura de TI para funcionar.

Em bom português, todas essas empresas grandes, de bilhões de dólares, deixaram de valer seus milhões após exporem ao mundo inteiro a sua maior vulnerabilidade diante da queda dos serviços na Amazon: a falta de contingência, aliada a uma total incapacidade de gerenciar riscos e traçar planos de continuidade de negócio. Nenhum desses serviços iria sofrer interrupções significativas se houvesse uma contingência, uma replicação dos serviços em outra nuvem da Amazon, preferencialmente em datacenters de continentes diferentes. Tome como exemplo os datacenters de empresas que existiam nas Torres Gêmeas, destruídas em 11 de setembro de 2001: ambas as torres caíram – e ambos os datacenters foram perdidos, com bilhões em prejuízos. Quanto vale um Instagram ou um Netflix parados? Quantos projetos deixaram de ser conduzidos sem o Github? E qual é o prejuízo agregado às quedas nesses serviços?

Esse é um sinal claro de que uma nova bolha na Internet está crescendo e pode estourar a qualquer momento, causando perdas para acionistas e investidores – não porque temos uma proliferação de um sem número de empresas querendo imitar as ideias umas das outras ou reinventar a roda. Enquanto essas grandes empresas estiverem “com pegada de startup” e não pensarem com maturidade, o futuro da Internet pode ser incerto. O alerta já havia sido dado em junho, e a lição não foi aprendida. Não devemos cobrar apenas as quedas de serviços da Amazon, mas também – e principalmente – as empresas cujos serviços nós pagamos. Os acionistas devem cobrar resultados pelos seus investimentos, obrigando essas empresas a apresentarem uma gestão de risco mais eficaz e um plano de continuidade do negócio mais sólido. Sem planejamento, sem dinheiro – simples assim.

Lembrando daquela galinha dos ovos de ouro, não é mais lógico ter uma galinha em cada galinheiro, distantes uma da outra e que, se uma delas morrer ou se um galinheiro pegar fogo, a outra continua botando os ovos de ouro (mesmo que sejam menores)? A roda não precisa ser reinventada e nem jogada fora. Precisa apenas funcionar com eficiência e ser movida com competência.