Cerca de 48 horas após a maior pane de seu serviço, a Amazon está admitindo o que causou o problema. Aparentemente, um pobre engenheiro da Amazon Web Services (AWS) “comeu bola” e derrubou boa parte da internet.

• Como um erro da Amazon pode destruir a internet
• Parece que a Amazon vai mesmo trazer o Audible para o Brasil

Falando sério agora, é uma história delicada. Veja abaixo como a Amazon a descreveu em uma publicação recente de blog:

Às 9:37 da manhã, no horário padrão do Pacífico (cinco horas a menos que o horário de Brasília), um membro autorizado da equipe do S3 usando um manual oficializado, executou um comando que pretendia remover um pequeno número de servidores de um dos subsistemas do S3, usado para o processo de faturamento do S3. Infelizmente, uma das entradas no comando foi feita incorretamente, e um conjunto maior do que o pretendido de servidores foi removido.

Todo o mundo já passou por isso. Você aperta o botão errado e acaba recebendo uma Sprite em vez de uma Coca. Mas esse pobre rapaz ou garota provavelmente apertou uma tecla errada que paralisou a AWS por pelo menos quatro horas. Já que um terço de todo o tráfego da internet supostamente flui por meio dos servidores da AWS, deletar um monte desses servidores ferrou o dia de algumas pessoas.

Na teoria, uma série de seguros contra falhas deveriam evitar a catástrofe por um erro tão pontual, mas a Amazon diz que alguns de seus sistemas primordiais envolvidos não havia sido completamente reiniciado em muitos anos e “levou mais do que o esperado” para ficar online novamente.

A empresa agora alega que está fazendo “diversas mudanças como resultado desse evento operacional”. Uma delas envolverá modificar uma ferramenta para que um número grande de servidores não possa ser deletado de uma vez. O que faz muito sentido, mas ainda não resolve problemas do inesperado (como, digamos, uma reinicialização mais lenta do que o esperado) em uma internet que depende tão fortemente de um só serviço.

Enquanto isso, que este texto sirva como uma mensagem ao pobre engenheiro da AWS que cometeu um pequeno erro que levou a enormes consequências: todo mundo erra.

Entramos em contato com a Amazon para descobrir mais detalhes sobre o incidente, especificamente o destino do pobre engenheiro que causou o problema. Atualizaremos esta publicação se tivermos uma resposta.

[Amazon]