Na última segunda-feira (4) o Facebook ficou “fora do ar” por mais de cinco horas durante a tarde. O apagão recorde da gigante da tecnologia fez surgir uma série de especulações a respeito do que de fato teria acontecido nas dependências da empresa. Uma hipótese bastante discutida nas redes sociais (aquelas que não caíram, claro) foi a possibilidade de a instabilidade ter relação com um ataque hacker.

Para afastar de vez todos os rumores, Santosh Janardhan, vice-presidente de engenharia e infraestrutura do Facebook, esclareceu os motivos do apagão global em um texto publicado no blog “Facebook Engineering”.

De acordo com Janardhan, o apagão no ecossistema da empresa, que inclui Instagram, Messenger e WhatsApp, foi ocasionado por uma série de falhas durante uma uma manutenção de rotina na rede. A primeira falha ocorreu em um sistema conhecido como “Backbone”, responsável por conectar os data centers do Facebook ao redor do mundo. 

A falha em questão aconteceu após um comando para analisar a disponibilidade de capacidade global do suporte de rede ter sido emitido. Isso desconectou a rede e bloqueou a comunicação dos data centers do Facebook. 

Em seguida, o sistema que detecta comandos incorretos também falhou — e não identificou o erro dos data centers. “Isso causou uma desconexão completa de nossas conexões de servidor entre nossos data centers e a Internet”, afirmou Janardhan.

Com os data centers  da empresa fora do ar, os servidores da empresa que gerenciam endereços de internet pararam de funcionar. Isso tornou impossível a internet encontrar os servidores da empresa.

Após detectar as falhas, engenheiros da empresa se esforçaram para repará-las. No entanto, os reparos não puderam ser realizados imediatamente, por conta de limitações impostas pelo sistema de segurança da própria empresa, desenvolvido para conter acessos indevidos.

Mesmo após terem acesso aos data centers, o processo para restabelecer a rede ocorreu de forma lenta, visando evitar uma sobrecarga no sistema que pudesse ocasionar em novas falhas. Por isso, a equipe técnica optou por colocar os servidores online de forma gradual.

Assine a newsletter do Gizmodo

Janardhan finaliza afirmando: “daqui para frente, nosso trabalho é fortalecer nossos testes, exercícios e resiliência geral para garantir que eventos como esse aconteçam o mínimo possível”.