Downtime do facebook impactou mais do que você imagina

Downtime do facebook impactou mais do que você imagina

"Talvez o objetivo hoje em dia não seja descobrir o que somos, mas recusar o que somos" - Michel Foucault

Ontem, dia 04/10/2021, presenciamos um dos maiores "outages" (pelo menos em questão de usuários) já vistos nos últimos anos. Basicamente o Facebook, Whatsapp e Instagram ficaram fora do ar por várias horas. Isso ocasionou um efeito em cascata monstruoso, pois além de limitar a comunicação de bilhões de pessoas, fez com que um movimento massivo em busca de novas formas de conversar sobrecarregasse as redes analógicas e digitais.

O update "criminoso" que causou todo o problema (Cloudfare)

Basicamente aconteceu uma mudança envolvendo o BGP que é uma ferramenta responsável por mostrar para a rede global como encontrar aquele site, que especifica roteamentos e endereços, ou seja, basicamente essa mudança errada fez com que o Facebook se apagasse da internet. Segundo o Cloudfare, mais ou menos as 15:40 UTC, o Facebook começou a fazer várias mudanças no BGP, e alguns momentos mais tarde, todos os endereços de rede da empresas estavam indisponíveis, o próprio Cloudfare tem um DNS Resolver gratuito (1.1.1.1) para que as pessoas testem a disponibilidade de algumas rotas, como o retorno foi negativo, as pessoas continuaram tentando e tentando de novo, sobrecarregando mais e mais a rede, o tráfego dobrou e causou mais alvoroço na internet. Não só DNS do facebook.com mas também do whatsapp e do instagram começaram a falhar. O efeito em cascata impactou meu uso no Telegram, por exemplo, uma rede que utilizo tanto quanto Whatsapp e com o aumento súbito de usuários começou a ter problemas na sustentação do serviço (mas se manteve no ar). Não só isso, o Twitter que se manteve no ar também mostrou uma latência bem grande durante uma parte do dia.

Claro de El Salvador com problemas

Bom, algumas pessoas tentaram utilizar o SMS (inclusive eu), porém, também tive problemas no envio de mensagens, várias falhando, não apenas no Brasil mas também na Noruega, Romênia, El Salvador. As linhas telefônicas se saturaram subitamente, quem estuda Teoria de Filas sabe o impacto monstruoso de um fluxo x vezes maior que o normal. Algumas pessoas acreditam que essa falha pode ter sido intencional, já que alguns minutos antes a entrevista de um ex-funcionário denunciando práticas anti-éticas do facebook foi ao ar no programa "60 minutes", onde ele expõe a negligência da empresa a temas como "burnout", suicídio, "crunching".As consequências disso para o próprio facebook foram ruins também. Funcionários tiveram que ir presencialmente para reiniciar servidores e estavam com dificuldade de entrar no prédio já que os crachás não estavam passando. O prejuízo financeiro da companhia foi "grande", alguns bilhões de dólares a menos na conta do Zuck, e notícias para mais de uma semana, além de um zilhão de postagens em blogs como este explicando o que é BGP, DNS, DHCP, ASN, entre outros termos de redes de computadores, muitos memes e um experimento social forçado: Como as pessoas reagem à falta dos aplicativos que mais utilizam no dia a dia? Minha família tentou migrar o grupo do whatsapp para o telegram. Ainda mais em tempos de pandemia, comunicação digital se tornou algo mais essencial ainda. Será que outras pessoas de tecnologia vão tentar bolar planos e projetos visando esse tipo de situação? Provavelmente. E nos próximos meses, quantos papers não serão publicados graças a isso?

A internet não perdoa

Sistemas não são perfeitos, sempre haverá margem para erro humano ou falhas não pensadas, esse tempo de outage foi enorme, provavelmente tentando prevenir algo erro de caching sobre o TTL do NXDOMAIN, o que deixaria pior a situação do facebook quando os serviços voltassem ao ar. Ao mesmo tempo, vimos que a migração em massa de redes sociais é um problema já que escalar infra é algo caro e dependendo do serviço, bem demorado.

Running BGP in Data Centers at Scale - Facebook Research
In this paper, we present Facebook’s BGP-based data center routing design and how it marries data center’s stringent requirements with BGP’s functionality. We present the design’s significant artifacts, including the BGP Autonomous System Number (ASN) allocation, route summarization, and our sophist…
Recomendo a leitura (mais técnico)