Será que o pessoal do Google ainda não assimilou que o Gmail já é o terceiro serviço de emails mais popular dos Estados Unidos? (E, provavelmente, também está entre os três ou cinco mais populares do mundo?) A repercussão da falha desta tarde — que não foi gravíssima, mas demorou tempo suficiente pra quase derrubar o Twitter com tanta gente reclamando ao mesmo tempo — foi tão grande que os caras se sentiram na obrigação de prestar um depoimento sobre o ocorrido.
Resumindo a história toda, os engenheiros do Google tiraram alguns servidores do ar no começo da tarde para manutenção de rotina e não perceberam que o nível de acessos ao Gmail estava tão alto que rapidamente começou a sobrecarregar e travar servidores de roteamento, vitais para acesso ao serviço.
Ocorre que as contas e dados de todos os usuários do Gmail estão espalhados e duplicados em uma infinidade de servidores em diferentes data centers, porém o acesso tem que se dar a partir de roteadores, que direcionam as requisições para cada servidor. Como esses “encaminhadores” começaram a ser derrubados, ninguém mais conseguia acessar o Gmail. Curiosamente, o acesso via IMAP e POP não foi comprometido, porque os roteadores usados para eles são diferentes.
Segundo informa o Google Apps Status Dashboard (screenshot registrada acima), a falha do serviço durou pouco mais de uma hora e meia (cerca de 100 minutos, no total), começando um pouco antes das 17 horas (pelo horário de Brasília) e só se normalizando depois das 18h30. Somente com esta queda, o uptime do Gmail no mês caiu para cerca de 99,7%, quando a meta do Google é mantê-lo online por pelo menos 99,9% do tempo.
Ben Treynor, vice-presidente de engenharia e “czar” de confiabilidade de sites do Google, afirma que o episódio serviu para que a sua equipe percebesse que algumas medidas precisam ser tomadas para garantir que o serviço permaneça acessível mesmo com sobrecargas como a de hoje. A infraestrutura de roteadores do Google será mais bem equipada e os seus engenheiros trabalharão para garantir que problemas num data center não mais afetem o acesso a outros.
“Gostaria de pedir desculpas a todos vocês. A falha de hoje foi um Grande Problema, e nós a estamos tratando como tal”, afirmou Ben. Que bom, eu (e muita gente) fico contente por isso.