lunedì 21 dicembre 2020

Google: ecco le spiegazioni ufficiali del down mondiale di Youtube, Gmail e tutti gli alti servizi

Google ha finalmente dichiarato, in maniera ufficiale, le motivazioni dietro al down mondiale subito dal loro sistema di autenticazione: down che ha riguardato praticamente tutti gli utenti di questi servizi lo scorso Lunedì. La causa è da  rintracciarsi in un problema interno con la quota storage che ha determinato un interruzione di 45 minuti al sistema di autenticazione. In parole semplici, il fallimento del sistema di autenticazione ha impedito agli utenti di poter fare login nei propri account e accedere ai servizi in Cloud. 

Il risultato, come sappiamo, è stato l'impossibilità di accedere per qualche ora a Gmail, Youtube, Google Drive, Google Maps, Google Calendar e moltissimi altri servizi Google. In dettaglio, gli utenti non potevano inviare email tramite l'app mobile di Gmail o ricevere email via POP3 per il client desktop, mentre gli utenti di Youtube hanno visualizzato un errore "There was a problem with the server (503) - Tap to retry."


L'impatto del down e le cause

"Lunedì 14 dicembre 2020 dalle 03:46 alle 04:33 US / Pacific, tutte le operazioni di emissione delle credenziali e le ricerche dei metadati degli account non hanno funzionato. Di conseguenza, non siamo riusciti a verificare l'autenticazione degli utenti fornendo errori 5xx su tutto il traffico autenticato. La maggior parte dei servizi autenticati ha avuto un impatto: tassi di errore elevati su tutta la Google Cloud Platform, e le Google Workspace API e le Console" ha dichiarato l'azienda in una pagina apposita. "La maggior parte dei servizi autenticati hanno subito disservizi simili: abbiamo registrato un elevatissimo tasso di errori in tutte le piattaforme Google Cloud , Google Console e le API Workspace"

La causa principale del down è da imputarsi quindi alla diminuzione della capacità del sistema di Gestione Centrale Google User ID Service, a causa di un bug che ha influito negativamente sul sistema automatizzato di gestione delle quote. 


Il sistema Google User ID Service
Il servizio di gestione dell'ID utente di Google, origine del down, da Lunedì memorizza ID univoci per tutti gli account Google e gestisce le credenziali di autenticazione sia per i token OAuth che per i cookie. Salva anche i dati degli account utente in un database distribuito, che fa uso del protocollo Paxos per l'aggiornamento delle coordinate durante l'autenticazione. 

Il Servizio User ID, per motivi di sicurezza, rifiuta le richieste qualora riscontri dati obsoleti: ecco perchè tutti i servizi Google che richiedono accesso OAuth sono divenuti indisponibili subito dopo che il servizio ha iniziato a riscontrare problemi e ad emettere ID obsoleti. 

"Google utilizza una suite sempre in evoluzione di strumenti che gestiscono automaticamente la quota di risorse che devono essere assegnate ai vari servizi. Ad Ottobre, nell'ambito di una migrazione del servizio ID utente a un nuovo sistema di quote, parti del sistema precedente sono state lasciate attive: il sistema riportava quindi erroneamente l'utilizzo del servizio ID Utente a 0". 

Una volta abilitati i nuovi criteri quindi, cioè Lunedì scorso, è stato subito impedito l'accesso alla scrittura sui protocolli Paxos e, in breve, tutte le operazioni di lettura sono divenute obsolete: "la quota degli account per il database è stata ridotta, cosa che ha impedito a Paxos di poter scrivere" ha dichiarato Google, precisando che questa grave interruzione ha interessato anche gli utenti e gli strumenti interni all'azienda. I problemi quindi non ci sono stati solo per i clienti, ma anche per Google stessa, che ha subito ritardi nelle indagini sull'interruzione, nella segnalazione e negli update. 

Gmail va giù due volte nello stesso giorno
Gmail invece ha subito un doppio down determinando un perdurarsi di problematiche di 7 ore circa per tutti i suoi utenti. Il problema in questo caso determinava l'impossibilità o il ritardo nella consegna delle email:

"Il messaggio di errore indicava che l'indirizzo email non esisteva: in questi casi le email non sono mai state spedite. I mittenti riguardati dal problema potrebbero aver ricevuto un bounce email generato da un servizio SMTP intermedio. In alcuni casi, il messaggio di errore dell' SMTP era citato nell'email, in base alla configurazione dei client SMTP esterni in connessione col servizio SMTP di Google" ha dichiarato Google con una apposita nota, consultabile qui

La causa di questa seconda interruzione? Una migrazione in corso per eseguire l'update del sistema di configurazione sottostante al servizio SMTP in entrata di Gmail. 

Nessun commento:

Posta un commento