martedì 5 ottobre 2021

Facebook, Instagram e Whatsapp down: down globale per un'errata configurazione del DNS

Alle 17.30 circa di Lunedì 4 ottobre (ora italiana) utenti da tutto il mondo hanno iniziato a segnalare malfunzionamenti, o completa incapacità di accesso al servizio, per Facebook, Instagram e Whatsapp. Crediamo che ce ne siamo conto un pò tutti, mentre spostavamo le conversazioni con amici e colleghi su Telegram, Signal e altre app... 

I tentativi di aprire uno dei 3 siti web davano lo stesso risultato: DNS_PROBE_FINISHED_NXDOMAIN e veniva quindi consigliato di verificare l'eventuale presenza di errori di battitura nel dominio scritto nella barra degli indirizzi.  Gli utenti mobile invece, al malfunzionamento delle app, vedevano il messaggio "Per favore, verifica la tua connessione internet e riprova più tardi". Perfino il sito .onion di Facebook mostrava lo stesso errore dei DNS. 



Alcune verifiche da parte dei ricercatori, in assenza di comunicazioni ufficiali da parte di Facebook e delle sue controllate, hanno verificato come i server DNS di Facebook, Instagram e Whatsapp non stessero rispondendo, evidenza che suggeriva o una problematica sui server o una errata configurazione dei DNS. 

Bleeping Computer ha reso pubblica una immagine che ritrae, per l'appunto, una di queste verifiche: la risposta è piuttosto eloquente.

Fonte: bleepingcomputer.com

La situazione è tornata, lentamente, alla normalità verso le 23.30 ora italiana. 

La prima dichiarazione ufficiale, dal punto di vista delle cause tecniche, è arrivata nella mattina di Martedì 5 ottobre: "i nostri team di ingegneri hanno riscontrato che le modifiche alla configurazione sui router della dorsale che coordinano il traffico di rete tra i nostri data center hanno causato problemi che hanno interrotto la comunicazione” ha dichiarato Santosh Janardhan, VP for Engineering and Infrastructure a Facebook. "Ciò ha causato l'interruzione del traffico di rete e ha avuto un effetto a cascata sulle modalità con cui comunicano i nostri data center, causando l'interruzione dei servizi" ha concluso. Santosh Janardhan ha inoltre rassicurato gli utenti: "non ci sono prove che i dati degli utenti siano stati compromessi nell'arco di questo downtime" ha fatto sapere. Insomma non c'è stato l'attacco hacker del secolo, ma "solo" un errore di configurazione avvenuto però, su una delle infrastrutture più grandi del mondo. 

Dichiarazione che ha confermato i sospetti della comunità dei ricercatori che, durante il blocco delle app, avevano già supposto che i problemi riguardassero il Domain name System il Border gateway protocol (BGP) di Facebook, cioè due fattori fondamentali dell'infrastruttura Internet per instradare correttamente i dati: se il primo assegna i vari nomi ai nodi della rete, il secondo contiene le informazioni necessarie per raggiungere un indirizzo IP. Cloudflare ha spiegato che l'errore di Facebook, avvenuto in seguito ad una serie di aggiornamenti, è stato che queste modifiche hanno "dichiarato" al BGP, in pratica, che quei percorsi verso Facebook non esistevano più. Insomma, come cercare una casa in una via che non esiste sulla mappa. 

I problemi non hanno riguardato solo i servizi di Facebook e delle sue controllate, ma anche gli uffici e le infrastrutture interne, fatto che ha reso ancora  più complesso per i tecnici ottenere diagnosi veloce e risolvere il problema. Il New York Times ha riferito alcuni racconti dei dipendenti Facebook, Instagram e Whatsapp, nei quali si denunciava l'impossibilità di accedere al sistema email aziendale, ai tool e ai server stessi. Qualcuno, addirittura, non riusciva ad entrare in ufficio a causa del down completo del sistema di verifica degli accessi tramite badge. 

In ogni caso, ad ora, è tornato tutto alla normalità: i malfunzionamenti al sistema DNS hanno impedito di risolvere il problema da remoto, così Facebook ha inviato in loco un team di tecnici e ingegneri che ha corretto manualmente la configurazione errata. 

Interruzioni di verifica di questo tipo non sono frequenti, ma capitano: il più recente quello occorso ad Akamai, ma anche a Fastly ecc... il problema è che, quando capitano, producono danni di immagine ed economici di proporzioni epiche. 

Nessun commento:

Posta un commento