Facebook down, il disastro durante una manutenzione di routine: «Effetto domino rapidissimo per un bug»

Durante una delle attività di gestione, è stato emesso un comando per valutare la tenuta del sistema centrale del colosso. Un errore, ha impedito di ripristinare immediatamente i data center

Si è trattato di un guasto informatico comparso durante un intervento di ordinaria manutenzione al sistema informatico che gestisce la “spina dorsale” di Facebook. Un bug, come lo chiamerebbero gli informatici. È questo l’errore di sistema che nel pomeriggio di lunedì scorso, 4 ottobre, ha messo k.o., per oltre 7 ore, il social network e tutti i servizi compresi come Instagram e WhatsApp. A spiegarlo in un post sul blog ufficiale degli ingegneri di Facebook è Santosh Janardhan, vice presidente del gruppo. «Il traffico dati tra tutte le strutture informatiche di Facebook è gestito da router, che determinano dove indirizzare i dati in entrata e in uscita. Nell’ampio lavoro quotidiano di manutenzione, i nostri ingegneri hanno spesso bisogno di mettere offline parte della dorsale, ad esempio quando riparano una linea in fibra, devono aggiungere capacità di banda o aggiornare il software dei router», ha detto.


Cosa c’è dietro il blackout

Durante una delle attività di gestione, è stato emesso un comando per valutare la tenuta del sistema centrale del colosso. Un errore, un bug, ha impedito di ripristinare immediatamente i data center di Facebook a livello globale, lasciandoli offline. Dopo la prima disconnessione, un effetto domino rapidissimo ne ha create altre a catena, generando un blackout generale. Un «situazione particolarmente critica», com’è stata definita. «Tutto è successo molto velocemente – continua Janardhan – e mentre i nostri ingegneri lavoravano per capire cosa stava succedendo, hanno dovuto affrontare l’impossibilità di accedere ai data center con i normali mezzi, perché le reti non funzionavano, e l’indisponibilità degli strumenti che usiamo normalmente per indagare i blackout». Il danno è stato comunque arginato al meglio, dal momento che Facebook è preparata a scenari critici del genere grazie alle “esercitazioni tempesta”, che simulano un grave guasto del sistema, mettendo offline un servizio, un data center o un’intera regione. «Da qui in poi, il nostro compito è rafforzare i nostri test, esercitazioni e resilienza generale, per assicurarci che eventi come questo accadano il più raramente possibile», ha concluso la vice presidente.


Leggi anche: