Social Network

Fastly non cerca scuse: «Avremmo dovuto prevedere il problema»

Il fornitore di servizi di cloud computing americano che ieri è andato in down - compromettendo il funzionamento di importantissimi siti - ha spiegato la situazione

Un comportamento che, almeno dal punto di vista della comunicazione, non fa una piega. Nella giornata di ieri, abbiamo documentato il down del servizio di cloud computing statunitense Fastly che ha causato l’interruzione – per un periodo di tempo limitato – di importantissimi siti in tutto il mondo. In Italia, ad esempio, tutta la galassia RCS (dal Corriere della Sera alla Gazzetta dello Sport) hanno sperimentato il blackout della CDN, ma in tutto il resto del mondo ci sono state altre vittime eccellenti come il NewYork Times, la CNN, addirittura social network come Reddit e persino Amazon (che, pur avendo una CDN proprietaria, si appoggia anche ad altre CDN per gli ingenti volumi di traffico che si trova a gestire). Ma, il giorno dopo, cosa ha fatto Fastly per rimediare all’errore? Semplicemente non ha trovato scusanti, ma si è assunto le proprie responsabilità, affermando che – pur essendo stato un problema molto specifico a causare il down – avrebbe dovuto prevederlo. Ecco le cause interruzione Fastly.

Fastly e le scuse ai clienti e agli utenti del web

Nick Rockwell, Senior Vice President dell’infrastruttura tecnologica di Fastly, ci ha messo la faccia, pubblicando sul blog ufficiale dell’azienda una lunga dichiarazione in cui ha spiegato, punto per punto, quello che è successo nella giornata di ieri. La causa di quanto accaduto non è da ricercarsi nelle ultime 24 ore, ma risale al 12 maggio scorso, quando Fastly ha avviato una implementazione del suo software che portava con sé – nascosto tra i codici – un bug. Questo bug poteva essere attivato in seguito a una specifica configurazione richiesta da un cliente. Effettivamente, è quello che è successo ieri.

Il bug, che se ne stava silente dal 12 maggio, è stato attivato quando il cliente ha eseguito una determinata azione di configurazione del servizio. L’errore nel sistema è stato individuato in un minuto. Ma individuare è un conto, risolvere è un altro. E, in effetti, secondo quanto dichiarato da Rockwell, dopo l’identificazione del bug da parte di Fastly monitoring, l’azienda ci ha messo 49 minuti per recuperare il 95% dei suoi servizi.

Dalle 17.25 di ieri pomeriggio, invece, è iniziata la distribuzione della correzione dei bug. Un problema, dunque, concreto – che nulla aveva a che fare con gli attacchi hacker – che l’azienda si è trovata a fronteggiare. Non ci sono state scuse: «Anche se c’erano condizioni specifiche che hanno attivato questa interruzione – ha detto Rockwell -, avremmo dovuto prevederla. Forniamo servizi mission critical e trattiamo qualsiasi azione che possa causare problemi di servizio con la massima sensibilità e priorità. Ci scusiamo per l’interruzione con i nostri clienti e con coloro che si affidano a noi e ringraziamo sinceramente la comunità per il suo supporto». Nel frattempo, è partita un’indagine interna all’azienda per capire come sia stato possibile non aver rilevato il bug durante le operazione di controllo qualità dei software.